euhenio

info@promosite.ru
blog.promosite.ru
беспочвенные фантазии о поисковых системах и бизнесе



 Постинги:

13:55 / 16.02.2010
Сделал в апометре - отдельно по конкурентности

08:56 / 12.02.2010
конструкции поиска НПС больше нет в яндексе

15:20 / 11.02.2010
Яндекс-адреса для всех независимо от тИЦ


Смотрим сейчас:
17:49 / 04.02.2010
почему они все такие - ч. 1


09:32 / 01.02.2010
Собрал свою стату по last20

12:24 / 30.01.2010
firefox с yahoo?

12:15 / 30.01.2010
Cognitive продала Яндексу синтаксический анализатор



Последние камменты по времени

17:49 - Thursday, 4th February 2010

почему они все такие - ч. 1

Вот.

Насчет алгоритмов и прочего обучения.

Поисковики такие поисковики. Они такие думают, что достаточно набрать побольше разных факторов, оценки асессоров насобирать, натравить обучалки.

Обучалки, жадные, всю эту кучу данных зохавают и родят Формулу. Чудесным Образом.

Но я как-то думаю, что чудесным образом ничего не родится. Вот вам из Гашека:

Однако мне тоже хочется, господа, задать вам одну загадку,— продолжал он.— Стоит четырехэтажный дом, в каждом этаже по восьми окон, на крыше — два слуховых окна и две трубы, в каждом этаже по два квартиранта. А теперь скажите, господа, в каком году умерла у швейцара бабушка?

Вот вам параметры, куча параметров. Окна, квартиранты, т.д. А теперь скажите, господа...

Так же и с яндексом. Вот вам число слов запроса на странице, нормированное и абсолютное, и в точных формах и неточных. И то же самое в ссылочном массиве. И то же по фразам - фразовые соотвествия, в контекстных ограничениях, и без ограничений. И т.д., до 250.

...И все это перемножить. ( :) шариковское "и поделить")

...и зохавать в обучение.

...А теперь скажите господа, насколько релевантна страница запросу?

Результат в общем случае - непонятно какой. Естественно, часть параметров более-менее какой-то смысл имеет... Большая часть - никакого. Большая часть - непонятный смысл, типа а вдруг получится.

Ну так и выдача - тоже непонятно какая.

========

Общий мысль вот какой:

Дело не в обучалках. Дело в наборе факторов. Если у вас придуман прорывный, новый фактор (пример: пейджранк в свои годы), то его хоть в обучалку загнать, хоть просто в виде ручной формулы учитывать - толк будет. И хорошо искать будет.

А если ваши факторы - херня, то вся ваша королевская конница будет решать задачку выше - про бабушку. И искать будет типа так:

— Радий тяжелее олова?

— Я его, извиняюсь, не вешал,— со своей милой улыбкой ответил Швейк.

***

— Не знаете ли вы, какова наибольшая глубина в Тихом океане?

— Этого, извините, не знаю,— послышался ответ,— но думаю, что там наверняка будет глубже, чем под Вышеградской скалой на Влтаве.

***

— Сколько будет, если умножить двенадцать тысяч восемьсот девяносто семь на тринадцать тысяч восемьсот шестьдесят три?

— Семьсот двадцать девять,— не моргнув глазом, ответил Швейк.

— Я думаю, вполне достаточно,— сказал председатель комиссии. — Можете отвести обвиняемого на прежнее место.

Это я все к чему.

К тому, что нет тут никакого огромного "порога входа". Просто надо пробовать. Придумай хороший набор параметров - и будешь искать хорошо. Пусть даже новичок.

А то тов. Ашманов говорит - принесите 5-10 лямов, и сделаем поиск. Так тот поиск будет - как у всех. Как у рамблера, который самизнаетегде.

======

Высер еще не закончен, ждите продолжения

Раздел Поисковики, сообщение: http://blog.promosite.ru/comments.php?1180

Комментарии:

G00DMAN

Вот вам параметры, куча параметров. Окна, квартиранты, т.д. А теперь скажите, господа...

Так же и с яндексом. Вот вам число слов запроса на странице, нормированное и абсолютное, и в точных формах и неточных. И то же самое в ссылочном массиве. И то же по фразам - фразовые соотвествия, в контекстных ограничениях, и без ограничений. И т.д., до 250.

...И все это перемножить. ( :) шариковское "и поделить")

С "перемножить" я тоже не согласен, можно было красивее решить. :)

Естественно, часть параметров более-менее какой-то смысл имеет... Большая часть - никакого. Большая часть - непонятный смысл, типа а вдруг получится.

В этом в целом есть смысл, когда параметров нужно много, а придумывалка осмысленных истощилась. :)

Дело не в обучалках.

В них тоже, обучалка должна быть быстрой, иначе никак.

Дело в наборе факторов. Если у вас придуман прорывный, новый фактор (пример: пейджранк в свои годы), то его хоть в обучалку загнать, хоть просто в виде ручной формулы учитывать - толк будет. И хорошо искать будет.

Абсолютно согласен. Нужны новые креативные факторы, как частотные, так и структурные.

К тому, что нет тут никакого огромного "порога входа". Просто надо пробовать. Придумай хороший набор параметров - и будешь искать хорошо.

Так вроде пробуют... Вопрос - на сколько активно.

А то тов. Ашманов говорит - принесите 5-10 лямов, и сделаем поиск. Так тот поиск будет - как у всех. Как у рамблера, который самизнаетегде.

Похоже что поиск будет. Точнее - принесут Ашманову. Но кончится конечно же как всегда - с одной стороны Игорь с баблом и технологиями, с другой - удивленные инвесторы. :D

NULL

Дело не в обучалках. Дело в наборе факторов.

Дело и в обучалке и в наборе факторов.

Сначала об обучалке. Идеологи из Яндекса считают, что асессоры+обучалка дадут результат лучше, чем какая-нибудь статическая формула над набором факторов. Но лично мой опыт подсказывает, что любая обучалка - это палка с двумя концами. От обучалок иногда бывает вред.

Вспомним некоторые "обучаемые" математические модели. Самый явный пример - нейронные сети. Любая статья по НС упоминает обучение. Кто нибудь знает успешный коммерческий проект, использующий нейронные сети? Нишевые продукты (типа для форексов) не упоминать, ибо человеку с улицы тяжело отделить зерно истины от маркетинговой шелухи. CuneiForm? Он не конкурент ФайнРидеру, который прекрасно обходится без обучаемых нейронных сетей.

Другой, менее очевидный, пример с обучением - это полиномиальная интерполяция. Тут вообще все просто - чем больше факторов учитываем (чем больше степень полинома) - тем менее монотонна (и предсказуема) функция между узлами интерполяции.

Резюмирую - "обучаемые" алгоритмы капризны и редко когда бывают эффективны.

Если у вас придуман прорывный, новый фактор (пример: пейджранк в свои годы), то его хоть в обучалку загнать, хоть просто в виде ручной формулы учитывать - толк будет.

Никто его не нашел этот новый фактор, хотя ищут все очень упорно. От долгих и бесплодных поисков народ бросается в разные "ереси". Нигма и Квинтура ударились в юсабилити - отсюда всякие поисковые кластеры и "визуальный поиск". Другой путь сублимации проблемы поиска нового фактора - это замена его на сотни факторов поменьше: тут и Гугл со своими 130-ю параметрами и Яндекс сначала с сотнями факторов, а потом уже и с тысячами. Просто Яндекс по второму пути решил пойти дальше - использовать не просто набор, а Формулу ( (C) Е. Трофименко =)

Но с другой стороны, и в наши дни происходят интересные открытия на "больших" графах, может если глубже копнуть, то кто-нибудь и найдет "новый PageRank".

G00DMAN

Резюмирую - "обучаемые" алгоритмы капризны и редко когда бывают эффективны.

НС на форексе применяют в 99.99% случаев наивняки от науки, не верьте им. :)

Что касается машинного обучения - его применяют сегодня все ПС, и достаточно эффективно. Яндекс и мелкософт даже пишут об этом открыто, покопайтесь в сети. :)

От машинного обучения можно будет уйти только в том случае, если появится математически красивая и алгоритмически быстрая "теория языка".

Никто его не нашел этот новый фактор, хотя ищут все очень упорно. От долгих и бесплодных поисков народ бросается в разные "ереси". Нигма и Квинтура ударились в юсабилити - отсюда всякие поисковые кластеры и "визуальный поиск". Другой путь сублимации проблемы поиска нового фактора - это замена его на сотни факторов поменьше: тут и Гугл со своими 130-ю параметрами и Яндекс сначала с сотнями факторов, а потом уже и с тысячами. Просто Яндекс по второму пути решил пойти дальше - использовать не просто набор, а Формулу ( (C) Е. Трофименко =)

Никто и не найдет никакого супер-фактора, нет его и не может быть. Все упирается в набор применяемых сегодня факторов, и этот набор не всем нравится, нужно серьезно дорабатывать. :)

Также нужно что-то делать и с метрикой качества в Яндексе, текущая очевидно не справляется в коммерческой тематике.

Но с другой стороны, и в наши дни происходят интересные открытия на "больших" графах, может если глубже копнуть, то кто-нибудь и найдет "новый PageRank".

И что там интересного? Пародия на пэйджранк, если немного подумать. ;)

Добавить комментарий?

ДОБАВЛЕНИЕ КОММЕНТАРИЯ
СЮДА ЧЕРЕЗ ТЕМУ ФОРУМА
http://forum.promosite.ru/viewtopic.php?t=1180

Вы раньше уже комментировали записи блога? Тогда Вы уже зарегистрированы на форуме http://forum.promosite.ru/, именно там теперь появляются посты и комментарии можно делать оттуда же. Все комментарии оттуда автоматом появляются здесь. Только для зарегистрированных пользователей!

Восстановите свой пароль!

Эта возможность доступна тем, кто хоть раз вводил свой емейл и имя здесь. Этот же емейл прописан как регистрационный в вашем аккаунте на forum.promosite.ru. Вы можете восстановить пароль, введя имя и мейл, которые напоминаются ниже:
Напоминание: У Вас не сохранилось cookie, которое Вам поставил блог. Поэтому невозможно сказать имя и емейл, которые Вы вбивали при комментировании и которые Вам нужны для восстановления пароля.

Со страницы http://blog.promosite.ru/phpbb_remind.php Вы можете ввести свой емейл, и получить логины, под которыми Вы заходили (и которые есть в зарегистрированных усастниках форума), логин нужен для восстановления пароля.

Если не удается восстановить пароль или ваш логин уже занят - свяжитесь с Евгением Трофименко по почте info@promosite.ru. Если я вас более-менее знаю, с удовольствием передам Ваш ник на форуме (сменю емейл в восстановилке на рабочий, например).


Jan<-  ->Jul
ПнВтСрЧтПтСбВс