info@promosite.ru |
blog.promosite.ru беспочвенные фантазии о поисковых системах и бизнесе |
|||||||||||||||
Постинги: 13:55 / 16.02.2010 08:56 / 12.02.2010 15:20 / 11.02.2010 Смотрим сейчас: 17:49 / 04.02.2010 почему они все такие - ч. 1 09:32 / 01.02.2010 12:24 / 30.01.2010 12:15 / 30.01.2010 Последние камменты по времени |
17:49 - Thursday, 4th February 2010 почему они все такие - ч. 1
Вот. Насчет алгоритмов и прочего обучения. Поисковики такие поисковики. Они такие думают, что достаточно набрать побольше разных факторов, оценки асессоров насобирать, натравить обучалки. Обучалки, жадные, всю эту кучу данных зохавают и родят Формулу. Чудесным Образом. Но я как-то думаю, что чудесным образом ничего не родится. Вот вам из Гашека:
Вот вам параметры, куча параметров. Окна, квартиранты, т.д. А теперь скажите, господа... Так же и с яндексом. Вот вам число слов запроса на странице, нормированное и абсолютное, и в точных формах и неточных. И то же самое в ссылочном массиве. И то же по фразам - фразовые соотвествия, в контекстных ограничениях, и без ограничений. И т.д., до 250. ...И все это перемножить. ( :) шариковское "и поделить") ...и зохавать в обучение. ...А теперь скажите господа, насколько релевантна страница запросу? Результат в общем случае - непонятно какой. Естественно, часть параметров более-менее какой-то смысл имеет... Большая часть - никакого. Большая часть - непонятный смысл, типа а вдруг получится. Ну так и выдача - тоже непонятно какая. ======== Общий мысль вот какой: Дело не в обучалках. Дело в наборе факторов. Если у вас придуман прорывный, новый фактор (пример: пейджранк в свои годы), то его хоть в обучалку загнать, хоть просто в виде ручной формулы учитывать - толк будет. И хорошо искать будет. А если ваши факторы - херня, то вся ваша королевская конница будет решать задачку выше - про бабушку. И искать будет типа так:
Это я все к чему. К тому, что нет тут никакого огромного "порога входа". Просто надо пробовать. Придумай хороший набор параметров - и будешь искать хорошо. Пусть даже новичок. А то тов. Ашманов говорит - принесите 5-10 лямов, и сделаем поиск. Так тот поиск будет - как у всех. Как у рамблера, который самизнаетегде. ====== Высер еще не закончен, ждите продолжения
G00DMAN
Вот вам параметры, куча параметров. Окна, квартиранты, т.д. А теперь скажите, господа...
Так же и с яндексом. Вот вам число слов запроса на странице, нормированное и абсолютное, и в точных формах и неточных. И то же самое в ссылочном массиве. И то же по фразам - фразовые соотвествия, в контекстных ограничениях, и без ограничений. И т.д., до 250.
...И все это перемножить. ( :) шариковское "и поделить") С "перемножить" я тоже не согласен, можно было красивее решить. :)
Естественно, часть параметров более-менее какой-то смысл имеет... Большая часть - никакого. Большая часть - непонятный смысл, типа а вдруг получится. В этом в целом есть смысл, когда параметров нужно много, а придумывалка осмысленных истощилась. :)
Дело не в обучалках. В них тоже, обучалка должна быть быстрой, иначе никак.
Дело в наборе факторов. Если у вас придуман прорывный, новый фактор (пример: пейджранк в свои годы), то его хоть в обучалку загнать, хоть просто в виде ручной формулы учитывать - толк будет. И хорошо искать будет. Абсолютно согласен. Нужны новые креативные факторы, как частотные, так и структурные.
К тому, что нет тут никакого огромного "порога входа". Просто надо пробовать. Придумай хороший набор параметров - и будешь искать хорошо. Так вроде пробуют... Вопрос - на сколько активно.
А то тов. Ашманов говорит - принесите 5-10 лямов, и сделаем поиск. Так тот поиск будет - как у всех. Как у рамблера, который самизнаетегде. Похоже что поиск будет. Точнее - принесут Ашманову. Но кончится конечно же как всегда - с одной стороны Игорь с баблом и технологиями, с другой - удивленные инвесторы. :D
NULL
Дело не в обучалках. Дело в наборе факторов. Дело и в обучалке и в наборе факторов.
Сначала об обучалке. Идеологи из Яндекса считают, что асессоры+обучалка дадут результат лучше, чем какая-нибудь статическая формула над набором факторов. Но лично мой опыт подсказывает, что любая обучалка - это палка с двумя концами. От обучалок иногда бывает вред.
Вспомним некоторые "обучаемые" математические модели. Самый явный пример - нейронные сети. Любая статья по НС упоминает обучение. Кто нибудь знает успешный коммерческий проект, использующий нейронные сети? Нишевые продукты (типа для форексов) не упоминать, ибо человеку с улицы тяжело отделить зерно истины от маркетинговой шелухи. CuneiForm? Он не конкурент ФайнРидеру, который прекрасно обходится без обучаемых нейронных сетей.
Другой, менее очевидный, пример с обучением - это полиномиальная интерполяция. Тут вообще все просто - чем больше факторов учитываем (чем больше степень полинома) - тем менее монотонна (и предсказуема) функция между узлами интерполяции.
Резюмирую - "обучаемые" алгоритмы капризны и редко когда бывают эффективны.
Если у вас придуман прорывный, новый фактор (пример: пейджранк в свои годы), то его хоть в обучалку загнать, хоть просто в виде ручной формулы учитывать - толк будет. Никто его не нашел этот новый фактор, хотя ищут все очень упорно. От долгих и бесплодных поисков народ бросается в разные "ереси". Нигма и Квинтура ударились в юсабилити - отсюда всякие поисковые кластеры и "визуальный поиск". Другой путь сублимации проблемы поиска нового фактора - это замена его на сотни факторов поменьше: тут и Гугл со своими 130-ю параметрами и Яндекс сначала с сотнями факторов, а потом уже и с тысячами. Просто Яндекс по второму пути решил пойти дальше - использовать не просто набор, а Формулу ( (C) Е. Трофименко =)
Но с другой стороны, и в наши дни происходят интересные открытия на "больших" графах, может если глубже копнуть, то кто-нибудь и найдет "новый PageRank".
G00DMAN
Резюмирую - "обучаемые" алгоритмы капризны и редко когда бывают эффективны. НС на форексе применяют в 99.99% случаев наивняки от науки, не верьте им. :)
Что касается машинного обучения - его применяют сегодня все ПС, и достаточно эффективно. Яндекс и мелкософт даже пишут об этом открыто, покопайтесь в сети. :)
От машинного обучения можно будет уйти только в том случае, если появится математически красивая и алгоритмически быстрая "теория языка".
Никто его не нашел этот новый фактор, хотя ищут все очень упорно. От долгих и бесплодных поисков народ бросается в разные "ереси". Нигма и Квинтура ударились в юсабилити - отсюда всякие поисковые кластеры и "визуальный поиск". Другой путь сублимации проблемы поиска нового фактора - это замена его на сотни факторов поменьше: тут и Гугл со своими 130-ю параметрами и Яндекс сначала с сотнями факторов, а потом уже и с тысячами. Просто Яндекс по второму пути решил пойти дальше - использовать не просто набор, а Формулу ( (C) Е. Трофименко =) Никто и не найдет никакого супер-фактора, нет его и не может быть. Все упирается в набор применяемых сегодня факторов, и этот набор не всем нравится, нужно серьезно дорабатывать. :)
Также нужно что-то делать и с метрикой качества в Яндексе, текущая очевидно не справляется в коммерческой тематике.
Но с другой стороны, и в наши дни происходят интересные открытия на "больших" графах, может если глубже копнуть, то кто-нибудь и найдет "новый PageRank". И что там интересного? Пародия на пэйджранк, если немного подумать. ;)
Добавить комментарий? |
|
||||||||||||||