почему они все такие – ч. 1

Вот.
Насчет алгоритмов и прочего обучения.
Поисковики такие поисковики. Они такие думают, что достаточно набрать побольше разных факторов, оценки асессоров насобирать, натравить обучалки.
Обучалки, жадные, всю эту кучу данных зохавают и родят Формулу. Чудесным Образом.
Но я как-то думаю, что чудесным образом ничего не родится. Вот вам из Гашека:

Однако мне тоже хочется, господа, задать вам одну загадку,— продолжал он.— Стоит четырехэтажный дом, в каждом этаже по восьми окон, на крыше — два слуховых окна и две трубы, в каждом этаже по два квартиранта. А теперь скажите, господа, в каком году умерла у швейцара бабушка?

Вот вам параметры, куча параметров. Окна, квартиранты, т.д. А теперь скажите, господа…
Так же и с яндексом. Вот вам число слов запроса на странице, нормированное и абсолютное, и в точных формах и неточных. И то же самое в ссылочном массиве. И то же по фразам – фразовые соотвествия, в контекстных ограничениях, и без ограничений. И т.д., до 250.
…И все это перемножить. ( 🙂 шариковское "и поделить")
…и зохавать в обучение.
…А теперь скажите господа, насколько релевантна страница запросу?
Результат в общем случае – непонятно какой. Естественно, часть параметров более-менее какой-то смысл имеет… Большая часть – никакого. Большая часть – непонятный смысл, типа а вдруг получится.
Ну так и выдача – тоже непонятно какая.
========
Общий мысль вот какой:
Дело не в обучалках. Дело в наборе факторов. Если у вас придуман прорывный, новый фактор (пример: пейджранк в свои годы), то его хоть в обучалку загнать, хоть просто в виде ручной формулы учитывать – толк будет. И хорошо искать будет.
А если ваши факторы – херня, то вся ваша королевская конница будет решать задачку выше – про бабушку. И искать будет типа так:

— Радий тяжелее олова?
— Я его, извиняюсь, не вешал,— со своей милой улыбкой ответил Швейк.
***
— Не знаете ли вы, какова наибольшая глубина в Тихом океане?
— Этого, извините, не знаю,— послышался ответ,— но думаю, что там наверняка будет глубже, чем под Вышеградской скалой на Влтаве.
***
— Сколько будет, если умножить двенадцать тысяч восемьсот девяносто семь на тринадцать тысяч восемьсот шестьдесят три?
— Семьсот двадцать девять,— не моргнув глазом, ответил Швейк.
— Я думаю, вполне достаточно,— сказал председатель комиссии. — Можете отвести обвиняемого на прежнее место.

Это я все к чему.
К тому, что нет тут никакого огромного "порога входа". Просто надо пробовать. Придумай хороший набор параметров – и будешь искать хорошо. Пусть даже новичок.
А то тов. Ашманов говорит – принесите 5-10 лямов, и сделаем поиск. Так тот поиск будет – как у всех. Как у рамблера, который самизнаетегде.
======
Высер еще не закончен, ждите продолжения

почему они все такие – ч. 1: 3 комментария

  1. Вот вам параметры, куча параметров. Окна, квартиранты, т.д. А теперь скажите, господа…
    Так же и с яндексом. Вот вам число слов запроса на странице, нормированное и абсолютное, и в точных формах и неточных. И то же самое в ссылочном массиве. И то же по фразам – фразовые соотвествия, в контекстных ограничениях, и без ограничений. И т.д., до 250.
    …И все это перемножить. ( 🙂 шариковское "и поделить")

    С "перемножить" я тоже не согласен, можно было красивее решить. 🙂

    Естественно, часть параметров более-менее какой-то смысл имеет… Большая часть – никакого. Большая часть – непонятный смысл, типа а вдруг получится.

    В этом в целом есть смысл, когда параметров нужно много, а придумывалка осмысленных истощилась. 🙂

    Дело не в обучалках.

    В них тоже, обучалка должна быть быстрой, иначе никак.

    Дело в наборе факторов. Если у вас придуман прорывный, новый фактор (пример: пейджранк в свои годы), то его хоть в обучалку загнать, хоть просто в виде ручной формулы учитывать – толк будет. И хорошо искать будет.

    Абсолютно согласен. Нужны новые креативные факторы, как частотные, так и структурные.

    К тому, что нет тут никакого огромного "порога входа". Просто надо пробовать. Придумай хороший набор параметров – и будешь искать хорошо.

    Так вроде пробуют… Вопрос – на сколько активно.

    А то тов. Ашманов говорит – принесите 5-10 лямов, и сделаем поиск. Так тот поиск будет – как у всех. Как у рамблера, который самизнаетегде.

    Похоже что поиск будет. Точнее – принесут Ашманову. Но кончится конечно же как всегда – с одной стороны Игорь с баблом и технологиями, с другой – удивленные инвесторы. 😀

  2. Дело не в обучалках. Дело в наборе факторов.

    Дело и в обучалке и в наборе факторов.
    Сначала об обучалке. Идеологи из Яндекса считают, что асессоры+обучалка дадут результат лучше, чем какая-нибудь статическая формула над набором факторов. Но лично мой опыт подсказывает, что любая обучалка – это палка с двумя концами. От обучалок иногда бывает вред.
    Вспомним некоторые "обучаемые" математические модели. Самый явный пример – нейронные сети. Любая статья по НС упоминает обучение. Кто нибудь знает успешный коммерческий проект, использующий нейронные сети? Нишевые продукты (типа для форексов) не упоминать, ибо человеку с улицы тяжело отделить зерно истины от маркетинговой шелухи. CuneiForm? Он не конкурент ФайнРидеру, который прекрасно обходится без обучаемых нейронных сетей.
    Другой, менее очевидный, пример с обучением – это полиномиальная интерполяция. Тут вообще все просто – чем больше факторов учитываем (чем больше степень полинома) – тем менее монотонна (и предсказуема) функция между узлами интерполяции.
    Резюмирую – "обучаемые" алгоритмы капризны и редко когда бывают эффективны.

    Если у вас придуман прорывный, новый фактор (пример: пейджранк в свои годы), то его хоть в обучалку загнать, хоть просто в виде ручной формулы учитывать – толк будет.

    Никто его не нашел этот новый фактор, хотя ищут все очень упорно. От долгих и бесплодных поисков народ бросается в разные "ереси". Нигма и Квинтура ударились в юсабилити – отсюда всякие поисковые кластеры и "визуальный поиск". Другой путь сублимации проблемы поиска нового фактора – это замена его на сотни факторов поменьше: тут и Гугл со своими 130-ю параметрами и Яндекс сначала с сотнями факторов, а потом уже и с тысячами. Просто Яндекс по второму пути решил пойти дальше – использовать не просто набор, а Формулу ( (C) Е. Трофименко =)
    Но с другой стороны, и в наши дни происходят интересные открытия на "больших" графах, может если глубже копнуть, то кто-нибудь и найдет "новый PageRank".

  3. Резюмирую – "обучаемые" алгоритмы капризны и редко когда бывают эффективны.

    НС на форексе применяют в 99.99% случаев наивняки от науки, не верьте им. 🙂

    Что касается машинного обучения – его применяют сегодня все ПС, и достаточно эффективно. Яндекс и мелкософт даже пишут об этом открыто, покопайтесь в сети. 🙂

    От машинного обучения можно будет уйти только в том случае, если появится математически красивая и алгоритмически быстрая "теория языка".

    Никто его не нашел этот новый фактор, хотя ищут все очень упорно. От долгих и бесплодных поисков народ бросается в разные "ереси". Нигма и Квинтура ударились в юсабилити – отсюда всякие поисковые кластеры и "визуальный поиск". Другой путь сублимации проблемы поиска нового фактора – это замена его на сотни факторов поменьше: тут и Гугл со своими 130-ю параметрами и Яндекс сначала с сотнями факторов, а потом уже и с тысячами. Просто Яндекс по второму пути решил пойти дальше – использовать не просто набор, а Формулу ( (C) Е. Трофименко =)

    Никто и не найдет никакого супер-фактора, нет его и не может быть. Все упирается в набор применяемых сегодня факторов, и этот набор не всем нравится, нужно серьезно дорабатывать. 🙂

    Также нужно что-то делать и с метрикой качества в Яндексе, текущая очевидно не справляется в коммерческой тематике.

    Но с другой стороны, и в наши дни происходят интересные открытия на "больших" графах, может если глубже копнуть, то кто-нибудь и найдет "новый PageRank".

    И что там интересного? Пародия на пэйджранк, если немного подумать. 😉

Комментарии запрещены.