| euhenio Аськи нет info@promosite.ru |
blog.promosite.ru беспочвенные фантазии о поисковых системах и бизнесе |
|
Здешние комментаторы:NULLОн (она, оно) накомментировал(а,о) вот чего: 00:44 / 17.02.2010 в ответ на конструкции поиска НПС больше нет в яндексе Кавычки оставили: http://webmaster.ya.ru/replies.xml?item_no=7353&ncrnd=3191 20:10 / 15.02.2010 в ответ на почему они все такие - ч. 1
Дело не в обучалках. Дело в наборе факторов. Дело и в обучалке и в наборе факторов.
Сначала об обучалке. Идеологи из Яндекса считают, что асессоры+обучалка дадут результат лучше, чем какая-нибудь статическая формула над набором факторов. Но лично мой опыт подсказывает, что любая обучалка - это палка с двумя концами. От обучалок иногда бывает вред.
Вспомним некоторые "обучаемые" математические модели. Самый явный пример - нейронные сети. Любая статья по НС упоминает обучение. Кто нибудь знает успешный коммерческий проект, использующий нейронные сети? Нишевые продукты (типа для форексов) не упоминать, ибо человеку с улицы тяжело отделить зерно истины от маркетинговой шелухи. CuneiForm? Он не конкурент ФайнРидеру, который прекрасно обходится без обучаемых нейронных сетей.
Другой, менее очевидный, пример с обучением - это полиномиальная интерполяция. Тут вообще все просто - чем больше факторов учитываем (чем больше степень полинома) - тем менее монотонна (и предсказуема) функция между узлами интерполяции.
Резюмирую - "обучаемые" алгоритмы капризны и редко когда бывают эффективны.
Если у вас придуман прорывный, новый фактор (пример: пейджранк в свои годы), то его хоть в обучалку загнать, хоть просто в виде ручной формулы учитывать - толк будет. Никто его не нашел этот новый фактор, хотя ищут все очень упорно. От долгих и бесплодных поисков народ бросается в разные "ереси". Нигма и Квинтура ударились в юсабилити - отсюда всякие поисковые кластеры и "визуальный поиск". Другой путь сублимации проблемы поиска нового фактора - это замена его на сотни факторов поменьше: тут и Гугл со своими 130-ю параметрами и Яндекс сначала с сотнями факторов, а потом уже и с тысячами. Просто Яндекс по второму пути решил пойти дальше - использовать не просто набор, а Формулу ( (C) Е. Трофименко =)
Но с другой стороны, и в наши дни происходят интересные открытия на "больших" графах, может если глубже копнуть, то кто-нибудь и найдет "новый PageRank". 15:17 / 15.02.2010 в ответ на Какие нынче есть автопродвигалки? Я так понимаю, что вопрос задавался в преддверии запуска ВебЭффектора?
P.S. В пресс-релизе упоминался Григорий Селезнев - нехилая у вас там банда собралась ... 17:04 / 09.12.2009 в ответ на геонезависимости капут? Действительно, не видно. Попробовал несколько вариантов явно "геонезависимых" - не получилось. 17:48 / 18.11.2009 в ответ на виджет добавили Евгений, а почему Ваш сервис Снежинск запеленговал только сегодня, а не вчера, когда он и был выложен: http://webmaster.ya.ru/replies.xml?item_no=5869&ncrnd=3218 ? 17:43 / 30.10.2009 в ответ на Свиной грипп - риальне тема? Сегодня тоже видел такого сознательного товарища в повязке - не хотел, чтобы от него <зачеркнуто>PageRank</зачеркнуто> грипп к другим перетекал.
На dirty.ru недавно была интересная ссылка по теме: http://www.supotnitskiy.ru/stat/stat63.htm
__ 15:44 / 27.10.2009 в ответ на Яндекс.Apps Да, молодцы. Но тех, кто свою почту через gmail гоняет, они, скорее всего, не заполучат. 17:18 / 06.06.2008 в ответ на Мастерхост - уроды... Который раз...
по аналогии с php5 подобрал... есть способ проще - команда whereis php-cli 15:23 / 18.04.2008 в ответ на фиксация яндекса 26.03.2008 Как делается на самом деле - я не знаю. Но мне кажется, что смешать индексы и делать ранжированную выборку из общей базы намного проще, чем придумывать алгоритм, который будет лепить SERP (отранжированный перечень) из нескольких источников.
P.S. А с другой стороны, те, кто смогут это делать - получат настоящий "вертикальный поиск" =) 10:17 / 18.04.2008 в ответ на probki.rambler.ru Вот и ладушки, вот и конкуренция нормальная появилась, а то на родную карту 77.ru, с которого Рамблер забирает информацию о пробках, без слез не взглянешь.
Теперь, когда пробки показывают и Гугл и Яндекс и Рамблер, становится интересно - кто из них реализует следующую востребованную фичу - пробки по времени. К примеру, нужно добраться из точки А в точку Б к такому-то времени. Распространенная ситуация? Весьма! Открываем "правильные пробки", выставляем вчерашний день на нужное время и смотрим как лучше ехать из А в Б. С учетом еженедельного цикла хочется чтобы хотя бы на 10 дней пробки по часам хранили - не так уж и много там информации. 21:02 / 02.04.2008 в ответ на фиксация яндекса 26.03.2008 Имелось в виду слияние основного индекса и индекса быстроробота. 12:15 / 31.03.2008 в ответ на фиксация яндекса 26.03.2008 А что произошло 2008-03-30 18 и 2008-03-31 08 ?
Так выглядит мерджинг базы быстроробота? 17:23 / 10.03.2006 в ответ на Расширения FireFox для SEO 2atway, почему не пишут? Пишут:
http://kost.ru/opera-seo-buttons.html
Не так удобно пользоваться, но уже хоть что-то появилось. 22:10 / 04.10.2005 в ответ на отчеты по гранту Яндекса опубликованы А я бы по другому попробовал бы учитывать ссылки. Через словари страниц или сайтов (прошу простить за назойливость =). Если словари ссылающегося и того, на кого ссылаются, пересекаются сильно - значить ссылка тематическая, сильная и т.д., а если слабо пересекаются или не пересекаются вообще - значит ферма или как-то левак. 17:24 / 07.06.2005 в ответ на Кстати, о масштабах расчетов О преимуществах browser-SE.
1. Большая скорость индексации
2. Практически неограниченный размер индекса
3. В индекс попадают «более качественные» страницы, т.к. они отобраны человеком (даже если человек нашел их большими SE)
4. Результаты поиск чаще всего уже «локальные», т.к. найдены соседями по офису или языку – очень отдаленная аналогия «Near me» у msn.com или Google Local.
5. Возможность создавать поисковые сообщества по интересам. К примеру, все кто интересуется SEO, часто заходят на searchengines.ru, можно модифицировать алгоритм поиска партнерских ip т.о., что бы вначале перечень ip запрашивался с серверов-координаторов (к примеру http://searchengines.ru/communitysearch/), и только потом расширялся «от себя» (в нашем примере от 213.146.50.82), сервер-координатор может просто отдавать перечень ip-адресов, с которых шли запросы от клиентов на протяжении нескольких часов (К примеру если с 213.146.50.82 запросили http://searchengines.ru/communitysearch/ и вернулся пустой список, то следующий клиент, который запросит через 5 минут http://searchengines.ru/communitysearch/ получит уже список, в котором будет как минимум 1 адрес - 213.146.50.82)
О недостатках browser-SE
1. При маленьком количестве пользователей поиск не сдвинется дальше собственного кеша.
2. Положительная обратная связь - чем более популярна страница, тем выше она в результатах поиска, тем более она популярна. Трудней будет найти уникальный контент.
3. Новые возможности для вирусописателей и хакеров. 17:24 / 07.06.2005 в ответ на Кстати, о масштабах расчетов В то время как пользователь ходит браузером по страничкам, плагин добавляет в индекс содержимое загруженных страниц. Когда нужно найти что-либо в кеше – набираем строку поиска в окошке, аналогичном окну запросов Яндекс.Бара или Firefox`а, плагин ищет по индексу и выдает в новом окне или закладке результаты (но первом этапе можно даже без морфологии и сниппетов). Дальше начинается самое интересное – поиск в сети. Для начала узнаем свои внешние ip-адреса (к примеру 213.146.50.82) и начинаем бродкастом рассылать по соседним ip запросы вроде http://213.146.50.**:OpenPortNumber/keyword1…/keywordN?type=person в надежде, что там сейчас работает браузер с таким же плагином. В режиме запроса извне плагин делает тот же поиск в кеше по запросу keyword1…/keywordN, делает предварительное ранжирование результатов, отдавая назад к примеру только 3 самых релевантных URL или все, если таковых меньше. Если запрашивающему плагину повезло и рядом нашлись браузеры с подобными плагинами и у них в кеше нашлось то, что мы искали, то к нему начинают поступать первично отранжированные результаты, теперь его задача провести вторичное ранжирование в зависимости от количества повторяющихся URL. Вот и все.
Прежде чем перейти к преимуществам и недостаткам нужно отметить, что жизнеспособность такого browser-SE зависит прежде всего от наличия некоторого критического количества пользователей. Пока предположим, что маркетинговыми ухищрениями мы набрали нужное количество пользователей системы. 17:23 / 07.06.2005 в ответ на Кстати, о масштабах расчетов Ok, но вначале маленькое отступление. Речь пойдет о некоторой измененной схеме построения поисковой системы, в которой дисковое пространство обсуждается также наравне с другими моментами. Мысли в письменном виде излагаются впервые, поэтому прошу прощения за возможную несвязность или даже путаницу.
Как можно кардинально увеличить скорость индексирования и размер индекса? Что нужно сделать, чтобы новому поисковику не пришлось вкладывать астрономические суммы в трафик, обслуживание и железо? Давайте обсудим идею модифицированного пирингового поисковика. Пиринговый поисковик – идея не новая (см. перечень хотя бы здесь: http://www.searchtools.com/info/peer-to-peer.html), новое, как мне кажется, в состоит в «модификации» - почему бы не совместить пиринговый поисковик и браузер? Вначале я попытаю описать некий принцип действия такой системы, а потом можно будет взвесить все «за» и «против».
Пиринговый поисковик лучше всего делать как плагин к браузеру. И позиционировать его в первую очередь для поиска по кешу браузера и только потом как поисковик в интернете (до Google Desktop Search и иже с ними многие сталкивались с ситуацией, когда проще вспомнить, что было на странице которую посещал день, неделю назад, чем адрес такой страницы). 12:52 / 25.11.2004 в ответ на Баг-репорты по блогу отправил |