| euhenio Аськи нет info@promosite.ru |
blog.promosite.ru беспочвенные фантазии о поисковых системах и бизнесе |
|||||||||||||||
Последние камменты: правильный график с запросами :) Последние камменты по времени |
18:51 - Tuesday, 2nd March 2010 Поисковые технологии 2010
Закончился ашмановский закрытый семинар Поисковые технологии 2010. Я там был как участник, мы такие когда пришли - Ашманов такой - во, типа, оптимизатор пришел - а я такой - я, типа, разработчик поисковых систем :) Конечно, изначально знали как оптимизатора, а вот еще один сильно секретный оптимизатор тоже был :), мы его с трудом спалили. В заявке я привел www.a-gde.ru - помеленьку определяем коммерческость запроса. Пытается мнения и отзывы отделить, но там плохо, а коммерческость ничего себе определяется. Итак. 19:00 - 21:00 заезд, расселение, шашлык, глинтвейн, ночное катание. ============Первый день 26 февраля. Будущее поисковых машин _________________ "Табличный поиск" - Виктор Лавренко (Нигма) В общем, Нигма, оказывается, умный поисковик. 1. использует движок FF с добавками, чтобы оценивать, какие слова визуально близко друг к другу. 2. группирует страницы по маске урла в смысловые группы - типа страницы фильмов отдельно, актеров отдельно и т.д. и использует этот смысл в показе. 3. смысл этот - не смысл, а название ключа. Для разных страниц в группе смотрится (с анализм хтмл шаблона), какие тексты остаются и какие меняются в пределах группы, и те, что меняются - значение ключа, а что остаются - название ключа. Из этих ключей и значений и получается табличный поиск. _________________ "Рейтинг онлайн-СМИ на основе дублирования новостей" - Александр Антонов (Корпорация Галактика) _________________ "Лексический анализ: от шаблонов к семантике" - Даниил Скатов (Диктум) Много всего про разбор предложения с определением частей речи, согласования и прочего. Я, правда, не понял, применимо ли это к коротким текстам (типа запросов) и предполагается ли, что текст изначально правильный (или умеет ошибки анализировать). Выясню отдельно. _________________ "Некоторые подходы в задачах классификации запросов" - Марина Хоруженко (Рамблер) Доклад о выделении специфических запросов - поиск цитат, навигационные запросы для того, чтобы по разному их отрабатывать. 3-5 из тысячи - цитаты. Для каждого запроса есть список факторов, на которых обучаются обучалки. Факторы вроде - длина запроса, число заглавных букв, число знаков препинания, стоп-слова, т.д. Еще используется аналих поведения юзера. _________________ "Группировка результатов поиска по тематике, определение тематики документа" - Андрей Коваленко (Meta.ua) Они пристегнули свой каталог к определению тематики запроса. В результате по каждому запросу выдача группируется по по тематикам. То, чего я всегда хотел :) на момент доклада новая выдача не была выложена. Кроме того, сбоку открывается рубрикатор, где каждая ссылка ограничивает поиск тематикой (только уж очень широкий список тематик :)). Но самые основные тематики определяет качественно. Урл там есть специальный, по которому все показывается :) _________________ "Реферирование одного документа, найденного по запросу, нескольких документов, ранжированный реферат поисковой выдачи" - Андрей Калинин (Поисковые технологии) Ничего не запомнил, но подробный обзор всех методов реферирования, начиная с самых древних. Всем разработчикам поиска втыкать! _________________ Круглый стол "Будущее поиска" Анатолий Орлов, получается, был с презентацией :) Ночью можно кататься ===========Второй день 27 февраля. Проблемы индексации и релевантности _________________ "Анализ графа ссылок для фильтрации нецензурных изображений" - Евгений Харитонов (Яндекс) Есть метод определения дублей картинок, нечувствительный к слабым изменениям каринки. Он склеивает копии. Дальше есть граф хтмл-страниц, где картинки вставлены, и сами картинки. Если в контенте страниц есть порно - это дает плюс в классификацию картинки как порно. Если на странице есть порно-картинка (а порно текстов нет) - это дает плюс в классификацию страницы как порно. И так много раз. Я так понял, что они обучались на том же множестве, что и определяли точность с полнотой. Учитывая при этом, что точность и полнота около 60% - я так понял, что никаких реальных результатов не достингнуто. И еще линейная зависимость между точностью и полнотой. Да, спалил темку про продвижение по картикам :) _________________ "Архитектура краулера вертикального (тематического) поиска" - Михаил Долинин (Рамблер) Мне абсолютно неинтересно, как там чего индексируется. _________________ "Виды поискового спама" - Михаил Волович (Ашманов и Партнеры) Боян в части сателлитов и дорвеев. Рассмативает серьезно сателлиты и сайты несуществующих фирм. Но все равно поисковики их не могут реально детектить. _________________ "Максимизация вероятностных метрик ранжирования. Алгоритм MatrixNet" - Андрей Гулин (Яндекс) Выложена, как я понял, исправленная презентация (участники Гулину указали на какие-то ошибки в формулах). Самое интересное для меня, я понял, что Матрикснет понимал не так, как надо. Я думал, что статистики в 1 млн. асессорских оценок мало, а ее на самом деле много. Сегалович на пальцах объяснял, что много матриц, руками показывал :) Лекции Воронцова _________________ "Синтаксический анализ по-нижегородски" - Владимир Окатьев (Диктум) Примерно на ту же тему, что и первый доклад от Диктума. Мне не близко. _________________ "Метрики для интегральной оценки качества поиска" - Андрей Иванов (Ашманов и Партнеры) Андрей показал свои индикаторы на analyzethis. Я, правда, думаю, что на общий анализатор типа "по гамбургскому счету" поисковики не согласятся. Рассказали о накрутках этих анализаторов, среди поисковиков тоже есть накрутчики :) _________________ "Интернет-математика. Конкурс по машинному обучению" - Павел Карпович (Яндекс) Рассказал про новый конкурс за 2010 - про предсказание пробок на дорогах. Да, спалил, какие участники в ИМ-2009 были алгоритмами Яндекса - это Joker, -F, alexeigor и Победа. Я уже забыл, какие из них соответтсвовали каким алгоритмам. :) _________________ "10 неправильных способов сравнивать качество поисковиков" - Сергей Протасов (Рамблер) Сергей показал, почему каждый их способов не годится для анализа качества поиска :) При этом как один из методов анализа - показ чужих результатов (других СЕ) в своем дизайне - чтобы нивелировать влияние дизайна. У Рамблера, кстати, ожидается выкатка нового алгоритма, и нынешний Рамблер отстает от лидеров на 10%, а вот новый алгоритм лучше, чем лидеры на 5%. В презентации про это есть, значит, можно говорить :) _________________ Круглый стол "Измерение качества поиска" ****** Презентации выложены на http://www.search-conf.ru/programm2010 .
13:25 - Tuesday, 2nd March 2010 ааа! Яндекс-XML не отдает больше 20 результатов...
Блин, а я привык по 50 брать. И больше того: на обычной выдаче 50 отдает! Верните взад, пожалуйста! Яндекс, чо вам, жалко 50?
|
|
||||||||||||||