euhenio

info@promosite.ru
blog.promosite.ru
беспочвенные фантазии о поисковых системах и бизнесе



Пример: хуй

Последние камменты:

конкурс Yahoo Learning to Rank Challenge

15:42 / 09.03.2010
euhenio


15:40 / 09.03.2010
anatolix



Разделы::

Последние камменты по времени

Комментаторы

Баги и предложения



Оптимизатор, помни:

и в этом есть рациональное зерно... и в этом есть рациональное зерно... и в этом есть рациональное зерно... через это смотрим... исходник

15:38 - Tuesday, 9th March 2010

а у Яху 500-600 поисковых факторов

а у Яху 500-600 поисковых факторов, по сравнению с яндексовыми ~250:

http://learningtorankchallenge.yahoo.com/datasets.php

# features 519 596



Раздел Поисковики, сообщение: http://blog.promosite.ru/comments.php?1205
камментов нет, комментировать

14:59 - Tuesday, 9th March 2010

конкурс Yahoo Learning to Rank Challenge

Yahoo Learning to Rank Challenge http://learningtorankchallenge.yahoo.com/instructions.php

сообщил тов. Гулин.

Yahoo запустил свой конкурс, очень похожий на прошлогоднюю Интернет-Математику. Интерес представляет их описание submission. В качестве submission принимается текстовый файл, по строчке на запрос.

Имхо, яндекоиды со своими матрикснетами просто обязаны участвовать :)

Раздел Фсем Фтыкать!, сообщение: http://blog.promosite.ru/comments.php?1204
Камменты: 2, комментировать

18:51 - Tuesday, 2nd March 2010

Поисковые технологии 2010

Закончился ашмановский закрытый семинар Поисковые технологии 2010.

Я там был как участник, мы такие когда пришли - Ашманов такой - во, типа, оптимизатор пришел - а я такой - я, типа, разработчик поисковых систем :)

Конечно, изначально знали как оптимизатора, а вот еще один сильно секретный оптимизатор тоже был :), мы его с трудом спалили. В заявке я привел www.a-gde.ru - помеленьку определяем коммерческость запроса. Пытается мнения и отзывы отделить, но там плохо, а коммерческость ничего себе определяется.

Итак.

19:00 - 21:00 заезд, расселение, шашлык, глинтвейн, ночное катание.

============Первый день 26 февраля. Будущее поисковых машин

_________________

"Табличный поиск" - Виктор Лавренко (Нигма)

В общем, Нигма, оказывается, умный поисковик.

1. использует движок FF с добавками, чтобы оценивать, какие слова визуально близко друг к другу.

2. группирует страницы по маске урла в смысловые группы - типа страницы фильмов отдельно, актеров отдельно и т.д. и использует этот смысл в показе.

3. смысл этот - не смысл, а название ключа. Для разных страниц в группе смотрится (с анализм хтмл шаблона), какие тексты остаются и какие меняются в пределах группы, и те, что меняются - значение ключа, а что остаются - название ключа. Из этих ключей и значений и получается табличный поиск.

_________________

"Рейтинг онлайн-СМИ на основе дублирования новостей" - Александр Антонов (Корпорация Галактика)

_________________

"Лексический анализ: от шаблонов к семантике" - Даниил Скатов (Диктум)

Много всего про разбор предложения с определением частей речи, согласования и прочего. Я, правда, не понял, применимо ли это к коротким текстам (типа запросов) и предполагается ли, что текст изначально правильный (или умеет ошибки анализировать). Выясню отдельно.

_________________

"Некоторые подходы в задачах классификации запросов" - Марина Хоруженко (Рамблер)

Доклад о выделении специфических запросов - поиск цитат, навигационные запросы для того, чтобы по разному их отрабатывать. 3-5 из тысячи - цитаты. Для каждого запроса есть список факторов, на которых обучаются обучалки. Факторы вроде - длина запроса, число заглавных букв, число знаков препинания, стоп-слова, т.д. Еще используется аналих поведения юзера.

_________________

"Группировка результатов поиска по тематике, определение тематики документа" - Андрей Коваленко (Meta.ua)

Они пристегнули свой каталог к определению тематики запроса. В результате по каждому запросу выдача группируется по по тематикам. То, чего я всегда хотел :) на момент доклада новая выдача не была выложена. Кроме того, сбоку открывается рубрикатор, где каждая ссылка ограничивает поиск тематикой (только уж очень широкий список тематик :)). Но самые основные тематики определяет качественно. Урл там есть специальный, по которому все показывается :)

_________________

"Реферирование одного документа, найденного по запросу, нескольких документов, ранжированный реферат поисковой выдачи" - Андрей Калинин (Поисковые технологии)

Ничего не запомнил, но подробный обзор всех методов реферирования, начиная с самых древних. Всем разработчикам поиска втыкать!

_________________

Круглый стол "Будущее поиска"

Анатолий Орлов, получается, был с презентацией :)

Ночью можно кататься

===========Второй день 27 февраля. Проблемы индексации и релевантности

_________________

"Анализ графа ссылок для фильтрации нецензурных изображений" - Евгений Харитонов (Яндекс)

Есть метод определения дублей картинок, нечувствительный к слабым изменениям каринки. Он склеивает копии. Дальше есть граф хтмл-страниц, где картинки вставлены, и сами картинки. Если в контенте страниц есть порно - это дает плюс в классификацию картинки как порно. Если на странице есть порно-картинка (а порно текстов нет) - это дает плюс в классификацию страницы как порно. И так много раз. Я так понял, что они обучались на том же множестве, что и определяли точность с полнотой. Учитывая при этом, что точность и полнота около 60% - я так понял, что никаких реальных результатов не достингнуто. И еще линейная зависимость между точностью и полнотой.

Да, спалил темку про продвижение по картикам :)

_________________

"Архитектура краулера вертикального (тематического) поиска" - Михаил Долинин (Рамблер)

Мне абсолютно неинтересно, как там чего индексируется.

_________________

"Виды поискового спама" - Михаил Волович (Ашманов и Партнеры)

Боян в части сателлитов и дорвеев. Рассмативает серьезно сателлиты и сайты несуществующих фирм. Но все равно поисковики их не могут реально детектить.

_________________

"Максимизация вероятностных метрик ранжирования. Алгоритм MatrixNet" - Андрей Гулин (Яндекс)

Выложена, как я понял, исправленная презентация (участники Гулину указали на какие-то ошибки в формулах). Самое интересное для меня, я понял, что Матрикснет понимал не так, как надо. Я думал, что статистики в 1 млн. асессорских оценок мало, а ее на самом деле много. Сегалович на пальцах объяснял, что много матриц, руками показывал :)

Лекции Воронцова

_________________

"Синтаксический анализ по-нижегородски" - Владимир Окатьев (Диктум)

Примерно на ту же тему, что и первый доклад от Диктума. Мне не близко.

_________________

"Метрики для интегральной оценки качества поиска" - Андрей Иванов (Ашманов и Партнеры)

Андрей показал свои индикаторы на analyzethis. Я, правда, думаю, что на общий анализатор типа "по гамбургскому счету" поисковики не согласятся. Рассказали о накрутках этих анализаторов, среди поисковиков тоже есть накрутчики :)

_________________

"Интернет-математика. Конкурс по машинному обучению" - Павел Карпович (Яндекс)

Рассказал про новый конкурс за 2010 - про предсказание пробок на дорогах. Да, спалил, какие участники в ИМ-2009 были алгоритмами Яндекса - это Joker, -F, alexeigor и Победа. Я уже забыл, какие из них соответтсвовали каким алгоритмам. :)

_________________

"10 неправильных способов сравнивать качество поисковиков" - Сергей Протасов (Рамблер)

Сергей показал, почему каждый их способов не годится для анализа качества поиска :) При этом как один из методов анализа - показ чужих результатов (других СЕ) в своем дизайне - чтобы нивелировать влияние дизайна.

У Рамблера, кстати, ожидается выкатка нового алгоритма, и нынешний Рамблер отстает от лидеров на 10%, а вот новый алгоритм лучше, чем лидеры на 5%.

В презентации про это есть, значит, можно говорить :)

_________________

Круглый стол "Измерение качества поиска"

******

Презентации выложены на http://www.search-conf.ru/programm2010 .

Раздел Фсем Фтыкать!, сообщение: http://blog.promosite.ru/comments.php?1202
Камменты: 2, комментировать

13:25 - Tuesday, 2nd March 2010

ааа! Яндекс-XML не отдает больше 20 результатов...

Блин, а я привык по 50 брать.

И больше того: на обычной выдаче 50 отдает!

Верните взад, пожалуйста! Яндекс, чо вам, жалко 50?

Раздел Поисковики, сообщение: http://blog.promosite.ru/comments.php?1201
камментов нет, комментировать

19:18 - Monday, 1st March 2010

кто против релевантности all? давайте примеры!

по поводу моей ненависти к релевантности all в НЧ-запросах, у меня anatolix попросил примеров, а я как-то в ХМЛ при поиске не смотрю, но олловую релевантность и так уже вижу.

Чтобы в ХМЛ не лазить, сдалал инструментик, показывает relevance priority: http://tools.promosite.ru/anatolix.php

Я там накидал примеров, но лучше больше :)

Давайте тоже свои примеры! Или хотя бы можно полазить по relevance priority, это прикольно.

Раздел Разное, сообщение: http://blog.promosite.ru/comments.php?1200
Камменты: 4, комментировать

- стр. 1, в прошлое>>



Feb<- March 
ПнВтСрЧтПтСбВс
1234567
89

LJ-трансляция, лента
Feed RSS 2.0
Feed+Comments
Comments RSS 2.0

Новый индикатор в Яндекс-баре видели?
а ты на что рассчитывал?
Еще блоги:

Новое
Krondix
Swift
блог незамутненного оптимизатора
Блог Бомжа
Алексей Тутубалин
Блокнотик дорвейщика
yabiz.ru
consillieri.com/blogger (vikorlov.com/blog)
lermont.ru/blog
shevchenko.in (bufo.in?)
Гринвуд
wastemaster.biz
Записки на полях IT
hatkabobra
seoblog.spb.ru
Митник
СеоБабы.нет
Анар Бабаев
chingiz.org
zvonko.biz
nikeseoblog.net.ru
kass.ws
ru-traff.blogspot.com
bros.su/ru

Original content
БлоGнот
SeoBlog (gray.blogseo.ru)
Sell Me
Маркетинг В Маленьком Городе
Артём Шкондин
микромаркетинг
Seventh Son
Андрей Муравьёв
.kero.
seoplace.spb.ru
БЛОГика
Блог Cherny
Блог Димка
Seoblog.biz
Вебстудийные размышления
Мария Черницкая

Про бизнес, рекламу
Бизнес под микроскопом
Шахиджанян
businesspr.ru
brandbazar.ru/blog
investorblog.ru

Разное blog.seo-web Синтетический маркетинг mastertext.spb.ru Interbiz Setti.biz Михаил Пеньковский grossarium.com "Обратная сторона визитки" moneyblog Сергей Коркин Radionov webcasper getnew.biz blog.mynetgate Вадим Ласто blogger@work PR me or Learn me dedic.ru Кислицын gimi.ru livemarketing SE на Мблоге hiddenmarketing.ru/blog seriousrevenue.com andreykuzmenkov.ru Говорит и показывает копирайтер advertisment-blog.com blog.searchengineer.ru blog.daekrist.net blog.brandaid.ru dimax.biz Макс Хигер romanpushkin.blogspot.com

Разное
ЖЖ: advertka
ЖЖ: ru_seo
ol_l_
nundesign
zaharov_ax
vitcom
_yukko_
Федор Вирин
ru_netsearch
googleblog
yahooblog

Есть интересный блог?
>>спамься в комменты<<

Форумы:

Searchengines
SeoChase
Mastertalk
Форумы Яндекса
Форум Рамблера
Aliens:)

Илья Сегалович
Влад Шабанов
Саша Садовский
motto
Блог Яндекса

К вопросу о 97л4987м
BLOG.PROMOSITE.RU рекомендует: ссылочные апдейты от 2010-03-10 12:13:08