euhenio
Аськи нет
info@promosite.ru
blog.promosite.ru
беспочвенные фантазии о поисковых системах и бизнесе



Последние камменты:

задачка про вероятности

04:36 / 07.09.2010
dima5ty


16:33 / 06.09.2010
euhenio


09:53 / 06.09.2010
dima5ty


09:13 / 06.09.2010
euhenio

кстати, для частотности запросов

05:37 / 07.09.2010
dima5ty


16:13 / 06.09.2010
euhenio


11:56 / 06.09.2010
G00DMAN


10:05 / 06.09.2010
dima5ty



Разделы::

Последние камменты по времени

Комментаторы

Баги и предложения

Раздел "Поисковики"

21:45 - Friday, 23rd July 2010

snippets - sitelinks в Я.ХМЛ

а между тем не только отменили релевантность в тестовом ХМЛ, но и перетащили кусочки в обычный, новый тег, перетащенный из тестового

snippets

sitelinks

link name="Контакты" url="http://www.oknakomforta.ru/contacts/central-office/"

link name="Расчет стоимости окна пвх" url="http://www.oknakomforta.ru/service/calculation/"

link name="Продукция" url="http://www.oknakomforta.ru/production/"

/sitelinks

/snippets



Раздел Поисковики, URL сообщения: http://blog.promosite.ru/comments.php?1269
камментов нет, комментировать

19:48 - Friday, 23rd July 2010

сделаю я пожалуй сервис по тестовому хмл )

Посчитал - всего пробита инфа по 42 тыс запросов и в результатах выдач встречается почти 2 млн. хостов, это примерно 1/5 яндекса по хостам.

Каждый сможет найти свой сайтег и позырить в цифру релевантности :)

Какие нужны фичи? поиск по каким параметрам?

Данных блин много, сорцы в архивах весят в сумме примерно 20ГБ.

Раздел Поисковики, URL сообщения: http://blog.promosite.ru/comments.php?1268
камментов нет, комментировать

10:50 - Friday, 23rd July 2010

ыыы, обманулово какое-то

сделали мне оценку бюджетов по примерно 2000 запросов, которые я взял с цифрами релевантности из 40 тыс. топовых.

бюджеты, конкурентность разные - от 100 рублей до 80 тыр.

корреляции ссылочного бюджета с цифиркой релевантности НЕТ НИКАКОЙ (если вычистить витальные и другие приоритетные результаты) и если не вычищать - даже наоборот: при большей взвешенной релевантности (где витальники есть и другие приоритетные) ссылочное бабло меньше. Ну, тоже логично - по витальникам продвигаться никому не надо.

Так что все с точностью до наоборот. :)

Я-то думал, что покуда принцип "берибольше-кидайдальше" работает, некая корреляция должна быть.

А ее нету (

***

Останется только изучать точечные случаи.

Точечные случаи -

* 4хх в реальности не витальный. И когда несколько витальных. (не знаю, есть ли такие)

* 2хх смотреть, чочо с ними. 3хх бесполезно, там по названию домена выдается. Повезло, кстати, сайту macbook.pro - за просто так в топе :)

* 2хх часто выдаются толпами - вся выдача забита 2хх. Смотреть за классификацию запросов.

* 0.1 убитые результаты смотреть, чо с ними

* смотреть случаи, когда релевантность группы (сгруппированного по домену) не равна релевантности первого результата (такие есть!)

* смотреть случаи полностью эквивалентных релевантностей (такие тоже есть, и для 2-3 страниц внутри группы одного домена, и между группами доменов - таких эквивалентных даже еще больше) Эквивалентность - наше всё.

Раздел Поисковики, URL сообщения: http://blog.promosite.ru/comments.php?1266
Камменты: 2, комментировать

19:12 - Thursday, 22nd July 2010

уныло у них там в матрикснетах

во-первых, посоветуйте, что мне делать с напарсенной базой хмл - распродажу устроить? )

во-вторых, вот что.

яндекс все-таки уныл. уныние и ужос нах. вот

на серче пост

По запросу стоимость окон московская выдача. Выходит вот это:

http://yandex.ru/yandsearch?text=%D1%81%D1%82%D0%BE%D0%B8%D0%BC%D0%BE%D1%81%D1%82%D1%8C+%D0%BE%D0%BA%D0%BE%D0%BD&clid=139094&lr=213

Посмотрите 7ую позицию )

...смотрим 7ю позицию:

Теплоход «Мамин-Сибиряк» (проект 646) – Расписание и стоимость...

Закрыть окно.

www.vodohod.com/pages/image.php

Да! окно! и стоимость!

...нет, я бы мог снова разораться про релевантность all, но не буду пока :)

...гагага.

недавно Aik показывал аналогичный пример - где по запросу "аренда дизельгенераторов" нажодился в 5-6 сайт про женскую обувь 44го размера (sic! sic! transit!). Где там была аренда и дизельгенераторы, я не помню - кажется, в продажные ссылки вкрались )))

Таких примеров много.

Яндексоиды... в разных местах они просят приводить примеры плохой выдачи. Только судя по тому, что они пишут сами о своих алгоритмах - приводить примеры бесполезно. Цитируем источник: http://company.yandex.ru/technology/matrixnet

Еще одна важная особенность Матрикснета – в том, что формулу ранжирования можно настраивать отдельно для достаточно узких классов запросов. Например, улучшить качество поиска только по запросам про музыку. При этом ранжирование по остальным классам запросов не ухудшится.

***

На механизмах, построенных по другим технологиям, каждая ручка влияет на все запросы. Матрикснет дает возможность настроить каждую ручку отдельно для своего класса запросов

да, т.е. раньше поиск ошибок влиял на всю систему, а теперь на "узкий класс запросов". Ну ищите тогда добровольцев, чо.

Которые любят бессмысленную активность.

********

Ладно, это их проблемы.

Тут еще один вопрос назрел - а вот если рассмотреть вид функций "слабых обучателей" и посмотреть, как этот вид влияет на общую предсказуемсоть выдачи.

Я, допустим, знаю, какой именно вид у функции ранжирования. И у меня жесткое ощущение, что это очень-очень "точечные" функции.

А они, похоже, не придают значения этому - ну, считают, что любой вид функций этих слабых обучателей - одинаково рулит.

Ну вот например, я могу привести примеры функций, значения которых будут ОЧЕНЬ дискретными, точечными. И если использовать такие штуки как основу для функций релевантности - получится хуйня.

Тут отдельная тема - проверка самих себя. У них там никто не заморачивается оценкой - насколько ранжирование хорошее с точки зрения соответствия "предсказанных" моделью оценок и реальных асессорских оценок.

Тут не очень давно Яху сделала конкурс по ранжированию, действительно похожий на яндекс-математику-2009 (которую пеарщеки яндекса тут же обозвали, мол "по примеру, по нашему образу и подобию провели", хотя они (яндекс) реально-то никому на хуй не всрались).

И в этом конкурсе заняли хорошие призовые места яндексоиды, что-то около пятерки нах, но там была плотная конкуренция.

И написали они презентацию, в которой написали, что "эксперты ошибаются". :)

с яху ссылки Slides, Abstract. Сама презентация тоже есть, но лень заливать ее.

И iseg согласен, что все хорошо: "YetiRank shows that modeling uncertainty in judgments can improve model effectiveness"

Я как увидел - сразу возникла мысль, что плохому танцору яйца мешают.

Относительно чего ошибаются? Относительно их модели?

Это их модель, блин, ошибается. И яйца, конечно, им тоже мешают.

Блин, если эксперты ошибаются - меняйте экспертов, ни или там езжайте в гоа )

Просто модель очень точечная.

Предположим, я бы сделал модель, в которой вот эти самые "слабые обучатели" были... ну почти как функция дирихле ) Либо ноль, либо единица.

Удалось бы построить качественный матрикснет на таких "слабых обучателях"? Не верю в такое.

Но я-то ладно, я могу верить или нет, им это пох.

Но фишка в том, что они сами не проверяют эти вещи. Т.е. теоретически понятно, что на плохой, точечной функции хорошую моджель не построить.

Она, такая модель, всегда будет требовать максимум данных. И те данные. что есть, будут описываться неточно. И придется, скрипя зубами, говорить - что эксперты ошибаются (эта фраза от них вообще радует - и рыбку съесть, и на хуй сесть, и во всем им сопуствует успех).

Ну и самое главное, конечно - не пытаться проверить качество модели.

И от точечности (=практически случайности) модели всегда будут появляться теплоходы по запросам про мебель и женская обувь по запросам про дизельгенераторы.

И вы там это: наймите штат собиральщиков ошибок.

**

упарился писать.

Раздел Поисковики, URL сообщения: http://blog.promosite.ru/comments.php?1265
Камменты: 12, комментировать

15:30 - Wednesday, 21st July 2010

сеошники - дебилы

чел кается, это он спалил... блин http://forum.searchengines.ru/showthread.php?t=523795 (дайте ему минус в репу, что ли. я уже :) )

Короче, некоторое время назад в тестовом режиме ХМЛ http://xml.yandex.ru/test_query.xml появлялись интересные параметры:

1. релевантность показывалась цифрой. внутри тега relevance была цифра от 100 млн до 400+ млн (для витальных результатов). Но и меньше 100 млн были результаты - 10+ млн (по запросам типа порнухи, скачать, фильмы и вся такая тема). Я еще не разбирал результаты, это навскидку.

2. были теги geo и geoa с айди региона

3. был тег clon с айдишником, общим для всех клонов - аффилиаты

4. был тег FactorDocLen в интервале 0-1, это была целочисленная дробь вида N/255, зависела от длины (числа слов? пока не смотрел) документа.

***

ну и вообще - там многое изменилось, показывает теперь sitelinks, всякие источники описания сайта (дмоз, як), всякие темы наподобие блогов

***

уроды!

это ж цифры нам дали посмотреть, блять!

***

я сам-то скачал выдачу по топ1000 примерно 18 тыс сеорейтовских коммерческих запросов и по 26 тыс самых частотных рунетовских запросов - с цифирками, конечно.

Вот!!!

Раздел Поисковики, URL сообщения: http://blog.promosite.ru/comments.php?1264
камментов нет, комментировать

- стр. 1, в прошлое>>



Aug<-  ->Jul
ПнВтСрЧтПтСбВс