| euhenio Аськи нет info@promosite.ru |
blog.promosite.ru беспочвенные фантазии о поисковых системах и бизнесе |
|||||||||||||||
Последние камменты: задачка про вероятности кстати, для частотности запросов Разделы:: Последние камменты по времени Комментаторы Баги и предложения |
Раздел "Поисковики"21:45 - Friday, 23rd July 2010 snippets - sitelinks в Я.ХМЛ
а между тем не только отменили релевантность в тестовом ХМЛ, но и перетащили кусочки в обычный, новый тег, перетащенный из тестового
19:48 - Friday, 23rd July 2010 сделаю я пожалуй сервис по тестовому хмл )
Посчитал - всего пробита инфа по 42 тыс запросов и в результатах выдач встречается почти 2 млн. хостов, это примерно 1/5 яндекса по хостам. Каждый сможет найти свой сайтег и позырить в цифру релевантности :) Какие нужны фичи? поиск по каким параметрам? Данных блин много, сорцы в архивах весят в сумме примерно 20ГБ.
10:50 - Friday, 23rd July 2010 ыыы, обманулово какое-то
сделали мне оценку бюджетов по примерно 2000 запросов, которые я взял с цифрами релевантности из 40 тыс. топовых. бюджеты, конкурентность разные - от 100 рублей до 80 тыр. корреляции ссылочного бюджета с цифиркой релевантности НЕТ НИКАКОЙ (если вычистить витальные и другие приоритетные результаты) и если не вычищать - даже наоборот: при большей взвешенной релевантности (где витальники есть и другие приоритетные) ссылочное бабло меньше. Ну, тоже логично - по витальникам продвигаться никому не надо. Так что все с точностью до наоборот. :) Я-то думал, что покуда принцип "берибольше-кидайдальше" работает, некая корреляция должна быть. А ее нету ( *** Останется только изучать точечные случаи. Точечные случаи - * 4хх в реальности не витальный. И когда несколько витальных. (не знаю, есть ли такие) * 2хх смотреть, чочо с ними. 3хх бесполезно, там по названию домена выдается. Повезло, кстати, сайту macbook.pro - за просто так в топе :) * 2хх часто выдаются толпами - вся выдача забита 2хх. Смотреть за классификацию запросов. * 0.1 убитые результаты смотреть, чо с ними * смотреть случаи, когда релевантность группы (сгруппированного по домену) не равна релевантности первого результата (такие есть!) * смотреть случаи полностью эквивалентных релевантностей (такие тоже есть, и для 2-3 страниц внутри группы одного домена, и между группами доменов - таких эквивалентных даже еще больше) Эквивалентность - наше всё.
19:12 - Thursday, 22nd July 2010 уныло у них там в матрикснетах
во-первых, посоветуйте, что мне делать с напарсенной базой хмл - распродажу устроить? ) во-вторых, вот что. яндекс все-таки уныл. уныние и ужос нах. вот
...смотрим 7ю позицию:
Да! окно! и стоимость! ...нет, я бы мог снова разораться про релевантность all, но не буду пока :) ...гагага. недавно Aik показывал аналогичный пример - где по запросу "аренда дизельгенераторов" нажодился в 5-6 сайт про женскую обувь 44го размера (sic! sic! transit!). Где там была аренда и дизельгенераторы, я не помню - кажется, в продажные ссылки вкрались ))) Таких примеров много. Яндексоиды... в разных местах они просят приводить примеры плохой выдачи. Только судя по тому, что они пишут сами о своих алгоритмах - приводить примеры бесполезно. Цитируем источник: http://company.yandex.ru/technology/matrixnet
да, т.е. раньше поиск ошибок влиял на всю систему, а теперь на "узкий класс запросов". Ну ищите тогда добровольцев, чо. Которые любят бессмысленную активность. ******** Ладно, это их проблемы. Тут еще один вопрос назрел - а вот если рассмотреть вид функций "слабых обучателей" и посмотреть, как этот вид влияет на общую предсказуемсоть выдачи. Я, допустим, знаю, какой именно вид у функции ранжирования. И у меня жесткое ощущение, что это очень-очень "точечные" функции. А они, похоже, не придают значения этому - ну, считают, что любой вид функций этих слабых обучателей - одинаково рулит. Ну вот например, я могу привести примеры функций, значения которых будут ОЧЕНЬ дискретными, точечными. И если использовать такие штуки как основу для функций релевантности - получится хуйня. Тут отдельная тема - проверка самих себя. У них там никто не заморачивается оценкой - насколько ранжирование хорошее с точки зрения соответствия "предсказанных" моделью оценок и реальных асессорских оценок. Тут не очень давно Яху сделала конкурс по ранжированию, действительно похожий на яндекс-математику-2009 (которую пеарщеки яндекса тут же обозвали, мол "по примеру, по нашему образу и подобию провели", хотя они (яндекс) реально-то никому на хуй не всрались). И в этом конкурсе заняли хорошие призовые места яндексоиды, что-то около пятерки нах, но там была плотная конкуренция. И написали они презентацию, в которой написали, что "эксперты ошибаются". :) с яху ссылки Slides, Abstract. Сама презентация тоже есть, но лень заливать ее. И iseg согласен, что все хорошо: "YetiRank shows that modeling uncertainty in judgments can improve model effectiveness" Я как увидел - сразу возникла мысль, что плохому танцору яйца мешают. Относительно чего ошибаются? Относительно их модели? Это их модель, блин, ошибается. И яйца, конечно, им тоже мешают. Блин, если эксперты ошибаются - меняйте экспертов, ни или там езжайте в гоа ) Просто модель очень точечная. Предположим, я бы сделал модель, в которой вот эти самые "слабые обучатели" были... ну почти как функция дирихле ) Либо ноль, либо единица. Удалось бы построить качественный матрикснет на таких "слабых обучателях"? Не верю в такое. Но я-то ладно, я могу верить или нет, им это пох. Но фишка в том, что они сами не проверяют эти вещи. Т.е. теоретически понятно, что на плохой, точечной функции хорошую моджель не построить. Она, такая модель, всегда будет требовать максимум данных. И те данные. что есть, будут описываться неточно. И придется, скрипя зубами, говорить - что эксперты ошибаются (эта фраза от них вообще радует - и рыбку съесть, и на хуй сесть, и во всем им сопуствует успех). Ну и самое главное, конечно - не пытаться проверить качество модели. И от точечности (=практически случайности) модели всегда будут появляться теплоходы по запросам про мебель и женская обувь по запросам про дизельгенераторы. И вы там это: наймите штат собиральщиков ошибок. ** упарился писать.
15:30 - Wednesday, 21st July 2010 сеошники - дебилы
чел кается, это он спалил... блин http://forum.searchengines.ru/showthread.php?t=523795 (дайте ему минус в репу, что ли. я уже :) ) Короче, некоторое время назад в тестовом режиме ХМЛ http://xml.yandex.ru/test_query.xml появлялись интересные параметры: 1. релевантность показывалась цифрой. внутри тега relevance была цифра от 100 млн до 400+ млн (для витальных результатов). Но и меньше 100 млн были результаты - 10+ млн (по запросам типа порнухи, скачать, фильмы и вся такая тема). Я еще не разбирал результаты, это навскидку. 2. были теги geo и geoa с айди региона 3. был тег clon с айдишником, общим для всех клонов - аффилиаты 4. был тег FactorDocLen в интервале 0-1, это была целочисленная дробь вида N/255, зависела от длины (числа слов? пока не смотрел) документа. *** ну и вообще - там многое изменилось, показывает теперь sitelinks, всякие источники описания сайта (дмоз, як), всякие темы наподобие блогов *** уроды! это ж цифры нам дали посмотреть, блять! *** я сам-то скачал выдачу по топ1000 примерно 18 тыс сеорейтовских коммерческих запросов и по 26 тыс самых частотных рунетовских запросов - с цифирками, конечно. Вот!!!
|
|
||||||||||||||