| euhenio Аськи нет info@promosite.ru |
blog.promosite.ru беспочвенные фантазии о поисковых системах и бизнесе |
|||||||||||||||
Последние камменты: задачка про вероятности кстати, для частотности запросов Разделы:: Последние камменты по времени Комментаторы Баги и предложения |
Раздел "Разное"09:04 - Monday, 6th September 2010 кстати, для частотности запросов
по горизонтальной оси - сколько раз встретился запрос в базе (уникальность). по вертикальной - сколько таких запросов было. Аппроксимация степенной функцией дает зависимость 1/x^2 с хорошей точностью.
23:26 - Sunday, 5th September 2010 задачка про вероятности
Допустим, некто (я) собирает статистику запросов Яндекса долбежкой прямого эфира. Долбит не много, но постоянно, годами. И накопилось около 40 млн. уникальных запросов. Из которых только 10 млн. запросов попали в базу 2 и больше раза. Из которых 4.7 млн. запросов попали в базу 3 и больше раза Из которых 3.3 млн. запросов попали в базу 4 и больше раза и т.д. Очевидно, что те запросы, которые попали в базу один раз - не очень воспроизводимы. Т.е., они могут быть случайными и не повториться. А могут и повториться - но узнать это можно только потом. Но и те запросы, которые попали в базу пару раз - не очень хорошо соответствуют вордстату. Те, которые три раза - получше соответствуют. И т.д. Лучше всего пропорциональны частотные запросы. *** И хочется каждому запросу присвоить не просто частоту, полученную умножением на коэффициент, а диапазон частот "от и до", в который попадает частота запроса с некоей граничной вероятностью (ну там, 95%, например). И для одиночных "случайных" запросов знать верхнюю граничную частоту. *** И думаю: может, задача-то стандартная и уже давно решена?
08:55 - Monday, 30th August 2010 +апы геопривязки в tools.promosite.ru = апдейт апометра:)
Изменения в апометре: 1. сменил название: загадочный "метод комдира" на понятный "апдейт сохраненки". :) 2. добавил апдейты гео. Как определяется - есть набор регионов, по региону ищем разные запросы (типа domain, rhost - для уменьшения числа найденных сайтов до 1-20 тыс., чтобы прюнинг не находил "много", а находил поточнее). По каждому региону ищем с параметром rstr. ===немножко стран: Россия Общероссийские Украина Беларусь США Европа ===и немножко городов: Москва Санкт-Петербург Екатеринбург Челябинск Владивосток И (сюрприз!) в районе 4-5 утра число найденных страниц прилично меняется, приличным я считаю изменение на 1% и изменение по 3 регионам из 11. Я отмечаю это в апометре как "апдейт геопривязки". Начал собирать данные раз в 10 минут с начала июля, а сейчас воткнул в апометр. К тому же (сюрприз!) больше половины происшедших за то время "изменений без выкладывания индекса" происходили из-за (вместе с) изменения в геопривязке (ну, без выкладывания индекса, ессно) - http://tools.promosite.ru/updates/ А из оставшейся половины еще несколько случаев, когда число геопривязанных страниц меняется в 16-20 вечера одного дня, а на другой день я пробиваю утром и вижу изменение выдачи. Это те случаи, когда на серче начинаются крики про апдейт вечером, и что сеопульт показывает шторм :) Общее число геопривязанных страниц не всегда увеличивается, часто и уменьшается тоже. Конечно, привязываются сайты, просто на страницах изменения лучше видны. И вопросы - какую стату еще выводить? например, можно по отдельным регионам из перечисленных писать, чо как поменялось. Изменение числа страниц считается так - новое число страниц делим на старое по каждому региону, из полученных 11 чисел берем среднее геометрическое. Абсолютное изменение - это когда одно их 11 отношений меньше 1, берем вместо него 1/x. PS грядут другие апдейты апометра. PPS еще один сюрприз - за это время был один случай, когда геопривязку откатили обратно, числа вернулись, я его удалил, но все может повторяться.
17:31 - Friday, 30th July 2010 чо, яндексу ппц?
обхомутали? «Яндекс» нашел Волошина http://www.vedomosti.ru/newspaper/article/2010/07/30/242143
ыыы. ну чо, гугль вполне неплох, 30% за него голосуют ногами. Но гугель можно запретить на уровне файрволов.
12:30 - Friday, 4th June 2010 расклейка выдачи яндекса
Коля Дубр заметил, что автоматом стали расклеивать слепленные данные в выдаче по запросам url/host/rhost. товарищи яндексоиды: расклеивать страницы по запросу rhost - это неправильно и очень плохо. Если я домены по маске хочу найти - мне нужно сгруппированное по доменам выдавать, а отдельные страницы не надо.
|
|
||||||||||||||