euhenio
Аськи нет
info@promosite.ru
blog.promosite.ru
беспочвенные фантазии о поисковых системах и бизнесе



Последние камменты:

задачка про вероятности

04:36 / 07.09.2010
dima5ty


16:33 / 06.09.2010
euhenio


09:53 / 06.09.2010
dima5ty


09:13 / 06.09.2010
euhenio

кстати, для частотности запросов

05:37 / 07.09.2010
dima5ty


16:13 / 06.09.2010
euhenio


11:56 / 06.09.2010
G00DMAN


10:05 / 06.09.2010
dima5ty



Разделы::

Последние камменты по времени

Комментаторы

Баги и предложения

Раздел "Разное"

09:04 - Monday, 6th September 2010

кстати, для частотности запросов

по горизонтальной оси - сколько раз встретился запрос в базе (уникальность).

по вертикальной - сколько таких запросов было.

Аппроксимация степенной функцией дает зависимость 1/x^2 с хорошей точностью.

Раздел Разное, URL сообщения: http://blog.promosite.ru/comments.php?1286
Камменты: 4, комментировать

23:26 - Sunday, 5th September 2010

задачка про вероятности

Допустим, некто (я) собирает статистику запросов Яндекса долбежкой прямого эфира. Долбит не много, но постоянно, годами.

И накопилось около 40 млн. уникальных запросов.

Из которых только 10 млн. запросов попали в базу 2 и больше раза.

Из которых 4.7 млн. запросов попали в базу 3 и больше раза

Из которых 3.3 млн. запросов попали в базу 4 и больше раза

и т.д.

Очевидно, что те запросы, которые попали в базу один раз - не очень воспроизводимы. Т.е., они могут быть случайными и не повториться. А могут и повториться - но узнать это можно только потом.

Но и те запросы, которые попали в базу пару раз - не очень хорошо соответствуют вордстату.

Те, которые три раза - получше соответствуют. И т.д. Лучше всего пропорциональны частотные запросы.

***

И хочется каждому запросу присвоить не просто частоту, полученную умножением на коэффициент, а диапазон частот "от и до", в который попадает частота запроса с некоей граничной вероятностью (ну там, 95%, например). И для одиночных "случайных" запросов знать верхнюю граничную частоту.

***

И думаю: может, задача-то стандартная и уже давно решена?

Раздел Разное, URL сообщения: http://blog.promosite.ru/comments.php?1285
Камменты: 7, комментировать

08:55 - Monday, 30th August 2010

+апы геопривязки в tools.promosite.ru = апдейт апометра:)

Изменения в апометре:

1. сменил название: загадочный "метод комдира" на понятный "апдейт сохраненки". :)

2. добавил апдейты гео.

Как определяется - есть набор регионов, по региону ищем разные запросы (типа domain, rhost - для уменьшения числа найденных сайтов до 1-20 тыс., чтобы прюнинг не находил "много", а находил поточнее). По каждому региону ищем с параметром rstr.

===немножко стран:

Россия

Общероссийские

Украина

Беларусь

США

Европа

===и немножко городов:

Москва

Санкт-Петербург

Екатеринбург

Челябинск

Владивосток

И (сюрприз!) в районе 4-5 утра число найденных страниц прилично меняется, приличным я считаю изменение на 1% и изменение по 3 регионам из 11. Я отмечаю это в апометре как "апдейт геопривязки".

Начал собирать данные раз в 10 минут с начала июля, а сейчас воткнул в апометр.

К тому же (сюрприз!) больше половины происшедших за то время "изменений без выкладывания индекса" происходили из-за (вместе с) изменения в геопривязке (ну, без выкладывания индекса, ессно) - http://tools.promosite.ru/updates/

А из оставшейся половины еще несколько случаев, когда число геопривязанных страниц меняется в 16-20 вечера одного дня, а на другой день я пробиваю утром и вижу изменение выдачи. Это те случаи, когда на серче начинаются крики про апдейт вечером, и что сеопульт показывает шторм :)

Общее число геопривязанных страниц не всегда увеличивается, часто и уменьшается тоже. Конечно, привязываются сайты, просто на страницах изменения лучше видны.

И вопросы - какую стату еще выводить? например, можно по отдельным регионам из перечисленных писать, чо как поменялось.

Изменение числа страниц считается так - новое число страниц делим на старое по каждому региону, из полученных 11 чисел берем среднее геометрическое. Абсолютное изменение - это когда одно их 11 отношений меньше 1, берем вместо него 1/x.

PS грядут другие апдейты апометра.

PPS еще один сюрприз - за это время был один случай, когда геопривязку откатили обратно, числа вернулись, я его удалил, но все может повторяться.

Раздел Разное, URL сообщения: http://blog.promosite.ru/comments.php?1283
камментов нет, комментировать

17:31 - Friday, 30th July 2010

чо, яндексу ппц?

обхомутали?

«Яндекс» нашел Волошина

http://www.vedomosti.ru/newspaper/article/2010/07/30/242143

Председатель совета директоров «Яндекса» Альфред Феноти направил общему собранию акционеров письмо с предложением избрать в состав совета Александра Волошина — человека с «перспективным взглядом на вещи, широкими связями в деловых кругах и предыдущим опытом работы в государственных и коммерческих структурах»

Покинувший недавно совет директоров «Норильского никеля» Волошин назначен руководителем рабочей группы по созданию международного финансового центра. Он известен как человек, способный решать задачи любой сложности,

ыыы.

ну чо, гугль вполне неплох, 30% за него голосуют ногами.

Но гугель можно запретить на уровне файрволов.

Раздел Разное, URL сообщения: http://blog.promosite.ru/comments.php?1273
камментов нет, комментировать

12:30 - Friday, 4th June 2010

расклейка выдачи яндекса

Коля Дубр заметил, что автоматом стали расклеивать слепленные данные в выдаче по запросам url/host/rhost.

товарищи яндексоиды: расклеивать страницы по запросу rhost - это неправильно и очень плохо. Если я домены по маске хочу найти - мне нужно сгруппированное по доменам выдавать, а отдельные страницы не надо.

Раздел Разное, URL сообщения: http://blog.promosite.ru/comments.php?1245
камментов нет, комментировать

- стр. 1, в прошлое>>



Aug<-  ->Jul
ПнВтСрЧтПтСбВс