euhenio
Аськи нет
info@promosite.ru
blog.promosite.ru
беспочвенные фантазии о поисковых системах и бизнесе


Здешние комментаторы:

Обратно к общему списку

Кот

Он (она, оно) накомментировал(а,о) вот чего:

21:46 / 19.04.2008 в ответ на фиксация яндекса 26.03.2008

Как делается на самом деле - я не знаю.

По ходу, Яндекс из этого секрета не делает. И если я правильно понял Орлова на Хайлоаде, то индексы не смешиваются, а быстророботовское подмешивается.

14:21 / 18.04.2008 в ответ на фиксация яндекса 26.03.2008

Имелось в виду слияние основного индекса и индекса быстроробота.

А эти индексы разве сливаются вообще? Я думал, быстророботовское подмешивается к основной выдаче только на заключительном этапе.

14:06 / 16.03.2007 в ответ на Алгоритм Яндекса by iseg - фсем фтыкать!

это всё интересно, конечно

Да и у меня, в общем-то, интерес чисто теоретический :)

Впрочем, в связи с открывшимися обстоятельствами :) придется все "передумывать" сначала :)

Судя по всему, Сегалович отлично справился с задачей ничего не рассказать по сути.

19:58 / 11.03.2007 в ответ на XSS (или не xss?) уязвимости

а между делом можно узнать, где предел некрасивости? ;)

Каждый определяет его сам.

Кому-то вполне этичным кажется спам форумов картами сайтов, а кого-то покупная ссылка с морды в подвале заставляет поморщиться :)

А где, тогда, "ИМХО" в Вашем предыдущем посте? :)

Или Вы преподаете? :)

21:59 / 08.03.2007 в ответ на Алгоритм Яндекса by iseg - фсем фтыкать!

Тогда надо опеределиться, что такое TF. Если это - частота термина во всех релевантных пассажах, то всё корректно. Если что-то другое, тогда возможны нюансы.

Вот если нарвемся на нюансы, тогда и будем думать :)

Не будет ли большой наглостью с моей стороны, спросить Вашего мнения о других аспектах этого опыта? Например, нет ли у Вас на примете нескольких пар словосочетаний, пригодных для метода Миныча? (наверное, это лучше в личку) :)

Первое, что приходит в голову - обойтись десятком (может, двумя десятками) пар документов, содержащих указанную Вами конструкцию. Использовать в этих документах несколько словосочетаний, для которых заранее подобраны пары для "метода Миныча". Наверное, стоит разбавить Ваши конструкции различным количеством "прочих" слов. Наверное, также надо предусмотреть возможность по ходу проверить работоспособность метода измерения.

Вот такие мысли "на вскидку", может быть у Вас, wolf, и у Вас, euhenio, есть соображения относительно методики, которыми вы можете поделиться?

Добавлено: по поводу пар для метода Миныча, это я наверное погорячился (праздичные возлияния даром не прошли:)). Если опыт проводить в пределах одного домена (что теоретически уже не очень корректно), то придется создавать среду для корректной отработки ортогональных запросов (или использовать другой способ сравнения релевантности). Н-да, задачка усложняется :)

Добавлено: зря я пост написал вечером восьмого марта :)

12:25 / 07.03.2007 в ответ на Алгоритм Яндекса by iseg - фсем фтыкать!

Ну, а что это, как не первичное разбиение на предложения???

Я думал, Вы имеете в виду более сложный алгоритм первичной разбивки на предложения.

В общем, идею вижу в том, что в случае справедливости Вашей гипотезы документы

1) А _ В _ В.

и

2) А _ В. А _ _ _ В.

должны иметь одинаковую текстовую релевантность, т.к. будут разбиты на одинаковые пассажи. Сравнить их можно будет тем же методом ортогональных запросов Миныча.

Придется допустить, что TF для термина А будет высчитываться (в том числе и нормироваться) тоже попассажно, а не исходя из кол-ва термина А в документе. Не думаю, что это однозначно корректное допущение. Хотя, это вроде как плавно вытекает из гипотезы и статьи.

С другой стороны, надо "налить и отойти".

21:14 / 06.03.2007 в ответ на Алгоритм Яндекса by iseg - фсем фтыкать!

Ну, если не будет первичного разбиения на предложения, то как же узнать номер предложения, в которое входит словопозиция???

На этапе индексирования документа, просматриваются и нумеруются последовательно все словопозиции. А когда встречается разделитель предложений, обнуляется счетчик позиции в предложении, а счетчик номера предложения увеличивает свое значение на единицу.

А что касается Вашей гипотезы про формирование двух пассажей из текста "А_Б_Б" в ответ на запрос "А&Б", то, в принципе, это все проверяется. По крайне мере не вижу причин, чтобы нельзя было проверить. Только муторно всё это...

Так давайте обсудим условия эксперимента. У меня есть неиспользуемый домен(небольшой сайт) под фильтром неучета входящих ссылок, можно его использовать. Не плохо было бы и табулированный набор коэффициентов при этом пощупать.

19:20 / 06.03.2007 в ответ на Алгоритм Яндекса by iseg - фсем фтыкать!

euhenio, что-то у меня все больше плюсов за то, что в предложении А _ В _ В. содержится два пассажа (A &/+2 B и A &/+4 B), а не один A &/+2 B &/+2 B

-это имхо подсветчик виноват. Учитываться должен только одна пара А Б, т.к. иначе (если каждое слово включается в пассаж и есть дубли слов) дубли слов будут учитываться в весе. Иначе пассаж Б Б Б Б преодолел бы кворум любого запроса А Б С Д с одинаковыми весами.

Так вот я и говорю, что все больше склоняюсь к тому, что пассаж - это "слепок" с запроса. Т.е. если запрос А В С, то и найденный пассаж будет А В С даже в том случае, если текст А В С С С. Вернее, в тексте А В С С С будут обнаружены следующие пассажи: A&/+1B&/+1C, A&/+1B&/+2C, A&/+1B&/+3C. И вес документа по отношению к запросу А В С будет состоять из суммы весов этих трех пассажей. Ясно, что с учетом контекстуального сходства, первый пассаж будет весить больше второго, а второй больше третьего.

Если такое представление соответствует действительности, то никаких дублей слов в пассаже не будет, соответственно, не будет и преодоления кворума за счет дублей.

что-то у меня все больше плюсов за то, что в предложении А _ В _ В. содержится два пассажа (A &/+2 B и A &/+4 B), а не один A &/+2 B &/+2 B .

Не ко мне реплика, но позволю поинтресоваться. По-Вашему, в этом случае для запроса А В учет термина А произойдет дважды?

Реплика не к Вам получилась, поскольку она имеет смысл только в контексте запросозависимости пассажа :)

Да, в этом случае термин А учтется дважды т.к. запрос А В породит в указанном тексте два пассажа. Я уже рассуждал на эту тему под другим углом:

Есть еще вот какие соображения.

Учитывая следующее:

вычисление веса каждой словопозиции с учетом расстояния до всех остальных слов из запроса, попавших в пассаж

Имеем текст "А_Б_Б.", удовлетворяющий контекстным ограничениям запроса "А&Б". Для простоты допустим, что веса слов А и Б одинаковы.

Учитывая приведенную выше цитату, можно предположить, что неважно, состоит этот текст из двух пассажей (А_ _ _Б и А_Б) или из одного (А_Б_Б).

Почему не важно? Потому, что нам надо определить, каким именно образом происходит вычисление веса каждой словопозиции. Именно это является главным вопросом, а вопрос о количестве пассажей всего лишь может послужить ключем (причем, сомнительным) к решению.

Поэтому, предлагаю попытаться решить вопрос о вычислении веса каждой словопозиции, безотносительно вопроса пассажей.

Сперва разберемся с двумя словопозициями слова Б. Очевидно, что вес первой из этих словопозиций выше, чем второй т.к. расстояние от первого слова запроса (А) до первой словопозиции слова Б меньше, чем до второй. Впоследствии, когда будет вычисляться вес документа относительно запроса, веса всех словопозиций всех слов запроса проссуммируются и составят вес документа относительно запроса.

Возникает вопрос: может быть, вес второй словопозиции слова Б не учитывается (т.к. слово А единственное)? Резонный вопрос. Но, если так, то тексты А_Б и А_Б_Б по отношению к запросу А&Б будут иметь одинаковый вес, что сомнительно с точки зрения здравого смысла. Есть и другие доказательства учета второй словопозиции слова Б (основанные на выдержках из статьи).

Самое интересное и неоднозначное начинается на этапе вычисления веса словопозиции слова А. Не совсем понятно, вес этой словопозиции будет иметь одну составляющую, определяемую расстоянием до первой словопозиции слова Б, или к ней приплюсуется составляющая, определяемая расстоянием от слова А до второй словопозиции слова Б? С одной стороны (обращаясь к здравому смыслу), слово А единственное, почему мы должны увеличивать его вес только потому, что в куске текста, удовлетворяющем контекстным ограничениям, присутствует более одного другого слова из запроса?

С другой стороны (также обращаясь к здравому смыслу), обе словопозиции слова Б удовлетворяют контекстным ограничениям запроса. Т.е. однозначно предполагается, что оба слова Б употреблены в контексте слова А. Соответственно, документ (А_Б_Б) где в контексте со словом А употреблены два слова Б должен иметь бОльший вес относительно запроса, чем документ вида А_Б. Но он и так будет иметь больший вес, т.к. выше мы условно доказали, что вес второй словопозиции слова Б учитывается при вычислении веса документа по отношению к запросу. Т.е. речь идет о том, усиливается ли вес документа А_Б_Б по сравнению с документом А_Б еще больше за счет описанного выше увеличения веса слова А за счет второй словопозиции слова Б?

Кот, правильно ли я понял, что подразумевается, что в зависимости от запроса, Яндекс "слепляет" пассажи из некоторых предложений? Т.е. ему надо сначала разбить текст на предложения, назовем их первичными пассажами. Это операция запросонезависимая. А потом идет запросозависимая операция - формирования из некоторых из этих первичных пассажей вторичных пассажей путем суммирования, которые и проходят проверку на кворум. Так?

P.S. Хотя нет... Исходя из Ваших слов пассажи просто лепятся из слов запроса... Ок, ясно. Я, получается, под запросонезависимым разбиением на пассажи подразумевал первичное разбиение текста на предложения. А под вторым этапом подразумевал то, что Вы имеете в виду под разбиением на пассажи с учетом уже выполненного разбиения текста на предложения... Такая вот петрушка... :)

Да, лепятся из слов запроса. А вот нужно ли первичное разбиение текста на предложения, это вопрос. Ведь можно (на этапе индексирования документа) каждой словопозиции документа присвоить два индекса - номер предложения и номер словопозиции в предложении, этого достаточно для проведения всех рассчетов весов пассажей и словопозиций. Если моя память не спит с другим, то о такой технологии индексации в Яндексе я где-то слышал.

12:10 / 06.03.2007 в ответ на Алгоритм Яндекса by iseg - фсем фтыкать!

Не ко мне вопрос, конечно, но позволю себе вставить реплику :)

Ты мне, пожалуйста, на первый вопрос ответь - как документ на пассажи разобьется в обоих случаях.

Так не документ на пассажи разобъется, а "осуществится процесс нахождения всех пассажей в документе, удовлетворяющих контекстным ограничениям".

Что касается Вашего примера, то если для преодоления кворума необходимо наличие всех трех слов в пассаже, то по запросу A && (B & C) документ не будет найден т.к. не будет обнаружено ни одного пассажа, полностью удовлетворяющего контекстным ограничениям, а пассаж, частично им удовлетворяющий не пройдет кворум (буду благодарен за демонстрацию обратного :)). Если В или/и С имеют малый вес (IDF), и кворум может быть преодолен без В или/и С, то документ будет найден благодаря тому, что неполный пассаж пройдет кворум.

В ответ на запрос A && (B && C) документ будет найден независимо от весов (IDF) слов А В и С т.к. найденный пассаж A &&/+1 B &&/+1 C полностью удовлетворяет контекстным ограничениям, заданным в запросе (A && (B && C)).

euhenio, что-то у меня все больше плюсов за то, что в предложении А _ В _ В. содержится два пассажа (A &/+2 B и A &/+4 B), а не один A &/+2 B &/+2 B .

15:04 / 05.03.2007 в ответ на Алгоритм Яндекса by iseg - фсем фтыкать!

Но на мой взгляд, в этом случае табулированный набор коэффициентов будет ну очень уж раздут.

Но ведь, получается, что надо добавить всего один коэффициент - для случая, когда разница между заданным в запросе растоянием и фактическим рассоянием бесконечно велика. Т.е. термин запроса, по отношении к которому вычисляется вес словопозиции отсутствует в пассаже.

Думаю, экономичней просто штрафануть весь пассаж (т.е. уменьшить веса всех терминов пассажа) за неполность

В этом случае не учтутся в полной мере все индивидуальные "неполности" пассажа. Что, на мой взгляд, не есть хорошо. Особенно, если учесть, что веса словопозиций пересчитываются с учетом весов слов (IDF).

14:39 / 05.03.2007 в ответ на Алгоритм Яндекса by iseg - фсем фтыкать!

Пассажи будут полные. По отношению к одной из частей запроса. ;)

Блин, приплыли. Так как тогда штрафовать неполные пассажи, если они все, по определению, полные? :)

Все дело в том, на какие части разбивается запрос. Разбивка осуществляется по частям, ограниченным операторами &&, но никак не внутри этих частей. Т.е. в случае запроса (A B) && (C D) релевантными будут считаться пассажи, которые преодолевают кворум по отношению к запросу A B либо по отношению к запросу C D.

Я правильно понимаю, что имеются в виду не только &&, но и, например, &&(-7+7) ?

14:23 / 05.03.2007 в ответ на Алгоритм Яндекса by iseg - фсем фтыкать!

Пассажи будут полные. По отношению к одной из частей запроса. ;)

Блин, приплыли. Так как тогда штрафовать неполные пассажи, если они все, по определению, полные? :)

14:00 / 05.03.2007 в ответ на Алгоритм Яндекса by iseg - фсем фтыкать!

Да, вес пассажа вычисляется, но это далеко не основа алгоритма, а последний штрих. Ни та функция, о которой вы говорили, ни другие ключевые моменты алгоритма не используют вес пассажа.

А это с какой строны посмотреть. На мой взгляд, неполный пассаж просто глушат каким-нибудь мощным коэффициентом. Т.е. высчитывают веса между вошедшими в него терминами по общей формуле и как бы штрафуют их за отсутствие некоторых терминов. Вот допустим, запрос А В С. Пусть пассаж, содержащий термины А и С, прошел кворум. Вычисляют веса терминов А и С, как будто бы запрос был А любое слово С, т.е. А /+2 С, а потом штрафуют мощно за неполность. Как бы так. Но это чисто гипотеза. Я пока не проверял, ибо жалко время терять на возню с неполными пассажами в виду их низкой ценности. Только если чисто для обеспечения строгости картины когда-нибудь руки дойдут :)

Стоп, так это тож на тож и выходит, что я говорил. Только другими словами. На вскидку, в Вашем примере, и слово А и слово С этого неполного пассажа недополучат ту часть веса, которую могли бы получить от слова В, если бы оно было в пассаже. Все эти недополучения, имхо, происходят на этапе перевзвешивания весов словопозиций во время работы функции контекстуального сходства. Потом считаем вес пассажа складывая веса слов. Естественно, неполные пассажи будут весить меньше не только из-за того, что некоторые слова отсутствуют, но и из-за того, что присутствующие слова получили меньше веса при пересчете весов с учетом контекстуального сходства. Сколько именно веса недополучит каждая словопозиция при пересчете весов, зависит от функции яндекса (набора коэффициентов).

Можно, конечно, этот механизм назвать штрафом (недополучение веса), но это происходит не после того, как получен вес пассажа. Т.е. это не механизм штрафования неполных пассажей, а свойство функции Яндекса, опосредованно приводяшее к деградации неполных пассажей

13:47 / 05.03.2007 в ответ на Алгоритм Яндекса by iseg - фсем фтыкать!

И уж поверьте, вес пассажа, попавшего в тег <title>, при прочих равных отличается от веса такого же пассажа в <body>. Это Вам в качестве наглядного факта, которым можно объяснить наличие учета веса пассажа при ранжировании

Другими словами, пассаж запросозависим :)

В противном случае, наблюдаем противоречие - если тег тайтл является пассажем, то как в него может попасть пассаж?

P.S. Этот пост надо рассматривать в контексте всех предыдущих постов топика.

Как-то Вы уж очень вольно интерпретировали мои слова. Хотелось бы более подробно проследить логическую цепочку, по которой из моих слов следует, что разбиение на пассажи запросозависимо.

Я там смайл поставил специально :)

И сказал, мол, в контексте всего спора надо рассматривать. Если очень кратко, то скажите, вот Вы считаете, что Тайтл - пассаж, и тут же говорите, что пассаж попал в тайтл. Это как? Другими словами, я хотел обратить внимание, на то, что даже в таких, бытовых фразах проскакивает несоответствие и противоречие.

Проследить цепочку конечно можно. Но это будет повторение всего того, что говорил Евгений и немного я. Вы не находите подобные доводы убедительными.

23:06 / 04.03.2007 в ответ на Алгоритм Яндекса by iseg - фсем фтыкать!

И уж поверьте, вес пассажа, попавшего в тег <title>, при прочих равных отличается от веса такого же пассажа в <body>. Это Вам в качестве наглядного факта, которым можно объяснить наличие учета веса пассажа при ранжировании

Другими словами, пассаж запросозависим :)

В противном случае, наблюдаем противоречие - если тег тайтл является пассажем, то как в него может попасть пассаж?

P.S. Этот пост надо рассматривать в контексте всех предыдущих постов топика.

22:59 / 04.03.2007 в ответ на Алгоритм Яндекса by iseg - фсем фтыкать!

Как же не упоминает? Он упоминает свойства, присущие известным функциям весов пассажей, описанным в литературе и сравнивает с ними функцию Яндекса.

В качестве ответа, процитирую и себя и Вас:

Он не упоминает понятия веса пассажа в Яндексе. Он упоминает свойства, присущие известным функциям весов пассажей, описанным в литературе и сравнивает с ними функцию Яндекса.

Я понят? :)

Функцию чего, позвольте поинтересоваться.

Функцию, при помощи которой рассчитываются веса словопозиций уже с учетом контекстуального сходства. Перед применением этой функции, каждая словопозиция одного и того же слова имела одинаковый вес. Применяем функцию, и она пересчитывает вес каждой словопозиции. В принципе, если после этого пересчета проссумировать веса всех словопозиций пассажа, то получится вес пассажа. В литературе описаны функции весов пассажей, но в литературе нет аналогов Яндексовскому алгоритму. Поэтому, поведение этих, описанных в литературе функций, сравнивается с поведением функции Яндекса. При проведении такого сравнения, удобно оперировать виртуальным понятием веса пассажа в Яндексе.

Кроме того, на этапе вычисления веса пассажа, пассажи, полностью попавшие в некоторые зоны документа, получают дополнительные баллы

Снимаю шляпу. За все время изучения статьи я не обратил внимания на эту фразу. Значит вес пассажа все таки вычисляется.

И уж поверьте, вес пассажа, попавшего в тег <title>, при прочих равных отличается от веса такого же пассажа в <body>. Это Вам в качестве наглядного факта, которым можно объяснить наличие учета веса пассажа при ранжировании

И без этого видно, что в статье явно указано на вычисление веса пассажа. Позже я позволю себе вернуться к этому Вашему высказыванию, но в другом контексте.

Теперь я признаю факт вычисления Яндексом веса пассажа, но это только вносит дополнительную стройность в мое представление о работе алгоритма.

Давайте смотреть:

Допустим алгоритм кворума уже отработал и определил все пассажи, преодолевшие кворум. Уже вычислены контрастности всех слов пассажей по формуле TF*IDF.

Полученная контрастность слова распределяется на все его позиции, прошедшие фильтр

Т.е. все словопозиции конкретного слова запроса имеют одинаковые контрастности.

Затем по ним происходит итерирование и вычисление веса каждой словопозиции с учетом расстояния до всех остальных слов из запроса, попавших в пассаж. Учет состоит в вычислении сходства этого расстояния с заданным в запросе оптимальным расстоянием.

А вот это уже работа той функции (которую мы обсуждали), при помощи которой рассчитываются веса словопозиций уже с учетом контекстуального сходства. В результате работы этой функции происходит пересчет весов (контрастностей) словопозиций во всех пассажах документа. И получаются "веса словопозиций, взвешенные по сходству их полного контекста"

Наконец, веса словопозиций, взвешенные по сходству их полного контекста, «собираются» обратно и образуют вес документа.

Вот здесь, видимо, я и ошибался. Я думал, все так буквально и происходит - просто просуммировали веса всех словопозиций и получили вес документа. Но, получается, что веса словопозиций суммируются сперва попассажно, образуя вес пассажа. Судя по всему это необходимо, чтобы можно было увеличить вес пассажам, удовлетворяющим каким-либо условиям (например, если пассаж "полностью попал в некоторые зоны документа"). После этого вес документа получается путем сложения весов всех пассажей.

Где-то так... :) Как видите, с Вашей помощью я скорректировал свой взгляд на работу алгоритма. Голову пеплом не посыпаю - выше я допускал, что могу что-то упускать и старался использовать политкорректные формулировки :) Однако, и Вы можете заметить, что произошли мизерные коррективы. Да, вес пассажа вычисляется, но это далеко не основа алгоритма, а последний штрих. Ни та функция, о которой вы говорили, ни другие ключевые моменты алгоритма не используют вес пассажа.

13:52 / 04.03.2007 в ответ на Алгоритм Яндекса by iseg - фсем фтыкать!

И почему не используется? Неполные пассажи, к примеру, весят меньше полных, хотя могут содержать больше ключевиков в абсолютном плане.

Не используется при ранжировании. Сам термин "вес пассажа" может и использоваться. Он может нагляднее и быстрее объяснить результат работы алгоритма, основанного на расчете веса словопозиции.

Поэтому очень трудно увидеть, чтобы "нестрогое соотвествие" в выдаче обгоняло бы "строгое".

Это результат работы алгоритма взвешивания словопозиций с учетом контекстуального сходства. Другими словами, приведенным Вами фактом сложно объяснить наличие учета веса пассажа при ранжировании.

16:19 / 03.03.2007 в ответ на Алгоритм Яндекса by iseg - фсем фтыкать!

Но Сегалович упоминает понятие веса пассажа в Яндекса как "табулированный набор коэффициентов" в пункте "Коэффициент контекстуального сходства". Лукавит? И почему не используется? Неполные пассажи, к примеру, весят меньше полных, хотя могут содержать больше ключевиков в абсолютном плане. Поэтому очень трудно увидеть, чтобы "нестрогое соотвествие" в выдаче обгоняло бы "строгое". То что длина пассажа не влияет на его вес - это да, очевидно. Но Сегалович упоминает только о том, что в яндексовской функции веса пассажей "соблюдаются некоторые их этих принципов"

Давайте смотреть:

Ранжирование на уровне словопозиций: расчет веса словопозиции

Полученная контрастность слова распределяется на все его позиции, прошедшие фильтр. Затем по ним происходит итерирование и вычисление веса каждой словопозиции с учетом расстояния до всех остальных слов из запроса, попавших в пассаж. Учет состоит в вычислении сходства этого расстояния с заданным в запросе оптимальным расстоянием. Наконец, веса словопозиций, взвешенные по сходству их полного контекста, «собираются» обратно и образуют вес документа.

Явно описан алгоритм расчета веса документа относительно запроса. Алгоритм логичный и самодостаточный. В нем не только не упоминается "вес пассажа", но и нет для него места - все рассчитывается исходя из весов словопозиций.

Но Сегалович упоминает понятие веса пассажа в Яндекса как "табулированный набор коэффициентов" в пункте "Коэффициент контекстуального сходства". Лукавит?

Он не упоминает понятия веса пассажа в Яндексе. Раздел озаглавлен "Коэффициент контекстуального сходства" и речь в нем идет о сравнении вычисления контекстуального сходства в Яндексе и других системах.

Фраза

В функции Яндекса (табулированный набор коэффициентов) также соблюдаются некоторые их этих принципов, в частности, принцип деградации неполных пассажей. Схожим выглядит и убывание при уменьшении сходства с оптимальным расстоянием.

демонстрирует результат ранжирования, а не сам процесс.

ИМХО, коэффициент контекстуального сходства применяется яндексом (и это явно указано в статье) при пересчете весов словопозиций - вот тогда-то и применяется этот табулированный набор коэффициентов.

13:45 / 03.03.2007 в ответ на XSS (или не xss?) уязвимости

Да хоть, чтоб подобных дыр не было

-так не проблема держать вечно ссылку на эту страницу из внутряка какого-нибудь.

Да, это понятно. В этом случае, мы просто экономим на собственных "площадках" под ссылки. Но я о другом - если сайт, на котором нам удалось проставить ссылку на себя (используя эту дырку) достаточно авторитетен, то нам от этого авторитета достается , по большому счету, шиш с маслом. Конечно, мы получаем выгоду за счет, "ненулевых" начальных показателей висячей страницы. Даже, возможно, эти начальные показатели зависят от авторитетности сайта, на котором они зависли. Но, все равно, шиш, пусть и с маслом :)

Впрочем, я даже и не знаю, на фиг я все это понаписал :) Все и так ясно :) Видимо, обидно мне, что не получается при использовании этого метода (в чистом виде) отхватить серьезный кусок от авторитетности сайта-жертвы :)

Добавил: euhenio, так есть в последнее время тенденция к небольшому подъему документов, продвигаемых таким методом?

12:33 / 03.03.2007 в ответ на XSS (или не xss?) уязвимости

а смысл?

Да хоть, чтоб подобных дыр не было :)

Причем, это не единственное возможное злоупотребление.

на которые уже ссылок не стоит?

Да, но я в большей степени имел в виду "висячесть" в рамках сайта(домена), т.е. отсутствие внутренних ссылок на документ (если не ошибаюсь, страницы с результатами поиска, изначально - Deep Web). Хотя, если рассматривать вопрос в комплексе, то, не исключено, что неучет висячих приведет к серьезным перекосам (особенно, учитывая недавние изменения в учете внутриссылочного :wink: )

если двигать сайт по низкочастотке, то кроме мизеров передаваемого веса ничего не надо.

А не заметил ли кто тенденции к небольшому подъему в серпе страниц, продвигаемых подобным образом?

00:05 / 03.03.2007 в ответ на XSS (или не xss?) уязвимости

А почему ПС не вырубают ссылочное с "висячих" страниц?

15:48 / 02.03.2007 в ответ на Алгоритм Яндекса by iseg - фсем фтыкать!

Есть еще вот какие соображения.

Учитывая следующее:

вычисление веса каждой словопозиции с учетом расстояния до всех остальных слов из запроса, попавших в пассаж

Имеем текст "А_Б_Б.", удовлетворяющий контекстным ограничениям запроса "А&Б". Для простоты допустим, что веса слов А и Б одинаковы.

Учитывая приведенную выше цитату, можно предположить, что неважно, состоит этот текст из двух пассажей (А_ _ _Б и А_Б) или из одного (А_Б_Б).

Почему не важно? Потому, что нам надо определить, каким именно образом происходит вычисление веса каждой словопозиции. Именно это является главным вопросом, а вопрос о количестве пассажей всего лишь может послужить ключем (причем, сомнительным) к решению.

Поэтому, предлагаю попытаться решить вопрос о вычислении веса каждой словопозиции, безотносительно вопроса пассажей.

Сперва разберемся с двумя словопозициями слова Б. Очевидно, что вес первой из этих словопозиций выше, чем второй т.к. расстояние от первого слова запроса (А) до первой словопозиции слова Б меньше, чем до второй. Впоследствии, когда будет вычисляться вес документа относительно запроса, веса всех словопозиций всех слов запроса проссуммируются и составят вес документа относительно запроса.

Возникает вопрос: может быть, вес второй словопозиции слова Б не учитывается (т.к. слово А единственное)? Резонный вопрос. Но, если так, то тексты А_Б и А_Б_Б по отношению к запросу А&Б будут иметь одинаковый вес, что сомнительно с точки зрения здравого смысла. Есть и другие доказательства учета второй словопозиции слова Б (основанные на выдержках из статьи).

Самое интересное и неоднозначное начинается на этапе вычисления веса словопозиции слова А. Не совсем понятно, вес этой словопозиции будет иметь одну составляющую, определяемую расстоянием до первой словопозиции слова Б, или к ней приплюсуется составляющая, определяемая расстоянием от слова А до второй словопозиции слова Б? С одной стороны (обращаясь к здравому смыслу), слово А единственное, почему мы должны увеличивать его вес только потому, что в куске текста, удовлетворяющем контекстным ограничениям, присутствует более одного другого слова из запроса?

С другой стороны (также обращаясь к здравому смыслу), обе словопозиции слова Б удовлетворяют контекстным ограничениям запроса. Т.е. однозначно предполагается, что оба слова Б употреблены в контексте слова А. Соответственно, документ (А_Б_Б) где в контексте со словом А употреблены два слова Б должен иметь бОльший вес относительно запроса, чем документ вида А_Б. Но он и так будет иметь больший вес, т.к. выше мы условно доказали, что вес второй словопозиции слова Б учитывается при вычислении веса документа по отношению к запросу. Т.е. речь идет о том, усиливается ли вес документа А_Б_Б по сравнению с документом А_Б еще больше за счет описанного выше увеличения веса слова А за счет второй словопозиции слова Б?

12:51 / 02.03.2007 в ответ на Алгоритм Яндекса by iseg - фсем фтыкать!

wolf, почему Вы не хотите увидеть, что такое понятие как "вес пассажа" не используется при ранжировании? Не исключено, конечно, что я ошибаюсь. В таком случае, покажите мне, из чего можно сделать вывод о том, что Яндекс хотя бы вычисляет вес пасажа (не говоря уже про использование этого веса при ранжировании).

12:46 / 02.03.2007 в ответ на Алгоритм Яндекса by iseg - фсем фтыкать!

в статье есть еще магическая фраза "объемлющие пассажи игнорируются"

Если следовать букве статьи, то эта фраза не относится к алгоритму Яндекса. А до появления Ильи Сегаловича сотоварищи :) кроме как на букву, ссылаться не на что :)

за счет повторения одного слова из запроса можно превысить кворум

Это легко проверить:) И, потом, что мешает при расчете кворума не учитывать повторяющиеся слова пассажа?

И все-таки я склонен склониться к версии о "запросонезависимости" разбиения документа на пассажи. В данном случае просто оба пассажа (который в начале со словом А и который в конце со словом В) пройдут кворум и потом получат максимальные веса.

wolf, мне понятно, что Вы имеете в виду. Скажите, не кажется ли Вам, что следующая цитата из http://company.yandex.ru/articles/romip2004.xml опровергает Ваши слова?

Идея кворума в поиске не нова, ее аналогом в процедуре фильтрации релевантных пассажей можно считать принцип «weighted coordination match» [9], при котором «найденными» считаются все полные пассажи, а также все неполные, сумма весов слов которых превосходит необходимый кворум.

Т.е., чтобы пассаж преодолел кворум, надо, чтобы слова, позволяющие ему преодолеть кворум были в нем, а не в других пассажах. В Вашем же примере (со словами А и В, находящимися в разных пассажах) кворум не будет преодолен (например, при сходных весах слов). А это противоречит тому, что мы можем наблюдать.

00:12 / 02.03.2007 в ответ на Алгоритм Яндекса by iseg - фсем фтыкать!

Вообще-то, хотелось бы услышать самого начальника транспортного цеха :) Он же сказал, что эта статья чтобы 'все же объяснить, тем "кто понимает" '. Надеюсь, он не откажется от комментариев - мы же, вроде, "пытаемся понять" :)

В статье (http://company.yandex.ru/articles/romip2004.xml) есть определенные легкие нестыковки, объясняемые замалчиванием некоторых фактов или оговорками/описками. Но если строго следовать букве статьи, то вывод о "запросонезависимости" пассажа сделать очень затруднительно :)

Более того, если проследить за мыслью, можно обнаружить, что сам по себе пассаж, вроде как и не причем. И при ранжировании документов такое понятие, как вес пассажа не используется.

euhenio, Вы, вроде не против "запросозависимости" пассажа :)

Хотите вопрос на засыпку? :)

Запрос: слово1&&/(-7+7)слово2

Документ:

Слово1 бла-бла-бла. Бла-бла-бла. Слово2 бла-бла-бла. Бла-бла-бла. Слово1.

В этом документе, при таком запросе Яндекс найдет (и подсветит) и слово2 и оба слово1.

Вопрос: сколько в этом документе релевантных пассажей?

17:49 / 01.03.2007 в ответ на Алгоритм Яндекса by iseg - фсем фтыкать!

-ну да, конечно, может. Есть еще оператор && :)

Да я просто предложил в терминах Яндекса изъясняться, раз уж топик про него :)

А из http://company.yandex.ru/articles/romip2004.xml вроде как вытекает, что пассаж зависит от запроса, вернее от контекстных ограничений, заданных пользователем (при помощи операторов) или самим Яндексом. Поправьте, ежли не прав.

13:08 / 01.03.2007 в ответ на Алгоритм Яндекса by iseg - фсем фтыкать!

хотя откуда взялось "как правило" - неизвестно. Пассаж он "запросонезависимый".

а откуда взялось "запросонезависимый"? :)

23:54 / 27.02.2007 в ответ на Алгоритм Яндекса by iseg - фсем фтыкать!

http://company.yandex.ru/articles/romip2004.xml

Яндекс осуществляет процесс нахождения всех пассажей в документах, удовлетворяющих этим ограничениям

Имеются в виду ограничения, накладываемые колдунщиком. Как известно, колдунщик может вставлять также и ограничения вида &&/(-7 7)

В этом случае, пассажем может стать часть текста документа, содержащая несколько предложений.

18:30 / 26.02.2007 в ответ на Лохотроны - поучимся у них немного :)

Ну так может розыграть с ним такую же фишку, как один из америкосов (если не ошибаюсь). Который вступил в переписку с лохотронщиками и вытянул у них крупную сумму денег. Думаю, многие вспомнят эту историю.