Яндекс вслед за Google – научные стипендии

Положение о научных стипендиях Яндекса

http://company.yandex.ru/grant/index.xml , deadline: 31 октября 2004 года.
А вот здесь (приложение 1) описано, что Яндекс интересует:

  1. Автоматическая обработка текста, лингвистика
    • Статистические и семантические методы текстового поиска применительно к вебу
    • Морфологические, синтаксические анализаторы
    • Снятие лексической, семантической неоднозначности
    • Нахождение и использование кросс-языковых ресурсов
  2. Анализ поисковых запросов, сеансов и протоколов
    • Построение и использование тезаурусов по пользовательским сеансам
    • Тематическая классификация запросов
    • Моделирование информационной потребности и поведения пользователя
    • Влияние сеанса и профиля пользователя на ранжирование
    • Статистическая и синтаксическая сегментация запроса, переформулирование запроса
  3. Мультимедийный поиск

    • Поиск изображений и музыки по содержанию
    • Кластеризация и классификация изображений
  4. Оценка качества поиска
    • Автоматические системы оценки качества поиска
    • Анализ поведения пользователей для оценки качества
  5. Производительность и распределенные системы

    • Эффективное исполнение запроса в распределенных системах: переформулирование запроса и выбор текстовых баз
    • Оптимизация, учитывающая ранжирование; частичные ответы
  6. Анализ ссылок в вебе

    • Меры популярности страниц, построенные на основе анализа ссылок
    • Обнаружение и анализ сообществ, их тематики, учет знания о сообществах в поиске
    • Обратная связь со стороны поисковых систем
    • Динамика появления и исчезновения ссылок, характеристики и модели веб-графа
  7. Структура веб-сайтов и веб-страниц; полудубликаты
    • Сегментация веб-страниц, выделение записей баз данных и данных, содержащихся в страницах, сгенерированных по шаблонам
    • Выявление структуры и функциональности веб-сайтов
    • Алгоритмы выявления дублей документов и «зеркал» сайтов; построение и использование сигнатур, устойчивых к небольшим изменениям документов
  8. Автоматическая классификация веб-страниц и веб-сайтов
    • Веб-каталог как учитель: классификация по зашумленным или неполным обучающим выборкам
    • Классификация с использованием гиперссылок
    • Построение и модификация тематических рубрикаторов на основе веб-корпуса
  9. Анализ стиля
    • Построение жанрового рубрикатора Веба; прослеживание эволюции традиционных и выявление новых функциональных стилей в Вебе
    • Жанровая классификация веб-текстов
    • Выявление положительных и отрицательных оценок в текстах
    • Выявление ангажированных и рекламных текстов
  10. Автоматическая обработка новостей

    • Разбиение потока новостных сообщений на событийные сюжеты
    • Построение иерархической структуры событийных сюжетов
    • Представление событийного сюжета: аннотирование, исправление фактических и стилистических ошибок в аннотациях
    • Устранение избыточности и дублирования в новостных сюжетах
    • Технология извлечения фактов для анализа новостей
    • Персонализация новостного потока
    • Рапространение информации в лентах СМИ и дневниках
  11. Автоматическое аннотирование, отвечание на вопросы

    • Составление аннотации для набора документов: аннотирование результата поиска, новостного сюжета, построение summary для сайта и т.п.
    • Аннотирование документов в зависимости от контекста: поискового запроса, жанра документа, пользовательского профиля и т.п.
    • Представление результата поиска: структурирование, аннотирование, отвечание на вопросы
    • Учет текстов ссылок при аннотировании документов, сайтов и результатов поиска
  12. Рекомендующие системы и совместная фильтрация
    • Анализ поведения пользователей интернет-магазинов, переходов пользователей
    • Совместный анализ предпочтений пользователей

А вот что Яндекс может для решения этих задач предоставить:

  1. Хост-граф Веба: ориентированный граф, вершинам которого соответствуют сайты (российского интернета), а ребрам – унифицированные ссылки между сайтами
  2. Каталог Яндекса: структура и наполнение рубрикаторов (тематического, регионального и т.д.); url-адреса, заголовки и описания веб-ресурсов.
  3. База Яндекс.Маркета: структура и наполнение товарных рубрик; описания товарных позиций, зашифрованные идентификаторы товарных позиций и продавцов
  4. Репрезентативная выборка из нескольких сотен тысяч веб-страниц в виде заархивированных текстов и поискового индекса с программным интерфейсом к ним; информация о классификационных признаках этих веб-страниц, взятая из Яндекс.Каталога
  5. Архивы протоколов запросов по различным поисковым источникам (Веб, Яндекс.Маркет и т.п.) с зашифрованными идентификаторами пользователей и статистикой результатов поиска; архивы протоколов переходов с результатов поиска по этим поисковым источникам
  6. Выборка новостных сообщений от нескольких новостных агентств с указанием
    дат и тематических категорий сообщений

-из списка мне лично пригодились бы первый и пятый пункты. Подать заявку, что ли? 🙂 Но, думаю, не интересуют их измышления таких людей, как я… 🙁