can3p (can3p) wrote,
can3p
can3p

Выдача Яндекс.Блогов и странное

Волею случая заинтересовался вопросом, что возвращает в мир поиск Яндекс.Блогов и нашел интересное. Интересное было связано с ограничениями выдачи по времени.

Экспериментировал я со словом «Пекин». Будет много ссылок.

Интро – цифры могут гулять, выдача же живая.

Первым интересным результатом оказалось то, количество найденных результатов вполне может увеличиться. Пример, просто ищем по слову пекин – 6000 результатов. Теперь ищем то же самое, но с ограничением с 1 октября до 1 ноября 2010, тадам – 17000 результатов. Нам, конечно, все равно, т.к. просмотреть можно только первую тысячу результатов, но вопрос остается, как же так.

Если указать промежуток времени, то поиск выдает результаты отсортированные по дате, начиная с самых новых. В последнем запросе первый результат датировался 1 ноября, 23:49. Вкупе с ограничением по дате это может привести к тому, что вы не получите результаты за весь месяц, как вероятно ожидали. Обратимся к последней странице второго запроса. У меня последний запрос датировался 29 октября, круто. Отсюда вывод – надо ограничивать либо время, либо другие параметры, чтобы влезть в ту самую тысячу.

Теперь перейдем к более странному и гораздо более неприятному. У яндекса есть возможность отдавать результаты поиска в xml формате. И это хорошо, ваши программы могут эту выдачу легко парсить. Просто сервер опрашивать по некоторой информации небезопасно, т.к. за слишком частые запросы яндекс вполне может забанить.

Плохое состоит в том, что rss-поток результатов по своему содержимому не всегда соответствует обычной выдаче. Если искать просто по ключевым словам, то все хорошо. «Пекин» – html, rss. Добавим страну, будем искать в России – html, rss, все тоже хорошо. С параметром ft=all, т.е. искать везде, все тоже отлично, переходим ко времени. Ищем, начиная с 1 октября – html, rss, выдача совпадает, но количество результатов уже разное. В моем случае html-выдача сообщает про 7300 найденных результатов, rss знает только про 1400. Добавляем ограничение сверху, ищем до 1 ноября – html, rss. 3100 результатов против (!) 32. Выдача, конечно, отличается визуально.

Уже написав все это, увидел внизу переключалки с сортировки по дате к сортировке по релевантности. Все ок, они работают и даже влияют на rss-выдачу, хоть это и не задокументировано, но количество результатов при этом не меняется. Пробовал также искать с помощью языка запросов, результаты получаются идентичными. Отсюда могу сделать вывод, что неудачная фильтрация результатов происходит же в самом конце.

Еще про параметры запросов. Есть параметр numdoc, который отвечает за количество возвращаемых разом результатов. Так вот, максимальное значение параметра – 100 результатов, при превышении параметр сбрасывается до умолчальных десяти. Действует кстати а на обычную выдачу


Оригинал: http://blog.dpetroff.ru/tech/yandex_blogs_strange_search
Tags: fail, rss, search, yandex
Subscribe
  • Post a new comment

    Error

    default userpic

    Your reply will be screened

    Your IP address will be recorded 

    When you submit the form an invisible reCAPTCHA check will be performed.
    You must follow the Privacy Policy and Google Terms of use.
  • 0 comments