Поиск, 02 лекция (от 20 октября)

Материал из eSyr's wiki.

Версия от 17:40, 20 октября 2010; Vissi (Обсуждение | вклад)

(разн.) ← Предыдущая | Текущая версия (разн.) | Следующая → (разн.)

К второй задаче из домашнего задания мало кто приступал, но в комментарии к соответствующему посту в ЖЖ был правильный ответ. Задание было [1]

Содержание

1 Сбор документов и подготовка к индексированию

Сбор документов и подготовка к индексированию

В академии наук изучается паук
Академики гурьбой бьются в стенку головой
Не успокоимся пока не изучим паука!
/ Владлен Гаврильчик /

На сбор данных можно смотреть как со стороны поисковой системы, так и со стороны администратора сайта. Со стороны ПС это называется робот или «паук». Сперва владельцы сайтов стеснялись предоставлять контент роботу, теперь же, наоборот, стараются сделать страницы более привлекательными для ПС.

Клиентская сторона

В файл /robots.txt можно записать подсказки для ПС. Стандарт: [2]. С # начинается комментарий. User-Agent: * — инструкции для всех ПС. Директива Disallow: / — запретить всё. Disallow: /abc* — именно путь со *, а не любые пути, начинающиеся с abc. Запрещаются любые пути с соответствующим началом, например, /abc*a. На одной строчке — один путь. Пустая строка — новый поток инструкций. Директива Allow идёт перед директивами Disallow.

В тегах <meta> можно задавать метаинформацию о странице. Для роботов атрибуты тега: name="robots" content="NOINDEX" — не индексировать. Бывают также значения INDEX (по умолчанию, индесировать), NOFOLLOW — не надо переходить по ссылкам, FOLLOW — переходить по ссылкам (по умолчанию). Также бывают значения ALL и NONE. Крупные ПС обрабатывают также name="google" content="nocache" — не помещать в кэш. Исторически использовались теги с name="description", name="keywords". Чёрные оптимизаторы, к сожалению, зафлудили данные тэги, поэтому, google, например, их не использует. Нестандартным также является тег <noindex>этот текст не проиндексируется</noindex>, используется яндексом, поддерживается также рамблером. Также в теге <a href="…" rel="nofollow"></a> — не индексировать содержимое по данной ссылке. При индексации (для борьбы со спамерами) не учитывается вес ссылок с форумов и википедии.

Для «положительной» рекомендации по индексации (как индексировать сайт) можно указать директиву Sitemap в robots.txt. Сайтмап — это xml. Далее идёт <urlset xmlns="…"><url>…</url>… </urlset>. Размер Sitemap — не более 10МБ. Также имеется тэг loc, в нём можно указать дату последнего изменения и другую информацию (приоритет, частота изменения).

Серверная сторона

Структура веба по Бродеру: Исток <-> Компоненты сильной связности <-> Сток. Источник: [3].

Существует 2 варианта обхода дерева (ссылок): в глубину и в ширину. Поисковый робот комбинирует подходы. Проблема с вебом: /dev/random наружу, бесконечные новые ссылки. Также робот может перегружать сайт (ошибки вежливости). Например, на яндексе был баг: mp3 файлы скачивались все, несколько раз в день. Ограничения вежливости: качать в 1 поток, с задержкой. Свойство робота: распределённость, масштабируемость, эффективность. Параметры индекса: качество, свежесть. Если на ресурс много ссылок, то важность его, как правило, низка. В некоторых случаях (статья Перельмана на arxiv.org) это правило не работает. Бывает отдельный робот для быстро обновляющихся ресурсов.

Компоненты поисковика: «качалка» (dns-резолвер, очередь на скачивание, кэш), анализатор. Существуют проблемы с dns-резлолвингом, в ПС пишут свои реализации DNS-клиента. Также данные могут менять локацию, сервера могут менять локацию. Структура очереди: «фасадная» и «тыловая» очереди. Локальность ссылок высокая.