Учебные материалы


Просмотр и индексирование



Карта сайта




Скачать полную версию работы Вы можете по ссылке Скачать




theartofdetails.co

Рис. 2.11. Лондонская подземка здесь используется как аналогия для обследования пауком

На нашем рисунке такие станции, как Embankment, Picadilly Circus и Moorgate, являются страницами, а соединяющие их линии представляют ссылки с этих страниц на другие страницы Интернета. Как только Google (нарисован внизу) доберется до Embankment, он увидит ссылки на Charing Cross, Westminster и Temple и сможет получить доступ к любой из этих страниц.

Структура ссылок сети Интернета связывает между собой все страницы, которые были сделаны публичными в результате установления ссылок на них. При помощи ссылок автоматизированные роботы поисковых движков, называемые "пауками" (именно поэтому они изображены в таком виде), могут добраться до многих миллиардов взаимосвязанных документов.

Когда поисковые движки находят эти страницы, их следующая задача состоит в том, чтобы сделать анализ кода этих страниц и сохранить элементы этих страниц в огромных массивах жестких дисков (чтобы при необходимости их можно было извлечь для ответа на запрос). Чтобы справиться с этой монументальной задачей по хранению миллиардов страниц (к которым можно получить доступ в доли секунды), поисковые движки создают огромные центры обработки данных.

Одна из ключевых концепций создания поискового движка – это решить, откуда начать поиск по сети. Несмотря на то, что теоретически начать можно из многих мест, в идеале следует начинать с доверенного набора web-сайтов. Фактором оценки доверия к вашему сайту можно считать расстояние (в количестве кликов) между вашим сайтом и наиболее доверенными сайтами. Мы более подробно обсудим роль доверия в алгоритмах поиска в разд. "Как ссылки влияют на рейтинги поисковых движков” главы 7.



edu 2018 год. Все права принадлежат их авторам! Главная