Главная Случайная страница


Категории:

ДомЗдоровьеЗоологияИнформатикаИскусствоИскусствоКомпьютерыКулинарияМаркетингМатематикаМедицинаМенеджментОбразованиеПедагогикаПитомцыПрограммированиеПроизводствоПромышленностьПсихологияРазноеРелигияСоциологияСпортСтатистикаТранспортФизикаФилософияФинансыХимияХоббиЭкологияЭкономикаЭлектроника






Технология проведения информационного поиска

· Определение географических регионов поиска, т. к. практическая ценность информационного ресурса может зависеть и от географического расположения соответствующего источника.

· Составление тезауруса. Для эффективного использования поисковых серверов необходим список ключевых слов, организованный с учетом семантических отношений между ними, т. е. тезаурус. При составлении тезауруса необходимо предусмотреть обработку синонимов, омонимов и морфологических вариаций ключевых слов.

· Отбор поисковых машин. Устанавливается последовательность использования поисковых машин в соответствии с убыванием ожидаемой эффективности поиска с применением каждой машины.

· Составление и выполнение запросов к поисковым машинам.

Это наиболее сложный и трудоемкий этап, связанный с обработкой большого количества информации (в основном шумовой).

На основе тезауруса формируются запросы к выбранным поисковым серверам, после чего возможно уточнение запроса с целью отсечения очевидно нерелевантной информации.

Затем производится отбор ресурсов, начиная с наиболее интересных, с точки зрения целей поиска.

Данные с ресурсов, признанных релевантными, собираются для последующего анализа.

 

Тема 16. Технология доступа к деловым ресурсам Интернета

План

1. Поисковые машины

2. Каталоги в Интернете

3. Технология доступа к информации в электронных библиотеках

4. Сравнительные характеристики эффективности поиска в различных системах и оценка достоверности

 

Интернет, являясь глобальной телекоммуникационной сетью, предоставляет возможность доступа к большому количеству информационных ресурсов. По некоторым оценкам, объем Интернет-ресурсов превышает 50 млн. веб-сайтов и 10 млрд. веб-страниц.

Под веб-страницей понимается электронный документ, который может содержать информацию в различном формате в виде текста, изображения, звука и т.д. Веб-сайт является совокупностью веб-страниц, связанных по смыслу или ссылками. В наиболее благоприятном случае пользователь знает адрес сайта. Адрес он может получить различными способами: из книг, справочников, периодических изданий, рекламных проспектов и других источников.

Основной проблемой, с которой сталкивается пользователь при работе в Интернете, является обнаружение необходимых ему информационных ресурсов.

Поиск необходимых сведений в Интернете осуществляется либо при помощи поисковых машин (search engine), либо каталогов (directory). Но и здесь пользователь сталкивается с проблемой выбора, так как уже в 2001 году количество поисковых машин в Интернете превысило 2000 и продолжает неуклонно расти.

Мы будем рассматривать поисковые машины и каталоги отдельно в виду принципиальных различий в организации их работы.

Поисковые машины

Задача поисковых машин - найти документы в Интернете по запросу пользователя. Поисковые системы состоят из трех основных частей.

Робот/Паук - программа, которая систематически посещает веб-страницы, считывает и индексирует полностью или частично их содержимое и далее следует по найденным ссылкам. Полученная информация заносится в базу данных поисковой машины. Поисковая база данных Индекс представляет собой гигантское хранилище, которое содержит опеределенным образом организованные данные: индексы, ссылки на веб-страницы и другую дополнительную информацию.

Поисковая программа, которая в соответствии с запросом пользователя перебирает индексы в поисках соответствующей информации и выдает результаты поиска в виде ранжированного списка найденных веб-документов. Место в списке определяется тем, насколько полно тот или иной документ отвечает критериям, указанным в запросе пользователя.

Принципы работы паука, организации индекса, поисковой программы в поисковых машинах, как правило, различаются. Поэтому запрос по одним и тем же выражениям в разных поисковых машинах обычно дает разные результаты.

Программа поиска отыскивает страницы, которые соответствуют формальным требованиям запроса. Чтобы определить последовательность, в которой отобранные страницы будут представлены пользователю, применяется алгоритм ранжирования.

В интересах пользователя документы, наиболее соответствующие потребностям пользователя, должны быть помещены первыми в списке результатов. Поисковые системы используют различные алгоритмы ранжирования, однако, основные принципы определения соответствия документов запросу следующие:

· количество слов запроса в текстовом содержимом документа;

· тэги, в которых эти слова располагаются;

· местоположение искомых слов в документе;

· удельный вес искомых слов в общем количестве слов документа;

· время — как долго страница находится в базе поискового сервера;

· индекс цитируемости — как много ссылок на данную страницу идет с других страниц, зарегистрированных в базе поисковой машины.

Однако эффективность работы поисковых машин ограничивается четырьмя существенными факторами.

1. Топология Интернета такова, что поисковые машины могут просматривать не больше трети всех сайтов в Интернете.

В 2000 г. специалисты компаний AltaVista,IBM и Compag исследовали ресурсы и гиперсвязи существующего информационного пространства WWW. Просмотрев с помощью поисковых средств AltaVista свыше 600 млн. веб-страниц и 1,5 млрд. ссылок, размещенных на этих страницах, они пришли к выводу, что исследуемое пространство состоит из следующих компонентов:

· центральное ядро — это тесно связанные между собой веб-страниц, с каждой из которых можно попасть на любую другую (27%);

· отправные страницы - в них могут быть ссылки, ведущие к ядру, но из ядра к отправным страницам попасть нельзя (22%);

· конечные веб-страницы, к которым можно прийти по ссылкам из ядра, но к ядру от них попасть нельзя (22%);

· полностью изолированные от центрального ядра страницы, имеющие ссылки либо на конечные веб-страницы, либо ссылки с отправных веб-страниц (22%);

· веб-страницы, не пересекающиеся с остальными ресурсами Интернета (7%).

Исследования показали, что при увеличении общего объема информационных ресурсов Интернета установленные отношения компонентов остаются прежними.

Проведенный анализ позволяет сделать вывод о том, что информационное пространство Интернета является достаточно сложным и неоднородным. К отдельным ресурсам Интернета поисковые машины не имеют доступа.

Последнее изменение этой страницы: 2016-07-23

lectmania.ru. Все права принадлежат авторам данных материалов. В случае нарушения авторского права напишите нам сюда...