Главная Случайная страница


Категории:

ДомЗдоровьеЗоологияИнформатикаИскусствоИскусствоКомпьютерыКулинарияМаркетингМатематикаМедицинаМенеджментОбразованиеПедагогикаПитомцыПрограммированиеПроизводствоПромышленностьПсихологияРазноеРелигияСоциологияСпортСтатистикаТранспортФизикаФилософияФинансыХимияХоббиЭкологияЭкономикаЭлектроника






Средства поиска информации в Интернете

ПОИСК ИНФОРМАЦИИ В ИНТЕРНЕТЕ

Средства поиска информации в Интернете

В настоящее время рост информационных ресурсов Интернета происходит высокими темпами. Всемирная сеть напоминает читальный зал библиотеки, где хранятся гигантские объемы текстовых, графических, мультимедийных, архивных и прочих файлов. Этот зал невозможно обойти полностью. Здесь все ежечасно меняется, тело разнообразных документов возрастает каждую секунду. Найти необходимую информацию становится все труднее. Различные печатные справочники устаревают еще до их выхода в свет. Единственным надежным способом поиска информации является использование специальных поисковых систем, которые постоянно отслеживают изменения информации в сети.

Поисковые системы— это специальное программное обеспечение, основная задача которого заключается в организации наиболее оптимального поиска информа­ции в Интернете.

Известные на сегодняшний день поисковые системы можно условно разделить на следующие основные группы:

• поисковые системы общего назначения (автоматические индексы);

• тематические каталоги (справочники) Интернета;

• специализированные поисковые системы;

• метапоисковыесистемы.

Поисковые системы общего назначения

Создание универсального поискового сервиса, позволяющего находить информацию из различных ресурсов Интернета, стало возможным лишь с появлением в начале 90-х годов серверов WorldWideWeb. Одновременно с появлением серверов Всемирной паутины были созданы специальные поисковые серверы,основная функция которых состоит в поиске информации среди различных информационных ресурсов Интернета, включая серверы WorldWideWeb, FTP, Gopher, телеконференции Usenetи списки адресов E-mail.

Стратегия работы современных поисковых серверов базируется на двух подходах. В первом случае создаются и непрерывно пополняются огромные базы данных, хранящие информацию о миллионах документов, имеющихся в Интернете. Сбор информации автоматически выполняется специальными программами (их называют роботами, пауками и т. п.), которые просматривают серверы Интернета, копируют документы, анализируют встречающиеся слова и выполняют индексацию.

Индексация заключается в выборе всех значащих слов, называемых ключевыми. Одни поисковые системы обрабатывают весь документ, другие только отдельные части документа: названия, заголовки, начальные слова разделов. Сформированные таким образом индексы документов — базы данных ключевых слов — добавляются к уже существующим и хранятся на поисковых серверах. Обычно этот процесс не требует никаких усилий со стороны человека, так как данные инструменты полностью скрывают от пользователя способ организации базы данных и ее содержимое. Поисковые системы такого рода чаще всего называют поисковыми системами общего назначенияили автоматическими индексами.Автоматический индекс состоит из трех частей:

• программы-робота;

• базы данных, собираемой этим роботом;

• интерфейса для осуществления поиска в базе данных.

Типичными представителями автоматических индексов являются, например, AltaVistaи Lycos.С точки зрения пользователя автоматические индексы работают достаточно просто: пользователь задает ключевое слово или фразу, построенную из ключевых слов по определенным правилам, а поисковая машина в ответ на запрос выдает списки и точные адреса (URL) тех документов, которые соответствуют этому, запросу.

Тематические каталоги

Другой подход предполагает организацию поискового сервера как предметно-ориентированной системы, где информация по отдельным темам собрана в соответствующих каталогах. Примерами могут служить серверы Yahoo и Galaxy.Поисковые системы такого рода часто называют предметнымиили тематическими каталогами.Тематические каталоги используют в тех случаях, когда сформулировать запрос с помощью ключевых слов трудно в силу специфики разыскиваемой информации или недостаточности знаний по интересующей теме.

В каталог информация заносится по инициативе человека. Добавляемая страница должна быть жестко привязана к принятым в каталоге категориям. Результатом является постоянно обновляющийся древовидный каталог, на верхнем уровне которого собраны самые общие категории, такие, как «бизнес», «наука», «образование» и т. п., а элементы самого нижнего уровня представляют собой ссылки на отдельные Web-страницы и Web-узлы вместе с кратким описанием их содержимого.

Выбрав нужный раздел, пользователь получает список подразделов, сужающий круг, и так до тех пор, пока не попадет на страницу, содержащую ссылки на нужную информацию. Тематические каталоги не могут конкурировать с поисковыми машинами по широте охвата информации. Их преимущество заключается в том, что вероятность обращения к информации, не имеющей отношения к теме поиска, очень мала. Для облегчения просмотра информационных ресурсов многие тематические каталоги имеют собственные простые поисковые систе­мы, позволяющие проводить поиск по ключевым словам внутри самого каталога. Только поиск осуществляется не в содержимом самих Web-серверов по всему миру, а в их кратких описаниях, хранящихся в базе данных каталога. Отметим, что старейший каталог Yahoo представляет собой иерархически организованный Web-каталог, который генерируется полуавтоматически. Ссылки на различные ресурсы собираются двумя способами: присылаются пользователями и извлекаются программами-роботами.

Метапоисковые системы

Если один и тот же запрос направить различным поисковым инструментам, то результат поиска будет разным и по количеству найденных документов, и по их соответствию сделанному запросу, Метапоисковые системы,или метаиндексы,позволяют усовершенствовать поиск путем передачи запроса одновременно нескольким поисковым системам. Полученные в результате поиска документы объединяются в общий упорядоченный определенным способом список.

Метапоиск экономит время, так как нет необходимости опрашивать каждую поисковую систему отдельно, и увеличивает вероятность получения нужной пользователю информации. Недостатком метапоиска является то, что при обращении к разным поисковым машинам запрос приходится формулировать в форме, понятной всем машинам. Это не позволяет использовать тонкие индивидуальные настройки и возможности каждой отдельной машины.

Требования к поисковым системам общего назначения

С точки зрения пользователя общение с поисковыми машинами должно быть простым, не требующим подготовки и специальных навыков. Пользователь должен иметь возможность.

1. Сделать запрос на родном языке в естественной форме. Например, «Использование компьютеров для проведения уроков истории в средней школе».

2. Ограничить область поиска документов. Это ограничение может определяться местом и временем создания документа, языком, на котором он написан, тематикой разыскиваемой информации.

3. В ответ на запрос получить перечень найденных документов с кратким их описанием. Документы должны максимально соответствовать запросу.

4. При необходимости загрузить нужные документы на свой компьютер для дальнейшего использования.

Действия поисковой машины, скрытые от пользователя, должны сводиться к следующему.

1. Перевод ключевых слов на заданный язык.

2. Подбор синонимов к ключевым словам.

3. Учет морфологических вариантов слов. Например, искать документы, содержащие не только слово «автомобиль», но и «автомобили», «автомобилей» и т. д.

4. Проведение поиска на указанных пользователем языках.

5. Смысловой отбор найденных документов по соответствию их тематике запроса.

6. Систематизация документов по степени их соответствия запросу.

7. Представление найденных документов в удобном и понятном для пользователя виде.

Каждая из поисковых систем предлагает два способа поиска — простой и сложный.

Простой поискзаключается в том, что запрос состоит из набора ключевых слов, а поисковая машина возвращает документы, содержащие хотя бы одно из этих слов. Понятно, что при таком поиске будет найдено множество лишних документов, не представляющих интерес для пользователя.

Для повышения эффективности поиска необходимо использовать развитые средства поиска, позволяющие формулировать точные сложныезапросы. Правила построения сложных запросов можно найти в справочных файлах каждой поисковой системы.

Рассмотрим далее основные принципы систематического поиска, используемые в той или иной степени практически всеми современными поисковыми машинами.

Поиск всех форм слова

Для поиска всех слов, имеющих общий корень, используется знак *. Например, в результате поиска по запросу компьютер* будут найдены документы, содержащие слова: компьютер, компьютеры, компьютером, компьютерные и т. д.

Ряд поисковых систем делают это автоматически, разыскивая документы, содержащие все морфологические формы ключевого слова.

Поиск фразы

Для поиска в документе фразы или словосочетания используются двойные кавычки. По запросу «информационные технологии» будут найдены документы, содержащие это словосочетание без вариантов.

Логические запросы

В таких запросах применяются логические операторы OR, AND, NOT и NEAR, связывающие несколько слов или фраз в один запрос.

OR (или)

Когда элементы запроса связаны оператором OR, это означает, что в любом из найденных документов должен присутствовать хотя бы один из них. Пример: сыщик OR детектив. По этому запросу будут найдены документы, содержащие как оба слова, так и каждое из них в отдельности.

AND (и)

Этот логический оператор употребляется в том случае, когда необходимо присутствие всех соединенных им слов. Пример: информационные AND технологии. В найденных документах будут присутствовать оба слова. Но это не означает, что они находятся в тексте близко друг от друга или связаны по смыслу.

NOT (не)

Слова или фразы, перед которыми стоит этот оператор, будут исключены из результатов поиска. Пример: «поиск в Интернете» NOT «поисковые машины». Такой запрос аналогичен запросу +«поиск в Интернете»«поисковые машины».

NEAR

Оператор указывает на то, что два слова должны быть разделены не более чем десятью словами. В ряде

поисковых систем для запроса на поиск слов, расположенных на определенном расстоянии, применяются фигурные и квадратные скобки.

Вывод результатов поиска

Каждая поисковая система по-разному представляет пользователям результаты поиска. Обычно это нумерованный список найденных по запросу документов. Для каждого документа, как правило, сообщается его название, URL, размер, время обновления документа и несколько первых фраз текста, по которым можно судить о его содержании. Ряд поисковых систем дают краткое резюме, из которого можно получить представление о том, в каком контексте употребляются ключевые слова.

Название документа и его URL оформляются в виде гиперссылки, по которой пользователь имеет возможность загрузить документ на свой компьютер для прочтения, сохранения и печати. Поисковая система оценивает результаты поиска и выводит список документов в определенном порядке (ранжирует документы). Таким образом, в начале списка будут находиться документы, имеющие более высокую степень соответствия запросу.

Каждая поисковая система использует собственные критерии ранжирования документов как при анализе результатов поиска, так и при формировании индекса. Вследствие этого результат поиска по одинаковому запросу будет различным для каждого поискового инстру­мента.

Пользователь может сам повлиять на порядок ранжирования документов, указав в соответствующем окне наиболее значимые слова и фразы. В этом случае ранжирование будет проводиться таким образом, чтобы в начале списка оказались документы, содержащие именно эти слова и фразы.

 

 

ПОИСК ИНФОРМАЦИИ В ИНТЕРНЕТЕ

Средства поиска информации в Интернете

В настоящее время рост информационных ресурсов Интернета происходит высокими темпами. Всемирная сеть напоминает читальный зал библиотеки, где хранятся гигантские объемы текстовых, графических, мультимедийных, архивных и прочих файлов. Этот зал невозможно обойти полностью. Здесь все ежечасно меняется, тело разнообразных документов возрастает каждую секунду. Найти необходимую информацию становится все труднее. Различные печатные справочники устаревают еще до их выхода в свет. Единственным надежным способом поиска информации является использование специальных поисковых систем, которые постоянно отслеживают изменения информации в сети.

Поисковые системы— это специальное программное обеспечение, основная задача которого заключается в организации наиболее оптимального поиска информа­ции в Интернете.

Известные на сегодняшний день поисковые системы можно условно разделить на следующие основные группы:

• поисковые системы общего назначения (автоматические индексы);

• тематические каталоги (справочники) Интернета;

• специализированные поисковые системы;

• метапоисковыесистемы.

Последнее изменение этой страницы: 2016-07-22

lectmania.ru. Все права принадлежат авторам данных материалов. В случае нарушения авторского права напишите нам сюда...