Главная Случайная страница


Категории:

ДомЗдоровьеЗоологияИнформатикаИскусствоИскусствоКомпьютерыКулинарияМаркетингМатематикаМедицинаМенеджментОбразованиеПедагогикаПитомцыПрограммированиеПроизводствоПромышленностьПсихологияРазноеРелигияСоциологияСпортСтатистикаТранспортФизикаФилософияФинансыХимияХоббиЭкологияЭкономикаЭлектроника






Типы (разновидности) систем индексирования.

  1. по степени автоматизации (ручные à автоматические)
  2. по степени контролируемости лексики (без словаря à со словарём)
  3. по характеру алгоритма индексирования.
    • Последовательный просмотр (пословный перевод на ИПЯ)
    • Эвристические процедуры – предполагают анализ текста, базируются не на принципе пословного перевода, а на принципе интерпретации (в меньшей степени подходят для автоматизации).
    • Алгоритм, базирующийся на эвристических процедурах (например, на частоте использования).
  4. по наличию лексико-графического контроля – приведение слов к нормальному виду (единой морфологической форме0, подразумевает устранение многозначности языка.
  5. по аспектам

· одноаспектное индексирование – ИПС имеет широкий тематический профиль и относительно малое наполнение каждой темы.

· Многоаспектное индексирование – сложныеформы для выполнения запроса.

  1. пост- и предкоординация

В процессе индексирования имеется ли возможность самостоятельной координации лексических единиц.

Пример1. Система свободного индексирования предполагает: индексатор выписывает слова, которые, по его мнению, наиболее полно отражают содержание документа (ассоциации, слова из других источников и др.) Характеристика: ручное индексирование без словаря, применяются эвристические процедуры, отсутствует лексический контроль.

Пример2. Система жёсткого индексирования предполагает, что слова выписываются только из текста, в ПОД включаются только те, которые есть в словаре, вводится нормализация терминов. Характеристика: может быть и автоматическим, со словарём, чаще производится методом последовательного просмотра текста, присутствует контроль лексических единиц.

Детальность характеризует точность отражения содержания в ПОДе. Она определяется смысловой близостью ключевых слов, которые были выделены, и дескрипторами, которые вошли в ПОД.

Глубина индексирования характеризует полноту раскрытия содержания в ПОДе. Условно, можно считать, что глубина индексирования оценивается числом слов, входящих в ПОД.

На качество индексирования оказывает влияние индексатор. Чаще всего используется ручное индексирование.

Вводят понятие непоследовательное индексирование – расхождение по глубине и детальности индексирования в ПОДах одного и того же сообщения, но составленных либо одним индексатором в разное время, либо разными индексаторами.

Подходы к автоматизации индексирования.

В основе одних технологий лежат статистические методы, в основе других – различные машинные словари. Наиболее весомые слова по значимости встречаются чаще. На этой гипотезе строится класс систем автоматического индексирования. Алгоритм высчитывает весовые характеристики для каждого термина, ориентируясь на частоту встречаемости. В зависимости от значимости термина происходит включение или невключение его в ПОД.

Второй подход базируется на заранее составленных машинных словарях (фильтрах). Фильтры бывают положительные (для реализации требуется тезаурус, в ПОД включаются только те термины, которые совпадают с терминами тезауруса) и отрицательные (основаны на предварительной разработке словаря запрещённых терминов).

Методика индексирования зависит от того, на каком языке осуществляется индексирование.

Системы кодирования.

Тесно связаны с языковыми средствами и с системой индексирования. В процессе кодирования объектам по определённым правилам присваивают кодовые обозначения. Они определяются алфавитом кода, а структура кода определяется основанием кода и его длиной.

Существует 2 различных подхода к формированию основания кода.

1. Регистрационный – полностью идентифицирует объект, но не содержит никакой информации об объекте в коде.

2. Классификационная система кодирования – обладает ограниченными возможностями идентификации, но содержит информацию об объекте в коде.

Регистрационная система бывает порядковая (базируется на последовательной, порядковой регистрации объектов) и серийно-порядковая (выделяется диапазон серий порядковых номеров для групп сходных объектов). Классификационная система несёт максимум информации об объекте. Она может быть последовательной (значение показателя зависит от значений показателей предыдущих разрядов кодового обозначения, код любой нижестоящей группировки образуется путём добавления существующих разрядов кода вышестоящей группировки) и параллельные (применяется в фасетных языках). Суть параллельных систем – они характеризуются независимым кодированием отдельных признаков, значение показателя каждой части кодового обозначения не зависит друг от друга.

Любая система кодировки должна иметь способы защиты.

 

Оценка эффективности поиска.

Для того, чтобы оценить эффективность АИС существует ряд категорий показателей.

1. стоимостной показатель

2. семантические показатели (позволяют оценить систему как систему для обработки информации.

a – релевантно выданные документы

b – нерелевантно выданные

c – релевантные невыданные

d – невыданные нерелевантные

 

Таблицы сопряжённости поиска:

Полнота поиска = a/a+c

Точность поиска = a/a+b

Коэффициент корелляции поиска = ad – bc / √ (a+c)(b+d)(d+c)(a+b).

Энтропийный показатель основывается на том, что измеряется допоисковая энтропия и послепоисковая, и её изменение позволяет судить о том, насколько эффективно сумела произвести поиск система.

Последнее изменение этой страницы: 2016-08-11

lectmania.ru. Все права принадлежат авторам данных материалов. В случае нарушения авторского права напишите нам сюда...