Главная Случайная страница


Категории:

ДомЗдоровьеЗоологияИнформатикаИскусствоИскусствоКомпьютерыКулинарияМаркетингМатематикаМедицинаМенеджментОбразованиеПедагогикаПитомцыПрограммированиеПроизводствоПромышленностьПсихологияРазноеРелигияСоциологияСпортСтатистикаТранспортФизикаФилософияФинансыХимияХоббиЭкологияЭкономикаЭлектроника






Построение словаря дескрипторного языка.

Основные характеристики.

Анализ и построение словаря дескрипторного языка.

Для построения необходимо решить следующие задачи,

  1. выбрать из заданной совокупности текстов лексические единицы
  2. определить семантические и морфологические характеристики
  3. расположить ключевые слова в определённом порядке.

Существуют 3 подхода к составлению словаря.

  1. Априорный – термины выбираются свободно à обрабатываются à строится словарь
  2. Апосториорный – перечень терминов задан более точно à обработка …
  3. Динамический – процесс накопления лексики, когда пополнение словаря, обработка новых лексических единиц и эксплуатация объединены вместе, то есть существует возможность пополнения словаря новыми терминами.

В зависимости от способа построения словаря используются различные количественные характеристики для оценки слов.

Характеристики слов для включения в словарь.

  1. информативность
  2. изменение значение слова во времени
  3. нормализуемость
  4. отношения между словами
  5. синонимия, полисемия, омонимия

Предпочтение отдают наиболее устойчивым по значению словам во времени, стараются исключить наиболее редко и наиболее часто встречающиеся слова. При составлении учитываются связи между терминами: полисемия, синонимия, омонимия, парадигматические связи (чем более учтены связи, тем более сильный словарь). Но это очень трудоёмкая работа, и поэтому чаще всего учитываются только сильные парадигматические отношения и многозначность.

Важно определить детальность словаря. Это – одна из сложных задач. Детализация определяет полноту поиска и его точность. Удобно использовать словари с разной степенью детализации.

Количественные характеристики словарей.

  1. Количество используемых типов слов в списке.
  2. Общее количество лексических единиц ( в совокупности с мощностью языка очень выразителен). Чем больше общее количество единиц и их мощность, тем больше избирательность языка, тем он семантически сильнее.
  3. Коэффициент отображения лексики поискового массива, который включает ключевые слова и отображает лексику словарного массива. Коэффициент = ключевые слова / (ключевые слова + дескрипторы). Чем слова более приближены к тематике, тем этот коэффицент выше.

14.10.2006

  1. Полнота словаря. Насколько полно словарь отражает предметную область, для которой он создан, тем полнее рассчитывается соотношение качества понятий предметной области и количества понятий, которые отражает ИПЯ.

ПС=SПО/SИПЯ ПС1=S0/Sn, где

S0 – количество лексических единиц слов, по которым должен вестись поиск (определяется по масштабу запроса)

Sn – количество отсутствующих в словаре единиц, кот выявляются при сравнении S0 с тем, что есть в словаре.

  1. Коэффицент динамики роста.

K=Sd/D, где Sd – количество введённых в словарь лексических единиц в процессе обработки документов (D).

  1. Ранговое распределение слов (частотное распределение слов). Позволяет оценить лексические единицы с точки зрения частоты использования при индексировании. Оно важно при индексировании, так как включая в поисковый образ слова с малой частотой – растёт точность, а чем больше частота, тем меньше точность.
  2. Распределение лексических единиц по длине. Как правило, оно рассчитывается по отношению к словосочетанию, тогда в качестве такого показателя может служить целая длина, характеризующая степень предкоординатности языка. Если для каждого количества слов определять долю таких словосочетаний по отношению к максимальному числу слов в словосочетаниях.
  3. Распределение лексических единиц по количеству символов. В качестве количественной оценки – среднее количество символов в лексической единице или распределение лексических единиц по количеству символов. Элемен этого распределения: ci=Bi/C, где

Bi – количество слов, которое содержит i символов,

C – максимальное число символов в лексическое единице.

Учёт синтагматических отношений.

Для этого чаще всего используются указатели роли и указатели связи.

  1. Указатели роли – символы, которые присоединяются к дескрипторам с целью указания тех функций, которые дескрипторы выполняют в поисковом образе.

Пример.

Док. 1 «Производство запасных частей в станках»

Док. 2 «выпуск станков для производства запасных частей»

Символы: П – процесс, О – объект, Н – назначение.

Док.1 П – производство, О – запчасти, Н – станки

Док.2 П – производство, Н – запчасти, О – станки, Н – выпуск.

  1. Указатели связи – символы, которые присоединяются к дескрипторам поисковых образов и служат для смыслового формирования дескрипторов в предложение, то есть решаются задачи фрагментирования. Обычно их использование актуально, когда в первой фразе – несколько тем. Указатель в каждом отдельном аспекте текста (один и тот же для каждого слова в данном отрезке текста). Указатели роли могут быть более сложными, включать в себя знаки препинания, скобки.

Семантические коды.

Этот языка интересен тем, что структуры данного языка учитывают парадигматические отношения между ними. Существует 2 подхода.

  1. учёт парадигматических связей в кодовом описании, где в многозначной кодовой записи каждый последующий символ полностью определяется всеми предшествующими и характеризует родовидовые отношения между дескрипторами и отношением, входящим в классы.

A41C12/32

Отношения вхождения в классы заключены в структуру кода:

А включает А41 включает А41С и т.д.

  1. язык семантических кодов построен по другому принципу. Код построен на основе предположения: его структура должна как можно более точно отображать

 

о предметах и их отношениях (взаимосвяз между предметами – любые парадигматические отношения).

Предметы + их отношения = ситуация.

Ситуация – конечное множество предметов и связывающих их отношений.

Пример: ситуация – человек идёт. Объект – человек, ходьба. Отношения – быть студентом.

Предметам, отношениям и ситуациям соответствуют в языке 3 вида семантических единиц: термины, словосочетания, предложения.

Это – подходы, реализация их зависит от языка.

  1. Наиболее распространённый язык – язык бит или RX коды.

X1 – 1 предмет, X2 – 2 предмет: X1 R X2 – между X1 и X2 существует отношение R.

Это – ещё один из вариантов выражения парадигматических отношений.

  1. Синтагматические языки – посткоординатные языки, к которых парадигматические отношения между лексическими единицами выражаются как и в дескрипторном языке в словосочетаниях, а синтагматические – при помощи весьма развитой системы средств, что придаёт языку большую синтагматическую силу.

Вывод: в рассматриваемых языках учитываются и парадигматические, и синтагматические отношения уже в момент создания, что заложено в них.

  1. Вид языка – Ri(X,Y) – отношение R между ключевыми словами X и Y.

Это некоторые логико-лингвистические рамки, в которые укладываются все возможные ситуации, характерные для предметной области.

Кроме языков для тематического поиска существуют языки иного назначения. В основе построения таких языков является построение определённых и заданных связей между единицами, то их само название – языки ссылочных связей, так как именно они позволяют легко устанавливать связи между объектами и скомплектовывать их. Это совершенно иной принцип построения языка. По способу установления связи между целым и частью ИПЯ комплек. Могут быть разделены на:

  1. простые спецификации языка
  2. сложные спецификации языка.

Спецификация – структурированная форма представления связи. Я зык ком. Для построения связи сильной спецификации называются спецификационными.

Простые спецификационные языки - связи реализуются с помощью простого спецификационного списка. В нём в алфавитном порядке (или в другом) перечисляются основные части об. без указания на какие-либо связи между частями.

Сложные спецификационные языки – реализуются связи с помощью упорядоченного набора соподчинённых простых специфик, т.е строится некоторая иерархия.

Эти языки довольно активно используются в управлении документами.

В спецификационных языках присутствует некоторая форма структурированных связей.

ИПЯ бинарных связей (отсутствует структура языка). Связь между общим и его составными частями устанавливается путём последовательного просмотра списка бинарных связей между общим и его составными частями, а также сежду составными частями смежных уровней. Бинарная связь двойная. По ней можно пойти в двух направлениях, она более простая, но комплектация объектов требует больше времени. Разновидность языка бинарных связей – язык цитирования (ИПЯ библиографических ссылок). В нём устанавливаются между фамилией автора научных публикаций и другой его публикацией, в которой также есть ссылка на первую. С помощью этого языка можно провести поиск, он оказывается весьма интересным, так как он по природе не тематический, но при помощи языка цитирования можно находить i. Для поиска разрабатываются специальные указания – указания цитируемой литературы. В нём (указании) обобщаются записи о каждом авторе на основе бинарных связей. Связи устанавливаются на основе литературы, в результате указания – напротив имени автора приводятся сведения о нём, его статьях, если ещё приводятся авторы, кот на него ссылаются или произведения, в которых есть ссылка на него – указания обратных ссылок активно используются в патентных документах.

Развитие этих языков – гипертекстовые языки.

Системы индексирования.

Индексирование – перевод запроса с ЕЯ на ИПЯ (свёртывание текста + сохранение смысла).

Индексирование – выражение центральной темы документа средствами ИПЯ, выражениями ПОДа и ПОЗа.

Существует 2 подхода к индексированию:

  1. интерпретация – текст на ЕЯ à смысл-текст на ИПЯ. Интерпретация предполагает изучение текста, его анализ, выявление содержания, перевод его на ИПЯ, т.е. конечный результат изучения – текст.
  2. перевод – замена лексических единиц ЕЯ на лексические единицы ИПЯ, т.е. пословная обработка.

Индексирование как процедура похожа на перевод с ЕЯ на другой ЕЯ, разница: ИПЯ – формальный язык.

Последнее изменение этой страницы: 2016-08-11

lectmania.ru. Все права принадлежат авторам данных материалов. В случае нарушения авторского права напишите нам сюда...