Категории: ДомЗдоровьеЗоологияИнформатикаИскусствоИскусствоКомпьютерыКулинарияМаркетингМатематикаМедицинаМенеджментОбразованиеПедагогикаПитомцыПрограммированиеПроизводствоПромышленностьПсихологияРазноеРелигияСоциологияСпортСтатистикаТранспортФизикаФилософияФинансыХимияХоббиЭкологияЭкономикаЭлектроника |
Построение словаря дескрипторного языка.Основные характеристики. Анализ и построение словаря дескрипторного языка. Для построения необходимо решить следующие задачи,
Существуют 3 подхода к составлению словаря.
В зависимости от способа построения словаря используются различные количественные характеристики для оценки слов. Характеристики слов для включения в словарь.
Предпочтение отдают наиболее устойчивым по значению словам во времени, стараются исключить наиболее редко и наиболее часто встречающиеся слова. При составлении учитываются связи между терминами: полисемия, синонимия, омонимия, парадигматические связи (чем более учтены связи, тем более сильный словарь). Но это очень трудоёмкая работа, и поэтому чаще всего учитываются только сильные парадигматические отношения и многозначность. Важно определить детальность словаря. Это – одна из сложных задач. Детализация определяет полноту поиска и его точность. Удобно использовать словари с разной степенью детализации. Количественные характеристики словарей.
14.10.2006
ПС=SПО/SИПЯ ПС1=S0/Sn, где S0 – количество лексических единиц слов, по которым должен вестись поиск (определяется по масштабу запроса) Sn – количество отсутствующих в словаре единиц, кот выявляются при сравнении S0 с тем, что есть в словаре.
K=Sd/D, где Sd – количество введённых в словарь лексических единиц в процессе обработки документов (D).
Bi – количество слов, которое содержит i символов, C – максимальное число символов в лексическое единице. Учёт синтагматических отношений. Для этого чаще всего используются указатели роли и указатели связи.
Пример. Док. 1 «Производство запасных частей в станках» Док. 2 «выпуск станков для производства запасных частей» Символы: П – процесс, О – объект, Н – назначение. Док.1 П – производство, О – запчасти, Н – станки Док.2 П – производство, Н – запчасти, О – станки, Н – выпуск.
Семантические коды. Этот языка интересен тем, что структуры данного языка учитывают парадигматические отношения между ними. Существует 2 подхода.
A41C12/32 Отношения вхождения в классы заключены в структуру кода: А включает А41 включает А41С и т.д.
о предметах и их отношениях (взаимосвяз между предметами – любые парадигматические отношения). Предметы + их отношения = ситуация. Ситуация – конечное множество предметов и связывающих их отношений. Пример: ситуация – человек идёт. Объект – человек, ходьба. Отношения – быть студентом. Предметам, отношениям и ситуациям соответствуют в языке 3 вида семантических единиц: термины, словосочетания, предложения. Это – подходы, реализация их зависит от языка.
X1 – 1 предмет, X2 – 2 предмет: X1 R X2 – между X1 и X2 существует отношение R. Это – ещё один из вариантов выражения парадигматических отношений.
Вывод: в рассматриваемых языках учитываются и парадигматические, и синтагматические отношения уже в момент создания, что заложено в них.
Это некоторые логико-лингвистические рамки, в которые укладываются все возможные ситуации, характерные для предметной области. Кроме языков для тематического поиска существуют языки иного назначения. В основе построения таких языков является построение определённых и заданных связей между единицами, то их само название – языки ссылочных связей, так как именно они позволяют легко устанавливать связи между объектами и скомплектовывать их. Это совершенно иной принцип построения языка. По способу установления связи между целым и частью ИПЯ комплек. Могут быть разделены на:
Спецификация – структурированная форма представления связи. Я зык ком. Для построения связи сильной спецификации называются спецификационными. Простые спецификационные языки - связи реализуются с помощью простого спецификационного списка. В нём в алфавитном порядке (или в другом) перечисляются основные части об. без указания на какие-либо связи между частями. Сложные спецификационные языки – реализуются связи с помощью упорядоченного набора соподчинённых простых специфик, т.е строится некоторая иерархия. Эти языки довольно активно используются в управлении документами. В спецификационных языках присутствует некоторая форма структурированных связей. ИПЯ бинарных связей (отсутствует структура языка). Связь между общим и его составными частями устанавливается путём последовательного просмотра списка бинарных связей между общим и его составными частями, а также сежду составными частями смежных уровней. Бинарная связь двойная. По ней можно пойти в двух направлениях, она более простая, но комплектация объектов требует больше времени. Разновидность языка бинарных связей – язык цитирования (ИПЯ библиографических ссылок). В нём устанавливаются между фамилией автора научных публикаций и другой его публикацией, в которой также есть ссылка на первую. С помощью этого языка можно провести поиск, он оказывается весьма интересным, так как он по природе не тематический, но при помощи языка цитирования можно находить i. Для поиска разрабатываются специальные указания – указания цитируемой литературы. В нём (указании) обобщаются записи о каждом авторе на основе бинарных связей. Связи устанавливаются на основе литературы, в результате указания – напротив имени автора приводятся сведения о нём, его статьях, если ещё приводятся авторы, кот на него ссылаются или произведения, в которых есть ссылка на него – указания обратных ссылок активно используются в патентных документах. Развитие этих языков – гипертекстовые языки. Системы индексирования. Индексирование – перевод запроса с ЕЯ на ИПЯ (свёртывание текста + сохранение смысла). Индексирование – выражение центральной темы документа средствами ИПЯ, выражениями ПОДа и ПОЗа. Существует 2 подхода к индексированию:
Индексирование как процедура похожа на перевод с ЕЯ на другой ЕЯ, разница: ИПЯ – формальный язык. |
|
Последнее изменение этой страницы: 2016-08-11 lectmania.ru. Все права принадлежат авторам данных материалов. В случае нарушения авторского права напишите нам сюда... |