Стартовая страница G l o s s a r y   C o m m a n d e r

Служба тематических толковых словарей

glossary.ru
park.glossary.ru
Служебная библиотека
 н а  п р а в а х  р е к л а м ы 

 Теория: 1  | 2  | 3  | 4  | 5  | 6  | 7  | 8  | 9  | 10  | 11  | 12  | 13  | 14  | 15
 

М.Г.Мальковский, С.Ю.Соловьев

МЕТОДЫ ФОРМИРОВАНИЯ ГЛОССАРИЕВ
В УНИВЕРСАЛЬНОМ ТЕРМИНОЛОГИЧЕСКОМ ПРОСТРАНСТВЕ

доклад на международной конференции ДИАЛОГ'2003
"Компьютерная лингвистика и интеллектуальные технологии",
Протвино, июнь 2003.   >>  Точная ссылка

 
1. Универсальное терминологическое пространство

Концептуально универсальное терминологическое пространство (УТП) есть абстрактное хранилище терминологических статей, связанных семантическими отношениями [1,2]. Практически УТП есть семантическая сеть, вершинами которой являются термины научной и деловой лексики, связанные бинарными отношениями (ребрами) типа "это-есть" и "относится-к".

Каждая вершина семантической сети задается:
- термином (строкой символов);
-возможно- синонимами термина; и
-возможно- определением термина (несколькими строками).

Вершины, в которые входит хотя бы одно ребро, называются понятийными. С понятийными вершинами в УТП связывается дополнительное наименование (наименование понятия; понятие). Обычно это дополнительное наименование является производным от термина понятийной вершины. Например, термину "Кредит" соответствует понятие "Кредиты", термину "Кредитор" - понятие "Кредиторы". По определению в УТП все понятия различны, что позволяет их использовать для однозначной идентификации входящих вершин бинарных отношений.

Таким образом общий вид элементов бинарных отношений семантической сети имеет вид:
   это-есть(<Вершина>,<Понятие>)
относится-к(<Вершина>,<Понятие>)

В общем случае термин не может служить для однозначной идентификации произвольных вершин. Так, термин "Андеррайтер" по разному раскрывается в страховании и в биржевом деле.
Андеррайтер - в страховании - лицо, имеющее властные полномочия от руководства страховой компании принимать на страхование предложенные риски ...
Андеррайтер - в биржевом деле - брокер, принявший на себя обязательство разместить ценные бумаги от имени эмитента ...

Вместе с тем, при реализации УТП опытным путем установлено существование стабильной доли уникальных терминов:
0.926  ±  0.004  или  92.6%  ±  0.4 %

Независимо от политики формирования УПТ в каждой самостоятельной версии семантической сети 92.6% терминов встречаются ровно один раз, остальные 7.4% терминов могут встречаться 2, 3 и более число раз. Эта закономерность проявилась на всех без исключения версиях семантической сети, начиная с первой, содержащей 2816 вершин-терминов, вплоть до современной версии, содержащей более 30 тысяч терминов.

С целью упрощения формул, примем следующее соглашение:
конструкции
    это-есть(<Понятие'>,<Понятие>) и
относится-к(<Понятие'>,<Понятие>)
эквивалентны конструкциям
    это-есть(<Вершина'>,<Понятие>) и
относится-к(<Вершина'>,<Понятие>),
где <Вершина'> - понятийная вершина семантической сети, соответствующая наименованию понятия <Понятие'>.

Принятое соглашение позволяет вместо громоздкой конструкции типа
это-есть(статья, соответствующая понятию "Убийства",
"Преступления против личности")
использовать запись:
это-есть("Убийства", "Преступления против личности"),
которая содержательно означает, что все многообразие убийств и связанных с ними обстоятельств является собственным подпонятием более широкого понятия "Преступления против личности".

Примеры отношений, представленных в УТП:
 относится-к("Кредиторы", "Кредиты")
    это-есть(статья "Кредитор по закладной", "Кредиторы")
    это-есть("Международные кредиты", "Кредиты")
    это-есть(статья "Компенсационный кредит","Международные кредиты")
 
2. Методы формирования глоссариев

В проекте www.glossary.ru семантическая сеть используется для генерации глоссариев по запросам пользователей.

Пусть t - некоторая вершина семантической сети. Будем обозначать:
 
P(t) = { x | это-есть(t,x) } - родовые понятия для t;
S(t) = { x | это-есть(x,t) } - собственные подпонятия;
A(t) = { x | относится-к(x,t) } - свойства t.

Например, для понятийной вершины t = "Средства поверки"
 
P(t) = { "Средства измерений" },
S(t) = { "Образцовые средства измерений",
"Эталоны единиц физических величин",
"Поверочная установка" },
A(t) = { "Погрешность метода поверки" }.

Пусть Y - некоторое множество вершин семантической сети и F in { P, S, A}, будем обозначать F(Y) множество { x in F(y) | y in Y }.

Для построения глоссария G, заданного понятийной вершиной t используется следующая совокупность вершин-статей:
G(t) = { t } + P(t) + S(t) + A(t)
Приведенная формула обеспечивает минимум информации о понятии t.

Кроме предъявления глоссария в проекте www.glossary.ru пользователю предоставляется возможность расширить круг статей с помощью механизма наследования свойств [3]. При этом пополнение понимается, как пополнение глоссария терминами, раскрывающими варианты и свойства основного понятия t. В общем случае, в родо-видовых структурах вершины-понятия, обладающие таким свойством, по степени удаленности от вершины t образуют три последовательности:

П(0) = { t },  П(i) = S(П(i - 1));  (0 < i) - подклассы понятия t;
K(0) = { t },  K(i) = P(П(i - 1));  (0 < i)
- надклассы для [некоторых] подклассов понятия t;
C(0) = { t },  C(i) = A(K(i - 1));  (0 < i) - наследуемые свойства.

Соответственно последовательность расширений глоссария для понятийной вершины t определяется как:

E(0) = { t }, E(i) = E(i-1) + П(i) + K(i) + C(i)

Нетрудно убедится, что E(1) = G(t).

Топология текущей версии семантической сети с указанием терминов и понятий, приписанных вершинам, выложена на странице
www.glossary.ru/_netwrk_.htm
и доступна в формализованном электронном виде всем исследователям без ограничений.
 
ЛИТЕРАТУРА

1. Мальковский М.Г., Соловьев С.Ю. Универсальное терминологическое пространство. Труды Международного семинара Диалог'2002 "Компьютерная лингвистика и интеллектуальные технологии", т.1. М.: Наука, 2002, с.266-277.

www.park.glossary.ru/serios/theory01.php


2. Мальковский М.Г., Соловьев С.Ю. Технология формирования универсального терминологического пространства. Сб. "Информационные компьютерные технологии и Интернет в образовании и науке". М.: изд-во МИИ для инвалидов с нарушением ОДС, 2002, с.54-55.
3. Нильсон Н. Принципы искусственного интеллекта. М.: Радио и связь, 1985, 373с.

--------- * ---------

 

Точная ссылка: Мальковский М.Г., Соловьев С.Ю. Методы формирования глоссариев в универсальном терминологическом пространстве. Труды международной конференции "Компьютерная лингвистика и интеллектуальные технологии", М.: Наука, 2003, стр.438-440.

П|р|о|д|о|л|ж|е|н|и|е ►



Copyright ©
2000-2022
Web-and-Press


webadmin@glossary.ru