Н.Н.Леонтьева (НИВЦ МГУ), С.Ю.Семенова (ИНИОН РАН)

Семантический словарь РУСЛАН как инструмент
компьютерного понимания

Напечатано в книге:

Понимание в коммуникации. Материалы научно-практической конференции 5-6 марта 2003 г. — М., МГГИИ, 2003. – С.41-46.

Словарь разрабатывается при финансовой поддержке РГНФ, проект 01-04-16252а

This page copyright © 2003 N.N. Leont'eva, S.Ju. Semenova.

http://www.infolex.ru


Практически любая автоматическая интерпретация текста (кроме, быть может, "быстрых" классификационных задач, основанных на статистических методах), требует привлечения словарей, которые соотносили бы единицы текста как символьные объекты со смысловыми эквивалентами. В число словарей, способных выполнять такую функцию, входит машинный семантический словарь РУСЛАН (РУсский СЛоварь для АНализа), разрабатываемый в настоящее время в НИВЦ МГУ. Словарь возник в середине 90-х годов в Центре информационных исследований Ин-та США и Канады РАН как часть экспериментальной системы ПОЛИТЕКСТ [2], предназначавшейся главным образом для автоматического анализа документов общественно-политической тематики (тогда словарь назывался РОСС – Русский ОбщеСемантический Словарь [1], [6]). Затем, в конце 90-х годов, словарь был перебазирован в МГУ и продолжал развиваться под новым именем – РУСЛАН. Работы над ПОЛИТЕКСТом как целостной системой были приостановлены в силу экономических причин.

РУСЛАН, имеющий довольно жесткую формализованную структуру (его метаязык описан, в частности, в [1], [3]), содержит определенную семантическую, грамматическую, тезаурусную, энциклопедическую информацию о слове-заголовке, отражает его валентностную структуру, задает лексическую сочетаемость, место в словообразовательном гнезде, гипотетическую информационную значимость в тексте, отраслевую принадлежность. Приводятся английские переводы слова, примеры употребления слова в тексте.

Семантическая информация кодируется специальными дескрипторами, указывающими на семантический класс слова.. Всего используется около 120 дескрипторов, разделенных на два множества – семантические характеристики (СХ), типа АРТ[ефакт], ВЕЩЕСТВО, СИТУАЦИЯ, ИНФ[ормация] и другие, и бинарные смысловые отношения (СО) типа ЧАСТЬ (А,В), ФОРМА (А,В), ПРИНАДЛ[ежит] (А,В) и другие. Дескрипторы могут составлять логические формы – коньюнкции и, реже, дизъюнкции. Коньюнкции обычно соединяют родовое и конкретное в лексическом значении; в определенной мере с их помощью моделируется компонентная семантическая структура слова: СХ ("электричество") = ЯВЛЕНИЕ & ЭНЕРГИЯ; СХ ("видеть") = СИТУАЦИЯ & ВОСПРИЯТИЕ; СХ ("сообщать 1") = ДЕЙСТВИЕ & КОММУНИК[икативное] & ИНФ и т.п. Дизъюнкции применяются для отражения смысловых трансформаций, возникающих у слова в рамках одного (прежде всего, для данного словаря) значения. (Например, если описание значения содержит дизъюнкт с дополнительными дескрипторами, это означает, что слово в отдельных контекстах приобретает определенную коннотацию: СХ ("ростовщик") = ОДУШ & ФУНКЦИЯ & СВЯЗАН & ФИН ['связано с финансами'] V ОДУШ & ФУНКЦИЯ & СВЯЗАН & ФИН & ОЦЕНКА & AntiBon).

При необходимости применяется и "полноценное" описание многозначного слова – с разбиением на отдельные входы – лексемы (с размещением лексем в отдельных статьях). Правда, в компьютерном словаре, который создается прежде всего для считывания программой, деление на значения огрубляется по сравнению с современной "человеческой" семантической лексикографией; можно назвать этот подход "средней" семантикой, когда разработчики словаря стремятся к тому, чтобы значений было меньше: столько, сколько можно снабдить формально различаемыми контекстами [5]. Конкретно, указываются различия в моделях управления и в таксономии актантов, в лексических функциях, в поле устойчивых словосочетаний и некоторых других. Принято эмпирическое ограничение (слово должно быть представлено не более чем пятью лексемами).

При классификации лексики дескрипторы часто понимаются широко, иначе нескольких десятков их не хватило бы для отражения всей онтологии, связанной с общей лексикой. Так, дескриптор СПЕЦ[изация] – это как бы и [узкая] специальность человека-деятеля: СХ ("гляциолог") = ОДУШ & СПЕЦ & СВЯЗАН & ГЕОГР, и показатель того, что слово обозначает некоторую конкретную сущность, для которой в системе словаря нет отдельного дескриптора: СХ ("сенокосилка") = УСТРОЙСТВО & СПЕЦ.

Что касается отбора самой лексики, вводимой в словарь, то в разное время практиковались разные подходы: выборка из определенных (в частности, отраслевых) текстовых корпусов на основе данных о частотности слова; опора на словники других словарей, интересных с той или иной прагматической точки зрения; ввод слов, образующих ассоциативные и словообразовательные связи с уже введенной лексикой; ввод в словарь того не описанного еще, но актуального, что "напрашивается" при вводе данных в поле текстовых иллюстраций.

Опыт показывает, что во всяком случае, лучший способ пополнения словаря – поочередное введение семантически однородных массивов: лексических классов, принадлежащих к одной части речи, или, возможно, включающих лексику разных грамматических категорий, но относящихся к одному семантическому полю. Тогда легче достигается системность в употреблении дескрипторов, выражающих смысл слова. В частности, в последнее время в словарь был внесен массив одушевленной лексики, необходимой для поиска по тексту социально-значимой информации об упоминаемых в нем лицах [4], [7] (в этой работе участвовали Е.В. Горелик и А.С. Панина). При описании этого пласта лексики сложилась система кодирования таксономий конкретных подклассов.

Как было сказано выше, пополнение словаря осуществляется и по словообразовательным и ассоциативным связям. Например, описав слово "оратор" в рамках массива одушевленной лексики, естественно будет отразить в словаре аксиологический дериват "ораторствовать", а также ассоциации типа "речь 2" /выступление/, "дикция" и др.

При пополнении и редактировании словаря в последнее время уделяется значительное внимание подбору иллюстраций. Лаконичные и "убедительные" примеры, во-первых, делают словарь более читабельным для самих разработчиков и других потенциальных "читателей", во-вторых, позволят в будущем организовать обработку текста по аналогиям (так называемая example-based technology), что полезно, например, при автоматическом различении семантической многозначности, а в-третьих, как мы уже сказали, служат довольно эффективным ресурсом для подбора новой лексики (программная оболочка поддерживает высветку в поле иллюстраций незнакомых словарю слов).

К настоящему моменту массив словаря превысил 10 тысяч входов. Словарь функционирует как база данных, ввод в которую осуществляется с помощью системы шаблонов, минимизирующих неизбежно ведущий к ошибкам ручной набор. Текущую версию программной оболочки разработал А.В.Сокирко.

Словарь может использоваться на нескольких этапах текстового анализа, например, после работы продвинутого синтаксического процессора, когда с помощью полей, описывающих валентности предикатных слов (в терминах СО) и возможные семантические характеристики актантов, в тексте могут быть идентифицированы многие синтаксические группы. На этапах семантического анализа – как первичного, так и более глубокого, с помощью семантических дескрипторов могут быть проинтерпретированы и конкретные текстовые ситуации, и их синтаксически целостные участники, из которых строятся семантические узлы – СемУ [2]. "Псевдокомпонентная" форма представления лексического значения удобна, в частности, при реализации задач выборочного извлечения информации, когда требуется найти в тексте и отразить в некотором формализме всевозможные данные, порой размытые, относящиеся к отдельной "заданной" теме. Примером таких задач как раз и может служить поиск персональной информации [4], для которого сейчас подготовлены значительные по объему словарные данные.

РУСЛАН-1, описывающий общую лексику (изолированные полнозначные слова), является главным семантическим словарным ресурсом системы ПОЛИТЕКСТ. Его структура в общих чертах воспроизводится и в других, вспомогательных, словарях системы, без которых невозможна обработка реальных текстовых документов – словаре речевых оборотов (куда включаются, например, сложные предлоги и союзы, типовые аббревиатуры и другие служебные и полуслужебные лексические единицы), словаре устойчивых полнозначных словосочетаний, файлах отраслевых терминов, географических названий и других специальных списков и номенклатур.

Например, общелексический словарь словосочетаний также имеет поле семантических характеристик, в котором РУСЛАНовскими дескрипторами описывается смысл уже целой фразеологемы: СХ ("иметь в виду") = СИТУАТ & ИНТЕЛ & СВЯЗАН & ИНФ (‘ситуация, интеллектуальная, связанная с информацией’). Характеризуют глагольные словосочетания также и поля, описывающие участников "фразеологической" ситуации: ВАЛ ("иметь в виду") = СУБЪЕКТ (А1, СС); СОДЕРЖАНИЕ (А2, СС); СХ1 = ОДУШ; ГХ1 = подлеж:Им; СХ2 = ИНФ; СИТУАТ; ГХ2 = прям-доп: (что+ПРИД; Вин). Широко используется при описании словосочетаний и [тезаурусное] поле вариантов-синонимов, поскольку, как известно, коллокации характеризуются значительной вариативностью.

Перифрастические свойства входной единицы – ее тезаурусные связи, дериваты, отчасти и энциклопедические данные – полезны также при межфразовом анализе текста.

Упомянем еще одну функцию словарного комплекса РУСЛАН – если не самую важную, то заведомо отличающую его от всех известных нам семантических словарей: он является инструментом сжатия содержания текста. Ведь процесс понимания всегда сопровождается выбором какой-то части содержания и отбрасыванием той части, которая не входит в сферу внимания воспринимающего данный текст. Функцию сжатия моделируют и стандартные информационно-поисковые системы (ИПС), но слишком грубо: отбирая заданные извне слова и терминологические словосочетания и объявляя их представителями данного текста, они отбрасывают в большинстве случаев главное содержание текста, которое концентрируется скорее в связях, чем в простом упоминании единиц.

Итак, любой акт человеческого понимания а) индивидуален, б) изменяет объем содержания (иногда добавляет свои знания к содержимому текста, но чаще сжимает текст). Механизм смыслового сжатия должен быть заложен и в систему, осуществляющую автоматическое понимание текста. В первую очередь это отражается на словаре: такие функции должны быть учтены уже при его проектировании; во вторую очередь, механизмы сжатия должна иметь смысловая грамматика. С каждым полем словаря связаны какие-то семантические процедуры. Например, каждой лексеме приписан исходный словарный информационный вес (поле ВЕС). Валентности, заполненные при анализе, могут подтвердить или даже увеличить вес единицы и ее связей; считается, что не заполнившиеся понижают вес. Повтор в тексте этой единицы (или ее вариантов, заданных полем ВАР) или построенного вокруг нее семантического узла (СемУ) не только поднимает вес, но и перемещает этот узел ближе к центру внимания (ЦВ). Тогда периферийные узлы можно отбросить. Наличие вопроса к тексту (или заданный извне другой "встречный" текст) может переместить ЦВ, и найденный СемУ с большим весом может быть отодвинут на периферию внимания. У каждого вопроса свой ЦВ, происходит пересчет словарных весов СемУзлов в пользу заданного пользователем ЦВ, что отчасти моделирует индивидуальный характер понимания, сопровождающегося сжатием информации. В составе же всей системы это несколько механистичная имитация плюрализма понимания.

Заложен в описанный здесь словарь и механизм смыслового вывода, но он больше определяется правилами грамматики и менее разработан формально. Результирующие дескрипторы для многих СемУ образуются методом сложения, уточнения, поглощения дескрипторов, приписанных словам соответствующей (интерпретируемой) синтаксической группы, например, именной. Эта намеченная процедура еще только ждет апробации в реальной системе.

В работе над словарем в разное время принимали участие сотрудники нескольких учреждений, а также студенты. В настоящее время в этой работе, кроме авторов, принимает активное участие А.С.Панина. Сейчас планируется тестирование словарного комплекса РУСЛАН в составе системы Син- и СемАн (см. в Интернете "http://www.aot.ru") и готовится передача определенных "срезов" словаря в Интернет для свободного использования.

Литература

1. Леонтьева Н.Н. Категоризация единиц в русском общесемантическом словаре (РОСС). //Труды Международного семинара Диалог'98 по компьютерной лингвистике и ее приложениям. Т.2.- С.519-532.

2. Леонтьева Н.Н. К теории автоматического понимания естественных текстов. Часть 1. Моделирование системы "мягкого понимания" текста: информационно-лингвистическая модель. – М., МГУ, 2000. – 43 с.

3. Леонтьева Н.Н. К теории автоматического понимания естественных текстов. Часть 2. Семантические словари: состав, структура, методика создания. – М., МГУ, 2001. – 41 с.

4. Леонтьева Н.Н., Семенова С.Ю. Инструменты построения фрейма ПЕРСОНА //НТИ.- Сер.2. – 2001. – N 8. – С. 9-20.

5. Леонтьева Н.Н., Семенова С.Ю. Об отражении полисемии в прикладном семантическом словаре //Компьютерная лингвистика и интеллектуальные технологии. Труды международного семинара Диалог 2002. Протвино, 6-11 июня 2002 года. – М., "Наука", 2002. – Т.2. – С. 489-496.

6. Семенова С.Ю. Семантические поля словаря РОСС: опыт заполнения, анализ дескриптивных возможностей. (Материалы к унификации словарных описаний) //Труды Международного семинара Диалог'2000 по компьютерной лингвистике и ее приложениям. Протвино, 2000. – Т.2. – С.308-316.

7. Семенова С.Ю. Компьютерное представление одушевленной лексики и "наивная социология"//Материалы научно-практической конференции "Информационные компьютерные технологии и Интернет в образовании и науке". – М.,2002. – С. 69-78.