В.З. Демьянков

Морфологическая интерпретация
как конструирование внутренней формы словаћ

-147-

Для языкознания последних двадцати лет характерен бурный рост различных теорий, сочетающийся с экстенсивной деятельностью в описании многочисленных языков. К концу 80-х годов это привело к качественной перестройке методического арсенала лингвистики. Сегодня фундаментальные теории имеют непосредственное отношение к исследованию и моделированию человеческой духовной деятельности в целом, но при этом менее заметно стремление все в человеке объяснять как частное проявление языковой способности (как это было на исходе структуралистской эпохи конца 60-х годов). Сегодняшний интерес к фундаментальной лингвистической теории непосредственно связан и с надеждами на построение систем искусственного интеллекта, немыслимого без естественного языка или его аналога. Для лингвистов контакты с разработчиками таких систем оборачиваются дополнительным расширением технических и даже технологических возможностей, исследование больших объемов языковых данных теперь ориентировано в большей степени на новые деформационные технологии, на работу ЭВМ.

Разработка крупных лингвистических проектов, таких как Машинный фонд языка, в свою очередь, представляет собой

-148-

проблему информатики нового типа – информатики «лингвистических вычислений», соединяющей средства «макровычислительной» лингвистики и «микровычислительной» лингвистики. Первая – это прекрасно разработанная область практических методик обработки больших объемов лингвистических данных; к ней зачастую и сводится понятие «вычислительной лингвистики». Под микровычислениями мы понимаем операции над отдельным языковым выражением, зачастую уходящие глубоко в психолингвистическую сущность языка; операции эти эксплицитно описываются в формальном аппарате современных лингвистических концепций и особенно детально разработаны (а потому и применимы в наибольшей степени) в таких концепциях, как расширенная стандартная генеративная модель, грамматика Монтегю, обобщенная грамматика НС, функциональная модель в различных вариантах, лексическая фонология, интерпретативная морфология и др. Глубинные принципы этих подходов, в свою очередь, мы находим в сугубо теоретических исследованиях языка задолго даже до эпохи ЭВМ. Две названные разновидности вычислительной лингвистики в основном сформировались как дисциплины, в фокусе внимания которых – соответственно речь (макровычисления) и язык (микровычисления). Мы же утверждаем, что будущее вычислительной лингвистики как главного участника в построении систем искусственного интеллекта – в более широком взаимодействии обеих ветвей ее на базе информатики, в разработке общего для них метаязыка новой информационной технологии. В свою очередь, такой метаязык будет базироваться на теоретическом наследии языкознания.

К такому выводу мы пришли в результате работы над двумя взаимоподдерживающими системами, связанными с морфологической интерпретацией текста, – МОРФ и ЛИНГВИСТ, построенными и отлаженными, в промежуточной своей версии, на персональных ЭВМ типа IВМ.

Система МОРФ представляет собой морфологический интерпретатор естественного языка, по замыслу пригодный для любого языка. Задаваемое на входе выражение распознается системой как слово данного языка, устанавливаются исходная словарная форма и грамматические категории этой словоформы и при желании пользователя выдаются все допустимые формы этой же лексемы, включающие в себя выбранные пользователем же граммемы. Отличительные особенности данной системы заключаются в следующем.

1. Лексема не отыскивается непосредственно в хранилище (скажем, в файле основ, как это принято в наиболее распространенных

-149-

работающих системах лемматизации), а «вычисляется» исходя из набора морфов данного языка и набора парадигм словоизменения. Например, в искусственном слове недопортфелеиграющему ставится ударение, указываются исходная форма недопортфелеиграть и набор граммем: глагол в форме причастия действительного залога настоящего времени дательного падежа множественного числа.

2. Набор данных не встроен в алгоритм, а размещен на внешних носителях. Среди прочего имеются:

- список морфов со своими селективными признаками. Например, отражается то обстоятельство, что префикс аг- (как в слове агглютинация, ср. конглютинация и аббревиация, где префикс аб-, не сочетающийся с морфом -глют-, бывает только перед морфом, начинающимся на г: префикс а- не бывает после префикса ан-, но зато есть префикс, тоже греческого происхождения, ана-. Наличие этих признаков позволяет по ходу распознавания слова слева направо (в соответствии с принципами гипотетической интерпретации [Демьянков 1985]) значительно уменьшить количество посторонних промежуточных гипотез об интерпретации выражения;

- набор парадигм словоизменения, каждая из которых закодирована как кортеж («массив»), состоящий из номеров окончаний в соответствующем списке;

- набор формальных окончаний, каждое из которых представляет собой запись, включающую в себя не только физический облик цепочки (типа -а, -ющ, -ему, «ноль» и т.п.), но и – в качестве отдельного поля – множество граммем, этому окончанию приписываемых, а также множество ограничений, бракующих или одобряющих сочетаемость данного окончания с гипотетической основой с исходом на тот или иной класс графем, при данном же гипотетически приписываемом ударении. Например, окончание -и с граммемами «мн. число, им. падеж и вин. падеж (для неодушевленных сущностей)» недопустимо после основ – т.е. корневых и/или суффиксальных морфов – на -ц; окончание -ый прилагательного не может быть в ударном положении и т.п.;

- список корректоров, по морфемной записи (в данной гипотетической интерпретации выражения) устанавливающий орфографичность, базируясь: а) на правильности сочетания графем (самый простой случай); например, стандартно бракуемые сочетания шы, жы и т.п. заменяются на ши, жи; б) на сочетаемости морфов; например, префикс, оканчивающийся на согласный, перед йотованной гласной графемой требует субморфа -ъ-; он вставляется, если это не так в заданном выражении при данной интерпретации; перед морфом на -к такой префикс требует варианта той же морфемы на -ы. Констатировав неправильность,

-150-

корректор подставляет правильную подцепочку в выражение, указывая, что это исправление справедливо именно при данном варианте членения на морфы;

- набор идиоматических сращений морфов – актуальных или потенциальных основ (типа человек, люд и другие супплетивы), морфологические свойства которых – акцентуация и номер парадигмы – не вычисляется через свойства последнего входящего в них морфа. Например, основа носорог- должна здесь храниться, поскольку, в отличие от основы рог-, хранимой просто в списке морфов, в форме им. падежа мн. числа она имеет безударное окончание -и (носороги, а не ожидаемое носорога); – список граммем данного языка с их иерархией. Например, в каждой записи, соответствующей одной граммеме, указываются – явно или косвенно – подчиняющие и подчиненные категории; именно из этого списка извлекается информация о том, каков репертуар падежей (в данном языке), наклонений, времен, залогов и т.д., а также какими граммемами могут обладать те или иные части речи.

3. Исправление ошибок в задаваемом выражении – и это вытекает из структуры данных и из алгоритма интерпретации – происходит попутно с распознаванием, а не является результатом работы отдельной подсистемы. Так, если задана (некорректная) словоформа портфелеотоигрочеловекамися, то будет распознана лексема портфелеотыгрочеловек (тв. падеж мн. числа) и указано, что орфографически более приемлемой – при данном варианте распознавания – будет словоформа портфелеотыгролюдьми – в силу того, что допустимая парадигма при данном варианте разбора не допускает окончания -ами требуется супплетивный вариант 'люд' этой же основы, а при данной части речи (существительное) недопустима возвратная частица -ся / -сь. Как же это происходит? Для данного выражения вычисляется гипотетическая основа – портфелеотоигрочеловек, в своем внутреннем разбиении на морфы, в нашей нотации:

порт*фел*е=от_о!игр*о=чел*о=век*,

при следующих символах категории морфа: _ – префикс, * корень, ! – морфная прокладка-субморф, = – суффикс. Устанавливается, что конец всего выражения – -амися – может быть представлен как сочетание окончания -ами (из списка флексий) с единицей -ся: выдвигается гипотеза о том, что основа уже вычленена, – при этом резервируется и проверяется гипотез о необходимости продолжить морфное членение основы. – что дальше будет выделен суффикс -а и т.д. (в данном прим впрочем, эта гипотеза не подтвердится). Затем констатируется, что

-151-

морфный «хвост» (состоящий только из целых морфов гипотетической основы – чел*о=век*) хранится в качестве основы – «идиоматического сращения морфов», что свидетельствует о невычислимости акцентуационных и словоизменительных свойств этого «хвоста», исходя только из свойств морфа -век*. Поскольку анализируемая словоформа в нашем случае нарушает правило, согласно которому супплетив -человек- сочетается только с флексиями ед. числа, система выдвигает гипотезу об ошибке. Устанавливается, по списку флексий, что -ами – окончание тв. падежа мн. числа, после чего синтезируется правильная форма для полученного «хвоста» – людьми – и «подвешивается» к гипотетической префиксной части. Корректоры же – по существу, параллельно самой лемматизации – устанавливают, что субморф -о-, стоящий после префикса от-, недопустим перед морфом игр (при указанной категории корня; в этом отношении корень бр был бы рассмотрен иначе, поскольку отобрали с тем же субморфом допустим), вычеркивает этот избыточный субморф, после чего и выражение от_игр* заменяется на более правильное от_ыгр*.

Такова, в общих чертах, внутренняя механика поморфного распознавания, при которой корректировка, повторим, является попутным продуктом лингвистических микровычислений, соответствующих представлениям лингвиста о том, как мы понимаем даже неправильное выражение на естественном языке. Мы стремились строить в первую очередь лингвистически правдоподобные, и только во вторую очередь – технически (с точки зрения простоты программирования) простые процедуры. Облегчало эту задачу, в частности, то, что с самого начала алгоритм составлялся на основе принципов структурного программирования. Использовался язык программирования паскаль, как известно, позволяющий следовать этим принципам очень эффективно. Лингвист (автор данной статьи) одновременно выступал в качестве программиста, отказавшись от сложившейся традиционно схемы разделения задач. Обычно же одна сторона (лингвисты) на очередной итерации общения с программистами пытается изложить свою модель, а другая имеет право и способна ее лишь адаптировать и не всегда – в силу иной профессиональной направленности – достаточно органично чувствует смысл требуемых лингвистических микровычислений: программист-профессионал чаще ориентирован на численные задачи; он же порой виртуозно владеет техникой организации больших баз данных, требующих макровычисления, – но тонкости и лингвистический смысл заказываемых ему микроопераций (как и меры ценностей: что обязательно следует учесть, а чем можно и пожертвовать) могут от

-152-

программиста-нелингвиста и ускользнуть. В нашем же случае исполняющая сторона не могла не делать именно то, чего требовала «заказывающая» сторона.

4. Если заданное слово невозможно – при существующем наборе хранимых морфов – распознать, соблюдая «грамматику» морфного членения (эта грамматика допускает, например, чтобы после приставки шел корень или другая приставка, но не суффикс или флексия в русском языке) и селективные ограничения, навязываемые индивидуальными морфами, – система МОРФ предлагает пользователю сообщить, если тот желает, его вариант морфного членения, устанавливает, соответствует ли это членение грамматике, и, если это так, заносит недостающие единицы в расширяемый таким образом список морфов, переупорядочив его после этого. Теперь она готова разобрать и слова с новыми морфами. Таким образом, система МОРФ обладает обратной связью с пользователем (правда, в меньшей степени, чем система ЛИНГВИСТ, о которой говорится ниже). Проявлена эта обратная связь и в том, что, если слово на входе задано с форматными ошибками (скажем, русское слово записано с вкраплениями посторонних символов и с некорректными сочетаниями букв типа чы, чя и т.п.), МОРФ предлагает исправленный вариант и спрашивает, настаивает ли пользователь на своем написании или же он принимает помощь системы. В зависимости от этого ответа разбирается тот или иной вариант.

Эта обратная связь, которая в дальнейших версиях, несомненно, должна быть развита, сближает систему МОРФ с интерпретатором в программистском смысле слова: в результате контакта системы с пользователем, рабочие наборы данных – «знания» – пополняются и корректируются, а затем используются в дальнейшем распознавании слов.

5. Системы МОРФ и ЛИНГВИСТ задуманы (и в значительной степени осуществлены в уже действующих версиях) как не зависящие от конкретного языка. Они «настраиваются» на определенный язык, когда те или иные наборы данных (морфов, парадигм, корректоров, основ, флексии, граммем и т.п.) активизируются в данном сеансе, но общий алгоритм универсален. Именно этим объясняется и внутреннее представление данных, например парадигм. Флексия имеет статус, по существу, самостоятельной единицы. Различаются «свободные» флексии (в русском языке это обычный случай) и «связанные». Примеры последних в русском языке: -ющ-, -ущ-, -енн-, -ем- (показатели причастия), -ейш- (показатель превосходной степени). В отличие от свободных флексий (типа -у в формах дат. падежа ед. числа), но подобно корневым и суффиксальным морфам, связанные флексии

-153-

обладают словоизменительными свойствами: им приписан свой номер парадигмы (типа парадигмы прилагательного) и акцентуационный тип. Это избавляет нас от необходимости заносить в качестве самостоятельных единиц такие составные флексии, как -ющему, -емыми, -ейшую. Обладает наш подход и психологической реальностью, и большей универсальностью: при таком решении речь вдет о реализации того, что традиционно кажется очевидным составителям грамматик для агглютинативных языков.

Итак, нами руководило стремление к универсальности, но попутно, как мы сейчас попытаемся показать, мы достигаем и экономии в следующем отношении. Количество хранимых (при нашем решении) флексий сравнительно невелико, заведомо не больше 256 единиц. Если парадигму представить как кортеж байтов – номеров этих флексий (байт – это целое число от 0 до 255, представимое в памяти в виде, в два раза более экономном, чем число, просто отнесенное к типу целого), то примерно вдвое сокращается и необходимый объем памяти на внешнем носителе. Этот выигрыш сам по себе не очень существен, но к нему добавляется еще следующее. Поскольку в запись для флексии введены еще ограничения (подобные селективным признакам для морфов), резко сокращается количество парадигм, в которые надо организовать набор флексий, чтобы адекватно отразить словоизменительные классы морфов и основ. Например, нет необходимости предусматривать отдельную парадигму для существительных на ж/ш/ч отдельно от парадигмы для существительных на к/г/х (как это сделано в работе [А.А.Зализняк 1977]): эти парадигмы можно «укрупнить». В результате общее число парадигм также не будет превышать 256. А это дает возможность отводить под номер парадигмы в записи морфа и основы также не больше одного байта.

Таким образом, то обстоятельство, что на первом плане у нас лингвистическая обоснованность, и лишь на втором – экономия в технической осуществимости, неожиданно приводит и к техническому выигрышу. Подобные эффекты свидетельствуют не только о психологическом правдоподобии принимаемых решений, но и, если угодно, о вычислительно-лингвистическом их правдоподобии.

Можно высказать следующую гипотезу: конструируя ЭВМ нового поколения, ориентированную на решение не только численных, но и символьных задач, человек – неосознанно, лишь представляя себе требования к компилятору (в частности, и к интерпретатору) для языков программирования, – закладывает в свое детище, да и в создаваемые новые языки программирования высокого уровня, существенные черты языка вообще, в том числе и естественного языка.

-154-

Теперь кратко остановимся на системе ЛИНГВИСТ. Она задумана и разработана как прообраз базы лингвистических данных, которые можно было бы использовать в рамках систем типа МОРФ. Имеются пять подсистем, каждая из которых работает в режиме поиска, корректировки и пополнения данных, а именно – базы данных для морфов, основ, флексий, парадигм и граммем. Лингвист-пользователь, выбирая (по начальному меню), какой вид данных его интересует, имеет возможность просмотреть соответствующий список записей, задав один или несколько существенных для него параметров. Например, мы можем захотеть увидеть все статьи для нулевых флексий, просмотреть все свободные (или наоборот, только связанные) флексии, обладающие (или, наоборот, не обладающие) тем или иным ограничением в сочетаемости, а также той или иной граммемой. При таком показе можно вносить модификации в статьи списков, а фиксируя результат модификации, мы вольны потребовать, чтобы новая версия статьи была записана вместо старой – или же, наоборот, как еще одна, новая статья при полной сохранности старой. Особенно это удобно при построении новых парадигм, получаемых из уже хранимых лишь в результате добавления, замены или удаления нескольких строк.

Все эти операции настолько обычны для лингвиста, что нет необходимости на них останавливаться слишком подробно. Отметим только, что мы стремились построить систему, ориентированную на капризного и забывчивого пользователя. Если он захочет ввести номер парадигмы для данного морфа или основы, система подсказывает ему рекомендуемые (при данном физическом облике этой единицы) парадигмы, показывая, как эта единица выглядела бы в рамках каждой из них. Лингвисту остается только высказать согласие на тот или иной выбор – или составить новую парадигму, возможно, лишь модифицировав одну из имеющихся. Акцентологический класс (как в смысле работы [А.А.Зализняк 1977], так и в смысле иных категорий [А.А.Зализняк 1985], [Редькин 1971]) также выбирается в результате диалога и не требует (если только того не захочет сам пользователь) прямого указания индекса.

В терминах различения, проведенного в начале данной статьи, можно сказать, что система МОРФ в большей степени связана с микровычислениями, а ЛИНГВИСТ сочетает лингвистические микровычисления с макровычислениями. Мы видим перспективу развития подобных систем в углублении микровычислительной стороны. А это сделает еще более актуальным, чем даже сейчас, не только внедрение «специальных теорий интерпретации», т.е. формального аппарата и принципов современных лингвистических концепций, но и учет теоретического наследия нашей науки. Надежды эти можно связать, в

-155-

первую очередь, с верификацией на базе вычислительной лингвистики принципов словообразования, морфемики, словоизменения и орфографии. В системах МОРФ и ЛИНГВИСТ все эти дисциплины взаимодействуют, без чего системы не смогли бы работать вообще.

Представляется, кроме того, что названные дисциплины «традиционного» языкознания и вычислительную лингвистику в единый комплекс связывает идея внутренней формы как поискового образа языковой единицы, причем этот поисковый образ не хранится, а вычисляется. В частности, наш результат мы истолковали бы следующим образом. Система лингвистической интерпретации – в нашем случае система морфологической интерпретации МОРФ – представляет собой модель конструирования гипотез о внутренней форме слова; протекает это конструирование параллельно с верификацией гипотезы на фоне имеющихся языковых ресурсов носителя языка (в нашем же случае – на фоне перечисленных видов данных). Интерпретирование регулируется определенными стратегиями, в результате которых строятся гипотетические морфные представления, устанавливается совместимость морфов в рамках промежуточных результатов. И все это – таким образом, чтобы самые первые результаты в итоге были бы и наиболее ожидаемыми, правдоподобными. Между прочим, МОРФ выдает все варианты ответов по порядку возрастания числа морфов, вычленяемых в заданном слове (сначала варианты, скажем, с пятью выделенными морфами, а затем – если это возможно – с шестью и т.д.).

Именно поэтому, вслед за А.А. Потебней, можно сказать:

1)внутренняя форма слова – это отношение содержания мысли к сознанию;

2)она не только дает «объективное значение слова», но еще и соответствует историческим семантическим переходам; вот почему чем ближе разбиение на морфы к этимологическому, тем меньше в дальнейшем приходится исправлять лингвистическую базу данных (что, впрочем, не означает окончательности данных этимологии для нашей задачи);

3)внутренняя форма слова – центр, ядро образа, внушаемого целым словом; поэтому, чем более удачно, в частности, разбиение слова на морфы, тем нагляднее, прозрачнее оно указывает на семантику слова в целом;

4)чем «прозаичнее» слово, тем более неожиданной может предстать его внутренняя форма;

5)регулируя процесс понимания, внутренняя форма предопределяет ожидания интерпретатора – отсюда возможность угадывать, что хотел сказать человек, использовавший неподходящую флексию или неправильный алломорф основы или даже нарушивший правила орфографии;

6)внутренняя форма регулирует и предопределяет форму выражения, в нашем случае предопределяет, какие морфы возможны, а какие невозможны после определенного морфа или сочетания морфов;

7)внутренняя форма, в то же время, направляет само развитие мысли говорящего, стимулируя зачастую новаторские решения по ходу самой речи.

Помимо этого, мы приняли на вооружение то положение, что внутренняя форма получается (синхронно, а не только диахронически) в результате определенных операций. Именно эти операции и входят в морфологическую интерпретацию, заключающуюся не только в поиске языковых данных для осмысления языковых выражений, но и в ожидании общего смысла для выражений, еще не полностью прошедших перед мысленным взором интерпретатора.

Литература

Демьянков В.З.

1985

Основы теории интерпретации и ее приложения в вычислительной лингвистике. – М.: Изд-во Моск. ун-та, 1985.

Зализняк А.А.

1977

Грамматический словарь русского языка: Ок. 100.000 слов. – М.: Русский язык, 1977.

Зализняк А.А.

1985

От праславянской акцентологии к русской. – М.: Наука, 1985.

Редькин В.А.

1971

Акцентология современного русского языка. – М.: Просвещение, 1971.



ћ Статья, написанная в 1988 году, опубликована с большой задержкой (отсюда и некоторая архаичность версии) в книге:Морфемика: Принципы сегментации, отождествления и классификации морфологических единиц: Межвузовский сборник /Под ред. С.И.Богданова, А.С.Герда. –Санкт-Петербург: Изд-во Санкт-Петербургского ун-та, 1997. С.147-156.

ї В.З. Демьянков 1997