В.З. Демьянков

Морфологическая интерпретация текста и ее моделирование

http://www.infolex.ru

Продолжение

-36-

ГЛАВА ВТОРАЯ
ЭКСПЕРТНАЯ СИСТЕМА МОРФОЛОГИЧЕСКИХ ЗНАНИЙ

В первой главе мы только вскользь коснулись идеи экспертной системы морфологических знаний как универсального "метаметаязыка" морфологии. Обратимся теперь к вопросу о предназначении экспертной системы вообще.

В результате широкого распространения персональных ЭВМ построение специальных систем знаний о языке в последние годы стало весьма актуальным занятием. Даже простые системы редактирования текста (с переносом слова со строки на строку, корректировкой орфографии, локализацией ошибки в согласовании имени и прилагательного, когда это существенно), обладающие зачастую весьма ограниченными лингвистическими возможностями, пользуются большой популярностью. По внутреннему устройству эти системы обработки слова, или "морфологические процессоры", сильно отличаются от остальных информационных систем.

В существующих "редакторах" использованы далеко не все ресурсы естественных языков. Например, обычно человек не бракует необычную (не хранимую, ранее не занесенную в систему) основу, построенную по морфологическим законам данного языка. Существующие редакторы бракуют нехранимые основы.

Мы полагаем, что качественно более эффективный, чем существующие, морфологический процессор нельзя построить только с помощью приемов информатики и "маленьких хитростей" – случайно обнаруживаемых закономерностей языка. Необходимо опереться на достижения современной общей морфологии как раздела языкознания. Чем шире такой фундаментальный фон, тем больше свобода оправданного маневра при построении системы морфологической обработки текста.

Современные представления о морфологии в теоретическом языкознании, опирающиеся на теорию интерпретации, на типологию, на огромный фактический материал конкретных языков, создают фундамент для построения систем морфологических знаний. Простой механический перенос этих данных с "бумажного" на "машинные" носители информации менее перспективен, чем универсальные оболочки для экспертных систем языковых знаний.

-37-

Такие системы не только накапливают информацию о языке в некотором внутреннем формате, но и используют ее для распознавания и синтеза текстов (в режиме верификации). Усовершенствование редакторов текста для конкретного языка тогда можно рассматривать как результат такой оптимизации этих систем, когда из всего богатства универсальных средств отбираются только процедуры и параметры, существенные для конкретного языка, остальные же типы знаний – полезные для какого-либо иного, но не данного языка и усложняющие работу, – выносились бы за скобки.

В отличие от обычных баз данных, экспертная система для лингвиста не простое хранилище сведений: на основе своих обновленных сведений она должна давать анализ произвольному выражению объектного языка и синтезировать – при необходимости – словоформы конкретной лексемы, коль скоро задан требуемый набор грамматических категорий.

Например, для русского языка система должна уметь анализировать выражения типа лесами, недоигравшимися, бело-сине-красному – соответственно: лес в форме мн.ч.Т.п., недоиграть в форме причастия прошедшего времени действительного залога мн.ч.Т.п., бело-сине-красный в форме м./ср.рода ед.ч.Д.п. Обратная задача: по лексеме в "заглавной" форме и по набору грамматических признаков синтезировать нужную словоформу.

Аналогия с экспертной системой в медицине заключается в том, что "диагноз" и "методы лечения" (в нашем случае – синтез и корректировка словоформ) зависят от сведений, полученных предварительно от человека-эксперта и в силу этого обладают авторством. Такой режим работы с системой назван верификацией потому, что именно он позволяет установить, насколько верна лингвистическая концепция человека-эксперта, опрашиваемого системой. В нашем случае симптомами правильности концепции являются анализ и синтез словоформ, соответствующие интуиции носителя языка.

При построении экспертной системы лингвистических знаний необходимо ориентироваться на учет универсалий и фреквенталий (соответственно, несомненных и частотных законов) языка в качестве элементов базы знаний, то есть, на представления о том, что бывает и чего не бывает в человеческом языке.

-38-

К оглавлению

1. Идея экспертной системы языковых знаний

Идея создания экспертной системы возникла в 1970-х годах, когда исследователи в области искусственного интеллекта занялись построением базы знаний, обладающей элементами искусственного интеллекта [142, с.186]. Экспертная система – программа для ЭВМ, дающая решение (на уровне эксперта) для проблем в некоторой области и обладающая [93, с.164]:

- эвристичностью, т.е. способностью производить умозаключения на основе знания фактов и формальных знаний, объединенных в теорию;

- прозрачностью, т.е. способностью давать объяснения для своего выбора хода рассуждений и отвечать на вопросы о хранимых знаниях;

- гибкостью в усвоении, интегрировании и использовании новых знаний по ходу работы для получения последующих своих решений.

Несколько более конкретно [142, с.186], эта система:

1) ориентирована на конкретную область экспертизы;

2) способна делать выводы из посылок, сформулированных не до конца четко, даже на основе недостоверных предписаний;

3) умеет правдоподобно объяснять ход размышлений;

4) факты отделяет от механизмов логического вывода;

5) способна пополняться по ходу и в результате работы, охватывая все более широкие наборы знаний;

6) обычно основана на наборе правил, в том числе – на практических правилах, формулируемых экспертом-человеком при объяснении хода мыслей;

7) дает прямой совет, а не заставляет спрашивающего делать нужные выводы (как было бы в случае обычных баз данных);

8) обладает коммерческой ценностью, в отличие от многих иных систем искусственного интеллекта, "игрушечного" типа.

Необходимость в экспертных системах диктуется следующими обстоятельствами:

1. Нужно исключить зависимость от субъективности живого эксперта или группы экспертов.

2. Требуется интегрировать знание, полученное из разных

-39-

источников. Особенно важно это для тех областей, в которых уровень развития теории не позволяет достаточно хорошо структурировать знания, когда два эксперта только изредка приходят к единому мнению.

3. Знание одного эксперта необходимо использовать сразу в нескольких разных местах.

4. Необходимо преодолеть слабости человека, в частности, исключить эмоции.

Экспертная система предполагает [213, c.18] наличие:

- эксперта-донора знаний,

- "инженера знаний", извлекающего знания из эксперта и упорядочивающего их,

- структуры понятий для формализации и хранения данных,

- язык программирования для задания алгоритмов.

Общие свойства экспертных систем [213, c.28-29]:

1. Нацеленность на имитацию эвристического поведения человека-эксперта: методы сбора данных, логического вывода, стратегии обработки информации, принципы подтверждения и/или опровержения гипотез.

2. Конкретность области знаний, затрудняющая обобщения.

3. Практическая направленность.

По конструкционным свойствам различаются следующие типы экспертных систем [213, c.58-59]:

1. Информационная система – программа, непосредственно разрабатываемая программистом в режиме непосредственного общения с экспертом. Правила, применяемые системой для логического вывода, не зависят от узкой области знаний. Недостатки: трудности обновления, ревизии и обобщения хранимых знаний.

2. Система обобщения процедур: допускает постоянное взаимодействие между "инженером знаний" и экспертом, но специальные знания выявляются в результате процедур, работающих на некоторой эвристической основе. Например, система диагностики инфекционных заболеваний.

3. Автоматизация работы "инженера знаний": основана на диалоге между экспертом и программой, обычно позволяющей вести диалог с экспертом.

4. То, что пока еще является утопией: система, полностью

-40-

заменяющая эксперта, работающая индуктивно, сама собирающая и обобщающая нужную информацию, проводящая экспертизу на основе фактических данных, литературы и опроса специалистов.

Главная идея и ценность экспертной системы – моделирование динамики знаний. Основные компоненты экспертной системы:

- база знаний,

- механизмы логического вывода,

- модуль расширения и усвоения знаний,

- интерфейс для формулирования пояснений,

- генератор подзадач, вытекающих из проблемы, стоящей перед системой [105, с.294].

По поводу последнего компонента отметим следующее. Рассуждение на основе знаний объектной области у человека связано с тем, что общая задача как бы разбивается на подзадачи, образующие иерархию. Каждой подзадаче соответствуют своя типология знаний и свои критерии правильности решения. На разных этапах рассуждения экспертная система занимается одной из подзадач. К наиболее общим классам подзадач относятся:

1) классификация,

2) абстрагирование от конкретной ситуации,

3) целенаправленный поиск знаний,

4) синтез объекта по уточненному плану действий,

5) проверка гипотез,

6) выведение следствий из компоновки гипотез.

В качестве единиц хранения – "элементарных знаний" – выступают не только декларативные сведения, но и меняющиеся от эксперта к эксперту предписания – правила, что делать при том или ином состоянии обследуемого объекта [254, с.209]. Для лингвистов понятие правила сегодня не нуждается в обширных пояснениях: формулировкой лингвистических правил – правил языка и речи – мы занимаемся всю свою профессиональную жизнь. Моделирование лингвистических правил как базового набора означает необходимость соответствующей архитектуры экспертной системы. Системы, базирующиеся, среди прочего, на хранимых представлениях для правил, позволяют отражать знания, расширяющие возможности эксперта и в то же время по-новому воплощающие в жизнь принцип модульности в сочетании с принципами "логического

-41-

программирования" [254, c.209].

К обычным аспектам поведения экспертной системы – к хранению знаний и к решению задач – отнесено и взаимодействие человека с системой по ходу решения задачи, сотрудничество в логическом выводе и по ходу модифицирования базы знаний [269, с.402]. Обращаясь к помощи экспертной системы по ходу написания текста на ту или иную конкретную тему, пользователь может опираться на двоякую помощь системы:

- выработка аргументации,

- оформление этой аргументации в форме, приемлемой для потенциальных адресатов.

Программы текстовых редакторов в большей степени пока что нацелены на вторую задачу [269].

Общение пользователя с экспертной системой не зависит от глубины проникновения во внутреннюю механику системы. В то же время, это регламентированное общение, поскольку нерегламентированный диалог сложен для самого человека, требует большего сосредоточения внимания, чем тот вид, который явился результатом многих лет программистских наработок со своими – широко известными в практике – приемами и уловками: "меню", подсказки варьирующейся обстоятельности, демонстрационные примеры и т.п. Там, где пользователю разрешено вводить сложные высказывания, имеем следующие проблемы (ср. [223, с.49]):

- переработка текстов как последовательности слов: интерпретация сложных синтаксических структур и перевод их в семантическое представление при учете контекста;

- представление знаний внутри самой системы, разработка вспомогательных средств для формализации, хранения и поиска знаний при обработке показаний экспертов;

- техника дедукции: процедуры доказательства;

- формализация объектного знания, в нашем случае – формализация знаний о языке-объекте.

К оглавлению

2. Хранение и переработка знаний

В этом вопросе есть две стороны:

- содержание знаний,

-42-

- репрезентация знаний, форма хранения, предназначенная для эффективного поиска, переупорядочения и модифицирования.

Эти стороны неразделимы. Например, изобретение нового формального аппарата для представления знаний открывает новые перспективы и для содержательного расширения объема знаний. Чаще всего используются следующие подходы к кодированию знаний для того, чтобы чисто формальным – "синтаксическим" – путем устранять недостоверные сведения, противоречия и обновлять информацию по ходу новых показаний эксперта:

1. Система "продукции" [270]. Знание представляется как набор правил, каждое из которых состоит из двух частей: из антецедента и консеквента, или условия и результата, или (как в порождающей грамматике) левой и правой частей. Однако, в отличие от типичной программы для ЭВМ, "продукция", или "деривация", в рамках такой базы знаний не представляет собой последовательность предписаний, которые следует выполнить одно за другим. Скорее имеется в виду неупорядоченный набор правил (в этом сходство с поздними версиями генеративной грамматики), соответствующий – в своем "пакете" – некоторому элементу базы знаний. Такой элемент может быть легко введен в состав уже имеющейся базы знаний – иерархии "пакетов". При необходимости в этой иерархии можно произвести перестановки. Сам же "пакет" легко ввести в состав уже имеющегося набора знаний, также, при необходимости, модифицируемого в остальных частях.

2. Модификация исчисления предикатов первого порядка, когда знание представляют как высказывание, в котором отсутствуют модальный компонент и кванторы. Эта техника во многом повторяет предыдущую [200, с.74]. Используется также "процедурное представление" части знаний, как в языке программирования пленнер: в то время как в представлениях указанного выше первого типа речь идет о "знаниях, что", здесь скорее формулируются "знания, как". Используется аппарат семантических сетей, аналогичных тем, которые нашли свое применение в психологии для моделирования мыслительных ассоциативных связей в памяти человека. В качестве надстройки фигурируют языки "фреймов". Семантическая сеть состоит из:

- узлов, представляющих объекты, понятия или ситуации;

-43-

- бинарных отношений между этими узлами.

Наконец, при этом же подходе используются системы "продукции", опирающиеся на "правила продукции" типа тех, которые составляют "машину Поста" (предложенную еще в 1943 г.) и широко известны как "правила непосредственно составляющих (НС)" в порождающих грамматиках. Система продукции состоит в таких концепциях из трех частей:

- база правил продукции, каждое из которых читается так: "Если выполнено условие А, то выполни действие В"; в частности, "правила переписывания" интерпретируют "действие" как замену одного символа последовательностью других символов;

- отражение контекста, дающее свойства реального состояния, того, при котором работает данное правило и которое меняется после этой работы;

- интерпретатор, регулирующий применение правила и решающий, какое из конкурирующих правил должно работать в данном случае и каковы дополнительные изменения, которым должен подвергнуться контекст в результате.

3. Аппарат "сверхкатегорий" [193, с.325-329]. Понятия организованы в иерархии, связи внутри которых структурированы так, чтобы осуществлять логический вывод на основе перехода от общего к частному и обратно. Принимаются следующие положения:

- организация понятий в памяти такова, что более конкретные частные понятия наследуют свойства, "признаки", от более общих; возможно и "структурное наследование", когда понятия, входящие в определенную структуру, наследуют признаки некоторой "сверхкатегории" этой структуры. Например, знание понятия продажа предполагает знание понятия передача;

- понятийных категорий больше, чем лексических;

- с помощью одного понятия можно пояснить другое, что не всегда означает, что одно из них зависит от другого.

Эффективность подхода оценивается по гибкости решения проблем и обновления базы знаний в результате работы эксперта с системой. Помимо адекватности и точности, существенна и "плотность" (density), или "детализированность" [155, с.565-583], – количество связей между отдельными понятиями в базе знаний, то есть, насколько детально разработана область

-44-

знаний относительно концепции и хранимых знаний.

Экспертное владение материалом, среди прочего, предполагает способность улавливать скачки от более разработанной, детализированной, области к менее детализированной и наоборот. Плотность системы проявляется в ее реакции на профессиональные параметры пользователя: то, что в качестве адекватного ответа она может предложить хорошему специалисту, показалось бы избыточным или неправдоподобным дилетанту. Сведения о "местном" падеже в русском языке нерусисту – простому носителю языка (в школе слышавшему о "предложном" падеже) покажутся подозрительными, пока ему не продемонстрируют контрастную пару в лесу – в лесе. Итак, одной из важнейших характеристик экспертной системы является способность дифференцированно "общаться" с различными типами пользователей. Строя систему для консультации школьников, студентов и академиков по родному языку, следует учитывать и этот человеческий фактор.

Наконец, задача модифицирования базы знаний, а как частный случай – устранения противоречий. Хранимые сведения могут вступать в противоречие с новыми, поступающими даже от одного и того же эксперта. Есть две тактики [240, с.26]:

- комплекс превосходства, консервативность: подозревать в неаккуратности данные более поздние по времени появления;

- комплекс неполноценности: в неправильности подозревается не последняя по времени информация, а та, которая вызвала конфликт мнений.

Пусть, например, все объекты были разбиты на непересекающиеся классы А, В и С, а через некоторое время некий объект охарактеризовали как обладающий одновременно свойствами А и В. Система ревизии мнений выбирает среди альтернатив одну, прогнозирует последствия предпочтения, сопоставляет полученные результаты при различных выборах. Если противоречие выявляется, пересматривается база знаний, в противном же случае – прибегают к консервативной технике.

Дальнейшее усовершенствование экспертных систем – в учете технологии лингвистического исследования: в аккуратном описании и моделировании операций, выполняемых обычно лингвистами при исследовании и упорядочении материала. В некотором смысле, это

-45-

возвращение к дескриптивистской постановке вопроса, но в рамках одной из подзадач – пополнения экспертной системы. Важное отличие от "методического" периода в истории языкознания состоит в том, что главным при таком пополнении является наличие общелингвистической концепции, верифицируемой с помощью системы при морфологической интерпретации.

К оглавлению

3. Морфологическая интерпретация текста

Для разработчиков экспертной системы нелингвистических знаний этот вопрос обладает скорее практической, чем теоретической значимостью [147, с.250]. Иное положение, когда разрабатывается экспертная система для хранения и пересмотра данных о языке: возможности системы будут различными в зависимости от морфологической концепции создателей.

Мы строим универсальный метаметаязык морфологии, на котором выразим максимально широкий спектр морфологических концепций – как зарегистрированных, так и возможных. Усовершенствование метаметаязыка заключается не только в расширении типов языка-объекта, морфология которого может задаваться в рамках системы, но и типов концепций морфологической репрезентации и структуры языка в целом.

Наше положение в этой связи таково: понимая текст, носитель языка способен дать объяснение каждому отдельному слову (не всегда это объяснение у разных носителей языка будет совпадать), опираясь при этом на свои гипотезы о морфемном составе, т.е. о "внутренней форме" слова [14]. Морфологический интерпретатор решает свою задачу, когда адекватно моделирует эту деятельность человека, в разной степени владеющего данным языком: степень компетентности в языке может варьироваться от нуля до бесконечности.

Далее будем разграничивать понятия следующим образом. Лемматизацией будем называть идентификацию словоформы (текстовой формы слова) как представителя некоторой лексемы, хранимой в словаре. Для этого используются алгоритмы анализа словоформ, устанавливающие базисную, или основную ("заглавную"), форму лексемы. В иной формулировке [322, c.38] лемматизация

-46-

– сведéние словоизменительных парадигм (представленных словоформами) к формам, считаемым заглавными.

Морфологическая интерпретация словоформы – расширение понятия лемматизации на тот случай, когда лексема (или основа словоформы, если ее рассматривать в качестве ключа поиска) не обязательно хранится в словаре, а "вычисляется" по аналогии, на основании других хранимых единиц словаря и свойств анализируемой формы.

Например, словоформу недоперебежишь нельзя лемматизировать, если в словаре нет лексемы недоперебежать или соответствующей ей основы. Но эту форму можно морфологически проинтерпретировать, если в словаре есть лексема бежать или ее основа. В языках с богатым словообразованием морфологическое распознавание текста состоит в интерпретации словоформ.

Морфологическая интерпретация ставит следующие проблемы:

- установление заглавной (фонологической и/или орфографической) формы лексических единиц, той, по которой как по ключу можно найти сведения о семантике, синтаксисе и прагматике всей лексической единицы;

- двустороннее соотнесение заглавного и реального (текстового) лексических представлений.

К оглавлению

4. Система распознавания слова

Ранние системы распознавания текста ориентировались, главным образом, на языки с бедной морфологией или на те, в которых легко отделить основу от флексий [231, c.266]. Алгоритм состоял в распознавании аффиксов и/или флексий в составе словоформы (по сравнительно небольшому списку вспомогательных морфем), после чего оставшаяся часть словоформы – гипотетическая основа – искалась в лексиконе. Обычно вся эта техника выглядела как анализ справа налево. К началу 1980-х годов картина изменилась:

1. В поле зрения попали агглютинативные языки (тюркские, финно-угорские, языки американских индейцев), с богатой и зачастую экзотической (на фоне английского) морфологией. Для них тактика "от флексии – к основе" непродуктивна. Более правдоподобна

-47-

тактика "слева направо": вычисление сначала основы, а затем флексий.

2. Появился целый ряд идей о двуступенчатости распознавания слова, о соотнесении слов одновременно на лексическом уровне и на уровне хранимых словоизменительных парадигм.

Разработанная нами и описываемая в шестой главе экспертная система лингвистических знаний позволяет хранить данные о языке и выяснять, насколько удачна та или иная морфологическая концепция анализа и продуцирования форм языка. Уместно будет в общих чертах описать сначала несколько известных систем.

В "эксперте-распознавателе слов" [293, с.89] каждое слово языка рассматривается как источник сложных экспертных знаний о процедурах понимания слова в различных контекстах. Авторы системы опирались на следующие гипотезы:

1. Знание языка у человека организовано, прежде всего, как знание слов, а не правил.

2. Понимание языка, в первую очередь, – координирование информации между модулями-миниэкспертами (составляющими большую систему "эксперта в области слов"), делящими между собой области влияния в языковом и понятийном окружении. Это значит, что большую экспертную систему для языка надо строить, базируясь на представлениях о том, как должны быть отражены нерегулярности языка, исключения из правил, и только в следующую очередь – как трактовать главные закономерности языка.

В другой концепции морфологическая обработка слова представляется как выявление внутренней структуры слова: анализ слова в виде дерева НС, где в качестве непосредственно составляющих фигурируют объединения морфов [283, с.17]. Выделяются следующие компоненты процессора словоформ:

- парадигматический компонент, задающий словоизменительные ("флективные") свойства словоформ с помощью категорий рода, лица, числа, падежа, времени и наклонения;

- селективный компонент, задающий синтаксическую сочетаемость словоформ в виде логических выражений (приписываемых словоформе);

- иерархический компонент, задающий понятийные иерархии, иногда в корне отличные от деления слов на части речи;

- компонент зависимостей, определяющий, какие синтаксические

-48-

зависимости характерны для данного слова и какую роль в них может играть слово;

- компонент упорядочения слов в предложении.

В третьей концепции [186, с.114] алгоритм, работая в тексте по принципу слева направо, опирается на различительные признаки письменного текста. Число таких признаков сравнительно невелико. Распознанная графическая форма слова далее сверяется со словарем, упорядоченным в виде дерева, что позволяет быстро и легко определить "окрестность" слов, близких к данному по внешнему виду (по сочетаемости букв). В зависимости от того, каково количество слов в такой окрестности, определяется и вероятность правильности прогноза. В среднем же такая окрестность составляет два с половиной слова. Система гарантирует распознавание 85 – 100 % слов в произвольном тексте. Эта механика нашла широкое применение, на ней основано большое число работающих анализаторов слов для английского языка.

К оглавлению

5. Принципы построения интерпретатора слов

Эвристической ценностью в моделировании человеческой интерпретации слов обладают:

- традиции морфологического описания – такие, как латинская, китайская, семитская, индийская;

- возможности разнообразных версий формальных грамматик;

- психолингвистические исследования ошибок.

В поисках общетеоретического (метатеоретического) подхода исследователи подошли вплотную к осознанию следующих идей:

1. В отличие от автомата, человек редко держит в голове все возможности интерпретировать слово. Столкнувшись с трудностями, процессор, как и человек, должен либо повысить свою бдительность, использовать более надежные стратегии поиска и собственно морфологической обработки словоформы (скажем, проверить, не было ли распознаваемое слово результатом какой-либо редкостной морфологической альтернации, сочетания с неожиданными элементами или с малоупотребительными флексиями), либо признать ошибочность слова, либо же, наконец, признать свою некомпетентность. Степень "мобилизационной готовности" варьируется

-49-

в зависимости от этих факторов [150, c.145].

2. Распознаванию слова помогает учет возможного значения словоформы в целом, его упреждающая семантическая интерпретация: "внутренний лексикон" человека допускает при необходимости и семантический поиск, что роднит его с базами данных стандартного типа. Не случайно, например, при афазии Брока (вид аграмматизма) этот семантический поиск доминирует, вытесняя иные стратегии [330, с.239-231].

3. Семантическая обработка происходит обычно параллельно фонологической/графической. Поэтому человек способен воспринимать малапропизмы (основанные на фонологическом сходстве слов), создающие своеобразный семантический эффект. Однако одни исследователи [146, с.247] считают, что сходство форм обычно констатируется интерпретатором только после того, как получены (в результате семантического поиска) несколько конкурирующих гипотез об анализе слова; другие [301, с.573] – что всегда оба вида поиска одновременно имеют место при интерпретации слова, параллельны, согласуются между собой по промежуточному результату (см. также [127], [300]). Третьи же [137] пытались так представить семантический и формальный поиск, чтобы сделать результат одного из них исходным для другого (см. также [94]). Скорее всего, различные виды взаимодействия, в том числе и перечисленные, одинаково реальны [297]. Выбор определяется предшествующим опытом интерпретации текста [106].

4. Следует различать результаты, полученные неосознанно, и те, которые явились результатом дополнительных усилий, своеобразных "грамматических размышлений" человека. Первые (в частности, даже когда у распознанной лексемы оказывается много равноправных лексических значений) не усложняют значительно всю процедуру обработки, не приводят к "аналитической перегрузке", в то время как вторые могут привести к переутомлению и к перерасходу ресурсов памяти и терпения человека [307, с.375]. Процессор слов должен быть организован так, чтобы и в нем такой перерасход (менее, впрочем, тягостный, чем у человека) происходил, по крайней мере, не в тех звеньях, которые соответствуют работе подсознания человека.

5. На работе процессора слов сказывается конечная цель

-50-

[92, с.98-99]. Компьютер должен использоваться более эффективно, чем пишущая машинка для ввода и редактирования текста. Это

- средство для создания текстов, а потому нужна обратная связь для исправлении ошибок и избегания недоразумений. Каждая замеченная интерпретатором ошибка и любое подозрительное выражение либо автоматически заменяется на вариант, предлагаемый "редактором", либо легитимизируется, т.е. заносится в память как правильное и дальше уже подозрений вызывать не будет. Выбор делает человек, а претворяет в жизнь машина. Примерно так работают наиболее популярные системы; к ним добавляются еще автоматические тезаурусы [92]. От процессора слов требуется максимальная бдительность в сочетании с терпимостью и скромностью, иначе легитимизация авторского словоупотребления станет для пользователя мучением.

К оглавлению

6. Распознавание слова

Для морфологической интерпретации текста распознавание слова сопряжено со следующими моментами [65, c.533]:

- установление лексической идентичности – идентификация лексемы, из которой вытекает набор синтаксических и семантических свойств словоформы как представителя лексемы;

- построение морфологической репрезентации, отражающей словоизменительные категории, передаваемые данной словоформой.

К оглавлению

6.1. Лексическая идентификация

Распознавание слова – решение трех задач [238, c.71]:

- лексический доступ – отображение речевого или письменного сигнала на представление в виде лексической формы;

- выбор, или селекция – установление того, что в наилучшей степени может соответствовать речевому входу;

- интеграция – включение полученного результата (то есть синтаксической и семантической информации, содержащейся в лексемах) в рамки более общих процедур.

Лексическая обработка включает [317, c.2]:

- предварительный лексический "контакт", или "атаку",

-51-

когда слушатель/читатель воспринимает речь/текст как вход и генерирует представления (репрезентации), соположимые с теми видами представления, в рамках которых задается поисковый образ формы слова для конкретной лексической единицы; эти репрезентации называются контактными;

- активизацию: лексические статьи, оцененные как достаточно близкие к контактной репрезентации на первой фазе, гипотетически считаются изменившими свои характеристики и поэтому отличными от глубинного представления;

- селекцию, или выбор: после первых двух фаз продолжается аккумулирование физических данных до тех пор, пока в результате сопоставления с данными лексикона, параллельно этому накоплению, не будет локализована нужная лексическая статья в словаре; такой процесс выглядит как дифференциация (когда прообраз требуемой статьи обрастает все большим количеством деталей), как редукция (противоположный случай) или как простая идентификация (при гипотезе о точном совпадении эталона с экземпляром слова в речи);

- констатация распознанности слова;

- "лексический доступ" – тот момент, когда всевозможные свойства хранимой лексемы – фонологические, семантические, синтаксические и прагматические – становятся полностью доступными интерпретатору, "приземлившемуся" на территории соответствующей статьи в словаре.

В поисках нужного слова по словарю активизируется значительно больше единиц, чем затем понадобится. Этот избыток слов может нечаянно, в виде вкраплений, встретиться в речи или, соответственно, в виде коннотаций (порой весьма навязчивых) обнаружиться в интерпретации чужой речи данным носителем языка. Общие стратегии поиска лексической статьи или ее морфологической обработки [54, c.175]:

- "понтонная" стратегия: значение слова выбирается в качестве временного мостика еще до того, как рассматривается в деталях физический – звуковой или письменный – облик слова; провести в жизнь эту стратегию в чистом виде затруднительно, поскольку имеет место параллелизм и взаимодействие различных фаз распознавания и продуцирования речи, так что семантическое

-52-

упреждение так или иначе должно опираться и на учет физического облика речи;

- каскадная модель, когда считается, что при продуцировании речи уже имеются готовые значения, а формы могут еще только находиться в процессе становления;

- "расширяющаяся активация" (spreading activation), при которой значение и форма слова взаимозависят и при продуцировании, и при распознавании речи, а именно: любое продвижение к значению вызывает соответствующие поправки при рассмотрении формы, а любые дифференциация, редукция или наложение форм приводят к корректировке гипотез о значении целого слова.

В случае устной речи, помимо обычных задач, есть еще распознавание границ слова, усложняющее строение системы, но дающее более глубокое понимание сути лексического поиска. Слушающий не ждет, пока звуковое слово прозвучит целиком: восприятие речи (как, впрочем, и восприятие письменного текста) обладает опережением физического сигнала [239]. Эффективный лексический поиск можно поэтому связать и с умением правильно идентифицировать начало слова и отобрать кандидата из большого числа вариантов. Как показывают экспериментальные исследования [118], [119], [237], процедура распознавания начала слова непосредственно соотнесена и с процедурой лексического поиска.

Одним из индикаторов границ слова является просодия [306, с.520 и след.]. Аналогичную роль играет при лексическом поиске в письменном тексте пунктуация: пробелы, точки, запятые, разбиение на абзацы и строчки и т.п. Поэтому получается, что лексическое представление хранимых языковых единиц – морфов, слов и т.д. – отражает и то, что традиционно внеположено лексике – просодию в широком смысле. В частности, смена сильных и слабых слогов также связана с лексическим поиском. По [151], сильные слоги являются ключевыми: сопоставление распознаваемой цепочки со слабыми слогами эталона слова начинается только после успешного выдвижения гипотез, связанных с сильными слогами.

При восприятии письменного текста лексический поиск опирается на гипотетическое озвучивание текста читающим, на гипотезы о просодической интерпретации в качестве ведущей. В итоге одну часть (априорно одинаково вероятных) предположений читающий

-53-

игнорирует, а другую выводит на передний план. Иногда [306] считается, что лексикон позволяет вести поиск слова не только по внутренней форме (по наличию и линейной последовательности морфов), семантике и синтактике, но и по слоговой и даже по метрической структуре (по структуре мор). "Сговор" семантики и просодии – свойство не только поэтической речи.

Лексический доступ при распознавании письменного текста включает следующие подпроцессы [84, c.108]:

1. Распознавание формы букв, что тривиально, если нет, скажем, диграфов. Однако в немецком не однозначно распознавание буквенного сочетания "sch" как "s+ch" или как "sch" целого знака, читаемого примерно как русское "ш".

2. Построение поискового образа слова, ключа для поиска лексической статьи во внутреннем лексиконе. В частности, отделение неплотно прилегающих к основе префиксов в русском языке (ищем глагол разбежаться при текстовой форме переразбежавшись в предложении Иванов не взял высоту два метра семнадцать сантиметров; переразбежавшись, он поставил новый мировой рекорд) и отвлечение от того, что идет после первого ведущего морфа в слове (таков, например, поиск отглагольного имени по глагольной основе без учета суффикса -ние в русском языке).

3. Выбор лексического "бункера", вокруг которого концентрируются лексические единицы с данным поисковым образом. В обычном алфавитном словаре таким бункером можно считать место в словаре, где идут слова, начинающиеся на данную букву, в китайском словаре – слова, начинающиеся на данный иероглиф.

4. Собственно поиск в рамках найденного бункера, когда решающим фактором является относительная частотность (соответственно которой и упорядочены лексические статьи внутри бункера), причем в зависимости от обстоятельности поиска иногда прекращают дальнейшие поиски, как только найдено первое решение, а иногда стремятся найти все возможные решения.

5. Проверка после нахождения статьи. В отличие от фазы поиска (когда "ключ" примеряется к заголовку лексической статьи), учитываются все детали, считаемые существенными в рамках лексикона данного языка. Если проверка дает отрицательный результат, поиск возобновляется.

-54-

6. Считывание лексической статьи – собственно "лексический доступ": все содержимое лексической статьи становится доступным процессору.

Собственно лексическим поиском в этой схеме можно назвать фазы с третьей по пятую, пока еще не локализована лексическая статья. Все эти фазы взаимодействуют таким образом, чтобы поддерживать, а не затруднять выполнение соответствующих операций в рамках других фаз-модулей. Конструкторы морфологического процессора стремятся оптимизировать такое взаимодействие. В частности, по [73, c.197], морфологический процессор для сложных слов в английском и голландском языках должен быть устроен так, чтобы в рамках целого предложения слова с деривационными суффиксами обрабатывались легче, чем без них. Слова с "синтаксически ориентированными" аффиксами, типа перфектных форм глагола на ge-, облегчают распознавание целого предложения.

К оглавлению

6.2. Словоизменительная идентификация

Вслед за С.Андерсоном [65, c.535] можно предположить, что в лексиконе при морфологической обработке отыскиваются корни или "производные основы", являющиеся "несущей конструкцией" словоформы.

Скажем, в арабском лексиконе основа takallam – "разговаривал" (так называемая пятая порода от основы kalama – "говорил"), получаемая регулярным образом от исходного корня (в данном случае от корня klm), ищется по исходному корню (klm). И только потом рассматривается множество парадигм – "парадигматическое пространство" – данной лексической единицы, позволяющее определить, входит ли словоформа в такое парадигматическое пространство. Это пространство в лексической статье можно обозначить некоторым символом, по которому как по ключу ищется описание парадигмы в отдельном хранилище информации. Тогда лексикон представим в виде набора пар:

- лексический ключ – корень или производная основа,

- морфолого-парадигматический указатель.

В экспертной системе эта информация содержится:

- в виде процедур, встроенных в процессор, в сам его алгоритм,

-55-

и соответствующих универсальным, то есть действительным для всех человеческих языков, процедурам морфологической интерпретации;

- в виде "наполнения", или параметров, действительных специально для данного языка и внеположенных алгоритму, но регулирующих работу алгоритма таким образом, что в сочетании с универсальными процедурами получается реальный набор правил словообразования и словоизменения конкретного языка, во всех частностях и исключениях.

Универсальный компонент должен предусматривать по возможности полный набор выбираемых параметров – различительных признаков конкретного языка – относительно данного процессора, разумеется. Эти параметры – не что иное как типологические характеристики, исследуемые лингвистами уже давно и известные во многих деталях.

Например, языки располагаются на непрерывной шкале "флективность – агглютинативность". "Кумулятивные" парадигмы (в смысле работы [102, c.601]) с омонимией окончаний, как парадигмы склонения и спряжения в латинском, русском и многих других флективных языках, должны использоваться при морфологической интерпретации так же, как и парадигмы без такой омонимии, что неверно для агглютинативных языков. Если процессор настроен на работу с агглютинативным языком, то соответствующие морфологические процедуры, сталкиваясь с омонимией словоизменительных элементов, должны прибегать к несколько иной стратегии поиска в рамках парадигматического пространства, чем в случае парадигм без такой омонимии.

К оглавлению

7. Предварительный итог

В результате эволюционного развития человеческих процедур поиска во внутреннем лексиконе сложились две различные, но взаимоподдерживающие подсистемы. Одна ориентирована на быстрое и легкое для говорящего продуцирование речи, а другая – на легкое и быстрое распознавание ее [54, c.200]. Эта эволюция привела и к сложным механизмам взаимодействия обеих подсистем – лексической и словоизменительной идентификации.

Назад | Начало

книги | Дальше