В.З. Демьянков

Морфологическая интерпретация текста и ее моделирование

This page copyright © 2003 V.Dem'jankov.

http://www.infolex.ru


Продолжение

-143-

К оглавлению

ГЛАВА ШЕСТАЯ

ГИПОТЕТИЧЕСКАЯ ИНТЕРПРЕТАЦИЯ В МОРФОЛОГИИ

К оглавлению

1. Предварительные замечания

Теперь попытаемся применить рассмотренные выше концепции к построению экспертной системы морфологических знаний.

Под морфологической интерпретацией (МИ) мы понимаем соотнесение текстовой и словарной форм лексемы при установлении грамматических помет словоформы. Интерпретация текстовой формы, приводящая к заглавной форме, обычно называется лемматизацией, а интерпретация словоформы (в том числе, заглавной), когда указывают еще дополнительно требуемый набор граммем и получают текстовую форму – синтезом. Принципиально важно то, что при обоих направлениях МИ используется один и тот же набор данных и стратегий интерпретации.

Мы представляем себе МИ так. Носитель языка интерпретирует текстовую форму, идя от ее начала к концу, но не побуквенно, а поморфно, то есть выделяет сперва начальные морфы (префиксы – в русском языке, корни – в финском и других языках, не имеющих префиксов, флексии – в языках типа арабского и т.д.), а затем один за другим и остальные элементы, на каждом этапе "накладывая" текущий остаток анализируемого выражения на хранимое множество морфем и выдвигая гипотезы о такой наложимости в дальнейшем.

На каждом этапе могут выдвигаться сразу несколько гипотез, большая часть которых отсеивается по ходу дела. Гипотезы упорядочены определенным образом (каким именно – см. ниже). Количество одновременно выдвигаемых гипотез определяется числом тех морфов, которые могут быть отождествлены с началом текущего остатка в рамках текущей главной гипотезы. Неподтвержденность какой-либо гипотезы означает исключение всех подчиненных ей подгипотез. Поэтому множество текущих гипотез пульсирует: то расширяется, то сужается. Последнее – когда начало остатка, полученного в рамках главной гипотезы, не совпадает ни с какой хранимой морфемой (или алломорфом ее).

Морфологические анализ и синтез – в общем случае МИ – не

-144-

наложение хранимых основ и вычленение флексии из остатка (такой подход часто называют анализом слева направо) и не наложение хранимых же флексий и установление того, хранится ли готовая основа, сопоставимая с остатком (анализ справа налево). Хранятся только непроизводные основы (о которых мы говорили в четвертой главе). Производные основы вычисляются по ходу МИ.

Другое отличие от предыдущих попыток имеет общенаучный характер. Предшествующие системы автоматических морфологических анализа и синтеза были обычно (см. вторую главу) привязаны к какой-либо одной, доминирующей концепции морфологии. Иногда эта концепция была очень упрощенной – особенно когда задача была чисто практической. Мы же предлагаем систему, задающую метаязык метаязыка современной морфологической теории.

В этой главе демонстрируется применимость системы для разных языков, показываются приемы обращения с формальным аппаратом для различных "трудных" случаев, выразительные возможности нашего метаметаязыка.

К оглавлению

2. Принципы морфологической интерпретации

Система МИ основана на принципах гипотетической интерпретации, в особенности на следующих положениях:

1. МИ заключается в выяснении гипотетического морфного состава у анализируемой словоформы, когда идут от более ранних по времени появления в тексте единиц к более поздним. Таким образом определяется гипотетическая основа словоформы – поисковый образ лексемы с ее морфологическим классом, в рамках конкретной лексикографической традиции (а такие традиции, как мы знаем, очень различны, ср. русскую и арабскую традиции). Морфологический класс основы, неформально говоря, соответствует набору флексий, с этой основой сочетающихся, т.е. словоизменительной парадигме. Каждая флексия в таком наборе снабжена соответствующими грамматическими пометами. Каждая из полученных гипотез относительно морфного состава верифицируется по ходу появления в поле зрения последующих сегментов текста. Такое положение можно было бы назвать принципом "слева направо", если отвлечься от того обстоятельства, что это название скорее

-145-

справедливо для письменностей слева направо (как в большинстве европейских языков); для семитских языков наш принцип, апеллирующий ко времени, но не к пространству на бумаге, должен бы называться принципом справа налево.

2. Основной инвентарь – лексикон (в блумфилдовском понимании термина) и представляет информационную систему морфем, а тем самым, морфов. Морфы интерпретируются – т.е. синтезируются и/или анализируются – на основе данных лексикона и процедур альтернации, заносимых человеком-экспертом в определенном формате и хранимых в отдельном месте системы.

3. Кроме лексикона, есть другие вспомогательные хранилища языкового материала, вводимые и пополняемые экспертом в соответствии с его теоретическими установками. Есть, в частности, словари непродуктивных основ, флексий, постфиксов, парадигм, граммем и т.д. (см. ниже).

4. При МИ и реальные, и потенциальные основы строятся из морфем, задаваемых лексиконом. Основы в словаре основ задаются в виде цепочек номеров морфем, то есть кодируются. Этот прием позволяет достичь экономии. Однако эксперт, пользующийся нашей системой, кодировки не увидит: перед ним всегда материальный – буквенный – облик основы непосредственно, а не цепочка чисел.

5. Лексикон позволяет интерпретировать словоформы не путем наложения образцов, хранимых в словарях (т.е. не при сопоставлении реальных лексем, хранимых в словаре обычного типа, с выделяемой гипотетической основой у словоформы), а конструированием таких образцов – промежуточных гипотетических МИ – по интерпретируемому объекту. Именно поэтому мы говорим об интерпретации: ход интерпретации (в программистском понимании), "протокол" ее, обладает обратной связью с "обрабатываемым" объектом и этим отличается от работы программы, предварительно "транслированной" на язык машинных кодов.

6. Чередования основ трактуются как чередования морфем, в эти основы входящих. У нас нет противопоставления "поверхностного" уровня "глубинному". У нас нет и "зашитого" в алгоритм системы набора правил, переводящих представления одного уровня в представления другого. Каждое преобразование промежуточного представления морфемы (когда по правилам альтернации получается

-146-

– на основе исходного вида морфемы – еще одно реальное воплощение морфемы, а не ее абстрактное недовоплощение) у нас трактуется не как переход с одного уровня на другой, а как выдвижение гипотез о соотнесении сегмента текста с одной из лексических статей лексикона.

К оглавлению

3. Работающая экспертная система

Есть два режима работы экспертной системы, оболочка которой построена нами:

- пополнение и исправление базы знаний,

- верификация.

Работа в режиме пополнения и исправления базы знаний облегчается набором вспомогательных процедур, таких как переупорядочение данных, нахождение требуемой единицы по маске, модифицирование данных, работа в режиме меню, демонстрация альтернативных решений. Эти вспомогательные процедуры облегчают работу человека-эксперта с данной базой.

В режиме верификации словоформы анализируются и синтезируются на основе занесенных экспертом данных. При такой работе у пользователя спрашивают, какую словоформу он хочет проинтерпретировать, и если он еще желает получить другие формы той же лексемы, то – в режиме меню – позволяют выбрать те граммемы, которые должны быть в синтезируемых словоформах. Например, все формы единственного числа или все формы мужского рода. Можно затребовать и синтез всех форм. По ходу работы системы в этом режиме указываются абсолютно все подтвержденные гипотезы об окончательной МИ словоформы, сколько бы их ни было, в порядке убывания правдоподобия, а на экране монитора указываются:

1) характеристики работы системы, позволяющие сопоставлять по эффективности различные решения эксперта:

- длина обрабатываемого слова,

- условные обозначения,

- номер варианта,

- число морфов в слове,

- динамика гипотез,

- время первого отклика,

-147-

2) разбиение слова на морфемы,

3) акцентная схема,

4) корректировка орфографии,

5) лемматизация,

6) комментарий к корректировке,

7) парадигма данной лексемы, ограниченная запрошенным списком граммем или полная (список всех допустимых словоформ).

МИ включает указание на заглавную форму в соответствии с грамматической традицией или с желанием эксперта и набор грамматических признаков словоформы. Например, в русской традиции заглавная форма существительного выглядит обычно как форма именительного падежа единственного числа, прилагательного – как полная форма положительной степени мужского рода именительного падежа единственного числа, у глагола – как инфинитив и т.п. Для арабского языка заглавная форма глагола выглядит как "первая порода" в форме прошедшего времени третьего лица единственного числа мужского рода.

Ударение ставится во всех распознанных формах. Принципиальное значение имеет то, что исправление ошибок в тексте не основано на заранее составленном списке вероятных опечаток. Нахождение ошибок, объяснение их и указание более правильной словоформы – все это результат работы морфологического интерпретатора, ориентированного одновременно и на анализ, и на синтез словоформ. Например, система предлагает вариант портфелей вместо портфелев, людьми – вместо людями, играют – вместо играят, играемой вместо играемойся и т.п.

Всем хранимым единицам приписан статус: действительно или отменено ("на пенсии"). Последнее – когда единица не должна приниматься во внимание при интерпретации словоформ, как бы не существует. Изменение статуса единицы может иметь последствия для работы системы непосредственно при МИ.

К оглавлению

4. Словари языковых единиц

Кроме лексикона – словаря морфем – есть еще словари непроизводных основ, флексий и постфиксов. Все словари составляют часть лексикона в общем смысле, однако по техническим причинам

-148-

удобно говорить о них как об отдельных сущностях.

К оглавлению

4.1. Лексикон как словарь морфем

В лексиконе содержатся морфемы – характеристики строительного материала для реальных и потенциальных основ, как производных, так и непроизводных. Носитель языка обычно знает: орфографический вид заглавного морфа, категорию (выбор здесь традиционный: корень, префикс, суффикс и т.п.), набор допустимых чередований, акцентные характеристики и требования к контексту в рамках основы. Например, префикс аг- требует, чтобы после него в основе шла морфема, начинающаяся на г, например: агглютинация при неправильном агпортфель. На основе всех этих знаний интерпретатор и бракует посторонние гипотезы.

Имеем два раздела лексикона: собственно лексикон и отсылочный. В статье собственно лексикона указываются:

1. Физический облик – "заглавный морф" морфемы, являющийся отправным пунктом для получения всех алломорфов. Пользователь вправе задавать этот облик и исключительно в алфавите фонем (или букв), а может быть и сторонником морфонем, то есть задавать этот физический облик при участии дополнительных символов. О достоинствах и недостатках каждого подхода см. ниже.

2. Набор номеров чередований, присущих данной морфеме. Например, в русском языке есть класс правил, традиционно объединенных под названием "беглый гласный". По этим правилам е и ё переходят в одних позициях в ноль, ср.: день – дня, а в других – в ь, ср.: лён – льна. Если исследователь, пользующийся экспертной системой, может обойтись одним правилом (указывающим контекст, в котором чередование должно происходить), названный класс будет состоять ровно из одного правила. Информация о самих чередованиях хранится отдельно (см. далее), в данном же разделе пользователю предлагается только выбрать нужные единицы этого хранилища чередований по их названиям.

3. Имя класса морфемы: квалификация морфемы как корня, суффикса, префикса и т.п. Эта информация существенна при установлении того, соответствует ли данное слово "грамматике классов морфов": суффикс не может быть в начале слова, префикс – в

-149-

абсолютном конце слова или перед флексией и т.д.

4. Указания на два набора чередований – соответственно, соседних слева и справа морфем – т.е., на множества наборов правил, аналогичные тому, которое указано в п.2, но относящихся к соседним в сегменте (непосредственно слева и/или справа) морфам. Если такое множество включает все возможные чередования – данный морф всеяден, допускает у соседа абсолютно любую альтернацию. Иногда это бывает не так: морф (т.е. альтернант данной морфемы) может требовать, чтобы предшествующая и/или последующая морфема подверглась одним чередованиям и не подвергалась другим. В таком случае указанное множество наборов не будет полным. Если же это множество пусто – значит, данный морф требует, чтобы морфема перед ним или после него не подвергалась никаким чередованиям. Между прочим, альтернанты одной и той же морфемы могут различаться в отношении этого набора, что означает, что соответствующее правило альтернации изменяет исходный набор. Например, все корни, начинающиеся на е,ё, ю, я, требуют, чтобы префикс непосредственно перед ними, кончающийся на согласный, имел на конце ъ, ср.: подъехал при неправильных подехал и подоехал. Если предусмотреть в статьях для соответствующих префиксов указание на нужное чередование – например, под именем "пополнение префикса", – в статьях для соответствующих корневых морфем (типа ех) указание на чередование слева будет включать "пополнение префикса".

5. Набор указаний на условия, которым должны отвечать морфемы слева и/или справа от данной морфемы в рамках интерпретируемого слова, для того, чтобы гипотеза о вхождении данной морфемы в это слова считалась подтвержденной.

6. Акцентный класс морфемы, дающий возможность вычислять акцентные характеристики основы.

Следующие виды информации играют вспомогательную роль:

7. "Огрызок" заглавного морфа, фигурирующий в упорядочении статей для морфем. Имеет вид целого числа. Если это число равно нулю, статья относится к тем, которые следует отождествить с началом данного сегмента в первую очередь, раньше всех остальных: начало (самая первая буква) какого-либо альтернанта данной морфемы не совпадает с началом заглавного морфа этой

-150-

морфемы. Если же число это больше нуля – значит, на упорядочении морфем сказывается отрезок заглавного морфа данной длины.

8. Номер первой основы, по словарю основ, оканчивающейся на какой-либо альтернант данной морфемы.

Пример описания морфемы:

ПОРЯДКОВЫЙ НОМЕР: 12

ЗАГЛАВНЫЙ МОРФ: аг

КАТЕГОРИЯ МОРФА: префикс

АКЦЕНТНЫЙ ТИП: 0

СЕЛЕКТИВНЫЕ ОГРАНИЧЕНИЯ:

первая буква морфемы справа равна последней этого морфа

АЛЛОМОРФЫ: –

СТАТУС: действительно

АЛЛОМОРФЫ У МОРФА СЛЕВА: –

ИНВАРИАНТНЫЙ ОГРЫЗОК: аг

ПЕРВАЯ ОСНОВА НА ЭТОТ МОРФ: –

ПОЛЯРНОСТЬ ОГРАНИЧЕНИЙ: +

Статьи в лексиконе упорядочены по алфавиту огрызков заглавного морфа. Если начало остатка интерпретируемого сегмента нельзя отождествить ни с одной из морфем, у которых огрызок равен нулю, а к тому же и нет морфем, огрызок которых начинается так же, как и данный сегмент, – значит, работа в рамках данной гипотезы останавливается: это тупик.

Теперь об отсылочном лексиконе. Это вспомогательный список, которого пользователь даже не видит: список строится автоматически после каждого изменения собственно лексикона, и предназначение его – помочь искать морфемы, у которых в результате чередований меняются самые первые сегменты физического облика. Например, в русском языке к таким морфемам относятся корни, начинающиеся на и (ср.: ищу – подыщу, играю – отыграю), а также морфемы типа: ен (как в слове оборотень, ср. оборотня, где чередование приводит к суффиксу н) или ёк (как в словах типа василёк – василька, уголёк – уголька, где имеем чередование с ьк). Структура статьи такова:

1. Начальный сегмент (одна или большее число букв) морфов-альтернантов, например: ь, н.

2. На что следует заменить начальный сегмент, чтобы по

-151-

нему можно было найти статью в собственно лексиконе: например, на ё, ён, е или даже (как в случае древнегреческой редупликации, см. ниже) ноль.

Статьи в отсылочном лексиконе, как и в собственно лексиконе, упорядочены по алфавиту физического облика.

Такое решение приводит к тому, что при интерпретации любого сегмента, на любом этапе, имеем всегда две группы гипотез об анализе начала сегмента:

- этот сегмент начинается так же, как и заглавный морф морфемы, идущей в начале этого сегмента, что исчерпывает все будущие гипотезы в случае слов типа бегаем, дне, море;

- начало этого сегмента не совпадает с заглавным морфом искомой морфемы, поэтому по вспомогательному лексикону и устанавливается, есть ли морфемы, хотя бы один альтернант которых начинался бы так же, как данный обрабатываемый сегмент, и если есть, – устанавливаются все возможные покрытия этого сегмента в рамках этой гипотезы. Это не означает, впрочем, что нужную морфему вы автоматически найдете в собственно лексиконе: такая гипотеза может быть и посторонней.

Покажем, чего же мы добиваемся в результате всех этих усложнений исходной простой идеи.

Здесь и далее символы класса морфемы таковы:

* – корень # – флексия

_ – префикс $ – постфикс

= – суффикс

Словоформа вынашивать на самых первых этапах выдвижения гипотез будет интерпретироваться так:

1. В_ЫНАШИВАТЬ

2. ВЫ_НАШИВАТЬ

В рамках гипотезы 1 имеем для ЫНАШИВАТЬ:

1.1. ЫН*АШИВАТЬ

(где ын – альтернант морфемы ин, как в слове иной), и т.д., в

результате чего, скажем, получится (среди прочего) такое разбиение: В_ЫН*А=ШИ*В=АТЬ#.

В рамках же гипотезы 2 имеем далее:

2.1. НА_ШИВАТЬ

2.2. НАШ*ИВАТЬ

-152-

Гипотеза 2.1 совпадает с одной из промежуточных гипотез в рамках исходной главной гипотезы 1. Наш алгоритм устроен так, чтобы, если в рамках разных гипотез рассматривается в точности один и тот же подсегмент, то не приходилось бы каждый раз дублировать распознавание этого подсегмента: для этого и были разработаны своеобразные форматы для протоколирования результатов интерпретации, значительно экономящие время интерпретации и соответствующие интуиции о человеческой интерпретации.

Далее в рамках подгипотезы 2.1 имеем:

2.1.1. Ш*ИВАТЬ,

а в рамках подгипотезы 2.2 –

2.2.1. ИВА=ТЬ.

Теперь сопоставим хотя бы две из потенциально верифицируемых гипотез:

ВЫ_НА_Ш*ИВА=ТЬ# (корень Ш тот же, что и у глагола шла),

ВЫ_НАШ*ИВА=ТЬ#

Видим, что второй результат (более правдоподобный семантически) по количеству выделенных морфем отличается от первого. Наш алгоритм ориентирован на такое сопоставление гипотез, чтобы сначала выдавались более "короткие" морфемные цепочки, затем и остальные – по возрастанию количества морфем, выделенных в интерпретируемой словоформе. Таким образом, вторая строка из приведенных выше результатов финиширует раньше первой, что вполне соответствует интуиции о предпочтительности этой второй гипотезы. Неформально говоря, у гипотез общие части "вынесены за скобки", как в алгебраическом выражении.

Степень вероятности гипотез, ранжирование гипотез, в конечном итоге определяется длиной распознанных морфов и их классом. Скажем, можно упорядочить корни перед суффиксами и префиксами, чтобы раньше отсеялись посторонние гипотезы.

Самая первая гипотеза в связи с приведенной словоформой у нас была связана с выделением корня ын. Если предположить, что заглавный морф этой морфемы имеет вид ин, то следует обратиться к отсылочному лексикону, который содержит следующее указание: попытайся распознать два сегмента: ЫНАШИВАТЬ и ИНАШИВАТЬ.

Теперь можем вернуться к проблеме морфонемы (см. главу первую, раздел 6.3). Вопрос в том, нужны ли морфонемы.

-153-

Морфонемную запись придумали для того, чтобы минимизировать количество "основных алломорфов" для морфем. Благодаря этому приему не надо, например, хранить две разных единицы – рук и руч в словаре морфем русского языка: достаточно хранить, скажем запись руК (где К – морфонема).

Представим себе, что мы пользуемся морфонемами, а "входом" в статью является не запись рук и не запись руч, а запись руК. Символ морфонемы К, вообще говоря, не обязательно распознается как совпадающий с к или ч, это особый символ. А значит, при распознавании слова руками, когда интерпретатор дойдет до статьи руК, он не сразу отождествит начало словоформы с морфом рук: потребуется еще как минимум одна операция, переводящая морфонему К в фонему к. То есть, и слово руками, и слово ручкапри обращении к словарю морфем потребуют одинакового числа операций идентификации. Но если физический облик в статье о морфеме представлена одним из реальных алломорфов данной морфемы, то по крайней мере для части словоформ распознавание будет происходить быстрее, чем для остальных словоформ, включающих ту же морфему, но представленную другим аллофоном.

Итак, решение с морфонемами у нас приводит к более долгому времени распознавания, чем без морфонем. И это бы еще ничего, ведь ЭВМ обрабатывает слово в течение считанных долей секунды. Хуже то, что время обработки слова без единого чередования такое же, как и при чередовании.

Поэтому несколько более привлекательным решением является запись без морфонем. Это не значит, что экспертной системой не сможет пользоваться сторонник морфонем. Нет, это вполне допустимо. Но в режиме верификации он сможет убедиться в меньшей психологической реальности МИ с морфонемами.

Как задать чередования без прямого списка алломорфов?

Можно выбрать следующий путь. Помимо поля заглавного морфа, статья для морфемы содержит еще указание на множество номеров чередований, которым она может подвергаться и которые приводят ко всем возможным алломорфам. В отдельном месте перечисляются – соответственно по номерам – все правила, которые характеризуют данное чередование. Например, чередование под названием "первая палатализация" может быть оприходовано в

-154-

списке чередований под номером 3 (условно) и представлено правилами, по которым меняется последний согласный морфемы: к меняется на ч, г на ж и т.д. При распознавании словоформы слева направо делаются попытки отождествить "голову" очередного остатка словоформы, по возможности без просмотра заведомо посторонних вариантов, со всеми подходящими хранимыми морфемами. Так, начало словоформы руками не будет накладываться на морфемы, не начинающиеся на р и при этом обладающие пустым набором чередований. Отождествить начало этой словоформы с морфемами раб, руб и т.д. также не удастся. До тех пор, пока мы не дойдем до статьи с заглавным морфом рук. Тогда отождествление произойдет с первой же попытки. А отождествление начала словоформы ручонками с морфемой рук произойдет только после того, как в результате генерирования всевозможных (кстати, не очень многочисленных) алломорфов данной морфемы интерпретатор не получит алломорф руч.

Теперь посмотрим, что произойдет, если по ошибке в словоформе выбран неправильный или несуществующий алломорф данной морфемы. Скажем, как будет распознаваться словоформа ручами. В словоформе будет распознана морфема рук (по алломорфу РУЧ). Будет установлен номер парадигмы для основы, составленной в точности из морфемы рук. Обнаружится, что и окончание -ами в порядке. Однако в статье для этой флексии -ами в указании на множество чередований, которым должен быть обязательно подвергнут непосредственно предшествующий левый сосед, мы не найдем номера чередования "первая палатализация". Да и вообще, флексии склонения существительных в русском языке обладают нулевым множеством чередований, обязательных у левого соседа по словоформе. Итак, словоформа будет распознана, но система сгенерирует по данной основе и по данному окончанию другую словоформу – руками. Что и будет указано.

Почему бы тогда не хранить заранее заготовленный список всех алломорфов? На самом деле возможно и это. Однако кто заполняет этот список? Интерпретатор при усвоении новых морфов – под диктовку носителя языка или на основании компактной информации о наборе допустимых чередований? Лучше, очевидно, второе. Список алломорфов разумно генерировать перед каждым сеансом

-155-

верификации экспертной системы, то есть перед распознаванием и продуцированием словоформ. Однако такое решение одно из многих, и выбор его также предоставляется человеку-эксперту.

Следовательно, с информационно-поисковой ("когнитивистской") точки зрения более правдоподобным является не перечисление заготовленных алломорфов в лексиконе, а указание на множество номеров чередований, которым морфема может подвергаться. Историческое изменение – типа утраты каких-либо алломорфов у морфемы – объяснимо тогда как выпадение соответствующего номера из этого множества или даже как стирание – в списке чередований – всех или части правил, входивших в характеристику конкретного чередования. Например, в современном русском языке нет алломорфа руц, который требовался в местном падеже в древнерусском языке, однако чередование к/ц осталось, ср.: лик – лицо. Это значит, что в статье для рук стерлось упоминание номера чередования, при котором к чередуется с ц ("вторая палатализация"), а в статье для лик это упоминание осталось.

Мы не исключаем возможности списка аллофонов. Если правильно задать все требуемые единицы языка (морфемы, правила и чередования), можно распознавать и строить тот же набор правильных словоформ, что и без этого списка. Но иным будет время отклика и тип поправимых ошибок: при решении без списка алломорфов распознаются даже словоформы, построенные с морфонематическими нарушениями, а с таким списком некоторые подобные словоформы распознаны не будут. Такова участь, например, словоформы руце, которая при нашем решении исправима как руке – предложный падеж единственного числа от лексемы рука.

Пример 1. Валлийские мутации

Особенно показательна необходимость вспомогательного лексикона для языков типа валлийского (вообще, для кельтских языков), в которых чередования сегментов начала слова скорее правило, чем экзотика (в русском, скажем, орфография камуфлирует фактические чередования и – ы начала слова после предлогов, оканчивающихся на согласный, тем облегчая задачу распознавания). Как видно из приводимых ниже соотношений, в валлийском есть три вида чередований – традиционно они называются "мутациями":

-156-

озвончение (soft mutation), назализация и спирантизация. Например, в зависимости от интерпретации притяжательного местоимения ei. Морфемы, хранимые в собственно лексиконе в "словарной форме", соответственно и следует пометить.
Таблица 1

На­чаль­ный

сег­мент

Словарная форма

После притяжательного местоимения

ei "его"

fy "мой"

ei "ее"

c

ceffyl "лошадь"

geffyl

ngheffyl

cheffyl

p

pen "голова"

ben

mhen

phen

t

tad "отец"

dad

nhad

thad

g

gardd "сад"

ardd

nghardd

без изм.

b

basged "корзина"

fasged

masged

без изм.

d

desg "парта"

ddesg

nesg

без изм.

ll

llong "корабль"

long

без изм.

без изм.

m

mam "мать"

fam

без изм.

без изм.

rh

rhosyn "роза"

rosyn

без изм.

без изм.

Начало каждой словоформы перед интерпретацией договоримся помечать специальным символом. Например, символом ^. Вспомогательный лексикон содержит такие отсылки:

^a --> g

(и так далее, для всех гласных, зафиксированных после мутирующего g в наличном морфемном словаре)

^b --> p

^m --> b

^ch --> c

^mh --> p

^d --> t

^n --> d

^dd --> d

^ngh --> c

^f --> b

^nh --> t

^f --> m

^pg --> p

^g --> c

^r --> rh

^l --> ll

^th --> t


Пример 2. Редупликация в древнегреческом

В древнегреческом языке при образовании форм перфекта, плюсквамперфекта и так называемого "будущего третьего" происходит

-157-

своеобразное удвоение корня: к корню в начале слова присоединяется или в точности первый согласный плюс e, или модифицированный согласный с e. Например, в транслитерации, имеем:

γράφω – γέγραφα – (я) пишу – писал,

λύω – λέλυκα – (я) развязываю – развязывал,

πλάττω – πέπληγα – (я) ударяю – ударял,

χωρέω – κεχώρηκα – (я) иду – шел,

φονέυω – πεφόνευκα – (я) убиваю – убивал,

θύω – τέθυκα – (я) жертвую – жертвовал, и т.д.

Общее правило таково. Редупликация с буквальным повторением первого согласного корня бывает, когда корневой морф начинается сочетанием несонорного непридыхательного с плавным согласным или когда корень начинается простым согласным (кроме ρ). Модификация же происходит, когда начальный согласный основы презенса – придыхательный.

Это явление можно трактовать следующим образом. В отсылочном лексиконе имеем целый ряд статей, которые выглядят так:

γέ -->

πέ -->

κε --> χ

πέ --> φ

λέ -->

τέ --> θ

В некоторых статьях второе поле представлено пустой цепочкой. Это значит, что если интерпретируемая словоформа выглядит как γέγραφα –, то выдвигаются две гипотезы:

- надо поискать в основном лексиконе морфемы, физический облик которых совпадает с началом γέγραφα – буквально (гипотеза об отсутствии редупликации);

- надо поискать в основном лексиконе морфемы, физический облик которых совпадает с началом γραφα – буквально, причем морфема будет считаться найденной, если в основном лексиконе у нее указано, что допускается (в качестве чередования) редупликация, которая выглядит именно как γέγραφα.

"Редупликация" же задается, как обычно, набором правил.

-158-

К оглавлению

4.2. Словарь основ

Словарь основ хранит только непроизводные основы, то есть, те и только те, грамматические свойства которых не вычислимы на основе исключительно морфемного состава.

Основами здесь мы называем последовательности морфем (бывают и основы, состоящие ровно из одной морфемы), грамматические свойства которых не "вычисляются" из составных частей. В характеристики основ входят: сама последовательность морфем (во внутреннем представлении кодируемая как последовательность номеров по списку морфем), набор допустимых чередований у последней морфемы этой последовательности (поскольку основа может быть в этом отношении отличной по свойствам от входящей в ее состав морфемы), номер парадигмы, акцентные характеристики, а также (что особенно существенно для супплетивных основ, см. ниже) указание на граммему, допускаемую при словоизменении (если это необходимо: в противном случае указывается параметр "безразлично"), и на граммему, при словоизменении не допустимую (также бывает указание "безразлично"). Более конкретно:

1. "Физический облик" основы в виде последовательности составляющих ее морфем. Поскольку лексикон морфем выглядит как последовательность статей, каждая из которых имеет свой номер (по порядку в лексиконе), внутреннее представление физического облика основы – цепочка номеров морфем. Эти морфемы в рамках конкретной основы представлены каким-либо своим алломорфом, не обязательно совпадающим с заглавным морфом морфемы. Как правило, вид алломорфа каждой такой морфемы в составе основы автоматически вычислим, исходя из состава основы.

2. Указание на набор чередований основы, аналогичный соответствующему описанию для морфемы. Обычно этот набор у основы совпадает с набором для морфемы, завершающей физический облик основы. Однако – для этого случая и предназначено данное поле статьи – вполне можно представить себе основу, для которой это не так, т.е. набор чередований не вычислим.

3. Номер парадигмы словоизменения, к которой относятся лексемы, реальная основа которых оканчивается (в морфемном представлении) на данную основу. У лексем делать, переделать,

-159-

недоделать и т.п. различны реальные основы (цепочки морфем, идущие перед флексией инфинитива), но одна и та же хранимая основа дел (в данном случае, представленная цепочкой из ровно одной морфемы), по которой вычисляются словоизменительные свойства (здесь: устанавливается номер парадигмы) реальных основ. Номер парадигмы имеет вид целого числа от 0 до 255 и соответствует некоторому множеству номеров флексий, хранимому как отдельная сущность в отдельном списке парадигм (см. ниже).

4. Указание на акцентный тип основы (достаточен один символ), обладающее следующим свойством. В статью для флексии, среди прочего (см. ниже), входит и описание акцентных возможностей этой флексии, имеющее вид множества символов (а не единичного символа, как в описании основы). Если акцентный тип основы входит в множество акцентных возможностей данной флексии, то это значит, что сочетание этой основы с данной флексией будет иметь ударение на флексии, иначе же – на основе. В вырожденном случае, флексия (типа а в значении "И.п.мн.ч." у слов типа трактора, профессора), всегда находящаяся под ударением, имеет максимально полное акцентное описание (полный набор символов акцентуации), а флексия, у которой такое описание представлено нулевым множеством, никогда не бывает под ударением. Таким образом, если основа ДАР, как и в грамматическом словаре А.А. Зализняка [21], помечена как относящаяся к акцентному типу c, а акцентный набор флексии ов включает, среди прочего, указание на b, c и т.д., то форма даров получит ударение на флексии. Зато флексия ом не должна содержать в своем акцентном описании указание на тип с, поэтому-то ударение в словоформе даром на основе, а не на флексии.

Нетрудно представить себе алгоритм, с помощью которого по произвольному набору флексий можно построить классификацию основ языка – каждый класс основы будет иметь свой символ, – так чтобы каждой флексии был приписан акцентный тип в виде множества таких символов.

5. Номер описания (в отдельном списке) набора основ, супплетивных для данной. Например, основе ид таким косвенным путем ставятся в соответствие основы ш, шё, шед. Такое описание нужно, чтобы объяснить, как столь разные физические облики

-160-

втискиваются в одну таблицу словоизменения лексемы. Итак, основы с физическими обликами ид, ш, шё, шед имеют один и тот же номер в данном поле. Под этим номером в списке супплетивов содержится цепочка из номеров названных основ.

6. Указания на:

- номер граммемы, наличие которой в описании флексий, присоединяемых к данной основе, обязательно (в вырожденном случае может присоединяться любая граммема);

- номер граммемы, наличие которой в описании флексии, присоединяемой к данной основе, запрещено (возможно, что не запрещается никакая граммема).

Например, знамя – основа, при которой разрешена только граммема "Именительный", но запрещена граммема "Множественное"; знамён допускает граммему "Множественное", не запрещая никаких граммем; знамен допускает граммему "Единственное", но запрещает граммему "Именительный". Отсюда и своеобразие таблицы склонения лексемы знамя.

7. Номер слогообразующего элемента (в частности, гласного) в рамках физического облика основы, на который может падать ударение, если ударна основа. Например, для основы портфел этот номер равен 2: второй гласный от начала может получить ударение при склонении лексемы портфель. Конечно, интуитивно более оправданным было бы говорить не о номере слогообразующего элемента, а о номере морфемы в рамках физического облика основы: ведь в статье для каждой морфемы уже имеется акцентуационное описание. Однако тогда возникла бы трудность с лексемами типа озеро (ср. озёра), состоящих из одной морфемы, получающих, в зависимости от флексии, ударение то на первом, то на втором гласном этой единственной морфемы. При нашем решении выход более чем прост: мы полагаем, что имеем дело с супплетивной основой, физический облик которой не меняется, но различны номера слогообразующих элементов.

В словаре основ избыточным считается наличие таких двух единиц, которые либо ничем (ни по какому полю) не отличаются друг от друга, либо отличаются только тем, что физический облик одной из них полностью составляет завершающую часть физического облика другой. Таковы, например, статьи для ДЕЛ(АТЬ) и

-161-

ПЕРЕДЕЛ(АТЬ) (как глагольные основы, а не как основы существительных!). Основа передел удаляется на пенсию специальной процедурой, обслуживающей экспертную систему, статья для нее приобретает статус отмененной.

Единицы словаря основ упорядочены не по алфавиту физического облика (чего следовало бы ожидать по аналогии со словарем морфем), а следующим образом. Ведущим в упорядочении является последняя, завершающая морфема физического облика. Все статьи с одной и той же ведущей морфемой в словаре расположены кучно, образуют своеобразный бункер: между ними нет основ с иной ведущей морфемой. Сначала перечисляются все основы с одной ведущей морфемой, затем – все основы с другой ведущей морфемой и т.д. Это позволяет при интерпретации словоформ ускорить порождение гипотез о непроизводной основе при данном морфемном составе анализируемого сегмента. Если выдвигается гипотеза о том, что данным морфом завершается основа (и что, следовательно, дальше идет флексия, а такое бывает, когда последняя из констатированных – в рамках главной гипотезы – морфем является суффиксом или корнем), мы направляемся (опираясь на указание в статье для последней морфемы в данной цепочке – поле номер 8) в словарь основ и отбираем в нем подходящие основы. Отбор в этом списке основ-кандидатов завершится при выходе из бункера.

Внутри же такой "кучки" основ тоже целесообразно упорядочивать между собой статьи. Возьмем, к примеру, основы рог и носорог. Первая от второй отличается, в частности, в форме множественного числа: носорог имеет окончание и в именительном падеже и постоянное ударение на основе, а рог – окончание а в именительном множественного и постоянное ударение на флексии во множественном числе. Это значит, что хотя по физическому облику они оказываются в одной "куче", носорог не является избыточной единицей, поскольку у этой основы иные номер парадигмы и акцентный показатель, чем у основы рог. Вот почему, анализируя выражение носорогами, мы должны предпочесть интерпретацию носорогами – НОСОРОГ в форме мн.ч.Тв.п., – и лишь в качестве резервной интерпретации предусмотреть такую: носорогами – (НОСО)РОГ в форме мн.ч.Тв.п. (как если бы реальная основа была получена от непроизводной основы рог). Это значит,

-162-

что в словаре основ статья для основы НОСОРОГ идет раньше статьи для основы РОГ – по крайней мере, если мы хотим, чтобы предпочтение отдавалось именно первой.

Пример лексической статьи словаря основ:

ПОРЯДКОВЫЙ НОМЕР: 655

ОСНОВА: чел*о=век*

НОМЕР УДАРНОГО ГЛАСНОГО: 3

АКЦЕНТНЫЙ ТИП: a

ЧЕРЕДОВАНИЯ: –

НОМЕР ПАРАДИГМЫ: 0

СТАТУС: действительно

ПОДОСНОВЫ: чел*о=век* / люд*

ДОПУСТИМАЯ КАТЕГОРИЯ: единственное

НЕДОПУСТИМАЯ КАТЕГОРИЯ -

К оглавлению

4.3. Словарь флексий

Флексии представлены окончаниями в русском языке, а в семитских могут присоединяться в начале словоформы. Очень может случиться, что и для русского языка эксперт пожелает считать наи- – как в форме наибольший – словоизменительной морфемой, т.е. флексией. Наша система не исключает этой возможности.

В статье словаря флексий указывается графический вид (например: а, ами, возможны "нулевые" флексии, представленные нулевой цепочкой), набор граммем, набор характеристик основ, допускающих эту флексию и т.д. Длина последовательности флексий в рамках одной словоформы у нас не ограничена, что позволяет одинаково легко оперировать данными как флективных, так и агглютинативных языков. Словарные статьи во многом напоминают статьи как для морфем, так и для основ:

1. Физический облик флексии выглядит как цепочка букв, типа: а, ам, ами, ь, возможно, и нулевая (последнее недопустимо для физического облика остальных морфем).

2. Описание множества чередований, обязательных для присоединяемой основы. Основа получает вид, предписываемый пересечением этого множества с соответствующим набором чередований в статье для самой основы. Так, основа ден получит вид дн,

-163-

когда к ней присоединяются флексии типа я (Род.п.ед.ч.), ей (Род.п.мн.ч.), ями (Тв.п.мн.ч.) и т.п., а кон не изменяется в кн. Это означает, что чередование "беглый гласный" включено в набор указанных флексий (но не флексии ь Им.п.ед.ч.) и в набор чередований морфемы (и соответствующей непроизводной основы) ден, но не основы кон, ср.: день, дня, дней, днями, конь, коня, коней, конями.

3. Указание на набор граммем, типа: Именительный, падеж, множественное, число, единственное, Предложный, причастие, деепричастие, инфинитив и т.д. (см. ниже). Внутреннее представление выглядит как множество порядковых номеров по отдельному списку граммем (см. ниже). Возможны флексии с пустым набором граммем – например, тематический гласный глаголов.

4. Набор символов акцентуационных свойств, о котором говорится в п.4 описания словаря основ.

5. Набор требований, предъявляемых к основе, отфильтровывающих неправильные (по чисто фонологическим причинам) сочетания флексии с остальной частью слова. Например, флексия и (Им.п.мн.ч.) недопустима после основ, кончающихся на ц, флексия ы с теми же граммемами – после основ на к, ш, щ и т.д.; флексия ой прилагательного положительной степени мужского рода именительного падежа единственного числа допустима только под ударением (т.е. когда акцентный показатель основы не входит в набор акцентуационных признаков флексии), а ей с теми же граммемами – наоборот, только без ударения. Соблюденность хотя бы одного из этих условий гарантирует правильность сочетания основы с флексией – если отвлечься от того, входит ли данная флексия в парадигму словоизменения, допускаемую данной основой. Во внутреннем представлении этот набор – множество номеров по списку условий сочетаемости флексий с основами.

6. Флексия может быть "свободной", завершающей цепочку словоизменительных морфов в словоформе, после которой могут идти разве что постфиксы, и "несвободной", принимающей после себя еще какие-либо флексии из этого же словаря. Например, свободными являются флексии склонения русских существительных, а несвободными – флексии склоняемых причастий: вш, ющ, ем, превосходной степени прилагательного ейш и т.д. Особенно богаты в этом отношении агглютинативные языки типа тюркских. Если

-164-

флексия помечена как несвободная, то в данной же статье указывается парадигма словоизменения, в которую она (на правах основы!) входит. Так, у вш, ейш тот же номер, что и у горючий.

7. Указание на набор постфиксов, допускаемых после данной флексии. Флексия вш действительного причастия прошедшего времени допускает после себя ся (но не сь), флексия единственного числа первого лица настоящего времени ю – только сь, флексия ем (причастие страдательного залога прошедшего времени) не допускает ни сь, ни ся. И этот набор представляется в виде множества номеров по списку префиксов.

8. Указание на набор чередований, которым данная флексия может подвергаться под влиянием левого и/или правого контекста в словоформе.

Пример статьи для флексии:

ПОРЯДКОВЫЙ НОМЕР: 10

САМО ОКОНЧАНИЕ: а

АКЦЕНТНЫЕ ВОЗМОЖНОСТИ: abc

СЛОВОИЗМЕНЯЕМОСТЬ: –

НОМЕР ПАРАДИГМЫ ОКОНЧАНИЙ СПРАВА: –

КАТЕГОРИЯ: Им.п.мн.ч.

КОНТЕКСТ: неособый согласный

ДОПУСТИМЫЕ ЧЕРЕДОВАНИЯ ОСНОВЫ: беглый гласный

СТАТУС: действительно

ДОПУСКАЕТ ПОСТФИКСЫ: –

ЧЕРЕДОВАНИЯ: -

Пример. Сингармонизм и агглютинация в венгерском

В венгерском языке, как и в финноугорских вообще (например, в финском), а также в тюркских (особенно ярко в турецком) суффикс и/или флексия обязательно гармонизируют по ряду с гласным основы (в турецком гармония должна быть еще и по огубленности). Это свойство мы можем трактовать следующим образом.

Решение 1: все парадигмы делятся на соответствующее количество серий. Основе приписывается номер парадигмы нужной серии. Скажем, в венгерском выделяются две серии парадигм:

- те, в которых флексии имеют гласный переднего ряда, типа: -vek, -vel, – el, -ek, -em и т.д.,

-165-

- те, в которых флексии имеют гласный непереднего ряда, типа: -vak, -val, – al, -ak, -om и т.д.

Благодаря этому имеем различие в образовании притяжательной формы существительного:

kalap "шляпа" – kalapom "моя шляпа"

kert "сад" – kertem "мой сад".

Решение 2: флексии, имеющие различную огласовку в зависимости от сингармонизма, трактуются как подвергающиеся чередованию. Скажем, в результате чередования флексия om приобретает вид em и т.д. Особенно экономно такое решение для турецкого.

Выбор первого или второго решения предоставляется лингвисту-эксперту с его критериями эстетичности лингвистического описания. Так или иначе, сингармонизм легко трактуется в рамках предложенной концепции словарей флексий и морфем. Столь же легко можно формализовать и явление агглютинации в указанных языках. Покажем это на материале венгерского языка. Для тех же лексем kalap "шляпа" и kert "сад" имеем следующие возможности словоизменения, где знаком плюс мы указываем место присоединения флексии (заметим, кстати, что в венгерском нет различения существительных по грамматическому роду):
(1) kalap+nak шляпа+Дат. шляпе
(2) kalap+om+nak шляпа+мои+Дат. моей шляпе
(3) kalap+jaim шляпа+мои мои шляпы
(4) kalap+jaim+nak шляпа+мои+Дат. моим шляпам
(5) kalap+ok шляпа+мн.ч. шляпы
(6) kalap+ok+nak шляпа+мн.ч.+Дат. шляпам
(7) kert+nek сад+Дат. саду
(8) kert+em+nek сад+мой+Дат. моему саду
(9) kert+jeim сад+мои мои сады
(10) kert+jeim+nek сад+мои+Дат. моим садам
(11) kert+ek сад+мн.ч. сады
(12) kert+ek+nek сад+мн.ч.+Дат. садам

Флексии nak, nek, om, em, jaim, jeim не только присоединяются непосредственно к соответствующей основе, но и требуют, чтобы идущие после них флексии тоже были требуемого ряда. Иначе говоря, мы имеем дело не только с агглютинацией – когда флексия сама принимает после себя еще какие-то флексии, – но и

-166-

с сингармонизирующей агглютинацией.

С агглютинацией наша система справляется довольно просто: напомним, что флексии бывают "свободными" (после них не бывает никаких элементов, кроме постфиксов) и "несвободными", т.е. ведущими себя примерно так же, как основы. Статьи для последнего типа в словаре флексий содержат информацию о номере той парадигмы, которая определяет, какие последовательности флексий допустимы после данной, а какие – нет. Разумеется, все перечисленные выше венгерские флексии (кроме, возможно, nak / nek дательного падежа) помечены как несвободные и принимающие после себя флексии своего гармонического ряда.

Но как выглядят сами парадигмы для агглютинирующих языков? Ключевую роль играет нулевая флексия в конце слова, трактуемая как показатель именительного падежа единственного числа для словоформ kalap, kert, kalapom, kertem, как показатель просто именительного падежа для форм kalapjaim, kertjeim, kalapok, kertek (3), (5), (9), (11) и т.д. Решение может состоять в том, что, как и в русском языке, в венгерском есть несколько нулевых флексий, каждая со своим набором граммем. В разных парадигмах могут содержаться указания на различные нулевые флексии: есть одна парадигма (на которую указание находим в статье для основ – kalap, kert, – а также для несвободных флексий типа om, em), в которую входит нулевая флексия с граммемами "единственное число" и "именительный падеж"; есть другая парадигма – ее номер фигурирует в словарных статьях для флексий типа ok, ek, jaim, jeim, – в состав которой входит граммема "именительный (падеж)", но нет никакого указания на граммемы числа и т.д. Наконец, поскольку флексии nak, nek завершают словоформу, они являются "свободными", и указаний на какую-либо парадигму не содержат.

Читателю предоставляем возможность найти лучшее решение.

Пример 4. Венгерский инструментальный падеж

В венгерском языке существует особый падеж, обозначающий инструмент, с помощью которого что-либо совершается и переводимый обычно формами творительного падежа:

kalap "шляпа" – kalappal "шляпой"

-167-

kalapom "моя шляпа" – kalapommal "моей шляпой"

tavasz "весна" – tavasszal "весной"

kert "сад" – kerttel "садом"

"лошадь" – lóval "лошадью"

este "вечер" – estével "вечером"

szó "слово" – szóval "словом".

Из приведенных примеров видим:

- инструменталь от основ, кончающихся на гласный, образуется с помощью флексий val или vel (в зависимости от гармонического ряда основы), при удлинении гласного перед флексией (если этот гласный краткий);

- инструменталь от основ, кончающихся на согласный, образуется с помощью удвоения последнего согласного и прибавления показателя al или el (также в гармонии с гласной основы); диграфу sz соответствует простой согласный звук типа русского "с", удвоение этого согласного выглядит как ssz, а не как szsz вопреки ожиданиям (последний вариант, впрочем, встречается при разбиении слова на слоги в учебниках грамматики и при переносе слова со строки на строку, ср.: tavasz-szal).

Дополнительно укажем, что чередование по долготе последнего гласного основы и вставка вспомогательного v на стыке основы и флексии при стечении гласных в венгерском свойственно для сочетания не только с показателем инструменталя (когда происходит удлинение гласного), но и множественного числа (когда, наоборот, этот гласный укорачивается), ср.: "лошадь" – lovak "лошади", "голова" – fövek "головы". Наиболее естественными представляются следующие способы формализации.

Решение 1. Есть четыре флексии инструменталя: val, vel,

al, el. Описание первых двух в словаре флексий, в поле "требования к основе" содержит указание на обязательность гласного в конце основы, а описание последних двух – на обязательность согласного в конце основы. Последние две флексии вызывают своеобразное чередование основы – удвоение последнего согласного, которое оприходуется в списке чередований, при соответствующей квалификации случая sz. Статьи для несвободных флексий, кончающихся на согласный и допускающих после себя показатель инструменталя, содержат указание на:

-168-

- парадигмы, содержащие либо al, либо el;

- чередование этой флексии, подобное чередованию основы или морфемы и заключающееся в удвоении последнего согласного.

Наконец, в описании флексий al и el содержится указание на обязательность удвоения предшествующего согласного.

Решение 2. Есть одна словарная статья для флексии инструменталя. Скажем, физический облик этой флексии выглядит как val (хотя столь же допустимы и иные решения). Эта флексия подвергается двоякому чередованию:

- сингармонизму – в зависимости от последнего гласного основы или предшествующей флексии (имеем val или vel),

- выпадение первого v после сегмента на согласный.

В то же время, она требует (см. поле 2 в описании словаря флексий), чтобы основа или флексия, непосредственно предшествующая ей, подверглась чередованию "удвоения": краткий гласный удлиняется, согласный удваивается и т.д.

Как и в предыдущем примере, читатель вправе не поступаться своими принципами и может выбрать любую возможность.

Пример. Немецкие и голландские причастия на ge-

Как известно, в немецком языке пассивные причастия образуются в результате не только аблаута, но и присоединения частицы ge- перед корнем, – если только перед этим же корнем непосредственно не идет какая-либо "неотделяемая" приставка. Ср.:

machen "делать" – gemacht "сделан"

sprechen "говорить" – gesprochen (букв.) "говоренный"

ansprechen "обращаться (к кому) с речью" – angesprochen

gehen "идти" – gegangen "пройденный"

angehen "касаться, относиться (к кому)" – angegangen

vergehen "пройти" – vergangen "пройденный".

Отделяться могут только префиксы, в инфинитиве имеющие ударение. Примеры потенциально отделяемых префиксов: an, auf, vor. К потенциально неотделяемым относятся: ver, ent, be, ge. Последний элемент ge – как в gebrauchen "использовать" – омонимичен формативу пассивного причастия, но не тождествен ему. Префиксы типа unter "под-" могут быть как ударными – соответственно, отделяемыми – так и безударными (неотделяемыми), ср.

-169-

(полужирный шрифт используется вместо символа ударения):

untergehen "разрывать" – untergegangen

untergehen (перен.) "подкапываться" – untergangen.

Если в начале основы глагола идет последовательность из нескольких префиксов, то отделяется самая левая непрерывная часть префиксального сочетания, не содержащая ни одного неотделяемого префикса, непосредственно после которой в инфинитиве идет либо корень, либо неотделяемый префикс. В сочетании префиксов anver, anbe отделяемая часть – an, а в сочетаниях veran, bean отделяемой части нет.

Аналогично тому, как мы поступили в случае греческой редупликации, для частицы ge можем резервировать статью вспомогательного лексикона, так что ge заменяется на нулевой сегмент. В то же время, правила чередования, объединенные в группу префиксального образования причастия, из исходного морфа типа geh дают gegang, а из mach – gemach. Эти правила, в силу своей формулировки, могут работать только при условии, что непосредственно перед корнем идет либо отделяемый префикс, либо отделяемая последовательность префиксов, либо нет вообще префиксов. Одновременно следует поместить в статьи для флексий enи t со значением "пассивное причастие" указание на обязательность указанного чередования у морфа непосредственно слева от них. Есть две группы парадигм глагольных основ:

- для "сильных" глаголов – куда включена флексия t,

- для "слабых" глаголов – куда включена флексия en. Своеобразно ведет себя суффикс ier: в немецком языке он блокирует указанное чередование, ср.: transportieren "транспортировать" – transportiert при неправильных * getranspor- tiert, * transgeportiert.

Видимо, суффикс ier не содержит указание на такое чередование у левого соседа. Не так – в голландском языке, родственном немецкому, где допустимо: transporteren – getransporteert.

Это значит, что голландский суффикс er, в отличие от ier, "транспортирует" указание на необходимость чередования, полученное от флексии, дальше налево. То есть, соответствующие правила для голландского меняют не только физический облик морфемы, расширяя ее (когда это допустимо) за счет прибавления

-170-

ge, но и набор требований к чередованиям левого соседа у этой же морфемы (см. поле 4 статьи основного лексикона).

К оглавлению

4.4. Словарь постфиксов

Словарь постфиксов содержит описания единиц, идущих после всех флексий в словоформе, но составляющих часть основы. Так, в лексеме делаться выделяется постфикс ся, обладающий семантикой возвратности и в том или ином виде присутствующий во всей парадигме спряжения. Аналогичное можно сказать и о таких единицах, как -таки, -нибудь, -то (в которых дефис составляет неотъемлемую часть физического облика).

Единицы типа ся/сь в русском языке допускаются после одних последовательностей флексий и недопустимы после других. Так, ся бывает после флексий личной формы глагола, оканчивающихся на согласный, после последовательности флексий, начинающейся на показатель действительного причастия прошедшего времени вш (ср.: игравшейся) и т.д. и – так же, как сь – недопустимо после флексии ем пассивного причастия прошедшего времени.

О постфиксе в словаре даются следующие сведения:

1. Физический облик: ся, сь, -то, -таки и т.д.

2. Множество постфиксов, допустимых далее. Так, за ся и сь могут следовать постфиксы типа -таки (ср.: делается-то, делающийся-таки), но не наоборот (ср. неправильные *делает-тося, *делающий-такися). Это указание у нас формализовано в виде множества номеров постфиксов, взятых по этому же словарю.

3. Постфикс может быть "стандартным", т.е. в качестве "грамматических помет" принимающим набор граммем из той же генеральной иерархии, что и флексии, – и "нестандартным", – когда значение задается ad hoc для данной единицы. В первом случае указывается соответствующее множество граммем, подобно полю 3 для флексий. Например, для сь и ся имеем: возвратный залог. Во втором же случае прямо задается словесная формулировка значения постфикса, как для -нибудь: "показатель неопределенности".

Пример описания:

ПОРЯДКОВЫЙ НОМЕР: 0

СТАТУС: действительно

-171-

ПОСТФИКС: сь

ДОПУСТИМЫ ЕЩЕ ПОСТФИКСЫ: -таки, -то

СТАНДАРТНОСТЬ КАТЕГОРИЗАЦИИ: да

КАТЕГОРИЯ: возвратный залог

К оглавлению

5. Списки, упорядочивающие единицы словарей

К оглавлению

5.1. Парадигмы

Парадигма трактуется как множество флексий.

Единицы списка парадигм описывают наборы флексий, образующие полную словоизменительную парадигму того или иного типа основ, и представляют следующую информацию:

1. Набор флексий: внутреннее представление выглядит как множество номеров по словарю флексий.

2. Часть речи: выделяются парадигмы для существительных, прилагательных, глаголов и т.д., иногда даже, если необходимо, с подразделениями, скажем: существительные мужского рода, женского рода, среднего рода (как для русского языка).

3. Тип основы, с которой может сочетаться данная парадигма. Скажем, основа на согласный, на гласный, на к и т.д. Этот тип представляет собой отсылку к единицам еще одного типа данных, используемого и в других местах системы: к списку "типов букв", задающих классификацию символов. Например, есть гласные, согласные, палатализованные, заднеязычные и т.п. Указание свойств основ, допускающих данную парадигму, существенно для облегчения выбора нужной парадигмы при работе над словарем основ в режиме пополнения и исправления лингвистических данных.

Пример описания:

ПОРЯДКОВЫЙ НОМЕР: 0

СТАТУС: действительно

КАТЕГОРИЯ ОСНОВЫ: существительное муж.р.

ЗАВЕРШЕНИЕ ОСНОВЫ: безразлично

САМА ПАРАДИГМА:

(ноль) И.п.ед.ч. / В.п.ед.ч.неодуш.

а Р.п.ед.ч./В.п.ед.ч.одуш.

у Д.п.ед.ч.

-172-

ом Тв.п.ед.ч.

е П.п.ед.ч.

ы И.п.мн.ч./В.п.мн.ч.неодуш.

ов Р.п.мн.ч./В.п.мн.ч.одуш.

ам Д.п.мн.ч.

ами Т.п.мн.ч.

ах П.п.мн.ч.

Поскольку флексии, входящие в парадигму, сами содержат еще сведения о том, какими могут быть или не быть основы, допустимые с ними, получаем довольно гибкую нотационную систему, допускающую формализацию различных теоретических взглядов на распределение языкового материала по парадигмам.

Например, вы можете считать, что флексии и и ы для множественного числа именительного падежа входят одновременно в одну и ту же парадигму, но одни основы, – те, которые допустимы при одной из этих двух флексий, – допустимы с нею, а другие – нет. Или же можно сформировать две разные парадигмы, в одной из которых имеем указание на одну из возможных флексий, а в другой – на другую. Разумеется, первое решение экономит количество парадигм. Однако и второе вполне может найти своих сторонников. Впрочем, первое решение следует предпочесть, если разграничительная линия проходит по критерию ударность / безударность основы, как в случае ов / ев (ср.: пирогов vs. зайцев), где выбор той или иной флексии связан с акцентуационными свойствами основы и/или флексии.

К оглавлению

5.2. Супплетивы

Данные о супплетивах позволяют для всех лексем, оканчивающихся основой на ид (как в слове идти), правильно строить и распознавать словоформы, относимые к одной лексеме, например, идешь, шла, шедшему относятся к лексеме идти именно в силу такого вида знаний. Единицы "словаря супплетивов" указывают на некоторое количество основ, хранимых отдельно в словаре основ.

В словаре основ, как мы уже говорили, указывается, какие граммемы допустимы с данной основой в составе супплетива, а какие не допустимы. Например, при основе человек следует указать

-173-

в качестве допустимой граммемы "единственное (число)", а в качестве недопустимой "множественное (число)"; при основе же люд – противоположное распределение граммем – соответственно: "множественное" допустимо, а "единственное" – нет.

Итак, супплетив – объединение (кортеж) двух или большего количества хранимых основ. Внутреннее представление супплетива

- кортеж номеров по словарю основ. Существенно, какой номер в таком описании стоит на первом месте. Например, если в описании супплетива человек / люди на первом месте будет номер статьи для основы люд, с парадигмой, которая, вообще говоря, характеризует существительные женского рода, то анализ слов типа сверхчеловеком в отношении категоризации будет совпадать с характеристикой соответствующей парадигмы у первого элемента супплетива, т.е. будет указано, что это существительное женского рода. Поэтому в данном случае на первом месте должен быть номер основы человек. Пример описания:

ПОРЯДКОВЫЙ НОМЕР: 19

СТАТУС: действительно

СУППЛЕТИВНЫЕ ОСНОВЫ: чел*о=век* / люд*

К оглавлению

6. Списки "рабочих единиц"

К оглавлению

6.1. Граммемы

Граммемы – словоизменительные категории конкретного языка, которые характеризуют семантическую интерпретацию словоформы. Например: род, число, падеж.

В отличие от многих существующих систем лингвистических данных, в нашей системе граммемы не "зашиты" в алгоритм анализа и/или синтеза: вся информация о граммемах может меняться.

Набор граммем организован в иерархию, так что категория "род" подчиненяет себе в русском и немецком языках три следующие граммемы: "мужской", "женский", "средний"; во французском, испанском и арабском языках этой же категории подчинены только две единицы – "мужской" и "женский". Вариативны и набор падежей, и глагольных граммем.

Эта иерархия не означает, что граммемы расположены в

-174-

списке соответствующим образом: порядковый номер граммем имеет иную функцию: при характеристике флексии граммемы перечисляются по возрастанию порядкового номера.

Так, в зависимости от порядкового номера граммем, будем иметь при интерпретации словоформы людьми как лексемы человек одно из двух: "Т.п.ед.ч." или "ед.ч.Т.п." Порядок этот существенен для перечисления флексий в рамках парадигмы: парадигма в нашей технической реализации представляет собой множество флексий, которые – при работе с соответствующими разделами системы данных – перечисляются по возрастанию последовательности граммем, входящих в состав характеристик флексии. Это значит, что при первом способе упорядочения граммем (сначала число, причем в рамках этой категории – сначала единственное, а затем множественное; затем – падеж) первыми будут перечислены все флексии единственного числа (по порядку падежей), и только после них флексии множественного числа. При втором же способе упорядочения будем иметь, скажем, для русского, такую последовательность флексий (и генерируемых словоформ при синтезе): И.п.ед.ч., И.п.мн.ч., Р.п.ед.ч., Р.п.мн.ч. и т.д. Заметим, что и этот порядок перечисления зависит от порядка перечисления граммем в рамках категории падежа. Пример описания граммемы:

ПОРЯДКОВЫЙ НОМЕР: 12

ПОЛНОЕ ИМЯ: падеж

СОКРАЩЕННОЕ ИМЯ: п.

ТЕРМИНАЛЬНАЯ: да

ПОДЧИНЕННЫЕ КАТЕГОРИИ: И., Р., Д., В., Т., П.

СТАТУС: действительно

К оглавлению

6.2. "Корректоры"

Нестрого говоря, "корректоры" – это такие правила редактирования словоформы, которые невозможно – по мнению эксперта – отразить в рамках остальных видов данных. Например, тот факт, что стеклянный, деревянный и оловянный должны писаться с двумя н, фиксируется в виде "корректора", который фиксирует нужные соотношения поверхностной структуры.

-175-

Корректоры задуманы как "пожарное средство" на тот случай, если лингвист-эксперт не может придумать более удачного объяснения соотношениям в данном языке. Соответственно, когда объяснение у него сформируется, он может отказаться от каких-то определенных "корректоров". Пример описания:

ПОРЯДКОВЫЙ НОМЕР: 5

СТАТУС: действительно

УРОВЕНЬ РАБОТЫ: 0,2,4

ЗАМЕНЯЕМОЕ ВЫРАЖЕНИЕ: циган*

ЗАМЕНЯЮЩЕЕ ВЫРАЖЕНИЕ: цыган*

СТЫК МОРФОВ ОБЯЗАТЕЛЕН: да

УСЛОВИЕ РАБОТЫ: всегда

ПОЛЯРНОСТЬ УСЛОВИЙ: плюс

К оглавлению

6.3. "Ограничения"

Эти единицы представляют условия для работы правил, для проверки правильности соположения морфем и т.п. Примеры словесного задания ограничений: "морфема начинается на согласную", "предшествующая морфема является корнем или суффиксом".

Например, условие, по которому последний гласный морфемы должен быть о, а, е или ё:

ПОРЯДКОВЫЙ НОМЕР: 4

ФОРМУЛИРОВКА: последний гласный равен о, а, е или ё

ПОЛЯРНОСТЬ: плюс

СТАТУС: действительно

ЦЕНТРАЛЬНЫЙ МОРФ: 0

ЗАТРОНУТО: буква

ИЗ КОНКУРЕНТОВ ПО СЧЕТУ (…-1,0,1,2,..): -1

НОМЕР ПОЗИЦИИ, СЧИТАЯ ОТ ЦЕНТРАЛЬНОЙ: 0

КЛАСС БУКВЫ: гласная

НАЛИЧЕСТВУЕТ ПОДЦЕПОЧКА: –

КАТЕГОРИЯ МОРФА: –

НАБОР ЧЕРЕДОВАНИЙ: –

КЛАСС БУКВЫ: –

ВКЛЮЧАЕТ: –

НОМЕР СОПОСТАВЛЯЕМОГО МОРФА (при сопоставлении морфов): -

-176-

ПОЗИЦИЯ В СОПОСТАВЛЯЕМОМ МОРФЕ (при сопоставлении): –

СОПОСТАВЛЯЕМЫЙ КЛАСС БУКВ: оаеё

РАССТОЯНИЕ ОТ ЦЕНТР. БУКВЫ В СОПОСТ. МОРФЕ: –

НОМЕР ФУНКЦИИ: сопоставление элементов

По другому условию последовательность морфем глав*ен=ен= будет помечена негативно, а бумаж*ен= позитивно:

ПОРЯДКОВЫЙ НОМЕР: 7

ФОРМУЛИРОВКА: данный морф не омонимичен предыдущему

ПОЛЯРНОСТЬ: минус

СТАТУС: действительно

ЦЕНТРАЛЬНЫЙ МОРФ: 0

ЗАТРОНУТО: физический облик морфа

ИЗ КОНКУРЕНТОВ ПО СЧЕТУ (…-1,0,1,2,..): –

НОМЕР ПОЗИЦИИ, СЧИТАЯ ОТ ЦЕНТРАЛЬНОЙ: –

КЛАСС БУКВЫ: –

НАЛИЧЕСТВУЕТ ПОДЦЕПОЧКА: –

КАТЕГОРИЯ МОРФА: –

НАБОР ЧЕРЕДОВАНИЙ: –

КЛАСС БУКВЫ: –

ВКЛЮЧАЕТ: –

НОМЕР СОПОСТАВЛЯЕМОГО МОРФА (при сопоставлении): -1

ПОЗИЦИЯ В СОПОСТАВЛЯЕМОМ МОРФЕ (при сопоставлении): –

СОПОСТАВЛЯЕМЫЙ КЛАСС БУКВ: –

РАССТОЯНИЕ ОТ ЦЕНТР. БУКВЫ В СОПОСТ. МОРФЕ: –

НОМЕР ФУНКЦИИ: сопоставление физических обликов

К оглавлению

6.4. Классы букв

Эти классы аналогичны заданию типа в языках программирования. Задаются они списочно. Например, класс "согласные" задается перечислением соответствующих согласных, для русского языка – как цепочка бвгджзклмнпрстфхцчшщ, аналогично – "гласные" как аеёиоуыэюя, "шипящие", "свистящие" и т.д. Имена классов, как и списки, задаются экспертом. Наличие этих данных облегчает формулировку правил и ограничений. Пример:

ПОРЯДКОВЫЙ НОМЕР: 4

ИМЯ КЛАССА: гласные

-177-

СТАТУС: действительно

САМ КЛАСС: аеёиоуыэюя

К оглавлению

6.5. Классы основ при флексии

Эти типы представляют собой указание на свойства физического облика и на акцентные характеристики основы. Дизъюнктивный их набор характеризует флексии: если выполнены требования, значит флексия допустима при данной основе.

Наличие этих классов позволяет значительно сократить количество хранимых парадигм. Так, известно, что флексия -и (как в слове книги) недопустима после основы, оканчивающейся на ц, вместо нее допустима флексия ы; -ев (флексия Р.п. мн.ч.) допустима после основ на ц, только если на флексию эту не падает ударение – иначе должно быть ов. Обе флексии – с одинаковым набором граммем – могут быть занесены в рамки одной парадигмы, поскольку обладают дополнительной дистрибуцией основ.

Итак, "типы основ" логически представляют собой разновидность "ограничений". Пример:

ПОРЯДКОВЫЙ НОМЕР: 7

СТАТУС: действительно

ПОЛЯРНОСТЬ: плюс

ФЛЕКСИЯ УДАРНА: да

ОСНОВА НА: ц

К оглавлению

6.6. Правила

Под "правилами" имеются в виду те единицы, которые входят в наборы "альтернаций" (характеризующих, в свою очередь, то или иное чередование, см. ниже).

Примеры правил: заменить и на ы в начале корневой морфемы, идущей после префикса, оканчивающегося на согласный (ср. отыграю и играю, при неправильном отиграю), удалить последнее вхождение о в морфе (ср.: сон – сна).

Для формулировки этих правил придуман особый формат, позволяющий распознавать модифицированную морфему и синтезировать алломорфы. В частности, в описании конкретного правила указывается

-178-

позиция меняемой подцепочки морфемы, на что меняется эта подцепочка, а также каков набор условий ("ограничений"), которым должна отвечать данная морфема или ее соседи (слева или справа) в рамках словоформы, для того, чтобы правило могло работать. В правиле о чередовании и/ы к таким условиям относятся: 1) морфема начинается на и, 2) это корневая морфема (класс морфемы указан "корень"), 3) морфема непосредственно слева от меняемой является префиксом.

В статье для "правила" набор условий имеет внутреннее представление в виде множества номеров по списку "ограничений" (см. выше). Пример: правило замены и на ы

ПОРЯДКОВЫЙ НОМЕР: 5

СТАТУС: действительно

ОБЪЕКТ ИЗМЕНЕНИЯ: буква

ОБРАБАТЫВАЕМЫЙ МОРФ: 0

ПОЗИЦИЯ ЦЕНТРАЛЬНОЙ БУКВЫ: 1

РАССТОЯНИЕ ОТ ЦЕНТРАЛЬНОЙ ДО МЕНЯЕМОЙ БУКВЫ: 1

КЛАСС БУКВ: гласные

НА ЧТО ЗАМЕНИТЬ БУКВУ: ы

ЗАМЕНЯЕМАЯ ЦЕПОЧКА: –

ЗАМЕНЯЮЩАЯ ЦЕПОЧКА: –

НОВЫЙ КЛАСС МОРФЕМЫ: –

МЕНЯЕМЫЙ НАБОР ЧЕРЕДОВАНИЙ: –

ТИП ОПЕРАЦИИ С КЛАССОМ ЧЕРЕДОВАНИЙ: –

УСЛОВИЯ РАБОТЫ:

слева префикс
слева морфема, оканчивающаяся на согласную
ПОЛЯРНОСТЬ УСЛОВИЙ: плюс

К оглавлению

6.7. Альтернации

Это набор операций (часто представленный одним правилом), которые морфеме ставят в соответствие ее алломорф. Эти множества во внутреннем представлении задаются по номерам правил.

Например, "палатализация" – альтернация, включающая (для русского языка) такие правила, как: заменить к на ч (ср. пекупечешь), заменить г на ж (бегу – бежишь), и т.п. Другая альтернация

-179-

имеет имя "беглый гласный" и задается как набор правил, удаляющих последнее вхождение о, е и т.п. Аналогичным образом описываются аблаутные чередования для германских языков.

В отличие от многих концепций, о которых речь шла выше и в которых считается, что альтернации – правила, выбирающие свою "жертву" (морф) по каким-то специфическим признакам, мы предполагаем, что набор альтернаций (в виде множества номеров альтернаций по данному списку) характеризует каждую хранимую морфему и каждую хранимую основу. У нечередующихся морфем это множество пусто, у других представлено одним элементом (например, "беглый гласный", типа: сон – сна), у третьих – тремя (лёг, ляг, ляж – палатализация и мена гласного) и т.д. Пример:

ПОРЯДКОВЫЙ НОМЕР: 0

ФОРМУЛИРОВКА: беглый гласный

СТАТУС: действительно

ВЛИЯНИЕ НА УПОРЯДОЧЕННОСТЬ МОРФОВ: влияет

ОБЩЕЕ ПРАВИЛО: аеёо --> .

ДИЗЪЮНКТИВНЫЙ НАБОР ПРАВИЛ: -

К оглавлению

6.8. Пометы парадигм

Эти пометы представляют указание на семантико-синтаксическую категоризацию основ. Например: "существительное мужского рода", "прилагательное", "глагол". Указание на такую помету выдается в результате интерпретации словоформ.

Содержательно это означает, что кроме семантической категоризации основ есть та, которая вытекает из принадлежности основы к конкретному парадигматическому классу, – к тому, что иногда называют "тип склонения" (ср.: "существительное воевода склоняется по женскому склонению").

Итак, каждая парадигма, среди прочего, содержит указание на номер семантических категорий, характеризующий категориальные свойства основ. Пример:

ПОРЯДКОВЫЙ НОМЕР: 3

ПОМЕТА ПАРАДИГМЫ: существительное женского рода

СТАТУС: действительно

Назад | Началокниги | Дальше