В.З. Демьянков
This page copyright © 2003 V.Dem'jankov.
В лексиконе содержатся морфемы – характеристики строительного материала для
реальных и потенциальных основ, как производных, так и непроизводных. Носитель языка
обычно знает: орфографический вид заглавного морфа, категорию (выбор здесь традиционный:
корень, префикс, суффикс и т.п.), набор допустимых чередований, акцентные характеристики и
требования к контексту в рамках основы. Например, префикс аг- требует, чтобы после
него в основе шла морфема, начинающаяся на г, например: агглютинация при
неправильном агпортфель. На основе всех этих знаний интерпретатор и бракует
посторонние гипотезы.
Имеем два раздела лексикона: собственно лексикон и отсылочный. В статье собственно
лексикона указываются:
1. Физический облик – "заглавный морф" морфемы, являющийся отправным пунктом для
получения всех алломорфов. Пользователь вправе задавать этот облик и исключительно в
алфавите фонем (или букв), а может быть и сторонником морфонем, то есть задавать этот
физический облик при участии дополнительных символов. О достоинствах и недостатках
каждого подхода см. ниже.
2. Набор номеров чередований, присущих данной морфеме. Например, в русском языке
есть класс правил, традиционно объединенных под названием "беглый гласный". По этим
правилам е и ё переходят в одних позициях в ноль, ср.: день – дня, а в
других – в ь, ср.: лён – льна. Если исследователь, пользующийся экспертной системой,
может обойтись одним правилом (указывающим контекст, в котором чередование должно
происходить), названный класс будет состоять ровно из одного правила. Информация о самих
чередованиях хранится отдельно (см. далее), в данном же разделе пользователю предлагается
только выбрать нужные единицы этого хранилища чередований по их названиям.
3. Имя класса морфемы: квалификация морфемы как корня, суффикса, префикса и т.п.
Эта информация существенна при установлении того, соответствует ли данное слово
"грамматике классов морфов": суффикс не может быть в начале слова, префикс – в
-149-
абсолютном конце слова или перед флексией и т.д.
4. Указания на два набора чередований – соответственно, соседних слева и справа
морфем – т.е., на множества наборов правил, аналогичные тому, которое указано в п.2, но
относящихся к соседним в сегменте (непосредственно слева и/или справа) морфам. Если такое
множество включает все возможные чередования – данный морф всеяден, допускает у соседа
абсолютно любую альтернацию. Иногда это бывает не так: морф (т.е. альтернант данной
морфемы) может требовать, чтобы предшествующая и/или последующая морфема подверглась
одним чередованиям и не подвергалась другим. В таком случае указанное множество наборов
не будет полным. Если же это множество пусто – значит, данный морф требует, чтобы морфема
перед ним или после него не подвергалась никаким чередованиям. Между прочим, альтернанты
одной и той же морфемы могут различаться в отношении этого набора, что означает, что
соответствующее правило альтернации изменяет исходный набор. Например, все корни,
начинающиеся на е,ё, ю, я, требуют, чтобы префикс непосредственно перед ними,
кончающийся на согласный, имел на конце ъ, ср.: подъехал при неправильных
подехал и подоехал. Если предусмотреть в статьях для соответствующих
префиксов указание на нужное чередование – например, под именем "пополнение префикса", – в
статьях для соответствующих корневых морфем (типа ех) указание на чередование слева
будет включать "пополнение префикса".
5. Набор указаний на условия, которым должны отвечать морфемы слева и/или справа от
данной морфемы в рамках интерпретируемого слова, для того, чтобы гипотеза о вхождении
данной морфемы в это слова считалась подтвержденной.
6. Акцентный класс морфемы, дающий возможность вычислять акцентные
характеристики основы.
Следующие виды информации играют вспомогательную роль:
7. "Огрызок" заглавного морфа, фигурирующий в упорядочении статей для морфем.
Имеет вид целого числа. Если это число равно нулю, статья относится к тем, которые следует
отождествить с началом данного сегмента в первую очередь, раньше всех остальных: начало
(самая первая буква) какого-либо альтернанта данной морфемы не совпадает с началом
заглавного морфа этой
-150-
морфемы. Если же число это больше нуля – значит, на упорядочении морфем сказывается
отрезок заглавного морфа данной длины.
8. Номер первой основы, по словарю основ, оканчивающейся на какой-либо альтернант
данной морфемы.
Пример описания морфемы:
ПОРЯДКОВЫЙ НОМЕР: 12
ЗАГЛАВНЫЙ МОРФ: аг
КАТЕГОРИЯ МОРФА: префикс
АКЦЕНТНЫЙ ТИП: 0
СЕЛЕКТИВНЫЕ ОГРАНИЧЕНИЯ:
первая буква морфемы справа равна последней этого морфа
АЛЛОМОРФЫ: –
СТАТУС: действительно
АЛЛОМОРФЫ У МОРФА СЛЕВА: –
ИНВАРИАНТНЫЙ ОГРЫЗОК: аг
ПЕРВАЯ ОСНОВА НА ЭТОТ МОРФ: –
ПОЛЯРНОСТЬ ОГРАНИЧЕНИЙ: +
Статьи в лексиконе упорядочены по алфавиту огрызков заглавного морфа. Если начало
остатка интерпретируемого сегмента нельзя отождествить ни с одной из морфем, у которых
огрызок равен нулю, а к тому же и нет морфем, огрызок которых начинается так же, как и
данный сегмент, – значит, работа в рамках данной гипотезы останавливается: это тупик.
Теперь об отсылочном лексиконе. Это вспомогательный список, которого пользователь
даже не видит: список строится автоматически после каждого изменения собственно лексикона,
и предназначение его – помочь искать морфемы, у которых в результате чередований меняются
самые первые сегменты физического облика. Например, в русском языке к таким морфемам
относятся корни, начинающиеся на и (ср.: ищу – подыщу, играю – отыграю), а
также морфемы типа: ен (как в слове оборотень, ср. оборотня, где
чередование приводит к суффиксу н) или ёк (как в словах типа василёк –
василька, уголёк – уголька, где имеем чередование с ьк). Структура статьи такова:
1. Начальный сегмент (одна или большее число букв) морфов-альтернантов, например:
ь, н.
2. На что следует заменить начальный сегмент, чтобы по
-151-
нему можно было найти статью в собственно лексиконе: например, на ё, ён, е или даже
(как в случае древнегреческой редупликации, см. ниже) ноль.
Статьи в отсылочном лексиконе, как и в собственно лексиконе, упорядочены по
алфавиту физического облика.
Такое решение приводит к тому, что при интерпретации любого сегмента, на любом
этапе, имеем всегда две группы гипотез об анализе начала сегмента:
- этот сегмент начинается так же, как и заглавный морф морфемы, идущей в начале этого
сегмента, что исчерпывает все будущие гипотезы в случае слов типа бегаем, дне, море;
- начало этого сегмента не совпадает с заглавным морфом искомой морфемы, поэтому по
вспомогательному лексикону и устанавливается, есть ли морфемы, хотя бы один альтернант
которых начинался бы так же, как данный обрабатываемый сегмент, и если есть, –
устанавливаются все возможные покрытия этого сегмента в рамках этой гипотезы. Это не
означает, впрочем, что нужную морфему вы автоматически найдете в собственно лексиконе:
такая гипотеза может быть и посторонней.
Покажем, чего же мы добиваемся в результате всех этих усложнений исходной простой
идеи.
Здесь и далее символы класса морфемы таковы:
* – корень
# – флексия
_ – префикс
$ – постфикс
= – суффикс
Словоформа вынашивать на самых первых этапах выдвижения гипотез будет
интерпретироваться так:
1. В_ЫНАШИВАТЬ
2. ВЫ_НАШИВАТЬ
В рамках гипотезы 1 имеем для ЫНАШИВАТЬ:
1.1. ЫН*АШИВАТЬ
(где ын – альтернант морфемы ин, как в слове иной), и т.д., в
результате чего, скажем, получится (среди прочего) такое разбиение:
В_ЫН*А=ШИ*В=АТЬ#.
В рамках же гипотезы 2 имеем далее:
2.1. НА_ШИВАТЬ
2.2. НАШ*ИВАТЬ
-152-
Гипотеза 2.1 совпадает с одной из промежуточных гипотез в рамках исходной главной
гипотезы 1. Наш алгоритм устроен так, чтобы, если в рамках разных гипотез рассматривается в
точности один и тот же подсегмент, то не приходилось бы каждый раз дублировать
распознавание этого подсегмента: для этого и были разработаны своеобразные форматы для
протоколирования результатов интерпретации, значительно экономящие время интерпретации и
соответствующие интуиции о человеческой интерпретации.
Далее в рамках подгипотезы 2.1 имеем:
2.1.1. Ш*ИВАТЬ,
а в рамках подгипотезы 2.2 –
2.2.1. ИВА=ТЬ.
Теперь сопоставим хотя бы две из потенциально верифицируемых гипотез:
ВЫ_НА_Ш*ИВА=ТЬ# (корень Ш тот же, что
и у глагола шла),
ВЫ_НАШ*ИВА=ТЬ#
Видим, что второй результат (более правдоподобный семантически) по количеству
выделенных морфем отличается от первого. Наш алгоритм ориентирован на такое
сопоставление гипотез, чтобы сначала выдавались более "короткие" морфемные цепочки, затем
и остальные – по возрастанию количества морфем, выделенных в интерпретируемой
словоформе. Таким образом, вторая строка из приведенных выше результатов финиширует
раньше первой, что вполне соответствует интуиции о предпочтительности этой второй
гипотезы. Неформально говоря, у гипотез общие части "вынесены за скобки", как в
алгебраическом выражении.
Степень вероятности гипотез, ранжирование гипотез, в конечном итоге определяется
длиной распознанных морфов и их классом. Скажем, можно упорядочить корни перед
суффиксами и префиксами, чтобы раньше отсеялись посторонние гипотезы.
Самая первая гипотеза в связи с приведенной словоформой у нас была связана с
выделением корня ын. Если предположить, что заглавный морф этой морфемы имеет вид
ин, то следует обратиться к отсылочному лексикону, который содержит следующее
указание: попытайся распознать два сегмента: ЫНАШИВАТЬ и ИНАШИВАТЬ.
Теперь можем вернуться к проблеме морфонемы (см. главу первую, раздел 6.3). Вопрос в
том, нужны ли морфонемы.
-153-
Морфонемную запись придумали для того, чтобы минимизировать количество
"основных алломорфов" для морфем. Благодаря этому приему не надо, например, хранить две
разных единицы – рук и руч в словаре морфем русского языка: достаточно
хранить, скажем запись руК (где К – морфонема).
Представим себе, что мы пользуемся морфонемами, а "входом" в статью является не
запись рук и не запись руч, а запись руК. Символ морфонемы К,
вообще говоря, не обязательно распознается как совпадающий с к или ч, это
особый символ. А значит, при распознавании слова руками, когда интерпретатор дойдет
до статьи руК, он не сразу отождествит начало словоформы с морфом рук:
потребуется еще как минимум одна операция, переводящая морфонему К в фонему
к. То есть, и слово руками, и слово ручкапри обращении к словарю морфем
потребуют одинакового числа операций идентификации. Но если физический облик в статье о
морфеме представлена одним из реальных алломорфов данной морфемы, то по крайней мере
для части словоформ распознавание будет происходить быстрее, чем для остальных словоформ,
включающих ту же морфему, но представленную другим аллофоном.
Итак, решение с морфонемами у нас приводит к более долгому времени распознавания,
чем без морфонем. И это бы еще ничего, ведь ЭВМ обрабатывает слово в течение считанных
долей секунды. Хуже то, что время обработки слова без единого чередования такое же, как и
при чередовании.
Поэтому несколько более привлекательным решением является запись без морфонем.
Это не значит, что экспертной системой не сможет пользоваться сторонник морфонем. Нет, это
вполне допустимо. Но в режиме верификации он сможет убедиться в меньшей психологической
реальности МИ с морфонемами.
Как задать чередования без прямого списка алломорфов?
Можно выбрать следующий путь. Помимо поля заглавного морфа, статья для морфемы
содержит еще указание на множество номеров чередований, которым она может подвергаться и
которые приводят ко всем возможным алломорфам. В отдельном месте перечисляются –
соответственно по номерам – все правила, которые характеризуют данное чередование.
Например, чередование под названием "первая палатализация" может быть оприходовано в
-154-
списке чередований под номером 3 (условно) и представлено правилами, по которым меняется
последний согласный морфемы: к меняется на ч, г на ж и т.д. При
распознавании словоформы слева направо делаются попытки отождествить "голову" очередного
остатка словоформы, по возможности без просмотра заведомо посторонних вариантов, со всеми
подходящими хранимыми морфемами. Так, начало словоформы руками не будет
накладываться на морфемы, не начинающиеся на р и при этом обладающие пустым
набором чередований. Отождествить начало этой словоформы с морфемами раб, руб и
т.д. также не удастся. До тех пор, пока мы не дойдем до статьи с заглавным морфом рук.
Тогда отождествление произойдет с первой же попытки. А отождествление начала словоформы
ручонками с морфемой рук произойдет только после того, как в результате
генерирования всевозможных (кстати, не очень многочисленных) алломорфов данной морфемы
интерпретатор не получит алломорф руч.
Теперь посмотрим, что произойдет, если по ошибке в словоформе выбран неправильный
или несуществующий алломорф данной морфемы. Скажем, как будет распознаваться
словоформа ручами. В словоформе будет распознана морфема рук (по алломорфу
РУЧ). Будет установлен номер парадигмы для основы, составленной в точности из
морфемы рук. Обнаружится, что и окончание -ами в порядке. Однако в статье для
этой флексии -ами в указании на множество чередований, которым должен быть
обязательно подвергнут непосредственно предшествующий левый сосед, мы не найдем номера
чередования "первая палатализация". Да и вообще, флексии склонения существительных в
русском языке обладают нулевым множеством чередований, обязательных у левого соседа по
словоформе. Итак, словоформа будет распознана, но система сгенерирует по данной основе и по
данному окончанию другую словоформу – руками. Что и будет указано.
Почему бы тогда не хранить заранее заготовленный список всех алломорфов? На самом
деле возможно и это. Однако кто заполняет этот список? Интерпретатор при усвоении новых
морфов – под диктовку носителя языка или на основании компактной информации о наборе
допустимых чередований? Лучше, очевидно, второе. Список алломорфов разумно генерировать
перед каждым сеансом
-155-
верификации экспертной системы, то есть перед распознаванием и продуцированием
словоформ. Однако такое решение одно из многих, и выбор его также предоставляется
человеку-эксперту.
Следовательно, с информационно-поисковой ("когнитивистской") точки зрения более
правдоподобным является не перечисление заготовленных алломорфов в лексиконе, а указание
на множество номеров чередований, которым морфема может подвергаться. Историческое
изменение – типа утраты каких-либо алломорфов у морфемы – объяснимо тогда как выпадение
соответствующего номера из этого множества или даже как стирание – в списке чередований –
всех или части правил, входивших в характеристику конкретного чередования. Например, в
современном русском языке нет алломорфа руц, который требовался в местном падеже в
древнерусском языке, однако чередование к/ц осталось, ср.: лик – лицо.
Это значит, что в статье для рук стерлось упоминание номера чередования, при котором
к чередуется с ц ("вторая палатализация"), а в статье для лик это
упоминание осталось.
Мы не исключаем возможности списка аллофонов. Если правильно задать все требуемые
единицы языка (морфемы, правила и чередования), можно распознавать и строить тот же набор
правильных словоформ, что и без этого списка. Но иным будет время отклика и тип
поправимых ошибок: при решении без списка алломорфов распознаются даже словоформы,
построенные с морфонематическими нарушениями, а с таким списком некоторые подобные
словоформы распознаны не будут. Такова участь, например, словоформы руце, которая
при нашем решении исправима как руке – предложный падеж единственного числа от
лексемы рука.
Пример 1. Валлийские мутации
Особенно показательна необходимость вспомогательного лексикона для языков типа
валлийского (вообще, для кельтских языков), в которых чередования сегментов начала слова
скорее правило, чем экзотика (в русском, скажем, орфография камуфлирует фактические
чередования и – ы начала слова после предлогов, оканчивающихся на согласный, тем
облегчая задачу распознавания). Как видно из приводимых ниже соотношений, в валлийском
есть три вида чередований – традиционно они называются "мутациями":
-156-
озвончение (soft mutation), назализация и спирантизация. Например, в зависимости от
интерпретации притяжательного местоимения ei. Морфемы, хранимые в собственно
лексиконе в "словарной форме", соответственно и следует пометить.
Таблица 1
Начальный
сегмент |
Словарная
форма |
После притяжательного
местоимения |
|
ei
"его" |
fy
"мой" |
ei
"ее" |
c |
ceffyl
"лошадь" |
geffyl |
ngheffyl |
cheffyl |
p |
pen
"голова" |
ben |
mhen |
phen |
t |
tad
"отец" |
dad |
nhad |
thad |
g |
gardd
"сад" |
ardd |
nghardd |
без
изм. |
b |
basged
"корзина" |
fasged |
masged |
без
изм. |
d |
desg
"парта" |
ddesg |
nesg |
без
изм. |
ll |
llong
"корабль" |
long |
без
изм. |
без
изм. |
m |
mam
"мать" |
fam |
без
изм. |
без
изм. |
rh |
rhosyn
"роза" |
rosyn |
без
изм. |
без
изм. |
Начало каждой словоформы перед интерпретацией договоримся помечать специальным
символом. Например, символом ^. Вспомогательный лексикон содержит такие отсылки:
^a --> g
(и так далее, для всех гласных, зафиксированных после мутирующего g в
наличном морфемном словаре)
^b --> p
^m --> b
^ch --> c
^mh --> p
^d --> t
^n --> d
^dd --> d
^ngh --> c
^f --> b
^nh --> t
^f --> m
^pg --> p
^g --> c
^r --> rh
^l --> ll
^th --> t
Пример 2. Редупликация в древнегреческом
В древнегреческом языке при образовании форм перфекта, плюсквамперфекта и так
называемого "будущего третьего" происходит
-157-
своеобразное удвоение корня: к корню в начале слова присоединяется или в точности первый
согласный плюс e, или модифицированный согласный с e. Например, в
транслитерации, имеем:
γράφω –
γέγραφα – (я) пишу – писал,
λύω – λέλυκα
– (я) развязываю – развязывал,
πλάττω –
πέπληγα – (я) ударяю – ударял,
χωρέω –
κεχώρηκα
– (я) иду – шел,
φονέυω –
πεφόνευκα – (я) убиваю
– убивал,
θύω – τέθυκα
– (я) жертвую – жертвовал, и т.д.
Общее правило таково. Редупликация с буквальным повторением первого согласного
корня бывает, когда корневой морф начинается сочетанием несонорного непридыхательного с
плавным согласным или когда корень начинается простым согласным (кроме
ρ). Модификация же происходит, когда начальный согласный основы
презенса – придыхательный.
Это явление можно трактовать следующим образом. В отсылочном лексиконе имеем
целый ряд статей, которые выглядят так:
γέ -->
πέ -->
κε --> χ
πέ --> φ
λέ -->
τέ --> θ
В некоторых статьях второе поле представлено пустой цепочкой. Это значит, что если
интерпретируемая словоформа выглядит как
γέγραφα –, то выдвигаются две
гипотезы:
- надо поискать в основном лексиконе морфемы, физический облик которых совпадает с
началом γέγραφα – буквально (гипотеза
об отсутствии редупликации);
- надо поискать в основном лексиконе морфемы, физический облик которых совпадает с
началом γραφα – буквально, причем морфема будет
считаться найденной, если в основном лексиконе у нее указано, что допускается (в качестве
чередования) редупликация, которая выглядит именно как
γέγραφα.
"Редупликация" же задается, как обычно, набором правил.
-158-
Нетрудно представить себе алгоритм, с помощью которого по произвольному набору
флексий можно построить классификацию основ языка – каждый класс основы будет иметь свой
символ, – так чтобы каждой флексии был приписан акцентный тип в виде множества таких
символов.
5. Номер описания (в отдельном списке) набора основ, супплетивных для данной.
Например, основе ид таким косвенным путем ставятся в соответствие основы ш, шё,
шед. Такое описание нужно, чтобы объяснить, как столь разные физические облики
втискиваются в одну таблицу словоизменения лексемы. Итак, основы с физическими обликами
имеют один и тот же номер в данном поле. Под этим номером в списке
супплетивов содержится цепочка из номеров названных основ.
6. Указания на:
- номер граммемы, наличие которой в описании флексий, присоединяемых к данной
основе, обязательно (в вырожденном случае может присоединяться любая граммема);
- номер граммемы, наличие которой в описании флексии, присоединяемой к данной
основе, запрещено (возможно, что не запрещается никакая граммема).
7. Номер слогообразующего элемента (в частности, гласного) в рамках физического
облика основы, на который может падать ударение, если ударна основа. Например, для основы
портфел этот номер равен 2: второй гласный от начала может получить ударение при
склонении лексемы портфель. Конечно, интуитивно более оправданным было бы
говорить не о номере слогообразующего элемента, а о номере морфемы в рамках физического
облика основы: ведь в статье для каждой морфемы уже имеется акцентуационное описание.
Однако тогда возникла бы трудность с лексемами типа озеро (ср. озёра),
состоящих из одной морфемы, получающих, в зависимости от флексии, ударение то на первом,
то на втором гласном этой единственной морфемы. При нашем решении выход более чем прост:
мы полагаем, что имеем дело с супплетивной основой, физический облик которой не меняется,
но различны номера слогообразующих элементов.
В словаре основ избыточным считается наличие таких двух единиц, которые либо ничем
(ни по какому полю) не отличаются друг от друга, либо отличаются только тем, что физический
облик одной из них полностью составляет завершающую часть физического облика другой.
Таковы, например, статьи для ДЕЛ(АТЬ) и
удаляется на пенсию специальной процедурой, обслуживающей
экспертную систему, статья для нее приобретает статус отмененной.
Единицы словаря основ упорядочены не по алфавиту физического облика (чего
следовало бы ожидать по аналогии со словарем морфем), а следующим образом. Ведущим в
упорядочении является последняя, завершающая морфема физического облика. Все статьи с
одной и той же ведущей морфемой в словаре расположены кучно, образуют своеобразный
бункер: между ними нет основ с иной ведущей морфемой. Сначала перечисляются все
основы с одной ведущей морфемой, затем – все основы с другой ведущей морфемой и т.д. Это
позволяет при интерпретации словоформ ускорить порождение гипотез о непроизводной основе
при данном морфемном составе анализируемого сегмента. Если выдвигается гипотеза о том, что
данным морфом завершается основа (и что, следовательно, дальше идет флексия, а такое
бывает, когда последняя из констатированных – в рамках главной гипотезы – морфем является
суффиксом или корнем), мы направляемся (опираясь на указание в статье для последней
морфемы в данной цепочке – поле номер 8) в словарь основ и отбираем в нем подходящие основы.
Отбор в этом списке основ-кандидатов завершится при выходе из бункера.
Внутри же такой "кучки" основ тоже целесообразно упорядочивать между собой статьи.
Возьмем, к примеру, основы рог и носорог. Первая от второй отличается, в
частности, в форме множественного числа: носорог имеет окончание и в
именительном падеже и постоянное ударение на основе, а рог – окончание а в
именительном множественного и постоянное ударение на флексии во множественном числе.
Это значит, что хотя по физическому облику они оказываются в одной "куче", носорог не
является избыточной единицей, поскольку у этой основы иные номер парадигмы и акцентный
показатель, чем у основы рог. Вот почему, анализируя выражение носорогами, мы
должны предпочесть интерпретацию носорогами – НОСОРОГ в форме мн.ч.Тв.п., – и
лишь в качестве резервной интерпретации предусмотреть такую: носорогами –
(НОСО)РОГ в форме мн.ч.Тв.п. (как если бы реальная основа была получена от
непроизводной основы рог). Это значит,
– по крайней мере, если мы хотим, чтобы предпочтение отдавалось именно первой.
Флексии представлены окончаниями в русском языке, а в семитских могут
присоединяться в начале словоформы. Очень может случиться, что и для русского языка
эксперт пожелает считать наи- – как в форме наибольший – словоизменительной
морфемой, т.е. флексией. Наша система не исключает этой возможности.
В статье словаря флексий указывается графический вид (например: а, ами,
возможны "нулевые" флексии, представленные нулевой цепочкой), набор граммем, набор
характеристик основ, допускающих эту флексию и т.д. Длина последовательности флексий в
рамках одной словоформы у нас не ограничена, что позволяет одинаково легко оперировать
данными как флективных, так и агглютинативных языков. Словарные статьи во многом
напоминают статьи как для морфем, так и для основ:
1. Физический облик флексии выглядит как цепочка букв, типа: а, ам, ами, ь,
возможно, и нулевая (последнее недопустимо для физического облика остальных морфем).
2. Описание множества чередований, обязательных для присоединяемой основы. Основа
получает вид, предписываемый пересечением этого множества с соответствующим набором
чередований в статье для самой основы. Так, основа ден получит вид дн,
-163-
когда к ней присоединяются флексии типа я (Род.п.ед.ч.), ей (Род.п.мн.ч.),
ями (Тв.п.мн.ч.) и т.п., а кон не изменяется в кн. Это означает, что
чередование "беглый гласный" включено в набор указанных флексий (но не флексии ь
Им.п.ед.ч.) и в набор чередований морфемы (и соответствующей непроизводной основы)
ден, но не основы кон, ср.: день, дня, дней, днями, конь, коня, коней,
конями.
3. Указание на набор граммем, типа: Именительный, падеж, множественное, число,
единственное, Предложный, причастие, деепричастие, инфинитив и т.д. (см. ниже). Внутреннее
представление выглядит как множество порядковых номеров по отдельному списку граммем
(см. ниже). Возможны флексии с пустым набором граммем – например, тематический гласный
глаголов.
4. Набор символов акцентуационных свойств, о котором говорится в п.4 описания
словаря основ.
5. Набор требований, предъявляемых к основе, отфильтровывающих неправильные (по
чисто фонологическим причинам) сочетания флексии с остальной частью слова. Например,
флексия и (Им.п.мн.ч.) недопустима после основ, кончающихся на ц, флексия
ы с теми же граммемами – после основ на к, ш, щ и т.д.; флексия ой
прилагательного положительной степени мужского рода именительного падежа единственного
числа допустима только под ударением (т.е. когда акцентный показатель основы не входит в
набор акцентуационных признаков флексии), а ей с теми же граммемами – наоборот,
только без ударения. Соблюденность хотя бы одного из этих условий гарантирует правильность
сочетания основы с флексией – если отвлечься от того, входит ли данная флексия в парадигму
словоизменения, допускаемую данной основой. Во внутреннем представлении этот набор –
множество номеров по списку условий сочетаемости флексий с основами.
6. Флексия может быть "свободной", завершающей цепочку словоизменительных морфов
в словоформе, после которой могут идти разве что постфиксы, и "несвободной", принимающей
после себя еще какие-либо флексии из этого же словаря. Например, свободными являются
флексии склонения русских существительных, а несвободными – флексии склоняемых
причастий: вш, ющ, ем, превосходной степени прилагательного ейш и т.д.
Особенно богаты в этом отношении агглютинативные языки типа тюркских. Если
-164-
флексия помечена как несвободная, то в данной же статье указывается парадигма
словоизменения, в которую она (на правах основы!) входит. Так, у вш, ейш тот же номер,
что и у горючий.
7. Указание на набор постфиксов, допускаемых после данной флексии. Флексия
вш действительного причастия прошедшего времени допускает после себя ся (но
не сь), флексия единственного числа первого лица настоящего времени ю – только
сь, флексия ем (причастие страдательного залога прошедшего времени) не
допускает ни сь, ни ся. И этот набор представляется в виде множества номеров по
списку префиксов.
8. Указание на набор чередований, которым данная флексия может подвергаться под
влиянием левого и/или правого контекста в словоформе.
Пример статьи для флексии:
ПОРЯДКОВЫЙ НОМЕР: 10
САМО ОКОНЧАНИЕ: а
АКЦЕНТНЫЕ ВОЗМОЖНОСТИ: abc
СЛОВОИЗМЕНЯЕМОСТЬ: –
НОМЕР ПАРАДИГМЫ ОКОНЧАНИЙ СПРАВА: –
КАТЕГОРИЯ: Им.п.мн.ч.
КОНТЕКСТ: неособый согласный
ДОПУСТИМЫЕ ЧЕРЕДОВАНИЯ ОСНОВЫ: беглый гласный
СТАТУС: действительно
ДОПУСКАЕТ ПОСТФИКСЫ: –
ЧЕРЕДОВАНИЯ: -
Пример. Сингармонизм и агглютинация в венгерском
В венгерском языке, как и в финноугорских вообще (например, в финском), а также в
тюркских (особенно ярко в турецком) суффикс и/или флексия обязательно гармонизируют по
ряду с гласным основы (в турецком гармония должна быть еще и по огубленности). Это
свойство мы можем трактовать следующим образом.
Решение 1: все парадигмы делятся на соответствующее количество серий. Основе
приписывается номер парадигмы нужной серии. Скажем, в венгерском выделяются две серии
парадигм:
- те, в которых флексии имеют гласный переднего ряда, типа: -vek, -vel, –
el, -ek, -em и т.д.,
-165-
- те, в которых флексии имеют гласный непереднего ряда, типа: -vak, -val, –
al, -ak, -om и т.д.
Благодаря этому имеем различие в образовании притяжательной формы
существительного:
kalap "шляпа" – kalapom "моя шляпа"
kert "сад" – kertem "мой сад".
Решение 2: флексии, имеющие различную огласовку в зависимости от сингармонизма,
трактуются как подвергающиеся чередованию. Скажем, в результате чередования флексия om
приобретает вид em и т.д. Особенно экономно такое решение для турецкого.
Выбор первого или второго решения предоставляется лингвисту-эксперту с его
критериями эстетичности лингвистического описания. Так или иначе, сингармонизм легко
трактуется в рамках предложенной концепции словарей флексий и морфем. Столь же легко
можно формализовать и явление агглютинации в указанных языках. Покажем это на материале
венгерского языка. Для тех же лексем kalap "шляпа" и kert "сад" имеем
следующие возможности словоизменения, где знаком плюс мы указываем место присоединения
флексии (заметим, кстати, что в венгерском нет различения существительных по
грамматическому роду):
С агглютинацией наша система справляется довольно просто: напомним, что флексии
бывают "свободными" (после них не бывает никаких элементов, кроме постфиксов) и
"несвободными", т.е. ведущими себя примерно так же, как основы. Статьи для последнего типа
в словаре флексий содержат информацию о номере той парадигмы, которая определяет, какие
последовательности флексий допустимы после данной, а какие – нет. Разумеется, все
перечисленные выше венгерские флексии (кроме, возможно, nak / nek дательного
падежа) помечены как несвободные и принимающие после себя флексии своего гармонического
ряда.
Но как выглядят сами парадигмы для агглютинирующих языков? Ключевую роль играет
нулевая флексия в конце слова, трактуемая как показатель именительного падежа
единственного числа для словоформ kalap, kert, kalapom, kertem, как показатель
просто именительного падежа для форм kalapjaim, kertjeim, kalapok, kertek (3), (5), (9),
(11) и т.д. Решение может состоять в том, что, как и в русском языке, в венгерском есть
несколько нулевых флексий, каждая со своим набором граммем. В разных парадигмах могут
содержаться указания на различные нулевые флексии: есть одна парадигма (на которую
указание находим в статье для основ – kalap, kert, – а также для несвободных флексий
типа om, em), в которую входит нулевая флексия с граммемами "единственное число" и
"именительный падеж"; есть другая парадигма – ее номер фигурирует в словарных статьях для
флексий типа ok, ek, jaim, jeim, – в состав которой входит граммема "именительный
(падеж)", но нет никакого указания на граммемы числа и т.д. Наконец, поскольку флексии
nak, nek завершают словоформу, они являются "свободными", и указаний на какую-либо
парадигму не содержат.
В венгерском языке существует особый падеж, обозначающий инструмент, с помощью
которого что-либо совершается и переводимый обычно формами творительного падежа:
- инструменталь от основ, кончающихся на согласный, образуется с помощью удвоения
последнего согласного и прибавления показателя al или el (также в гармонии с
гласной основы); диграфу sz соответствует простой согласный звук типа русского "с",
удвоение этого согласного выглядит как ssz, а не как szsz вопреки ожиданиям
(последний вариант, впрочем, встречается при разбиении слова на слоги в учебниках
грамматики и при переносе слова со строки на строку, ср.: tavasz-szal).
Дополнительно укажем, что чередование по долготе последнего гласного основы и
вставка вспомогательного v на стыке основы и флексии при стечении гласных в
венгерском свойственно для сочетания не только с показателем инструменталя (когда
происходит удлинение гласного), но и множественного числа (когда, наоборот, этот гласный
укорачивается), ср.: ló "лошадь" – lovak "лошади", fő "голова" –
fövek "головы". Наиболее естественными представляются следующие способы
формализации.
- чередование этой флексии, подобное чередованию основы или морфемы и
заключающееся в удвоении последнего согласного.
- сингармонизму – в зависимости от последнего гласного основы или предшествующей
флексии (имеем val или vel),
В то же время, она требует (см. поле 2 в описании словаря флексий), чтобы основа или
флексия, непосредственно предшествующая ей, подверглась чередованию "удвоения": краткий
гласный удлиняется, согласный удваивается и т.д.
Как и в предыдущем примере, читатель вправе не поступаться своими принципами и
может выбрать любую возможность.
Как известно, в немецком языке пассивные причастия образуются в результате не только
аблаута, но и присоединения частицы ge- перед корнем, – если только перед этим же
корнем непосредственно не идет какая-либо "неотделяемая" приставка. Ср.:
Отделяться могут только префиксы, в инфинитиве имеющие ударение. Примеры
потенциально отделяемых префиксов: an, auf, vor. К потенциально неотделяемым
относятся: ver, ent, be, ge. Последний элемент ge – как в gebrauchen
"использовать" – омонимичен формативу пассивного причастия, но не тождествен ему.
Префиксы типа unter "под-" могут быть как ударными – соответственно, отделяемыми –
так и безударными (неотделяемыми), ср.
Если в начале основы глагола идет последовательность из нескольких префиксов, то
отделяется самая левая непрерывная часть префиксального сочетания, не содержащая ни одного
неотделяемого префикса, непосредственно после которой в инфинитиве идет либо корень, либо
неотделяемый префикс. В сочетании префиксов anver, anbe отделяемая часть – an,
а в сочетаниях veran, bean отделяемой части нет.
, но и набор требований к чередованиям левого соседа у этой же морфемы (см. поле 4
статьи основного лексикона).