В.З. Демьянков
Электронная версия статьи:
Демьянков В.З. Понятие гипотетической интерпретации в морфологии // Вычислительная лингвистика: Теоретические аспекты, вопросы автоматизации лексикографических работ /Под ред. В.З. Демьянкова. М.: МГУ, 1982. С.31-73.This page copyright ї 1982, 2003 V.Dem'jankov.
http://www.infolex.ru
1. Морфологическая интерпретация
2. Основные принципы морфологической интерпретации
5. Иллюстрация МИ для русского языка
6. Частные проблемы морфологического анализа
6.1. Чередование морфов в рамках словоизменительной парадигмы
6.2. Сингармонизм и агглютинация
6.6. «Рассыпанные» и «слитые» лексемы: морфология и синтаксис
6.7. Базисные и производные основы в лексиконе: интерпретация семитской словоформы
-31–
Идея метода, излагаемого в данной статье, проста и заключается в следующем. Носитель языка интерпретирует текстовую форму, идя от ее начала к концу, выделяя сперва начальные морфы (префиксы – там, где о них имеет смысл говорить, как в русскою языке, корни, как в финском и других языках, не имеющих префиксов, флексии, как в языках типа арабского и т.д.), а затем поморфно один за другим и остальные элементы, на каждом этапе «накладывая» текущий остаток анализируемого выражения на хранимое множество морфов и выдвигая гипотезы о такой наложимости в дальнейшем. Количество одновременно выдвигаемых гипотез определяется числам тех морфов, которые могут быть отождествлены с началом текущего остатка. Множество текущих гипотез пульсирует: оно то расширяется, то сужается; причем последнее происходит тогда, когда остаток, полученный в рамках какой-либо из имеющихся гипотез, не может быть наложен на множество хранимых морфов.
Эту идею естественно формализовать с помощью аппарата рекурсивных функций, что в данной статье и делается. Предлагаемая здесь концепция позволяет под новым углом взглянуть на соотношение морфологически мотивированного значения и словарной дефиниции лексемы, с одной стороны, и контекстно-обусловленного значения словоформы (ее «суппозиции», в терминах схоластической логики), с другой.
Итак, человек, активно пользующийся родным языком, подходит к морфологическому анализу и синтезу – в нашей терминологии, к морфологической интерпретации, – не как к наложению жестко заданных основ (хранимых в его памяти) и вычленению из остатка флексии, и не как к наложению хранимых же флексий и установлению того, знакома ли ему готовая основа, сопоставимая с остатком. Такая тактика скорее была бы свойственна человеку, делающему первые шаги при усвоении
-32-
родного или иностранного языка. Вспомним, как мы учим иностранный язык: то, что на более поздних этапах осознается как сложное мотивированное морфологическое единство (скажем, сложное слово, сращение и т.п.), на первых порах заучивается как целая, неделимая основа. Здесь не место судить, насколько удачна эта тактика изучения языка, освященная педагогической традицией (наш опыт подсказывает, что не очень удачна). Однако последовательно воплотить ее в рамках морфологической теории, а тем более внедрить в качестве ведущей идеи при построении систем автоматического морфологического анализа контринтуитивно: при ней невозможно объяснить, не прибегая к приемам ad hoc, почему понятны неологизмы, затруднительно универсальное представление морфологического компонента описания и т.д. (см. ниже). Этих недостатков лишен предлагаемый подход, идея которого сформулирована выше.Тем не менее, сказанное не связано с оценкой предшествующих попыток морфологического анализа как «бесплодных», «бесперспективных» и т.п. Во-первых, они привели к прекрасной проработке, во многих подробностях, идеи исчисления в языкознании в применении к естественному языку: сегодня уже видны контуры тех «можно» и тех «нельзя», которые определяют дальнейшее развитие формализации в языкознании. Во-вторых, то, что лингвисты нескольких поколений занимались (и занимаются до сих пор) поисками инвариантов, составляющих систему языка и соответствующих в речи самым различным реализациям (например, инвариантной «морфеме» соответствуют реальные «алломорфы», представляющие морфему в речи), заставляет поставить вопрос так: что же в наблюдаемых языках дает повод для надежд найти эти инварианты? Какое свойство человеческой ментальности лежит в основе таких интерпретаций языка, которые опираются на идею инвариантов? Это положение, в свою очередь, ставит вопрос об изучении особого типа языковой интерпретации – научно-лингвистического – в противоположность «обыденному», «потребительскому» типу.
Однако задача, которую ставит перед собой эта статья, гораздо скромнее: продемонстрировать сферу приложения метода гипотетической интерпретации в морфологии, как «вширь» – т.е. для разнообразных языковых систем, показать приемы обращения с
-33–
формальным аппаратом для различных «трудных» случаев, – так и «вглубь», выявить выразительные возможности формального аппарата и связь между приемами описания, допустимыми в нем. Первое направление можно было бы продолжить в области типологического сопоставления языков в морфологическом аспекте: сравнение языковых систем с точки зрения того, как выглядит в них процесс морфологической интерпретации, – недостаточно пока разработанное направление в типологии. Объем статьи заставил, однако, отложить такое исследование, а также отказаться от аналитического обзора работ по морфологическому анализу.План изложения – следующий. В разделе 1 определяется понятие морфологической интерпретации, в разделе 2 описываются основные ее принципы. Далее идет очерк формального аппарата системы (раздел 3), характеристика некоторых специальных элементов которого содержится в разделе 4; затем дается иллюстрация работы аппарата на несложном фрагменте русской морфологии (раздел 5). В разделе 6 рассматриваются частные проблемы морфологического анализа, например, вопрос о том, как могут быть отражены некоторые интересные для данного подхода свойства морфологии некоторых конкретных языков. Выводы при этом формулируются в виде решений, принимаемых относительно конкретизации свойств аппарата рекурсивных функций. Здесь речь идет о следующих группах явлений: чередование морфов в рамках словоизменительной парадигмы (на русском и кельтском материале – 6.1), сингармонизм, агглютинация и геминапия (на венгерском материале – 6.2), редупликация (в древнегреческом – 6.3), «поглощение» (в немецком – 6.4), многокорневая основа (в различных языках – 6.5), «рассыпанные» и «слитые» лексемы (о соотношении синтаксической и морфологической интерпретации на материале отделяемых префиксов в немецком и других языках, местоименных энклитик в целом ряде языков и т.д. – 6.6), соотношение между базисным и расширенным инвариантами морфов (интерпретация семитской словоформы – 6.7). Заключение содержит общие выводы, вытекающие из рассмотрения конкретного материала и относящиеся к перспективам дальнейшей разработки морфологической интерпретации в рамках предлагаемого формального аппарата.
-34–
Под морфологической интерпретацией (МИ) понимается соотнесение текстовой и словарной форм лексемы при установлении грамматических помет у словоформы.
Система морфологической интерпретации, о которой здесь пойдет речь, предназначена для решения следующих задач:
1) использование стандартных словарей при автоматической или полуавтоматической обработке текста (приведение текстовой форма к такому виду, по которому лексему можно найти в словаре, построенном в соответствии с конкретной национальной традицией);
2) определение морфного состава и семантики тех лексических единиц, которые в стандартных словарях либо никогда не отражаются последовательно (как регулярно образуемые в языке дериваты), либо пока что не отражены и представляют собой неологизмы – единицы, составленные из реальных морфов данного языка с семантикой, выводимой из их морфного состава, и понятные носителю языка, несмотря на свою новизну (т.е. несмотря на то, что они для него совершенно новые лексемы);
3) конструирование толкований для семантически регулярных лексем, т.е. продолжение конкретной словарной традиции на новые единицы, при использовании соответствующего формата и нотации;
4) автоматическая кодировка текстовой информации поморфно, а не побуквенно.
Последняя из указанных задач связана с установлением взаимно-однозначного соответствия между лексемами и множеством целых чисел от 0 практически до бесконечности, без пропусков на числовой оси; такое соотнесение возможно только при использовании исчисления всех возможных лексических единиц на основе реального «морфемария» и позволяет значительно оптимизировать автоматическую обработку текста. Предлагаемый подход, думается, будет полезен и при синтезе текстовых форм лексем, а система МИ может послужить основанием для построения систем распознавания и синтеза устной речи.
-35-
Системами основана на принципах гипотетической интерпретации, описанию которой посвящены работы [Демьянков 1979а], [Демьянков 1980], [Демьянков 1980а]. В собственно морфологическом плане система опирается на следующие положения:
1. МИ заключается в выяснении гипотетического морфного состава у анализируемой словоформы, идя от более ранних по времени появления в тексте единиц к более поздним. Попутно определяется гипотетическая основа словоформы (т.е. поисковый образ лексемы, в рамках конкретной лексикографической традиции, – такие традиции различны, например, для русского и арабского языков) и ее морфологический класс. Морфологический класс основы характеризуется набором флексий, сочетающихся с данной основой. Каждая флексия из набора снабжена соответствующими грамматическими пометами (специальными пометами словоформы, отсутствующими у лексемы как единицы словаря). Каждая из полученных гипотез относительно морфного состава верифицируется по ходу появления в поле зрения последующих сегментов текста (в системах письменности слева направо – при введении в поде зрения все более правых сегментов, в системах справа налево – все более левых, и т.д.).
2. Инвентарь единиц – "лексикон" – представляет собой информационную систему морфов: он содержит не реальные основы, а сведения о «строительном материале» для них. И реальные, и потенциальные основы могут быть построены из морфов, входящих в такой инвентарь. Иногда целая основа представлена одним морфом – «корнем». Лексикон позволяет анализировать словоформы не путем «наложения» образцов, хранимых в словарях (т.е. не при сопоставлении реальных лексем, хранимых в словаре обычного типа, с выделяемой гипотетической основой у анализируемой словоформы), а конструированием таких образцов – промежуточных гипотетических МИ – по анализируемому объекту. Противоположная практика приводит к тому, что системы в лучшем случае оказываются в состоянии анализировать только зарегистрированные единицы, а сформулированные выше задачи решать не могут.
-36–
3. Чередования основ отражены как чередования соответствующих морфов: в описываемой системе по принципиальным соображениям отсутствует набор правил, переводящих «поверхностно-морфологическое» представление в «глубинное». Это положение об интерпретации непосредственно поверхностно-морфологического вида словоформы связывается в рамках данной системы с тем, что каждое очередное преобразование промежуточного представления происходит только как результат введения в поле зрения очередного сегмента словоформы, при минимуме производимых при этом операций. Противоположный же подход связан с опасностями бесконечной рекурсии, если он прямолинейно воплощается;
4. Лексическое значение словоформы определяется как результат семантической интерпретации, основанной на окончательной или промежуточной МИ. Семантические правила оперируют морфами и их последовательностями и делятся на два класса: продуктивные и уникальные. Продуктивные семантические правила устанавливают буквальное значение лексемы, ее «внутреннюю форму», в терминах концепции В. фон Гумбольдта (см. [Humboldt 1836]; [Потебня 1862]). Уникальные правила соотносят внутреннюю форму с небуквальными значениями лексемы, т.е. с теми реальными или потенциальными значениями, которыми лексема может обладать в силу своей внутренней формы и которые для единиц, реально фиксируемых в словарях, обязательно вносятся в словарное толкование. Так, дождевик, кроме соответствующей внутренней формы, имеет толкование «плащ от дождя» (см. [Смирницкий 1956]).
К общим принципам гипотетической интерпретации относятся следующие:
1) процесс интерпретации – это постепенное расширение и/или сужение текущего набора гипотез;
2) интерпретация целого выражения базируется на интерпретации составных частей, а этапность интерпретации определяется конструкцией выражения,
3) интерпретация неправильно построенных выражений содержит, кроме прочего, указания на отклонения, релевантные для конкретного вида интерпретации (множество видов интерпретации бесконечно, но счетно, а виды соотнесены между собой: один вид может быть исходным для другого).
-37-
Система МИ основана на формальном аппарате рекурсивных функций при древовидном упорядочении морфов внутри словаря. Словарь морфов, или (в соответствии с блумфилдовским употреблением термина, см. [Блумфилд 1933]) «лексикон», состоит из статей, в каждой из которых имеются указания на следующее:
1) заглавный морф, являющийся входом в статью; статья вовлекается в очередной этап интерпретации, если в поле зрения «ведущей» функции попадает сегмент, начало которого совпадает с таким заглавием. Относительно сегмента, начало которого отождествимо с несколькими заглавиями и находится в поле зрения одной и той же ведущей функция (например, функции поиска корней, функции поиска префиксов, суффиксов, флексий и т.д.), формируется соответствующее число отдельных гипотез. Почти все преобразования (расширение и сужение набора текущих гипотез) происходят на основании обращения к лексикону;
2) имя схемы преобразования. По такой схеме выражение, находящееся в поле зрения ведущей функции, преобразуется в соответствии с конкретными «наполнителями», указанными в самой статье лексикона;
3) наполнители схемы, специфичные для конкретного морфа. К ним относится, например, тот альтернант конкретного морфа, который, заменив заглавный морф статьи, приводит к «словарной основе» лексемы. Например, для того чтобы получить форму ручка от текстовой формы ручек, необходимо ек заменить на к, а нулевую флексию – на а; поэтому в лексиконе в статье для морфа ек среди наполнителей указан в соответствующем месте и альтернант к. Альтернант флексии – это флексия «заглавного слова» (в рамках лексикографической традиции или, более широко, в формате того словаря, который должен быть, по замыслу, совместим с выходам из системы МИ), с указанием на те грамматические признаки, которые заменяемая флексия вносит в текстовую форму. Так, для флексии у среди множества альтернантов есть и морф а (ср. игра – игру; игру – это форма В.п. ед.ч. от лексемы
-38–
игра), у которого указан признак «сущ. в форме В.п. ед.ч.».Имеется и другой вид наполнителей – пометы, или признаки, наличие которых является условием для работы преобразований и которые сами вводятся в выражение на тех или иных этапах интерпретации. В используемой здесь нотации признаки имеют вид целых чисел в квадратных скобках типа: «[3]», «[5]» и т.п. При каждом виде признаков (когда именно, станет ясно из последующего изложения) ставятся пометы для «сигнатуры» признака. Так, имеем суффиксальные, корневые, флексионные признаки и т.п.; например, «[с[3][5]с]» – набор суффиксальных признаков.
Символ функции – «Ф» – также имеет различные сигнатуры. Так, для русского языка ФI будем использовать как символ функции выделения предкорневого сегмента в подведомственном этой функции выражении (т.е. в начале выражения, находящегося в круглых скобках при таком символе); ФII – функция выделения корневого сегмента; ФIII – то же для суффиксального; ФIV – для флексий. Сигнатура имеет чисто различительное значение, ее вид связан только с выразительными возможностями используемого шрифта. При указании на вид искомого морфа – корневого, префиксального и т.п. – удобно пользоваться цифровой сигнатурой, поскольку множество таких классов может, в принципе, варьироваться и расширяться.
Пример формулы преобразования, подученной в результате вставления наполнителей в схему преобразования:
(X1ФI(наX2)) := (X1наФI(X2)) (X1наФII(X2)).
Здесь, как и всегда в рамках данной нотации, объектные выражения-морфы подчеркиваются, наличие пробела между выражениями, в частности, между объектными выражениями, значимо: различны выражения «на оборот» и «наоборот». В то же время нерелевантны неподчеркнутые пробелы, в частности, и между символами метаязыка; так, «на оборот» и «наоборот» тождественны друг другу. Символы X1, X2 и т.д. (символ X с сигнатурой в виде числа, написанного арабскими цифрами) в формуле преобразования соответствуют «открытым переменным», значение которых выявляется только для конкретного выражения. Например, «(выФI(нашивать))» может быть представлено с помощью формулы «(X1ФI(наX2))», при
-39-
значениях X1 = вы, X2 = шивать. Такое выяснение происходит единственным образом, когда вид формулы задан корректно: круглые скобки – символы метаязыка – являются «жесткими» элементами при этом. Пример некорректной формулы: «(X1X2ФI(наX3))»: подряд идущие (без жестких разделителей) символы открытых переменных X1 и X2 не позволяют установить их значение единственным образом даже в самых простых случаях. Далее будут использоваться только корректно построенные формулы: противное приводит к избыточным гипотезам – к тем, которые на содержательном уровне неразличимы.В указанной формуле символ «:=» читается «заменить на»; такая формула соответствует преобразованию, в результате которого любое выражение, содержащее в качестве терма [1] то, что, в формуле идет перед символом «:=», заменяется на то выражение, которое указывается в нем после этого символа. При этом «указывается» – значит «может быть представлено в соответствующем виде». Так, выражение, содержащее открытые переменные, может «указывать» на другое выражение тогда и только тогда, когда для открытых переменных в отождествленном («указываемом») выражении найдется корректный набор значений. Например, «(выФI(нашивать))» и «(ФI(нашел))» преобразуются по приведенной выше формуле, соответственно, в следующие выражения:
(вынаФI(шивать)) (вынаФII(шивать)):
(наФI(шел)) (наФII(шел)).
Выражение первой строки соответствует набору гипотез для словоформы вынашивать (в рамках уже полученной определенной гипотезы о морфе перед нашивать), согласно которому выражение шивать начинается либо с префикса (эта гипотеза обозначена первой парой скобок), либо с корня (вторая пара). Первая пара скобок в этой строке позже сотрется: префиксов, начинающихся на ш, в русском инвентаре нет. Вторая же даст анализ, при котором выделится правильный корень и суффикса (несколько или один – в зависимости от того, каков конкретный
-40-
инвентарь морфов), и мы подучим МИ скрытого неологизма (ср. данные «Этимологического словаря», приводимого иногда в «Литературной газете»). Других гипотез при префиксе на в указанной формуле нет. Очевидно, что правильный, соответствующий реальному словарю русского языка анализ этой словоформы вынашивать – тот, при котором выделяется корень наш. Такая МИ получается, но не в рамках гипотезы «(выФI(нашивать))» (где предполагается, что на – префикс), а в рамках «(выФII(нашивать))», причем обе указанные гипотезы задаются схемой преобразования, которая имеется в статье для префиксального морфа вы. Аналогичное можно сказать относительно второй строки (анализ словоформы «нашел»), где мы имеем случай отождествления открытой переменной с пустой цепочкой (что не равносильно невозможности отождествить целое выражение с формулой).По текущему выражению в поле зрения ведущей функции без избыточных просмотров лексикона выявляются те морфы, которые могут считаться началом этого выражения. Лучше всего этой цели отвечает древесная структура лексикона, когда, например, два морфа, начинающиеся одинаковыми сегментами, в дереве упорядочения статей до определенного момента «склеены», разветвление их происходит как раз в том месте дерева, где их тождество кончается (это, кстати, и один из наиболее распространенных способов упорядочения информации в автоматической лексикографии, см. [Андрющенко 1980]). Благодаря такой организации, быстро устанавливается отсутствие требуемого морфа в инвентаре; а это именно тот случай, когда стирается соответствующая гипотеза. Если же морфов, отождествимых с началом текущего выражения в поле зрения функции несколько, то текущая гипотеза расщепляется на несколько новых и представляется как последовательность скобочных записей; просмотр гипотез в таком наборе слева направо, начиная с самой левой. Поскольку длина морфа редко превышает три-четыре фонемы, расщепление гипотез не приводит к нереалистично длинному набору. Не допускает этого и то обстоятельство, что к проработке остальных гипотез система переходит только после того, как доведет до логического конца самую левую из текущего набора. Поскольку в лексиконе одному морфу может быть приписано несколько схем преобразований
-41-
с наполнителями (случай омонимии морфов), они так упорядочены между собой, чтобы более левые гипотезы были и наиболее вероятными. Тогда сначала получаются на выходе наиболее «легкие» («дешевые») гипотезы – подтвержденные варианты интерпретации, а затем, пока частичный результат выпечатывается, – и остальные неопровергнутые.Определить степень вероятности гипотезы в рамках морфологической системы можно, исходя из длины морфа. Действительно, когда начало анализируемого выражения отождествимо с более длинным морфом из лексикона, гипотеза будет раньше подтверждена или опровергнута, чем в случае более короткого морфа-кандидата. Если при этом морф можно представить как последовательность более мелких морфов на чисто фонематическом (но не морфологическом) уровне, то доказанность гипотезы о более длинном морфе может свидетельствовать о сомнительности остальных вариантов, – скажем, скрытой неологичности их, – как в случае «вынашивать», где более естественная интерпретация – с корнем «наш», а не с префиксом «на». С другой стороны, большая частотность одних гипотез, связанных с некоторым морфам, по сравнению с другими, дает еще один критерий. Первый критерий связан с длиной морфа и может оыть назван «инвентарным», второй же является статистическим. Первый характеризует языковую систему, второй – речь, разные виды текстов и т.д. Лингвостатистика, таким образом, оказывается прямо связанной с установлением вероятности гипотез при языковой интерпретации.
Выше говорилось об общих свойствах аппарата функций в связи с функциями сигнатуры I, II, III и т.д. (римские числа). В дальнейшем оказывается полезным использовать некоторые специальные функции, с иной сигнатурой.
Функция слияния – Фсл – позволяет сделать более обозримой схему преобразования, а главное, менее громоздким представление промежуточного набора гипотез. При расщеплении одной промежуточной гипотезы на несколько, как вытекает из сказанного, приходится обычно копировать то, что находится слева от
-42-
символа ведущей функции, в более общем случае – то, что находится за пределами области ее распространения (см. пример преобразования выше: по нему копируется то из объектного выражения, что отождествимо с X1). В тех случаях, когда для дальнейших преобразований безразлично, имеется ли за пределами поля зрения функции какие-либо еще выражения, такое дублирование выражения избыточно: если расщепление некоторой гипотезы произойдет на более позднем этапе, и из всех гипотез «выживет» только одна, то окажется, что выполнены лишние операции – сначала копирование, а затем стирание. Поэтому вводится соглашение о «выносе за скобки». Так, для префикса от имеем следующее преобразование:(X1ФI(отX2)) := (X1отФсл(ФI(X2) ФII(X2))).
Например, выражение «(ФI(отпил))» по этому преобразованию приобретет следующий вид: «(отФсл(ФI(пил) ФII(пил))»; далее гипотеза «ФI(пил)» сотрется (префиксов на пи нет), а после отождествления морфа л вторая из гипотез приобретет вид:
«(отФсл((пить в форме прош. вр. муж. р. ел. ч.)))».
В свою очередь, функция Фсл в таких результирующих выражениях «расшифровывается» с помощью следующих преобразований:
(X1Фсл()X2) := .
(X1Фпр((X2)X3)X4) := (X1X2X4) (X1Фсл(X3)X4)).
Смысл их таков. Те гипотезы, которые по ходу МИ не были стерты и были доведены до представления без символов функций, переоформляются в рамках того, что вынесено за скобки функции Фсл (т.е. вставляются в рамки контекста X1__X4). При этом сам контекст повторяется столько раз, сколько гипотез подтвердилось (это гарантируется рекурсивным характером Фсл). Указанные преобразования работают в определенном порядке: второе действует только тогда, когда не может работать первое.
Полученное выше выражение для словоформы отпил по второму преобразованию (первое не может работать) подучит следующий вид:
(отпить в форме прош.вр. муж. р. ед.ч.) (отФсл()).
По первому преобразованию вторая пара скобок в полученном выражении сотрется, тем самым будут элиминированы все вхождения символа Фсл.
-43-
Функция слияния будет далее часто использоваться; кроме нее можно вводить другие вспомогательные функции. Однако преобразования, связанные с их «расшифровкой» (типа приведенных выше), должны быть формулируемы все теми же нотационными средствами. Более того, можно потребовать, чтобы эти расшифровывающие преобразования работали после всех «лексических», связанных с обращением к лексикону. Вот почему Фсл в статье для префиксов типа на была бы неудачна: так, словоформа нашел, если представить анализ ее части шел как совершенно автономный, преобразовалась бы в выражение наидти, в то время как реальный вид лексемы – найти. Конечно, это требование не слишком жестко: при необходимости можно было бы прибегнуть к помощи дополнительных помет (например, префиксальных признаков). Однако соблюденность этого положения позволила бы рассматривать процесс МИ как, главным образом, «лексически ориентированный», т.е. управляемый исключительно выражением в поле зрения основных, а не специальных функций.
Приводимые ниже преобразования – не более чем примеры. Наша цель – проиллюстрировать взаимодействие преобразований в рамках системы МИ.
Предположим, что входная словоформа X подается в виде «Ф(X)» (где Ф – без сигнатуры, нейтрально). Имеем следующий набор преобразований (в лексических статьях им соответствуют крайне редуцированные схемы при указании наполнителей, – см. выше; здесь же они подаются, условно, как строки в грамматике типа порождающей):
(1) Ф(X) := (ФI(X)) (ФII(X)).
(2) (X1ФI(наX2)) := (X1наФI(X2)) (X1наФII(X2)).
(3) (X1ФI(надX2)) := (X1над(ФI(X2) ФII(X2))).
(4) (X1ФII(денX2)) := (X1[ден]Фсл(ФIII([с[1]с]X2) ФIV([ф[3][4][5]ф]X2))).
(5) (X1ФII(днX2)) := (X1[дн]Фсл(ФIII([с[3]с]X2) ФIV([ф[1] [7][8]ф]X2))) (X1[ден]ФIV([ф[2][6]ф]X2)).
-44-
(6) (X1ФIII([с[3]с]евX2)) := (X1евФсл(ФIII([с[5]с]X2) ФIV([ф[2][4][5]ф]X2))).
(7) (X1ФIII([с[4]с]екX2)) := (X1ькФсл(ФIII([с[10]с]X2) (ФIV([ф[3][6]ф]X2))).
(8) (X1ФIV([фX1[2]X2 ф]я) := (X1ь в форме Р.п. ед. ч.).
Например, словоформа дня пройдет следующие этапы интерпретации:
Ф(дня):
(ФI(дня)) (ФII(дня));
(ФII(дня)) (первая гипотеза стерта: префикса на дн в лексиконе нет);
([дн]Фсл(ФIII([с[3]с]я) ФIV([ф[1][7][8]ф]я)))([ден]ФIV ([ф[2][6]ф]я)).
Далее, поскольку суффикса «я» с признаком «[с[3]с]» и флексии я с признаком [1], [7] или [8] в лексиконе нет (выбор признаков должен быть именно таким, чтобы в случае словоформ типа дня этих помет при аффиксах типа я не оказалось), первая пара скобок будет редуцирована до функции Фсл с пустыми аргументами; имеем:
([дн]Фсл()) ([ден]ФIV([ф[2][6]ф]я)).
По первому из двух преобразований, «расшифровывающих» функцию слияния, первая пара скобок теперь сотрется; вторая же по преобразованию (8) приобретет вид:
([ден]ь в форме Р.п. ед.ч.).
В полученной интерпретации остались квадратные скобки, обозначающие границы корня. При желании, можно эти знаки снимать уже при преобразованиях для корня (например, не указывать их в преобразованиях (4), (5)). Однако иногда, для специальных видов интерпретации, – например, для семантической – указание границ морфов, с отнесением последних к классу префиксов, корней, суффиксов и т.д., бывает нужным.
Для работы семантических правил существен даже и не столько графический или фонематический вид интерпретируемых единиц, сколько наличие и последовательность соответствующих «инвентарных единиц» лексикона. Поэтому любое другое имя морфа, отличное от его графической репрезентации, было бы приемлемо для этих правил: скажем, номера морфов, вводимые правой
-45-
частью преобразований в рамках лексикона, на место опознанного морфа или его альтернанта. Такой вход в семантический компонент был бы по духу очень близок к японской системе графики: каждый (или большинство) из морфов имеет имя в виде целого символа – иероглифа (последний, в свою очередь, также может быть представлен как набор дифференцирующих элементов). Однако в нашем случае каждое имя соответствует и единственному «прочтению» морфа, в отличие от иероглифической записи, где это не всегда так.Теперь продемонстрируем те приемы, с помощью которых в рамках описанного формального аппарата могут быть отражены некоторые интересные свойства морфологии реальных языков.
Предлагаемые решения, как и формальные приемы, – не более чем предположительные. Описанный выше костяк формального аппарата допускает значительную свободу действий. По ходу обсуждения мы столкнемся с проблемами, связанными с соотнесенностью морфологического уровня, с одной стороны, и фонологического, графического и синтаксического, – с другой. От остальных уровней рассмотрения морфологический отделяется тем, что на нем основной единицей является морф (не морфема, как на лексико-грамматическом уровне, и не составляющие этот морф фонемы, на фонематическом уровне). Выделение морфов происходит в результате сканирования целого выражения, на основе графических, фонетических, пунктуационных и т.п.. свойств текста, однако конечный результат МИ в данной системе – именно морфное представление.
В русском языке чередования при словоизменении представлены обычно в морфах, идущих непосредственно перед флексией, ср.: бегу – форма от бежать, голосую – от голосовать, ср. также ковер – ковра и т.д. Поэтому обычно гипотеза о том, что
-46-
морф, находящийся в поле зрения основной функции (ФI, ФII и т.д.), должен быть заменен на альтернант, означает одновременно обычно и передачу управления функция отождествления флексии – ФIV. Так, для морфа беж имеем, среди прочих схем, и ту, которая соответствует преобразованию:(X1ФII(бежX2)) := (X1бегФIV(X2)).
Причем в реальном преобразовании должны быть указаны и надлежащие признаки флексий, перед переменной X2, а именно, признаки (например, номера) тех флексий, перед которыми происходит такое чередование.
Впрочем, такое положение в русском языке имеет место не всегда. Так, финитные формы глагола подобрать (как и других глаголов с чередующимся корнем, при определенной конфигурации последовательности согласных в корне) могут выступать и с формой префикса под, а не подо, ср. подберу. Это значит, что среди преобразований для под, как и для подобных префиксов (из – изо, раз – разо и других) имеется такое:
(X1ФI(подX2)) := (X1подоФсл(ФI(X2) ФII([п[1]п]X2))) (X1подФII([п[2]п]X2)).
Здесь признак префиксной сигнатуры [1] соответствует тем корневым морфам, которые требуют подо в инфинитиве; признак [2] имеют те основы, в которых не происходит чередование; так что в начале сегмента, идущего сразу после префикса подо, появляется стечение согласных. Таким образом, имеем для корней:
(X1[1]берX2) := (X1[бр]ФIV(X2)) … ;
(X1[2]лежX2) := (X1[леж] ФIV(X2)) …
(первое – фрагмент преобразования для корня, имеющего альтернант со стечением согласных в начале, второе – для корня без такого альтернанта).
Аналогично трактуются и другие существующие чередования: при том подходе, когда морфы, а не морфемы, образуют отдельные статьи лексикона, описание чередований (как регулярных, так и специальных для какой-либо конкретной морфемы) – задача сравнительно простая.
Отметим особый случай кельтских чередований начала слова. Как известно, в кельтских языках, наряду с обыкновенными
-47-
чередованиями основ, существуют и чередования начальных сегментов, если словоформа находится в позиции после единиц определенного класса и сама обладает определенными лексико-грамматическими признаками. Так, в валлийском языке имеем: Начальный сегмент |
Словарная форма |
После притяжательного местоимения |
||
|
ei "его" |
fy "мой" |
ei "ее" |
|
c |
ceffyl "лошадь" |
geffyl |
ngheffyl |
cheffyl |
p |
pen"голова" |
ben |
mhen |
phen |
t |
tad "отец" |
dad |
nhad |
thad |
g |
gardd "сад" |
ardd |
nghardd |
без изм. |
b |
basged "корзина" |
fasged |
masged |
без изм. |
d |
desg "парта" |
ddesg |
nesg |
без изм. |
ll |
llong "корабль" |
long |
без изм. |
без изм. |
m |
mam "мать" |
fam |
без изм. |
без изм. |
rh |
rhosyn "роза" |
rosyn |
без изм. |
без изм. |
(подробнее см. [Anwyl 1901]; [Bowen, Rhys Jones 1960]; [S.J.Williams 1959]; о соответствующих явлениях в ирландском – [Dillon, Ó Cróinín 1961]; кроме того, о кельтских "мутациях" вообще см. [Льюис, Педерсен 1954]).
Валлийские мутации могут быть интерпретированы следующим образом. Единицы, требующие после себя мутацию (типа притяжательных местоимений "его", "ее", "мой"), интерпретируются преобразованиями такого типа:
Ф(eiX1) := (["его"][Ф([1]X1)]) (["ее"][Ф([3]X1)]).
Здесь, как и далее, квадратными скобками отделены интерпретации сегментов текста, – в данном случае, разделены интерпретация местоимения и следующей за ним словоформы. Признак [1] указывает на гипотезу о возможности "мягкой мутации"; признаки [2] и [3] – соответственно, для назализации и для спирантизации. Далее имеем (уже в рамках словоформы, следующей после элемента, вызывающего мутацию) такие преобразования:
-48-
Ф([1]X1) := Ф(X1),
Ф([1]ddX1) := Ф(dX1)
и т.д., для всех указанных в таблице 1 случаев. Эти преобразования лежат на границе между фонологической, собственно морфологической и синтаксической интерпретациями, представляя собой правила, изменяющие набор дифференциальных фонологических признаков у первых сегментов словоформ. Дальнейший ход МИ здесь уже не отличается, в общих чертах, от стандартного. В приведенных примерах преобразований следует еще добавить, в правой части, те пометы, которые соответствуют семантическим признакам лексем, подвергаемых мутации (о них см. [S.J. Williams 1959]). Признак [1], как видим, имеет статус скрытой единицы лексикона.
Еще один типичный случай чередования – на фонетическом уровне – алломорфия корней, начинающихся на и в русском языке, ср.: искал – подыскать (иск / ыск) и т.п. Такое явление заставляет принять, что преобразование для префикса, оканчивающегося на согласный, оставляет в объектном выражении «след» (он соответствует указанию на наличие такого префикса); существует, кроме того, в словаре морфов с пометой ФII (корневых) преобразование для ы, при условии, что в поле зрения функции ФII имеется и след после указанного вида префиксов: тогда ы заменяется на и, и полученное выражение преобразуется далее при обращении все к той же функции ФII. А именно:
(X1ФI(подX2)) := (X1подФI([п[10]п]X2)) (X1подФII([п[10]п]X2));
(X1ФI([п[10]п]ыX2)) := (X1ФI(иX2))
(X1ФII([п[10]п]ыX2)) := (X1ФII(иX2)).
А для корней типа иск и для префиксов типа из (с алломорфом ыз – ср. исходный и безысходный) поэтому не нужно вводить дополнительной схемы, соответствующей преобразованию, распознающему такие алломорфы: указанные случаи обслуживаются одним преобразованием в рамках статьи для каждого такого морфа, например:
(X1ФII(искX2)) := (X1+искФсл(ФIII(…X2) ФIV(…X2))).
(Здесь многоточие стоит на месте необходимых конкретных признаков тех морфов – суффиксов и флексий, – которые допускаются данным корнем; «+» символизирует соответствующее «прочтение» морфа.)
-49-
В венгерском языке чередования корней типа ló – lovak («лошадь» – «лошади»), fő – fövek («голова» – «головы») трактуется, в общем, так же, как и было показано выше. Здесь же речь пойдет о явлениях типа следующих:
kalap + om + nak |
шляпа + моя + Дат. |
– «моей шляпе» |
kalap + jaim + nak |
шляпа + мои + Дат. |
– «моим шляпам» |
kalap + ok + nak |
шляпа + мн.ч. + Дат. |
– «шляпам» |
kert + em + nek |
сад + мой + Дат. |
– «моему саду» |
kert + jeim + nek |
сад + мои + Дат. |
– «моим садам» |
kert + ek + nek |
сад + мн.ч. + Дат. |
– «садам» |
Здесь мы видим проявление сингармонизма: корни с гласным переднего ряда требуют суффиксов и флексий также с гласными переднего ряда, а корни с гласным заднего ряда – аффиксов заднего ряда.
Пусть [с[1]с] – признак аффиксов заднего ряда (на «a», «o», «u»), [с[2]с] – признак аффиксов переднего ряда. Кроме того, пусть [ф[1]ф] – признак флексий, которые могут в именной парадигме словоизменения идти после корня и/или после притяжательного аффикса. Таким образом, показатель множественного числа ok и аффикс jaim обладают одним и тем же признаком [ф[1]ф].
Кроме того, в венгерском имеется явление геминации, играющее словоизменительную роль. Поэтому, чтобы сделать приводимый ниже фрагмент более близким к действительному положению вещей, мы будем учитывать также следующие соотношения между заглавной формой существительного и формой инструментального падежа:
kalap – kalappal |
шляпа – шляпой |
kalapom – kalapommal |
моя шляпа – моей шляпой |
tavasz – tavasszal |
весна – весной |
kert – kerttel |
сад – садом |
ló – lóval |
лошадь – лошадью |
este – estével |
вечер – вечером |
szó – szóval |
слово – словом |
-50-
Из приведенных примеров видно, что:
а) инструменталь от основ, кончающихся на гласный, образуется с помощью аффикса val/vel при удлинении последнего, завершающего гласного (если последний в исходной форме еще не долгий),
б) инструменталь от основ, кончающихся на согласный, образуется с помощью удвоения последнего согласного и прибавления показателя al/el;
в) удвоение согласного sz (читается как русское «с») выглядят как ssz, вместо ожидаемого szsz или szz (первый из ожидаемых случаев имеет место при переносе слов в письменном тексте, второй для основ на такой согласный никогда не реализуется).
В рамках предлагаемого аппарата указанные явления можно трактовать так: когда морф, рассматриваемый текущим преобразованием, допускает после себя показатель инструменталя, на определенном этапе выдвигается гипотеза вида: «ФIV(…|X)» (где вместо многоточия стоит последний согласный морфа), т.е. с использованием дополнительного символа |)». Для морфов инструменталя имеем такие преобразования:
(ФIV(X1|X1 аl[сX2 с]X3) := (ФIV([сX2[1]с])X3 Инстр.п.);
(ФIV(X1|X1 еl[сX2 с])X3 := (ФIV([сX2[2]с])X3 Инстр.п.).
При таком решении нет необходимости вводить промежуточную «полуфонологическую» запись или «размножать» статьи для морфов (скажем, иметь порознь статьи для морфов с удвоенный последним согласным и без удвоения).
Теперь легко видеть, что лексические статьи для корней, суффиксов и флексий должны иметь примерно следующий вид:
(ФII(kalapX1)X2) := (kalap Фсл((ФII(X1)) (ФIII(X1[с[1]с])X2) ФIV(X1[с[1]с][ф[1]ф])) (ФIV(p|X1[с[1]с])))X2);
(ФII(kertX1)X2) := (kertФсл(ФII (X1) ФIII(X1[с[2]с])X2) ФIV(X1[с[2]с][ф[1]ф])) ФIV(t|X1[с[2]с])))X2).
Для корней же типа tavaaz «весна», у которых имеется диграф, имеем, среди прочего:
(ФII(tavasszX1)X2) := (tavasz Фсл((ФII(П))(ФIII(szX1[с[1]с])) X2) (tavasz ФIV(sz|szX1[с[2]с])X2).
Наконец, для корней, оканчивающихся на гласный, имеем статьи типа:
(ФII(estéX1)X2) := (esté Фсл(ФII(X1) ФIII(X1[с[2]с]))X2) (este ФIV(v|X1[с[2]с])X2);
-51-
(ФII(lóX1)X2) := (ló Фсл(ФII(X1) ФIII(X1[с[1]с])))X2)(ló ФIV(v| X1[с[1]с])X2.
Не рассматривая статей для суффиксов (в них также учитывается свойство сингармонизма), перейдем к статьям для флексий:
(ФIV(omX1[сX2 с][ф[1]ф])X3) := (Фсл(ФIV(X1[сX2[1]с][ф[2]ф]) ФIV(m |X1 [с[1]с])) X3 притяжат. форма 1 л. ед.ч.)).
Аналогичное преобразование – для аффикса em, только вместо признака [с[1]с] здесь вставляется признак [с[2]с].
Далее:
(ФIV(jaimX1[сX2 с][ф[1]ф])X3) := (Фсл(ФIV(X1[сX2[1]с][ф[2]ф]) ФIV(m |X1 [с[1]с])) X3 мн.ч., притяжат. форма 1 л. ед.ч.));
аналогично – и для аффикса jeim.
(ФIV(okX1[сX2 с][ф[1]ф])X3) := (Фсл(ФIV(X1[сX2[1]с][ф[2]ф]) ФIV(k |X1 [с[1]с])) X3 мн. ч.)),
аналогично – для ek.
Для аффиксов Дат.п. имеем по две разных схемы:
(ФIV(nak[сX1 с][ф[1]ф])X2) := (ФIV([сX2[1]с][ф[3]ф]) X2ед. ч.))
(ФIV(nakX1[ф[1]ф])X2) := (ФIV([сX1[1]с][ф[3]ф]) X2 Дат.п.)
Аналогично – для показателя Дат.п. nek; здесь признак [ф[3]ф] – у тех аффиксов (типа é), которые могут идти после показателя Дат.п.; [ф[2]ф] – признак всех флексий, которые могут идти после притяжательных аффиксов в рамках одной словоформы.
Из цикла преобразований ФIV выходим, когда в поде зрения функции ФIV, в самом начале объектного выражения, появляется символ признака; тогда управление передается функции Фпр:
(ФIV([с X1)X2) := (Фпр([сX1)X2.
Функция Фпр («проверка») устанавливает, соблюден ли сингармонизм. Действительно, как видно из приведенных выше преобразований, нигде до сих пор при анализе очередного аффикса не отвергались те гипотезы, в которых текущий морф не сингармоничен с предшествующей последовательностью морфов, – просто констатировался факт того, что через поле зрения прошел аффикс с тем или иным признаком гармонии [с[1]с] или [с[2]с], – а соответствующий признак записывался в конце единичной гипотетической
-52-
интерпретации. Такое решение соответствует той интуиции, что формы с нарушениями сингармонизма маркированы как отклоняющиеся, но понятны (интерпретируемы) – в отличие от форм с неправильной расстановкой морфов или с несуществующими морфами.Функция проверки расшифровывается следующими преобразованиями, работающими в строгой последовательности (Фпр аналогична в этом отношении Фсл, см. выше):
(Фпр([с[X1][X1]X2 с])X3) := (Фпр([с[X1]X2 с])X3);
(Фпр([с[X1[X2]X3 с])X4 := (X3 при нарушении сингармонизма);
(Фпр([с[X1]с])X2) := (X2).
И, наконец, последнее замечание. В венгерском, как и в других агглютинативных языках, значимо отсутствие морфа. Так, отсутствие морфа числа в именной словоформе говорит о том, что мы имеем дело с формой единственного числа; наличие же морфа числа указывает на приписывание словоформе категории множественного числа. Отсутствие падежного морфа говорят о категории именительного падежа и т.д. Поэтому перед переходом к функции Фпр должны быть помещены преобразования типа:
(ФIV([сX1 с][ф[1]ф])X2) := (Фпр([с X1 с])X2 непритяжательная форма, ед.ч., Именит.п.):
(ФIV([с X1 с][ф[2]ф])X2) := (Фпр([с X1 с])X2 ед.ч.. Именит.п.).
Итак, наличие агглютинации отражается, в рамках описываемого подхода, как условия перехода от словоформы, уже проанализированной полностью в рамках лексикона морфов, к работе функции проверки соблюденности сингармонизма. Не с этим ли обстоятельством связано то, что агглютинация и сингармонизм столь часто являются характерными свойствами одних и тех же языков? Действительно, с «функциональной» точки зрения, установление в морфологической интерпретации невыраженности категории (как мы выше охарактеризовали агглютинацию) вполне может быть совмещено с таким «металексиконным» переходам, как переход к функции проверки, что делает такой переход более органичным, функционально осмысленным («рентабельным»).
Впрочем, сам формальный аппарат не накладывает никаких ограничений на совместную представленность агглютинации
-53-
и сингармонизма: в его рамках объяснения функциональной сущности таких явлений выглядят как выводимые на основе наблюдений над соотнесенностью преобразований.Здесь речь пойдет о редупликации с модифицированным корневым морфом – типа древнегреческого. Так, имеем случай без модификации:
γράφω – γέγραφα – (я) пишу – писал,
λύω – λέλυκα – (я) развязываю – развязывал,
πλάττω – πέπληγα – (я) ударяю – ударял,
и случаи с модификацией:
χωρέω – κεχώρηκα – (я) иду – шел,
φονέυω – πεφόνευκα – (я) убиваю – убивал,
θύω – τέθυκα – (я) жертвую – жертвовал, и т.д.
Редуплицированный корень бывает в формах перфекта, плюсквамперфекта и будущего-III (подробнее см. [Соболевский 1948, с. 91 и далее]). В общем случае редупликация без модификации, как в первой группе примеров, имеет место, когда корневой морф начинается сочетанием несонорного непридыхательного с плавным согласным, или когда корень начинается просто согласным (кроме ρ). Модификация же происходит, когда начальный согласный основы презенса – придыхательный (как во второй группе случаев); корни, начинающиеся на гласный, здесь рассматриваться не будут: этот случай трактуется как обыкновенное чередование морфов.
Пусть признак [ф[1]ф] относится к флексиям перфекта, плюсквамперфекта и будущего-III, а признак [с[1]с] – тот, который в лексиконе приписан основам, редуплицирующимся без модификации. Тогда имеем, например:
(ФII(λέX1)X2) :=(ФII(λ|X1[ф[1]ф]));
(ФII(γέX1)X2) :=(ФII(γ|X1[ф[1]ф] [с[1]с]));
(ФII(πέX1)X2) :=(ФII(π|X1[ф[1]ф] [с[1]с])) (ФII(φ|X1[ф[1]ф])
(наличие двух гипотез в последней схеме соответствует возможности π быть модификатором одновременно как для π, так и для φ);
(ФII(τέX1)X2) := (ФII(τ|X1[ф[1]ф][с[1]с]) (ФII(θ|X1[ф[1]ф]), и т.д.
-54-
А для корневых единиц имеем следующий формат преобразований:
(ФII(λ|λυκ [ф[1]ф])) := (λύωФIV(X1[ф[1]ф]));
(ФII(γ|γραφ[ф[1]ф])) := (γράφωФIV(X1[ф[1]ф]));
(ФII(π|πληγ [ф[1]ф])) := (πλήττωФIV(X1[ф[1]ф]));
(ФII(φ|φόνευκ[ф[1]ф])) := (φονέυωФIV(X1[ф[1]ф])).
Так, мы видим, что здесь может быть использован тот же нотационный прием, что и в случае геминации – использование символа «|», – причем распространенный и на модифицированное повторение.
Остается открытым вопрос о том, следует ли заглавную глагольную форму (1 л. ед.ч. презенса) подавать сразу же перед символом функции ФIV – или же флексию этой формы следует подавать тем же способом, что и при восстановлении формы Им.п. ед.ч. в русском языке. Кроме того, показатель перфекта κ здесь рассматривается как часть корня – корнеобразующий (а не основообразующий) форматив. В принципе, его можно было бы также рассматривать за пределами корня, указывая на то, возможен ли такой форматив (как в статьях для корней типа λυ) или невозможен (как в случаях типа πέπληγα).
Рассмотрев редупликацию в греческом, мы убеждаемся в том, что нет необходимости в морфологическом анализе «с возвращениями на начало», как пришлось бы поступить в некоторых других концепциях (см., например, [P.H.Matthews 1974]). Кроме того, наличие статей для отдельных альтернантов вовсе не предполагает хранения всех альтернантов: даже при морфном инвентаре имеются возможности для экономии пространства в лексиконе.
Под поглощением понимается тот случай, когда в сочетании двух морфов повторяющийся сегмент, лежащий на стыке, в поверхностной структуре не виден – «поглощен». Например, в немецкой орфографии, как известно, не допускаются последовательности типа ß + s, т.е. ss+s; Ср. mußt «(ты) должен». Словоформа grüßt «(ты) приветствуешь»к тому же омографична форме, имеющей значение«(вы – 2 л. мн.ч.) приветствуете» и т.п. Естественно для формы
-55-
2 л. ед.ч. настоящего времени считать флексию st – т.е. ту же, что и в остальных случаях, а не рассматривать многозначный морф t (который был бы флексией и множественного, и единственного числа 2 лица). Кроме того, в орфографических системах, находящих широкое применение в Австрии, Швейцарии и др., а также (в меньшей степени) – в ГДР и ФРГ, буква ß заменяется регулярно на сочетание ss. Поэтому дополнительно к сказанному приходится рассматривать такие примеры поглощения, как: Baschlüssel «басовый ключ» (Bass + Schlüssel), Bassänger (Bass + Sänger «бас + певец») и многие другие (Grosschreibung, Grosstadt, grossmasstäbig).Если признаком [ф[5]ф] пометить глагольные флексии релевантного класса, то все эти случаи могут быть проинтерпретированы с помощью схем преобразований такого типа:
(ФII(grüss X1)X2) := (grüss Фсл(ФIV(sX1[ф[5]ф]) ФIV(X1[ф[5]ф]) ФIII(sX1) ФIII(X1) Ф(sX1) Ф(X1))X2).
Иначе говоря, для корней типа grüss выдвигаются парные гипотезы: одна – о том, что морф, следующий за данным, начинается с «поглощенного» s, а другая – о том, что поглощения нет.
Основы, состоящие более чем из одного корня, особенно в языках с продуктивным основосложением (в немецком, венгерском, финском, латышском и многих других), представляют, пожалуй, непреодолимые трудности для тех подходов, в которых последовательно реализуется принцип хранения всех реальных основ (а не морфов): в таких концепциях приходится либо вообще отказаться от рассмотрения морфологического анализа не заготовленных заранее основ (переводя их, например, в ведение синтаксиса), либо же поступиться принципам наложения хранимой основы на анализируемую словоформу. В нашем формальном аппарате такие случаи интерпретируются как регулярные: ведь распознавание ведется поморфно, при выдвижении гипотез о том, какой класс морфов может быть представлен после текущего опознанного. В языках, в которых сложение основ происходит
-56-
при участии соединительных элементов (соединительных гласных – как в русском, греческом, армянском и других; соединительного элемента – типа s в немецком), гипотеза о том, что после одного корня возможен другой (или даже другая основа, начинающаяся на префикс), формируется в рамках словарной статьи для этого соединителя, ср. (знаком «_» помечены границы корней):звук_о_свет_о_метр_ич_ес_к_ий (с прозрачной внутренней формой; содержит два соединительных гласных);
музык_ал_ьн_о-_литер_ат_ур_н_ый (где один из соединительных элементов в качестве своего подэлемента имеет дефис).
В таких случаях среди прочих возможностей перехода от корней типа звук, от суффикса ьн и т.п. должно быть указание на возможность того, что далее может идти другая основа (в частности, другой корень) или соединительный гласный:
(X1ФI(звукX2)) := …(X1[звук]ФIII(X2))…;
(X1ФIII(ьнX2)) := (X1ьнФIII(X2))… .
Для соединительного элемента имеем:
(X1ФIII(оX2)) := (X1оФ(X2))….
В языках же, регулярно обходящихся без соединительных элементов, как и в случае русских корней типа парт, ком и т.п., гипотеза о наличии далее в слове еще одной основы выдвигается непосредственно при обращении к лексической статье корня. Ср.:
венг. szer_szám_gép_gyár_t_ás (букв.: «средство + количество + машина + завод + суффикс каузации + суффикс номинализации»), т.е. «производство станков», где русскому станок соответствует венгерское сочетание с внутренней формой «средство + количество + машина», а русскому «производство» – остальная часть венгерской композиты;
нем. Land_wirt_schaft_s_wiß_en_schaft (букв.: «земля + хозяин + суффикс абстрактного существительного + соединительный элемент + знать + соединительный элемент + суффикс абстрактного существительного»), т.е. «сельскохозяйственная наука».
-57-
Речь здесь идет о тех явлениях, которые представлены в языках типа немецкого, венгерского и т.п., когда имеем:
нем. ansprechen «обращаться (к кому) с речью» – angesprochen – то же, в форме пассивного причастия, anzusprechen – то же, при инкорпорированной «целевой частице» zu (возможна в форме инфинитива и причастия, имеющего значение латинского супина); ср.: Peter sprach Anna an «Петер заговорил с Анной» (когда префикс отделен).
В немецком отделяться могут только те префиксы, которые в инфинитиве имеют ударение; если у глагола одновременно несколько префиксов, то отделяться может та непрерывная самая левая часть префиксального сочетания, которая не содержит ни одного неотделяемого префикса и непосредственно после которой в инфинитиве идет либо корень, либо неотделяемый префикс (в иных терминах об этом см. [Москальская 1958]). Примеры потенциально отделяемых префиксов: an, auf, vor; к потенциально неотделяемым относятся: ver, ent, be, ge (как в gebrauchen «использовать»; последний префикс омонимичен формативу пассивного причастия, см. ниже). Префиксы типа über, unter могут быть как ударными (и, соответственно, отделяемыми), так и безударными, ср. untergehen «разрывать» и untergehen «(в переносном смысле) подкапываться». В соответствии со сказанным, в сочетании префиксов anver, anbe отделяемая часть an, а в сочетаниях veran, bean отделяемой части нет.
Рассмотрим сначала случай не отделенного в тексте префикса или префиксального сочетания, затем – отделенного.
Пусть [п[1]п] – признак основы (в частности, возможно, и корня) в форме пассивного причастия. Как известно, после неотделяемого префикса такая основа не имеет форматива ge-. Пусть далее [п[2]п] – признак целевой частицы zu. Эта частица омонимична одному из отделяемых префиксов (недаром возможна форма zuzusprechen). Она пишется отдельно от словоформы, если отделяемая префиксальная последовательность равна нулю, и находится
-58-
между отделяемой префиксальной последовательностью и остальной частью, входя в состав целого графического слова (примеры даны выше). [с[1]с] – признак тех форм, которые могут принимать целевую частицу (т.е. признак инфинитива и активного причастия). [с[2]с] – признак пассивного причастия: он ассоциирован с соответствующим формативом. На примере схем для нескольких единиц покажем, как интерпретируются некоторые типовые формы.(ФI(verX1)X2) := (ver Фсл((ФI(X1[п[1]п])X2) (ФII(X1[п[1]п]) X2) (ФI(X1)X2) (ФII(X1)X2))).
Аналогично выглядят статьи и для остальных неотделяемых префиксов. Для отделяемых префиксов имеем:
(Ф I(an X1)X2) := (an Фсл((Ф I([п[2] п]X1)X2) (ФI(X1)X2) (ФII (X1)X2).
Как видим, здесь выдвигаются такие гипотезы:
а) непосредственно за отделяемым префиксом последует целевая частица,
б) имеется еще один префикс и
в) далее следует корень
Отметим также, что отделяемые префиксы в предложении могут образовывать графическое слово с основой не только в инфинитиве, но и в финитных формах, а именно, в конце придаточного предложения, поэтому и не маркированы признаки финитного глагола; не так в случае неотделяемого префикса: при нем набор форм, которые должны быть маркированы, довольно ограничен.
Префиксы, выступающие и как отделяемые, и как неотделяемые, получают схему преобразования, в которой объединены все упомянутые виды гипотез, а именно:
(ФI(über X1)X2) := (über Фсл((ФI(X1[п[1]п])X2) (ФI([п[2]п]X1) X2) (ФI(X1)X2) (ФII(X1[п[1]п])X2) (ФII(X1)X2))).
Для целевой частицы имеем:
(ФI([п[2]п] zu X1)X2) := (Фсл((ФI(X1[с[1]с])X2) (ФII(X1[с[1]с]) X2)) с целевой частицей).
Иначе говоря, в результате МИ целевая частица выносится за пределы лексемы, в соответствии с традиционным способам разбора. Для префикса zu- имеем схему, аналогичную той, что была выше приведена для an-: этот префикс также является отделяемым.
Форматив пассивного причастия ge- удобно считать частью корня, в отличие от омонимичного неотделяемого префикса
-59-
(для которого схема аналогична схеме для ver-). Итак, имеем для этого форматива:(ФII(ge X1)12) := (ФII(X1[п[1]п])X2).
Вводимый по этой схеме признак [п[1]п] маркирует указанные причастия. Для корневых морфов глаголов, входящих в аблаутный ряд, имеем, например:
(ФII(sproch X1[п[1]п])X2) := (sprech ФIII([с[2]с]X1)X2)(sproch ФIII ([с[2]с]X1)X2).
При этом учитывается тот факт, что данный корень может входить как в глагольную форму (и тогда должен быть «восстановлен» до инфинитивного варианта), так и в состав производной лексической единицы, типа ausgesprochen («явный», «отъявленный»), помещаемой в обыкновенный словарь потому, что сам глагол не обладает соответствующими коннотациями (ср. aussprechen «произносить»).
Случай корневых морфов так называемых «сильных» глаголов (не входящих в аблаутные ряды):
(ФII(mach X1[п[1]п])X2) := (mach ФIII([с[3]с]X1)X2),
где [с[3]с] – признак всех тех суффиксов, которые допустимы при таком нечередующемся корне.
Наконец, приведем пример схемы для показателя пассивного причастия:
(ФIII([с[2]с]en X1)X2) := (en ФIII(X1)X2) (ФIV([ф[1]ф]X1)X2 в форме пассивного причастия).
Такая схема допускает указанный суффикс как в составе деривата (по первой гипотезе этот элемент останется в составе гипотетической лексемы), так и в составе отглагольной формы, – тогда этот элемент стирается, но при этом допускается гипотетическая возможность того, что пассивное причастие употреблено не только в составе анализируемой формы (типа Peter hat Anna angesprochen), но и в качестве атрибута (как в сочетании ein versprochenes Buch «обещанная книга»). Признак [ф[1]ф] маркирует возможности остатка словоформы быть флексией: а именно, эта флексия должна быть той же, что и у прилагательных.
На остальных моментах интерпретации глагольных словоформ с неотделенными префиксами мы здесь останавливаться не будем: они не отклоняются от стандарта. Отметим только,
-60-
что при нашем подходе поведение таких глаголов, как transportieren «транспортировать», не вызывает никаких трудностей, – они в пассивном причастии не имеют показателя ge-, т.е. ведут себя так, как если бы обладали неотделяемой приставкой; аналогично – и для глаголов без «скрытого» неотделяемого префикса, как в случае глаголов на –ieren (marschieren «маршировать» и т.п.): возможность интерпретации соответствующей формы как пассивного причастия указывается в статье для суффикса -ier.Перейдем теперь к случаю отделенной префиксальной последовательности, когда финитная форма глагола находится во второй позиции в предложении (после некоторой целой составляющей – субъектной, объектной или обстоятельственной; союзы типа denn считаются не занимающими никакой позиции), а префиксальная последовательность – в конце предложения (см. примеры выше). Морфологическая интерпретация таких случаев, очевидно, была бы неудовлетворительной, если бы мы не приходили к словарному виду «разъединенной» лексемы: известно, что наличие префиксальной последовательности отражается на семантическом толковании глаголов. Оказывается, что морфологическая интерпретация тесно переплетается с синтаксической: наличие отделенной последовательности устанавливается только тогда, когда в поле зрения морфологического интерпретатора попадает конец предложения-составляющей. Поэтому анализ финитной формы глагола, не содержащей в интерпретируемом предложении последовательности отделяемых префиксов, выглядит так. «Визир» морфологического интерпретатора находится в ведении синтаксического интерпретатора. Очередное выражение после пробела, на которое он направляется (при движении визира синтаксического интерпретатора, как всегда, слева направо), подвергается морфологической интерпретации (т.е. перед ним ставится символ функции морфологического анализа), а визир самого синтаксического интерпретатора остается на месте, не сдвигаясь со своей последней позиции. После того как морфологический интерпретатор проанализировал всю текущую текстовую форму, дойдя до ближайшего текстового пробела, возможно одно из двух:
а) среди гипотетических интерпретаций имеется та, в которой эта текстовая
-61-
форма может, в принципе, быть «обезглавленной» глагольной формой, то есть, формой, продолжение которой – префиксальная последовательность – может, гипотетически, находиться в конце простого предложения; иб) таких гипотетических интерпретаций анализируемая словоформа не имеет.
В первом случае синтаксический же интерпретатор выдвигает гипотезу о наличии «отделенной головы», передвигая при этом визир морфологического интерпретатора на начало следующей текстовой формы; визир же синтаксического интерпретатора остается пока что неподвижным: он сдвигается только тогда, когда указанная гипотеза будет подтверждена (т.е. когда будет найден префикс или префиксальное сочетание непосредственно перед символом конца фразы, кстати, там, где омонимичный предлог находиться не может) или опровергнута (нужной «головы» найдено не будет, а визир морфологического интерпретатора перешагнет через границу фразы)[2].
В голландском, близком к немецкому, трактовка несколько иная: то, что мы имеем дело с причастной формой, всегда устанавливается при обращении к началу формы (ср. getransporteert от глагола transporteren); в частности, этому способствует то, что целевая частица te (соответствует немецкой zu) пишется отдельно от глагола всегда, даже в случае префиксальных форм. Ср. om uit te gaan «для того, чтобы выйти» (ср. uitgaan «выйти» и соответствующее немецкое um auszugehen). Легко видеть, в каких моментах описание голландских схем интерпретации будет отличаться от немецких. Наглядность такого сопоставления в рамках предлагаемого подхода представляется еще одним, косвенным, соображением в пользу интерпретирующей морфологии.
Итак, попутно мы пришли к такому разделению задач: синтаксический интерпретатор стремится к интеграции анализируемой структуры в одно целое, «без швов»; он же направляет
-62-
движение поля фокуса зрения морфологического интерпретатора. Морфологический интерпретатор реконструирует словарную форму по текстовой у тех выражений, на которые направлено его поле зрения в текущий момент, и поставляет синтаксическому интерпретатору сведения, определяющие возможности переместить поле зрения на последующие единицы текста. Это позволяет анализировать тексты не только с размеченными концами предложений, но и без них, и даже тексты с неправильно произведенной разметкой: в последнем случае интерпретирующая система в состоянии имитировать деятельность внимательного читателя – редактора.Аналогично работает синтаксический интерпретатор и при выяснении того, к какому глаголу относится отрицание в языках типа немецкого, как в примере Peter sprach Anna gestern nicht an «Петер вчера вечером к Анне не обращался» (отрицание nicht «привязано» к глаголу ansprechen, у которого, кроме того, в дистантной позиции находится и префикс). Аналогично же обращение и с так называемыми «предлогами на мели» (stranded prepositions) В английском, датском и др., ср.:
англ . We have to wait for John «Нам нужно подождать Джона»
We have nobody to wait for «Нам некого ждать»
дат. Det tænker jeg slet ikke på «Об этом я совсем не думаю»
Jeg tænker ikke рå Jens «Я не думаю о Енcе».
Здесь речь идет не обязательно о приведении к некоей единообразной синтаксической схеме: скорее целью такого синтаксического интерпретатора является установление тех связей, которые в одних предложениях даны явно, а в других – нет. Для процесса МИ такая интерпретация существенна только в той степени, в какой она связана с восстановлением «разрозненной» лексемы.
Сходную же ситуацию имеем и при интерпретации местоименных энклитик в испанском, итальянском, португальском, новогреческом и других языках (проблеме местоименных «клитик» посвящена обширная литература, см. [Emonds 1975], [Klavans 1979], [Perlmutter 1971], [Warburton 1977]). Нечто похожее имеем и в семитских языках: если объект выражен полной
-63-
именной составляющей, то имеем «чистую» форму глагола; если же объект представлен местоимением (личным или анафорическим), то местоимение (зачастую видоизмененное) «приклеивается» к глагольной словоформе, образуя с ним графическое и фонологическое слово (см. раздел 6.7). Возможна даже энклитизация не одного, а одновременно двух таких местоимений: одно соответствует прямому, а другое – косвенному объекту. Ср. в испанском: dámelo «дай мне это» (da «дай», me «мне», lo «это») – da el libro a Maria «дай книгу Марии». В таких случаях при морфологической интерпретации достигается единообразие синтаксического представления, а именно, тем же способам, каким трактуется в немецком целевая частица (см. выше).На примере трактовки древнееврейского глагола покажем, как предлагаемый формальный аппарат преобразует текстовую форму (в которой, как правило, не указаны гласные) в ее морфологическую интерпретацию с указанием возможных способов прочтения.
В семитских системах письменности принят порядок записи справа налево, прячем регулярно отражается консонантный «костяк», а гласные только иногда подаются как диакритики над и под буквами согласных. Способ прочтения таких текстовых форм обычно легко определяется по ходу морфологической интерпретации носителем языка, знающим служебные аффиксы, правила получения «производного корня» (т.е. основы, получаемой регулярными способами из обычно трехсогласного корня), а также парадигмы словоизменения. Продемонстрируем это на примере форм 3 лица имперфекта; их семантика расплывчата в сравнении с имперфектом европейских языков; в традиции европейских описаний эти формы условно переводятся как будущее время.
Положим, что Ф морфологического анализа сразу же передает управление двум гипотезам:
а) анализируемая форма начинается словоизменительным формативом (ФI) и
б) в начале имеем корень (ФII).
-64-
То есть:
Ф(X) := (ФI(X/)) (ФII(X/)).
Здесь пространство после косой черты в каждой из вводимых гипотез предполагается дополнить по ходу преобразований указанием на способ прочтения; оно будет дано в псевдофонетической записи кириллицей. В формах имперфекта флексионные формативы идут и в начале словоформы («преформативы»), и в конце («постформативы»). Для преформатива 3 лица имеем следующее преобразование (буква ’ соответствует йоту в обычной транскрипции):
(ФI(X1י/X2)) := (ФII([ф[1]ф][ф[2]ф]X1/Ф(Й)) в форме имперфекта 3 л. ед. ч.) (ФII([ф[1]ф][ф[3]ф]ФII(X1) /Ф(Й)) в форме имперфекта 3 л. мн. ч.).
По этому преобразованию выдвигаются две гипотезы: данная форма относится к единственному числу – признак [ф[2]ф] – или ко множественному – признак [ф[3]ф]. Причем признак [ф[1]ф] имеется в обеих гипотезах: он квалифицирует имперфект 3 лица. Аналогично выглядят преобразования и для других преформативов. В нашем же случае одновременно с «проработкой» преформатива мы получаем и фонологическое его представление – символ Й, позже обретающий огласовку. К преформативам же относятся, например, Т (ת) и М (מ). Так как преобразования для преформативов могут работать после преобразований для элементов типа союза ו «В» (переводится как русское «и»), огласовка которого также зависит от контекста и дается стандартными преобразованиями, в левой части приведенного выше правила имеется символ переменной X2. Одной из особенностей рассматриваемого языка является то, что фонетическую интерпретацию можно получить только после установления МИ всей словоформы: имеются строгие правила редуцирования и огласовки при чтении связанных текстов (литературный арабский в этом отношении проще).
Переходя к преобразованиям для ФII, ограничимся в изложении основами «нестативных» глаголов, типа Qа:ТаЛ «убивать» קטל (Q читается как гортанное к, Т – как «эмфатическое» т, в отличие от простого т – ת). Корень может быть в словоформе представлен на письме так:
а) в своем словарном виде, קטל,
б) с «интерфиксам» и: «и долгим» קטיל,
в) с интерфиксом у: «у долгим», קטול,
г) с наращением к тому или иному согласному чистого корня (как в случае основ рефлексива).
Для первых трех случаев имеем:
-65-
(ФII(X1 קטל /X2)X3) := (ФIII([к[1]к]X1 /X2Г1(Q)Г2(Т)ГЗ(Л)) X3 корень QТЛ);
(ФII(X1 קטיל /X2)X3) := (ФIII([к[2]к]X1 /X2Г1(Q)Г2(Т)И(и:))ГЗ(Л)) X3 корень QТЛ);
(ФII(X1 קטול /X2)X3) := (ФIII([к[3]к]X1 /X2Г1(Q)Г2(Т)И(у:))ГЗ(Л)) X3 корень QТЛ).
В скобках при символах Г1, Г2, Г3 стоят, соответственно, первый, второй я третий согласный словарной формы корня, а при символе И – интерфикс. Соответственно этим трем случаям интерфиксов имеем знаки корня – [к[1]к], [к[2] к] или [к[3] к]. Для рефлексивной (производной) основы наращение (т.е. тот форматив, который такую основу образует) удобно считать частью корня, – т.е. говорить об отдельной словарной статье. Так, для корня QТЛ, с которым форматив т рефлексивной основы не ассимилируется, имеем:
(ФIIX1 תקטל /X2)X3) := (ФIII(X1 /X2Г1(тьQ)Г2(Т)ГЗ(Л)X3 рефлексивная основа корня QТЛ).
(где т читается как русское «т», а «ть» – как спирантизированное т, типа английского глухого th).
Постформатив 3 лица имперфекта представлен нулевым морфом для единственного числа и морфом וּ «у:» – для множественного. Однако после постформативов могут идти местоименные энклитики; например, форма «ЙиQТeЛу:Ни:» переводится «(они) убьют меня» (символ "e"означает беглый гласный, «шва», в огласованных текстах помечаемый как двоеточие под согласным; здесь же в фонетической транскрипции мы будем указывать только произносимые шва: обозначаемые в огласованном тексте, но не произносимые «глухие» шва в транскрипции нет смысла указывать). Итак, для постформатива וּ имеем:
(ФIII(X1[ф[3]ф]X2 וּ /X3)X4) := (ФIV(X1[ф[4]ф]X2 /X3 у:) X4).
Признаком [ф[4]ф] помечаются флексии типа «у:»: они являются потенциально ударными, а это существенно при определении
-66-
огласовок у корня. Этот признак заменяет введенный ранее признак множественного числа; если такой замены по ходу интерпретации не произошло, на выходе могут появиться гипотезы с признаком [ф[3]ф], которые будут автоматически отсеяны как посторонние: действительно, если мы вводим признак [ф[3]ф], значит, мы тем самым уже предполагаем наличие в дальнейшей части, после корня, соответствующего форматива. Последнее приведенное выше преобразование передает управление функции ФIV – анализу энклитик. Для энклитики 1 лица единственного числа имеем:(ФIV([X1] ני /X2)X3) := (Фпр ([с[1]с][X1]/X2 Ни:)X3 + энклитика 1 л.ед. ч.)
([с[1]с] – признак потенциально безударной энклитики).
Кроме того, имеем нелексическое правило безусловного перехода к Фпр (работает, если энклитик в словоформе нет):
(ФIV([X1]/X2)X3) := (Фпр([X1]/X2)X3).
Функция проверки в данном случае «расшифровывается» как набор преобразований, определяющих по результату просмотра всего выражения возможные способы огласовки. Такой подход соответствует тому интуитивно оправданному взгляду на чтение древнееврейского текста, согласно которому фонетическая посегментная интерпретация устанавливается «пословно», а не посегментно, т.е. не так, как в обычном европейском письме. Кроме того, Фпр стирает неподтвержденные гипотезы.
Дадим примеры реальных словоформ 3 лица имперфекта с энклитикой «Ни:» (1 лица единственного числа) и без нее, для различных видов основ от корня QТЛ (см. таблицу 2).
Для форм с данной энклитикой по семантическим соображениям в 3 лице единственного числа возможны только указанные словоформы от QТЛ; кроме того, не приведены формы множественного числа, их огласовка та же, что и в единственною числе.
Теперь легко проследить, как приведенные в таблице 2 интерпретации получаются при участии следующих преобразований для Фпр:
(Фпр([с[1]с][к[1]к][ф[1]ф][ф[4]ф]/Ф(X1)Г1(X2)Г2(X3)ГЗ(X4)X5)X6) := (X1иX2X3eX4X5X6 основа Qâl) (X1eX2X3 eX4X5X6 основа Pi‘‘êl)
-67-
Таблица 2
№ |
Форма без огласовки |
Традиционное имя основы |
Транскрипция |
Перевод |
1 |
יקטל |
Qâl |
Йи QТол |
он убьет |
2 |
то же |
Niph‘al |
Йи QQа:Те:Л |
он будет убит |
3 |
то же |
Pi‘‘êl |
Й eQаТТе:Л |
он будет много убивать |
4 |
то же |
Pu‘‘al |
Й eQуТТаЛ |
то же, пассив |
5 |
יקטיל |
Hiph‘îl |
Йа QаТТи:Л |
он прикажет убить |
6 |
יקטל |
Hoph‘al |
Йо QТа:Л |
то же, пассив |
7 |
יתקטל |
Hithpa‘‘êl |
ЙитьQаТТе:Л |
он убьет себя |
8 |
יקטלוּ |
Qâl |
Йи QТeЛу: |
они убьют |
9 |
то же |
Niph‘al |
Йи QQа:ТeЛу: |
они будут убиты |
10 |
то же |
Pi‘‘êl |
ЙeQТТ eЛу: |
они будут много убивать |
11 |
то же |
Pu‘‘al |
ЙeQуТТ eЛу: |
то же, пассив |
12 |
יקטילוּ |
Hiph‘îl |
Йа QТи:Лу: |
они прикажут убивать |
13 |
יקטלוּ |
Hoph‘al |
Йо QТeЛу: |
то же, пассив |
14 |
יתקטלוּ |
Hithpa‘‘êl |
ЙитьQаТТе:Лу: |
они убьют себя |
15 |
יקטלני |
Qâl |
Йи QТeЛе:Ни: |
он убьет меня |
16 |
то же |
Pi‘‘êl |
ЙeQаТТ eЛе:Ни: |
он (энергично) убьет меня |
17 |
יקטילני |
Hiph‘îl |
Йа QТи:Ле:Ни: |
он прикажет убить меня |
(по этому преобразованию получаются формы 3 лица множественного числа с энклитикой);
(Фпр([с[1]с][ф[1]ф][ф[4]ф]/Ф(X1)Г1(X2)Г2(X3)И(и:)ГЗ(X4)X5)X6) := (X1аX2X3и:X4X5X6 основа Hiph‘îl)
(то же, что и предыдущее, но для основ с интерфиксом);
(Фпр([с[1]с][ф[1]ф][ф[4]ф]/Ф(X1)Г1(X2)Г2(X3)ГЗ(X4)X5)X6) := (X1иX2X3eX4е:X5X6 основа Qâl) (X1eX2аX3eX4е:X5X6 основа Pi‘‘êl)
(по этому преобразованию получаются строки 15 и 16 из таблицы 2, соответствующие единственному числу с энклитикой);
(Фпр([с[1]с][ф[1]ф][ф[2]ф]/Ф(X1)Г1(X2)Г2(X3)И(и:)ГЗ(X4)X5)X6) := (X1аX2X3и:X4е:X5X6 основа Hiph‘îl)
(ср. строку 17).
-68-
По этим преобразованиям, работающим только при наличии признака [с[1]с], получаются формы с энклитиками. Следующие преобразования интерпретируют многочисленные формы без энклитик:
(Фпр([ф[1]ф][ф[4]ф]/Ф(X1)П(X2)Г2(X3)ГЗ(X4)X5)X6) := (X1иX2X3eX4X5X6 основа Qâl) (X1иX2X2а:X3eX4X5X6 основа Nip‘al) (X1eX2aX3X3eX4X5X6 основа Pi‘‘êl) (X1eX2уX3X3eX4X5X6 основа Pu‘‘al) (X1оX2X3eX4X5X6 основа Hoph‘al) (X1иX2аX3X3eX4 X5X6)
(по этому преобразованию получаются строки 8-11, 13 и 14);
(Фпр([ф[1]ф][ф[4]ф]/Ф(X1)Г1(X2)Г2(X3)И(и:)ГЗ(X4)X5)X6) := (X1аX2X3и:X4X5X6 основа Hiph‘îl)
(ср. строку 12):
(Фпр([ф[1]ф][ф[2]ф]/Ф(X1)Г1(X2)Г2(X3)ГЗ(X4))X5) := (X1иX2X3о:X4X5 основа Qâl) (X1иX2X2а:X3е:X4X5 основа Niph‘al) (X1eX2аX3X3е:X4X5 основа Pi‘‘êl) (X1 eX2уX3X3аX4X5 основа Pu‘‘al) (X1оX2X3aX4X5 основа Hoph‘al) (X1иX2аX3X3е:X4X5)
(ср. строки 1-4, 6 и 7);
(Фпр([ф[1]ф][ф[2]ф]/Ф(X1)Г1(X2)Г2(X3)И(и:)ГЗ(X4))X5) := (X1аX2X3и:X4X5 основа Hiph‘îl)
(ср. строку 5).
Как видим, МИ дает не только указание на грамматическую форму и способы прочтения, но и на вид основы. В традиционных семитских словарях статьи сгруппированы вокруг корней, образуя деривационные гнезда; вид основы, как правило, не указывается, а обычно «вычисляется» человеком, исходя из заглавного корня (для глагола – из формы перфекта 3 лица единственного числа основы Qâl; например, Qа:ТаЛ «убивать») и указания основы с помощью «традиционного имени» (типа: Pu‘‘al).
В основном те же преобразования – с точностью до содержимого X1 в скобках при символе «ф» – и для остальных форм имперфекта, кроме 1 лица единственного числа. Иначе говоря, выражение Ф(X1) в преобразованиях для Фпр может иметь X1 равным Й (для 3 лица), т (для 2 лица и для 3 лица женского рода) и Н (для 1 лица множественного числа). Для форм причастий нескольких видов основы X1 может быть равно М.
-69-
Для близкородственного языка, арабского, общий вид преобразований – их «стилистика» – та же; однако имеются сильные расхождения относительно количества возможных основ – в арабской грамматической традиции «пород» корней. В арабском количество пород (если учитывать и сравнительно редкие породы) больше, чем в древнееврейском.
В связи с рассмотренными соотношениями встает следующий практический вопрос: должен ли лексикон содержать в явном виде все возможные, потенциальные основы (породы) для каждого из корней – или же достаточно хранить только сами корни, а вид основы выяснять по ходу морфологической интерпретации? Видимо, наиболее естественное решение – посередине. В качестве отдельных единиц, кроме заглавного корня, достаточно хранить те виды основ для каждого корня, которые:
а) реально возможны (т.е. не противоречат семантике корня), причем
б) на письме отличаются от заглавного корня (заглавной породы) тем, что содержат деривационные элементы внутри корневой оболочки (типа т в рефлексивной основе), т.е. между первым и последним корневыми согласными.
Тогда морфологический интерпретатор эффективно использует возможности, предоставляемые самой системой письменности: основа распознается при первом же отождествлении, но прочтение ее выявляется только в конце МИ целого слова.
Для языков же с письменностью типа русской прочтение морфа устанавливается обычно одновременно с отождествлением морфа, но просодические свойства слова (например, ударение в русском, немецком и др., тон в литовском и др.) – только в конце морфологического анализа слова или даже сочетания слов.
Этим указанные две системы отличаются от третьей, типа венгерского, латышского и т.п., в которых ударение фиксировано, как правило, на первом от начала слоге слова, и где, следовательно, и прочтение морфов, и исходная просодика слова (но не интонационный контур предложения, отражающийся также и на произнесении слова) устанавливаются одновременно с отождествлением морфов.
Итак, имеем иерархию письменностей: семитская – русская – венгерская.
-70-
С другой стороны, необходимость рассматривать в качестве отдельных единиц словаря основы, являющиеся производными с точки зрения языка, – пусть не все, но достаточное их количество, – заставляет задуматься над статусом правил словообразования. Естественнее всего рассматривать их как процедура расширения лексикона, т.е. процессы, в результате которых исходный лексикон, содержащий в качестве корней все непроизводные основы и только их, дополняется производными, содержащими интерфиксы (согласные или гласные, вставляемые «видимым» на письме образом внутрь корня). Такой взгляд можно распространить и на трактовку чередований вообще: статьи для альтернантов корней или суффиксов могут быть также получены в результате расширения базисного лексикона. Если в других языках такое расширение осуществляется с помощью процедур, отражающих фонологические процессы, то в семитских языках к ним относятся и чисто морфологические соотношения.
Выше была продемонстрирована возможность построения такого аппарата морфологической интерпретации, который:
а) отражает реальные процессы опознавания лексемы в тексте и приписывания ей грамматических признаков,
б) при этом не сводит всего многообразия языковых систем к одной «канонической», по-разному удобной для различных языков.
Указанный формальный аппарат позволяет находить решения, в наибольшей степени соответствующие «духу» языка. Предлагаемый взгляд на морфологическую интерпретацию (и на интерпретацию вообще), а также описываемый формальный аппарат могут быть поэтому использованы при сопоставлении языков, – как с синхронной точки зрения, так и под углом зрения «возможностей» (т.е. степеней свободы), которыми язык располагает при исторических изменениях.
Последняя тема заслуживает более подробного рассмотрения. Пока что можно только высказать следующее предположение: между фонологическими историческими процессами («фонетическими
-71-
законами», фиксируемыми в истории конкретных языков или групп языков) и морфологическими изменениями (в частности, изменениями морфного состава языка, преобразованиями парадигм словоизменения и т.д.) существует явная взаимозависимость. Те концепции фонологии и морфологии, в которых указанные уровни «автономны», а формальный аппарат основан на таком сепаратистском взгляде[3], последовательно воплотить высказанное предположение не позволяют. Наш формальный аппарат свободен от обязательств автономии; возможно, он окажется эффективным и при представлении результатов диахронического исследования.Предлагаемый подход противоположен и тем концепциям, в которых произведение высказывания и его понимание описываются в терминах перекодировки: от исходной структуры (семантической, синтаксической, фонологической, лексической, морфологической и т.п.) к соответствующим же видам поверхностной, и обратно. Для нас же процесс интерпретации нейтрален по отношению к реальному произнесению и реальному пониманию языковых высказываний.
По ходу МИ соотносятся поверхностные структуры, т.е. реальные выражения текста – те единицы, которые имеют статус «грамматических имен» для языковых единств, – например, абстрактные корни в санскритской грамматической традиции и абстрактные же корни в семитских словарях, подаваемые как если бы это были непроизводные основы, от которых образуются остальные, но которые зачастую сами за пределами своей чисто словарной, лексикографической функции в текстах встретиться не могут.
За рамками изложения остались многие проблемы морфологического анализа: описание семантических правил, о которых говорится вскользь, описание фонологических правил, соотносящих отдельные лексические статьи лексикона, и вообще,
-72-
описание внутренних связей в лексиконе, иллюстрация живых словообразовательных процессов в рамках предлагаемого формализма, практические критерии формирования отдельной словарной статьи лексикона и многие другие. Этим проблемам будут посвящены дальнейшие исследования в русле излагаемого подхода.1. Андрющенко В.М. Лингвистический подход к изучению языков программирования и взаимодействия с ЭВМ. – В кн.: Проблемы вычислительной лингвистики и автоматической обработки текста на естественном языке. М.: Изд-во Моск. ун-та, 1980, с. 159-183.
2. Блумфилд Д. Язык / Пер. с англ. – М.: Прогресс, 1968.
3. Демьянков В.З. Формализация и интерпретация в семантике и синтаксисе (по материалам американской и английской лингвистики). – Изв. АН СССР. Серия лит. и языка, т. 38, 1979. № 3, с. 261-269.
4. Демьянков В.З. Предикаты и концепция семантической интерпретации. – Изв. АН СССР. Серия лит. и языка, т. 39, 1980. № 4, с. 336-346.
5. Демьянков В.З. Теория интерпретации в прикладной лингвистике. – В кн.: Проблемы вычислительной лингвистики и автоматической обработки текста на естественном языке. М.: Изд-во Моск. ун-та, 1980, с. 125-158.
6.Демьянков В.З. Прагматические основы интерпретации высказывания // Изв. АН СССР. Серия лит. и языка, т. 40, 1981. № 4, с. 368-377.
7. Льюис Г., Педерсен X. Краткая сравнительная грамматика кельтских языков / Пер. с англ. – М.: Изд-во иностр. лит., 1954.
8. Москальская О.И. Грамматика немецкого языка. Теоретический курс. – М.: Изд-во лит. на иностр. языках, 1958.
9. Потебня А.А. Мысль и язык. – В кн.: Эстетика и поэтика. Избранные работы А.А. Потебни. М.: Искусство, 1976, с.9-220.
-73-
10. Смирницкий А.И. Лексикология английского языка. – M.: Изд-во лит. на иностр. языках, 1956.
11. Соболевский С.И. Древне-греческий язык. – М.: Изд-во лит. на иностр. языках, 1948.
12. Anwyl Е. A Welsh Grammar for Schools. Part I. Accidence. – London: Swan Sonnenschein & Co. Ltd, 1901.
13. Bowen J.T., Rhys Jones T.J. Welsh. – London: The English Universities Press Ltd, 1960.
14. Dillon M., Ó Cróinín D. Irish. – London: The English Universities Press Ltd., 1961.
15. Emonds J. A transformational analysis of French clitics without positing output constraints. – Linguistic Analysis, vol. 1, 1975, p. 3-24.
16. Humboldt W. von. Über die Verschiedenheit des menschlichen Sprachbaues. – Berlin, 1836. (Neudruck: Darmstadt: Claasen & Roether, 1949).
17. Klavans J.L. On clitics as words. – In: The Elements. A Parasession on Linguistic Units and Levels / Ed. by Clyne P.P. et al. Chicago: University of Chicago Press, 1979, p. 68-80.
18. Matthews P.H. Morphology. An Introduction to the Theory of Word-Structure. – Cambridge: Cambridge University Press, 1974.
19. Perlmutter D.M. Deep and Surface Structure Constraints in Syntax. – New York: Holt, Rinehart and Winston, 1971.
20. Warburton I.P. Modern Greek clitic pronouns and the ‘surface structure constraints’ hypothesis. – Journal of Linguistics, v. 14, 1977, p. 259-281.
21. Williams S.J. Elfennau Gramadeg Cymraeg. – Caerdydd (Cardiff): Gwasg Prifysgol Cymru, 1959.