В.З. Демьянков

Морфологическая интерпретация текста и ее моделирование

This page copyright © 2003 V.Dem'jankov.

http://www.infolex.ru


Продолжение

К оглавлению

ГЛАВА ПЯТАЯ

ЛЕКСИКОН В МОРФОЛОГИИ

К оглавлению

1. Основания для группировки концепций лексикона

В отличие от словаря, ориентированного на массового пользователя, лексикон как понятие теоретического языкознания трактуется в привязке к конкретной концепции, входя в теоретическую модель. В этом качестве он тесно соотнесен с грамматической (или синтаксической) частью этой модели [201, c.42-43].

Есть несколько оснований для группировки этих концепций.

К оглавлению

1.1. Наличие связей между статьями лексикона

Различаются три концепции [233, c.4-5]:

1. Статьи не зависят друг от друга. Наиболее распространенная реализация этой гипотезы состоит в том, что каждое слово – как с аффиксами, так и без них – хранится в качестве самостоятельной единицы. Лексический поиск ("доступ", lexical access) заключается в поиске целой единицы, а время поиска обратно пропорционально функции от частотности единицы. Этому противоречит то, что время распознавания форм косвенных падежей не зависит от частотности.

2. Декомпозиция сложных основ. Хранятся корни и аффиксы, и есть еще правила установления допустимости комбинации морфем в слово. Два варианта этой гипотезы: декомпозиция происходит

- перед поиском во внутреннем лексиконе,

- после этого поиска.

3. Сателлитные статьи. Каждая словоформа соответствует отдельной единице лексикона, однако репрезентация заглавной формы (именительный падеж имени, инфинитив глагола и т.д.) обладает выделенным статусом, играет центральную организующую роль. Поэтому быстрее всего распознаются заглавные формы.

Концепция полной увязки между собой статей лексикона нашла свою реализацию, в частности, в работе [333, c.309], где лексикон – полное (а потому избыточное) перечисление свойств лексических единиц порознь. К этим свойствам относится "словоизменительный

-125-

список" (i-list), соотносящий морфологические признаки словоформы от данной лексемы с фонологическими.

Например, в словоизменительный список английской лексемы rob "красть" входят следующие сочетания признаков:

время: настоящее, лицо: 1, число: единственное – /rob/,

время: настоящее, лицо: 2, число: единственное – /rob/,

время: настоящее, лицо: 3, число: единственное – /robs/.

Морфологические правила составляют компонент "оформления" в грамматике, предшествующий морфонологии, но следующий за синтаксисом и внешними сандхи. Единицами лексикона оперируют три группы морфологических правил:

1. Правило импликации предсказывает одни свойства единицы на основании других. Например, имена определенного рода относятся к некоторому определенному классу склонения.

2. Правило реализации предсказывает содержание некоторых словоизменительных списков. Например, указывает, что форма множественного числа существительного образуется с помощью прибавления определенного фонологического материала к основе.

3. Правило словообразования из существования одних единиц выводит существование и свойства других единиц (дериватов). Например, каждому качественному прилагательному, содержащемуся в лексиконе, ставится в соответствие некоторое абстрактное существительное, полученное в результате добавления определенного аффикса к основе этого прилагательного. Ср.: худ – худоба.

В "динамической" модели утверждают [97, c.134]:

1. Слова в лексиконе помечены как обладающие различной лексической силой, увеличивающейся при каждом удачном фонологическом и/или семантическом сопоставлении хранимого слова со словом в обрабатываемом тексте.

2. Морфологически сложные слова, построенные по продуктивным, но нечастотным моделям, обладают репрезентацией с теми же семантическими признаками и с некоторой подматрицей фонологических признаков. Например, слово played имеет репрезентацию play плюс "суффикс прошедшего времени".

3. Морфологически сложные слова, построенные по продуктивным частотным моделям, обладают отдельной лексической репрезентацией, но ассоциированы с морфологически родственными

-126-

словами посредством "лексических связей" как семантической, так и фонологической природы.

4. Лексические связи (а тем самым морфологические отношения) варьируются по степени близости – в зависимости от числа и природы признаков, составляющих эти связи.

5. Лексическая сила и лексическая связь не являются чисто языковыми механизмами – это общие принципы, справедливые для всех видов психологической переработки данных человеком. Лексическая сила – проявление принципа, согласно которому повторение есть вид закрепления (в ментальном или физическом смысле), а лексическая связь – результат организации человеком своего окружения по отношениям сходства и различия.

К оглавлению

1.2. Статус производных и непроизводных основ

Следующие концепции дают разную экономию лексической репрезентации, объема лингвистических вычислений и различаются по простоте усвоения [85, c.292-297]:

1. Репрезентация производного слова содержит полную фонологическую матрицу и указание на морфемный состав. Основная проблема: каков механизм, позволяющий человеку, усваивающему язык, экономно распорядиться ресурсами памяти? Ведь о произношении морфем он может узнать из статей о родственных словах.

2. Лексические статьи и правила полностью соответствуют духу стандартной порождающей фонологии конца 1960-х годов [115]. Тогда меньшее количество статей для производных слов должно содержать информацию о произношении. Но требуются довольно абстрактные репрезентации исходных форм, а отсюда избыток правил, переводящих эти формы в стандартное произношение.

3. Статья для производного слова отражает только тот материальный облик (произношение слова), который не вычислим на основании лексических статей для частей слова. Если произношения морфемы как отдельной основы и в рамках этого слова не совпадают, ничто не поможет установить общий знаменатель в терминах реальных (не абстрактных) сегментов, из которого выводимы все варианты произношения одной и той же морфемы. Отсюда необходимость отдельно указывать алломорфы в статьях для

-127-

морфем и место основного ударения в производных словах.

Экономия памяти достигается, но усложняется распознавание слова: должны "вычисляться" составные части и место ударения. Эта задача, впрочем, облегчается тем, что продуцирование и понимание производного слова так или иначе требуют обращения к лексическим статьям для компонентов его в поисках семантической репрезентации. Если уж оптимизировать устройство статей в этой области, то следует предположить, что не просто фонологические репрезентации, но и семантические репрезентации для одних и тех же морфем должны храниться дважды; скажем, для добр, подл – в рамках соответствующих двух статей, а отдельно – в рамках статей для производных типа доброта, подлость.

4. Лексические статьи организованы в соответствии с п.2, но допускается только ограниченный класс фонологических правил и единиц, получающих алломорфы. Освоить новую статью – значит зарегистрировать достаточно продуктивные чередования фонем в конкретных контекстах.

К оглавлению

1.3. Степень абстрактности

Должны ли статьи лексикона содержать указание на реализацию лексических единиц в фонетических, фонемных, системно-фонемных или каких-либо иных терминах [311, c.59]? В некоторых работах конца 1960-х годов [207], [209] считалось, что фонологические репрезентации в рамках лексикона должны быть минимально абстрактными, наиболее приближенными к реальному звучанию. Некоторые шли даже дальше, предлагая модель лексикона, содержащего все словоформы [319], [222].

В конце 1970-х гг. выделяли [91, c.58-66] три позиции:

1. Хранятся основы и аффиксы, причем фонологические правила имеют очень абстрактный вид (далеко не всегда связаны с конкретными материальными оболочками морфем, выполнены в терминах различительных фонологических признаков), выражают закономерности любой степени продуктивности – так в стандартной генеративной модели [115], [159].

2. Хранятся словоформы, все члены парадигм заданы явно, а закономерности задаются правилами избыточности [319].

-128-

3. Содержатся только слова, какой-либо аспект которых не выводим из частей. Менее продуктивные "морфемообусловленные" закономерности задаются с помощью правил избыточности в лексиконе, и только самые продуктивные закономерности выражаются фонологическими правилами [66]. Все основы и производные формы, в семантическом, фонологическом или каком-либо ином отношении нестандартные, хранятся в лексиконе. Таким образом, различен статус предсказуемых форм и запоминаемых целиком. Лексикон упорядочен по значениям, так что одному описанию значения ("слоту") соответствует ровно одно слово.

По [311, c.59], наиболее разумна концепция компромиссная между лексиконом, основанным на морфемах, записанных в абстрактно-фонологических терминах (скажем, когда морфема записывается в виде последовательности сегментов, каждый из которых имеет вид пучка фонологических признаков), и лексиконом конкретных слов (то есть лексиконом словоформ). Зачастую чередования могут быть описаны только в терминах единиц более крупных, чем отдельные морфемы. Слово в лексиконе должно быть задано, по [311, c.70], в фонемном виде, близком к поверхностному, но с указанием символов границ морфем:

1. Абстрактная запись для морфемы в виде "общего знаменателя", из которого по правилам выводятся все реальные звучания, годилась бы, если бы единицами лексикона были только морфемы. Но если такими единицами являются еще и объединения морфем, не нужна единая исходная форма для соотнесенных морфем.

2. Контраст между алломорфами одной морфемы (зависимость выбора алломорфа от контекста) делает избыточным представление морфемы в каком-то абстрактном виде в рамках тех единиц лексикона, в которых иных алломорфов данной морфемы и не бывает.

3. Единый источник устанавливается, по идее, только для того, чтобы отразить соотнесенность альтернантов. Это – рабочий прием. Но если существуют другие способы соотнести альтернанты между собой – скажем, посредством лексических правил избыточности, не затрагивая процессы реальной переработки текста на основе уже имеющегося лексикона, – то они предпочтительнее абстрактных морфемных представлений, поскольку требуют меньших ресурсов времени при обращении к лексикону. Иное дело, когда

-129-

речь идет о фонетически мотивированных чередованиях [298]; [177]. Тогда имеет смысл различать следующие случаи:

- альтернанты порождаются из абстрактных источников,

- лексикализованные альтернанты по правилам лексической избыточности интерпретирующего, а не порождающего типа.

К оглавлению

2. Что хранится в лексиконе

В литературе последних лет можно выделить несколько крупных концепций (см., например, [136, c.138]). Вот некоторые.

К оглавлению

2.1. Лексикон морфем

Статьи лексикона описывают свойства отдельных морфем, а составные морфологические формы порождаются только в результате работы системы правил. Напомним, что Л. Блумфилд [3, с.170] лексиконом называл весь запас морфем языка. Лексикон у него [3, с.303] – приложение к грамматике, содержащее список основных нерегулярных (поскольку значение каждой морфемы принадлежит ей лишь в силу условной традиции) форм. Это продолжение древнеиндийской и семитских традиций, где заглавием статьи лексикона является абстрактный корень.

Частные реализации этой концепции таковы:

1. В стандартной генеративной фонологии [115] предполагалось, что лексикон задает описание морфем. В более поздних концепциях [112], [66] единицами лексикона считаются определенные сочетания морфем.

2. Хранятся только корни как комплексы фонологической и семантической информации. Правила словообразования получают слова (иногда – только основы) из этих корней [230, c.632].

3. В лексикон, или "морфикон" (термин С. Лэма), включаются морфы – "минимальные знаковые единицы, на которые членятся словоформы". Такой список меньше списка словоформ более чем в 10 раз, а примененительно "ко всем словоизменительным и (регулярным) словообразовательным формам такого языка, как русский, […] меньше списка словоформ не менее чем в 100 раз" [6, с.57].

4. Лексические статьи представляют формативы, никакое фонетически

-130-

мотивированное правило не начинает работать до тех пор, пока эти формативы не присоединены к более крупным цепочкам полных слогов. Это означает, что лексические репрезентации неизбыточны и записаны в терминах архисегментов [176, c.536]. Иногда предполагают при этом [327, c.267], что в лексиконе морфемы помечены как "маркированные" или "немаркированные" во всех областях: в области фонологических, синтактико-морфологических ("лексикосинтаксических") и морфологических (классы флексий) признаков. Помеченные таким образом корневые морфемы (основы) вводятся в состав предтерминальных цепочек по правилам формирования синтаксических структур. Сложнее дело обстоит с производными словами: они вставляются в деревья синтаксической структуры в зависимости от контекста, а как формулируется эта зависимость – не очень ясно.

5. Корни – как в семитской традиции – не просто перечисляются, а организуются в группы в соответствии с принципами получения основ, выражающих деривационные отношения между "биньяним" (породами). Между прочим, сопоставительное исследование структур имеющихся словарей древнееврейского языка (и современного иврита) показывает, что использовались следующие четыре возможности структуры лексикона [201, c.56]:

- все слова получаются, исходя из корней, которые только и хранятся в лексиконе;

- большинство слов, но не все, получаются из корней;

- только глаголы получаются из корней (так – в словарях современного иврита);

- каждое слово представляется отдельной статьей (наименее распространенный прием).

К оглавлению

2.2. Лексикон словоформ

В таком лексиконе собраны в качестве самостоятельных единиц все возможные морфологические формы каждой лексемы, так что морфологически производные формы имеют тот же статус, что и одноморфемные. Это – негативная реакция на структуралистский и трансформационалистский подходы к грамматике, в которых принимают, что лексикон содержит основы (причем аффиксы, возможно,

-131-

хранятся в отдельной секции лексикона), а слова "генерируются" в результате работы деривационных и словоизменительных правил
[319, c.367-368]. Разновидности реализации:

1. Лексикон всех форм плюс аппарат правил, так что задаются закономерные соотношения между различными составными формами – стратегии формирования слова (или правила избыточности), объединенные в отдельный компонент лексикона.

2. Хранятся представители только главных лексических категорий (в смысле "Аспектов" Н. Хомского [111]): глаголы, существительные или прилагательные (наречия считаются разновидностью прилагательных). Каждой синтаксически различной словоформе конкретной лексемы соответствует отдельная лексическая статья. Все деривационно соотнесенные формы обладают отдельными статьями [67, c.12]. В этом сходство со словарем Вебстера.

3. Форма лексической единицы близка к реальному произношению слов; фонологические правила не обладают функцией описания правильных форм поверхностной структуры исходя из более абстрактных репрезентаций, а только соотносят эти (перечисленные в лексиконе) формы между собой, то есть, их главная роль – интерпретирующая: вместе с морфологическими правилами, фонологические служат скреплению воедино единиц лексикона. Для любых двух слов, произношение и значения которых содержатся в лексиконе, правила устанавливают, соотнесены ли эти слова морфологически [282, c.555], [222].

4. Лексикон как организация данных по фонологическим основаниям объясняет фонологические оговорки (ошибки) типа малапропизмов – когда вместо одного слова употребляется другое, фонологически, но не семантически близкое к требуемому. Упорядочение единиц в таком лексиконе ориентировано на фонологическую репрезентацию слова, с учетом линейного расположения фонем [137]. Этим объясняется, почему малапропизмы чаще связаны со сходством начал, а не середин слов. Выдвигается следующая гипотеза: малапропизм – случай, когда вместо требуемого слова выбирается его ближайший сосед в лексиконе. Впрочем [187], на упорядочении слов в лексиконе сказывается не только начальная позиция, но и конечные, упорядочение в лексиконе не однозначно связано с расположением фонем только слева направо – возможны

-132-

и иные типы сортировки. Слова с деривационными суффиксами хранятся целиком: сложные слова не порождаются, а хранятся. Таким образом [122, c.107], лексические единицы, хранимые в словаре, соответствуют целым словам, которым приписана морфологическая структура, заглавная и полная формы и т.д.

К оглавлению

2.3. Лексикон еще более крупных единиц

Если принять, что в лексиконе собрана вся информация о непредсказуемых связях между формой и значением, приходится предположить также, что лексикон не ограничивается хранением слов, в нем есть и более крупных единицы [62, c.4]. Это список с избыточными лексическими статьями, обобщения по поводу которых выглядят как правила интерпретации, а не продуцирования новых статей, что объясняет следующие явления [262, c.293]:

1. В лексиконе хранятся выражения, элементы которых обладают непредсказуемой сочетаемостью: фразеологизмы, истинные идиомы и т.п. Ср. выражения типа высокое начальство – не крупное начальство – в отличие от крупного военачальника и крупного рогатого скота, при неправильном высоком рогатом скоте.

2. Форма лексической статьи для истинных идиом не та же, что для фразеологизмов: у истинных идиом значение как целая сущность привязана к синтаксически сложной статье. "Ценность", или информативность,лексической статьи для идиом не та же, что для остальных единиц: вся информация о лексической единице, выводимая из остальных мест лексикона, не добавляет информативности этой статье. Информативно уже само указание о существовании статьи для фразеологизма и о вхождении в него данных слов, а не других. А для истинной идиомы информативно и ее истолкование, перифраз. Правило избыточности при этом аналогично по функции фонологическому правилу ассимиляции.

Принят "укрупненный" лексикон и в работе [192, c.177], в которой он определяется как набор единиц вида: , где LEX – лексема, некоторое слово (или идиома в узком смысле), PAR – парадигма, то есть формы этого слова (идиомы).

-133-

К оглавлению

3. Р. Джеккендофф: "полный" и "обедненный" лексикон

Кратко опишем подход, реализующий лексикалистскую концепцию лексикона и давший образец для многих подражаний.

В этой концепции [191, с.667] отказываются от положения о том, что лексикон – простое хранилище заученной информации, а творческий аспект во владении языком принадлежит только синтаксису. Р. Джеккендофф считает, что структура лексикона также лежит в основе креативности языка. (М. Бирвиш [74, c.84-85] десятью годами ранее также утверждал, что лексические единицы, подобно синтаксическим, порождаются по правилам, а не хранятся в окончательном виде в памяти.)

По [191, с.639], есть два подхода к лексикону: с полными статьями и с обедненными статьями. При достаточно удачной процедуре измерения информативности и содержательности можно установить, какой подход и в каком случае лучше. Для английского языка подход с полными статьями лучше для каузативных глаголов, составных имен и идиом.

"Обедненный" лексикон близок к трансформационалистскому (антилексикалистскому) подходу. Например, глаголу decide соответствует полностью заданная статья, а единице decision – производной от decide – либо не соответствует никакая статья (это крайний трансформационализм, когда производные единицы не хранятся, а только генерируются при необходимости), либо обедненная, неполная. Правило избыточности заполняет отсутствующую информацию, исходя из содержимого статьи для decide, при получении предложения, включающего слово decision, – скажем, на этапе лексического вставления. Как и при трансформационалистском подходе, независимое информационное содержание для decide

- decision в сумме не должно быть значительно больше содержания для статьи decide, поскольку избыточные моменты не дублируются в статье для производной лексемы.

В типовой лексической статье обедненного лексикона указываются [191, с.643]:

- номер статьи, то есть индекс, позволяющий делать ссылки на данную статью в других местах лексикона, без воспроизведения

-134-

в явном виде остальных параметров; именно таковы отсылки к статье decide в рамках статьи для decision;

- фонологическое представление;

- синтаксические признаки;

- семантическая репрезентация.

Пример обедненной статьи для decide:
│ 784
│ /decid/
│ +V
│ +[NP1 __ on NP2]
│ NP1 decide on NP2

"Полный" лексикон содержал бы в этом случае указания на свойства и decide, и decision, так что правила избыточности не играли бы никакой роли в получении предложения, но зато использовались бы для оценки меры информативности лексикона. Избыточной считалась бы информация в лексической статье, предсказуемая самим существованием некоторой соотнесенной лексической единицы. При "полном" лексиконе нет необходимости в указании на номер лексической статьи [191, с.643].

Главное – сформулировать правила лексической избыточности для адекватного описания частичных отношений и нерегулярности лексикона [191, с.639]. Правило избыточности соответствует высказыванию типа: "Лексическая статья Х, обладающая такими-то свойствами, соотнесена с лексической статьей Y, обладающей такими-то свойствами". Например правило, помеченное как (1):

(1)
│X │Y
│/y+ion/ │/y/
│+N │+V
│+[NP1's __ (P) NP2 │+[NP1 __ (P) NP2]
│ABSTRACT RESULT OF │       │NP1 Z NP2
│ACT OF NP1'S Z-ING
│NP2

-135-

Для decision достаточно иметь в обедненном лексиконе такую статью:
│ 375
│ получено из 784 по правилу (1)

Информативность лексикона оценивается так [191, с.643]:

1. Определяется объем независимой информации, вводимой в лексикон в результате добавления n отдельных новых лексических статей. А именно, объем независимой информации, полностью заданной лексической статьей W, есть:

- информация о том, что W в лексиконе хранится, плюс

- вся та информация, содержащаяся в W, которая не может быть предсказана из существования некоторого морфологического правила избыточности, позволяющего описать содержимое статьи W на основе сведений о лексических статьях, уже имеющихся в лексиконе, и о семантических правилах, плюс

- "цена" указания на правила избыточности R. Эта цена для правила R при оценке информативности лексической статьи W равна произведению объема информации, содержащейся в статье W и предсказываемой по этому правилу, на некоторое число из промежутка от 0 до 1, соответствующее степени регулярности правила R при деривации статьи W [191, с.666].

Напомним, что в некоторых фонологических концепциях [284] оптимальной считается лексическая репрезентация, при которой минимальное общее число условий правильности морфемной структуры (morpheme structure conditions) характеризует максимально возможное число лексических статей в лексиконе. У Джеккендоффа это положение нашло свою конкретизацию.

2. Определяется информативность лексикона в целом, исходя из того, что полные независимые статьи заставляют учитывать еще и неполные статьи. Информационное содержание лексикона в целом определяется следующим образом. Пусть лексикон содержит n лексических статей W1, W2, …, Wn. Каждая перестановка Р целых чисел от 1 до n соответствует некоторому порядку введения статей в лексикон: сначала введена единица W1, затем W2 и т.д. При каждой перестановке вычисляется информативность растущего

-136-

лексикона. Так получим оценку всех возможных вариантов лексикона с этими n статьями. Из двух лексиконов, содержащих один и тот же набор статей (в разном порядке введенных), выше оценивается лексикон с меньшим информационным содержанием.

Развивая эту тему неполноты, пытаются психолингвистически показать [309, c.347], что лексикон каждого носителя языка содержит много недозаполненных статей, в которых отсутствует информация о синтаксическом поведении единицы, предикатной или падежной структуре, употребимости, природе концептуальной или морфологической соотнесенности с другими единицами лексикона, значении, фонологической или орфографической реализации в определенных контекстах. Можно "знать" слово, сомневаясь в его произношении, написании и употреблении.

Активным словарем в этой связи можно назвать набор всех лексических единиц, для которых имеется лексическая статья – полная или неполная. Пассивный же словарь состоит, в первую очередь, из единиц с полными или с почти полными статьями. Эти словари конкурируют между собой [309, c.354]. Ядерный лексикон – набор базисных, независимых друг от друга лексических статей языка. Из этого набора получается расширенный лексикон, содержащий производные лексические статьи [53, c.240].

Носители языка не всегда сразу соотносят усваиваемую единицу с хранимыми. Одни делают это быстрее, другие – дольше. Иногда хранят даже дублирующуюся морфологическую информацию в рамках двух лексических статей, не соотнося их. Кроме того, далеко не всегда усваивают "исходную" единицу раньше морфологически производных от нее: лексикон иногда содержит статью для производной единицы и не содержит исходной единицы. Чем больше мы знаем о слове, тем менее склонны менять статью о нем в лексиконе. Воспринимая необычную речь, скорее полагают, что ошибся собеседник, чем ревизуют лексикон [309, c.353-354].

Но при решении включить в лексикон новую единицу первым шагом будет констатация наличия слова [309, c.347]. Минимальная лексическая информация – "Х является словом языка L" – есть сигнал к началу пополнения статьи (обычно на неосознанном уровне): накапливается корпус цитаций, иллюстрирующих употребление слова, и определяются фонологические, синтаксические,

-137-

семантические и стилистические свойства. Объем и типы добавляемой информации зависят от воспринимаемых высказываний, а еще больше – от способностей "лексикографа" обобщать материал, строить дефиниции и комментировать значения и/или употребления слова. Если слово известно только по письменному тексту, информация о произношении может временно отсутствовать: "по умолчанию", письменный текст соотносится со звуком, но не всегда адекватно особенно в таких языках, как английский. И наоборот, слово, которое только слышали, но никогда не видели в тексте, бывает зафиксировано без орфографической информации. Во всяком случае, на промежуточных этапах усвоения лексикона всегда возможны лексические статьи со случайными упущениями.

О критике подхода в целом см. [258], [174, c.6].

К оглавлению

4. Концепция лексической целостности

В этом подходе [174, c.26] слова (в том числе словоформы) рассматриваются как атомарные единицы по отношению к синтаксическим правилам. В противоположность классическому генеративному подходу, словоизменительные морфемы не вводятся в предложение на правах синтаксических единиц, которые затем к основам "приделываются", адаптируются трансформационным путем.

Лексикон содержит не только единицы, но и процедуры. Первые отвечают за все аспекты формирования слова, кроме словоизменения, и отражаются полными лексическими статьями (в духе Р. Джеккендоффа), дополненными лексическими правилами, выявляющими избыточную информацию. Словоформы не хранятся, а морфологически интерпретируются [174, c.26] как члены парадигм.

Образование новой лексемы на основе словоформы (а не лексемы) – разновидность образования новой лексемы исходя из потенциальной, но не реализованной лексемы, основа которой совпадает с этой словоформой. В рамках этого подхода форматив ов в словоформе очков (Род.п.мн.ч.) от очко и в деривате очковый следует трактовать как две разные сущности: в первом случае это флексия, во втором – словообразовательный суффикс. Обилие в некоторых языках флексий, совпадающих по форме со словообразовательными аффиксами, сторонников этой концепции не смущает.

-138-

Правила словоизменения трактуются как процедуры реализации (spell-out rules), когда форма единицы, обладающей некоторым набором (морфологических) признаков, подвергается модификации. Например [174, c.27]:

/ X / --> /X+a/
  
│+F │
│-G │
  

Виды признаков, учитываемых словоизменением [174, c.27]:

- морфосинтаксические (как при согласовании),

- морфолексические, т.е. локальные, не проникающие на более высокие уровни (например, видовые признаки глагола).

Лексическая репрезентация указывает на процедуры, отвечающие за поведение лексических единиц. Это "план поведения" единиц (впрочем, с неясной степенью детализации). Так, фонетическая часть отражает тщательное произнесение слова.

К оглавлению

5. Лексикон как база данных

Лексикон напоминает базу данных, то есть организацию с многими системами доступа: единица может быть найдена в нем по семантическим, синтаксическим, фонологическим (в частности, просодическим) характеристикам и т.д. [135, с.138-144].

Согласно одной из гипотез [133, c.124], как и в базах данных, различные виды информации хранятся в различных компонентах лексикона порознь, распределены по подлексиконам, взаимодействующим между собой на правах модулей.

Опираясь на результаты психолингвистических экспериментов [133, c.145-146], иногда полагают, что подкомпоненты лексикона связаны и между собой, и с внеязыковыми знаниями:

1. Лексикон содержит множество независимых подлексиконов (специализированных по типу информации), между которыми установлены каналы связи. Обычно есть, например, фонологический, семантический и (для грамотных носителей языка) орфографический подкомпоненты. При нарушениях речи типа дислексии связи между этими подкомпонентами нарушаются.

-139-

2. Фонологические статьи включают абстрактную фонемную репрезентацию, а иногда и запись в терминах системной фонемики. По ходу продуцирования речи фонологическая цепочка переводится в эту репрезентацию, по которой затем как по программе работает речевой аппарат, физически выполняющий команды. При восприятии же акустический сигнал переводится в фонематические репрезентации, по которым устанавливаются семантическая и/или орфографическая репрезентации.

3. Списки в рамках фонологического подкомпонента упорядочены по начальным сегментам и по структуре начальных слогов (возможно, и еще глубже). Не исключено, что есть и иные типы организации данных в этом подлексиконе: скажем, в одном списке содержатся односложные слова, в другом – двусложные и т.д., отдельно – слова, упорядоченные по конечным сегментам и т.д.

4. Если слово пишется не по основным правилам орфографии, заводится подлексикон орфографических репрезентаций, обычно же действуют обычные (продуктивные) правила, позволяющие читать и писать новые и даже бессмысленные слова.

5. Морфологически родственные слова, видимо, занесены в одну статью или в совокупность статей с перекрестными отсылками. Неясно, как выглядят отсылки к морфологически сложным словам, содержащим аффиксы. Поскольку носитель языка умеет разлагать сложные формы на составные морфемы, и поскольку при нормальном употреблении и при ошибках могут возникнуть незаконные комбинации как связанных, так и свободных морфем, – отдельные морфемы также должны упоминаться морфологическими правилами, задающими способы допустимого сочетания морфем, – в дополнение к списку сложных форм. Скорее всего, список слов с аффиксами, вызывающими чередование основы, хранится отдельно от основ. В этом отличие от слов, корневые морфемы которых не подвергаются ни регулярному словоизменению, ни регулярной деривации.

6. Лексические и грамматические морфемы либо помечены особым образом, либо (а возможно, и одновременно) хранятся в отдельных частях лексикона, – это видно из распознавания. Дериваты есть в лексиконе, но неясно, хранятся ли словоформы.

7. Признаки подкатегоризации слов есть в лексиконе, но неясно, хранится ли эта информация в отдельном подлексиконе

-140-

при использовании системы адресации, или же она дана явно в каждой статье в рамках некоторого обычного подкомпонента.

8. В лексико-семантическом подкомпоненте статьи соотнесены по признакам класса, или по "семантическим постулатам".

9. То, что лексикон содержит лексико-семантические репрезентации, не означает, что в него включено "знание о реальном мире", – хотя и ясно, что лексикон взаимодействует с внеязыковыми знаниями при выборе языковых единиц или при восприятии их. Факты агнозии указывают, что возможна диссоциация лексического и неязыкового знания, – то есть, лексическое знание хранится отдельно от внеязыкового.

Лексикон как база данных реализован в тех подходах к моделированию морфологии, в которых [103, c.215] лексические единицы служат ключом к семантической информации лексикона. Значения слов представляют в виде расширенных семантических сетей, опирающихся на "алфавит" примерно из двухсот атомарных единиц. Чтобы не хранить слишком большие массивы данных, в том числе словоформы, лексикон дополняют морфологическим анализатором, а также используют различные способы кодировки и упорядочения единиц, ускоряющие поиск.

К таким приемам относится индексация лексических статей по отношению деривации в семитских языках. Например [251, c.359], каждой лексической статье ставится в соответствие схема в виде дерева – сообразно правилам получения "пород" от корня. Для арабского корня ktb "писать" имеем [251, c.392]:

   ktb

┌─┴──┬────┐

kataba kitaab  kuttaab

 ┌┴───┬─── ┬───┬────┐

maktab kattab kaatab ktatab kitaabat

                            │

                     takaatab

В этом дереве фонологические формы упорядочены по отношению лексической деривации, для которой есть отдельное морфологическое правило [251, c.393], так что:

-141-

1. Отношения типа "быть производным от" выразимы в терминах структурированной лексической статьи, оцениваемой через призму некоторого морфологического правила.

2. От формы лексической статьи и зависит способ подачи семантических, морфологических и фонологических отклонений.

К оглавлению

6. Как соотнесены лексические репрезентации

Лексические репрезентации (ЛР) являются ключами, по которым в лексиконе как в базе данных ищутся нужные элементы. Эти ЛР хранятся в постоянных "списках" и служат в качестве неразложимых атомов (терминальных элементов) в синтаксических конструкциях [95, c.258]. Гипотеза о "полном списке" выдвинута была еще Л. Блумфилдом [3]: все лексические репрезентации, которые могут когда-либо понадобиться носителю языка, вычислены и хранятся в лексиконе, а не получаются по мере необходимости. В пользу этой нулевой гипотезы, по мнению некоторых психолингвистов, имеется больше всего данных из области восприятия и продуцирования речи, исследования письма и т.д. [95, c.261].

Альтернативы гипотезе о полном списке [95, c.280-281]:

1. Модусно-нейтральная ЛР. Для каждого слова (или морфемы и т.д.) имеется ЛР, заданная в коде, нейтральном по отношению к "модусу". То есть, одна и та же ЛР обслуживает письменный, устный модусы, модусы восприятия и продуцирования и т.д. При обращении к лексикону модусно-ориентированные ЛР транслируются в модусно-нейтральный вид.

2. Модусно-ориентированные ЛР. Для каждого из возможных модусов есть свой отдельный список ЛР: так, одно и то же слово представлено по-разному в списке для слухового восприятия, для слухового продуцирования, для чтения и для написания. Нет и не может быть модусно-нейтральных ЛР. Причем не обязательно у слова бывают ЛР для всех модусов.

3. Модусно-ориентированные плюс модусно-нейтральная ЛР. Это комбинация первых двух гипотез. Переход от ЛР к значению происходит только через модусно-нейтральную ЛР.

4. "Эмические ЛР". Различия между входом в лексикон и выходом из него формулируются в ориентации на общий канал: для

-142-

канала устного восприятия – в терминах фонем, для визуального канала – графем. Единица кот обладает одной фонемной записью (как для восприятия, так и для продуцирования) и одной графемной записью (также для двух разных модусов). В одной из разновидностей этого подхода [95] предполагается, что есть "фонологический лексикон", обслуживающий устное восприятие и продуцирование, соотнесенный с "семантическим лексиконом", также обслуживающим устное восприятие и продуцирование речи, и с графемным лексиконом.

Психолингвистические эксперименты опровергают следующие гипотезы [95, c.289-290]:

1. Только заглавные формы хранятся в лексиконе, а словоизменительные и словообразовательные производные вычисляются по ходу восприятия и/или продуцирования речи с помощью правил. (В действительности лексической репрезентацией обладают и базовые, и производные формы.)

2. ЛР представляет морфемы, а не слова. Например, оказалось, что ошибочные производные слова (при оговорках) в одинаковой степени затрагивают и основы реальных слов, и единичные морфемы, не составляющие слово.

3. Существуют модусно-нейтральные ЛР либо как единственные, либо как вспомогательные (индексирующие) сущности лексикона. (Скорее следует принять, что фонемные и графемные ЛР четко разграничены.)

Кроме того [95, c.289-290]:

1. Возможно, есть отдельный список функциональных слов (впрочем, понятие это расплывчато).

2. Зависимость вида ЛР от частотности единицы правдоподобна, но неясны причины частотности.

3. Группировка морфологически соотнесенных форм хорошо видна при выполнении некоторых психологических тестов в рамках разных модусов, но нет несомненных свидетельств тому, что группировка связана с какой-либо одной базисной формой или что некоторая более абстрактная ЛР является "заголовком" при этом.

Назад | Началокниги | Дальше