С. А. Крылов
(Москва)
О частотном словаре фонетических слов (на
материале Генерального корпуса русского языка)[1]
0. Во многих современных лингвистических теориях представлено понятие фонетического слова (ФС) [2]. Важность и нужность этого понятия вряд ли кто-нибудь стал бы оспаривать. Однако пока что остаются недостаточно изученными некоторые проблемы теории ФС, требующие более внимательного рассмотрения [3].
1.1. Во-первых, ФС обычно выделяются лишь в связи с проблемой сегментации, то есть выделения его синтагматических границ. Вопрос об идентификации ФС, то есть о том, какая единица (или, точнее, какое множество единиц) соответствует ФС на парадигматической оси, остаётся при этом в тени.
1.2. Во-вторых, фактически остаётся открытым вопрос о том, является ли ФС односторонней единицей плана выражения, или оно соотносится с планом содержания.
1.3. В-третьих, остаётся неизученным вопрос о том, принадлежит ли ФС к числу инвентарных единиц языковой системы (и языковой нормы), или же оно представляет собой единицу внеинвентарную, конструируемую из более простых единиц по регулярным правилам, и потому принадлежащую языковому потенциалу (бесконечному множеству возможных правильных языковых единиц того же ранга) [4].
2. Здесь нет возможности аргументированно ответить на эти вопросы. Примем как исходную посылку следующие положения [5]: (а) ФС рассматривается не только в синтагматическом, но и в парадигматическом аспекте; (б) ФС трактуется как двусторонняя (знаковая) единица практически тождественная минимальной синтаксически автономной единице - «синтаксической молекуле» [6]; (в) в центре внимания находится именно инвентарный (словарный, лексикологический, лексикографический) аспект ФС [7]. Причиной концентрации внимания именно на вышеуказанных аспектах ФС является то, что именно эти аспекты ФС до недавнего времени оставались в тени.
Обсуждая акцентные свойства морфемных комплексов, А. А. Зализняк отмечал, что «значение морфемных комплексов для русской акцентологии очень велико (в существующих описаниях оно сильно недооценено)» (Зализняк 1985: 39). Так как, по-видимому, ФС представляют собой особую разновидность морфемных комплексов, то о них можно сказать то же самое, имея в виду важность задачи исследования ФС для русской морфонологии, интонологии, а также для дисциплин, изучающих план содержания ФС.
3. Для дальнейшего изложения существенна опора на понятия макротакта, мезотакта и микротакта, уточняющие понятие ФС [8].
3.1. Макротакт есть речевой отрезок между двумя местами потенциальных пауз (в отличие от более крупной единицы - фонетической синтагмы[9], границы которой отмечены реальными паузами). Обычно макротакт содержит одно полноударное слово (таковы «простые» макротакты), но иногда включает в себя несколько полноударных слов – в тех случаях, когда между ним практически невозможна пауза (под практической невозможностью паузы имеется в виду не абсолютная невозможность, а невозможность в «естественных» условиях, то есть вне ситуации диктанта, скандирования, силлабирования и т.п.). К составным макротактам, или, в иной терминологии, «мегатактам» (то есть к макротактам, включающим в себя несколько полноударных слов) относятся разного рода «клишированные конструкции», «штампы», многие идиомы и фраземы. Вместе с тем некоторые из мегатактов не являются лексически устойчивыми, а обладают лишь синтаксической цельностью; к таким мегатактам принадлежат составные числительные, сочетания имен с фамилиями и отчествами (недаром большинство синтаксистов не признают компоненты таких сочетаний синтаксически автономными единицами).
3.2. Мезотакт есть речевой отрезок, состоящий из целого числа ФС, включающий не более одного «полноударного» ФС. Мезотакт может состоять из одного полноударного ФС, а может включать в себя один или несколько «клитикоидов» [10] (клитикоидами являются, во-первых, «слабоударяемые» ФС, а во-вторых, «относительные клитики»).
Таким образом,
выделение мезотактов предполагает опору на
интуитивное умение (как носителя языка, так и фонетиста) отличать полноударные ФС от слабоударяемых ФС. К «слабоударяемым»
словам естественно относить неэмфатизованные
произносимые многосложные служебные слова (предлоги, союзы, частицы), неэмфатизованные местоименные слова, нейтрально
произносимые актуализаторы, неэмфатизованные
числительные, неэмфатизованные связочные и модальные
глаголы, неэмфатизованные полуслужебные
слова [11]. Под неэмфатизованными
словами понимаются слова, не являющиеся физическими носителями «логического
акцента» (акцентного выделения).
Кроме «слабоударяемых слов» (клитикоидов I рода), к числу клитикоидов относятся также так называемые «относительные клитики» [12] (клитикоиды II рода), в которых отсутствие количественного и динамического ударения («количественная безударность» и «динамическая безударность») сочетается с наличием некоторых признаков фонетической автономности, в том числе (а) акцентуационных («качественного ударения») – таких, как «качественная ударность» отсутствие редукции гласных (у союзов но, то...то; у одного из вариантов союза что; у предлогов для, вдоль, вне, сверх; у многих вхождений клитизованных местоимений, напр., те, он и т. п.); или, наоборот, закрепление формы с редукцией 2-й степени (с гласным [ъ] в кириллической транскрипции или [ə] в международной транскрипции) за всеми вхождениями клитики, в том числе за вхождениями в первой предударной позиции, где по правилам ожидается редукция 1-й степени (союз да, частица так, один из произносительных вариантов союза что), и (б) сегментных делимитативных – напр., таких, как оглушение перед гласными и сонорными на границе ФС (сквозь лес, сквозь окно, близ него, вокруг озера) [13]
Клитикоид, занимающий позицию после полноударного ФС, может быть назван «энклитикоидом»; клитикоид, расположенный перед полноударным ФС, может быть назван «проклитикоидом».
Если слабоударное ФС употреблено в позиции между двумя соседними мезотактами, то может возникнуть неясность с отнесением его «влево» или «вправо»; однако для простоты предлагаю временно отвлечься от этой трудности, исходя из того, что данная проблема в каждом конкретном случае решена в ту или иную сторону.
3.3. Микротакт есть речевой отрезок, состоящий из целого числа подвижных неразрываемых значимых единиц (словесных сегментов, или «С-сегментов») и содержащий не более одного автономного С-сегмента (С-сегмента, характеризуемого единством главного словесного ударения) [14]. Микротакты бывают простыми (содержащими только один С-сегмент) и составными. Составные микротакты включают, помимо автономного С-сегмента, также одну или несколько клитик – единиц, не несущих самостоятельного словесного ударения. Клитики подразделяются на энклитики (стоящие после автономного С-сегмента) и проклитики (стоящие перед автономным С-сегментом).
4.0. Один из центральных вопросов, встающих перед теорией ФС, состоит в том, чтобы понять, какие же именно единицы входят в инвентарь ФС. Так как языковые единицы даны нам не в непосредственном наблюдении, а через их речевую реализацию [15], то наиболее эффективным путём поиска ответа на этот вопрос было бы обращение к их встречаемости в корпусе речевых отрезков [16]. Измерив встречаемость ФС в репрезентативном корпусе текстов, можно создать приблизительную модель ментального инвентаря ФС – частотный инвентарь тех ФС, которые встречены в таком корпусе [17].
4.1. Эта задача может решаться, вообще говоря, несколькими путями [18].
Так, исследование может опираться на разные типы источников. Таким источником может быть: (1) корпус аудиозаписей русских звучащих (устных) текстов; (2) корпус текстов, представленных с помощью той или иной фонетической транскрипции (будь она «морфофонематической», «словофонематической», «собственно фонематической», «аллофонематической» - не слишком существенно); (3) корпус текстов, представленных в орфографической записи.
4.2. Первый путь предполагает опору на
предварительную работу по самостоятельному транскрибированию материала – работу
тем более громадную, чем более надёжный (то есть объёмистый) корпус мы изучаем.
Второй путь предполагает использование одного из существующих
корпусов текстов, записанных в транскрипции; однако в наше время (имею в виду
Поэтому для решения поставленной задачи был выбран третий путь. А именно (как было сказано выше), исследование было проведено на материале корпуса текстов, представленных в виде орфографической записи.
5. Исследованию подвергся Генеральный
корпус русского языка (ГКРЯ). Он был создан на основе широко
известного «Упсальского корпуса» русского языка (УпКРЯ), составленного в конце 1980-х гг. (не позже
1) знак { ставится после проклитики перед автономным С-сегментом, который она предваряет;
2) знак } ставится перед энклитикой после того автономного С-сегмента, который она завершает;
3) Знак < ставится после проклитикоида перед тем полноударным ФС, который он предваряет;
4) Знак > ставится перед энклитикоидом после того полноударного ФС, который завершает;
8.1.1. Частотность мезотактов, содержащих внутренний
пробел, в ЧС макротактов.
8.1.1А. Частотность мезотактов с проклитиками в ЧС макротактов.
8.1.1Б. Частотность мезотактов с энклитиками в частотном словаре ГКРЯ.
8.1.2. Частотность составных
мезотактов (мезотактов,
включающих более одого микротакта).
8.1.2А. Частотность мезотактов с проклитикоидами в ЧС
макротактов.
8.1.2Б. Частотность составных мезотактов с энклитикоидами в ЧС макротактов.
8.2.1. Частотность микротактов,
содержащих внутренний пробел, в ЧС микротактов.
8.2.1.А. Частотность микротактов с
проклитиками в ЧС микротактов.
Аванесов 1968 –
Аванесов Р. И.
Русское литературное произношение. М.: Просвещение, 1968.- 288 с.
Балли Ш. Общая лингвистика и вопросы
французского языка. М.: ИЛ, 1955.- 416 с.
Зализняк 1985 –
Зализняк А. А.
От праславянской акцентуации к русской. М.: Наука, 1985.- 428 с.
Зиндер 1979 – Зиндер Л. Р. Общая фонетика. М.: Высшая школа, 1979.- 312 с.
Касевич 1986 – Касевич В. Б. Морфонология. СПб.: СпбГУ, 1986.
Касевич 1988 – Касевич В. Б. Семантика. Синтаксис. Морфология. М.: Восточная литература, 1988.
Кодзасов и Кривнова
2001 – Кодзасов С. В., Кривнова О. Ф. Общая фонетика. М.: РГГУ, 2001.- 592 с.
Маслов 1975 –
Маслов Ю. С. Введение в языкознание. М.: Высшая
школа, 1975.
Панов 1967 –
Панов М. В. Русская фонетика. М.: Просвещение,
1967.- 438 с.
Рогожникова 2003 – Рогожникова Р.П. Толковый словарь словосочетаний, эквивалентных слову. М., 2003.
Суханова 1980
– Суханова М. С.
Основные сведения об ударении // Русская грамматика 1980 , с. 90‑95.
Чурганова 1973 – Чурганова В. Г. Очерк русской морфонологии. М.: Наука, 1973.- 239 с.
Hill 1960 – Hill, Archibald A., Linguistic
structures.
[1] Работа выполнена по гранту РФФИ № 06-06-80251.
[2] См., напр., Зиндер 1979, с. 251; Суханова 1980, с. 90; Кодзасов и Кривнова 2001, с. 27‑28, 304-306.
[3] О психолингвистическом аспекте проблемы см. Венцов и Касевич 1994/2003. В психолингвистическом аспекте важно проводимое Е. В. Ягуновой различение между более широким классом ФС «как оперативных единиц восприятия» и более узким классом ФС как «единиц перцептивного словаря» (Ягунова 2006, с. 400). В связи с этим Е. В. Ягунова отмечает, что «для признания того, что ФС функционируют не просто как оперативные единицы восприятия, но как единицы перцептивного словаря, нужны более веские теоретические и экспериментальные доказательства. Основная проблема заключается в неоднородности множества ФС с точки зрения просодической, функциональной и процедурной целостности его единиц» (Ягунова 2006, с. 400).
[4] Концепция «инвентарных» единиц языка в отличие от «конструктивных» предложена в работах Касевич 1986 и Касевич 1988; подробный анализ этой концепции см. в статье Крылов 2006a.
[5] Такой подход обосновывается, например, в работе Крылов 2007.
[6] Ср.: «синтаксическая молекула - всякий актуализированный комплекс, состоящий из семантемы и одного или нескольких грамматических знаков, актуализаторов или связей, необходимых и достаточных для того, чтобы она могла функционировать в предложении» (Балли 1955, с. 317).
[7] Такая трактовка созвучна идеям, развиваемым санкт-петербургской школой психолингвистически адекватного моделирования речевой деятельности; см. Венцов и Касевич 1994/2003; Ягунова 2006. С другой стороны, безотносительно к задачам корпусной лингвистики и лингвистики речевой деятельности проблему инвентаризации составных слов давно не только ставит, но и успешно решает практическая лексикография. См. в особенности получивший заслуженную известность словарь Р. П. Рогожниковой (Рогожникова 1991; Рогожникова 2003), материалы которого представляют большую ценность для решения многих проблем компьютерной лингвистики, но, на мой взгляд, до сих пор в должной мере не принимаются во внимание при разработке систем автоматической обработки текстов.
[8] Эти понятия были разработаны в Крылов 2006b, Крылов 2006c, Крылов 2007.
[9] О фонетических синтагмах см. Кодзасов и Кривнова 2001, с. 27‑28, 304-306.
[10] Понятия клитикоида, энклитикоида и проклитикоида предложены в Крылов 2006а, Крылов 2006б.
[11] См., напр., Аванесов 1974, с. 103‑107; Граматика‑1980, с. 90-91; Касаткин 2003, с. 75.
[12] См., напр., Высотский 1977, с. 27‑28; Касаткин 2003, с. 73‑75.
[13] Ср.: Аванесов 1968, с. 99‑100; Чурганова 1973, с. 31.
[14] В иной терминологии, микротакт соответствует «тактовой группе» (Чурганова 1973, с. 22-23, 27, 31-32), «акцентному слову» (Маслов 1975, с. 91‑93), «акцентной группе» (Зиндер 1979, с. 251) «речевому такту» (Кодзасов и Кривнова 2001, с. 306), «ритмической группе» (Зиндер 1979, с. 250, 262; Кодзасов и Кривнова 2001, с. 310).
[15] Анализ некоторых выводов, вытекающих из этого тезиса, см. в статье Крылов 2004.
[16] Ср. тезис А. Я. Шайкевича о том, что «к<оличественные> м<етоды>, примененные к текстам, открывают путь к изучению самого языка, поскольку сегменты текстов, являющиеся объектами подсчетов, соотнесены с единицами языка. К<оличественные> м<етоды> позволяют количественно описывать поведение разл<ичных> языковых единиц (фонем, букв, морфем, слов) в тексте: частоту употребления единиц, их распределение в текстах разного жанра, сочетаемость с др<угими> единицами и т. п. Одновременно накапливается обобщенная количеств<енная> информация о классах единиц, о языковых конструкциях (напр., данные о средней длине слова или предложения, о частоте употребления к<аких>-л<ибо> грамматич<еских> форм в тех или иных синтаксич<еских> функциях и т. п.). Такая информация углубляет описание единиц языка. Напр., простая констатация наличия форм им<енительного> падежа ед<инственного> числа личных местоимений в англ<ийском>, рус<ском> и лат<инском> языках недостаточна для выявления типологич<еских> различий, если не учитывать количеств, различия в текстовом поведении соотв<етствующих> единиц: почти абсолютная необходимость местоимения при глаголе в англ<ийском> яз<ыке>, его обычность - в рус<ском> яз<ыке> и редкость и стилистич<еская> маркированность - в лат<инском> яз<ыке>. Т<аким> о<бразом>, создается перспектива превращения обычной структурной модели языка в структурно-вероятностную модель, в к-рой учитываются результаты статистич<еского> анализа текстов (в этой модели единицы языка обладают «весом», измеряемыми оказываются языковые противопоставления и связи). Структурно-вероятностная модель отличается большей реалистичностью, особенно эффективна она в диахронич<еских> и типологич<еских> исследованиях (напр., при сличении и обработке исторически последовательных текстов)» (Шайкевич 1990: 231).
[17] См. об этом, напр., Крылов и Ягунова 2006.
[18] Есть, в частности, несколько подходов к решению проблемы границ слова в корпусной лингвистике, при которых исследователи не ограничиваются членением текста на графические слова (от пробела до пробела), а выделяют более сложные единицы – т.н. «составные слова». См., напр., Венцов и др. 2004a; Венцов и др. 2004b; Венцов и др. 2006; Копотев 2004; Мустайоки и Копотев 2004; Ягунова 2006.
[19] Пунктирная постановка
С. А. Старостиным основных проблем корпусной лингвистики и краткое
изложение намечавшихся им в первой половине 1990-х годов программы их решения
нашли своё отражение в совместной публикации Н. В. Перцова и
С. А. Старостина
[20] Принципы организации ГКРЯ вкратце изложены в работе Крылов и Старостин 2005.
[21] Некоторые параметры интегрированной информационной среды StarLing позволили с успехом применять её и за пределами литературного корпуса – в частности, при создании текстовых и лексико-грамматических баз данных, описывающих некоторые говоры Подмосковья (см. Тер-Аванесова и Крылов 2006), а также севернорусские говоры Архангельской области (см. Качинская и Крылов 2006)
[22] Термин «диэрема» предложен М. В. Пановым (см. Панов 1967); там же см. опыт выделения диэрем в русском языке.
[23] Термин «юнктор» представляет собой вольный перевод английского термина «juncture» («стык»), употребляемого, напр., А. А. Хиллом (см. Hill 1960).
[24] Ср. «число вхождений (данной единицы) на миллион» (“instances per million words”, сокращённо “ipm” -- способ измерения, широко распространённый в современной корпусной лингвистике. См., напр., частотный словарь русского языка С. А. Шарова, см. Sharoff 2002 (http://www.artint.ru/projects/frqlist.asp).