Часть 4
Дистрибутивно-статистический анализ
в минимальном интервале
Напомним основное направление дистрибутивно-статистического анализа (ДСА), сформулированное в т. 1 нашей монографии.
Ставится задача описания языка по большому корпусу текстов, в котором представлены цепочки букв, разделенные пробелами (= графические слова). Эта задача решается в несколько этапов, каждому из которых соответствует свой интервал текста, т. е. задаваемый способ членения корпуса. Первый этап анализа (микроинтервал) предполагает изучение комбинаторики букв в рамках графического слова.
На следующем этапе (в минимальном интервале) изучается комбинаторика графических слов внутри бинарных словосочетаний, т. е. пар слов, непосредственно предшествующих одно другому.
Семантическая информация в ДСА не используется.
4.1. Работа ДСА в минимальном интервале на материале корпуса
русской прозы
4.1.0. Систематизация морфологических данных
Эффективной работе ДСА в минимальном интервале должна предшествовать окончательная систематизация морфологических данных, полученных на микроинтервале. Вернемся к результатам п.п. 2.2.4 и 2.2.5 (т. 1, с. 124–127), где приведен список 43 агрегированных парадигм с соответствующими наборами суффиксов. Этот список может быть пересмотрен с учетом двух важных процедур.
1. Следует учесть ограничения на комбинаторику букв, отмеченные в табл. 1.8 и 1.9 (т. 1, с. 47–48).
2. Следует допустить интерпретацию набора ассоциированных суффиксов как отражение нескольких парадигм, надстраиваемых одна над другой в результате деривации основ.
В качестве примера комбинаторных ограничений обратимся к букве К. Табл. 1.8 показывает, что справа от этой буквы неслучайно часто появляется И и, напротив, не встречается буква Ы[1]. Теперь становится ясным, что парадигмы /17/ ТЯЖЕЛ‑ый и /20/ ВЫСОК‑ий[2] различаются ровно этим одним орфографическим ограничением. Две парадигмы можно объединить в одну.
Набор суффиксов парадигмы /19/ БЛАГОРОДНЕ‑йший целиком входит в набор парадигмы /18/ ХОРОШ‑ий. Анализ 39 слов с суффиксом –ейш- покажет, что 35 из них присоединяются к основам все той же парадигмы /17/ (благороднейший, богатейший, важнейший, вернейший, главнейший, глупейший, длиннейший, добрейший, добродушнейший, злейший, любезнейший, любимейший, малейший, милейший, нежнейший, новейший, огромнейший, отличнейший, первейший, покорнейший, полнейший, почтеннейший, превосходнейший, преданнейший, прекраснейший, прелестнейший, светлейший, сильнейший, скорейший, старейший, счастливейший, ужаснейший, умнейший, честнейший, чистейший), слово святейший производно от святой (особого варианта парадигмы /17/), а три слова (дальнейший, искреннейший, позднейший) окажутся в составе парадигмы /18/. Сходным образом ведет себя суффикс –айш (ближайший, величайший, высочайший, глубочайший, мельчайший, нижайший, строжайший, тончайший) с тем отличием, однако, что сопровождается изменением конечной буквы производящей основы по правилу к > ч, г > ж (и более редкого з > ж).
К парадигме /18/ ХОРОШИЙ присоединятся наборы глагольных суффиксов ‑вшая, ‑вшие, ‑вший, ‑вших (около двухсот примеров), ‑ющие, ‑ющий, ‑ющим, ‑ющих (103 примера), а в парадигме /17/ окажется набор глагольных суффиксов ‑емое, ‑емые, ‑емый, ‑емых (делаемый, желаемый, занимаемый, именуемый, называемый, обвиняемый, обожаемый, ожидаемый, описываемый, подаваемый, получаемый, предлагаемый, предполагаемый, прерываемый, преследуемый, сдерживаемый, скрываемый, требуемый, уважаемый). К этим 19 примерам присоединятся композиты (многоуважаемый) и слова с префиксом не‑ (недосягаемый, неминуемый, необитаемый, неподражаемый, нескончаемый, неумолкаемый).
Оставаясь в рамках микроинтервала, попробуем систематизировать морфологические результаты. Ограничим поле наблюдения двумя порогами частоты: пусть снизу это будет частота 5, а сверху — 5000. Отбросив самые редкие слова, мы застрахуемся от вторжения нерегулярных вариантов, многих имен собственных или простых опечаток (ср. столпимши, столплением, столпления, столповиск, столповое, столповщины... яишенка, яишенки, яишенку, яишенку-глазунью, яй, яйва, яйве, яйве-то, яйле, яйлу). Отбрасывание самых частых слов будет полезным при попытках суммирования каких-то морфологических показателей, где функциональные слова могли бы статистически подавить регулярные явления, наблюдаемые в массе не самых частых слов.
После введения этих двух порогов общее число разных графических слов (первоначально 458 тысяч) уменьшилось почти вдвое. Введем еще одно ограничение. Установим цифру 3 как минимальное число суффиксов, необходимое для попадания основы в пул возможных участников регулярной парадигматики. В нашем уменьшенном вдвое поле наблюдения встретилось слово кабы с частотой 956, но ни потенциальная основа каб‑, ни основа кабы не имеет других продолжений-суффиксов из числа парадигм, открытых на микроинтервале. Основа кавалькад‑ имеет два продолжения ‑а и ‑ы, оба они входят в парадигмы /17/ и /27/, но мы пока исключаем их из рассмотрения (слова кавалькаде с частотой 4, кавалькадой и кавалькаду с частотой 1 заставили бы нас выбрать парадигму /27/ ПРИЧИН‑а, но эти слова не преодолели частотный порог). Слово кавардак с частотой 8 не имеет продолжений. Но основа кавказ имеет 4 продолжения: ‑0, ‑а, ‑ец, ‑ом, три из которых заставляют отнести эту основу в парадигму /21/ ОБРАЗ, что хорошо соответствует ожиданиям человека, знающего русский язык. Наконец основа кавказск‑ имеет 6 продолжений: ‑ие, ‑ий, ‑их, ‑ого, ‑ой, ‑ом, все они указывают на главную адъективную парадигму. К этой же парадигме отнесем основу кажд‑ с 14 продолжениями: ‑ая, ‑о, ‑ого, ‑ое, ‑ой, ‑ом, ‑ому, ‑ою, ‑у, ‑ую, ‑ые, -ый, -ым, ‑ых. Тринадцать из них входит в набор парадигмы /17/, но появился и новый кандидат в суффиксы — продолжение ‑у. Если бы в рамках данной парадигмы –у появлялось многократно, пришлось бы расширить парадигму. Можно ожидать, что и перечень парадигм подвергнется пересмотру: объединятся парадигмы /5/ и /6/, /9/ и /10/, /22/ и /23/, /25/ и /26/; некоторые парадигмы исчезнут, появятся новые.
Теперь число основ, удовлетворяющих нашим требованиям, сократилось до 13 тысяч. Дадим эскиз будущего списка в новой нотации, оставляя в косых скобках старые названия и номера парадигм.
A /Глагольные парадигмы/
Aa /1/, /3/
Ab /5/, /6/
Ac /9/, /10/
Ad /12/
B /Субстантивные парадигмы/
Ba /21/, /22/
Bb
/25/, /26/
Bc /35/, /36/
Bd /37-40/
Be /27/, /30/, /31/
Bf /28/
C / Адъективные парадигмы /
Ca /17/, /20/
Cb /18/, /19/
4.1.0.1.
Адъективные парадигмы
Начнем наш обзор с самого ясного класса — C.
Парадигма Ca (более 2500 основ) содержит самый большой набор суффиксов: ‑а, ‑ая, ‑ее, ‑ей, ‑о, ‑ого, ‑ое, ‑ой, ‑ом, ‑ому, ‑ою, ‑ую, ‑ы, ‑ые, ‑ый, ‑ым, ‑ыми, ‑ых. К этим восемнадцати суффиксам теперь добавился еще один ‑0 (нулевой суффикс), наблюдаемый почти у двухсот основ. Назовем самые частые формы[3]:
белокур 17 задумчив 88 некрасив 19 стыдлив 19
богат 301 застенчив 36 необрзован 20 суров 40
бодр 47 здоров 505 необходим 79 счастлив 715
быстр 19 здрав 22 неправ 45 сыт 136
вежлив 57 зелен 22 несчастлив 108 таков 534
велик 271 знаком 459 нетерпелив 19 тверд 77
весел 331 красив 117 обязан 504 терпелив 20
виноват 1489 ласков 121 одинаков 18 тих 91
вспыльчив 18 ленив 40 одинок 36 толст 40
всяк 218 лют 20 подл 30 трезв 36
высок 91 мал 131 помешан 37 туг 20
глух 43 мертв 61 прав (?) 982 тяжел 73
гол 19 мил 207 приветлив 26 угрюм 54
горазд 46 милосерд 22 проклят 54 учен 24
горд 147 милостив 197 пьян 567 учтив 26
готов 1690 млад 50 расчетлив 18 холост 28
груб 84 молод 359 ревнив 33 храбр 23
густ 19 наг 25 самолюбив 60 худ 85
далек 54 находчив 18 свят 93 цел 114
дик 34 невелик 32 скуп 65 честолюбив 18
доверчив 19 невредим 38 слаб 222 чист 104
един 61 недалек 23 слеп 38 чужд 33
женат 273 недвижим 22 справедлив 59 широк 41
жесток 54 нездоров 139 стар 310 эдак 307
жив 725 незнаком 41 строг 109 этак 1115
В тех случаях, когда при отбрасывании положительных суффиксов исход основы содержит сочетание согласных букв, перед последней буквой появляется гласная. Так возникают закамуфлированные нулевые формы: долог 26 (долгий), полон 201 (полный), смешон 119 (смешной). Особенно характерны они при основах, кончающихся буквой ‑к.
близок 118 короток 36 ловок 79 резок 37
гадок 63 крепок 71 мягок 32 робок 36
дерзок 48 кроток 40 неловок 32 сладок 20
жалок 77 легок 54 низок 47 тонок 23
узок 23
Если основа заканчивается суффиксом ‑н, в нулевой форме перед этим суффиксом появляется ‑е‑[4] (на –е‑ заменяется и мягкий знак в последовательности ‑льн). В нашем материале встретилось 280 форм с ‑ен. Приведем важнейшие:
беден 145 дурен 81 несогласен 14 решителен 13
безмолвен 10 жаден 20 несчастен 56 ровен 76
безобразен 11 желчен 12 ничтожен 41 свободен 184
беспокоен 24 забавен 17 нужен 681 серьезен 56
беспощаден 10 заметен 30 опасен 48 силен 215
бессилен 20 замечателен 38 опрятен 12 скромен 65
благодарен 319 занимателен 11 опытен 16 скрытен 11
благоразумен 12 звучен 10 оригинален 14 скучен 57
благороден 79 злобен 14 осторожен 47 славен 21
бледен 193 знатен 22 остроумен 13 слышен 222
болен 565 известен 231 отвратителен 17 смирен 42
важен 67 изящен 10 откровенен 82 снисходителен 30
великодушен 41 интересен 53 памятен 19 согласен 687
верен 124 искусен 14 печален 46 спокоен 279
виден 185 исправен 17 повинен 41 способен 383
виновен 82 красен 42 подобен 11 странен 65
властен 43 любезен 120 подозрителен 19 страшен 142
внимателен 39 любопытен 27 покорен 20 строен 32
возможен 30 мнителен 30 понятен 36 сумрачен 17
волен 71 мрачен 83 послушен 16 сходен 21
вреден 27 надобен 37 почтителен 40 темен 15
выгоден 17 наивен 21 прекрасен 47 тесен 12
годен 52 небрежен 16 прелестен 12 труден 22
голоден 82 невинен 37 привычен 11 удачен 12
грешен 61 недоволен 289 приличен 18 удобен 16
грозен 33 нежен 72 причастен 11 ужасен 46
грустен 76 неизвестен 36 приятен 66 умен 371
грязен 13 ненавистен 25 простодушен 14 холоден 86
деликатен 26 неопытен 17 противен 116 черен 13
деятелен 18 неосторожен 19 равен 19 честен 99
добродетелен 10 неподвижен 40 равнодушен 109 чуден 18
добродушен 15 непонятен 10 радостен 14 ясен 69
доволен 908 неприятен 55 развязен 19
должен 4821 неравнодушен 32 раздражителен 29
дружен 45 несносен 15 разумен 16
Теперь, когда набор суффиксов парадигмы Ca окончательно определен, можно обратиться к анализу относительной частоты отдельных суффиксов. Материал пятидесяти частых основ[5] с общей частотой 227680 словоупотреблений дает такую картину:
-0 .046 -о .126 -ому .017 -ый .117
-а .030 -ого .073 -ою .010 -ым .058
-ая .073 -ое .066 -ую .038 -ыми .028
-ее .015 -ой .087 -ы .020 -ых .066
-ей .004 -ом .028 -ые .088
В табл. 4.1 даются абсолютные частоты сочетаний суффиксов парадигмы с некоторыми характерными основами[6].
Таблица 4.1
бел- глуп- готов- жив- мил- молод- нов- полн- русск- свят-
0 26 465 1690 725 208 359 15 201 - 93
а 87 212 707 334 205 271 25 200 6 19
ая 379 311 60 285 1105 1129 772 372 487 256
ее 40 155 2 122 80 - 9 54 - 18
ей 17 27 - 80 36 1 - 4 - 13
о 34 765 494 771 418 33 137 1606 - 152
ого 331 109 46 360 176 1303 1262 312 958 291
ое 267 146 55 350 194 234 1148 617 260 136
ой 552 148 35 624 211 4191 912 471 872 536
ом 621 31 35 43 42 124 497 484 256 49
ому 69 40 6 44 56 346 290 38 220 63
ою 89 30 11 45 31 63 109 153 33 36
ую 242 107 31 182 106 338 873 357 273 132
ы 55 146 544 196 74 178 35 142 9 17
ые 682 219 89 234 258 1344 1323 192 902 220
ый 564 349 178 8 1790 - 1712 482 1158 84
ым 304 134 78 214 147 594 646 422 398 166
ыми 376 57 22 103 36 213 269 87 189 98
ых 440 104 47 398 95 1190 967 62 962 252
5175 3555 4130 5118 5267 11911 11001 6256 6985 2631
При полной независимости вероятностей суффиксов и основ мы ожидали бы, что слово молодый должно появиться (11911 × 0.117) ≈ 1393 раза, между тем оно не встретилось ни разу; математическое ожидание формы молодой = 1036, реально же оно появилось 4191 раз. Униформное распределение суффиксов дало бы математическое ожидание 738 у формы полно, реально же ее частота составила 1606.
Для оценки неслучайности отклонений реальных частот от математического ожидания снова воспользуемся нашей основной формулой (т. 1, с. 31)
S = (x - m -1)/√m.
Приняв в качестве порога S = 2, заменим превышения над математическим ожиданием знаком плюс. Тогда из табл. 4.1 получим табл. 4.2.
Таблица 4.2
бел- глуп- готов- жив- мил- молод- нов- полн- русск- свят-
0 + + +
а + + + +
ая + + + +
ее + +
ей + +
о + + +
ого + + + +
ое + +
ой + + + +
ом + + + +
ому + + + +
ою + +
ую + + +
ы + + +
ые + + + +
ый + + +
ым
ыми + +
ых + + + + +
Таблицы такого типа могут дать информацию о внутренней неоднородности данных — как об основах, так и о суффиксах. Основы глуп- и жив- имеют общие плюсы в шести строках, что говорит об их сходстве. С другой стороны, суффиксы ‑0, ‑а и ‑ы имеют общие плюсы в трех столбцах (глуп‑, готов- и жив‑), что также говорит об их дистрибутивном (а может быть, и о семантическом) сходстве.
Заменив частоты на плюсы, мы превратили количественные данные в качественные и можем воспользоваться коэффициентом связи Юла (т. 1, с. 50).
Q = (ad - bc)/(ad + bc)
Применим эту формулу к случаю суффиксов ‑0 и ‑а в таблице, аналогичной табл. 4.2, но охватывающей весь список 50 частых основ. Оба суффикса появляются как плюсы у 9 основ (бледн‑, больн‑, богат‑, глуп‑, готов‑, довольн‑, жив‑, счастлив‑, умн‑). Две основы дают плюс только для суффикса ‑0 (знаком, пьян), четыре основы имеют плюс только у суффикса ‑а (велика, добра, мила, чиста). Эти данные представлены в четырехклеточной таблице:
-0 не-0 Итого
-а 9 (a) 2 (b) 11
не-а 4 (c) 35 (d) 39
Итого 13 37 50
Отсюда Q = (9×35 — 2×4)/(9×35 — 2×4) = 307/323 = 0,95 — необычайно высокий показатель дистрибутивного сходства. Для пары суффиксов ‑0 и ‑ы Q = 0,99, для ‑а и ‑ы Q = 0,75. Все это дает нам некоторый кластер из трех суффиксов в рамках общей адъективной парадигмы. Содержательная оценка этого кластера сразу бы определила — речь идет о кратких прилагательных; быть может, минимальный интервал обнаружит здесь что-нибудь средствами ДСА. Как бы то ни было, существование кластера есть доказанный факт. Ниже будут показаны некоторые черты внутренней структуры субстантивных парадигм, открываемые на микроинтервале.
Обратимся теперь к неоднородности основ.
Статистически значимое сокращение форм с суффиксом ‑ый (как в случаях живый и святый) или их полное отсутствие не может быть объяснено в рамках ДСА, ведь ударение почти не находит отражения в русской орфографии. Подобное поведение обнаружено у 146 основ (или 6%), ср. босой, восьмой, второй, иной, кривой, крутой, лихой, молодой, немой, плохой, простой, прямой, пустой, рябой, святой, седой, седьмой, скупой, сухой, тугой, тупой, холостой, шестой и т. д. В основах с суффиксом –ов‑ подобные случаи составляют до 40% (боковой, вековой, верховой, вестовой, годовой, городовой, громовой, деловой, долговой, круговой, мастеровой, меховой, мировой, моровой, мостовой, носовой, передовой, полковой, половой, родовой, роковой, рядовой, становой, трудовой, часовой и др.). В словах с суффиксом –н‑ доля их меньше 10%, но представлены они очень широко (головной, грудной, дверной, двойной, земной, крепостной, лесной, мясной, ночной, основной, отставной, переводной, перекладной, пивной, портной, потайной, резной, речной, ржаной, родной, ручной, смешной, стальной, стенной, степной, тройной, хмельной, цветной, цепной, четвертной, шерстяной и т. п.). Встречаются они и среди основ с суффиксом –ск‑ (4%), ср. воровской, городской, донской, людской, мастерской, мирской, морской, мужской, слободской, тверской, ямской.
Рассмотренная парадигма Ca включает огромное число основ с суффиксами. Самый частый суффикс –н‑ образует по преимуществу адъективы от субстантивов (более 80%). При этом происходит изменение конечной буквы производящей основы:
-к > -ч,
-ц > -ч,
-г > -ж,
-х > -ш.
Назовем эту схему основным чередованием согласных (она будет неоднократно повторяться у суффиксов именных парадигм. Примерами у суффикса –н‑ могут служить:
брачн- (брак) ручн- (рука) бумажн- (бумага)
вечн- (век) сказочн- (сказка) денежн- (денег)
восточн- (восток) табачн- (табак) дорожн- (дорога)
горячечн- (горячка) фабричн- (фабрика) дружн- (друг)
желудочн- (желудок) цветочн- (цветок) жемчужн- (жемчуг)
загадочн- (загадка) циничн- (циник) каторжн- (каторга)
звучн- (звук) чахоточн- (чахотка) книжн- (книга)
копеечн- (копейка) шуточн- (шутка) ночлежн- (ночлег)
крошечн- (крошка) ярмарочн- (ярмарка) острожн- (острог)
кулачн- (кулак) отважн- (отвага)
лихорадочн-(лихорадка) больничн- (больница) пирожн- (пирог)
молочн- (молоко) горничн- (горница) присяжн- (присяга)
научн- (наука) единичн- (единица) радужн- (радуга)
оброчн- (оброк) заграничн- (граница) снежн- (снег)
отрывочн- (отрывок) конечн- (конец) судорожн- (судорога)
ошибочн- (ошибка) мельничн- (мельница) тревожн- (тревога)
политичн- (политика) месячн- (месяц) южн- (юг)
порочн- (порок) пшеничн- (пшеница)
порядочн- (порядок) сердечн- (сердце) воздушн- (воздух)
праздничн- (праздник) солнечн- (солнце) грешн- (грех)
практичн- (практика) столичн- (столица) душн- (дух)
публичн- (публика) уличн- (улица) потешн- (потеха)
пушечн- (пушка) смешн- (смех)
речн- (река) страшн- (страх)
успешн- (успех)
Как правило, производная основа имеет меньшую частоту, чем производящая основа. Обратное соотношение в парах мрачн- (мрак), скучн- (скука), должн- (долг), нежн- (нега) заставляет предполагать ослабление семантической зависимости производной основы от производящей. В некоторых случаях основа с исходом на ‑чн- не укладывается в основную схему чередований, и тогда можно предположить существование более протяженного суффикса –ичн‑ (в парах будничн- — будни, вторичн- — второй, симпатичн- — симпатия, энергичн- — энергия). Сходная трактовка напрашивается при анализе основ зажиточн‑ и распивочн‑.
Можно считать доказанным существование отглагольного суффикса –тельн‑, подтверждаемого внушительным списком:
блистательн- обаятельн- последовательн- старательн-
взыскательн- обличительн- поучительн- стеснительн-
влиятельн- обольстительн- почтительн- стремительн-
внимательн- обстоятельн- предварительн- томительн-
внушительн- обходительн- представительн- требовательн-
возмутительн- обязательн- предупредительн- трогательн-
вопросительн- оглушительн- предусмотрительн- убедительн-
выразительн- одобрительн- презрительн- уважительн-
действительн- окончательн- привлекательн- увеселительн-
заключительн- омерзительн- пригласительн- увлекательн-
замечательн- оправдательн- приготовительн- удивительн-
занимательн- оскорбительн- признательн- удовлетворительн-
заразительн- ослепительн- продолжительн- указательн
значительн- основательн- проницательн- умилительн-
изумительн- осязательн- раздражительн- уморительн-
исключительн- отвратительн- рассудительн- унизительн-
ласкательн- отличительн- решительн- успокоитнльн-
медлительн- отрицательн- ругательн- утвердительн-
мнительн- очаровательн- снисходительн- утешительн-
мстительн- ощутительн- соблазнительн- утомительн-
мучительн- повелительн- созерцательн- чувствительн-
назидательн- подозрительн- сознательн-
наставительн- позволительн- сомнительн-
настоятельн- положительн- сострадательн-
нюхательн- поразительн- спасительн-
Популярность суффикса –н‑ способствует его экспансии, в частности, в сферу европейских заимствований, ср. гениальн‑, колоссальн‑, музыкальн‑, натуральн‑, национальн‑, нормальн‑, официальн‑, патриархальн‑, радикальн‑, рациональн‑, сентиментальн‑, социальн‑, танцевальн‑, театральн‑, центральн‑. Загадочным кажется распространение –альн‑ на русские основы: буквальн‑, погребальн‑, поминальн‑, прощальн‑.
Около 300
основ рассматриваемой парадигмы содержат суффикс –ск‑,
присоединяемый к субстантивным основам (суффиксация соответствует схеме B
--> Ca). Этот суффикс обычно вызывает основное чередование согласных (ср.,
однако, петербургский, оренбургский). Присоединение его к производящим
основам на ‑л- сопровождается появлением –ь‑, (генеральский,
дьявольский, сельский, тульский, уральский). Напротив, всякий след
«мягкости» может исчезнуть после ‑н- и –р‑: деревенский,
конский, богатырский, зверский, морской, сибирский, ухарский, царский.
Перед данным суффиксом появляется ‑е- после конечных ‑ч-
или ‑ш- производящей основы (независимо от причины появления этих букв): всяческ‑,
греческ‑, девическ‑, иноческ‑, купеческ‑, отеческ‑,
творческ‑, товарищеск‑, человеческ‑, языческ‑; монашеск‑,
юношеск‑. После ‑ж- твердое правило установить не
удается, ср. дружеск‑, княжеск‑, пажеск‑, супружеск‑,
но волжск‑, калужск‑, коллежск‑, мужск‑, парижск‑.
Более 60 основ кончаются на последовательность –ическ‑, лишь одна из них (девическ‑) целиком состоит из русских морфем; все остальные — результат адаптации европейских прилагательных (во французском на ‑ique): гармоническ‑, географическ‑, героическ‑, гимназическ‑, готическ‑, демократическ‑, деспотическ‑, дипломатическ‑, ироническ‑, истерическ‑, историческ‑, католическ‑, классическ‑, комическ‑, критическ‑, лирическ‑, логическ‑, магическ‑, математическ‑, меланхолическ‑, механическ‑, мистическ‑, нервическ‑, патетическ‑, патриотическ‑, педагогическ‑, периодическ‑, политическ‑, поэтическ‑, практическ‑, психическ‑, психологическ‑, романическ‑, романтическ‑, саркастическ‑, сатирическ‑, симпатическ‑, систематическ‑, социалистическ‑, статистическ‑, студенческ‑, сценическ‑, теоретическ‑, трагическ‑, тропическ‑, фанатическ‑, характеристическ‑, фактическ‑, фантастическ‑, физиологическ‑, физическ‑, фотографическ‑, химическ‑, эгоистическ‑, экономическ‑, эксцентрическ‑, электрическ‑, энергическ‑, эстетическ‑, юмористическ‑, юридическ‑.
Основы на –ск‑ и –ическ- обладают рядом дистрибутивных ограничений — они не сочетаются с ‑0, ‑а, ‑о. С другой стороны, формы с суффиксом –и‑, по-видимому, ассоциированы не с ‑0 и ‑а, но функционально аналогичны формам с конечным ‑о остальных основ нашей парадигмы. Так это, или не так, покажет минимальный интервал. Ср. воровски, гармонически, детски, иронически, мастерски, плутовски, предательски, старчески, фактически, физически, философски, человечески, юношески (всего 55 форм).
Из остальных основообразующих суффиксов упомянем:
‑ист- (30 основ): болотистый, волнистый, глинистый, голосистый, душистый, жилистый, золотистый, извилистый, каменистый, лесистый, лучистый, морщинистый, мускулистый, мясистый, неказистый, объемистый, окладистый, осанистый, отрывистый, порывистый, прерывистый, приземистый, пушистый, размашистый, речистый, росистый, серебристый, скалистый, смолистый, тенистый;
‑лив- (51 основа): болтлив‑, боязлив‑, брезглив‑, визглив‑, говорлив‑, горделив‑, добычлив‑, догадлив‑, дождлив‑, жалостлив‑, заботлив‑, завистлив‑, затейлив‑, кокетлив‑, криклив‑, молчалив‑, назойлив‑, насмешлив‑, особлив‑, отчетлив‑, писклив‑, приветлив‑, прихотлив‑, причудлив‑, прозорлив‑, пуглив‑, пытлив‑, расчетлив‑, слезлив‑, словоохотлив‑, смазлив‑, сметлив‑, смешлив‑, сонлив‑, справедлив‑, стыдлив‑, суетлив‑, счастлив‑, талантлив‑, терпелив‑, тороплив‑, тосклив‑, труслив‑, удушлив‑, уродлив‑, услужлив‑, хвастлив‑, хлопотлив‑, шутлив‑, щекотлив‑;
‑чив‑ (16 основ, в конечном счете глагольного происхождения): вкрадчив‑, вспыльчив‑, доверчив‑, задумчив‑, заманчив‑, заносчив‑, застенчив‑, навязчив‑, настойчив‑, находчив‑, обидчив‑, обманчив‑, разборчив‑, разговорчив‑, сбивчив‑, уклончив‑;
‑оват- (16 основ, чаще производных от адъективных же основ): белесоват‑, беловат‑, глуповат‑, голубоват‑, грубоват‑, желтоват‑, зеленоват‑, красноват‑, плутоват‑, подслеповат‑, продолговат‑, простоват‑, сероват‑, сутуловат‑, угловат‑, щеголеват‑.
Отглагольные адъективы будут рассмотрены в связи с морфологией глагола.
Cb ("Мягкая парадигма адъективов"). Данная парадигма отличается от только что рассмотренной тем, что 1) суффиксы ‑ого, ‑ое, ‑ой, ‑ом, ‑ому, ‑ою заменяются на ‑его, ‑ее, ‑ей, ‑ем, ‑ему, ‑ею; 2) суффиксы ‑ие, ‑ий, ‑им, ‑ими, ‑их появляются не только после ш‑, ж‑, ч- и щ‑ (где буква ‑ы невозможна), но и в остальных случаях; 3) после указанных согласных сохраняются орфографические ‑ая и ‑ую, в остальных же случаях вместо них появляются ‑яя и ‑юю, 4) в первоначальном наборе суффиксов нет ‑о. Проверка всех основ на возможность включения в данную парадигму добавила несколько суффиксов: ‑0, ‑а, ‑е, ‑и. К парадигме несомненно относится 186 основ (с исходом на ш- — 9 основ, с исходом на щ‑ — 8 основ, с исходом на ж- — 18 основ, с исходом на ч- — 31 основа, с исходом на н- — 120 основ[7]).
Как и в случае парадигмы Ca, подсчитаем долю каждого суффикса на основании группы 50 самых частых основ с общей частотой 61150[8].
Особой парадигмой Cc следует признать набор суффиксов ‑е, ‑его, ‑ей, ‑ем, ‑ему, ‑ею, ‑и, ‑им, ‑ими, ‑их, ‑ю, ‑я, присоединяемых к основам с исходом на ‑ь. Теряя конечный ‑ь, эти основы соединяются с суффиксом ‑ий. Группа включает 38 основ с общей частотой 9370: бабь‑, барань‑, беличь‑, божь‑, вдовь‑, воловь‑, волчь‑, вражь‑, девичь‑, заячь‑, извозчичь‑, казачь‑, козь‑, коровь‑, кошачь‑, куличь‑, лись‑, медвежь‑, мужичь‑, олень‑, охотничь‑, павлинь‑, полковничь‑, помещичь‑, птичь‑, разбойничь‑, раскольничь‑, ребячь‑, рыбачь‑, рыбь‑, собачь‑, соболь‑, старушечь‑, стерляжь‑, телячь‑, треть‑, человечь‑, чиновничь‑. За единственным исключением (треть‑) все эти основы производны от субстантивных основ. К основному чередованию согласных в этих случаях присоединяется чередование д > ж (медвежь‑, стерляжь‑) и т >ч (ребячь‑, телячь‑)
Роль отдельных суффиксов в адъективных парадигмах выглядит следующим образом:
Ca Cb-ш,ж,ч,щ Cb-н Cc
-0 4,6% 5.1% ... -
-а 3,0% 4.5% 0.1% -
-ая 7,3% 6.0% -яя 5.4% -я 9,4%
-ую 3,8% 3.8% -юю 5.8% -ю 7,4%
-о 12,6% -
-е 1.9% 1.9% -
-ее 1,5%
-ей 0,4%
-ого 7,3% -его 10.3% 10.0% 12,2%
-ое 6,6% -ее 9.6% 10.3% -е 6,3%
-ой 8,7% -ей 5.6% 20.1% 10,5%
-ом 2,8% -ем 2.8% 4.4% 5,1%
-ому 1,7% -ему 2.7% 2.1% 2,0%
-ою 1,0% -ею 0.7% 0.8% 0,5%
-ы 2,0% -и 1.5% 0.1% -
-ые 8,8% -ие 10.4% 10.8% -и 8,3%
-ый 11,7% -ий 14.8% 12.8% 27,8%
-ым 5,8% -им 9.0% 4.5% 4,2%
-ыми 2,8% -ими 2.9% 1.3% 1,5%
-ых 6,6% -их 8.3% 9.2% 4,8%
Как видим, в парадигме Cb основы с исходом на ‑н не присоединяют суффиксы ‑0, ‑а, ‑и[9]; ту же особенность наблюдаем в парадигме Cc. Конечно, приравнивание суффиксов в адъективных парадигмах несколько опережает ход алгоритма. Минимальный интервал должен подтвердить или опровергнуть такое приравнивание.
4.1.0.2.
Субстантивные парадигмы
Субстантивные парадигмы объединяют тысячи основ и весьма разнообразны по своим морфологическим свойствам. Начнем с самой мощной парадигмы (Ba), включающей 2357 основ с изначально сформированным списком суффиксов: ‑0, ‑а, ‑ам, ‑ами, ‑ах, ‑е, ‑ов, ‑ом, ‑у, ‑ы. Таблица 141 частых основ (с общей частотой 388 тысяч словоупотреблений) дает следующие вероятности суффиксов:
-0 .406 -ам .013 -ах .017 -ов .042 -у .084
-а .187 -ами .027 -е .056 -ом .102 -ы. .057
Поступим так же, как с материалами табл. 4.2 в парадигме Ca.
Таблица 4.3
Матрица коэффициентов связи (Q) между суффиксами парадигмы Ba
-0 -ам -ами -ах -ов -ы -а -е -ом -у
-0
-ам 88 88 68 70
-ами 38 63 91
-ах 52 54 49
-ов 89
-ы
-а 33 77
-е 44 36
-ом 60
-у
Внутренняя структура парадигмы выступает здесь очень рельефно: несомненно доказан кластер пяти суффиксов ‑ам, ‑ами, ‑ах, ‑ов, ‑ы с характерными основами арестант, волос, глаз, грех, закон, мужик, офицер, охотник, помещик, поступок, праздник, преступник, работник, разговор, рассказ, солдат, чиновник. Если по группе в целом эти пять суффиксов составляет 15,6% общей частоты, то у 17 только что приведенных основ он поднимается до 45%[10]. В группе кандалы, миазмы, пожитки, тиски, финансы, штаны только эти суффиксы и засвидетельствованы. С позиций семантической лингвистики этот кластер объясняется очень просто: соответствующие существительные часто (или даже всегда) употребляются во множественном числе.
Не столь ясен четырехчленный кластер ‑а, ‑е, ‑ом, ‑у с характерными основами ветр‑, город‑, мир‑, порядк‑, рт‑, снег‑, стол‑, столик‑, страх‑, ужас‑, ум‑.
В рамках парадигмы обнаружено более 170 основ с исходом на ‑ник- (бумажник, воротник, вторник, гривенник, дворник, дневник, защитник, исправник, любовник, мельник, мошенник, наследник, охотник, племянник, покойник, полковник, полтинник, помощник, понедельник, посредник, праздник, преступник, работник, разбойник, родственник, священник, советник, спутник, чайник, чиновник и т. д.). Примерами основного чередования согласных служат башмачник, будочник, взяточник, источник, лавочник, лодочник; станичник; безбожник, должник, каторжник, мятежник, сапожник; грешник, орешник. Регулярно появление ‑ь- после ‑л- производящей основы — бездельник, начальник, отшельник, подзатыльник, пчельник, раскольник, сокольник, стольник, треугольник, умывальник, целовальник, школьник. Семантический подход признал бы этот ‑ник- суффиксом, но зафиксировал бы несколько ошибок (ботаник, веник, пикник, пряник, хроник, циник).
Как и в парадигме Ca, особого замечания требует суффикс ‑0. Стечение согласных букв в исходе нулевых форм преодолевается вставкой гласной перед конечным согласным: ‑ол (посол, угол, хохол, чехол), ‑ел (вымысел, дятел, замысел, котел, орел, осел, павел, пепел, помысел, узел, умысел), ‑ен (молебен), ‑ет (египет, хребет), ‑ем (займа, найма), ‑ом (псалом), ‑ор (багор, бугор, свекор), ‑ер (ветер, костер), ‑ес (овес), ‑от (рот).
В максимальной степени такие нулевые форм наблюдаются у основ с конечным ‑к- (более 150 основ), ср.
беспорядок звонок образок поросенок список
венок крючок остаток порядок сынок
ветерок кусок оттенок поступок теленок
висок лесок переулок потолок толчок
возок листок песок припадок убыток
волосок мешок платок рассудок уголок
десяток молоток подарок ребенок узелок
желудок недостаток подбородок рисунок цветок
замок новичок поединок рынок чулок
затылок носок полушубок сверток щенок
василек излишек кулек пенек уголек
денек конек муженек пузырек флигелек
зверек кошелек огонек ручеек хорек
Само собой разумеется, основообразующий суффикс –к‑ вызывает основное чередование в производящей основе:
бычок (бык) пучок (пук) овражек (овраг)
волчок (волк) ребеночек (ребенок) пирожок (пирог)
дурачок (дурак) старичок (старик) прыжок (прыг)
клочок (клок) сундучок (сундук) рожок (рог)
куличок (кулик) сыночек (сынок) сапожок (сапог)
кусочек (кусок) цветочек (цветок) снежок (снег)
листочек (листок) человечек (человек) петушок (петух)
мешочек (мешок) червячок (червяк) смешок (смех)
мужичок (мужик) чулочек (чулок) стишок (стих)
песочек (песок) ящичек (ящик)
платочек (платок)
Чередование отмечено и при суффиксе ‑ик (кончик, огурчик, пальчик). Всего в поле наблюдения зафиксировано 43 основы с этим суффиксом: бантик, билетик, братик, волосик, годик, гробик, грошик, дворик, дождик, домик, калачик, карлик, коврик, коник, костик, крестик, кролик, кустик, листик, мазурик, материк, матросик, мужик, носик, прутик, ротик, рублик, рыжик, садик, солдатик, старик, столбик, столик, фонарик, хвостик, часик, шарик. С содержательной точки зрения следовало бы считать омонимом суффикс ‑ик в конце основ историк‑, классик- и фанатик‑, пока эти случаи остаются в общем списке.
Из других основообразующих суффиксов отметим:
‑чик (31 основа): бубенчик, буфетчик, возчик, голубчик, графинчик, диванчик, доносчик, заводчик, закладчик, извозчик, коридорчик, лазутчик, мальчик, молодчик, обидчик, образчик, ответчик, переводчик, перевозчик, подрядчик, попутчик, приказчик, разносчик, рассказчик, рябчик, рядчик, советчик, стаканчик, чепчик, чуланчик, шкапчик;
‑щик (27 основ): артельщик, барабанщик, бунтовщик, гробовщик, гуртовщик, денщик, заговорщик, зачинщик, каменщик, караульщик, конторщик, миллионщик, могильщик, надсмотрщик, наемщик, носильщик, обманщик, откупщик, покупщик, помещик, прапорщик, приживальщик, ростовщик, спорщик, сыщик, ходебщик, ямщик.
Из европейских субстантивных суффиксов в нашем материале представлены
‑ист: артиллерист, артист, аферист, бонапартист, гимназист, журналист, кавалерист, кантонист, канцелярист, капиталист, колонист, коммунист, контрабандист, материалист, машинист, моралист, прогрессист, публицист, романист, семинарист, специалист, турист, фельетонист, финансист и
‑изм: афоризм, деспотизм, либерализм, магнетизм, механизм, мистицизм, организм, патриотизм, ревматизм, романтизм, скептицизм, спиритизм, фанатизм, цинизм.
В пяти случаях засвидетельствованы пары с обоими суффиксами: атеизм — атеист, идеализм — идеалист, нигилизм — нигилист, социализм — социалист, эгоизм — эгоист.
Особого замечания требуют основы с исходом на –ц‑. Основы беглец, жрец, кузнец, льстец, мертвец, мудрец, подлец, чернец, чтец вполне укладываются в парадигму Ba. У 30 основ своеобразие отмечено в нулевой форме, где перед конечной ‑ц появляется буква –е‑: боец, борец, вдовец, венец, глупец, гонец, гребец, дворец, жеребец, жилец, конец, купец, леденец, ловец, образец, огурец, отец, певец, писец, пловец, продавец, птенец, рубец, самец, скворец, слепец, сорванец, стрелец, творец, чепец. Основа молодц- присоединяет суффиксы либо по этом образцу, либо по нижеследующему.
Громадное большинство (более 100) остальных основ с исходом на –ц- к этому добавляют мену суффиксов ‑ов на ‑ев и ‑ом на ‑ем[11]: американец, братец, вольнодумец, глуповец, иностранец, кормилец, красавец, летописец, любимец, мерзавец, мизинец, младенец, незнакомец, немец, палец, полководец, республиканец, румянец, самозванец, старец, счастливец, танец и др.
Обозначим этот последний вариант парадигмы символом Ba-ц.
Еще один вариант парадигмы Ba включает 100 основ с исходом на гласную букву. В нулевой форме у них появляется ‑й, остальные суффиксы сходны с суффиксами парадигмы Bb: ‑е, ‑ев, ‑ем. ‑и, ‑ю, ‑я, ‑ям, ‑ями, ‑ях. К самым частым основам относятся: случай, чай, край, николай, обычай, сарай, дунай; алексей, андрей, лакей, сергей, злодей, архиерей, еврей; василий, дмитрий, григорий, афанасий, порфирий, гений; покой, герой, бой, вой, обои, рой; поцелуй; негодяй. Этот вариант парадигмы можно обозначить Ba-й.
Отличие парадигмы Bb от парадигмы Ba во многом повторяет то, что отличало парадигму Cb от парадигмы Ca. В «мягких парадигмах» представлены два подтипа: основы с исходом ‑ч, ‑ш, ‑ж, ‑щ («шипящие») и основы с другим исходом. В обоих подтипах парадигмы Bb появляется новый суффикс ‑ей, ‑ы в суффиксе меняется на ‑и. Во втором подтипе гласные суффиксов последовательно меняются — ‑а на ‑я (‑я, ‑ям, ‑ями, ‑ях); ‑у на ‑ю; ‑0 на ‑ь; ‑ом на ‑ем. В первом подтипе частично наблюдается только последняя мутация (будем называть его Bb-чшжщ). Примерами могут служить:
-0 -а -е -ом -у -ей -ам -ами -ах
ключ, луч, врач, меч, богач, калач, кирпич, паралич;
грош, барыш, карандаш, торгаш;
нож, грабеж, этаж, багаж, паж, рубеж; плащ, лещ, плющ
-0 -а -е -ем -у -ей -ам -ами -ах
обруч, греч; марш, выигрыш, пунш;
сторож, париж, экипаж, саквояж; товарищ, овощ
-ь -я -е -ем -ю -ей -ям -ями -ях
голубь; червь; дождь, медведь; витязь, язь;
корабль, король, приятель, учитель, писатель;
конь, огонь, олень, окунь;
государь, царь, монастырь, зверь, секретарь;
гусь; гость.
Схема соответствий парадигм Ba и Bb оставляет не у дел суффикс ‑ов. Можно предположить, что новый член набора — суффикс ‑ей и есть функциональный коррелят суффикса ‑ов из парадигмы Ba. Аргументом в пользу такой трактовки могут быть значения Q пяти суффиксов из парадигмы Bb, определенные на группе из 40 самых частых основ:
-ей -и -ям -ями -ях
-ей 69 68
-и 67 98 53
-ям 67
Эти связи несколько напоминают то, что представлено в табл. 4.3, хотя со статистической точки зрения данные цифры не столь убедительны.
В нашем поле наблюдений оказалось около 200 основ, присоединяющих суффиксы по этой схеме. Некоторые очень частые основы демонстрируют комбинаторику основ и суффиксов, указывающую на какую-то промежуточную зону между Ba и Bb; примерами служат следующие формы (даны с частотами)[12]:
брат брата брате братом брату
4721 1892 116 530 782
братьев братья братьям братьями братьях
332 363 67 95 11
друг друга друге другом(?) другу други
7449 2879 94 2083 1300 78
друзей друзья друзьям друзьями друзьях
540 691 106 281 25
зять зятя зяте зятем зятю
121 130 5 48 48
зятьев зятья зятьям зятьями зятьях
13 30 2 9 2
лист листа листе листом листов листы листам листами листах
465 115 61 51 91 133 9 26 25
листьев листья листьям листьями листьях
121 231 13 94 29
сын сына сыне сыном сыну сынов сыны сынам сынами сынах
2363 2171 155 530 648 42 45 6 7 -
сыновей сыновья сыновьям сыновьями сыновьях
174 97 26 40 9
сосед соседа соседе соседом соседу соседами соседах
309 229 11 48 114 1 1
соседей соседи соседям соседями соседях
239 220 77 64 10
По две основы имеют слова, явно относящиеся к парадигме Bb:
князь князя князе князем князю князей князи
9134 3151 150 591 1298 145 17
князьев князья князьям князьями князьях
2 108 20 27 6
муж мужа муже мужем мужу мужей мужи мужам мужами мужах
2443 2793 170 971 1010 144 22 3 4 1
мужьев мужья мужьям мужьями мужьях
5 129 32 50 10
Отличительная изначальная черта парадигмы Bc — присутствие суффикса ‑о (слово, место, лицо, утро, письмо, окно, облако, чувство, средство, семейство и т. п., более 300 основ). Набор суффиксов мало отличается от парадигмы Ba, но различия в частоте суффиксов могут быть очень значительны. Сравним долю суффиксов в двух парадигмах[13]:
-0 -а -ам -ами -ах -е -о -ов -ом -у -ы
Ba .406 .187 .013 .027 .017 .056 - .042 .102 .084 .057
Bc .067 .213 .020 .031 .035 .084 .381 .003 .114 .045 .006
Суффикс ‑о занимает первое место в парадигме Bc, можно заподозрить его функциональное сходство с суффиксом ‑0 в парадигме Ba. Поражает уменьшение доли ‑ов и ‑ы. Почти половина случаев ‑ов приходится на три основы — облак‑, яблок- и мест‑. Суффикс ‑ы (орфографически ‑и) регулярно появляется после конечного к- основы: личик‑, местечк‑, окошк‑, словечк‑, стеклышк‑, ушк‑, яблок‑, а также у основы плеч‑.
О функциональной роли суффикса ‑0 в парадигме Bc можно судить по его коэффициентам связи с другими суффиксами
0 а ам ами ах
0 36 76 80 73
а 42 68 49
ам 63 90
ами 72
ах
Говоря содержательно, суффикс ‑0 входит в кластер суффиксов множественного числа, в какой-то мере это касается и суффикса ‑а. Появление гласных в нулевых формах повторяет схему парадигмы Ba, ср. местечек, окошек, перышек, яичек; кресел, ремесел, чисел; стекол, тягол; писем; бревен, зерен, полотен, пятен; сукон; ведер, ребер, ядер; крылец. Уникальна нулевая форма яиц у основы яйц‑. Специфика некоторых основ с исходом ц- состоит (так же, как в Ba) в замене ‑о на ‑е в суффиксах: сердце, солнце, платьице, полотенце.
Подтипы парадигмы Bd устроены так же, как в парадигме Bb — 22 основы с суффиксом –ищ‑ (винище, голенище, детище, жилище, зрелище, кладбище, пастбище, побоище, пожарище, полчище, поприще, пристанище, прозвище, сборище, сокровище, страшилище, сходбище, туловище, убежище, удилище, училище, чудовище); слова море и поле с суффиксами ‑е, ‑ей, ‑ем, ‑ю, ‑я, ‑ям, ‑ями, ‑ях и почти 700 основ с исходом на и‑ (преимущественно отглагольные субстантивы) и таким набором суффиксов: ‑е, ‑ем, ‑и, ‑й, ‑ю, ‑я, ‑ям, ‑ями, ‑ях. Суффиксы двух парадигм соотносятся следующим образом:
Bc Bd Bc Bd Bc Bd
-о -е -ом -ем -ам -ям
-е -и -у -ю -ами -ями
-0 -й -а -я -ах -ях.
К числу самых частых основ принадлежат: влияние, волнение, воображение, воспоминание, впечатление, выражение, движение, действие, дыхание, желание, заключение, значение, известие, имение, мнение, молчание, название, наслаждение, несчастие, объяснение, одолжение, отсутствие, отчаяние, положение, понятие, предложение, преступление, приказание, присутствие, продолжение, расположение, решение, самолюбие, свидание, согласие, содержание, сознание, состояние, спокойствие, существование, течение, уважение, удовольствие, участие, чтение, явление.
Более 100 основ предстают в двух вариантах: наряду с исходом на и- они имеют исход на ь‑. Оба варианта не различаются в нулевой форме, где находим ‑ий. В рамках ДСА невозможно определить, есть ли семантическая разница между этими вариантами: мгновение и мгновенье, счастье и счастие, учение и ученье. Нередко один из вариантов встречается чаще, чем другой.
веселье 199 -ие 20 внимание 1540 -ье 18
воскресенье 476 -ие 29 воспитание 509 -ье 10
жалованье 494 -ие 8 занятие 317 -ье 2
житье 512 -ие 90 намерение 475 -ье 20
прощанье 220 -ие 60 пение 309 -ье 22
Форма на ‑ье может не иметь коррелята на ‑ие, ср. белье, здоровье, зелье, кушанье, простонародье, раздумье.
Как и в парадигмах Ba и Bb, здесь тоже наблюдаются колебания в принадлежности к определенной парадигме или конкуренция основ:
око ока оке(?) оком оку
очи очей очам очами очах
ухо уха ухе(?) ухом уху
уши ушей ушам ушами ушах
колено колена колене коленом колену
колени коленей коленям коленями коленях
дерево дерева дереве деревом дереву
деревья деревьев деревьям деревьями деревьях
платье платья платьем платью платьев платьям платьями платьях
крыло крыла крыле крылом крылу крыл крылам крылами крылах
крылья крыльев крыльям крыльями крыльях
перо пера пере пером перу
перья перьев перьям перьями перьях
Парадигма Be изначально включает суффиксы ‑а, ‑е, ‑у, ‑ы, появляющиеся и в других именных парадигмах, и суффиксы ‑ой и ‑ою, которые в других субстантивных парадигмах не встречаются. Последовательная проверка основ на сочетаемость с суффиксами добавляет к этому набору ‑0, ‑ам, ‑ами, ‑ах. К этой парадигме относится 1566 основ, список 30 самых частых слов включает: анна, баба, бабушка, батюшка, вера, вода, голова, госпожа, дама, девушка, дорога, душа, жена, женщина, катерина, книга, комната, лиза, минута, москва, надежда, пора, правда, причина, работа, рука, сестра, сила, служба, старуха. Сравним долю суффиксов в парадигмах Ba и Be[14].
-0 -а -ам -ами -ах -е -ов -ой -ою -ом -у -ы
Ba .406 .187 .013 .027 .017 .056 .042 - - .102 .084 .057
Be .075 .319 .009 .025 .021 .118 - .077 .023 - .159 .182
Только суффиксы -ам, -ами, -ах показывают небольшие расхождения. У остальных суффиксов различия очень велики, что свидетельствует о существенной функциональной разнице двух парадигм. Об этом же говорит следующая таблица.
Таблица
4.4
Матрица коэффициентов связи (Q) между суффиксами парадигмы Be
-0 -а -ам -ами -ах -е -ой -ою -у -ы
-0 90 86 93 54
-а
-ам 95 82 74
-ами 75 47
-ах
-е 59 64 60
-ой 97
-у 62
-ы
Как и раньше, четко выделяется четырехчленный кластер ‑0, ‑ам, ‑ами, ‑ах. Суффикс ‑ы связан с ним и одновременно с более рыхлым кластером ‑е, ‑ой/ою, ‑у, ‑ы. С точки зрения семантической лингвистики такая картина объясняется двузначностью флексии ‑ы (род. п. ед. ч. и им.-вин. п. мн. ч.). Рост доли –е объясняется совмещением функций дат. и предл. падежей.
Образование нулевых форм частично повторяет уже отмеченные тенденции других парадигм — сочетания согласных устраняются появлением –е‑: свадеб, судеб, усадеб, тюрем, копен, сосен, сестер; в двух случаях в роли такого гласного выступает –о‑: розог, кукол.
По-другому обстоит дело в основах с конечным ‑к- (по большей части — универсальным суффиксом, присоединяемым к глагольным и субстантивным основам). Здесь можно выявить четкую закономерность. Если конечному к- основы предшествует –ч‑, ‑ш‑, ‑ж‑, ‑й- или –ь‑, в нулевой форме находим ‑ек (при этом ‑й- и ‑ь- исчезают). Обнаружено 107 случаев такого рода, ср. девочек, дочек, привычек, птичек, свечек, речек, собачек, ручек, ласточек, карточек; матушек, девушек, тетушек, старушек, мальчишек, кошек, рубашек, насмешек, старикашек, чашек, лягушек, кумушек; книжек, бумажек, фуражек, ножек, ложек, служек, застежек, денежек, издержек; хозяек, троек, копеек, шаек, скамеек, попоек, построек, индеек, нагаек; маменек, дяденек, нянек, ступенек, полек, дядек, шпилек, мосек.
При любом другой согласной, предшествующей конечному к- основы, в нулевой форме появляется ‑ок (160 примеров): улыбок, ошибок, рыбок, трубок, юбок; девок, обстановок, лавок, веревок, остановок, торговок; водок, лодок, соседок, поездок, выходок, сходок, загадок, лошадок; сказок, повозок; бутылок, палок, сиделок, прогулок, куколок, елок, тарелок, русалок; немок, рюмок, самок, ужимок, недоимок; француженок, англичанок, служанок, собачонок, амазонок, цыганок: картинок, крестьянок, дворянок, песенок, тропинок, лошаденок; шапок, тряпок, шляпок, скрипок, щепок; кухарок, ярмарок, фигурок, поговорок; колясок, записок, красок, досок, закусок, масок, вывесок, расписок, плясок; теток, шуток, уток, маток, комнаток, брюнеток, пыток, кибиток, решеток, сироток, взяток.
Помимо универсального основообразующего ‑к- в парадигме Be отмечено еще два суффикса. Суффикс ‑б- зафиксирован в 15 основах: служба, свадьба, дружба, злоба, просьба, усадьба, стрельба, пальба, ходьба, тяжба, гульба, мольба, гоньба, похвальба, резьба. Второй регулярный исход (на 95% суффикс) ‑иц (150 основ)[15]. Назовем 20 самых частых слов этого вида: красавица, девица, птица, сестрица, разница, улица, умница, пьяница, племянница, пословица, царица, покойница, императрица, помещица, убийца, лестница, курица, родственница, благодетельница, ключница, работница. Основы с конечной ц- (за исключением овц‑) меняют ‑ой и ‑ою на ‑ей и ‑ею; соответствующий вариант можем обозначить Be-ц.
Парадигма Bf подобно другим «мягким» парадигмам (Bb и Bd) включает два типа: с исходом на «шипящий» и с исходом на другой согласный. В отличие от парадигмы Be в обоих типах ‑ы меняется на ‑и, ‑ой и ‑ою на ‑ей и ‑ею.
«Шипящий» подтип включает 100 основ, самые частые из них: встреча, задача, туча, куча, неудача, притча; юноша, крыша, каша, чаша, польша; сережа, рожа, кожа, невежа, вельможа, сажа, лужа; пища, роща, теща, чаща. Очень часто ‑ш- выступает как основообразующий суффикс, присоединяемый к основам парадигм Ba и Bb: генеральш‑, адмиральш‑, губернаторш‑, майорш‑, мамаш‑, папаш‑, почтмейстерш‑, докторш‑, предводительш‑, аптекарш‑. Но максимум частоты мы обнаруживаем у имен собственных — вариантов полных личных имен[16]: алеша, андрюша, ванюша, глаша, гриша, груша, даша, дуняша, илюша, любаша, маша, милуша, миша, наташа, параша, паша, петруша, саша.
Более 100 основ содержат в исходе другие согласные. В этом подтипе в суффиксах последовательно происходит замена ‑а на ‑я, ‑у на ‑ю. Набор суффиксов выглядит так:
-я -ям -ями -ях -е -ей -ею -ю -я
Более 60 основ ограничиваются этим набором: сударыня, дуня, настя, соня, митя, катя, петя, надя, параня, володя, ваня, федя, варя, таня; беготня, болтовня, возня, дворня, заря, суетня, торговля.
Что касается нулевой формы, то там появляется либо ‑ь (княгинь, графинь, барынь, недель, нянь, бурь, пуль, потерь, бань, святынь, героинь, монахинь, минь, кастрюль, заутрень, пилюль, дынь), либо перед конечной согласной (за которой часто следует ‑ь) вставляется гласный: песен, обеден, сотен, колоколен, сплетен, башен, часовен, басен, конюшен; барышень, деревень; кухонь; земель, капель, туфель, сабель, петель, кровель, оглобель.
Парадигма Bg объединяет основы с исходом на гласную или на ь‑. Полный набор суффиксов (‑е, ‑ей, ‑ею, ‑и, ‑й, ‑ю, ‑я, ‑ям, ‑ями, ‑ях) представлен в слове идея, ср. также слова аглая, свая, стая; аллея, шея, пелагея, палагея, таисея, виринея, затея, батарея, фея, ворожея, шлея, оранжерея, кисея, колея, корея, ливрея, рея, траншея, эпопея; зоя; струя, перепетуя, статуя, сбруя, генуя, чешуя. В основах с конечным ь- обычно нет нулевых форм (‑й): марья, дарья, илья, софья, настасья, авдотья, аксинья, анисья, агафья, маланья, прасковья, наталья, гостья, попадья. У пяти основ (семь‑, судь‑, стать‑, свинь‑, скамь‑) в нулевой форме ‑ь- заменяется на ‑ей, у четырех основ (игумень‑, мантиль‑, кель‑, колдунь‑) ь- заменяется на ‑ий. Громадное большинство основ данной парадигмы имеют исход на –и. За исключением 10–12 христианских личных имен (евпраксия, захария, мария, пульхерия, анастасия, аполлинария, евдокия, евлалия, евлампия, ксения, софия) на 99% это общеевропейский материал (в нашем поле наблюдения 180 слов). В порядке уменьшения частоты сюда попадают: история, юлия, армия, англия, ассигнация, лидия, россия, полиция, фамилия, академия, партия, компания, фантазия; и далее по алфавиту: акация, акция, аллегория, амалия, амбиция, апатия, аристократия, ария, артиллерия, ассоциация, гвардия, губерния, декорация, италия, комедия, комиссия, линия, молния, оказия, поэзия, революция, религия, репутация, станция, теория, трагедия, физиономия, философия, франция, цивилизация, эмилия, энергия и многие другие.
Парадигма Bh обладает следующим основным набором суффиксов: ‑ь, ‑ью, ‑ию, ‑и, ‑ей, ‑ям, ‑ями, ‑ях.
Доля отдельных суффиксов составляет[17]:
-ь -ью -ию -и -ей -ям -ями -ях -ьми
.381 .082 .007 .412 .051 .037 .011 .015 .003
Коэффициенты связи покажут сходство ‑ью и ‑ию (Q=80) и существование кластера трех суффиксов
-ей -ями -ях
-ей 86 78
-ями 62
-ях
Более половины всех основ имеют суффикс –ост‑, присоединяемый к основам парадигмы Ca: радость, милость, глупость, обязанность, молодость, деятельность, способность, должность, гордость, слабость, наружность, личность, необходимость, возможность, опасность, новость, важность, потребность, бедность, справедливость, крепость, ревность, подлость, малость и т. д. Восемь слов семантическая лингвистика отнесла бы к числительным (двадцать, двенадцать, девять, десять, пятнадцать, пять, тридцать, шесть). Остальные основы кончаются на самые разные согласные: скорбь, глубь, дробь, прорубь, рябь; любовь, кровь, бровь, свекровь, морковь, ветвь; лошадь, грудь, площадь, тетрадь, исповедь, проповедь, гладь, прядь, заповедь, стерлядь, медь, рухлядь, снедь; грязь, связь, мазь, перевязь; мысль, цель, роль, боль, обитель, пыль, соль, мебель, шинель, дуэль, артель; озимь; болезнь, тень, жизнь, осень, дрянь, казань, зелень, брань, ладонь, казнь, пристань, боязнь, дань, вонь; степь, цепь, поступь; дверь, матерь, дочери, сибирь, тварь, утварь, лазурь; надпись, русь, рукопись, смесь, подпись, живопись; часть, честь, страсть, весть, власть, совесть, прелесть, повесть, ненависть, грусть, пропасть; смерть, кровать, память, четверть, печать. В основах с исходом на шипящие в суффиксах ‑я меняется на ‑а: дичь, печь, сволочь, желчь, горечь, картечь; роскошь, мышь, фальшь, пустошь, ветошь, плешь; молодежь, дрожь, упряжь; вещь, помощь.
Уникальна парадигма Bi, где первообразная основа появляется перед ‑0, ‑ам, ‑ами, ‑ах, ‑е. Этот кластер суффиксов очень похож на кластеры в парадигмах Bb, Bc и Be, иногда осложненные особым основообразующим суффиксом (ср. приведенные выше примеры друзьям, зятьям, листьям, сыновьям; князьям, мужьям; деревьям, крыльям, перьям). В данной же парадигме особый суффикс –ин‑ появляется за пределами кластера «множественности». Таким образом, в данной парадигме возникают омонимичные суффиксы ‑01 и ‑е1 у первообразной основы и ‑02 и ‑е2 у производной основы[18]. В нашем поле наблюдения обнаружено 24 основы этой парадигмы.
Таблица
4.5
Частоты форм парадигмы Bi
-0 -ам -ами -ах -е -ин -ина -ине -ином -ину
англичан 153 26 28 9 235 269 92 2 23 35 = 872
армян 18 5 2 24 40 20 1 1 5 = 116
бар 49 5 11 30 2040 874 32 278 423 = 3752
бояр 71 15 24 2 99 274 117 1 15 51 = 669
горожан 24 2 4 34 3 6 = 73
господ а=3471 752 239 180 36 3426 1106 68 295 417 = 9990
граждан 67 18 20 3 72 133 74 2 38 13 = 440
дворян 305 42 40 6 227 342 145 1 38 33 = 1179
зырян 8 1 1 8 8 7 2 2 = 37
крестьян 871 149 156 19 588 240 137 1 22 44 = 2227
лютеран 5 5 6 3 3 1 = 23
мещан 113 15 16 6 115 280 132 2 30 17 = 726
мирян 19 7 4 23 5 2 2 4 = 66
молокан 19 1 5 5 1 = 31
москвитян 2 2 7 11 5 1 1 = 29
парижан 5 13 23 9 2 = 52
поселян 19 2 7 14 4 4 2 = 52
прихожан 33 6 1 15 2 1 1 = 59
римлян 13 5 1 1 18 7 3 4 = 52
семьян 3 20 8 10 3 = 44
сограждан 23 1 1 16 6 1 1 = 49
славян 57 8 9 2 35 7 5 1 = 124
татар ы=127 133 17 24 4 3 176 91 25 17 = 617
христиан 79 17 14 1 78 82 26 1 17 7 = 322
Список субстантивных парадигм заканчивается двумя «патронимическими» парадигмами Bk и Bl, производными от ограниченного круга основ парадигм Ba, Bb и небольшого числа основ из Bf. К общим обнаруженным производящим основам парадигм Bk и Bl относятся: из парадигмы Ba — александр, антон, ардалион, борис, владимир, егор, захар, иван, карл, константин, максим, никанор, павл-, петр, платон, роман, семен, степан, федор (с основообразующим суффиксами –ович‑ и ‑овн‑); из парадигмы Ba-й — алексе‑, андре‑, афанась‑, василь‑, григорь‑, игнать‑, никола‑, матве‑, серге‑ (с основообразующим суффиксами ‑евич- и –евн‑); из парадигмы Bb цар- (с основообразующим суффиксами ‑евич- и –евн‑). Из более редких производящих основ отметим анисим, артамон, виссарион, всеволод, давыд, евграф, иоанн, карп, кирилл, льв‑, макар, марк, осип, парфен, патап, пахом, поп (!!), потап, прохор, родион, станислав, тихон, трофим, федот, филипп (из парадигмы Ba); аркадь‑, дементь‑, дмитри‑, зиновь‑, кондрать‑, пафнуть‑, прокофь‑, тимофе‑, харлампи‑, юрь- (из парадигмы Ba-й); цесар- (из парадигмы Bb).
Производящие основы из парадигм Be и Bg (иль‑, кузьм‑, лук‑, никит‑, сав‑, фом‑) создают производную основу без помощи ‑ов- или –ев‑, т. е. к производящей основе прибавляется ‑ич для парадигмы Bk и –ишн- (никит‑, сав‑) или ‑инишн- (иль‑, кузьм‑) для Bl.
Основы парадигмы Bk создают варианты без помощи ‑ов- или ‑ев- и у производящих основ Ba и Ba-й, ср. александрыч, алексеич, андреич, аркадьич, афанасьич, борисыч, васильич, владимирыч, григорьич, дмитрич, егорыч, захарыч, иваныч, карлыч, константиныч, максимыч, маркыч, матвеич, михайлыч, николаич, павлыч, потапыч, прокофьич, семеныч, сергеич, степаныч, тимофеич, тихоныч, трофимыч, федорыч, федотыч.
У некоторых основ без ‑в- не находим параллельных основ с –в‑: акимыч, акинфыч, алпатыч, архипыч, викулыч, демьяныч, дорофеич, евсеич, ерофеич, лукьяныч, маркелыч, мартыныч, мироныч, митрич, михеич, мокеич, никоныч, порфирыч, прохорыч, сафроныч, сидорыч, спиридоныч, титыч, трифоныч, федулыч. Семантическая лингвистика квалифицировала бы производящие основ как «народные» или, во всяком случае «немодные» имена.
В основах парадигмы Bl такие варианты образуются при исчезновении ‑е- в суффиксе –евн‑: алексевн‑, андревн‑, дмитревн‑, матвевн‑, николавн‑, сергевн‑.
Словоизменение парадигмы Bk совпадает с парадигмой Bb, словоизменение парадигмы Bl совпадает с парадигмой Be.
Группа основ (назовем ее пока группой X), порождающих эти две парадигмы, настолько своеобразна, что заслуживает особого внимания. Сравним долю суффиксов этой группы с аналогичными данными всей парадигмы Ba[19].
-0 -а -е -ом -у -ов -ам -ами -ах -ы
X .662 .184 .013 .032 .063 .033 ... .001 .001 .007
Ba .406 .187 .056 .102 .084 .042 .013 .027 .017 .057
Бросается в глаза существенное сокращение (в 13 раз) доли четырех суффиксов, относящихся к кластеру «множественности». На этом фоне небольшое уменьшение доли суффикса ‑ов (с вариантом ‑ев) выглядит странной аномалией.
Проверка производных основ с ‑ов на возможность присоединения своих собственных суффиксов сразу открывает нам новую парадигму, явно относящуюся к адъективному типу (назовем ее парадигмой Cd). Набор суффиксов в этой парадигме (‑0, ‑а, ‑е, ‑о, ‑ой, ‑ом, ‑у, ‑ы, ‑ым, ‑ыми, ‑ых) совпадает с набором парадигмы Ca за исключением суффиксов ‑е и ‑у, вполне обычных у субстантивных парадигм. С другой стороны, доля некоторых обычных суффиксов Ca (‑ая, ‑ее, ‑ей, ‑ого, ‑ое, ‑ою, ‑ую, ‑ые, ‑ый) здесь ничтожно мала. Ни один из них не достигает 0,001. К этой парадигме относится 370 основ, назовем самые частые: вихров, базаров, бакланов, горданов, денисов, иванов, кутузов, литвинов, молотов, нежданов, обломов, орлов, раскольников, розанов, ростов, руднев, самоквасов, черемисов, шатов; бегушев, висленев, милькеев, пугачев, шепелев.
Почти такой же набор суффиксов (правда, с добавлением ‑ого) сочетается с производными основами с суффиксом ‑ин, присоединяемым к основам парадигм Be и Bf. Здесь представлено 166 основ, ср. булгарин, державин, истомин, левин, липутин, марфин, невзгодин, оленин, пушкин, разумихин, ракитин, рогожин, рубашкин, рудин, санин, сипягин, ставрогин, тамарин, чапурин, щетинин.
Сходство набора суффиксов предстанет совершенно в другом свете, если мы учтем вероятность каждого из суффиксов[20]. Отдельно подсчитаны основы, сочетающиеся с суффиксом ‑ого (назовем их группой Y)[21]. Результаты показаны в табл. 4.6.
Таблица 4.6
Доля отдельных суффиксов в адъективных парадигмах
Парадигма Ca Группа Парадигма Cd
Y -ов -ин
-0 .046 .125 .601 .563
-а .030 .126 .211 .240
-ая .073 - - -
-е - .015 .015 .014
-ее .015 - - -
-ей .004 - - -
-о .126 .096 .005 .004
-ого .073 .052 - -
-ое .066 .001 - -
-ой .087 .195 .019 .027
-ом .028 .038 .001 .001
-ому .017 .011 - -
-ою .010 .006 - -
-у - .115 .081 .082
-ую .038 - - -
-ы .020 .102 .008 .010
-ые .088 - - -
-ый .117 - - -
-ым .058 .029 .042 .043
-ыми .028 .008 .002 .002
-ых .066 .079 .016 .015
Единство парадигмы Cd («фамилии») продемонстрировано самым ярким образом. Группа Y может быть признана особой парадигмой Ce[22].
Подведем итог систематизации субстантивных парадигм. Специфика русской субстантивной морфологии состоит в том, что в ход идет сравнительно небольшой набор (5–10) окончаний, часто очень различающихся функционально. Окончание ‑у, например, может выражать винительный падеж у слов женского склонения, дательный падеж у большинства слов среднего и мужского рода, а у некоторых слов мужского рода — предложный и (второй) родительный падежи.
Квантификация совместной встречаемости суффиксов, проведенная в Части 1 (см. том 1), позволила выделить 23 потенциальные парадигмы, далеко не всегда показавшие все свои суффиксы. В парадигмах ОБРАЗ /21/ и ЖЕНИХ /22/ был получен исчерпывающий набор суффиксов. В парадигме ДЕРЕВО /35/ — только три суффикса ‑о, ‑ом, ‑у из девяти, в том числе самый характерный ‑о. В парадигме ПРИЧИНА /27/ выявлено шесть суффиксов из десяти, в том числе самые характерные ‑ой и ‑ою.
Учет ограничений на комбинаторику букв и допущение деривации одних основ от других позволили провести систематизацию морфологии. Основы, появившиеся в поле наблюдения, проверялись на их способность присоединять к себе суффиксы той или иной парадигмы. Более 5500 основ однозначно определили свою принадлежность к той или иной парадигме. Примерно 2% субстантивны основ так и не смогли выбрать определенную парадигму и должны ждать окончательного решения от минимального интервала, таковы основы александр- с суффиксами ‑0, ‑а, ‑е, ‑ой, ‑ом, ‑у, ‑ы (либо к парадигме Ba, либо к Be); дельц- с суффиксами ‑0 (‑ец), ‑а, ‑е, ‑о, ‑ов, ‑ом, ‑у, ‑ы (либо к парадигме Ba-ц, либо к Bc); зме- с суффиксами ‑е, ‑ев, ‑ей, ‑ем, ‑ею, ‑и, ‑й, ‑ю, ‑я, ‑ями (либо к парадигме Ba-й, либо к Bg); пол- с суффиксами ‑е, ‑ей, ‑ем, ‑и, ‑ь, ‑ю, ‑я, ‑ям, ‑ями, ‑ях (либо к парадигме Bb, либо к Bd). Выбор «твердой» или «мягкой» основы обычно происходит без труда, но суффикс ‑е может присоединяться в обоих случаях, что создает новую неопределенность. Поразительный пример — основа сен‑, допускающая пять разных решений (даются традиционные леммы):
сена сене сеней сеню
сено сени сеня
сеном сению сеням
сену сень сенями
сены сенью сенях
Либо Сена, Либо Сеня,
либо сено. либо сень
либо сени (мн. ч.)
Обращение к формам с частотой ниже порога 5 может решить затруднение в выборе парадигм Ba или Be. Так, основа акул- имеет суффиксы в поле наблюдения ‑0, ‑а, ‑ам, ‑у, ‑ы, с частотой 1 в корпусе встретилось слово акулой, что и решает вопрос в пользу Be. Форма аптекой с частотой 4 отнесет к той же парадигме основу аптек. Но и этот прием может приводить к ошибкам — основа белк- имеет суффиксы ‑0 (‑ок), ‑а, ‑ами, ‑и, ниже порога находим ‑ов и ‑ом и делаем вывод о принадлежности основы к Ba. Если бы в корпусе встретилось слово белкой, вопрос был бы отложен. Принятое решение кажется поспешным. В любом случае следует ждать минимального интервала.
После систематизации число субстантивных парадигм сократилось до 11. Число адъективных парадигм равно пяти.
Использование данных о частоте употребления отдельных суффиксов в рамках той или иной парадигм позволило нащупать кластер «множественности» с тремя постоянными суффиксами ‑ам, ‑ами, ‑ах и с суффиксами, привязанными к той или иной парадигме: ‑ы и ‑ов (Ba), ‑0 (Be) и т. п.
4.1.0.3. Глагольные парадигмы
На первоначальном этапе формирования парадигм среди глагольных основ в максимальной степени сказалось смешение основообразовательных и словоизменительных факторов. Действительно, стоит сдвинуть на один шаг вправо конец основы, как парадигмы ПРОЧИТ- /3/ и СТРЕЛ- /4/ начинают сливаться с парадигмой НАЗЫВА- /1/; соответственно сливаются парадигмы ПУСТИ- /5/ и ГОВОР- /6/, ТОЛКН- /8/ и НАМЕКН- /9/. Если оставить в стороне процессы деривации основ /2/, /7/, /8/, /13/, /14/, /15/ и многочисленные «суффиксы» внутри парадигм /1/ и /3/ (‑вший, ‑емый, ‑ющий, ‑ывал и т. п.), число реальных глагольных парадигм должно сильно сократиться. Частично этот процесс обсуждался в п. 2.2.5. «Уточнение парадигм» (т. 1, с. 125–127).
Проверка основ на возможность присоединения характерных суффиксов подтверждает наши ожидания.
Более 2000 основ, заканчивающихся на ‑а, ‑е, ‑я, оказалось в парадигме Aa. Из самых частых основ назовем знать, думать, делать, читать, слушать, играть, отвечать, обедать, работать. Из основ с исходом на ‑е и ‑я отметим белеть, владеть, жалеть, иметь, краснеть, сметь, уметь; гонять, гулять, кланяться, менять, оскорблять, повторять, стрелять, терять. Набор суффиксов включает ‑в, ‑вши, ‑ем, ‑ет, ‑ете, ‑ешь, ‑й, ‑йте, ‑л, ‑ла, ‑ли, ‑ло, ‑ть, ‑ю, ‑ют, ‑я.
Более 300 основ этой парадигмы закачиваются основообразующими суффиксами ‑ива- (говарива‑, настаива‑, останавлива‑, слыхива‑), ‑ыва‑ (быва‑, видыва‑, обманыва‑, рассказыва‑), ‑ева (надева‑, затева‑, подозрева‑).
Особый вариант данной парадигмы (Aa-1) ясно показывает конечную гласную в основе (1) и теряет ее в основе (2)[23]. При этом ‑ю и ‑ют заменяются на ‑у и ‑ут, а ‑й и ‑йте заменяются либо на ‑и и ‑ите, либо на ‑ь, ‑те. Примерами основного варианта служат формы: жду, ждет, жди; вру, врет, ври; рву, рвет, рви; жру, жрет, жри; сосу, сосет, соси; ржет, ржут; ткут (39 основ). Согласные, предшествующие конечной гласной основы, меняются по следующей схеме:
к > ч — плачу, плачет, плачь; скачу, скачет, скачи; тычет; хнычет; мурлычет;
х > ш — брешет, бреши; пашет;
т > ч — хлопочу, хлопочет, хлопочи; хохочу, хохочет; шепчу, шепчет; спрячу, спрячет, спрячь; мечет, мечут; бормочет, бормоча; щекочет;
т > щ — ропщу, ропщет, ропщи; трепещу, трепещет, трепещут; клевещу, клевещет, клевещи;
с > ш — пишу, пишет, пиши; пляшу, пляшет, пляши; чешет, чешут;
ск > щ — ищу, ищет, ищи; взыщу, взыщет, взыщи; рыщет; плещет;
ст > щ — хлещет, хлещу;
з > ж — скажу, скажет, скажи; накажу, накажет, накажи; режу, режет, режь; лижет.
После б‑, п‑, м- во основе (2) появляется –л‑, ‑ю и –ют при этом сохранятся: дремлет, дремлют, дремля; колеблюсь, колеблясь, колеблется; треплет, трепля; щиплет, щипля (130 основ с чередованием).
В варианте Aa-2 конечная гласная я- основы (1) теряется в основе (2) без каких-либо других изменения: надеется, веет, сеет, кается, лает, чает, мается, тает, лелеет, затеет (27 основ).
Парадигма Ab включает 1175 основ (говор‑, люб‑, служ‑, прос‑, ход‑, вер‑, куп‑, уч‑, сообщ‑). Большинство суффиксов содержит начальную ‑и: ‑и, ‑ив, ‑ил, ‑ила, ‑или, ‑ило, ‑им, ‑ит, ‑ите, ‑ить, ‑ишь, ‑ю, ‑я, ‑ят[24]. Этот набор без каких бы то ни было изменений появляется у основ с исходом на ‑л- (мол‑, позвол‑, увол‑, мысл‑), на ‑н- (объясн‑, дразн‑, помн‑, сочин‑), на ‑р- (вер‑, подар‑, кур‑, спор‑) или на гласную (постро‑, та‑).
Основы с исходом на «шипящую» не могут сочетаться с ‑ю, ‑я и ‑ят, вместо этих суффиксов появляются ‑у, ‑а, ‑ат: учу, кончу, заключу; решу, внушу, спешу; служу, дорожу, дружу, уничтожу; сообщу, тащу.
Основы с исходом на «губные» содержат ‑л- перед -ю: б- люблю, погублю, употреблю; в- готовлю, молвлю, ставлю; м- познакомлю, кормлю; п- куплю, коплю, отступлю. У остальных основ ‑ю заменяется на ‑у, а конечная буква основы меняется по следующей схеме:
д > ж — бужу, глажу, горжусь, езжу,
посажу, предупрежу, угожу,
улажу;
з > ж — возражу;
с > ш — прошу, приношу, закушу, приглашу;
ст > щ — грущу, извещу, отомщу, перекрещу, помещу, прощу, пущу, угощу;
т > ч — ворочусь, забочусь, испорчу, отвечу, отмечу, отплачу, шучу, либо т > щ — обращусь, посвящу, прекращу.
Все, что касается чередований согласных, сохраняет свою силу и варианте Ab-1, где в основе (1) в суффиксах вместо ‑и появляется ‑е: болит — болел, велит — велел; звенит — звенел; горит — горел, смотрит — смотрел; вижу, видит — видел, гляжу, глядит — глядел, обижу, обидит — обидел; сижу, сидит — сидел; кряхтит — кряхтел, пыхтит — пыхтел, висит — висел; терплю, терпит — терпел, скорблю, скорбит — скорбел, корпит — корпел, скрипит — скрипел, сопит — сопел, шумит — шумел (90 основ).
Еще один вариант парадигмы Ab может быть обозначен Aba. Основа (1) изменяется здесь согласно Aa, а основа (2) согласно Ab. Среди 74 основ данного варианта самыми частыми оказались: спать, держать, слышать, молчать, кричать, лежать, дышать, стучать, дрожать.
Парадигма Ac включает 280 основ с конечной н- и следующий набор суффиксов: ‑ем, ‑ет, ‑ете, ‑ешь, ‑и, ‑ите, ‑у, ‑ув, ‑увши, ‑ул, ‑ула, ‑ули, ‑уло, ‑ут, ‑уть. К этой парадигме относятся, например, слова тянуть, гнуть, вернуть, встрепенуться, заснуть, обмануть. Глаголы парадигмы очень часто (65 случаев в поле наблюдения) имеют коррелят без суффикса ‑н- в парадигме Aa: дунуть — дуть, зевнуть — зевать, махнуть — махать, улыбнуться — улыбаться, ср. также кивнуть, лопнуть, мигнуть, прыгнуть, шагнуть; изредка коррелят может принадлежать и другой парадигме: рискнуть — рисковать (Ad). Подобных коррелятов было бы еще больше, если бы в основе совсем не происходила потеря согласного перед суффиксом ‑н: шепнуть — шептать, блеснуть — блестеть, брызнуть — брызгать, дернуть — дергать, двинуть — двигать, тронуть — трогать, глянуть — глядеть, кинуть — кидать.
Своеобразным вариантом той же парадигмы можно считать случаи, где на месте ‑ул, ‑ула, ‑ули, ‑уло появляются формы без ‑у и без конечной н- основы. К этому варианту (Ac-1) относится 100 основ с формами вида: возник, замолк, отвык; воздвиг, достиг, опроверг; затих, заглох, пахло; погиб, озяб, ослаб; прилип, окреп, ослеп; завяз, исчез, замерз; воскрес, повис. Если суффиксу ‑н- предшествует гласная, то исчезновение ‑н- и ‑у- распространяется на суффиксы ‑ув, ‑увши, ‑уть главного набора, а вместо ‑и и ‑ите появляются ‑ь и ‑ьте. Найдено всего 4 первообразных основы этого типа (де‑, ста‑, застря‑, сты‑), но две первые основы очень часты и имеют множество префиксальных производных, ср. слова деть, задеть, надеть, одеть, раздеть; стать, встать, достать, остаться, перестать, устать и т. п.
К варианту (Ac-1) близки глаголы начать и клясться с такими формами[25]: начнем 83, начнет 606, начнете 30, начнешь 74, начни 16, начните 14, начну 175, начнут 266, начав 96, начал 6716 (?), начала 2882 (?), начали 1190, начало 615 (?), начать 664; клянется 31, клянись 17, клянитесь 7, клянусь 396, клянутся 6, клялась 30, клялись 11, клялся 97, клясться 33.
Набор суффиксов парадигмы Ad не отличается от того, который был зафиксирован у Aa; своеобразие же парадигмы Ad состоит в том, что здесь четко противопоставлены две основы: одна — с конечным суффиксом ‑ова- (с «мягким» вариантом –ева‑), другая — с конечным суффиксом ‑у- (с «мягким» вариантом –ю‑). Первая основа присоединяет суффиксы ‑в, ‑вши, ‑л, ‑ла, ‑ли, ‑ло, ‑ть; вторая — суффиксы ‑ем, ‑ет, ‑ете, ‑ешь, ‑й, ‑йте, ‑ю, ‑ют, ‑я. В этой парадигме обнаружено 187 глаголов, из самых частых назовем целовать, толковать, требовать, пользоваться, любоваться, беседовать, торговать, воровать, следовать, рисовать, ревновать, завидовать; ночевать, воевать, плевать, потчевать, жевать. В качестве производящих основ здесь хорошо представлены субстантивные основы (парадигмы Bc), ср. чувствовать, действовать, существовать, участвовать, присутствовать, засвидетельствовать, путешествовать, пьянствовать.
Парадигма Ad любопытна в этимологическом отношении: в ней сосредоточились глаголы, производные от европейских заимствований как старых (немецко-французских) вроде танцевать, арестовать, рисковать, командовать, пробовать, рекомендовать, протестовать, бунтовать, интересовать, так и новых (преимущественно немецких) с характерным суффиксом –ир‑: аккомпанировать, аплодировать, вальсировать, декламировать, компрометировать, лавировать, манкировать, маршировать, симпатизировать, третировать, фантазировать, формулировать.
Четкое разделение двух основ в парадигме Ad дает основание для конституирования двух кластеров суффиксов 1) ‑в, ‑вши, ‑л, ‑ла, ‑ли, ‑ло, ‑ть и 2) ‑ем, ‑ет, ‑ете, ‑ешь, ‑й, ‑йте, ‑ю, ‑ют, ‑я во всех глагольных парадигмах. Если в субстантивных парадигмах кластер «множественности» постепенно вырисовывался из показателей частоты в корпусе, в глаголе кластеризация осуществилась самым естественным образом по сочетаемости с двумя основами в парадигме Ad. Впрочем, в рамках ДСА подобрать хороший мнемонический ярлык для этих кластеров довольно трудно. Будем называть их кластер 1 и кластер 2, а
соответствующие основы назовем основа (1) и основа (2).
Кроме перечисленных четырех парадигм существуют и некоторые другие, отличающиеся небольшими изменениями в части суффиксов.
Парадигма Ae содержит 10 первообразных основ (с учетом префиксов — 45 основ) с исходом на согласную. В отличие от Aa ‑ю и ‑ют заменяются здесь на ‑у и ‑ут, ‑й и ‑йте заменяются на ‑и и ‑ите, а суффикс –л теряет это ‑л, оставляя голую основу, ср. формы греб, вез, грыз, лез, нес, пас, полз, спас, тряс (суффикс ‑ть в большинстве случаев заменяется на ‑ти: везти, грести, нести, пасти, трясти и др.)
Такое же поведение суффикса ‑л наблюдаем в парадигме Af с двумя дополнительными особенностями 1) к > ч и г > ж перед –е суффиксов и 2) конечная согласная основы, сливаясь с ‑ть, дает ‑чь.
влек, влекло, влекут, влечет; высек, высекли, высеку, высечет, высечь; обрек, обрекла, обречь; пек, пеки, пекла, печет; привлек, привлекла, привлечь; тек, текли, текут, течет, течь;
помог, помоги, помогла, помогу, поможем, поможет, поможешь, помочь; сберег, сберегла, сбережет, сберечь; стерег, стереги, стерегла, стерегу, стережет, стеречь; стриг, стригла, стричь (38 основ).
В парадигме Ag в основе (1) исчезает конечная согласная основы; перед суффиксом ‑ть она заменяется на ‑с‑, суффикс ‑ть может замениться на ‑ти: брел — бредет; вел, вести — ведет; клал, класть — кладет; пряла, прясть — прядет; крал, красть — крадет; упав, упал, упасть — упадет; соблюл, соблюсти — соблюдет; цвела, цвести — цветет; плел, плести/плесть — плетет (43 основы).
Чем меньше круг основ, относящихся к той или иной парадигме, тем она кажется сомнительнее. Упомянем все же еще три парадигмы.
Парадигма Ah — основа кончается на ‑ы или ‑и, в основе (2) после конечной буквы появляется ‑в‑: живу, живет, живи — жил, жить; плыву, плывет, плыви — плыл, плыть; слывет — слыл, слыть (всего три первообразных основы, плюс 18 префиксальных основ).
Парадигма Ai — в основе (1) конечная ы‑, в основе (2) — конечная о- (всего 20 основ): воет — выл, выть; моется, моются — мылся, мыться; ноет, ноют — ныл, ныть; откроет, открой, открою — открыв, открыл, открыть; роется, роются — рылся, рыться.
Парадигма Ak — в основе (1) конечная и‑, в основе (2) — ь, перед ‑й появляется ‑е‑, а ‑ь- исчезает : убей, убейте, убив, убил, убить, убьет, убьешь, убью; лей, лил, льет; пей, пил, пьет; шей, шил, шьет (всего 46 основ).
В рамках микроинтервала расширение списка на этом заканчивается. Благодаря присоединяемым суффиксам уникальные основы демонстрируют свою принадлежность к глаголам, но не находят себе параллелей в других основах[26]. Основа (1) хоте- и основа (2) хоч- указывают на парадигму Aa-1, но формы хотим, хотите, хотят соответствуют парадигме Ab. Такая конфигурация форм повторяется в префиксальной основе захоте‑, но других параллелей не находит.
Ясно, что микроинтервал не позволит идентифицировать многие основы с внутренней флексией (лег и ляг, сел и сядь, звал и зову, брал и берет), не говоря уже о случаях супплетивности.
Заканчивая рассмотрение глагольных парадигм, рассмотрим случаи отглагольных адъективов и соответственно пополним список адъективных парадигм.
Парадигма Cf включает 147 основ с конечными суффиксами ‑ющ‑ (‑ущ‑) и ‑ящ‑, производных от основы (2) глаголов. Набор суффиксов совпадает с суффиксами Cb, но всегда сохраняет возможность присоединения ‑ся[27]. Самым продуктивным является суффикс ‑ющ‑, присоединяемый к основам парадигм Aa (управляющий, имеющий, сияющий, проезжающий, умоляющий, раздирающий, гуляющие, улыбающийся, вызывающий) и Ad (следующий, присутствующие, торжествующий, верующий, долженствующие, действующий). У основ с исходом на согласную появляется ‑ущ‑: будущий, грядущий, живущий. Суффикс ‑ящ- ассоциируется, прежде всего с парадигмой Ab: настоящий, любящий, подходящий, состоящий, говорящий, сидящий, палящий, мыслящий, мертвящая. После «шипящих» появляется вариант ‑ащ‑: дрожащий, лежащий, принадлежащий, служащий, дребезжащий.
Парадигма Cg включает 220 основ с конечным суффиксом ‑вш, производным от основы (1) глаголов. После согласных суффикс появляется как ‑ш‑: умерший, вошедший, привыкший, могший, возникший, заблудший, замерзший, запекшейся, заросший, падший, погибший, постигший, потухший, распухший, расцветший. Набор суффиксов совпадает с суффиксами Cb, но сохраняет возможность присоединения ‑ся. Из самых частых слов упомянем бывший, сидевший, знавший, имевший, приехавший, любивший, говоривший, служивший, лежавший, успевший, получивший, живший, начинавший, молчавший, оставшийся.
Парадигма Ch включает 440 основ с конечными суффиксами ‑анн- (производным от основ Aa) и ‑енн- (производным от основ Ab). Оба суффикса присоединяются к основе (1). К самым частым адъективам относятся: кончено, испуганно, суждено, усиленно, пораженный, совершенный, сконфуженный, запрещено, окруженный, озабоченно, назначенный, посланный, смущенно, обрадованный, очищенный, напряженно, расстроенный, измученный, замечено, озадаченный, сделанный, обиженный, преданный, потерянный. Набор суффиксов не отличается от Ca, хотя возрастает доля форм с ‑0 без удвоенного ‑нн‑. Вместе с тем сохраняются следы глагольных чередований вроде появления ‑л‑ после «губных», ср. влюбленный, оскорбленный, озлобленно, сгорбленный; купленный; утомленный, изумленно, устремленный; удивленно, оживленно, оставленный, объявлено, приготовленный, подавленный, поставленный, окровавленный, уставленный.
От основы (1) образуется еще одна адъективная парадигма Ci при помощи суффикса ‑т- (109 основ). Суффикс ‑т- присоединяется к основам парадигмы Ac (35 основ, в т. ч. одетый, вздернутый, застегнутый, упомянуто, замкнутый, обманутый, обтянутый, покинутый, свернутый, сдвинутый, накинутый, тронуто, стиснуты, загнутый); к основам парадигмы Ai (11 основ: открыто, покрытый, вымытый, вырытый, зарыто и др.); к основам парадигмы Ak (31 основа: битый, развитый, нажитые, разлит, испитой, шитый) и к основам многих глаголов, чья принадлежность к парадигмам еще не определена: забытый, бритый, взятый, принято, начато, заклятый, заперто, измятый, обутый, отпетый, потертый, сжато.
Парадигма Ck включает 56 основ с конечными суффиксами ‑ем- и ‑им- (производным от основ Ab). Оба суффикса присоединяются к основе (2). Набор суффиксов не отличается от Ca: называемый, обвиняемый, ожидаемый, получаемый, предлагаемый, прерываемый, уважаемый; именуемый, преследуемый, требуемый; любимый, гонимый, одержимый, производимый. Любопытна концентрация подобных адъективов в основах с префиксом не‑: неистощимый, непобедимый, непримиримый, непроходимый, неразрешимый, нескончаемый, несокрушимый. Отметим также удивительно высокую частоту форм с ‑о: невыносимо 289, независимо 148, нестерпимо 107, неведомо 143, неудержимо 91, невыразимо 86, непостижимо 71, неутомимо 61, невидимо 59, неизмеримо 58, невозмутимо 52, немыслимо 43. С позиций семантической лингвистики можно отметить склонность к модальным значениям у видимо и мнимо.
Подведем итог всему разделу 4.1.0. Консолидация основ вокруг наборов суффиксов привела к уточнению прежних и открытию новых парадигм. Завершая работу в микроинтервале, мы получили следующий список парадигм и их вариантов. (После символа парадигмы даются примеры относящихся к ней слов).
A /Глагольные парадигмы/
Aa делать, думать, жалеть, знать, иметь, слушать, читать, терять
Aa-1 врать, ждать, искать, писать, плакать, резать, сказать
Aa-2 веять, затеять, каяться, лаять, надеяться, сеять
Ab верить, говорить, купить, любить, просить, служить, ходить
Ab-1 велеть, видеть, гореть, сидеть, смотреть, терпеть
Aba держать, дышать, кричать, лежать, молчать, слышать, спать
Ac вернуть, гнуть, обмануть, рискнуть, тянуть, улыбнуться
Ac-1 возникнуть, воскреснуть, деть, погибнуть, стать
Ad воевать, ночевать, толковать, требовать, целовать, чувствовать
Ae везти, грести, грызть, лезть, нести, пасти, спасти, трясти
Af влечь, высечь, обречь, помочь, сберечь, стеречь, стричь, течь
Ag брести, вести, класть, красть, плести, упасть, цвести
Ah жить, плыть, слыть
Ai выть, крыть, мыть, ныть, рыть
Ak бить, вить, лить, пить, шить
B /Субстантивные парадигмы/
Ba взгляд, вопрос, год, город, год, двор, народ, разговор, свет
Ba-ц братец, дворец, любимец, месяц, отец, певец, танец
Ba-й алексей, бой, василий, край, николай, покой, случай
Bb врач, луч, нож, сторож, товарищ, дождь, король, конь, царь
Bc лицо, место, облако, письмо, сердце, слово, утро, чувство
Bd волнение, желание, кладбище, море, поле, присутствие
Be анна, батюшка, голова, дама, душа, жена, книга, комната, пора
Be-ц девица, красавица, лестница, птица, убийца, улица
Bf алеша, земля, папаша, пища, сударыня, туча, юноша
Bg армия, англия, батарея, идея, история, юлия, марья, судья
Bh вещь, дверь, десять, кровь, милость, мысль, пять, радость
Bi англичан, бар, господ, дворян, крестьян, мещан, татар
Bk александрович, андреевич, иванович, сергеевич, царевич
Bl александровна, андреевна, ивановна, сергеевна, царевна
C /Адъективные парадигмы /
Ca белый, готовый, живой, милый, молодой, новый, полный, русский
Cb лучший, могучий, общий, похожий, приезжий, древний, синий
Cc бабий, божий, мужичий, собачий, третий, человечий
Cd базаров, кутузов, левин, обломов, пугачев, пушкин, ростов
Се дядин, женин, матушкин, теткин, хозяйкин
Cf будущий, имеющий, настоящий, сияющий, следующий, управляющий
Cg бывший, знавший, имевший, приехавший, сидевший, умерший
Ch влюбленный, испуганно, кончено, суждено, пораженный, усиленно
Ci битый, бритый, испитой, обутый, одетый, открыто, сжато
Ck любимый, называемый, обвиняемый, ожидаемый, получаемый
4.1.1.
Минимальный интервал в русском корпусе
Исходными данными для работы минимального интервала всегда выступают бинарные сочетания графических слов, фрагменты которого следуют ниже (слева от словосочетания указывается частота сочетания).
2 1 а 14 а бывает 1 всегда бредил
10 1 августа 3 а бывал 1 всегда бригадирша
1 1 аза 2 а бывали 1 всегда бросаешь
1 1 алый 1 а бывали-таки 1 всегда бросался
1 1 английский 14 а бывало 6 всегда будем
1 1 анна 1 а бывалые 51 всегда будет
4 1 апреля 3 а бывать 6 всегда будете
1 1 ах 5 а бывают 10 всегда будешь
......... 1 всегда будила
2 10 февраля 1 был буфетчиком 3 всегда будто
2 10 фунтов 2 был бухгалтер 49 всегда буду
1 10 храмовой 1 был буцефал-конь 6 всегда будут
1 10 целый 1 был буян ........
1 10 цены 1 был буяном 1 г-на алкина
1 10 час 571 был бы 2 г-на бакланова
27 10 часов 1 был бы-с 1 г-на басова
1 10 часу 2 был бывало 4 г-на герцена
......... 1 был бывший 1 г-на гудовича
1 1839 1847 1 был бык 1 г-на девриента
1 1839 а 28 был был 1 г-на дена
1 1839 августа 1 был был-с 1 г-на дорезона
1 1839 быль ...... 1 г-на дюма-сына
9 1839 г 129 вниз по 1 г-на елисеева
1 1839 глава 1 вниз повертится 1 г-на жюля
11 1839 года 1 вниз повод 1 г-на зотова
5 1839 году 1 вниз повсюду 1 г-на иеремии
......... 1 вниз поглядишь 1 г-на иностранца
1 вниз погруженная ......
5 вниз под
......
Всего в нашем корпусе обнаружено 5935 тысяч разных бинарных словосочетаний, что дает величину 2,5 как среднюю частоту сочетания. Для дальнейшей работы в минимальном интервале ограничимся 644 тысячами словосочетаний с минимальной частотой 3. Это не значит, что сочетания с частотой 1 и 2 совсем исчезают из анализа. При дальнейшей лемматизации будут учтены, например,
1 г-н бакланов
2 г-н герцен
1 г-ном герценом
1 г-ну герцену,
что даст два «лемматизированных» сочетания - г-н бакланов с частотой 3 и г-н герцен с частотой 8.
Частотные списки могут быть отсортированы как по левому, так и по
правому слову сочетания:
8 18 августа 6 13 лет
17 18 года 9 15 лет
9 18 году 3 15-ти лет
5 18 декабря 12 16 лет
4 18 и 3 16-ти лет
3 18 июля 16 17 лет
6 18 июня 14 18 лет
14 18 лет 37 20 лет
3 18 марта 4 24 лет
4 18 мая 21 25 лет
..... ...
6 была борьба 4 бегушева была
3 была босая 10 беда была
5 была бросить 3 бедна была
8 была броситься 8 бедность была
15 была брошена 3 белинского была
5 была будто 3 бенни была
3 была будущность 3 бероева была
4 была буквально 7 беседа была
4 была бутылка 4 благодарна была
435 была бы 5 ближе была
11 была была 5 близка была
40 была быть 3 бранденбургия была
906 была в 3 брата была
6 была важная 3 брошена была
9 была вам 15 будто была
4 была варенька 12 бумага была
11 была ваша 4 бумажка была
3 была ваше 4 бутылка была
5 была вдвое 43 бы была
Математическое ожидание случайного появления двух слов рядом[28] вычисляется по формуле
mab = (Fa × Fb) / N,
где F — частота слова в корпусе, N — объем корпуса (в словоупотреблениях).
Ясно, что mab = mba.
Вероятности слов одиночных слов очень малы, поэтому для оценки неслучайности реальной частоты удобнее логарифмировать величину S в нашей основной формуле.
ln S f ln S f
4
8 18 августа 2 6
13 лет
4 17 18 года 3 9 15 лет
4 9 18 году 3 3 15-ти лет
4 5 18 декабря 3 12 16 лет
3 3 18 июля 3 3 16-ти лет
4 6 18 июня 3 16 17 лет
3 14 18 лет 3 14 18 лет
3 3 18 марта 4 37 20 лет
3 4 18 мая 2 4 24 лет
4 4 18 ноября 4 21 25 лет
..... ....
3 9 была близка 2 7 беседа была
2 4 была блондинка 2 5 близка была
3 13 была богата 2 6 богата была
2 8 была богатая 2 11 больна была
4 59 была больна 2 8 борьба была
3 70 была большая 3 3 бранденбургия была
2 3 была босая 2 3 брошена была
2 8 была броситься 2 12 бумага была
4 15 была брошена 2 4 бумажка была
3 435 была бы 2 4 валерия была
2 906 была в 2 12 варенька была
2 6 была важная 3 7 василек была
2 18 была вдова 2 19 васильевна была
Примем ln S = 2 в качестве порога для дальнейшей работы в минимальном интервале. Этот порог уменьшит список бинарных сочетаний до 235 тысяч.
Максимальных значений (> 5) ln S достигает у обозначения уникальных событий (18‑е брюмера, 14 декабря, бородинском сражении), у некоторых топонимов (васильевский остров, атлантический океан, ботнический залив), у многих имен с отчествами (аггей никитич, авдотье романовне), у некоторых междометий и формул вежливости (боже мой, бог весть, бог знает, бог милостив, бога ради; вашим услугам, будьте покойны, будьте уверены; ваша светлость, ваше превосходительство, ваше сиятельство, ваше благородие, ваше величество, ваше высокоблагородие, ваше степенство). Такие же максимальные значения находим во множестве сочетаний:
прилагательное + существительное (австрийское священство, алексеевском равелине, апоплексическому удару, арестантских ротах, аукционного торга, ахиллесова пята, барабанный бой, беззубым ртом, безмятежным сном, белокурыми волосами, белом галстуке, белых перчатках, березовая роща, березовой аллеей, бесчисленное количество, бесчисленное множество, благовидный предлог, буквальном смысле, булыжной мостовой, быстрыми шагами, валаамова ослица, валяных сапогах, вандомской колонны, веселом расположении, ветряных мельниц, воздушные замки и т. п.)
существительное + существительное (академии художеств, благорастворение воздухов, большинстве случаев, бразды правления, быстротою молнии, взрыв хохота и т. п.).
Часто противоречат интуитивным ощущениям высокие ln S у сочетаний с минимальными частотами (f=3) (великосветского денди, великосветский хлыщ, венера милосская, бушующий океан, багратионовы флеши, банкирских контор, бесповоротно социалистическое, бетховенскую сонату и т. п.).
Неслучайный характер тех или иных сочетаний открывает широкие возможности для поиска лексических единиц, включающих два слова, но эту операцию лучше отложить и осуществлять ее после лемматизации.
Некоторые частые сочетания с высокими значениями ln S при этом повлияют и на интерпретацию открываемых грамматических конструкций. Таковы, например:
ln S f ln S f
3 2992 что за 6 2246 должно быть
5 684 в течение 5 910 быть может
4 1374 как можно 7 8824 может быть,
что потребует пересчета частот единиц.
Теперь же сосредоточимся на повторяющихся моделях словосочетаний, где решающую роль будут играть не сами значения ln S, а число сочетаний, преодолевших введенный порог. Иными словами, нас будут интересовать не конкретные графические слова, примыкающие слева к слову лет, а весь класс чисел. В нашем пуле оказалось 175 сочетаний со словом лет в правой позиции. Слева от него 30 раз появляется графическое слово, начинающееся с числа. Вероятность подобных слов в корпусе составляет 0,003, и при взаимной независимости лет и всех чисел математическое ожидание составит 5,2. Согласно нашей основной формуле S = (30 - 5,2 - 1)/√5,2 = 10, что убедительно доказывает неслучайность подобных сочетаний. В 72 случаях слева от лет обнаружены слова, которые содержательная лингвистика признала бы числительными или числительноподобными существительными: восемнадцать, восемь, восемьдесят, восьми, восьмнадцать, двадцать, двенадцать, двести, двух, девяносто, девяти, девятнадцать, девять, десяти, десяток, десять, одиннадцать, осьмнадцать, полста, полтораста, пяти, пятнадцать, пять, пятьдесят, семи, семь, сорок, сорока, сотни, ста, сто, трех, тридцать, триста, тысяча, шестнадцать, шестьдесят и т. п.[29] Пока у нас нет убедительных морфологических доказательств единства этого класса слов, хотя в 14 словах из этого списка находим последовательность ‑десят‑, а в 27 словах последовательность ‑дцат‑. Не означают ли эти факты прорыва от чисто формальных процедур к самим означаемым?[30]
В 26 случаях левые соседи лет оканчиваются суффиксом ‑ых/их: ваших, давних, детских, долгих, зрелых, известных, малых, многих, моих, молодых, немолодых, неопределенных, нескольких, одних, пожилых, последних, почтенных, прежних, преклонных, ранних, своих, средних, стольких, юных и т. п. При m=1,8 и S=16 этот факт станет убедительным доказательством грамматической интерпретации слова лет.
С общей семантикой прозы связан такой характерный список левых соседей слова лет: брюнет, брюнетка, вдова, господин, дама, дева, девица, девочка, девушка, детина, женщина, малый, мальчик, мальчишка, мальчуган, мужик, мужчина, парень, старик, человек, юноша.
Обратимся к самым частым словам, исключенным из рассмотрения на этапе морфологической систематизации, но открывающим большие возможности для продвижения на пути к открытию грамматики.
4.1.1.1.
Частые слова в левой позиции и суффиксы правых слов
Будем показывать статистическую значимость сочетаемости левого частого слова с тем или иным суффиксом (или группой суффиксов) следующим образом:
левое слово суффикс правого слова пример правого слова S
И (1080) -в (A) : взяв =40
-я/а (A) : глядя =10
-о (C) : долго =10 ;
иными словами после левого слова (с указанием частоты в этой позиции) следует суффикс, затем в скобках символ парадигмы, затем после двоеточия — пример правого слова и, наконец, после символа равенства значение S[31].
Начнем с тех случаев, где в правой позиции доминируют глаголы.
НЕ (3808) все суффиксы (A): знаю =60;
ТЕБЕ (154) все суффиксы (A): скажу =28;
ТОЛЬКО (156) все суффиксы (A): мог =24;
ОПЯТЬ (151) все суффиксы (A): стал =14;
СЕЙЧАС (110) все суффиксы (A): придет =10;
КУДА (107) все суффиксы (A): деваться =7;
ВСЕГДА (150) все суффиксы (A): бывает =6;
НО (222) -в (A):взглянув =14;
БЫ (206) -я/а (A):говоря =19, -вшись (A): испугавшись =14;
СНОВА (150) -л,ла,ли,ло (A): начал =20;
НАКОНЕЦ (78) -л,ла,ли,ло (A): решился =7;
ВДРУГ (378) -л,ла,,ло (A):остановился =23 -ет/ит (A):является =5
УЖЕ (233) -л,ли,ло (A):сказал =10
ЧТОБЫ (334) -ть (A): дать =64; ЧТОБ (200) -ть (A): узнать =50;
НАДО (204) -ть (A): полагать =47; НЕЛЬЗЯ (85) -ть (A): сказать =26;
МОЖНО (186) -ть (A): сказать =39, -ее (C): скорее =12
Я (686) -ю/у (A):знаю =146, -л (A):видел =22,
-0 (C):должен =18, -а (С):должна =5;
ТЫ (593) -шь (A):знаешь =140, -й/и (A):скажи =17,
-0 (C):должен =6, -а (С):должна =5;
МЫ (610) -ем/им (A):знаем =153, -ли (A):вошли =65: -ы (C):должны =16;
ВЫ (786) -те (A):знаете =125, -ли (A):знали =29, -ы (C):должны =42;
ОН (1044) -л (A):говорил =60, -ет/ит (A):может =38 -0 (C):должен =7;
ОНА (917) -ла (A):стала =98, -ет/ит (A):может =7, -а (C):должна =10;
ОНИ (595) -ют/ят (A):могут =99, -ли (A):стали =93, -ы (C):должны =34;
ОНО (96) -ло (A):показалось =42, -ет/ит (A):может =9;
ВСЕ (726) -ют/ят (A):знают =17, -ли (A):молчали =17;
-ло (A):казалось =24;
МЕНЯ (318) -ли* (A):звали =12, -ло* (A):поразило =14,
-ет/ит* (A):любит =6, -ут/ят* (A):зовут =5;
ВАС (230) -ю/у (A):прошу =24, -ет/ит* (A):любит =8;
ТЕБЯ (150) -ю/у (A):люблю =32, -ет/ит* (A):зовут =6;
ЕГО (562) -ли* (A): любили =19;
ЕЕ (363) -ли* (A): звали =7;
МНЕ (327) -ло (A):казалось =11, -ся (A,cf-ck):кажется =11,
-о (C):нужно =8;
ЕМУ (283) -ли (A):дали =6 -лось (A): казалось =20 ;
ЕЙ (151) -лось (A): казалось =20;
ИМ (75) -лось (A): хотелось =5;
ГДЕ (154) -ют/ят (A):живут =14, -ет/ит (A):стоит =6, -ли (A):стояли =5;
НУ (163) -й/и (A):прощай =45;
ХОТЬ (106) -й/и (A):убей =10;
КТО (133) -ет/ит (A):знает =28;
ЧТО (257) -ло (A): случилось=10
САМ (172) -л (A):видел =16, -0 (ba,bb):хозяин =6;
САМА (139) -ла (A):видела =10, -а (be-bh):хозяйка =7.
Главный итог анализа этих сорока с лишком левых соседей глаголов сводится к открытию нескольких важных конструкций. Четыре частых «местоимения» с несомненностью (S > 100) обнаружили индивидуальную специфическую связь с каким-то суффиксом глагола — Я и ‑ю/у, ТЫ и ‑шь, МЫ и ‑ем/им, ВЫ и ‑те. Чуть меньшие значения S доказывают связь еще четырех «местоимений» со своими глагольными партнерами — ОН и ‑л, ОНА и ‑ла, ОНИ и ‑ли, ОНО и ‑ло. Связь с ‑ли доказана также у «местоимений» МЫ и ВЫ. В зависимости от позиционных связей с глагольными суффиксами и с «краткими прилагательными» выстраивается следующая система «местоимений», идеально совпадающая с представлениями содержательной лингвистики:
Я МЫ
ТЫ ВЫ
ОН
ОНИ
ОНА
В этой схеме не нашла отражения лишь одна специфическая связь ТЫ и «императива», объясняемая не грамматическими ограничениями, а условиями диалога. Тот же иллокутивный фактор скрывается за связью ‑ю/у и «местоимениями» ТЕБЯ и ВАС, за связью «императива» и слова НУ.
Как шаг на пути к будущим грамматическим открытиям можно рассматривать связь «местоимений» меня, тебя, вас, его, ее с глагольным суффиксом ‑ли (без частицы ‑ся). С суффиксом ‑лось связаны местоимения мне, ему, ей, им.
Открыта еще одна важная конструкция — «инфинитив», которому предшествует 4 частых слова: чтобы (с вариантом чтоб), надо, нельзя, можно. Обращаясь к морфологически систематизированным словам, можем добавить к этому перечню слово НУЖНО (54) ‑ть (A): знать =28.
В редких случаях статистическая связь частого слова с суффиксом правого слова объясняется тем, что само часто слово есть лишь часть устойчивого словосочетания. Таково бы — часть сочетания как бы, объясняющего связь с «деепричастиями», таково и можно – часть сочетания как можно, объясняющего связь с «компаративами».
Переходя к словосочетаниям с правым словом-субстантивом, подчеркнем, что левое слово всегда оказывается одновременно связанным и с каким-то словом-адъективом. Прежде всего, перед нами открывается группа предлогов.
В (4600) 18..:1861 =31, -ах (B):глазах =70, -е (ba,bb):доме =48
-е (bc):деле =6, -и (bd):волнении =33, -е (be):голове =30,
-у (be-bg):голову =12, -ом (C):белом 318=77, -ой (C):другой =7,
-ую (C):другую =19, -ых (C):белых =10;
НА (2812) -ах (B):глазах =60 -е (ba,bb):дворе =39, -е (bc):деле =8,
-е (be,bf):голове =26, -у (be-bg):голову =23, -ую (C):большую =12,
-ых (C):которых =20;
О (1191) -ах (B):деньгах =52, -е (ba,bb):князе =65,
-е (be,bf):войне =33, -и (bg,bh):смерти =27, -ом (C):котором =28,
-ых (C):которых =14;
ПРИ (449) -ах (B):деньгах =12, -е (ba,bb):виде =38:
-и (bd):появлении =45, -е (be,bf):встрече =12, -ом (C):каждом =33;
ОБ (291) -ах (B):деньгах =16, -е (ba-bc):отце =12,
-ии (bd,bg):истории =20, -е (be,bf):анне =15, -ом (C):одном =6.
С (4140) -ами (B):друзьями =56, -ом (ba,bb):другом =70,
-ой (be,bf):анной =89, -ою (be):досадою =36, -ью (bh):грустью =28,
-ой (C):большой =7, -ою (C):которою =73, -ым (C):длинным, =78,
-ыми (C):белыми =66;
ЗА (1109) -ами (B):воротами =22, -ом (ba-bd):городом =24,
-ой (be,bf):волгой =31, -у (be,bf):голову =17,
-ою (be):работою =15;
ПОД (555) -ами (B):ногами=18 -ом (ba-bd):влиянием =28,
-ой (be,bf):мышкой =18, -ою (be):рукою =13, -у (be,bf):руку=6,
-ым (C):которым =15, -ыми (C):разными =5;
ПЕРЕД (358) -ами (B):глазами =6, -ом (ba-bd):богом =42,
-ой (be,bf):публикой =26, -ою (be):женою =9, -ью (bh):смертью =11,
-ым (C):истинным =6, -ыми (C):святыми =4;
НАД (277) -ами (B):глазами =15, -ом (ba-bd):городом =24,
-ой (be,bf):головой =15, -ою (be):головою =13,
-ью (bh):кроватью =13;
СО (325) -ами (B):слезами =20, -ом (ba-bd):вздохом =18,
-ой (be,bf):свечой =17, -ою (be):свечою =5;
ПРЕД (125) -ом (ba-bd):богом =20, -ой (be-bg):иконой =12,
-ым (C): которым =4;
МЕЖДУ (184) -ами (B): пальцами =48, -ыми (C):молодыми =30.
К (2525) -ам (B):воротам =43, -у (ba-bd):брату =156,
-е (be,bf):дяде =51, -ому (C):большому =61, -ым (C):знакомым =12;
ПО (1886) -ам (B):вечерам =137, -у (ba-bd):берегу =71,
-е (be,bf):дороге =20, -ому (C):длинному =73, -ым (C):новым =16;
КО (61) -ам (B):дворам =8, -у (ba-bd):взысканию =18,
-ому (C):второму =6.
ИЗ (1514) -а (ba-bd):города =29, -ы/и (be-bh):воды =41,
-0 (bc-bf):границ =21, -ов (ba):домов =34, -ых (C):знакомых =58,
-ого (C):красного =15;
ОТ (1051) -а (ba-bd):бога =36 -ы/и (be-bh):боли =23,
-0 (bc-bf):наук =12, -ов (ba):жильцов =8, -ых (C):других =19;
У (846) -а (ba-bd):входа =37 -ы/и (be-bh):двери =27,
-ов (ba):казаков =12, -ых (C):иных =27 -ого (C):другого =7;
ДЛЯ (691) -а (ba-bd):общества=28 -ы/и, (be-bh):женщины =15,
-0 (bc-bf):мужчин =8, -ых (C):других =12, -ого (C):всякого =10;
ДО (622) -а (ba-bd):безумия =26, -ы/и (be-bh):бесконечности =22,
-0 (bc-bf):колен =6, -ого (C):нового =13;
БЕЗ (678) -а (ba-bd):исключения =32 -ы/и (be-bh):памяти =22,
-0 (bc-bf):чувств =26, -ов (ba):разговоров =17,
-ых (C):особенных =4, -ого (C):некоторого =4;
ПОСЛЕ (369) -а (ba-bd):обеда =18, -ы/и (be-bh):кончины =11,
-ого (C):долгого =17;
ПРОТИВ (109) -а (ba-bd):обыкновения =10 -ы/и (be-bh):воли =4
-ого (C):прежнего =7;
ИЗ-ЗА (114) -а (ba-bd):стола =10 -ы/и (be-bh):границы =9,
-ов (ba):кустов =6 -0 (bc-bf):туч =10;
ИЗ-ПОД (105) -а (ba-bd):стола =8 -ы/и (be-bh):земли =10
-ого (C):самого =4, -ых (C):длинных =13
СРЕДИ (119) -а (ba-bd): двора =5 -ы/и (be-bh): комнаты =6,
-ов (ba,bc): цветов =5, -0 (bc-bf): болот=7, -ого (C): белого =6,
-ой (C): глубокой =8 -ых (C): живых =10;
НИ (304) -а (ba-bd):гроша =6, -ы/и (be-bh):души =6.
ПРО (170) -а (ba,bb):отца =20, -у (be-bg):жену =16,
ЧЕРЕЗ (176) -0 (ba,bb):год =5 -у (be-bg):неделю =18.
Благодаря этой группе предлогов с несомненностью открываются четыре падежа с явной дифференциацией по числу и с менее очевидной связью с субстантивными парадигмами.
Схематически итог может быть показан следующим образом:
Предлоги Адъективы Субстантивы
pl. sg. pl. sg.
1) К, ПО -ым -ому -ам -у, -е
2) С, ПОД, ЗА... -ыми -ым, -ой/ою -ами -ом, -ой/ою, -ью
3) ИЗ, ОТ, У... -ых -ого, (-ой) -ов, -0 -а, -ы/и
4) В, НА, О... -ых -ом, (-ой) -ах -е, -и[32]
Обнаруженные группы предлогов (за исключением НИ) обладают одним общим свойством: следующие за ними «местоимения» добавляют начальную Н‑[33].
pl. sg.
1) К, ПО НИМ НЕМУ НЕЙ
2) С, ПОД, ЗА... НИМИ НИМ НЕЙ/НЕЮ
3) ИЗ, ОТ, У...+ ПРО, ЧЕРЕЗ НИХ НЕГО НЕЕ
4) В, НА, О... НИХ НЕМ НЕЙ
Это свойство позволяет расширить список предлогов: ко второй группе присоединяется меж, а к третьей группе добавляются 11 слов — близ, вместо, возле, вокруг, кроме, кругом, мимо, около, подле, после, промеж.
Намек на двойное управление у предлогов в и на, только что обсуждавшийся в связи с суффиксами ‑у (be-bg) и ‑ую (C), подкрепляется следующими фактами:
ln S f ln S f
5 3802 в нем 2 863 в него
4 2691 в ней 3 776 в нее
4 1074 на нем 5 6350 на него
3 995 на ней 5 3370 на нее
Гипотеза двойного (или даже тройного) управления возникает и в связи с предлогом С:
ln S f ln S f
6 8311 с ним 5 3030 с ней
2 641 с него 5 2017 с нею
2 290 с нее
Эта гипотеза подтверждается такими сочетаниями:
f f f
50 с боков 188 с неба 35 с версту
167 с обеих 41 с обрыва 76 с десяток
111 с разных 112 с поля 267 с минуту
147 с улицы 28 с потолка 140 с неделю
14 с пригорка 28 с полверсты
1061 с места 23 с седла 182 с полчаса
99 с точки 42 с телеги 74 с четверть
52 с террасы
222 с дивана 29 с чердака 15 с молотка
45 с козел 19 с торгов
113 с кресла 198 с вечера
74 с лавки 301 с детства 160 с виду
17 с лежанки 48 с малолетства 141 с глазу
129 с лошади 719 с первого 248 с головы
41 с полатей 164 с первых 23 с гуся
318 с постели 93 с раннего 38 с жиру
598 с самого 50 с иголочки
56 с балкона 232 с сего 207 с лица
95 с высоты 679 с утра 318 с ног
126 с горы 9 с панталыку
267 с дороги 31 с голода 157 с плеч
27 с кавказа 269 с голоду 42 с плеча
27 с кафедры 9 с голодухи 9 с разбега
37 с кладбища 179 с горя 10 с разбегу
37 с колокольни 18 с испугу 202 с рук
159 с крыльца 38 с нынешнего 177 с толку
43 с крыши 18 с перепугу 809 с ума
240 с лестницы 41 с похмелья 90 с языка
76 с тоски
Некоторые колебания в выборе суффикса в правом слове не связаны с моделью управления, их можно интерпретировать как варианты, ср. у ней (f=2097) и у нее (f=2623); по нем (f=12) по нему (f=230).
Пять частых левых слов сочетаются со специфическими суффиксами субстантивов и адъективов (преимущественно - множественного числа):
НЕСКОЛЬКО (341) -ов (ba):шагов =22, -0 (bc,be,bf):слов =34
-й (bd):мгновений =6, -ей (bh):ночей =10
ТРИ (154) -а (ba-bd):дня =20, -ы (be-bh):тысячи =14,
-ых (C):земных =5
ДВА (234) -а (ba-bd):года =41 -ые (C):молодые =5,
-ых (C):молодых =9;
ДВЕ (174) -ы/и (be-bf):недели =38 -ые (C):молодые =21;
ДВУХ (181) -ах (B):словах =13, -0 (bc-bf):лет =25,
-ов (ba):часов =34, -ей (bb,bh):дней =17,
-ых (C):других =23
Среди левых частых слов находим несколько десятков слов адъективного облика, статистически связанных с характерными падежными суффиксами (часто принадлежащих конкретным парадигмам):
СВОИХ (398) -ах (B):чувствах =46, -ов (ba):членов =36,
-ей (bb,bh):мыслей =23, -0 (bc-bg):слов =43,
-ых (C):собственных =37
(тж. всех, этих, моих, наших, обоих, твоих, ваших)
СВОИМИ (231) -ами (B):глазами =80, -ыми (C):большими=77
( тж. моими, этими, всеми)
СВОИМ (432) -ам (B):делам =50, -ом (ba-bd):мужем =57,
-ым (C): обычным =44
(тж. этим, моим, вашим, нашим, всем)
СВОЕГО (430) -а (ba-bd):рода=48, -ого:нового=13
(тж. моего, вашего, нашего, этого, того)
СВОЕЙ (536) -ы/и (be-bh):жизни=33, -е (be):воле=34,
-ой (be):дорогой =24, -ью (bh):матерю =13, -ой (C):новой =25
(тж. этой, моей, всей, вашей, твоей)
СВОЕМ (223) -е (ba-bc):месте =13, -и (bd):положении =13
(тж. моем, вашем, нашем, этом)
СВОЕМУ (166) -у (ba-bc):обыкновению =78 -ому (C):любимому =25
(тж. этому, моему, всему, нашему, вашему)
СВОЕЮ (113) -ой (beg):дорогой =19, -ою (beg):рукою =34
-ью (bh):обязанностью =70, -ою (C):собственною =43
СВОЮ (520) -у (be-bg):голову =70 -ь (bh): очередь =31,
-ую (C): любимую =51
(тж. эту, мою, одну, всю)
Следующая группа левых слов подобного типа позволяет определить «именительный» падеж правых субстантивов.
СВОИ (409) -ы (ba,bb):планы =38, -а (bc): дела =22
-ы/и (be-bh): руки =14 -ые (C):большие =36
(тж. эти, мои, наши)
ЭТОТ (404) -0 (ba,bb):раз =47, -ый (C):самый =27
(тж. свой, мой, весь, один, наш)
ЭТА (378) -а (be-bg): женщина =45, -ь (bh): жизнь =32,
-ая (C): самая =28
(тж. моя, вся, одна)
СВОЕ (319) -о (bc,bd):дело =68, -ое (C): собственное =40
(тж. мое, ваше)
ЭТО (489) -о (bc,bd): дело =21, -о (C): верно =16,
-ое (C):другое =11, -ло (A):могло =24.
Теперь вполне сформировалась согласовательная конструкция A + Sb с такими соответствиями суффиксов:
Таблица
4.7
Соответствия адъективных и субстантивных суффиксов
Адъективы Субстантивы
ba bb bc bd be bf bg bh bi
Pl.
1) -ым -ам
2) -ыми -ами
3) -ых -ов -ей -0 -й -0 -0 -й -ей -0
4) -ых -ах
5) -ые -ы/и -а/я -ы -и -и -и -е
Sg.
1) -ому -у/ю -у/ю
-ой -е -е -е/и -и
2) -ым -ом -ом
-ой -ой -ой -ой -ью
3) -ого а/я -а/я
-ой -ы -и -и -и
4) -ом -е -е -и
-ой -е -и
5) -ый/ой -0 -ь
-ое -о -е
-ая -а -а/я -я -ь
6) -ую -у -у/ю -ю -ь
О дальнейших уточнениях этой схемы будет сказано далее.
К этой самой продуктивной конструкции с согласованием добавляются еще две согласовательные конструкций: одна из содержит четыре глагольные формы, за которыми следует адъектив:
БЫЛ (779) -0 (C):уверен =175
БЫЛА (587) -а (be-bg): женщина =5, -а (C):счастлива =150,
-ая (C):большая =31
БЫЛИ (512) -ы (C):заняты=71 -ые (C): самые=11
БЫЛО (553) -о (C):написано =56;
— вторая конструкция тоже содержит адъектив, перед которым стоит «неопределенное» слово:
ЧТО-ТО (241) -ое (C):другое =87, -ло (A):случилось =12;
КАКОЙ-ТО (183) -ой (C):молодой =23, -ый (C):странный =19,
-0 (ba,bb): господин =11;
ЧТО-НИБУДЬ (89) -ое (C):подобное =33;
НИЧЕГО (96) -ого (C):подобного =34.
Перечисленные частые слова постепенно вводят нас в круг «пре-адъективов», неслучайно часто прогнозирующих последующий адъектив. Здесь уже не идет речь о согласовании, предсказывается не конкретный суффикс адъектива, но весь класс адъективов. Впрочем, суффикс ‑о (C) снова демонстрирует свою специфичность. Иногда и «краткие прилагательные» покажут свое особое поведение.
ОЧЕНЬ (813) все суффиксы (C):ДОБРЫЙ =48 [-о (C):весело =24,
-0,а,ы (C):доволен =72],
ВЕСЬМА (214) все суффиксы (C):ВАЖНЫЙ =22 [-о (C):вероятно =22],
БОЛЕЕ (197) все суффиксы (C),кроме -о:обыкновенного =8.
ТАК (414) -о (C):долго =33, -0,а,ы (C):велик =35;
СЛИШКОМ (136) -о (C):хорошо =22, -0,а,ы (C):велик =38;
СОВСЕМ (208) -о (C):неожиданно =8, -0,а,ы (C):здоров =5,
-л,ла,ли (A):забыл =5;
ПОЧТИ (189) -о (C):насильно =12;
КАК-ТО (161) -о (C):особенно =45.
Минимальный интервал все больше свидетельствует в пользу частичной ревизии морфологических классов. Подкласс «предикативов» ‑0,а,ы (C), слева от которых появляются ОЧЕНЬ, ТАК, СЛИШКОМ, СОВСЕМ, проявляет дистрибутивное сходство с глаголами, ср. такие неслучайные сочетания:
ln S f ln S f
2 6 очень беспокоится 2 12 так беспокоитесь
2 10 очень болит 4 63 так выразиться
2 24 очень боялся 2 142 так говорит
2 28 очень желал 2 111 так думаю
3 7 очень заинтересовало 2 15 так интересует
3 15 очень интересует 2 16 так испугался
2 13 очень испугался 2 61 так люблю
4 202 очень любил 2 22 так обрадовался
3 59 очень нравится 2 40 так показалось
4 57 очень обрадовался 2 18 так понравилась
2 27 очень помню 2 20 так поразило
2 25 очень понимаю 2 35 так привык
4 59 очень понравился 2 25 так продолжалось
3 12 очень похудела 2 51 так случилось
2 10 очень сконфузился 2 20 так смотришь
2 12 очень смеялся
3 16 очень сожалею 3 51 совсем забыл
3 16 очень уважаю 3 7 совсем отвык
3 25 очень устал 3 18 совсем перестал
4 173 очень хотелось 3 14 совсем позабыл
4 23 совсем потерялся
2 5 слишком любили 4 24 совсем растерялся
2 12 слишком понимаю
Кандидатом в особый подкласс (или даже в особый класс «адвербов») становятся адъективы с суффиксом ‑о. На основании дистрибутивного сходства к ним присоединяются некоторые слова, не нашедшие себе места в морфологических парадигмах.
4 171 очень жаль 2 21 очень стыдно
2 9 очень надолго 2 14 так впору
2 4 очень невдолге 3 161 так например
3 92 очень рано.
Еще один подкласс («компаративов») открывается благодаря следующим левым словам:
ЕЩЕ (408) -ее (C):сильнее =92, -ей (C):сильней =6;
ГОРАЗДО (177) -ее (C):труднее =100;
ТЕМ (83) -ее (C):сильнее =55;
ВСЕГО (161) -ого (C):хорошего =11, -ее (C):важнее =30;
МОЖНО (186) -ть (A): сказать =39, -ее (C): скорее =12
В добавление к морфологически определенным словам с суффиксом ‑ее/ей появляется более 50 слов со всевозможными чередованиями в суффиксах или совсем новые слова (лучше, менее, меньше, хуже, пуще, паче и т. д.)[34]
Четыре компаратива сочетаются со всеми пятью левыми словами:
ln S f ln S f
4 163 всего более 3 126 всего лучше
5 241 гораздо более 5 242 гораздо лучше
5 1560 еще более 3 268 еще лучше
5 991 тем более 4 241 тем лучше
3 74 можно более 2 32 можно лучше
3 77 всего больше 3 45 всего менее
5 213 гораздо больше 4 35 гораздо менее
4 766 еще больше 3 102 еще менее
4 249 тем больше 3 52 тем менее
3 85 можно больше 2 20 можно менее
С четырьмя словами сочетаются: меньше, строже, хуже, чаще;
— с тремя словами: ближе, глубже, громче, гуще, дальше, дольше, легче, раньше, реже, резче, тише;
— с двумя словами: выше, далее, дороже, крепче, проще, слаще, суше, тверже, чище, шибче, шире, ярче;
— с одним словом: богаче, бойчее, горче, горше, дешевле, долее, дороже, жарче, жестче, короче, мельче, моложе, мягче, неловче, ниже, паче, подальше, позже, пораньше, поскорее, почище, пуще, ранее, старше, толще, тяжеле, яснее.
4.1.1.2.
Частые слова в правой позиции и суффиксы левых слов
В некоторых случаях правое частое слово дублирует связь с каким-то суффиксом, уже доказанную в предыдущем параграфе, когда наше частое слово находилось в левой позиции. Прежде всего, это касается местоимений:
Я (287) -ю/у (A):знаю я =24;
ТЫ (266) -шь (A):видишь ты =32, -й/и (A):скажи ты =39;
МЫ (131) -ем (A):знаем мы =32, -ли (A):пошли мы =17;
ВЫ (154) -те* (A):знаете вы =33;
ОН (238) -л (A):сказал он =23
ОНА (256) -ла (A):сказала она =48
ОНИ (113) -ют (A):говорят они =18, -ли (A):говорили они =15.
Заметим, однако, что значения S здесь намного ниже, число значимых связей тоже меньше. Отсюда следует, что основным порядком слов в этой конструкции является последовательность «местоимение + глагол», хотя инверсия этого порядка довольно обычна.
Оба порядка слов обычны в сочетании слова +всего с компаративом:
ВСЕГО (92) -ее (C):вероятнее всего =39.
В паре «был, ‑а, ‑и + предикатив» вполне обычны оба порядка слов, но в согласовательной конструкции «субстантив + глагол» именно такой порядок слов доминирует, что будет доказано в следующем параграфе.
БЫЛ (284) -0 (ba,bb):человек был =18, -0 (C):должен был =79;
БЫЛА (294) -а (be-bg):княгиня была =31 -а (C):должна была =83;
БЫЛИ (199) -ы (C):должны были =103.
Значительно реже наблюдается инверсия в согласовательной конструкции «адъектив + субстантив», где адъективом является местоименное слово:
ЭТОТ (74) -0 (ba,bb):человек этот =12;
МОЙ (124) -0 (ba,bb):друг мой =18;
НАШ (53) -0 (ba,bb):разговор наш =13;
ЭТА (133) -а (be-bg):женщина эта =18, -ь (bh):мысль эта =6;
МОЯ (147) -а (be-bg):душа моя =27, -ь (bh):жизнь моя =12,
-ая (C):милая моя =8.
Оба порядка слов обычны в сочетании слова вдруг с глаголом:
ВДРУГ (59) -л,ла,ли (A):раздался вдруг =7;
слов надо и нельзя с «инфинитивом»
НАДО (73) -ть (A):смеяться надо =9,
НЕЛЬЗЯ (100) -ть (A):жить нельзя =23;
и в значимой связи суффикса 1 лица глагола со словом тебя:
ТЕБЯ (170) -ю (A):люблю тебя =24.
Частое слово БЫ (314) тесно связано с суффиксами ‑л, ‑ла, ‑ли, ‑ло левого глагола, образующих жесткую конструкцию. В нашем поле наблюдений найдено 250 графических примеров этой конструкции (S=29), ср. казалось бы (3:137), пришлось бы (3:102), хотелось бы (4:318). При объединении суффиксов прошедшего времени значимость связи увеличивается БЫЛ... бы (4:3229), ВЗЯЛ... бы (3:116), ДАЛ... бы (3:163), ЖЕЛАЛ... бы (5:429), МОГ... бы (5:1667), ПОЗАВИДОВАЛ... бы (3:14), ПОЧЕЛ... бы (3:27), ПОШЕЛ... бы (3:186), СЧЕЛ... бы (3:33), ХОТЕЛ... бы (3:303).
Из специфических конструкций с частым словом в правой позиции главнейшей является последовательность «глагол + предлог», причем отглагольные адъективы парадигм Cf и Cg в своем дистрибутивном поведении совпадают с собственно глаголом. Как мы видели, класс «предлогов» четко выделился по их способности управлять определенным падежом следующего за ним субстантива. Находясь в правой позиции, предлоги в качестве левого соседа обычно имеют глагол, но не показывают каких-либо связей с суффиксами глагола (если не считать частицу ‑ся). Как пример рассмотрим лемматизированные глаголы, непосредственно предшествующие предлогу К — самому мощному представителю предлогов в сочетаниях подобного рода (1588 графических слов слева)[35].
Таблица
4.8
Глаголы, предшествующие предлогу К
ln S f ln S f ln S f
3 158 бежать 4 191 подбежать 3 70 прижать
3 19 благоволить 2 12 подбираться 4 125 прижаться
3 22 близиться 3 50 подвести 3 36 прижимать
4 164 бросаться 3 66 подвигаться 4 66 прижиматься
3 207 вернуться 3 52 подвинуться 2 30 призвать
2 118 вести 2 24 подводить 3 39 прикасаться
3 36 влечь 3 34 подкатить 3 20 прикладываться
4 192 возвратиться 3 22 подкрадываться 2 10 приковать
4 193 возвращаться 3 29 подкрасться 4 56 прикоснуться
3 85 воротиться 2 26 подносить 3 25 прилегать
2 81 входить 3 18 пододвинуться 3 20 прилепиться
4 112 готовиться 3 45 подозвать 3 11 прилипать
3 213 ездить 5 517 подойти 3 20 прилипнуть
3 280 ехать 6 2380 подошел 3 53 приложить
3 48 жаться 4 125 подсесть 3 43 приложиться
2 26 завернуть 3 32 подскакать 4 52 прильнуть
3 29 заеду 3 18 подскакивать 3 36 примкнуть
3 53 заезжать 4 72 подскочить 3 31 примыкать
4 126 заехать 4 55 подступать 5 538 принадлежать
4 121 зайти 3 31 подступить 3 32 припадать
3 83 заходить 5 1493 подходить 4 129 припасть
4 148 зашел 4 221 подъезжать 3 20 приросла
4 706 идти 5 343 подъехать 3 76 присесть
3 83 кинуться 3 117 поеду 4 164 прислониться
3 47 клониться 4 319 поехать 3 46 прислушаться
4 59 ласкаясь 3 76 пожаловать 4 356 прислушиваться
3 49 нагибаться 3 138 позвать 3 24 присматриваться
4 130 нагнуться 3 356 пойти 4 114 присоединиться
4 128 наклониться 2 16 порываться 3 22 присоединяться
4 63 наклоняться 2 93 послать 4 124 приставать
2 126 написать 2 38 посылать 3 32 приставить
5 279 направиться 4 685 пошел 4 126 пристать
4 126 направляться 4 130 прибегать 4 38 пристраститься
4 263 обернуться 4 105 прибегнуть 4 103 приступать
4 84 оборачиваться 3 50 прибежать 5 309 приступить
3 74 оборотиться 4 218 приближаться 3 21 притянуть
5 1240 обратиться 5 259 приблизиться 4 394 приходить
5 1683 обращаться 3 118 привести 3 17 причислить
3 54 отвернуться 3 37 привлекать 4 541 пришел
4 226 отнестись 3 40 привлечь 3 28 пробираться
2 18 относить 3 61 привыкать 3 27 простирать
3 114 отошел 4 431 привыкнуть 2 41 протягивать
5 467 относиться 3 29 привязать 2 23 располагать
4 431 отправиться 4 108 привязаться 2 21 ревновать
3 49 отправляться 3 37 привязываться 2 17 склониться
3 30 охладеть 3 20 приглядеться 3 27 склоняться
2 35 переехать 3 50 приглядываться 4 136 стремиться
3 62 перейти 3 22 пригнуться 3 95 сходить
3 56 переходить 3 40 приготовиться 3 105 съездить
4 191 перешел 3 43 приготовляться 3 28 устремиться
3 188 писать 3 30 придвинуться 3 175 ушел
4 96 питать 3 202 придет 3 296 ходить
4 197 побежать 4 36 придраться 3 315 шел
3 64 повернуть 3 126 приезжать 4 371 явиться
4 206 повернуться 4 485 приехать 3 112 являться
4 125 подбегать
В табл. 4.8 представлено 166 глаголов, некоторые из них даны не в обычной форме инфинитива, а в какой-то другой форме. До сих пор в рамках формального анализа лемматизация могла опираться только на совпадение основ и на суффиксы, относящиеся к данной парадигме. Выше уже рассматривался эффект расширения списка компаративов на основе дистрибутивных критериев. В табл. 4.8 управление предлогом К вплотную подводит исследователя к признанию супплетивности или кардинальных чередований в таких парах и тройках, как ездить — ехать, заеду — заезжать — заехать, зайти — заходить — зашел (тж. с пере‑, при‑), идти — ходить — шел, нагибаться — нагнуться, подвести — подводить, пойти — пошел (тж. у‑), послать — посылать, прижать — прижимать, прикасаться — прикоснуться, прикладываться — приложиться.
Глагольное управление предлогом может сохраняться и у отглагольных субстантивов, ср. влечение к (f=39), наклонность к (66), привычка к (40), отношение к (658), письмо к (414), привязанность к (86), приготовление к (89), призыв к (18), пристрастие к (31), приступ к (14), склонность к (56), стремление к (95). Разумеется, такое управление сохраняется и у отглагольных адъективов парадигмы Ch — привязанный к (118), обращенный к (81), склонный к (46), прикованный к (15) и т. п.
Если предлог К не обнаружил специфических связей с суффиксами глаголов, тем более поразительной кажется статистическая связь с глагольными префиксами. Из 166 глаголов, данных в табл. 4.8, 63 глагола начинаются с префикса при‑, 24 — с префикса под‑.
Сопоставим эти результаты с сочетаниями еще одного предлога.
КО - 26 глаголов: заезжать (ln S =4 : f =15), зайти (4:37), заходить
(4:44), идти (2:30), лезть (2:14), обернуться (3:37), обратиться
(4:187), обращаться (5:201), отнестись (3:20), относиться (4:43),
писать (2:39), повернуться (3:25), подойти (3:32), подошел
(4:137), подходить (4:77), пожаловать (2:36), пойдем (3:48),
прибегать (3:11), придет (3:29), приезжать (4:72), приехать
(3:45), приставать (3:27), пристать (3:25), пришел (4:134),
ходить (2:34).
Как видим, за единственным исключением лезть, глаголы, сочетающиеся с предлогом КО, входят в список тех глаголов, что сочетаются с предлогом К. Сходство написания и полное совпадение левых окружений заставляют сделать вывод: КО есть вариант предлога К. Справа от ко зафиксировано 50 графических слов, не встретившихся после к. По большей части эти слова начинаются с сочетания согласных (ко вдове, ко взморью, ко взысканию, ко всем, ко всему, ко всенощной, ко всеобщему, ко второму, ко дну, ко дню, ко злу, ко лбу, ко мне, ко многому, ко рту, ко сну, ко христу). В четырех сочетаниях возможны оба предлога: к/ко врагу, к/ко вратам, к/ко вчерашнему, к/ко дворцу. В шести сочетаниях, где представлены оба предлога, вариант с ко, по-видимому, ассоциируется с церковнославянским языком: ко господу, ко гробу, ко кресту, ко престолу, ко святому, ко спасению. Аналогичным образом вариантами признаются В и ВО, С и СО.
Вариантами будут признаны предлоги О (с 46 глаголами) и ОБ (с 18 глаголами):
вспоминать о (4:162) об (3:52) позабыть о (3:31) об (2:12)
вспомнить о (4:223) об (3:53) просить о об (2:58)
говорить о (4:1756) об (4:483) рассказывать о (4:214) об (3:43)
думать о (5:1192) об (4:315) рассуждать о (4:118) об (3:26)
заботиться о (5:246) об (3:36) слышать о (3:120) об (2:45)
забыть о (4:202) об (3:53) сожалеть о (4:68) об (3:13)
заговорить о (4:247) об (2:33) узнать о (4:321) об (4:141)
знать о (3:330) упоминать о (4:72) об (3:28)
мечтать о (5:233) об (4:60) хлопотать о (4:110) об (3:49)
подумать о (4:177) об (3:67)
Эти варианты различаются, находясь в левой позиции. Перед правым соседом с начальными а‑, и‑, о‑, у‑, э- появляется ОБ. В остальных случаях преобладает О, но ОБ тоже возможен (об деле, об деньгах, об землю, об литературе, об лошадях, об моем, об ней, об нем, об них, об себе, об сыне, об тебе, об том, об чем). Приблизительно равную частоту имеют о вас и об вас, о нас и об нас. Только ОБ обнаружен перед заклад, землю, земь, косяк, лед, ногу, ножку, руку, стену, стол.
Ниже приводятся некоторые предлоги с их ассоциированными глагольными префиксами и наиболее значимыми примерами сочетаний слов.
В — 164 глагола, в т. ч. 28 с префиксом в‑:
впадать (4:=198), впасть (4:207), вступать (4:219), вступить
(4:426), входить (4:796); взглядываться (4:302), жить (4:1700),
заглянуть (4:277), заключаться (4:293), находиться (4:920),
погрузиться (4:179)), попасть (4:584), превратиться (4:208),
состоять (4:499), участвовать (4:250).
НА — 176 глаголов, в т. ч. 29 с префиксом на‑:
нападать (4:112), напасть (4:203), наткнуться (4:143);
взглядывать (5:456), взглянуть (5:3021), глядеть (5:3366),
глянуть (4:189), жаловаться (4:322), жениться (4:888),
коситься (4:87), лежать (4:1024), лечь (4:283), облокотиться
(4:213), обратить (4:345), обращать (4:332), опереться (4:135),
опираться (4:145), опуститься (4:390), поглядеть (4:667),
поглядывать (4:377), подействовать (4:239), посматривать (4:292),
посмотреть (5:2374), походить (4:377), присесть (4:198),
произвести (4:307), садиться (4:477), сердиться (4:235),
сесть (4:1026), сидеть (4:1409), смотреть (5:4766), ссылаться
(4:87), стоять (4:1313), указать (4:465), указывать (5:1001),
упасть (4:472).
С — 131 глагол, в т. ч. 44 с префиксом с‑:
сблизиться (4:101), сбросить (4:121), снять (4:293), соскочить
(4:115), спускать (4:151), столкнуться (4:91), сходить (3:243);
возиться (4:130), вскочить (4:293), встретиться (4:383),
переговорить (4:167), повидаться (4:110), поговорить (4:480),
подняться (4:279), поздороваться (4:137), познакомиться (4:516),
помириться (4:114), поравняться (4:126), посоветоваться (4:97),
примириться (4:91), проститься (4:422), прощаться (4:240),
разговаривать (4:375), расстаться (4:290).
ОТ — 100 глаголов, в т. ч. 39 с префиксом от‑:
отвернуться (4:195), отворачиваться (4:85), отделаться (4:143),
отказаться (5:459), отказываться (4:133), отличаться (4:115),
оторваться (4:90), отрекаться (4:45), отречься (4:88),
отставать (4:124), отходить (5:260); дрожать (4:277),
зависеть (5:305), задыхаться (4:138), избавиться (5:152),
обезуметь (4:47), освободиться (4:90), получить (4:351),
происходить (4:152), скрыть (4:147), требовать (4:204),
удержаться (4:97), уклониться (4:39).
ЗА — 67 глаголов, в т. ч. 6 с префиксом за‑:
заплатить (3:125), заступаться (3:35), заступиться (4:74),
затворить (4:41); берется (4:106), браться (4:53), взяться (5:465),
волочиться (4:40), гнаться (4:41), наблюдать (4:209), платить
(4:131), послать (4:304), последовать (4:213), приниматься (4:175),
приняться (4:411), сесть (4:327), следить (5:721), схватиться
(4:203), ухаживать (5:256), ухватиться (4:129), хвататься (4:175),
цепляться (4:47).
ПО — 62 глагола, в т. ч. 11 с префиксом раз‑:
разлиться (4:50), разнестись (4:41), расхаживать (4:95);
бегать (4:193), бродить (4:186), гладить (4:79), гулять (4:151),
пробежать (4:142), прохаживаться (4:50), рыскать (4:33),
судить (4:362), ходить (5:1055), шагать (4:85).
ИЗ — 60 глаголов, в т. ч. 38 с префиксом вы‑:
выбежать (4:139), выбиваться (4:33), выбиться (4:65), выбраться
(4:48), выезжать (4:77), выехать (4:173), выйти (4:419),
вылезать (4:41), вылезти (4:61), вынимать (4:180), вынуть (5:442),
вырвать (4:67), вырваться (4:156), выскочить (4:156),
высунуться (4:51), вытащить (4:88), вытекать (4:35), выходить
(5:1030), вышел (5:1471); достать (4:166), состоять (5:462).
У — 29 глаголов: бывать (4:420), вырваться (4:127), гостить (4:78),
ночевать (3:48), обедать (3:153), останавливаться (3:65),
остановиться (4:357), остаться (3:197), отнимать (4:102),
побывать (4:96), погостить (3:43), попросить (4:153),
поцеловать (4:137), просидеть (3:55), просиживать (3:23),
просить (3:337), сидеть (3:493), спросить (3:527), стоять (4:576),
украсть (3:48).[36]
ДО — 23 глагола, в т. ч. 15 с префиксом до‑:
добежать (4:46), доберусь (4:32), добираться (4:26), добраться
(5:179), довести (4:116), доехать (4:77), дожить (4:76), дойти
(5:313), долетать (4:44), долететь (4:37), дотрагиваться (4:29),
дотрогиваться (4:24), дотронуться (4:87), доходить (5:385),
дошел (4,610); касаться (5:438), унизиться (4:17).
НАД — 29 глаголов: висеть (4:52), возвышаться (4:20),
глумиться (4:14), издеваться (5:59), нагнуться (4:54),
надругаться (4:20), наклониться (4:39), насмехаться (4:21),
подсмеиваться (5:48), подтрунивать (5:46), подшучивать (4:21),
посмеиваться (4:32), посмеяться (4:61), потешаться (4:22),
сжалиться (4:47), склониться (4:23), смеяться (5:410),
трунить (4:23), тяготеть (4:17).
ПЕРЕД — 20 глаголов: благоговеть (5:56), извиниться (4:41),
извиняться (4:24), останавливаться (4:88), остановиться (4:206),
предстать (4:42), преклоняться (4:14), стоять (4:301).
Среди глаголов, перечисленных в этом параграфе, высока доля глаголов на ‑ся (более 40%). Не связано ли это с самим фактом предложного управления? Обратимся теперь к более узкому кругу глаголов без частицы ‑ся/сь.
Одиннадцать частых местоименных слов обнаружили статистическую связь с предшествующими глаголами без ‑ся.
ЕГО (1254) S=43 ВАС (191) S=17 ИХ (312) S=8
ЕЕ (767) S=31 СВОЮ (208) S=15 НАС (93) S=7
МЕНЯ (723) S=36 СВОИ (205) S=13 ВСЮ (53) S=6
СЕБЯ (454) S=25 ЭТУ (49) S=5
Поступим так же, как и в случае с предлогами: найдем статистически значимые сочетания слов с глаголом в левой позиции (не меньше трех разных форм) и с местоимением из вышеприведенного списка. Обнаружено 240 подобных «переходных» глаголов. Два глагола (заставить и любить) сочетаются с шестью разными местоимениями, три глагола (называть, оставить, считать) — с пятью местоимениями, десять глаголов — с четырьмя местоимениями (встретить, заставлять, остановить, полюбить, провожать, просить, слушать, схватить, успокоить, утешать). С тремя местоимениями сочетаются 27 глаголов, с двумя — 52 глагола. Наконец, только с одним местоимением сочетаются 146 глаголов. Семантическая лингвистика обнаружила бы только одну ошибку.[37]
Начальный список переходных глаголов: берет, беречь, беспокоить, благодарить, благословить, бранить, бросать, бросить, ввести, вести, взять, видать, видеть, винить, влечь, возьми, волновать, воображать, вообразить, встретить, встречать, вывести, выдавать, вызвать, выказать, выпускать, выпустить, выражать, выслушать, гладить, губить, давить, держать, довести, догнать, дразнить, душить, ждать, задержать, занимать, запереть, заставить, заставлять, застать, защищать, звать, знать, зовут, избавить, избавлять, извинить, извещать, иметь, интересовать, исполнить, класть, кормить, ласкать, лишать, лишить, ловить, любить, мучать, мучить, навести, назвать, называть, научить, ненавидеть, обвинить, обвинять, обеспокоить, обмануть, обманывать, обнимать, обними, обнять, обречь, обхватить, огорчать, огорчить, ожидать, окончить, окружать, осенять, оскорбить, оскорблять, оставить, оставлять, останавливать, остановить, отвести, отдать, отпускать, отпустить, отталкивать, оттолкнуть, охватить, перебивать, перебить, перекрестить, переломить, пересилить, поблагодарить, повести, погубить, подвергать, поддержать, поднять, пожалеть, позвать, поздравить, познакомить, поймать, показать, покидать, покрывать, покрыть, положить, полюбить, помнить, понять, поправить, поправлять, попросить, поражать, поразить, посадить, посвятить, посетить, посещать, поставить, постигнуть, потрепать, поцеловать, почитать, почувствовать, предъявлять, презирать, прервать, прерывать, преследовать, привести, приветствовать, приводить, пригласить, приглашать, прижать, приласкать, принимать, принудить, принять, приучить, провести, проводить, провожать, прогнать, продолжать, прозвать, просить, простить, пугать, пускать, пустить, разбудить, развивать, развлекать, разделять, раздражать, раздражить, разлюбить, раскрыть, расспрашивать, ревновать, сбить, сблизить, сдержать, сдерживать, сжимать, скрывать, слушать, смутить, смущать, снабдить, сознавать, сознать, сопровождать, спасти, спать, спрашивать, спросить, ставить, схватить, считать, толкать, толкнуть, томить, тревожить, тронуть, тянуть, убедить, убеждать, убить, уважать, увезти, уверить, уверять, увести, увидать, увидеть, увлекать, увлечь, уговаривать, уговорить, угощать, ударить, ударять, удержать, удерживать, удивить, удостоить, узнать, укорять, умолять, упрашивать, упрекать, упросить, усадить, успокаивать, успокоивать, успокоить, утешать, утешить, учить, хвалить, хватать, хотеть, цаловать, целовать, чувствовать.
Ниже следуют характерные сочетания: встретить его (3:236), заставить меня (4:166), заставлять его (3:140), любить вас (3:276), называть ее (4:180), оставить его (3:165), остановить его (4:293), полюбить его (3:112), провожать меня (3:42), просить вас (5:789), слушать его (3:377), схватить его (4:260), считать себя (4:404), успокоить ее (3:70), утешать ее (3:48), чувствовать себя (5:625).
Со списком переходных глаголов частично пересекается список «психологических» глаголов, ассоциированных с правым соседом — что:[38]
божиться (2:30), бояться (2:245), верить (3:364), видеть* (5:2692), воображать* (4:213), вообразить* (2:72), вспомнить (4:524), говорить (4:5105), догадаться (4:438), догадываться (3:138), доказать (4:298), доказывать (4:258), докладывать (2:50), доложить (3:199), думать (5:3627), жаловаться (2:96), забывать (3:153), забыть (2:222), заключить (3:143), заметить (4:1651), замечать (4:444), знать* (5:8169), казаться (4:1669), надеяться (4:559), находить (4:415), нашел (3:223), обрадоваться (2:80), объявить (4:784), объявлять (3:80), объяснить (3:250), ожидать* (3:284), отвечать (2:441), писать (2:234), поверить (3:187), подозревать (4:249), подумать (4:702), пойми (3:154), показать* (2:209), показывать (2:156), полагать (4:912), помнить* (3:500), понимать (4:1303), понять* (4:1259), посмотреть (2:240), почувствовать* (4:549), предвидеть (2:38), предполагать (3:131), предположить (3:116), предчувствовать (3:154), прибавлять (2:47), признаться (3:167), притвориться (3:47), притворяться (2:55), радоваться (3:128), рассказывать (3:331), рассчитывать (2:53), решить (3:342), сдаваться (3:67), сказать (4:4641), сказывать (3:284), слышать (3:406), смекнуть (3:46), согласиться (3:176), сожалеть (3:77), сознавать* (4:248), сознаваться (3:53), сознаться (4:187), сообразить (3:201), убедиться (4:488), убеждаться (3:63), уверить* (3:70), уверять* (4:469), увидать* (3:312), увидеть* (4:885), угадать (2:45), узнать* (4:1247), услыхать (3:91), утверждать (4:383), чувствовать* (5:1741).
Оказались связанными с глаголами и 7 частых местоименных слов, которые, как было показано в 4.1.1.1, подчинены предлогам к и по, и значит, выступают прообразом первого («дательного») падежа (см. табл. 4.7).
ЕМУ (776) ВАМ (221)
МНЕ (429) СВОЕМУ (95)
ЕЙ (374) НАМ (108)
СЕБЕ (364)
С данными местоимениями ассоциированы 82 глагола, предполагающие присутствие двух лиц, сопричастных какому-то действию.
Ядром этого класса глаголов является словообразовательное гнездо с корнем ДА‑[39]: давать (4:811), дать (5:3096), доставить (3:111), отдать (3:276), передать (3:255), подавать (3:237), подарить (3:143), подать (4:658), придать (3:70); сюда же относятся глаголы речевой коммуникации: говорить (3:2082), задавать (3:70), объяснить (3:340), отвечать (3:888), отказать (3:123), рассказать (4:647), сказать (4:4087), сообщить (3:190), шепнуть (3:43); слова этикета - протянуть (руку) (3:217). Находим здесь и «психологические» глаголы: вообразить (3:163), вспомниться (3:69), думалось (3:108), напоминать (3:141), напомнить (4:192), показаться (3:562), представить себе (5:200) и себе представить (5:322).
Такие семантические центры притяжения можно заметить в следующем списке глаголов: велеть (2:221), возвратить (2:48), возражать (2:50), возразить (2:168), воображать (2:52), вообразить (3:163), вручить (2:31), вспоминаться (2:17), вспомниться (3:69), вторить (2:29), говорить (3:2082), давать (4:811), дать (5:3096), доказать (2:59), доставить (3:111), доставлять (3:98), думалось (3:108), задавать (3:70), задать (2:41), казаться (2:664), кусать (2:23), мешать (3:258), налить (2:48), написать (2:197), напоминать (3:141), напомнить (4:192), обещать (2:92), объявить (2:127), объяснить (3:340), опротиветь (2:15), ответить (2:262), отвечать (3:888), отдать (3:276), отказать (3:123), отказывать (2:25), передать (3:255), повиновался (2:31), погрозить (3:41), подавать (3:237), подарить (3:143), подать (4:658), подставить (2:24), пожать (2:109), позволить (3:1102), позволять (4:314), показать (3:383), показаться (3:562), показывать (2:116), поклониться (3:200), помешать (2:68), помогать (3:123), помочь (4:402), поручить (3:85), потереть (3:40), потирать (2:24), предлагать (2:99), предложить (3:183), представить (4:590), представиться (3:78), представлять (2:139), представляться (3:238), придавать (2:100), придать (3:70), приказать (2:116), принести (2:186), присвоить (2:14), прислать (2:99), протягивать (3:94), протянуть (3:217), рассказать (4:647), рассказывать (2:207), растолковать (2:43), сказать (4:4087), совать (2:17), сообщить (3:190), составить (3:149), сшить (2:27), указать (2:152), усвоить (3:49), уяснить (3:38), шепнуть (3:43).
Два частых слова показали связь с предикативами:
ЛИ (292) предикатив S=15 велик ли... (3:33), доволен ли... (3:45),
жив ли... (4:108), здоров ли... (4:144), хорош ли... (3:53);
НО (268) предикатив S=14 некрасив... но (2:9), пьян... но (2:22).
Благодаря частому слову ЧЕМ еще раз подтверждается круг компаративов, предшествующих этому слову в тексте. С учетом левых индикаторов компаративов их общее число в обследованных сочетаниях возросло до 255, в т. ч. 182 слова с суффиксом ‑ее, 11 слов с исходом на ‑ей, из которых лишь одно не имеет аналога на ‑ее (еще тошней), и 62 компаратива с суффиксом ‑ше или с чередованиями в основе (при попытках соотнести их с регулярным адъективом). Список нерегулярных компаративов приводим полностью: больше, побольше/более, горше/горче, дальше, подальше/далее, дольше/долее, лучше, меньше/менее, раньше,пораньше/ранее, старше; моложе, позже, тверже, хуже; ниже, реже; дороже, строже; глубже; выше, краше; лише, суше, тише[40]; бойчее, громче, диче, жарче, жестче, жутче, звонче, короче, крепче, кротче, легче, ловче, мельче, мягче, неловче, резче, робче, шибче, ярче; богаче, круче; гуще, проще, толще, чаще, чище, почище; дешевле, иначе, тем паче, прежде, пуще, слаще, шире.
4.1.1.3.
Поиск конструкций в зоне слов средней частоты
При анализе частых слов были открыты некоторые конструкции, которые остаются в силе и при переходе к анализу среднечастотных слов. Самой важной из таких конструкций остается согласованная последовательность Adj + Sb «адъектив + субстантив» (см. табл. 4.7). Примеры в зоне слов средней частоты исчисляются тысячами[41]:
молодая актриса (3:3), лента алая (5:3),
запечатленного ангела (6:6), молодого барина (4:24),
батистовое белье (4:3), голубое небо (6:30),
карельской березы (6:6), веселой беседе (4:4),
полном беспамятстве (4:4), большом беспокойстве (4:6),
единому богу (3:4), больному месту (4:6),
головною болью (6:17), окладистою бородой (5:5),
рыжую бороду (5:6), открытую борьбу (4:4),
прюнелевые ботинки (6:3), смоляные бочки (5:3),
законный брак (6:35), чернобородый боярин (5:4),
ветряными мельницами (7:4), изящными манерами (5:6),
желтых мерлушек (6:5), усиленных мерах (5:3).
законным браком (7:35), толстым брюхом (5:4), молодым людям (5:70).
В п. 4.1.1.1 была открыта согласовательная конструкция
ОН -л (A) -ет/ит (A) -0 (C);
ОНА -ла (A) -ет/ит (A) -а (C);
ОНИ -ли (A) -ют/ят (A) -ы (C).
Зона слов средней частоты показывает множество субстантивов, аналогичных этим трем местоимениям. Отметим при этом, что только одна из форм субстантива (а именно пятый падеж из табл. 4.7) появляется в этой конструкции.
bb, bc = ОН
человек был (3:204), человек может (2:91), человек должен (3:55),
человек подал (2:12), человек ищет (2:7), человек слаб (2:5),
кто знал (2:24), кто знает (4:247), кто прав (2:14),
ветер дул (5:21), ветер дует (5:13), ветер силен (2:3),
воздух наполнился (4:5), воздух оглашается (5:5), воздух наполнен (3:3),
господь благословил (2:3),господь благословит (3:4), господь милосерд (3:3),
дух занимался (2:3), дух занимается (3:9), дух бодр (3:3),
бог послал (5:105), бог знает (6:1064),
барин приехал (3:17), барин едет (2:5),
генерал приказал (3:12), генерал спросит (2:3),
голос дрожал (3:9), голос дрожит (3:7),
город трещит (2:3), город велик (2:3),
князь приказал (2:11), охотник должен (3:11),
конь взвился (4:3), масон должен (2:4),
be-bh = ОНА
женщина была (2:42), женщина любит (2:11), женщина должна (3:21),
женщина стояла (2:7), женщина может (2:35), женщина способна (3:6),
вода сбыла (4:3), вода течет (3:3), вода тиха (3:3),
жена умерла (2:8), жена умирает (2:4), жена нездорова (2:3),
весна пришла (2:4), весна идет (2:4),
грудь волновалась (3:6), грудь болит (3:13),
дорога пошла (3:11), дорога идет (3:15),
книга была (2:14), книга лежит (2:3),
заря занималась (4:5), заря занимается (4:5),
земля дрожала (3:3), земля дрожит (3:5),
луна светила (6:13), луна светит (4:3),
кровь приливала (4:6), кровь приливает (4:4),
девушка замялась (3:3), девушка должна (2:7),
B pl. = ОНИ
губы дрожали (4:18), губы дрожат (3:3), губы сжаты (3:4),
двери отворились (4:14), двери отворяются (3:3), двери отворены (3:3),
женщины плакали (2:4), женщины плачут (2:3), женщины должны (2:7),
лошади бежали (4:14), лошади бегут (3:5), лошади готовы (4:20),
годы шли (3:11), годы идут (2:4),
вещи случаются (3:3), вещи разложены (3:3),
господа уехали (2:4), господа уезжают (3:3),
гости ушли (3:6), гости уходят (2:3),
ворота были (2:12), ворота заперты (5:21),
деньги нашлись (2:4), деньги найдутся (2:3),
деревья стояли (2:5), деревья стоят (2:3),
дети играли (2:5), дети играют (2:4),
кошки скребли (5:4), кошки скребут (6:6),
крестьяне любили (2:3), крестьяне называют (2:3),
кости болят (4:6), взятки гладки (6:10).
bc,bd = ОНО
дело было (3:356), дело идет (3:111), дело решено (2:9),
лицо выражало (3:10), лицо выражает (2:5), лицо бледно (2:6),
внимание обратилось (3:3), внимание обращается (2:3),
сердце билось (4:41), сердце бьется (4:24),
колесо завертелось (5:6),
время пришло (2:12), время терпит (3:14),
время летело (3:7), время летит (2:6), время дорого (2:15)[42].
Как и в случае с местоимениями глагол и субстантив могут меняться местами: наряду с вышеприведенными примерами находим:
говорил князь (2:56), говорила марья (3:40), говорили солдаты (2:6),
горел огонь (4:9), горела свеча (5:13), горели свечи (4:8),
дошел слух (3:4), дошли слухи (4:14),
дошла весть (3: 4), дошли вести (3: 5),
входит лакей (4:20), входит марья (2:11),
вошел лакей (3:26), вошла марья (3:13),
вскричал толстяк (3:3), вскричала анна (3:11),
дул ветер (3:5), дует ветер (3:3),
брало сомнение (4:3), билось сердце (4:19).
В табл. 4.7 для единственного числа был зафиксирован шестой («винительный») падеж с характерным суффиксом ‑у/ю (в парадигмах be-bg) и с согласованным адъективом на ‑ую. Бинарные словосочетания переходного глагола с этой формой субстантивов очень обычны, ср. берет бумагу (3:8), берет фуражку (3:5), берет чашку (3:8), берет шляпу (4:25), бросил книгу (3:7), бросил службу (3:11), любил жену (2:8), любил музыку (3:11), благодарил судьбу (3:4). Сочетаясь с переходными глаголами, субстантивы других парадигм выбирают пятый («именительный») падеж: берет деньги (3:20), берет самовар (2:5), берет стакан (3:10), берет хлеб (2:5), берет перо (2:4), берет письмо (2:9); бросил вожжи (2:3), бросил университет (2:3), бросил перо (2:4), встретил взгляд (2:6), любил почет (2:3), узнал голос (3:19), купил имение (3:6), кусал губы (4:8). Во многих случаях, однако, вместо пятого находим третий («родительный») падеж; бросив лошадей (2:4), встретил брата (2:4), благодари бога (4:13), встретил гостей (2:4), встретил гостя (2:4), узнала графа (2:3), любил птиц (2:3), любил женщин (2:7). Семантическая лингвистика постулирует здесь винительный падеж, совпадающий с именительным падежом (у неодушевленных существительных) или с родительным падежом (у одушевленных существительных). В рамках ДСА фиксируем наличие двух классов субстантивов, отказываясь пока от их семантической интерпретации.
Глагольное управление тем или иным падежом наблюдается как с местоимениями, так и с субстантивами средней частоты: дал ему (4:245), дал мальчику (3:5), дал ямщику (2:3), объявила ему (3:39), объявила мужу (3:5), приказал ему (3:42), приказал кучеру (4:9), приказал лакею (3:4), приношу вам (3:14), приносили батюшке (4:3), рассказал ей (4:77), рассказал брату (2:5), рассказала матери (2:4), скажи мне (4:219), скажи барыне (2:5), скажу отцу (2:6).
В зоне слов средней частоты открываются некоторые согласовательные конструкции субстантивов (все с жестким порядком слов, не допускающим инверсии).
Слова парадигмы bk следуют за некоторым кругом слов парадигм ba и bb и очень немногими словами парадигмы be[43]. Важно отметить при этом, что основы слов в левой позиции фигурируют и как основы правых слов. Как правило, бинарные сочетания этого типа показывают очень высокие значения ln S. Примеры исчисляются многими сотнями: алексей александрович (6:393), алексея александровича (7:117), алексее александровиче (6:6), алексеем александровичем (6:18), алексею александровичу (7:41); адам адамович, адама адамовича, адам адамыч; аким акимович, Аким акимыч, акима акимыча, акимом акимычем, акиму акимычу; иван алексеевич, ивана алексеевича, иваном алексеевичем, ивану алексеевичу; федор кондратьевич, федора кондратьевича, федору кондратьевичу, федор кондратьич; кузьма васильевич, кузьму васильевича, кузьмы васильевича; лука иванович, луки ивановича, луку ивановича; иван антоныч; Богдан богданыч; павлин павлиныч; пров викулыч; карл карлович; Петр ипполитович; прохор порфирыч; харитон игнатьевич, фирс григорьевич.
Тот же набор основ видим в словах парадигмы bl, чьи левые соседи принадлежат парадигмам be-bh: марья александровна (6:266), марье александровне (5:23), марьей александровной (4:4), марью александровну (6:26), марьи александровны (6:44); надежда алексеевна, надежде алексеевне, надеждой алексеевной, надежду алексеевну, надежды алексеевны, анна аркадьевна, анне аркадьевне, анны аркадьевны; прасковья ильинична, варвара ильинишна, пелагея кузьминична, арина кузьминишна, лукерья кузьминишна, марфа борисовна, евпраксия арсентьевна, олимпиада артамоновна, клеопатра григорьевна, пальмира карловна, скорпиона аспидовна.
К этим двум конструкциям («именам с отчествами») близка конструкция с тем же самым кругом антропонимов в левой позицией и с очень широким кругом слов (парадигмы cd) в правой позиции. Так же, как и в двух вышеназванных конструкциях, происходит согласование в падеже и «роде»: константина аксакова (4:4), константину Аксакову (5:3), константином аксаковым (5:3); аполлон григорьев (4:4), аполлона григорьева (5:3). Обнаружено несколько тысяч бинарных сочетаний подобного типа, ср. борис годунов (4:7), федора басманова (4:3), анатоль курагин (5:7), денис давыдов (6:10), марк волохов (5:10), евгения онегина (5:5), лука благоприобретов (6:13), секлетея бурдалахова (7:3). К адъективам парадигмы cd присоединяются и другие адъективы, особенно с исходом на ‑ский: иринарх отлукавский (6:4), маргарита оленевская (5:8). Соединение двух конструкций ведет к появлению антропонимических троек: михайло дмитрич бальзаминов, константин дмитрич левин, павла николаевича горданова, карп алексеич морковкин.
В
согласовательные антропонимические конструкции втягиваются и другие
«социальные» субстантивы, ср. мистер астлей (7:69), мистеру астлею (8:13),
мистера астлея (7:15), мистером астлеем (7:6). Подобных сочетаний
в изучаемом поле наблюдения насчитываются многие сотни: граф безухов, граф
бенигсен, граф бенкендорф, граф брюс, граф вронский, граф гурко, граф
закревский, граф кочубей, граф орлов, граф растопчин, граф ростов, граф
скабронский, граф толстой, граф хвостиков; графиня безухова; князь багратион,
князь болконский, князь василий,
князь мышкин, князь оболенский, князь оболдуй-щетина-ферлакур; княгиня дашкова; княжна варвара; боярин морозов; боярыня годунова; господин бальзаминов, господин бурдовский, господин ворошилов, господина поручика, господина олухова, госпожа олухова, madame олуховой. В церковном и монастырском обиходе к этому типу принадлежат сочетания «семейных» слов с именем, взятым из святцев (без отчеств и фамилий): отец василий, маркел, мельхиседек, мисаил, михаил, михей, никанор, никита, никифор, никола, николай; мать макрина, меропея, мать/матушка манефа, маргарита, назарета; сестра серафима, феоктиста. Впрочем, любой субстантив, соединяясь с антропонимом (или топонимом) в такой конструкции согласуется с ним в падеже и «роде»: художника боровиковского (5:3), кот васька (4:3), кучера василья (3:5), скотница василиса (4:3), генеральша вихиорова (4:3), девица подзатылкина (5:5), город глупов (3:7). Неизменяемые субстантивы, естественно, не могут продемонстрировать согласование: mademoiselle лебядкина, m-lle прыхина, m-lle прыхиной, m-lle прыхину, mademoiselle прыхиной, катишь прыхиной.
Среди согласовательных конструкций особое положение занимают сочетания с который, согласуемые с левым субстантивом в числе и роде (но не в падеже). Правое слово которая следует за всеми пятью падежными формами слов женщина, ‑е, ‑ой, ‑у, ‑ы (4:193), дама (3:46), девушка (3:89); за четырьмя формами слов жена, сестрица, сила; за тремя формами слов баба, девица, молодежь, старуха, толпа, улыбка, француженка, хозяйка.
Правое слово которое следует за всеми пятью падежными формами слов дело, ‑а, ‑е, ‑ом, ‑у (3:109), лицо (3:118), место (3:62), чувство (4:166), впечатление (4:67), за четырьмя формами слов общество, существо, за тремя формами слов выражение, направление, письмо, спокойствие, счастие/ье.
Правое слово который следует за всеми пятью падежными формами слова человек, ‑а, ‑е, ‑ом, ‑у (5:778), за четырьмя формами слов господин, доктор, мальчик, офицер, за тремя формами слов взгляд, запах, муж, мужик, народ, отец, ребенок, старик.
Правое слово которые следует за всеми пятью падежными формами слова люди, ‑ей, ‑ьми, ‑ям, ‑ях (5:596), за четырьмя формами слов вопросы, деньги, мысли, за тремя формами слов вещи, господа, дети, книги, лица, натуры, письма, предметы, сведения, слова, средства, тысячи, условия, фразы, чувства.
Согласовательные конструкции не исчерпывают всего многообразия типов словосочетаний, обнаруживаемых в зоне слов средней частоты. Среди глагольных конструкций исключительное значение имеет последовательность одной из шести форм глагола БУДЕТ (будем, будете, будешь, буду, будут) + «инфинитив»[44]. Зафиксировано 636 сочетаний с БУДЕТ в левой позиции, в 462 сочетаниях за ним следует инфинитив какого-либо глагола, соответствующее S = 83. Значение S было бы еще больше, если бы при расчете математического ожидания были исключены инфинитивы с префиксами, не встречающиеся после БУДЕТ. Примерами таких сочетаний служат: будет жить (3:120), будем говорить (4:78), будете иметь (4:37), будешь знать (3:33), буду просить (4:76), будут судить (3:14). Инверсия возможна, но S при этом = 5, ср. судить будут (3:11).
О разнообразии слов, появляющихся слева от инфинитива, можно судить по глаголам, предшествующим слову бежать:
хотел бежать (3:24) решился бежать (3:11) пускается бежать (4:5)
хотела бежать (3:18) удалось бежать (2:4) пустился бежать (5:24)
хочет бежать (3:15) бросился бежать (4:41) ударился бежать (4:7)
хочу бежать (2:9).
С позиций семантической лингвистики здесь можно заметить две группы левых слов:
— слова с большей или меньшей модальностью: готов сделать (3: 20), должен сказать (3:103), должен сознаться (5:51), должен оговориться (4:7), должна идти (3:18), должно полагать (4:35), должны знать (3:43), изволили пожаловать (5:20), изволите видеть (5:182), извольте получить (4:23), желая переменить (4:14), мог понять (5:224), мог заснуть (5:65), может случиться (5:144), может показаться (4:50), надеялся найти (4:13), надобно заметить (4:37), надобно сказать (4:101), обещал приехать (4:14), постарался смягчить (4:3), приказал подать (3:11), пришлось поплатиться (4:4), следует ожидать (3:8), смел ослушаться (4:4), старалась скрыть (4:17), собирался ехать (4:19), хотел идти (3:56), хотел сказать (4:295), хотелось поговорить (4:34), захотелось узнать (3:10);
— фазовые глаголы: перестала плакать (4:15), стал прислушиваться (5:61), стал глядеть (4:65), стал читать (4:129).
Заметим, что некоторые словосочетания имеют такую неслучайно высокую частоту, что заставляют думать о них как об особых лексических единицах:
стало быть (6:2427) может быть (7:8824)
должно быть (6:2246) быть может (5: 910).
Многие тысячи словосочетаний представлены в конструкции Sb + Sbgen: ДЕНЬ ангела (3:19), ЛИЦО анны (3:28), ПРАВИЛО арифметики (4:9), НАЧАЛЬНИК артиллерии (4:10), КИПА ассигнаций (5:7), ПАЧКА ассигнаций (8:36), УПРАВА благочиния (9:27), РАСПРЕДЕЛЕНИЕ богатств (6:10), КИПА бумаг (6:22), ЛИСТ бумаги (5:116), ДУНОВЕНИЕ ветра (5:7), ПОРЫВ ветра (5:12), КУСОК ветчины (4:8), ОКОРОК ветчины (6:9), ПОРЯДОК вещей (5:74), БУТЫЛКА вина (5:69), РЮМКА вина (4:50), СТАКАН вина (5:54), РЮМКА водки (7:197), ПОВЕРХНОСТЬ воды (5:57), БЕРЕГ волги (5:49), СИЛА воли (4:87), ПРЯДЬ волос (6:29), ВЕЯНИЕ/ЬЕ времени (4:16), КЛАСС гимназии (5:12), УЧИТЕЛЬ гимназии (3:12), ВЫРАЖЕНИЕ глаз (3:37), КУСОК говядины (4:12), ЗВУК голоса (4:44), ИНТОНАЦИЯ голоса (3:9), ТОН голоса (3:29), ПРИЕЗД графа (4:20), РАСКАТ грома (4:19), УДАР грома (5:24), УГОЛ губ (4:30).
Некоторые левые субстантивы в большой степени прогнозируют форму родительного падежа справа, ср. ОБРАЗ действий (5:29), ОБРАЗ действия (5:24), ОБРАЗ жизни (6:162), ОБРАЗ мыслей (6:141); ЧУВСТВО благодарности (4:30), ЧУВСТВО брезгливости (4:10), ЧУВСТВО деликатности (3:6), ЧУВСТВО долга (4:32), ЧУВСТВО досады (3:15), ЧУВСТВО жалости (4:21), ЧУВСТВО зависти (4:26), ЧУВСТВО злобы (3:14), ЧУВСТВО любви (3:65), ЧУВСТВО отвращения (4:19), ЧУВСТВО ревности (3:16), ЧУВСТВО сожаления (3:11), ЧУВСТВО сострадания (4:25), ЧУВСТВО страха (3:34), ЧУВСТВО стыда (3:23), ЧУВСТВО ужаса (3:14), ЧУВСТВО умиления (3:13).
Инверсия слов в этой конструкции встречается очень редко, ср. поручика гвардии (3:3), но гвардии поручик (3:3), гвардии поручиком (4:3).
К конструкции Sb + Sbgen близка еще одна конструкция, где Sbgen сочетается с каким-то количественным словом вроде тех, что указаны выше. Следующие количественные слова сочетаются с Sbgen, стоящим как в форме Sg, так и в форме Pl: много горя (3:26), много пользы (3:14), много недостатков (3:8), много хлопот (4:36), много денег (3:90), несколько бутылок (3:14), несколько визитов (3:10), несколько времени (5:728), сколько времени (4:104), сколько зим (4:14), столько времени (4:49), столько горя (2:7). Следующие количественные слова сочетаются с Sbgen, стоящим только в форме Pl: восемнадцать лет (5:44), восемь гривен (5:23), двадцать верст (4:27), двенадцать бутылок (3:4), двести душ (4:14), девятнадцать лет (4:24), девять месяцев (5:27), десять минут (5:141), десять часов (5:168), пятнадцать годов (4:15), пять рублей (5:279), пятьдесят копеек (5:30), семь пятниц (5:5), семьсот рублей (5:46), сорок копеек (4:22), сто душ (4:15), тринадцать лет (4:28), триста душ (5:23), четыреста франков (4:7), шесть недель (5:63), шесть пенсов (4:3).
Напротив, слова три и четыре допускают Sbgen, стоящее только в форме Sg: три месяца (5:205), три раза (5:314), три рубля (5:162), четыре часа (5:160), три короба (5:26), три ручья (4:20), три четвертака (4:6), четыре человека (3:42), три окна (3:30), четыре блюда (3:5), три недели (5:134), три четверти (5:51), четыре стороны (4:86), три версты (4:28), три погибели (4:24), три дочери (3:20), четыре копейки (3:7). Это же ограничение распространяется на слова два, оба, полтора с добавочной необходимостью согласования по «роду» (две, обе, полторы при согласовании с женским родом): два раза (6:743), два года (5:564), два дня (5:488), два месяца (5:297), два пальца (5:59), два часа (5:381), два шага (5:86), два письма (4:69), два слова (4:189), два ведра (3:16), два окна (3:34), два орудия (3:13), оба брата (4:36), оба локтя (4: 8), оба приятеля (4:34), полтора года (5:89), полтора рубля (5:38); две недели (6:461), две пары (5:42), две трети (5:29), две бутылки (4:37), две капли (4:44), две комнаты (4:64), две копейки (4:36), обе руки (5:324), обе дамы (4:48), обе девушки (4:21), обе женщины (4:31), обе сестры (4:24), обе стороны (4:102), полторы тысячи (6:99), полторы недели (4:17).
Если перед Sbgen стоит адъектив, то он обязательно стоит в форме Pl, но в падежной форме наблюдаются колебания: два большие (2:21), два больших (3:17), два маленькие (2:11), два маленьких (2:7), два молодые (2:17), два молодых (3:21), два новые (2:11), два новых (2:13), оба эти (3:43), обе свои (2:17), две старшие (4:12), три главные (3:9), три земных (3:8), три сторублевые (3:4), четыре больших (2:4), четыре маленькие (2:7), четыре небольшие (2:3), пять небольших (3:5).
Благодаря «количественной конструкции» перед нами открылся субстантивоподобный класс числительных (Num), а сама конструкция теперь может быть записана как Numnom (+ Adjpl) + Sbgen. В тех случаях, когда синтаксическое окружение не требует именительного падежа, эта конструкция преобразуется в Numсогл (+ Adjpl) + Sbpl. Примерами могут служить (ln S > 2): восемью годами, восьми гривен, восьми дней, восьми лет, восьми тысяч, восьми тысячах, восьми часам, восьми часов, двадцати верстах, двадцати лет, двадцати рублей, двадцати рублях, двадцати шагах, двадцати шагов, двадцатью годами, двенадцати часам, двенадцати часов, двенадцатью человеками, двум человекам, двумя неделями, двумя пальцами, двумя пальчиками, двумя перстами, двух верст, двух верстах, двух комнат, двух комнатах, двух окон, двух пальцах, двух перстах, двух шагах, двухсот верст, двухстах верстах, девяти часам, девяти часов, десяти рублей, десяти рублях, многим причинам, многими опытами, многих лиц, многих лицах, нескольким словам, несколькими словами, нескольких десятках, нескольких десятков, нескольких строк, нескольких строках, одиннадцати часам, одиннадцати часов, пяти тысяч, пяти тысячах, пяти часам, пяти часов, пятистах шагах, семи пядей, семи часам, семи часов, семью замками, семью печатями, сорока верст, сорока верстах, ста рублей, ста рублями, стольких лет, трем мостам, трем часам, тремя грациями, трех граций, трех тысяч, трех тысячах, шести часам, шести часов.
Инверсия в «количественной конструкции» весьма обычна: раза два (6:477), раза три (4:130), года два (4:118), года три (4:87), месяца два (4:91), недели две (5:124), верст сорок (4:16), сажен сто (4:9), лет двадцать (4:124), лет десять (4:88), лет пять (4:88).
4.1.1.4.
Поиск аномалий в конструкциях
Полученные в предыдущих параграфах конструкции иногда обнаруживают любопытные исключения. Самый простой случай сводится к омонимии.
Как мы видели, слово о является предлогом и управляет четвертым («предложным») падежом адъектива или субстантива. В нашем пуле словосочетаний после о обнаруживаем 1187 разных слов, подавляющее большинство которых (98%) согласуется с требованиями данной конструкции. Есть, однако, 25 словосочетаний, отступающих от этих правил. В случае о иринарха ответ ясен — в исходном тексте (с неснятой пунктуацией) после о стоит точка, и следовательно о. = отца. В примечании 32 говорилось о винительном падеже после в и на, сочетания о землю, о сю, о ту подтверждают такую интерпретацию, хотя причину выбора винительного падежа (наличие «динамического» глагола) нельзя выяснить в рамках минимального интервала. Вполне возможно, что сюда же следует отнести сочетания о бок, о камень, о камни, о пол, о половик, о полы. Остается еще 18 сочетаний, где о никак не может быть признано предлогом и должно быть объявлено омонимом: о боже (4:191), о господи (3:138), о если (2:133), о нет (2:285), о ужас (3:33), о черт (2:47), о вей, о гоп, о зевес, о лебядь, о мейн, о мон, о пассе, о помилуйте, о счастье, о треклятая.
Среди 250 сочетаний, где правым словом выступает было, находим 41 сочетание, никак не укладывающееся в согласовательные схемы глагола было: хотел, ‑а, ‑и было (4:790), начал, ‑а было (4:552), чуть было (4:225), вздумал, ‑а, ‑и было (3:66), попробовал, ‑а было (3:52), пробовал, ‑а, ‑и было (3:45), попытался, ‑ась, ‑ись было (3:30), полез, ‑ла было (3:16), бросился, ‑ась было (2:55), принялся было (2:42), взялся было, возразил было, завела было, заикнулся было, залепетал было, затянул было, зачал, ‑а было, направился было, пошел было, протянул было, пустился было, пытался было, рискнул было, собрался, ‑ась было, стал было, сунулся было, столкнулся было. Слово было в этих сочетаниях можно трактовать как омоним глагольной формы было.
В табл. 4.7 суффикс адъективов ‑ый/ой коррелировал с именительным падежом парадигм ba, bb. В п. 4.1.1.3 обнаружена связь этой формы с суффиксами ‑л глагола и с нулевым суффиксом предикатива. При этом обнаруживается любопытная аномалия: точно такое же согласование обнаружено у некоторых слов парадигм be-bg (вместоожидаемого согласования с суффиксами ‑ая адъектива, ‑ла глагола и ‑а предикатива. Хорошим примером служит слово мужчина: мужчина здоровый (3:4), мужчина который (2:14), жирный мужчина (3:3), изящный мужчина (3:3), коренастый мужчина (3:4), красивый мужчина (4:21), неизвестный мужчина (3:3), плешивый мужчина (3:3), плотный мужчина (4:6), пожилой мужчина (3:6), полный мужчина (3:7), статный мужчина (4:6), стройный мужчина (3:3), худощавый мужчина (4:6), вошел мужчина (3:10), мужчина должен (2:8). Ср. также твой дедушка (3:10), дедушка мой (2:17), дедушка закричал (2:6), дедушка нездоров (3:3), дедушка умер (2:4); сказал дядюшка (2:12); двоюродный дядя (3:5), вскричал дядя (4:44), отвечал дядя (3:33), поддакнул дядя (3:4), дядя был (2:26), дядя злился (3:6); сказал папа (2:17); деревенский староста (4:4), сельский староста (5:9), церковный староста (4:7); мировой судья (6:22), совестный судья (5:6), уездный судья (3:4). Особенно много таких слов среди антропонимов: сказал алеша, сказал балага, сказал васенька, проговорил вася, сказал володя, сказал илья, сказал лаврушка, выговорил лука, сказал лукашка, сказал митроха, сказал митька, проговорил митя, выговорил михалка, проговорил миша, сказал никита, сказал петя, сказал пила, воскликнул помада, сказал сапега, сказал сережа, сказал хлопуша, сказал чика.
Таким образом, доказано существование в русском языка морфолого-синтаксического мужского рода. К этому же классу относится еще одно слово с уникальной парадигмой (чем-то средним между bh и bb) — это слово путь, подтверждаемое 52 сочетаниями — возвратном пути (6:43), обратный путь (6:39), обратном пути (6:35), счастливого пути (5:39), дальний путь (5:21), дальнейший путь (5:11), млечный путь (5:7), зимнему пути (5:7), истинный путь (4:11), жизненный путь (4:8), санного пути (4:3), верный путь (3:5) и т. п.
Особенно много аномалий обнаружено в парадигмах «мужского склонения» (ba, bb). Рассмотрим сначала субстантивы, появляющиеся после предлогов в и на. В п. 4.1.1.1 в качестве суффиксального коррелята этих предлогов был выделен ‑е, в табл. 4.7 находим особый («предложный») с тем же суффиксом в парадигмах ba, bb. Но ровно в таких же сочетаниях появляется суффикс -у. Нарастание доли ‑у ясно видно с следующем списке (в скобках дается частота — сначала суффикса ‑е, потом суффикса ‑у): на двор-е/у (1101-1), на свет-е/у (1714-9), в свет-е/у (402-2), в голос-е/у (440-1), на вечер-е/у (85-1), в город-е/у (1275-50), в дом-е/у (2273-118), в мир-е/у (565-52), на песк-е/у (48-2), в живот-е/у (37-1), в комод‑е/ю (13-1), на дуна‑е/ю (12-1), на костр‑е/у (10-1), в герб-е/у (7-1), на погреб-е/у (7-1), на шест-е/у (6-1); на остров-е/у (105-20), на бал-е/у (133-37), в род-е/у (58-14), на мыс-е/у (11-2), на лист-е/у (10-3), на холм-е/у (10-3), в пост-е/у (8-2), на столб-е/у (4-2), на шкаф-е/у (4-1), в зно‑е/ю (3-1).
Явный баланс двух суффиксов видим в сочетаниях: в вид-е/у (745-489), в пот‑е/у (28-40), в цвет-е/у (21-12), в кра‑е/ю (17-10), в пруд-е/у (40-19), на пруд-е/у (9-12), в стан-е/у (5-5), в ворот-е/у (1-2), в дегт-е/ю (1-2), в жир‑е/у (1-1), на борт-е/у (1-1), в стог-е/у (2-4), на ветр-е/у (3-10), на круг‑е/у (1-3), на лужк‑е/у (1-3), в ча‑е/ю (1-4), в хлев-е/у (1-4), в шкаф-е/у (8-27), в шкап-е/у (4-19), в гроб-е/у (16-79).
В нижеследующих сочетаниях вариант ‑у доминирует: на плац-е/у (2-10), на ворот-е/у (2-11), на дуб-е/у (2-11)), в скит-е/у (9-53), в сок-е/у (1-6), в ад‑е/у (4-35), в ход-е/у (5-59), на корн-е/ю (1-12), на пир-е/у (2-26), в ряд‑е/у (3-46), на воз-е/у (2-32), в бо‑е/ю (1-20), в дым-е/у (2-41), в долг-е/у (3-72), в угл‑е/у (22-842), в круг-е/у (2-182), во рт‑е/у (1-189); наконец, мы оказываемся среди таких сочетаний, где наблюдается только ‑у, а суффикс ‑е не встретился совсем: в лесу (578), на полу (572), на берегу (460), на лбу (262), на краю (193), на ходу (159), в бреду (132), на виду (130), на носу (122), на лету (106), на мосту (83), в снегу (62), на роду (61), в раю (51), на боку (50), на лугу (48), на духу (47), на миру, в носу, на снегу (43), во лбу (37), в крыму (36), в чаду (34), в глазу (30), в пылу (29), на торгу (27), на валу (26), на льду, в пуху (22), на глазу, на низу, на смотру (21), на дону, на счету (18), на весу (15), в тылу (14), в шелку (13), на току, на юру (10), в боку, на плоту (9), в зобу, на меху, во рву, на ряду (8), в верху (7), во льду, на меду (6), на зобу, на слуху (5), на плесу, на чаю (4), на бору, на колу, на кусту, на посту, на суку (3), в вечеру, в возу, на горбу, на заду, в торгу (2), в воску, в зубу, на зубу, на мху, на смеху, на шляху, на шпилю (1).
Некоторые из сочетаний, где появляется ‑у, вероятно, окажутся особыми лексическими единицами (в виде, в виду, в миру, в цвету, на ходу, на виду, на духу, на весу, на юру), но если субстантиву с ‑у предшествует адъектив с суффиксом ‑ом, лексикализация бинарного сочетания исключается, и суффикс ‑у следует считать морфологической приметой субстантива. Сочетание в году встретилось 45 раз и не преодолело барьера неслучайности (ln S = 2), но этот барьер преодолели 39 сочетаний — 12‑м году (5:8), 1812‑м году (5:6), двенадцатом году (5:30), прошлом году (6:172), нынешнем году (5:43), запрошлом году (5:11), позапрошлом году (5:9), следующем году (4:7), будущем году (3:10) и т. п. Суффикс ‑у должен считаться показателем предложного падежа слова год. Такой же вывод сделаем относительно слова час. Сочетание в часу встретилось всего 6 раз, но 13 сочетаний демонстрируют крайнюю степень неслучайности — десятом часу (6:39), двенадцатом часу (5:36), втором часу (5:30), девятом часу (5:30), седьмом часу (5:30) и др. Вот еще несколько примеров крайне значимых сочетаний с ‑ом: противоположном берегу (5:16), южном берегу (5:10), левом боку (5:10), своем веку (6:125), сквозном ветру (6:8), царицыном лугу (6:8), кузнецком мосту (6:9), чужом пиру (5:9), голом полу (5:8), переднем углу (6:59), темном углу (5:41), дремучем лесу (5:11), охотном ряду (6:5), летнем саду (5:23).
По-другому обстоит дело с колебаниями в формах gen.sg в тех же парадигмах ba и bb. Тестовыми окружениями для поиска аномалий здесь служит целый ряд конструкций. Начнем с конструкции Prep + Sbgen, ограничимся лишь теми примерами, в которых превышен барьер (ln S = 2): без обман-а/у, без сахар-а/у, без смех‑а/у, без смысл-а/у, без спор-а/у, без спрос-а/у, без счет-а/у, без умолк‑а/у, без умысл-а/у; для моцион-а/у, для порядк-а/у, для шик-а/у; до век‑а/у, до верх-а/у, до отвал-а/у, до свет-а/у, до смех-а/у, до упад-а/у; из вид-а/у, из город-а/у, из дом-а/у, из лес-а/у, из род-а/у, из ряд-а/у; из-за лес-а/у; из-под нос-а/у, из-под пол-а/у, из-под снег-а/у; от ветр-а/у, от дом‑а/у, от жар-а/у, от жир-а/у, от испуг-а/у, от пот-а/у, от смех-а/у, от страх-а/у, от угар-а/у, от холод-а/у; после пожар-а/у, после ча-ю/я; со свет‑а/у, со страх-а/у.
Согласовательная конструкция Adj + Sb демонстрирует те же колебания: женского пол-а/у, купеческого род-а/у, одного раз-а/у, первого раз-а/у, последнего час-а/у. Оба варианта находим в конструкции Sb + Sbgen: КУСОЧЕК сахар‑а/у, множество народ-а/у, СТАКАН ча-ю/я, ЧАШКА ча-ю/я, стаканчик ром-а/у.
Самые разнообразные слова отрицания, начинающиеся на н‑, сочетаются с обоими вариантами: ни глас-а/у, ни привет-а/у, ни слух-а/у, отбо-ю/я нет, помин‑а/у нет, проход-а/у нет, нет спора, спору нет.
Варианты с ‑у преобладают в потенциально идиоматических сочетаниях: ни разу (6:666), со смеху (5:205), с толку (4:177), с виду (3:160), с глазу (4:141), от роду (4:130), до зарезу (4:16), духу твоего (4:17); но здесь нет оснований для приписывания субстантиву стандартного суффикса ‑у, как это было в предложном падеже со словами берег, лес, мост, год, час, пол, нос, лоб и т. п. Пожалуй, единственным приближением к такому случаю может считаться слово табак, у которого частоты форм табака и табаку соотносятся как 5 и 238, ср. запах табаку, трубку, щепотку, щепоть т.; жукова табаку, курительного, листового, турецкого, французского, нюхательного т., ПОНЮШКА табаку (6:7), ПОНЮХАТЬ табаку (4:38).
Тот же набор тестовых конструкций, к которым прибавляется Numnom (+ Adjpl) + Sbgen, позволяет правильно идентифицировать аномальную форму gen.pl. парадигмы ba. Хорошим примером служат формы солдат и глаз:
из солдат (2:47) из глаз (4:236)
с глаз (2:108)
несколько солдат (2:18) сто глаз (2:6)
отставных солдат (5:11) голубых глаз (4:18)
беглых солдат (4:8) блестящих глаз (4:11)
гарнизонных солдат (4:7) прекрасных глаз (4:15)
пехотных солдат (4:6) серых глаз (4:14)
пьяных глаз (4:10)
рота солдат (4:5) зрачки глаз (4:9)
кучка солдат (3:7) белки глаз (4:6)
ряды солдат (3:5) веки глаз (2:3)
отряды солдат (3:3) ВЫРАЖЕНИЕ глаз (3:37)
толпы солдат (2:5) блеск глаз (3:6)
лица солдат (2:8) отвода глаз (3:3)
В рамках минимального интервала загадочными остаются статистически максимально значимые сочетания ОТРЫВАТЬ глаз (6:23), ПОДНИМАТЬ глаз (5:106), СВОДИТЬ глаз (5:53), СМЫКАТЬ глаз (5:24), СПУСКАТЬ глаз (6:151). Только обратившись к трехсловным сочетаниям, мы обнаружим слово не перед нашими загадочными сочетаниями, откроем связь не с родительным падежом и правильно идентифицируем форму глаз, а заодно и другие формы в той же конструкции: покладая рук (4:3), отнимая рук (3:4), отрывая рук (3:3), раскрывал рта (4:5), разинуть рта (4:3), поднимая головы (4:38), подымая головы (3:7).
Согласовательная конструкция Adj + Sb и конструкция Sb + Sbgen позволяют правильно идентифицировать форму gen.pl. некоторых слов: седых волос (6:52), черных волос (5:20), конских волос (5:8), белокурых волос (5:6), курчавых волос (5:5), ПРЯДЬ волос (6:36), цвет волос (4:10), клок волос (4:5), локон волос (4:4); своих гусар (2:4); французских драгун (5:6), лаковых сапог (4:3), шерстяных чулок (5:4).
На «количественные слова» опирается открытие той же формы в словах алтын, аршин, раз: пять алтын (3:3), семь аршин (3:5), двух аршин (3:10); несколько раз (5:1139), тысячу раз (5:183), сколько раз (4:303), сто раз (4:147), десять раз (4:113), много раз (3:181), двадцать раз (3:46), столько раз (3:41).
Согласовательные конструкции самым естественным образом расщепляют грамматическую омонимию форм gen.sg. и nom.pl. в парадигмах bc-bh, зафиксированных в табл. 4.7:
веселого лица (2:4), веселые лица (2:5),
влиятельное лицо (4:5), влиятельные лица (3:4),
должностного лица (4:4), должностные лица (4:7),
загорелого лица (4:5), загорелые лица (4:6),
заемного письма (4:5), заемные письма (5:8),
законного права (3:4), законные права (4:6),
грубого слова (2:3), грубые слова (2:4),
военного судна (4:5), военные суда (4:7)[45],
дурного чувства (2:3), дурные чувства (2:3);
кисейного платья (4:4), кисейные платья (4:4),
духовного завещания (5:5), духовные завещания (4:3),
крестного знамения (5:4), крестные знамения (6:9);
бритой головы (3:3), бритые головы (4:5),
горничной девушки (2:3), горничные девушки (3:6),
дворовой девки (3:3), дворовые девки (4:7),
богатой невесты (4:9), богатые невесты (4:7),
двоюродной сестры (4:5), двоюродные сестры (4:5),
борзой собаки (5:6), борзые собаки (5:7),
легавой собаки (5:4), легавые собаки (5:4),
каменной стены (3:4), каменные стены (4:1),
крепостной стены (3:4), крепостные стены (3:4),
значительной суммы (5:7), значительные суммы (5:1),
воскресной школы (4:3), воскресные школы (5:5),
енотовой шубы (6:6), енотовые шубы (5:3);
боковой двери (5:2), боковые двери (3:3),
дубовой двери (3:3), дубовые двери (3:3),
затворенной двери (5:1), затворенные двери (4:3),
вороной лошади (4:10), вороные лошади (4:3),
заветной мысли (3:4), заветные мысли (3:5),
бессонной ночи (5:2), бессонные ночи (6:3),
каменной церкви (2:3), каменные церкви (3:4).
В отношении парадигмы ba эти конструкции откроют нам еще один суффикс nom.pl. ‑а:
женского голоса (3:6), женские голоса (4:11),
знакомого голоса (3:5), знакомые голоса (3:6),
молодого голоса (2:4), молодые голоса (2:5),
тихого голоса (3:4), тихие голоса (3:5),
человеческого голоса (2:4), человеческие голоса (3:4),
крутого берега (5:9), крутые берега (3:3),
зимнего вечера (3:5), зимние вечера (5:3),
осеннего вечера (3:3), осенние вечера (4:8),
того вечера (2:24), те вечера (2:8),
целого вечера (3:9), целые вечера (4:2),
дремучего леса (5:8), дремучие леса (5:7),
соснового леса (5:8), сосновые леса (4:5),
темного леса (3:3), темные леса (3:8),
такого мастера (2:3), такие мастера (2:5),
обшлаг рукава (5:6), широкие рукава (4:5),
одного края (3:1), чужие края (5:2),
зоркого глаза (3:4), зоркие глаза (3:5)[46].
Подведем итог работы ДСА в минимальном интервале. Русский язык обладает богатой морфологией. Каркас парадигматики был получен уже на стадии микроинтервала (набор парадигм и большие морфологические классы — глаголы, субстантивы и адъективы). На этапе минимального интервала появлялись некоторые важные конструкции, уточнялись парадигмы, вырисовывались важные функциональные сущности («грамматические категории» в терминах семантической лингвистики) — число, падеж, род. Формировались и некоторые дистрибутивные классы — предлоги, адвербы, компаративы, местоимения.
4.2. Минимальный
интервал в английском корпусе
Напомним, что эмпирическим полигоном для английского языка служили романы Диккенса (4080 тыс. словоупотреблений).
При бедной морфологии английского языка комбинаторика графических слов становится главным источником для построения грамматики. Результаты микроинтервала (т. 1, с. 131–137) не требуют ревизии. Следует упомянуть, однако, расширение круга основ за счет коротких (трехбуквенных) цепочек. Семантическая лингвистика без колебаний отнесла бы к глаголам основы с парадигмами ‑0, ‑ing, ‑s: buy‑, eat‑, lay‑, pay‑, say‑, see- и ‑e, ‑es, ‑ing: bit‑, com‑, give‑, hid‑, los‑, mak‑, rav‑, rid‑, ris‑, tak‑, wak‑. Наличие суффиксов ‑ed и ‑ing в парадигме заставляет считать глаголами add‑, bak‑, dar‑, din‑, div‑, err‑, dote‑, fix‑, gaz‑, hat‑, liv‑, mix‑, mov‑, ow‑, sav‑, sew‑, tax‑, tir‑, tow‑, wip‑, woo‑. С другой стороны, при том же наборе суффиксов учет сочетаемости слов говорил бы о сложной картине глагольно-именной омонимии, ср. ach‑, act‑, aid‑, aim‑, air‑, bor‑, bow‑, box‑, car‑, cow‑, end‑, ey‑, fac‑, fir‑, gam‑, hop‑, jok‑, lov‑, nam‑, not‑, trad‑, tun‑, us‑, vot‑, wav‑.
Полный набор четырех суффиксов ‑0, ‑'s, ‑s, ‑s' с несомненностью свидетельствует о субстантивности основ boy‑, cat‑, day‑, dog‑, girl‑, pig‑, к такому же решению ведет нас набор трех суффиксов ‑0, ‑'s, ‑ s у основ bar‑, bed‑, cab‑, god‑, inn‑, lad‑, pan‑, son‑, tea‑. Даже пара суффиксов ‑0, ‑'s даст нам характерные субстантивы bob‑, guy‑, john‑, kit‑, man‑, men‑, ned‑, paul‑, pope‑, sam‑, tim‑, tom‑ . В то же время показатель ‑'s у очень частых основ потребует совершенно другой трактовки в случае he's, how's, it's, now's, she's, what's, who's.
Сто сорок основ могут присоединять к себе суффиксы субстантивов ‑0 и ‑s, ср. ant‑, axe‑, bag‑, bat‑, cap‑, car‑, cup‑, ear‑, eel‑, egg‑, fan‑, foe‑, fog‑, gun‑, hat‑, hue‑, hut‑, jaw‑, joy‑, jug‑, key‑, law‑, leg‑, lip‑, log‑, lot‑, male‑, map‑, nut‑, oak‑, oar‑, pea‑, pew‑, pie‑, rag‑, sea‑, toe‑, war‑, way‑, web‑, wit‑, woe- и т. п. Но здесь же мы обнаруживаем примеры присоединения глагольных суффиксов ‑ed и –ing с удвоением конечной буквы основы: rib‑, rub‑, sob‑; bid‑, nod‑; beg‑, hug‑, lag‑, peg‑, tag‑, wag‑; hem‑, hum‑, jam‑, sum‑; pen‑, pin‑, run‑, sin‑, win‑; dip‑, hop‑, lap‑, rap‑, sip‑, tap‑, tip‑, top‑; fur‑, jar‑; bet‑, cut‑, get‑, hit‑, put‑, set‑, sit‑.
Несколько расширяется и круг адъективных основ с полным набором характерных суффиксов ‑er, ‑est и ‑ly: gay, low, new, odd, sly, ср. также older, badly, coyly, dimly, hotly, madly, sadly. Удвоение конечной буквы основы может наблюдаться и здесь: dimmer, hotter, madder.
Как и в русском корпусе, основой для грамматических выводов явятся статистически значимые (ln S > 2) бинарные сочетания слов. Корпус романов Диккенса (более 4 миллионов словоупотреблений) значительно уступает корпусу русской прозы, тем не менее число таких бинарных сочетаний (около 46 тысяч) достаточно велико для целей первоначального открытия грамматики.
4.2.1. Дистрибутивные классы частых слов
В п. 4.1 зона частых слов (далее — ЗЧС) включала 269 слов, покрывающих 46% всех словоупотреблений корпуса. В английском корпусе 200 самых частых слов покрывают 63% всех словоупотреблений — прямое свидетельство аналитизма английского языка. Если в русском корпусе анализ начинался с выявления связей между частыми словами и суффиксами слов средней частоты, то на английском материале попытаемся выявить сначала дистрибутивные классы в ЗЧС, и только потом перейдем к словам средней частоты. Тем самым мы продолжим старое исследование, описанное выше (т. 1, с. 53–66).
Суммарная информация о ЗЧС приводится в табл. 4.9, где используются следующие сокращения:
F — общая частота слова в корпусе;
NL — число статистически значимых бинарных сочетаний корпуса,
в которых слово занимает левую позицию;
NR — число статистически значимых бинарных сочетаний корпуса,
в которых слово занимает правую позицию;
nL — число статистически значимых бинарных сочетаний ЗЧС, в
которых слово занимает левую позицию;
fL — частота слова в левых позициях ЗЧС;
nR — число статистически значимых бинарных сочетаний ЗЧС, в
которых слово занимает правую позицию;
fR — частота слова в правых позициях ЗЧС.
Таблица
4.9
Бинарные сочетания двухсот самых частых слов
F NL
NR nL fL
nR fR
a 93698 1264
133 17 12882
41 53593
about 6554 36
122 11 3596
15 1122
after 5161 72
40 17 2615
10 805
again 6542
11 64 11
2199 23 2064
all 16404 91
37 16 6116
21 7487
always 2998 39
21 5 196
16 1313
am 6779 80
2 10 1946
1 6241
an 11689 501
40 1 606
24 6488
and 149124 359
673 30 23210
39 20712
another 3485 69
23 7 257
17 1493
any 7286 141
47 11 1854
21 4142
are 10066 63
39 19 3556
14 6119
as 36110 51
101 24 21840
25 5911
at 29359 144
191 30 21060
15 5575
away 4081 20
135 12 1616
8 687
back 4277 21
72 9 1858
16 1676
be 23430 337
52 16 4161
15 18943
been 12005 216
31 16 2383
11 10608
before 6212 37
76 17 3734
17 1162
being 5894 106
21 10 1046
12 1861
better 3148 38
25 8 842
15 1808
but 22531 58
61 24 10232
20 3496
by 18669 120
331 26 10554
19 1374
came 3761 56
32 15 2281
17 1882
can 4402 75
18 16 1966
14 2986
come 6159 36
37 20 3997
20 3443
could 7817 94
26 13 3816
12 4944
cried 3022 70
16 4 1133
4 237
day 3988 16
51 8 1064
18 2641
dear 5603 86
14 12 1631
6 3573
did 5143 15
27 9 2702
16 2908
do 10293 26
40 13 5880
19 6369
don't 6238 78
15 15 3312
7 3457
done 2793 18
26 13 819
13 1938
door 3720 27
39 8 1251
3 2554
down 7153 28
166 16 6881
18 2076
even 3141 16
12 11 1113
6 832
ever 3710 45
23 9 513
13 2310
every 3274 104
10 8 895
5 878
eyes 4244 34
65 8 1307
7 2556
face 4531 26
93 10 1694
5 2332
first 3834 56
18 5 447
4 2122
for 29848 103
269 35 18548
21 3551
friend 2944 13
50 5 636
10 1916
from 13854 62
261 26 9386
15 1720
gentleman 4288
16 58 6
1056 8 2832
go 4246 41
34 16 2529
19 2623
going 3073 22
20 13 2152
10 1467
good 5984 99
19 13 1147
10 2527
got 2710 28
29 15 1270
12 1471
great 5509 235
10 1 222
7 3842
had 31091 278
37 24 12896
14 19219
hand 5319 24
54 11 2295
11 3449
hands 2789 19
39 10 1198
7 1592
has 6270 71
28 15 2284
12 3160
have 24092 207
48 21 10342
18 19341
having 3403 80
13 11 860
8 777
he 52685 367
66 33 28469
26 23897
head 5103 39
36 10 2000
7 1880
her 31275 223
237 13 4796
29 15299
here 6328 24
46 11
1978 15 1421
him 24289 48
326 30 12450
24 10744
himself 6082 20
252 18 3110
7 296
his 53703 582
267 17 10536
26 29268
home 2565 13
35 6 738
11 1270
house 3740 12
64 9 1322
9 2306
how 5835 52
61 20 2953
11 982
I 73525 217
90 36 44230
43 33801
if 15827 27
32 13 11415
14 6209
in 71924 239
366 24 45762
35 11055
into 9299 57
214 15 6692
21 2418
is 24445 93
50 26 9302
16 13298
it 52009 104
199 26 21538
36 18217
it's 3353 34
26 16 1678
11 681
its 4606 142
25 8 540
13 2595
know 8138 35
21 21 4426
11 6949
lady 3698 26
38 4 468
8 2653
last 3376 60
7 4 525
5 2037
left 2642 27
19 11 1241
17 1663
let 2816 13
15 8
2053 9 792
life 2973 10
36 4 616
6 1507
like 6101 25
38 16 3949
18 1767
little 10581 216
36 11 1157
10 6229
long 3966 81
18 7 916
13 2191
look 3822 18
48 17 2236
11 1511
looked 4100 58
29 18 2734
6 1695
looking 3409 58
27 14 2329
3 612
made 5203
32 26 17
1872 17 2877
make 3431 37
29 19 1842
14 2505
man 8624 23
109 13 3068
14 5759
manner 2372 10
113 7 969
5 429
many 3412 81
14 4 416
10 1567
may 4442 59
13 14 2504
11 2861
me 20474 42
215 27 9211
24 9462
might 4671 45
15 10 2816
12 2868
mind 3424 14
25 6 959
8 2172
Miss 6310 172
40 - -
7 1127
more 8671 129
39 3 1196
17 3823
most 3412 235
4 1 36
3 1999
Mr 30576 569
79 - -
15 10377
Mrs 9102 242
47 - -
12 3675
much 6419 127
17 8 1751
10 4352
must 3952 65
16 13
2396 9 2860
my 24932 271
66 21 7338
28 10141
myself 2540 12
76 9 992
7 595
name 2397 7
38 7 754
9 1491
never 6456 100
32 27 2538
21 4349
night 3833 14
45 10 1219
11 2578
no 15459 174
52 11 3426
21 5505
not 23202 177
54 28 8458
26 14336
nothing 3868 30
35 13 1876
17 1343
now 8386 34
26 16 1904
17 2106
of 109770 325
1353 32 57274
18 11495
off 3483 13
139 7 1172
17 803
oh 2651 49
10 14 760
1 14
old 8294 165
46 7 2512
12 4858
on 25558 75
281 19 15338
15 3420
once 2833 21
6 8 651 6
1232
one 12178 69
37 14 3972
22 5037
only 4233 55
17 12 939
12 2095
or 13650 80
75 12 2449
7 884
other 5809 76
16 8
592 9 3665
our 3858 129
16 13 640
9 1617
out 11388 19
215 13 6442
21 3121
over 4645 15
135 10 2713
10 561
own 4672 103
12 12 679
7 4419
people 2480 8
32 6 560
11 1086
place 3035 8
59 5 946
14 1530
poor 2434 74
9 4 337
8 1110
put 3141
25 19 19
1993 14 1678
quite 4067 125
26 9 1030
10 1789
replied 3681 58
24 5 1709
5 685
returned 3681 72
24 7 1728
5 602
right 2349 28
16 6 566
4 534
room 3405 17
45 11 1251
10 2142
round 2979 14
97 9 1581
9 614
said 28457 187
97 8 13473
14 4832
same 3317 64
3 6 448
3 3090
saw 2390 15
15 14 1529
10 1905
say 6859 30
28 17 3006
17 4901
says 2393 38
36 7 1043
3 443
see 5612 47
8 18 3315
18 4484
shall 3088 24
27 16 1912
8 2242
she 20145 198
46 31 11140
20 7965
should 5758 76
12 14
3374 10 3992
Sir 8815 26
67 10 2179
18 2428
so 18248 219
46 13 3966
23 7454
some 7942 161
29 9 1414
16 3320
something 2449 23
25 10 1138
6 354
still 2928 55
14 2 153
7 799
such 6368 62
21 5 2942
17 2877
take 3764 48
27 18 2022
14 2320
tell 2902 14
21 7 2285
11 1744
than 6505 39
74 17 3180
3 1435
that 55144 86
263 30 25837
25 12942
the 205555 1714
164 29 14576
37 110541
their 8081 210
41 4 700
16 4212
them 8783 30
122 23 3901
21 3203
then 7182 32
15 14 1814
6 2711
there 13298 33
51 15 6840
16 3978
these 4576 156
19 8 521
9 1833
they 14237 125
41 28 11791
20 6920
think 4900 30
24 17 3162
11 3981
this 19101 227
54 16 4337
22 8669
those 2518 45
14 6 522
11 1137
though 3355 12
6 10 1510
3 520
thought 3450 20
17 11 1819
8 1973
through 3169
17 69
12 2136 7
381
time 7667 27
63 14 3085
17 4808
to 109929 737
698 32 52953
34 18987
too 4534 58
28 10 1107
10 811
took 3112
32 15 17
2062 8 1545
two 4805 115
22 5 582
11 2186
under 2440 41
23 15 1532
2 70
up 10868 35
284 19 6792
19 2685
upon 11120 22
240 17 8513
15 1876
us 3800 15
56 8 553
13 1850
very 12557 295
33 11 2246
17 4636
was 47639 281
56 34 17113
18 27790
way 5040 24
50 14 2092
20 3442
we 10019 80
33 27 6007
19 3975
well 5806 54
30 12 1761
12 2018
went 3613 31
16 15 2380
9 2161
were 14370 163
103 17 3141
13 7037
what 13041 58
62 24 8308
19 3787
when 14056 22
55 12 8038
18 3316
where 4315 14 82
12 2495 6
473
which 17257 66
67 19 8604
21 6284
while 2637 15
6 9 1352
3 236
who 11293 94
179 22 6009
5 1937
why 3295 41
21 16 1617
2 144
will 7449 104
17 16 3779
10 4089
with 41053 107
371 30 28556
28 6150
without 3681 91
17 6 793
7 354
would 11383 124
27 18 6392
11 6638
yes 3028 30
27 15 1220
6 405
yet 2508 16
13 6 382
6 1101
you 46361 112
130 36 20544
34 20555
young 5234 93
55 5 2156
11 2783
your 9439 202
57 16 1759
19 3967
ВСЕГО 2632141 20303 15121 2786 999304 2653 1003468
Глядя на табл. 4.9 с позиций семантической лингвистики, сразу отметим любопытные расхождения в столбцах NL и NR. При том, что в целом левые и правые позиции соотносятся как 1,3 : 1, у многих групп слов наблюдаем резкие отличия от этой средней. Перечислим эти группы:
субъектные местоимения (he, I, she, they, we) 3,6 : 1
формы глагола have (had, has, have, having) 5,0 : 1
некоторые формы глагола be (am, be, been, being, was) 6,2 : 1
модальные глаголы (can,
could, may, might, must, should,
will, would) 5,1 : 1
прилагательные (dear, good, great, last, little, long,
old, poor) 7,1 : 1
артикли (a, an, some, the) 10 : 1
притяжательные местоимения (his, its, my, our, their, your) 3,2 : 1
прочие детерминанты
(all, another, any, every, other, own,
same, such, these,
this, those) 4,4 : 1
указатели числа (many, much, two) 6,2 : 1
«усилители» (more, most, quite, so, too, very) 6,0 : 1
Miss, Mr, Mrs 5,9 : 1
Обратное соотношение находим в группах:
предлоги (about, at, before, by, for, from,
in, into, of,
on, through, upon, with) 1 : 3,1
поствербы (again, away, back, down, here, off, out, over
round, up) 1 : 6,8
союзы и союзные слова (and, as, if, that, there, when,
where, who) 1 : 2,1
himself, myself 1
: 10
существительные (day, door, eyes, face, friend, gentleman,
hand, hands, home, house,
lady, life, man,
manner, mind, name, night,
people, place,
room, Sir, time, way) 1 : 3,0
В рамках ЗЧС этот контраст левых и правых позиций исчезает. Более того, в двух функциональных группах соотношение позиций меняется на обратное. Это касается артиклей, где в ЗЧС левые позиции содержат 56 случаев, а правые – 118 (1:2,1), и группы Miss, Mr, Mrs, где в правых позициях находим 34 случая, а в левых позициях - ни одного. Причина подобных трансформаций очевидна. Среди менее частых слов доминируют существительные (в частности — антропонимы), в ЗЧС доля существительных чуть превышает 10%, большинство «предсубстантивов» оказывается в правой позиции.
Возвращаясь к ДСА, покажем процедуру формирования дистрибутивных классов на примере двух слов — day и night. В ЗЧС эти два слова появились в следующих статистически значимых бинарных сочетаниях:
day
after day came night after night he
day
and day long night and night i
day before day or
night before night long
day
but day when night but night sir
night came night when
Математическое ожидание случайного попадания одного и того же правого соседа у этих двух слов равно (nL×nR)/200 = (8×10)/200 = 0,4. Реально оказалось, что таких соседей 7[47]. Применяя нашу основную формулу, получаем S = (7—0,4—1)/√0,4 = 8.
Находясь в правой позиции, рассматриваемые два слова представлены в таких сочетаниях:
a
day from day same day after night one night
after
day good day some day all night other night
all
day last day that day at night that night
by
day one day the day by night the night
every
day other day this day
every night
first
day rainy day very day good night
last night
В этом случае m
= (18×11)/200 =1, при десяти общих левых соседях[48] S =
(10—1—1)/√1 = 8. Как видим, значения S очень велики,
дистрибутивное сходство day и night несомненно как по правому,
так по левому окружению. Для получения интегральной меры сходства достаточно
сложить оба x и оба m: x = 7 + 10 = 17, m = 0.4 + 1
= 1.4. Тогда S = (17—1.4—1)/√1.4 = 12.
Такая высокая мера дистрибутивного сходства зафиксирована еще
у следующих пар
слов: hand — head
S=19, he — she S=15, she — we S=13, they — we
S=12, down — out S=14, may — might S=12, could
— will S=14, could — would S=13, will — would
S=13, him — them S=13, from — in S=13, into
— on S=12, is — was S=12.
При максимальных значениях S пары слов, как правило, остаются изолированными. Впрочем, они могут вытягиваться в цепочку: he — she — we — they, а могут образовать триплет — тройку слов, дистрибутивно связанных друг с другом, как это видим в случае /could, will, would/. Именно триплеты и станут основным аргументом при формировании дистрибутивных классов. Понижая порог S, будем объединять пары в триплеты и триплеты друг с другом при наличии общей пары слов. Когда S достигнет 10, четырехчленная цепочка he — she — we — they превратится в хороший дистрибутивный класс благодаря появлению пар he — they и she — they. Триплет модальных глаголов пополнится словом should при появлении пар could — should и should — will. Возникнет еще один дистрибутивный класс модальных глаголов /can, may, might, shall/ и триплет поствербов /down, out, up/.
При S=9 два класса модальных глаголов объединятся в один дистрибутивный класс с девятью членами /can, could, may, might, must, shall, should, will, would/[49]; класс субъектных местоимений пополнится словами i и you. При S=8 триплет поствербов превратится в девятичленный класс /away, back, down, home, off, out, over, round, up/; появятся класс притяжательных местоимений /her, his, my, their, your/ и класс предлогов /at, from, into, on, upon/, начинают возникать объединения обычных глаголов /came, go, got/, /made, put, took/, /cried, replied, says/ и субстантивов /eyes, hands, head/, /face, house, name, place, room/, наконец, триплет объектных местоимений /him, me, them/.
С понижением значения S сеть внутренних связей дистрибутивного класса может укрепляться даже при неизменном числе членов, пока очередной шаг не приведет к изменению состава класса. Для фиксации структуры класса удобно использовать матрицу внутренних дистрибутивных сходств, где в клетках матрицах проставлены значения S. Примерами могут служить нижеследующие таблицы.
Таблица
4.10
Матрица внутренних дистрибутивных сходств субъектных местоимений
(справа наверху — при S=7, слева внизу — при S=6)[50]
he I
she they we
you it there who
he
9 15 10
9 7
I
9 8 9
8
she
15 8 11
13
they
10 9 11
12 8
we
9 13
12 8
you
7 8 6
8 8
it
6 (3) 6
(5) (4) 6
there
(5) 6 (5)
7 (3) 7
who
6 6 (4)
(5) (3) (3)
(3)
Таблица 4.11
Матрица внутренних дистрибутивных сходств детерминантов
(справа наверху — при S=6, слева внизу — при S=4)
a her his my the their this your any no one some such
a 6
(4) (4) 6 (3)
6 (4)
her 6
11 9 8
9 11
his 4
11 10 6
9 (5) 8
my 4
9 10 7
7 6
the 6
8 6 7
6 6 (5)
their (3)
9 9 5
6 6 8
this 6
4 5 6
6 6 6
your 4
11 8 5
8 6
any (3) 4
5 4 5
(3)
no 7 4
one 5
some 7 5 4 4 5 3 7 6
such 4 (3) 4 5 5 4
Таблица
4.12
Матрица внутренних дистрибутивных сходств предлогов
(справа наверху — при S=8, слева внизу — при S=6)
at from in into
on under upon by for through to
with
at 9
8 9 (7)
(5) (6)
from 9
13 10 9
(5) 9
in 8
13 10 8
into 9
10 12 (7)
9
on 7
9 10 12
8 11
under 5
(5) 8 7
8 (3)
upon 6
9 6 7
11 (3)
by 6
7 (5) 6
6 (3)
for 7
6 7 6
(4) (4) 6 6
through (3)
(3) (3) 6 7
(4) (3) (4)
to (3) (4) (4) 6 6 (3) 7 (4)
with 7 7 7 7 11 7 7 7
Таблица 4.13
Матрица внутренних дистрибутивных сходств поствербов
(справа наверху — при S=8, слева внизу — при S=6)
away back down home off
out over round up about
away 8
(7) 8 9
(6) (5) (6)
back 8 8
8 (6) (7)
(6) 11 (7)
down 7
8 (7) (7) 14 (5)
9 11
home 8
8 7 8
(5) 8 6
(6)
off 9
6 7 8
(7) 8 10
(7)
out 6
7 14 (5)
7 (4) 8 10
over 6
(5) 8 8
(4) 9 (5)
round (5)
11 9 6
10 8 9
up 6
7 11 6
7 10 (5)
about 6 7
При S=5 классы предлогов и поствербов сливаются друг с другом, включая и слово of, при S=4 сюда же присоединяется after.
Таблица 4.14
Матрица внутренних дистрибутивных сходств субстантивов
(справа наверху — при S=6, слева внизу — при S=5)
eyes face hand hands head house name
place room way door manner
eyes (3)
9 10 9
(3) (4) (4)
face (3)
7 6
9 8 8
hand 9
7 10 10
6 (3) (4) (5)
hands 10
6 10 8
6 (4) (4) (3)
head 9
10 8 (4)
(5) 9 6
house (3)
9 6 6
(4) 9 10
9
name (4)
8 (3) (4)
5 9 (3) 6
place 10 8 (3)
room 8
(4) (4) 9
(3) 8 (4)
way (4)
5 (3) 6
9 6 (3)
(4)
door 5
(3) (3)
5
manner 6 5
Уже при S=7 конституируется класс «обычных глаголов в прошедшем времени» /came, got, left, made, put, saw, took, went/, при S=6 класс лавинообразно расширяется, к нему присоединяются /come, go, let, looked, looking, make, see, take, tell/, исчезает ограничение на прошедшее время. На шаге S=5 сюда включаются do, say и know. Отдельно засвидетельствован глагольный класс /are, had, has, have, is, was, were/. На этапе S=4 все глагольные классы сливаются в один «мегакласс» с 39 членами, в том числе и новое пополнение — been, being. При S=3 сюда же присоединятся am, did, having, it's, look, think, thought. Лишь триплет /cried, replied, says/, морфологически несомненный глагол, продолжает существовать особо.
Отдельно существует и адъективный триплет /good, little, old/, образовавшийся на шаге S=4.
Последний (очень рыхлый) дистрибутивный класс объединяет союзы, союзные слова и другие слова, появляющиеся на границах высказывания.
Таблица 4.15
Матрица внутренних дистрибутивных сходств союзов (при S=4)
again and as before but how if that
though what when where while
again 5 (3) 4
4
and (3) 6 4
as 4 5
4
before 4 4 6 4
but 4 6 5
how 6 5 4
if 6 6
8 5 (3)
that
5 5
though
5 (3)
what
when
5 5
where 4
while
Наши дистрибутивные классы получены на основе интегрального сходства, учитывающего обе позиции в бинарном сочетании слов. Однако у целого ряда слов такой подход затемнял бы реальные различия, существующие между левой и правой позицией. Характерным примером служит слово all. Находясь в левой позиции, оно попадает в один класс с предлогами (при S=5 in, при S=4 by, from, like, on, under, with, при S=3 at, into, of, upon). В правой позиции оно входит в тот же класс, что и детерминанты (при S=4 an, being, no, some, such, this, which; при S=3 any, her, his, my, one, their, your).
Еще один пример — слово it. Находясь в левой позиции, оно явно принадлежит к субъектным местоимениям (при S=6 he, she, you, there, при S=5 they, S=4 we, S=3 I, who). В правой позиции у него довольно рано обнаруживается сходство с объектными местоимениями them (S=6) и me (S=5). До сих пор по умолчанию предполагалось, что то или иное слово может принадлежать только к одному классу. Только что рассмотренные примеры заставляют усомниться в этом предположении. Возможные интерпретации подобных случаев будут рассмотрены ниже, пока же ограничимся этими словами, допустив их вхождение одновременно в два дистрибутивных класса.
Итак, мы получили 10 дистрибутивных классов, которые и явятся главной основой дальнейших процедур в рамках минимального интервала. Перечислим эти классы с их полным составом[51]:
{S} субъектные местоимения — he, I, it, she, there, they, we, who, you;
{O} объектные местоимения — him, himself, it, me, them;
{D} детерминанты — a, all, any, her, his, my, no,
one, some, such, the, their, this, your;
{P} предлоги — all, at, by, for, from, in,
into, on, through, to, under, upon, with;
{T} поствербы — about, away, back, down, home,
off, out, over, round, up;
{M} модальные глаголы — can, could, don't, may, might, must,
shall, should, will, would;
{W} вспомогательные глаголы — am, are, been, being, did, do, had, has,
have, having, is, was, were;
{V} обычные глаголы — came, come, go, got, know, left, let,
look, looked, looking, made, make, put, saw, say, see, take, tell, think,
though, took, went;
{N} субстантивы — door, eyes, face, hand, hands,
head, house, manner, name, place, room, way;
{C} союзы[52] — again, and, as, before, but, how, if,
that, though, what, when, where, while.
Отдельно упомянем триплеты, которые разрастутся в ходе дальнейших процедур:
{A} адъективы — good, little, old;
{U} глаголы говорения — cried, replied, says.
4.2.2. Комбинаторика дистрибутивных
классов
Для всех членов дистрибутивных классов можно получить характерные окружения как слева, так и справа. Поиск этих окружений будем производить во всей совокупности статистически значимых бинарных сочетаний. Для субъектных местоимений, например, обнаружим в табл. 4.9 общее число левых соседей (784) и общее число правых соседей (1197). Положим некоторый порог, выше которого будем считать значимым такого соседа для данного дистрибутивного класса. Покажем процедуру расчета на четырех правых соседях {S}:
ln S ln S ln S ln S
3 he
came 2 he can
4 he is
3 I
came 4 I can
3 it
came 5
it is
3
she came 2 she can
4 she is
2
there came 2 there can
5 there is 4
there are
3
they came 2 they can 4 they are
3 we
came 3 we can 5 we
are
2
who came 2 who can
3 who is 3
who are
2
you came 4 you can 5 you are
Σ ln S =24 Σ ln S =21 Σ ln S =21 Σ ln S =21
Примем в качестве порога для всех дистрибутивных классов Σ ln S =7, тогда все четыре слова окажутся характерными правыми соседями {S}. У тех же четырех слов слева от {S} картина будет совсем другой:
2 can i 3
is it 2 are they
3 can you 3
is there 2 are we
4 are you
Σ ln S
=5 Σ ln S
=6 Σ ln S =8
Лишь слово are преодолеет введенный порог и войдет в список характерных левых соседей {S}.
Рассмотрим полученные результаты для всех десяти классов.
У субъектных местоимений характерными левыми соседями оказались 49 слов — if (Σ ln S=32), that (29), when (29), as (25), because (24), but (24), what (20), where (20), whom (20) и т. п. Как видим, список возглавляют представители класса союзов, почему последний класс и может быть пополнен новыми членами: because, whom, whether (19), which (19), then (17), till (17), unless (16), although (15), since (12), indeed (9), lest (9), perhaps (9), whenever (9). Слева от {S} появляются и некоторые глаголы — did (13), do (9), does (9) are (8). Из обычных глаголов среди левых соседей {S} находим think (17), thought (11), know (10), к которым можно присоединить suppose (15), knew (7), believe (9) и hope (7) — все это глаголы «интеллектуального состояния», охотно присоединяющие придаточные дополнения без всякого союза.
СУБЪЕКТНЫЕ МЕСТОИМЕНИЯ - левые соседи
ain't 7 although 15 and 10 are
8 as 25 because 24 before 18 believe 9
but 24 course 9 did 13 do
9 does 9 for 8 here 8 hope 7 how 17 indeed
9
if 32 knew 7 know 10 lest
9 perhaps 9 since 12 suppose 15 sure 12
though 18 than 12 that 29 then
17 think 17 thought 11 till 17 time 10
until 17 unless 16 what 20 when
29 whence 7 whenever 9 where 20
wherever 12 whether 19 which 19 while
15 whither 7 whom 20 why 7
Справа от {S} обнаружено 130 слов,
преодолевших Σ ln S=7. Почти все они являются глаголами[53]. Кроме указанных выше 4 слов список правых соседей возглавляют had (31), might
(27), was (27), were (27), would (27), could (26), must
(26), may (25), should (25), will (25), did (22), knew
(21).
Эти правые соседи пополнили состав
классов {M} и {V}. Число модальных глаголов дошло до 17: cannot, need, ought
и глаголы с суффиксом n't — couldn't (17), didn't (17), wouldn't (17), can't (16), won't (16)[54]. До 115 членов возросла численность класса обычных глаголов (рост в 5 раз): knew
(21), sat (17), seemed (17), spoke (17), used (17),
wanted (18), walked (16), found (14), heard (14), stood
(14), told (14), felt (13), began (12), want (12), became
(11), lived (11), stopped (11), tried (11), comes
(10), gave (10), held (10), loved (10), makes (10),
passed (10), turned (10) и т. п.
СУБЪЕКТНЫЕ МЕСТОИМЕНИЯ — правые соседи
added 9 ain't 13 all 8 always
10 an't 10 answered 9 appeared 10 are 18
asked 9 awoke 7 became 11 began
12 begged 7 believed 9 call 9 called 7
came 24 can 21 can't 16 cannot
13 come 9 comes 10 could 26 couldn't 17
did 22 didn't 17 do 12 does
11 doesn't 8 don't 13 drew 7 entered 7
ever 8 feared 7 feels 7 fell
9 felt 13 find 7 found 14 gave 10
go 9 goes 7 got 15 had
31 hadn't 12 has 17 hasn't 8 have 18 haven't
8
heard 14 held 10 hoped 8 is
21 isn't 7 kept 8 knew 21 knows 9 know 12
lay 8 left 10 liked 9 live
8 lived 11 looked 13 looks 7 loved 10
accompany 7 addressing 7 ask 7
made 11 makes 10 may 25 mean
8 meant 8 met 8 might 27 must 26 mustn't 8
need 7 needn't 8 never 20 ought
18 owe 7 passed 10 put 7 reached 9
really 11 remained 9 remembered
7 said 7 sat 17 saw 17 say 11
see 7 seemed 17 seems 8 shall
18 shan't 9 should 25 shouldn't 8
sits 7 spoke 17 started 8 stood
14 stopped 11 suppose 7
takes 7 think 9 thought 12 told
14 took 17 tried 11 turned 10 used 17
walked 16 want 12 wanted 17 wants
7 warn't 8 was 27 wasn't 11
went 20 were 27 will 25 wish 7
wished 7 won't 16 wos 10
Глаголы преобладают также среди 65 левых соседей класса объектных местоимений: gave (14), let (14),
give (13), keep (12), see (12), showed (12), tell
(12), found (11), saw (11), take (11), leave (10), left
(10), make (10), put (10), told (10) и т. п. С точки зрения семантической лингвистики все это переходные глаголы. Благодаря левым соседям {O} численность класса {V} возрастает до 145 (bring,
carry, given, giving, hear, help, kill, show, wrote и т. п.).
Левые соседи {O} несколько пополняют и класс предлогов — against, behind, beside, between, like,
towards.
ОБЪЕКТНЫЕ МЕСТОИМЕНИЯ - левые соседи
about 13 accompany 7 addressing
7 against 10
around 8 ask 7 at 9 before
12 behind 11 beside 8 between 11
bring 9 brought 7 call 9 carry
8 caused 7 enable 7 fetch 7 find 13
follow 7 for 13 found 11 gave
14 give 13 given 8 giving 9 hear 9 help 9
induce 7 keep 12 kept 8 kill
8 kissed 7 know 7 lead 7 leave 10
led 7 left 10 let 14 like
8 made 8 make 10 meet 7 near 9 of 8 over
8
put 10 save 7 saw 11 see
12 seen 7 seeing 7 send 7 show 9 showed 12
take 11 tell 12 tells 7 to 11 told
10 took 10 towards 10 upon 15 with 9
Почти половину 18 правых соседей {O} составляют предлоги, остальное приходится на поствербы и союзы.
ОБЪЕКТНЫЕ МЕСТОИМЕНИЯ — правые соседи
again 8 and 9 as 12 at
3 back 4 but 9 by 7 down 9 for 9 from
8
in 10 into 8 on 8 out 12 to 11 up 11 with
10
Список 66 левых соседей детерминантов возглавляют предлоги — in
(42), of (38), with (38), for (36), at (35), on
(34), by (31), from (29), under (27), into (26), to
(20), upon (15). Слово of окончательно упрочивает свое
положение среди предлогов. К новым пополнениям класса предлогов относятся after,
beyond, within, without.
Класс {V} пополняется словами bless, drawing. prevent, resumed, shaking, shook,
taking, touching. Отметим слова с суффиксом 's — here's, it's, that's, there's, what's, where's, относительно правого детерминанта — это типичные глаголы класса {W}.
ДЕТЕРМИНАНТЫ — левые соседи
about 10 across 7 after 13 against
11 all 15 ask 7 at 35 before 8
behind 7 between 9 beyond 7 bless
8 by 31 drawing 7 find 12 for 36
from 29 gave 7 had 11 have
10 here's 7 in 42 into 26 is 15 it's 8
keep 11 like 12 made 14 make
19 making 11 no 7 of 38 on 34 or 7
over 12 prevent 13 put 10 resumed
9 returned 7 round 7 said 7
saw 11 see 13 shaking 8 shook
10 take 21 taking 11 than 9 that's 7
there's 13 through 13 to 20 took
15 touching 7 towards 9 under 27
up 13 upon 25 was 9 what's 8 where's 7 with
38 within 10 without 7
Характерными правыми соседями детерминантов выступают именные классы — класс субстантивов {N} и класс адъективов {A}. Субстантивы целиком включают первоначально выделенный класс {N} и грандиозное пополнение (175 слов !), например, Σ ln S = 21 time; Σ ln S = 18 father; Σ ln S = 17 part; Σ ln S = 16 friend; Σ ln S = 15 heart, sister, word; Σ ln S = 14 day, family, money, mother, person, question; Σ ln S = 13 eye, father's, feet, matter, occasion, side, son.
Что касается класса адъективов, то собственно дистрибутивное его обоснование пока действительно лишь для первоначального триплета /good, little, old/, в рамках же правых соседей детерминативов пока приходится опираться исключительно на морфологические критерии, которые позволяют отобрать следующие: better, black, blue, brief, bright, common, dark, dear, deep, distant, dreadful, fair, first, former, further, great, high, honourable, human, last, longer, lovely, neighbouring, new, noble, one, other, own, particular, poor, pretty, right, slight, small, sudden, sweet, usual, violent, young.
Четыре слова остаются и дистрибутивно, и морфологически двусмысленными kind, light, point, secret.
ДЕТЕРМИНАНТЫ - правые соседи
account 10 acquaintance 7 afternoon
8 age 8 another 6
appearance 8 arm 14 arms 13 arrival
11 attention 11 bed 9 bedroom 7
being 8 better 7 black 7 blue
7 boat 7 body 7 book
breast 11 brief 8 bright 7 brow
7 brother 12 brother's 11 business 16
card 8 case 10 chair 12 change
10 cheek 8 child 10 children 7
circumstances 8 clothes 7 clue 7 common
9 compliments 7 condition 8
confidence 7 conscience 7 conversation
9 countenance 7 cousin 7
dark 8 daughter 12 daughters's
10 daughters 8 day 14 dear 8 deep 8
degree 8 departure 8 difference
7 difficulty 8 distance 8 distant 7
discourse 8 doubt 7 dreadful 9 duty
10 ear 10 ears 13 evening 9
eye 13 eyes 17 face 14 fair
7 family 14 father 18 father's 13 fault 11
feelings 11 feet 13 few 8 figure
8 finger 9 fingers 8 first 8
former 7 friend 16 friend's
7 friends 10 further 10 gentleman 11
girl 7 glass 11 good 15 grandfather
7 great 10 guardian 7 hair 11
hand 15 handkerchief 7 hands
15 hat 7 head 17 health 7 heart 15 high 7
honourable 7 horse 7 house 13 human
7 hundred 7 husband 10 idea 12
intelligence 7 intention 9 kind 12
knee 10 knees 9 knowledge 11
lady 11 lady's 9 ladyship
8 last 7 legs 11 letter 12 life 12
light 8 lips 12 little 19 longer
8 lovely 8 man 19 manner 7 marriage 10
master 7 matter 13 meaning 7
means 10 memory 11 mind 14 minute 9
mistake 9 mistress 7 moment
12 money 14 more 11 morning 10 most 7
mother 14 mother's 11 mouth
9 name 15 names 7 neck 9 neighbouring 7
nephew 8 new 21 niece 7 nightcap
7 noble 10 noise 7 nose 8 note 9
objection 7 occasion 13 old 10 one
7 opinion 11 other 15 own 21 papa 7
paper 7 part 17 particular
12 people 8 person 14 place 14 pleasure 7
pocket 8 pockets 7 point 10 poor
15 position 11 power 11
presence 12 present 11 pretty
7 question 14 reason 9 right 7 room 10
sake 10 scene 7 seat 10 second
8 secret 13 sense 7 senses 11
servant 7 service 7 share 8 shoes
7 shoulder 11 shoulders 8
side 13 sign 8 sister 15 sister's
11 slight 12 small 12
son 13 son's 10 sort 10 soul
8 speech 7 story 9 subject 10 sudden 8
sweet 7 thing 9 thoughts 12
time 21 tongue 9 uncle 11 uncle's 10
use 8 usual 11 violent 7 visit
8 visitor 8 voice 10 way 24
whole 11 wife 12 word 15 woman
7 words 10 work 11 world 7 young 12
Среди 88 левых соседей предлогов
численно преобладают глаголы класса {V}, 39 из них пополняют этот класс до
численности 192. Часто подобные глаголы связаны с предлогами в разных формах одной парадигмы, ср. came — come — coming, fall — fallen —
falling — fell, get — getting — got, go — goes — going — gone, stand-ing —
stood, live-d, peep-ed, enter-ed-ing, look-ed-ing, listened-ing, passed-ing,
proceeded-ing, turned-ing, waited-ing. Численность класса {V} доходит до 241 при добавлении левых соседей поствербов {T}, в еще большей степени тяготеющих к концентрации вокруг лемм, ср. break-ing — broke, bringing — brought,
cast-ing, drawing — drawn — drew, glanced-ing, hanging — hung, leaned-ing,
pull-ed-ing, put-ting, ran-run-ning, sat-sit-ting, started-ing, stealing —
stole, threw — throwing — thrown, tumbled-ing, walked-ing.
ПРЕДЛОГИ — левые соседи
away 15 back 15 called 8 came
17 claim 8 close 11 come 23
coming 11 done 7 down 26 driven
8 dwelt 7 enter 8 entered 8
entering 8 eyes 8 fall 10 fallen
9 falling 7 fell 12 fixed 7
get 8 getting 8 go 13 goes
7 going 11 gone 11 got 10
hand 13 hands 13 hard 9 hat
11 head 11 herself 12 him 28
himself 27 home 8 impressed 9
intent 7 itself 7 led 7 listened 8
listening 7 live 7 lived 7 look
12 looked 17 looking 16 me 13
myself 8 nothing 9 occupied
7 off 8 out 17 passed 9 passing 7
peep 9 peeped 7 pointing 7
proceeded 7 proceeding 9 put 10 retired 8
round 7 rushed 9 sat 13 seat
10 seated 9 shone 8 sitting 14
stand 7 standing 14 stood
14 stopped 11 stopping 8 taken 8 them 16
themselves 12 time 7 turned 9 turning
7 up 17 waited 8 waiting 12
walked 10 way 10 went 15 written
8
Правые соседи класса {P} четко делятся на две группы: объектные местоимения (8 слов, в т. ч. 3 новых — myself, whom, us)[55] и
детерминанты (22 слова, в т. ч. 8 новых — an, another, both, every, its, our,
these, those).
ПРЕДЛОГИ — правые соседи
a 34 all 21 an 19 another
13 any 24 both 9 each 10 every 10
her 35 him 20 himself 8 his
41 it 8 its 26 me 19 my 26
myself 7 one 17 our 15 some
21 such 17 the 51 their 33 them 14
these 14 this 29 those 12 us 12
which 30 whom 17 you 7 your 25
О совпадении левых соседей {P} и {T} сказано выше; своеобразие последнего класса проявляется в появлении объектных местоимений him, himself, them среди левых соседей и особенно в списке правых соседей, где преобладают предлоги (at, by, from, in, into, to, upon, with) и союзы (again, and)[56].
ПОСТВЕРБЫ - левые соседи
all 9 blown 11 break 8 breaking
11 bringing 9 broke 11
brought 18 came 23 carried 11
cast 13 casting 7 cleared 9 come 29
comes 14 coming 20 crept 7 cut
9 drawing 7 drawn 11 drew 7 drove 8
fall 8 falling 8 far 9 fell
11 flew 7 gathered 9 get 17 getting 12
glanced 7 glancing 9 glided 7
go 25 goes 12 going 24 gone 16
got 18 handed 9 hanging
13 him 14 himself 10 hovered 8 hung 11
hurried 11 it 12 jumped 7 keep
11 knocked 10 leaned 7 leaning 9
look 18 looked 22 looking
23 made 7 passed 9 picked 7 pouring 7
pull 9 pulled 13 pulling
11 put 13 putting 8 ran 20 rode 12
rolled 14 run 17 running 20 sat
7 sent 16 set 11 shrunk 7 shut 7
sit 7 sitting 7 slipped
10 slowly 8 started 11 starting 8 stealing 9
stepped 7 stole 9 stooping 7 strolled
10 taken 13 taking 8
them 14 threw 8 throwing
11 thrown 18 tied 8 took 11 tripped 8
tumbled 10 tumbling 10 turn
13 turned 21 turning 16 turns 7 walk 15
walked 21 walking 8 wandered
9 way 13 went 30 whirled 7 worked 7
ПОСТВЕРБЫ - правые соседи
again 26 and 20 at 15 by
9 directly 12 from 16 her 10 him 9 his 17
in 10 into 14 stairs 8 the 17 to 17 together
8 upon 12 with 20 yonder 7
Общая черта всех глагольных классов — появление субъектных местоимений в качестве левых соседей[57], при этом наборы правых соседей кардинально различаются.
МОДАЛЬНЫЕ ГЛАГОЛЫ — левые соседи
he 28 how 9 i 35 it
24 never 14 nobody 9 she 24 there 8 they 26
we 27 what 16 which 9 who 14 you 32
Уникальная черта правого окружения класса {M} — абсолютное преобладание «инфинитивов» (45 слов среди 56 правых соседей). Список возглавляют be (42), have (34), make (24), say (23), take (23), come (21), go (21), do (20), find (20), give (20), see (20). Менее частые глаголы пополняют класс {V}, число членов которого достигает 270[58].
Представлены здесь и некоторые «наречия» на ‑ly: certainly, hardly, possibly, readily, scarcely.
Появление справа от {M} субъектных местоимений I (9) и you (9), одновременно возглавляющих список левых соседей, впервые ставит нас перед проблемой инверсии, чрезвычайно важной для ДСА. Широкое распространение инверсии подрывало бы надежду на выделение хороших дистрибутивных классов на малом интервале.
МОДАЛЬНЫЕ ГЛАГОЛЫ — правые соседи
afford 9 allow 7 appear 9 ask
8 be 42 bear 10 become 10 begin 10
break 9 bring 11 call 11 carry
10 certainly 7 come 21 continue 7 deem 8
die 14 do 20 enable 7 endeavour
7 ever 11 excuse 7 fall 8 feel 11
find 20 forget 7 get 19 give
20 go 21 ha' 14 happen 11 hardly 12
have 34 hear 9 i 9 imagine
7 induce 11 judge 9 keep 11 know 7
lead 9 leave 7 like 7 live
8 lose 7 make 24 meet 9 never 20 not 28
only 8 possibly 12 prove
15 readily 7 remain 9 remember 9 say 23
scarcely 9 see 20 seem 11 show
8 soon 7 spare 7 speak 7 take 23
tell 15 think 12 try 10 venture
10 wait 8 wish 8 write 8 you 9
«ВСПОМОГАТЕЛЬНЫЕ» ГЛАГОЛЫ — левые соседи
he 21 i 13 it 19 never
7 she 19 there 20 they 16 this 7 we 16
what 17 which 18 who 24 you 14
Главная черта правого окружения класса {W} (64 соседа) — глаголы с
исходом на ‑n: arisen (8), been
(17), borne (10), done (16), drawn (7), fallen
(10), given (13), gone (20), known (11), seen (14),
shown (12), spoken (11), taken (16), thrown (8), written
(9). Если учесть, что у всех этих глаголов на микроинтервале не
обнаружены регулярные формы с суффиксом ‑ed[59], то приходится
признать существование особого класса нерегулярных глаголов. В этом случае
можно ожидать, что и некоторые другие частые «дефектные» глаголы, не имеющие
суффикса ‑ed в парадигме, будут появляться справа от
«вспомогательного глагола» в какой-то другой форме. Действительно, частые глаголы begin, bind, bring, find, get, hear, leave, lose,
make, tell представлены
в правой позиции в виде begun, bound, brought,
found, got, heard, left, lost, made, told[60]. Обратившись к сочетаниям, не
преодолевшим порога, мы обнаружили бы множество подобных форм: Σ ln S = 6 forgotten,
grown, lain, risen; Σ ln S = 5 had, kept, worn; Σ ln S = 4
held, laid, led, met, paid, put, read, sat, sent, taught, set, slept, stood и еще 42 слова с меньшими значениями Σ ln S: beaten,
befallen, beheld, bought, broken, built, chosen, crept, driven, eaten, felt,
fled, flown, forborne, foreseen, foretold, forgiven, fought, had, hit, hurt,
meant, run, rung, sat, shaken, spent, spread, sprung, stolen, stood, striven,
struck, sung, sunk, sworn, thought, trodden, undergone, withdrawn, won, wrought.
По-видимому, следует обратить внимание и на тех правых соседей {W}, которые содержат суффикс ‑ed: changed, happened, lived, married, occurred, passed, received, suffered, ведь глаголы с таким суффиксом очень обычны среди правых соседей {S} и среди левых соседей {O}, {D}, {P}, {T}. (См. далее).
Наконец, в правом окружении {W} находим группу слов, выражающих степень качества, своеобразных детерминантов прилагательных: so (13), quite (12), very (11), too (9), nearly (8), rather (7). Дадим этой группе символ {i}.
«ВСПОМОГАТЕЛЬНЫЕ» ГЛАГОЛЫ — правые соседи
a 19 all 7 already 15 always 18 an 12 arisen 8 become 10 been 17
begun 7 borne 10 bound 9 brought
13 capable 7 changed 8 come 10
coming 8 dead 7 done 16 drawn
7 ever 8 fallen 10 found 10
given 13 going 14 gone 20 got
10 happened 8 heard 14 just 12
known 11 left 14 lived 8 lost
12 made 14 married 11 nearly 8
never 12 no 21 none 8 not
25 nothing 12 occurred 8 often 7
only 13 passed 9 quite 12 rather
7 ready 7 really 8 received 11
seen 14 shown 12 so 13 spoken
11 still 7 suffered 8 taken 16
thrown 8 told 8 too 9 usually 9 very
11 written 9 you 7
Из 46 левых соседей {V} 32 слова относятся к классу {M} (включая формы с суффиксами n't и 'll) и к классу {W} (включая I've и you've). Возглавляет список слово to (39), что выглядит крайней аномалией, поскольку это слово входит в класс предлогов и никак не может предшествовать глаголу. Единственный способ разрешить эту проблему состоит в признании омонимии, скрывающейся за словом to.
Табл. 4.9 показывает, что в изучаемом корпусе представлено 737 статистически значимых сочетаний, где to занимает левую позицию. Лишь в 38 сочетаниях правый элемент никак не может быть признан глаголом. Три сочетания с максимальными значениями ln S хорошо соответствуют трем грамматическим ситуациям:
ln S
= 4 to the тип /to + {D}/ ln S =
3: to her, to his, ln S = 2: to any, to its, to my, to
our, to their, to this, to your с общей частотой — 18599;
ln S
= 4 to me тип /to + {O}/ ln S =
3: to him, to whom, ln S = 2: to himself, to myself, to
them, to us, to you, to yourself с общей частотой — 8445;
ln S
= 4 to bed тип /to + {N}/. Обычно
между предлогом и субстантивом располагается детерминант. Отсутствие детерминанта наблюдается в двух случаях — 1) во всевозможных фразеологических сочетаниях: ln S = 3 to death,
to dinner, to foot, ln S = 2 to breakfast, to rights, to
toe, to wit с общей частотой — 938; 2) при субстантиве — имени собственном: ln S = 3 to
В остальных 699 сочетаниях правый сосед to опознается как «инфинитив»: ln S = 5 to be, to say, to
see, ln S = 4 to ask, to bring, to come, to do, to find, to
get, to give, to go, to have, to hear, to keep, to know, to look, to make, to
meet, to prevent, to receive, to speak, to take, to tell, to think и т. д. с общей частотой —
56048.
«ОБЫЧНЫЕ» ГЛАГОЛЫ - левые соседи
and 25 be 10 been 9 can
19 can't 10 cannot 7 could 12 didn't 15
don't 24 ever 7 had 19 hadn't
7 has 11 have 17 having 8 he 30
he'll 9 i 44 i'd 13 i'll
26 i've 13 may 16 might 10 must 21
mustn't 8 needn't 11 never 22
not 12 pray 16 shall 17 she 23 should 16
then 10 they 29 to 39 was
8 we 27 we'll 8 will 22 who 10
won't 16 would 25 wouldn't 9 you
32 you'll 17 you've 8
58 правых соседей {V} относятся к самым разным дистрибутивным классам, кроме глагольных классов и субъектных местоимений. Возглавляют список поствербы и объектные местоимения: up (37), him (36), out (35), me (34), it (33), her (26), them (26), off (24), down (23), back (22), you (22). О том, что it и you могут принадлежать к классу {O} уже говорилось, теперь такое же предположение возникает относительно her. Безусловным пополнением этого класса следует считать 'em.
«ОБЫЧНЫЕ» ГЛАГОЛЫ — правые соседи
'em 13 a 16 about 12 abroad
8 alone 7 along 14 an 7 another 7
anxiously 7 anything 15 at 10 away
14 back 22 care 8 down 23 downstairs 9
forth 8 forward 14 from 7 her
26 here 9 him 36 his 8 home 15
how 12 in 16 into 22 it
33 me 34 my 10 no 13 nothing 16
off 24 on 21 out 35 over
15 round 16 so 8 something 10 straight 15
such 8 that 13 the 14 them
26 through 12 to 19 together 7 up 37
upon 7 upstairs 9 us 12 vacantly
7 what 13 whether 7 wistfully 7 you 22
your 13 yourself 7
Список левых соседей первоначального {N} (общим числом — 24 слова) возглавляют детерминанты his (38), her (27), my (25), the (24). Важную группу здесь образуют субстантивы с суффиксом 's: boy's (8), father's (8), friend's (7), lady's (8), man's (9), mother's (9), к которым мы еще вернемся. Справа от {N} преобладают союзы и предлоги. Единственный глагол — was (10).
СУБСТАНТИВЫ — левые соседи
boy's 8 father's 8 friend's
7 her 27 his 38 its 10 lady's 8 little 8
man's 9 mother's 9 my 25 next
9 old 8 other 7 our 10 outstretched 7
own 23 quiet 8 same 12 the
24 their 9 this 11 whose 12 your 19
СУБСТАНТИВЫ — правые соседи
again 9 and 30 as 12 but
12 in 15 of 17 on 9 to 7 towards 15 upon
13
was 10 where 12 which 13 with
17
Если союзы часто следуют за классами {O} и {N}, то значит, и среди левых соседей союзов должны быть представлены объектные местоимения: him (23), me (21), them (10) и субстантивы day, days, face, house, idea, room, time. Слева от союзов появляются глаголы, присоединяющие придаточные предложения, как уже говорилось при обсуждении левых соседей {S}: say (15), know (18), knowing (12), knows (11), knew (11), see (11), wonder (11), remember (8), think (8), forget (7), saying (7).
СОЮЗЫ — левые соседи
again 13 and 10 as 12 away
9 but 13 day 11 days 7 even 11
face 9 forget 7 him 23 house
8 idea 7 just 8 knew 11 know 18
knowing 12 knows 11 me 21 now
10 once 7 out 7 remember 8 room 10
say 15 saying 7 see 11 than 8
them 10 think 8 time 11 up 8 wonder 11
Список правых соседей союзов возглавляют субъектные местоимения he (44), I (41), they (38), she (35), we (31), it (25), you (25). Есть здесь и глаголы, легко допускающие инверсию — are, can, did, do, is.
СОЮЗЫ — правые соседи
are 9 can 7 did 8 do
8 does 9 even 8 ever 8 he 44 i 41 if
12 is 10
it 25 it's 9 many 7 much
8 mrs 8 not 8 now 8 possible 7 she 35
still 7 the 11 there 19 they 38
we 31 when 10 you 25 you're 9
Основное достижение п. 4.2.2 — некоторое расширение «закрытых» дистрибутивных классов, которые теперь выглядят так:
{S} — he,
I, it, she, there, they, we, who, you;
{O} — 'em,
her (?), him, himself, it, me, myself, them, us, whom, you;
{D} — a,
all, an, another, any, both, every, her, his, its, my, no, one, our, some,
such, the, their, these, those, this, your;
{P} — after,
against, all, at, behind, beside, between, beyond, by, for, from, in, into,
like (?), of, on, through, to, towards, under, upon, with, within,
without;
{T} — about,
away, back, down, home, off, out, over, round, up;
{M} — can,
can't, cannot, could, couldn't, didn't, doesn't, don't, I'll, may, might, must,
mustn,t, need, needn't, ought (?), shall, shan't, should, shouldn,t,
we'll, will, won't, would, wouldn't, you'll;
{W} — am,
are, been, being, did, do, had, hadn't, has, hasn't, have, haven't, having,
I've, is, isn,t, warn't, was, wasn't, were, you've;
{C} — again,
although, and, as, because, before, but, certainly, directly, hardly, how, if,
indeed, lest, like (?), perhaps, possibly, readily, scarcely, since,
soon, that, then, though, till, together, unless, what, when, whenever, where,
whether, which (?), while, whom (?), yonder.
Одновременно продемонстрировано колоссальное расширение «открытых» дистрибутивных классов.
4.2.3. Морфология и дистрибутивные классы
Некоторый намек на существование конструкций вытекает уже из комбинаторики дистрибутивных классов.
Субъектные местоимения {S} регулярно предшествуют глаголам {M}, {W} и {V}. После модальных глаголов {M} следуют «инфинитивы» двух других глагольных классов (W и V). За последними регулярно появляются детерминанты (D), а за ними субстантивы {N} и адъективы {A}. Адъективам могут предшествовать «усилители» {i}, сами же они идут перед субстантивами. После глаголов {V} регулярно идут предлоги {P} и объектные местоимения {O}, предлоги же предшествуют объектным местоимениям и детерминантам. Наконец, поствербы {T} следуют за глаголами и объектными местоимениями и предшествуют предлогам.
Обратимся теперь к возможностям морфологических данных, сыгравших основную роль в выявлении русской грамматики.
Начнем с суффикса субстантивов ‑'s у 46 слов, обнаруженных среди статистически значимых сочетаний: Bella's, Boffin's, Bounderby's, boy's, brother's, child's, Clennam's, daughter's, day's, doctor's, Dombey's, Dorrit's, everybody's, father's, fellow's, friend's, gentleman's, George's, girl's, God's, heaven's, heart's, horse's, hour's, husband's, John's, king's, lady's, majesty's, man's, Martin's, master's, men's, micawber's, minute's, moment's, mother's, Oliver's, Pecksniff's, people's, Pickwick's, sister's, son's, Tom's, uncle's, week's, woman's. Порог Σ ln S = 7 превысили 42 правых соседа — за единственным исключением субстантивы: arm, arms, aunt, brother, business, church, court, daughtеr, death, eye, face, father, friend, hand, hands, head, heart, house, husband, inn, jorney, lap, mind, mother, name, neck, notice, office, own, part, party, pause, presence, room, sake, shop, shoulders, side, sister, soon, time, voice, wife, work. Налицо особая конструкция N-'s + N, включающая еще 210 разных правых соседей, не прошедших порога.
Слева от субстантивов на ‑'s находим детерминанты, адъективы (old, poor, young) и три новых слова Mr (26), Mrs (15), St (11).
Полезно было бы проверить, не образуют ли субстантивы с суффиксом некоего единства, которое проявилось бы и у форм с нулевым аффиксом (проверяются только формы средней частоты). У данной группы слов левое окружение оказалось таким, какое и следовало бы ожидать у субстантивов, а именно — детерминанты (my, his, your, her, the, a, this и т. п.) и адъективы (dear, poor, young, old, little и т. п.). Но возникают и неожиданности. Во-первых, снова слева оказались Mr (45) и Mrs (23), к которым присоединилось и третье слово — Miss (17). Значит, эта тройка слов предшествует не только формам на 's, но и всему данному классу лемм. Во-вторых, слева появились два глагола из загадочного триплета {U} — cried (12) и replied (11), к которым добавляются said (23), returned (13), asked (12), repeated (8). Интересно, что среди 10 правых соседей этой группы субстантивов находим слова said (10) и says (7). Возможность появления said и слева, и справа от субстантива прямо указывает на инверсию.
Обратимся еще к одному элементу субстантивной парадигмы — формам с суффиксом ‑s. Тридцать явных субстантивов на ‑s, никак не пересекающихся с глагольными суффиксами, показывают 12 правых соседей. Если у субстантивов в целом засвидетельствован единственный глагол was, то у данной группы этого глагола справа нет, но зато представлены два других глагола класса {W} — are и were.
СУБСТАНТИВЫ с суффиксом ‑s — левые соседи
dozen 13 eight 10 few 39 fifteen
10 fifty 17 five 28 four 24
her 8 his 22 hundred 20 many
32 my 19 of 7 old 8 other 12 own 10
several 17 six 17 some 15 ten
20 the 22 their 23 these 20
thirty 7 those 15 thousand
13 three 35 twelve 11 twenty 18 two 34
young 10 your 15
СУБСТАНТИВЫ с суффиксом ‑s — правые соседи
after 9 afterwards 13 ago
19 and 35 are 8 before 15 of 15 past 13
together 7 were 28 when 9 who 9
Данная группа отличается от субстантивов в целом и в отношении левых соседей: среди детерминантов their резко повысило свою значимость (23 вместо 9), зафиксированы слова these (20), those (15), some (15). Самое же главное — слева от субстантивов на ‑s появилась большая группа «квантификаторов» {q}: dozen (13), eight (10), few (39), fifteen (10), fifty (17), five (28), four (24), hundred (20), many (32), several (17), six (17), ten (20), thirty (7), thousand (13), three (35), twelve (11), twenty (18), two (34).
Можно
повторить нашу процедуру в обратном порядке, т. е. изучить правое окружение
квантификаторов. Тогда мы получим список правых соседей из 48 слов, из которых
только семь не относятся к субстантивам: or (24), other (11), others
(7+2), o'clock (33) и три слова из того же класса {q}: hundred (28), seven (10), thousand (32). Большинство субстантивов содержат суффикс ‑s: boys (7), chairs
(9), days (26), glasses (10), guineas (19), hours
(29), hours' (9), miles (49), minutes (28), minutes'
(14), months (7), nights (10), occasions (10), paces
(13), persons (7), places (10), pounds (47), seconds
(15), shillings (31), sisters (8), sizes (7), steps
(9), thanks (8), things (7), times (48), voices (9),
ways (11), weeks (25), words (13), yards (23), years
(60), years' (8)[61].
Одновременно засвидетельствовано пять слов, не имеющих параллелей в виде форм на ‑s: children (12), feet (25), gentlemen (11), men (23), people (12). Если бы мы обратились к субстантивам как к левым соседям глаголов are и were, то мы обнаружили бы сочетание women were.
Сходство
написания заставит нас признать членами одной парадигмы (c таким частотным
соотношением форм в корпусе): child/children 2236/935, foot/feet 643/821, man/men 8624/1850, woman/women 2024/476, gentleman/gentlemen
4288/1401. Количественно совсем по-другому выглядит соотношение форм people/peoples
2480/5. Сочетание N-0 + are/were противоречит только что найденной
конструкции N-s + are/were. Впрочем, среди статистически значимых сочетаний найдены family are/were, couple are, audience were, company were, mob were.
Само собой разумеется, с позиции are/were открывается важное внутреннее объединение в классе {S}: we (9), they (9), you (8).
Обзор окружений глагольных форм {V} начнем с 44 слов с суффиксом –s: appears, asks, becomes, begs,
brings, calls, comes, considers, depends, deserves, does, falls, feels, finds,
gets, gives, goes, happens, keeps, knows, leaves, likes, lives, loves, makes,
passes, pleases, puts, remains, repeats, returns, sees, seems, sits, stands,
stops, takes, tells, thinks, turns, waits, wants, wears, wishes.
Если правые соседи здесь те же самые, что у глаголов {V} вообще, то левые соседи чрезвычайно своеобразны. К трем давно уже установленным субъектным местоимениям — he (83), she (51) и it (29) — присоединяются три слова who (25), what (10), nobody (8), чью принадлежность к дистрибутивным классам еще предстоит определить. Впервые слева от {V} появляются субстантивы Bucket (7) и George (9). При довольно большой исходной группе малое число левых соседей указывает на то, что среди них очень много антропонимов, едва ли способных преодолеть заданный порог Σ ln S.
$ГЛАГОЛЫ С СУФФИКСОМ ‑s — левые соседи
bucket 7 george 9 he 83 it
29 nobody 8 she 51 what 10 who 25
ГЛАГОЛЫ С СУФФИКСОМ ‑s — правые соседи
a 8 away 7 her 8 it 23 me 25 out 8 to
23 up 11 upon 11 us 12
Следующим членом глагольной
парадигмы, подлежащей рассмотрению, станет форма с суффиксом ‑ing.
Исходную группу образуют 60 слов: appearing, asking, becoming, bringing,
calling, coming, considering, dying, doing, falling, finding, following,
gazing, getting, giving, growing, hanging, hearing, holding, keeping, knowing, laughing,
laying, leading, leaning, leaving, listening, living, loving, making, passing,
playing, putting, remaining, returning, rising, rubbing, running, saying,
seeing, shaking, shining, showing, sitting, smiling, speaking, standing,
staring, starting, stopping, taking, telling, thinking, throwing, trembling,
turning, understanding, waiting, walking, wishing.
Эта большая группа демонстрирует 37 правых соседей, снова совпадающих с тем, чего можно ожидать от глаголов {V}. Напротив, 18 левых соседей впервые демонстрируют четыре новых типа сочетаний.
Во-первых, это конструкция W + V-ing, в которой четыре слова класса {W} was (37), were (28), been (28), is (10) сочетаются с формой на ‑ing: was beginning, was blowing, was burning, were discussing, were dispersing, were drinking, been listening, been living, been lying, is coming, is dying, is growing. Вполне возможно, что сочетания глаголов {V} sat (11) и stood (16) следует отнести к этому же типу, ср. sat brooding, sat chatting, sat crouching, sat gazing, stood faltering, stood gazing, stood hesitating, stood holding.
Во-вторых, пока загадочное сочетание антропонима с формой на ‑ing: Martin glancing, Martin handing, Martin laughing,
Martin laying, Martin leaning, Nicholas advancing, Nicholas extending, Nicholas
hesitating, Pecksniff shaking, Pecksniff shedding, Pecksniff smiling.
В-третьих, регулярное появление
форм на ‑ing после предлогов after (19), by (23), in
(14), of (27), где эта форма ведет себя как субстантив. Максимальную Σ ln S видим у
предлога without (45) в составе 62 идиоматизированных сочетаний without appearing, without knowing, without
troubling, without being, without betraying, without deigning, without
disturbing.
Наконец, с ing'овой формой сочетается help (18) — часть одиннадцати идиоматических сочетаний с
couldn't help — help noticing, help observing, help saying,
help showing, help smiling, help thinking и т. п.
ГЛАГОЛЫ С СУФФИКСОМ ‑ing — левые соседи
after 19 and 60 been 28 by
23 help 18 in 14 is 10 martin 12 nicholas 14
of 27 pecksniff 9 sat 11
still 22 stood 16 was 37 were 28 without 45
ГЛАГОЛЫ С СУФФИКСОМ ‑ing — правые соседи
about 19 along 8 anything 8
aside 8 at 26 back 20 by 8 close 10 down
28
for 8 forward 9 from 11 her
29 here 13 herself 7 him 29 himself 16
his 33 home 8 how 15 in
20 into 15 it 16 late 6 me 17 near 7 of
7 on 35
out 31 round 10 them 12 that
13 this 7 to 24 up 45 what 16 with 16
При обсуждении глаголов {W} мы уже обратили внимание на их правых соседей и присущие им морфологические трудности. Теперь мы подошли к проверке глаголов на ‑ed и сходных с ними форм. Распределим интересующие нас слова средней частоты по четырем группам:
a) слова с суффиксом ‑ed: answered, asked, called...(31 слово);
b) слова с исходом на ‑d/t: bought, heard, met...(33 слова);
c) слова с
суффиксом ‑n:
chosen, grown, known...(25 слов);
d) бессуффиксальные слова с чередованием гласных: ate, broke, gave, knew, won, wore, wrote... (20 слов).
Данные группы
имеют много общих правых соседей: away, him, into, out, to присутствуют
во всех четырех группах; by, down, her, off, up — в трех группах. Однако
в группе с регулярным суффиксом ‑ed находим любопытную аномалию:
среди правых соседей появляются субъектное местоимение he (67 !) и
субстантивы, ассоциируемые с антропонимами: Fagin (7), Kate (7), Martin (9), Miss (11), Mr (8), Mrs (11), Nicholas (14), Ralph (9), Tom (8). Слева от
этих аномальных слов появляются такие глаголы: answered (10), asked (21), continued
(7), cried (28), demanded (7), exclaimed (11), inquired
(13), interposed (11), interrupted (11), observed (9), pursued
(11), quoth (7), rejoined (25), repeated (16), replied
(25), resumed (8), retorted (13), returned (22), said
(38), says (9), suggested (8), thought (7), whispered
(12). По два сочетания имеют added,
assented, ejaculated, faltered, gasped, growled, murmured, remarked, replies,
responded, returns; по одному сочетанию имеют еще 40 глаголов: echoed,
muttered, remonstrated, screamed, shouted, urged и т. п. Становится ясной причина выделения триплета /cried, replied, says/, это инверсия в ремарках к
репликам персонажей.
О расхождениях между четырьмя группами в связи с левыми соседями можно судить по представительству дистрибутивных классов и отдельных слов:
Va Vb Vc Vd
{S} 7 6 - 6
{W} 7 8 10 -
ever - + + -
never - + + -
С позиций семантической лингвистики эти результаты были бы вполне понятны: группы Va и Vb соответствуют либо причастиям, либо формам прошедшего времени, группа соответствует Vc только причастию, группа Vd - только формам прошедшего времени. Вместе с тем, в рамках ДСА появляются серьезные основания для постулирования двух конструкций в группах Va, Vb и Vc. Действительно, в качестве левых соседей в этих группах зафиксированы следующие слова (со значениями Σ ln S):
Va Vb Vc
had 39 57 73
has 10 34
have 38 55 59
having
26
hadn't 8
I've 7
be 28 38 31
been 17 17 28
being 13 8 9
was 16 17 22
were 7 8 16
Первые четыре формы самым естественным образом объединяются в лемму have, следующие два формы легко интерпретируются как had + not и как I + have. Сочетание HAVE + {Va}/{Vb}/{Vc} объявляется особой конструкцией.
Столь же легко мотивируется объединение be, been и being. Сложнее показать мотивы привлечения в ту же лемму форм was, were, are, is, am. Некоторое дистрибутивное сходство were и are уже демонстрировалось выше. Легкость сочетаемости are, is и am с глаголами {Va}/{Vb}/{Vc} может быть еще одним аргументом в пользу постулирования конструкции BE + {Va}/{Vb}/{Vc}, ср. am/are/is bound; am/are accustomed, acquainted, determined, engaged, married; am/is concerned, gone.
Доля названных конструкций в общей частоте формы сильно варьирует от глагола к глаголу. Представление об этом дает табл. 4.16.
Таблица 4.16
Доля конструкций с HAVE и BE в общей частоте глагольной формы
F
HAVE BE F HAVE
BE
arisen 32 81
known 1172 37
14
borne 182 36
30 lain 38 74
8
bound 395 1
44 lived 578 24
1
brought 1707
21 23 lost 895 18
20
called 1262 6
21 married 788 8
41
carried 617
11 23 paid 398 17
28
chosen 114
37 7 passed 1386 27
4
considered 520
8 28 received 720
29 18
died 491 24
risen 136 72
disposed 369
4 26 sat 2153 7
done 2793 42
24 seen 2140 45
20
drawn 285 14
26 shown 256 42
32
driven 162 22
37 spoken 452 46
20
fallen 407 65
stood 1735
6
felt 1565 8
supposed 579 14
27
forgotten 367
32 16 surprised 406
1 30
found 2206 14
17 taken 1525 44
29
given 767 52
16 taught 135 21
30
gone 1892 34
28 thought 3450
10 1
grown 248 52
5 thrown 342 15
34
happened 611
31 told 1778 16
10
heard 2078 26
17 undergone 105
76 2
helped 194 20
28 written 338
28 21
Глаголы с суффиксом
‑ed
answered,
appeared, asked, begged, called, carried, considered, died, disposed, happened,
helped, inquired, liked, lived, loved, married, observed, passed, received,
rejoined, remained, repeated, seemed, showed, stopped, supposed, surprised,
turned, waited, wanted, wished
Глаголы с суффиксом ‑ed — левые соседи
always 10 and 14 be 28 been
17 being 13 had 39 has 10 have 38 he 51
i 23 it 10 she 47 sir
8 they 23 was 16 we 12 were 7 which 7 who
21
Глаголы с суффиксом ‑ed — правые соседи
at 14 away 14 by 11 fagin
7 for 13 her 17 he 67 him 25 in 18 into
8
it 8 kate 7 martin 9 me
15 miss 11 mr 8 mrs 11 nicholas 14 on 9
out 14 over 7 ralph 9 that
11 the 8 to 40 tom 8
Глаголы
с исходом на ‑d/t
beheld,
bought, bound, brought, built, crept, felt, fled, forgot, found, heard, held, hit,
hurt, kept, laid, led, lost, meant, met, paid, read, sat, sent, set, slept,
sold, spent, spread, stood, taught, thought, told
ГЛАГОЛЫ С ИСХОДОМ на ‑d/t — левые соседи
and 22 be 38 been 17 being
8 ever 14 had 57 has 17 have 55 he 46
i 33 i've 7 never 23 often
10 she 29 soon 11 still 8 they 22
was 17 we 14 were 8 who 20
ГЛАГОЛЫ С ИСХОДОМ на ‑d/t — правые соседи
aside 9 away 8 before 9 by
8 down 16 for 8 forth 11 her 23 him 34
himself 17 his 11 in 20 into
8 it 30 me 17 myself 7 of 8 off 9 out
19
that 10 the 8 them 20 to
15 up 22 upon 17 us 8 with 7 you 7
Глаголы с суффиксом
‑n
arisen,
beaten, borne, broken, chosen, drawn, driven, fallen, forgotten, given, gone,
grown, known, lain, risen, seen, shaken, shown, spoken, stolen, taken, thrown,
undergone, worn, written
ГЛАГОЛЫ С СУФФИКСОМ ‑n — левые соседи
already 10 be 31 been 28 being
9 ever 11 had 73 hadn't 8 has 34
have 59 having 26 never 11
not 9 was 22 were 16
ГЛАГОЛЫ С СУФФИКСОМ ‑n — правые соседи
away 14 by 20 down 18 from
11 him 10 into 16 off 15 on 7 out 19
over 7 through 7 to 16 up 18
Бессуффиксальные
глаголы с чередованием гласных
ate,
bore, broke, chose, drank, drew, drove, fell, flew, gave, knew, ran, rang,
shook, spoke, stole, threw, withdrew, won, wore, wrote
БЕССУФФИКСАЛЬНЫЕ ГЛАГОЛЫ С ЧЕРЕДОВАНИЕМ ГЛАСНЫХ — левые соседи
and 22 he 45 I 15 she
34 they 15 we 8 who 13
БЕССУФФИКСАЛЬНЫЕ ГЛАГОЛЫ С ЧЕРЕДОВАНИЕМ ГЛАСНЫХ — правые соседи
a 9 away 12 back 13 down
12 her 17 him 12 his 8 into 15 off 18 out
14
to 11 up 14 upon 10
Морфологически
хорошо очерченная адъективная парадигма обладает формами с суффиксом ‑er,
имеющими свои особые окружения. Исходный список 18 слов (closer, deeper, earlier, easier, faster,
greater, happier, higher, larger, later, longer, louder, lower, nearer, older,
sooner, wider, younger) показывает очень немного соседей. Среди левых соседей a (12) и the
(7) — обычные детерминанты, предшествующие субстантивам и адъективам; остальные
четыре левых соседа — little (16), much (21), no (11), still
(8) могут считаться характерными сопроводителями компаративов; справа таким
диагностирующим сопроводителем выступает слово than (45 !). Отправляясь обратно от этих сопроводителей (т. е. налево от
than и направо от little,
much, no, still) получим такой набор соседей: Σ ln S > 7 better
(12), farther (11), further (11), higher (9), less
(15), longer (13), more (20), older (9), sooner
(8), worse (9), younger (7); Σ ln S 4-6: bigger,
closer, easier, fewer, greater, happier, harder, larger, later, nearer, other,
quicker, shorter, slower, stronger, taller.
Еще 37 слов появляются в одиночных статистически значимых сочетаниях: brighter, cleaner, clearer, colder,
darker, dearer, deeper, earlier, fairer, faster, finer, fresher, handsomer,
heavier, kinder, louder, oftener, paler, plainer, poorer, prettier, quieter,
rather, redder, richer, sharper, shyer, slighter, smaller, stranger, tighter,
truer, warmer, weaker, wider, wiser, worthier.
Завершим обзор морфологических
данных анализом адъективов с нулевым суффиксом. К исходной группе в 59 слов отнесем те
адъективы, которые могут сочетаться с положительными суффиксами (‑er,
‑est, ‑le): anxious, bad, bright, busy, certain, clear,
close, cold, common, dark, dead, deep, distant, early, fair, fine, former, free,
full, gentle, handsome, happy, hard, heavy, high, hot, kind, large, late,
light, long, loud, low, mere, narrow, natural, near, new, particular, perfect,
personal, plain, pleasant, possible, pretty, quick, quiet, ready, real, rich,
sharp, slight, small, soon, strange, sudden, sure, sweet, true, usual
Левые соседи адъективов (как и в случае субстантивов) включают целый ряд детерминантов: a (130 !!), her (24), his (15), its (16), no (11), our (8), same (8), some (20), the (48 !), their (12), this (14). В отличие от субстантивов слева от адъективов обнаружены две важные группы слов:
Во-первых, формы am (16), be (27), is (11), it's (8), was (31 !), were (8). Тем самым достраивается парадигма глагола BE. Здесь же видны еще два глагола getting (7) и growing (8). С конституированием леммы BE, а еще раньше — HAVE, распадается на две леммы первоначально выделенный дистрибутивный класс {W}.
Во-вторых, целая группа специфических приадъективных детерминатов класса {i} very (101), so (71), too (45), pretty (32)[62], quite (28), а также extremely, most, particularly, perfectly.
Из «союзов» отметим how (18) и as (21), столь же регулярно появляющийся и справа от адъектива.
АДЪЕКТИВЫ — левые соседи
a 130 am 16 as 21 be
27 extremely 11 getting 7 growing 8
her 24 his 15 how 18 in
10 is 11 it's 8 its 16 most 10
no 11 our 8 own 12 particularly
7 perfectly 14 pretty 32
quite 28 same 8 so 71 some
20
the 48 their 12 this 14 too
45 very 101 was 31 were 8
Среди множества правых соседей (56 слов) преобладают субстантивы, но встречаются и адъективы «цвета и света» black, blue, dark, grey, red, white. Изолированным кажется слово enough с максимальным Σ ln S = 40.
АДЪЕКТИВЫ — правые соседи
air 8 and 24 as 15 at
9 black 13 blue 7 boy 12 child 9 creature 10
dark 8 dress 8 enough 40 eye
10 eyes 10 face 15 faces 7 fellow 7
figure 8 for 8 friend 11
glance 8 girl 10 grace 7 grey
7 habit 8 hair 12 hour 12 in 9 life 11
man 13 manner 7 morning
10 of 15 place 12 position 7 red 10
room 11 sense 10 sigh 11 silence
9 sleep 7 spirits 10 state 7
street 9 summer 7 that 12 thing
16 to 24 upon 12 voice 19
way 11 weather 16 weight
8 white 7 wind 9
[1] Точно такое же ограничение распространяется на буквы Г и Х.
[2] Номера парадигм из списка п. 2.2.4 будут даваться в косых скобках.
[3] Вопросительный знак при слове прав указывает на большую вероятность омонимии.
[4] Вышеприведенный пример смешон — единственное исключение.
[5] В эту группу входят: нов‑, стар‑, добр‑, цел‑, молод‑, русск‑, велик‑, бел‑, мил‑, разн‑, полн‑, черн‑, бедн‑, знаком‑, высок‑, готов‑, стран‑, собствен‑, умн‑, весел‑, красн‑, длинн‑, сильн‑, особенн‑, счастлив‑, прост‑, родн‑, темн‑, жив‑, больн‑, подобн‑, прекрасн‑, богат‑, свят‑, глуп‑, чист‑, огромн‑, пуст‑, честн‑, главн‑, красив‑, тяжел‑, тих‑, пьян‑, довольн‑, широк‑, важн‑, бледн‑, благородн‑, несчастн‑. За пределами группы оказалось 8 самых частых основ (котор‑, так‑, друг‑, как‑, сам‑, перв‑, всяк‑, кажд‑), выходящих за границы нашего поля наблюдения.
[6] Напомним, что орфографические ‑и после к‑, г‑ и х‑ заменены на ‑ы.
[7] Лишь у слова синий конечному ‑н- основы предшествует гласная. Во всех остальных случаях здесь находим либо сочетание согласный + н: ближн‑, нынешн‑, либо удвоенное –нн‑: ранн‑, осенн‑.
[8] В эту группу входят городнич‑, дюж‑, жгуч‑, летуч‑, леш‑, лучш‑, младш‑, могуч‑, неуклюж‑, нехорош‑, нищ‑, общ‑, падуч‑, певч‑ подьяч‑, похож‑, приезж‑, прихож‑, прохож‑, проч‑, рабоч‑, рыж‑, свеж‑, стряпч‑, сумасшедш‑, сущ‑, тощ‑, хорош‑; ближн‑, верхн‑, весенн‑, внутренн‑, дальн‑, домашн‑, древн‑, завтрашн‑, замужн‑, здешн‑, ихн‑, крайн‑, летн‑, лишн‑, нижн‑, осенн‑, передн‑, последн‑, прежн‑, син‑, соседн‑.
[9] Феноменальная доля суффикса ‑ей частично объясняется формой крайней, входящей в трехсловное сочетание по крайней мере.
[10] И это при том, что форма глаза вышла за пределы поля наблюдения, с ее учетом цифра достигла бы 55%.
[11] У нулевых форм месяц и принц, а также у имен собственных (аустерлиц, гольц, штольц, шульц) в нулевой форме изменений не происходит. У основы зайц- в нулевой форме находим заяц.
[12] Включены и те формы, которые выходят за пределы поля наблюдения.
[13] Для парадигмы Bc подсчет произведен по 80 самым частым основам с общей частотой 120 тысяч.
[14] Для парадигмы Be подсчет произведен по 106 самым частым основам с общей частотой 283 тысячи словоупотреблений.
[15] Лишь в двух основах конечному ц- предшествует согласный. Это слова овца и дверца. В основе убийц- в этой позиции оказывается –й‑.
[16] Конечно, такая интерпретация возможна только с позиций семантической лингвистики.
[17] Подсчет по 78 самым частым основам с общей частотой 140 тысяч словоупотреблений.
[18] У основ господ и татар в кластере «множественности» появляются и другие суффиксы.
[19] Подсчет произведен по 25 самым частым основам с общей частотой 59 тысяч: александр, алексе‑, андре‑, антон, ардальон, борис, васили‑, владимир, григори‑, егор, захар, иван, карл, константин, максим, никола‑, павл‑, петр, платон, роман, семен, серге‑, степан, федор, цар‑.
[20] Подсчет произведен для всех основ с суффиксом ‑ов/‑ев (общая частота 64 тысячи) и с суффиксом ‑ин (23 тысячи).
[21] Пятнадцать основ с общей частотой 1064: бабушкин, братнин, дядин, женин, лизин, маменькин, материн, матушкин, мужнин, настин, ольгин, сестрин, теткин, тетушкин, хозяйкин.
[22] С позиций семантической лингвистики в эту парадигму следовало бы перенести государев, отцов, царев.
[23] Об основе (1) и основе (2) см. ниже.
[24] У части основ вместо ‑и появляется ‑ь: брось, верь, готовь, заставь, мучь, ответь, отправь, поздравь и др.; у таких основ появляется дополнительный суффикс ‑ьте.
[25] Подобно начать изменяются зачать и почать, а подобно клясться — поклясться и проклясть. Формы даются здесь с цифрами частоты в корпусе. Омонимия с субстантивом помечена вопросительным знаком.
[26] Речь не идет о тех же основах со всевозможными префиксами. Префиксальные основы всегда относятся к той же парадигме, к которой относится первообразная основа, ср. стой — стоять, выстоять, настоит — настоять, обстоит — обстояло, отстоит — отстоять, постой — постоять, предстоит — предстояло, простоит — простоять, состоит — состоять, устоит — устоять.
[27] В адъективных парадигмах ‑ся остается неизменным. В глагольных парадигмах ‑ся превращался в ‑сь после ‑ла, ‑ли, ‑ло и ‑вши.
[28] Напомним, что в исходном тексте сняты все знаки препинания, поэтому рядом оказываются была ваше из исходного была, ваше (благородие).
[29] Слова этого типа 45 раз появляются справа от лет, общее же число правых соседей составляет 101.
[30] Еще одним примером такого прорыва может стать такой факт: числа от 1 до 31 в левой позиции дают 350 сочетаний из 449 сочетаний, где в правой позиции встречаются слова августа, апреля, декабря, июля, июня, марта, мая, ноября, октября, сентября, февраля, января (m=0,8; S=386). Среди 292 сочетаний со словами года и году в правой позиции находим 144 числа, начинающихся на 18 (1861, 1862, 1863 и т. п.) (m=0,17; S=351). Семантика леммы год демонстрируется самым наглядным образом.
[31] По умолчанию глагольные суффиксы включают и частицу ‑ся, если она не включена, это помечено астериском *.
[32] У предлогов в и на обнаружилась связь с ‑у (be-bg), такая же, как и после предлогов про и через. Интерпретация этого факта как доказательство особого («винительного») падежа подкрепляется связью с адъективным суффиксом ‑ую. В пользу такого вывода свидетельствует группа частых адъективов (см. ниже).
[33] Отметим, впрочем, что слова его, ее и их («притяжательные» местоимения) появляются после предлогов и без наращивания н- в тех случаях, когда за ними следует субстантив. Вот несколько примеров таких сочетаний с их частотами: в его 3022, в ее 1739, на его 1834, на ее 1115 (ln S = 2), из его 462, из ее 280, из их 79, к его 682, к ее 417, к их 164, о его 402, о ее 234, о их 47 (ln S < 2).
[34] Супплетивный характер некоторых из них не может быть доказан в рамках минимального интервала.
[35] Здесь и ниже включаются лишь те глаголы, у которых не менее трех форм преодолели порог ln S = 2.
[36] С позиций семантической лингвистики сочетания «глагол + У» не могут рассматриваться как случаи глагольного управления. Семантическим центром всей конструкции становится существительное в родительном падеже, указывающее на повышенный социальный статус обозначаемого лица по сравнению со статусом лица, обозначенного подлежащим.
[37] Три формы глагола спать (спавший, спал, спала) сочетаются с местоимением всю и оказываются в одной группе с «переходными» глаголами. Одна ошибка (исправляемая в ходе дальнейшего анализа) на 240 решений — вполне приемлемая эффективность в рамках формального анализа.
[38] Область пересечения указана в списке астериском.
[39] Только на этапе минимального интервала окончательно достроена нестандартная парадигма глагола дать, ср. дай вам (3:70), дал вам (2:26), дам вам (3:42), даст вам (2:15), дать вам (3:55); дадим знать (2:3), дадут знать (2:5), дал знать (3:32), дали знать (4:35), дам знать (2:14), дать знать (4:53).
[40] В корпусе 15 раз появилось слово плоше, но ни разу оно не повторилось в каком-либо сочетании и, следовательно, не могло быть учтено в минимальном интервале.
[41] Напомним, что речь идет лишь о сочетаниях, преодолевших барьер ln S = 2. Во всем корпусе прозы счет шел бы на десятки тысяч.
[42] Появление слова время в таких окружениях, частое присутствие у него левого соседа с суффиксом ‑ое (блаженное, долгое, короткое, настоящее, некоторое, первое, последнее и т. п.) ставят его в один ряд с парадигмами bc и bd. Однако с собственно морфологической точки зрения перед нами открывается особая парадигма (bm) с формами время, времен, времена, временам, временами, временах, временем, времени. Ровно такой же набор суффиксов засвидетельствован у слова имя. К этой же парадигме несомненно относятся бремя, знамя, пламя, племя. У слов семя и стремя зафиксирован суффикс ‑ян, слово темя (с формами теменем, темени, темень) двусмысленно.
[43] Об этих последних будет сказано в следующем параграфе.
[44] Особняком стоят 82 сочетания с будь(те) в левой позиции. Здесь ни одного «инфинитива» справа, но справа находятся 53 предикатива, что дает S=40, ср. будь здоров (4:23), будь готов (3:13), будьте покойны (7:130), будьте уверены (6:101).
[45] Намек на фиксацию лексико-грамматической омонимии во множественном числе, ср. военное судно, военного судна, военном судне, иностранное судно, купеческое судно, наше судно, парусное судно, парусных судов, силуэты судов, иностранные суда, купеческие суда, мелким судам, военных судах, на судах; ср., однако, в судах (2:27) и военным судом (5:7).
[46] Существование всего одной контрастной пары для очень частого слова глаза не должно нас удивлять. Подсчет с позиций семантической лингвистики показал, что формы единственного числа составляют лишь 4.2% общей частоты леммы ГЛАЗ.
[47] За пределами ЗЧС есть еще два общих правых соседа afore и wore.
[48] За
пределами ЗЧС найдем еще 10 общих соседей: autumn, fine, memorable, next, preceding,
previous, summer, windy, winter, wintry.
[49] На шаге S=8 сюда присоединится don't.
[50] В скобках даны значения S при дальнейшем движении вниз.
[51] В фигурных скобках дается буквенный символ, присвоенный данному классу для использования в дальнейшей краткой записи конструкций.
[52] Краткий ярлык «союзы» не совсем точен. Как мы увидим далее, сюда примыкают и некоторые «наречия», выпадающие из строго порядка слов английского языка.
[53] Отмечено всего пять исключений — all, always, ever, never, really.
[54] По дистрибутивным соображениям к классу {W} следует отнести ain't, isn't, warn't, wasn't; сюда же попадает и does.
[55] Появление здесь же слова you указывает на то, что это слово — еще один случай совпадения классов {S} и {O} (подобно слову it).
[56] Класс {C} пополняется словами directly, together и younder.
[57] Здесь же, как и среди правых соседей, регулярно появляется слово never.
[58] Глагол справа — настолько характерная черта класса {M}, что заставляет считать глаголом слово like, до сих пор безоговорочно числившееся в классе {P}. К проблеме омонимии еще будет повод вернуться.
[59] Впрочем, в корпусе Диккенса 131 раз появилось просторечное know'd, и 42 раза knowed, частоты литературных форм knew и known равны соответственно 2049 и 1172.
[60] Наличие –d/‑t в исходе этих форм есть известный намек на морфологическую регулярность. Особыми формами в этой позиции придется признать come и become, поскольку появление глагола с нулевым суффиксом справа от {W} совершенно невозможно.
[61]
Зафиксированы два субстантива pound и year рядом с регулярными
формами на ‑s. Первая форма закономерна, когда после числа фунтов
указывается число шиллингов: at
the cost of four pound ten! Что касается слова year справа от
квантификатора, то это отражение просторечия. Ср. два примера из «Давида Копперфилда»: [Mr. Peggotty] He says to me, a
shaking of my hand, «I will!» he says. And he was — honourable and manful — for
two year going on, and we was just the same at home here as afore; «I have
been with him going on four year, Master Copperfield», said Uriah.
[62] Таким образом, справа от
pretty в статистически значимых сочетаниях мы
обнаружили две четко различимые группы: 1) субстантивы housemaid (ln S = 4), girl (3), toy (3), creature,
creetur, face, figure, hair, language, sort, thing, witness; и 2) адъективы и
тяготеющие к ним
слова ln S
= 4 nigh, well, ln S = 3 clear, comfortable, freely,
large, little, sure и еще 27 слов (good, hard, long, strong, wide и т. п.).