Семинар «Теория и практика авторской лексикографии»

2 апреля на очередном заседании семинара прозвучал доклад д. ф. н. О. В. Кукушкиной, д. ф. н. А. А. Поликарпова, к. ф. н. Е. В. Суровцевой «Частотный грамматико-семантический словарь языка художественных произведений А.П.Чехова (с электронным приложением) как особый лексикографический продукт».

Читателю предлагается лексикографический труд нового типа, в котором реализовано сочетание Словаря и электронного Корпуса текстов. Это сочетание представляется нам принципиально важным и перспективным, так как оно создает новые возможности работы со словарем и позволяет читателю проводить дальнейшее самостоятельное исследование особенностей языка и творчества писателя.

Словарь выпущен в электронном виде (на диске) вместе с приложением. Данное электронное издание содержит: 1. «Частотный грамматико-семантический словарь языка художественных произведений А.П. Чехова». Авторы: Кукушкина О.В., Суровцева Е.В., Лапонина Л.В., Рюдигер Д.Ю.; 2. Электронный корпус художественных текстов А.П.Чехова, на базе которого создавался словарь. Создатели: Кукушкина О.В., Суровцева Е.В., Лапонина Л.В.; 3. Программное средство для работы с корпусами текстов «Компьютерная информационно-исследовательская система для работы с электронными корпусами текстов „ИСТОК“». Разработчики: Федотов В.В., Кукушкина О.В., Поликарпов А.А.; 4. Методическое руководство по работе с системой «ИСТОК» и корпусом текстов А.П. Чехова. Авторы: Кукушкина О.В, Суровцева Е.В, Поликарпов А.А., Варламов А.А., Федотов В.В.

Корпус, как и словарь, создан в Лаборатории общей и компьютерной лексикологии и лексикографии (зав. лаб. А.А.Поликарпов) сотрудниками кафедры русского языка филологического факультета МГУ (зав. каф. М.Л.Ремнёва). В этом проекте принимали участие также студенты филологического ф-та МГУ Н.Гончарова, С.Гусева, А.Чернышова, С.Воробей, М.Фалдина, работавшие в спецсеминаре О.В.Кукушкиной «Создание и исследование авторских корпусов текстов».

В данном Словаре и Корпусе представлены все законченные художественные произведения А.П.Чехова (без вариантов и редакций). Тексты даются по академическому изданию А.П.Чехова в 30 т. – М.: Наука, 1974–1983.

Тип единиц	Количество
Тексты	600: 17 пьес, 583 прозаических произведения
Словоупотребления	1 271 664: пьесы –176 308; проза – 1 095 356
Разные словоформы	101 282: пьесы – 23 093; проза – 96 141
Разные лексемы	36 419: пьесы 11 802; проза – 34 763 (без сведения вариантов)

Текст «Иванов» (1887) входит в Корпус и учитывается при подсчетах в полном объеме. В этом состоит отличие Корпуса от «Частотного грамматико-семантического словаря», которое важно учитывать при сопоставлении данных Корпуса и Словаря: в Словарь вошли только уникальные слова из данного произведения.

Словоупотребления на других языках представлены в корпусе, как и в Словаре, только словоформами. Исключение составляют только написанные латиницей существительные, грамматически связанные с русскими словами и являющиеся частью русского текста.

В Словаре четыре раздела. В первом разделе дано описание состава лексических единиц художественных произведений А.П.Чехова (см. раздел I, Лексический состав языка художественных произведений А.П.Чехова). Этот раздел содержит более 34 тысяч заглавных единиц (включая цифры, средства нумерации списков, компоненты фраз на иностранных языках).

При описании лексического состава использовался грамматико-семантический принцип группировки лексики. Он заключается в том, что все слова сопровождаются частеречной характеристикой, но при этом группируются они не только в соответствии с частеречной принадлежностью, но и на семантическом основании. В начале Словаря даются имена собственные и их производные. Имена собственные разделены на четыре группы: (1) имена лиц, (2) клички животных, (3) названия кораблей, (4) топонимы, этнонимы и их производные. Слова знаменательных частей речи, не являющиеся именами собственными (и их производными), разделены на (1) нарицательные и местоименные существительные; (2) глаголы и глагольные предикативы; (3) прилагательные, наречия, компаративы, именные предикативы; (4) количественные слова. В группу «Количественные слова» включены, помимо числительных, существительные, именующие единицы измерения, отметки и пр. Местоименная лексика не выделяется в самостоятельный класс и дается как особая подгруппа в начале каждой из четырех основных групп, на которые разделены знаменательные части речи. Это позволяет, с одной стороны, сохранить единство слов с местоименным типом значения и, с другой стороны, дает возможность объединить последние с полнозначными единицами сходного грамматического типа. Однако, поскольку важно представить местоименную лексику и как единый семантический класс, во второй раздел Словаря включен подсловарь «Слова с местоименной семантикой». Описание незнаменательных частей речи также имеет ряд особенностей. Во-первых, в одну группу объединены предлоги и соотносительные с ними наречия. Во-вторых, в особую группу выделяются звукоподражания. Это позволяет нагляднее показать, как много единиц этого типа в текстах А.П.Чехова. В отдельную группу выделены также названия букв, нот и части слов, встречающиеся в текстах произведений.

Словарь одновременно является и частотным, так как для каждой лексической единицы дается информация о количестве употреблений и количестве текстов, в которых она встречается, как общем, так и отдельно для драматических и прозаических произведений.

Во втором разделе дано описание состава отдельных групп и рядов единиц, выделенных из общего словника на семантическом основании (раздел II, Отдельные семантические группы и ряды слов). При составлении «подсловарей» мы пытались отобрать такие группы слов, которые представляют несомненный интерес с лингвистической, литературоведческой и когнитивной точек зрения (см. группы «Единицы, передающие звуковое восприятие», «Наименования лиц» и др.).

В третьем разделе приведены некоторые результаты количественного анализа лексики художественных произведений Чехова. Сначала дано количественное соотношение единиц выделяемых типов (Табл. 1 и Табл. 2); затем – перечень наиболее регулярных слов произведений Чехова (лексические единицы, употребляемые в ста и более произведениях – Табл. 3). Среди таких слов есть и единицы с относительно невысоким количеством употреблений, но распределенные достаточно равномерно по текстам. Перечисленные в Табл. 3 слова составляют «лексическое ядро» языка чеховских художественных произведений. В этой же таблице указаны самые регулярные слова для прозаических (100 произведений и более) и драматических произведений (8 пьес и более). Раздел III содержит также традиционный для частотных словарей перечень слов с наибольшим числом употреблений (первая сотня) (Табл. 4).

В четвертом разделе дано описание электронного приложения к Словарю.

Структура словарной статьи. Полная словарная статья дается в разделе I. Она содержит следующие данные: (1) заглавное слово; (2) его грамматическая характеристика; (3) его количественная характеристика; (4) данные о вариантах (если варианты сводились в одну статью). Кроме того в части случаев после заглавного слова (иногда варианта), дается (5) семантический комментарий. В тех случаях, когда описать значение единицы сложно, приводится контекст употребления с указанием произведения. При фамилиях в качестве семантического комментария дается указание на произведение, в котором упомянуто данное лицо, а также краткая информация об этом лице.

Частотные характеристики в словаре. Для каждой единицы словаря дана количественная информация двух типов: количество употреблений и количество текстов, в которых использовано слово. Эта информация приводится как для всех текстов в целом, так и для прозы и драматургии в отдельности.

При работе с количеством употреблений мы столкнулись с такой трудностью, как огромное дословное совпадение двух произведений: комедии «Иванов» (1887 г.) и драмы «Иванов» (1889 г.). Два этих произведения практически являются разными редакциями одного текста. «Равноправный» их учет может исказить общие данные об употребительности лексических единиц. Поэтому было реализовано следующее решение: в Словаре материал более раннего произведения («Иванов» 1887) используется только в том случае, если он уникален, то есть какое-то слово (или вариант) не встречается ни в одном другом произведении. Такие единицы помечены в Словаре особым образом: они заключены в ломаные скобки и при них указано название произведения и год («Иванов» 1887). Если уникальная единица является вариантом, то она дается в отдельной статье, но с пометой ‘*’. Во всех остальных случаях количество употреблений и число текстов дается без учета пьесы «Иванов» (1887), т.е. только по «Иванову» (1889). При этом название без указания года («Иванов») означает произведение 1889 года.

Грамматическая характеристика в словарных статьях. Частеречная характеристика, даваемая в Словаре, в целом соответствует системе грамматических классов, используемых в «Грамматическом словаре русского языка» А.А.Зализняка. То есть выделяются такие «нетрадиционные», но функционально важные грамматические разряды, как предикатив, сравнительная степень, вводное слово, местоимение-существительное. Отдельно описываются звукоподражания, буквы, ноты, части слов, средства рубрикации и компоненты иностранного текста. В последний класс включались единицы, входящие во фразы на иностранном языке, то есть не интегрированные в русскую речь. Такие единицы не приведены к начальной форме и грамматически не охарактеризованы. Снятие межчастеречной омонимии у некоторых местоименных слов и служебных частей речи не производилось. В этом случае при единице дается несколько грамматических характеристик. Наличие у слова аномальных грамматических форм фиксируется в комментарии.

Лексическая вариативность, омонимия и полисемия. Варианты слов мы стремились свести в одну словарную статью, хотя границы вариативности и само понятие «вариант слова» достаточно размыты. В качестве заглавного слова в Словаре используется один из встреченных в корпусе вариантов, который принимается за главный. Это, в общем случае, либо нормативный для современного языка вариант, либо вариант, наиболее употребительный у Чехова. При заглавном слове дается общая частота всех сводимых в одну единицу вариантов. Главный вариант с его собственной частотой приводится в статье последним. Варианты даются после отступа со знаком ‘*’. В качестве особого типа вариантов рассматриваются усилительные сочетания типа «быстро-быстро». Варианты этого типа представлены и в виде отдельного подсловаря в разделе II. Здесь же приведены также некоторые варианты особого типа, не отраженные в словарных статьях. Они представляют собой запись звучания слова и фиксируют интонационные особенности, а также отдельные дефекты речи, акцент и пр. Способ произнесения слова у Чехова экспрессивно очень нагружен и несет большую коммуникативную информацию. Фиксируя его, писатель очень точно отражает и в полной мере использует коммуникативные возможности русской звучащей речи. Поэтому произведения Чехова можно использовать и как источник для изучения этой речи.

В качестве вариантов в Словаре даны также некоторые иностранные лексические единицы, использованные в русской речи. При наличии русифицированного варианта они приводятся в общей статье с ним; при отсутствии такого варианта – в конце грамматического класса, к которому их можно отнести. Это помогает, в частности, оценить степень освоенности заимствования русским языком чеховского периода.

Лексическая омонимия полнозначных слов в Словаре и Корпусе последовательно разрешалась. Омонимы снабжены цифровым индексом. Цифры использовались для различения единиц еще в двух случаях. Во-первых, по аналогии с омонимами оформляется часть переносных значений типа «предмет, животное > лицо». Это решение связано с тем, что способы номинации лиц представляют особый интерес для исследователей языка писателя. Однако в Словаре в части случаев используется и традиционный способ описания, при котором переносное значение в самостоятельную статью не выделяется. В этом случае делается специальное указание на наличие такого значения.

Во-вторых, цифровая индексация используется и при описании «однофамильцев». В Словаре реализован следующий принцип: совпадающие фамилии разных лиц (как реальных, так и персонажей) описываются в отдельных статьях под особым индексом. С именами и отчествами такая работа не проводилась.

Для самых регулярных единиц, имеющих частотные употребления фразеологического типа, была проделана дополнительная работа по разделению полнозначных и неполнозначных употреблений.

Семантический комментарий и иллюстративные примеры. В Словаре последовательно комментировались омонимы (комментарий не дается только для функциональных омонимов типа предикатив/наречие, предлог/наречие). Кроме того, мы старались описать значение тех слов, которые могут быть непонятны вне контекста, имеют в контексте нестандартное значение или требуют знания реалий. Семантические пояснения даются в квадратных скобках.

В качестве толковательной основы при работе над семантическим комментарием использовался «Толковый словарь русского языка с включением сведений о происхождении слов» (отв. редактор Н.Ю.Шведова, М., 2007). При составлении комментария мы опирались также на книгу Ю.А.Федосюка «Что непонятно у классиков, или Энциклопедия русского быта XIX века» (М., 1998) и другие источники.

Поскольку в распоряжение читателя предоставлен электронный словный конкорданс и доступ к полным текстам, в самом Словаре нет необходимости приводить примеры из текстов и указывать названия произведений, в которых употребляется слово. Тем не менее, в плохо понятных без контекста случаях дается иллюстративный пример, поясняющий значение или грамматическую характеристику. Название произведения при этом указывается в скобках и кавычках.

Наличие семантического комментария и поясняющих иллюстраций позволяет читателю работать со Словарем и без Корпуса текстов. Однако сочетание Корпуса и Словаря предоставляет новые возможности для самостоятельного исследования текстов А.П. Чехова.

Корпус размечен следующими типами информации: 1. Словоформа; 2. Начальная форма слова; 3. Название произведения; 4. Подзаголовок и посвящение; 5. Год написания произведения; 6. Периодизация (мы даем три известные нам периодизации); 7. Тип текста: прозаический или драматический; 8. Подпись; 9. Жанр текста; 10. Авторский жанр; 11. Речевой жанр; 12. Место написания; 13. Тип повествователя; 14, 15. Набор тем и Тема; 16. Семантический класс (Гео; Лицо; Имя; Цвет; Звук; Произ.); 17. Части речи; 18. Особые употребления; 19. Том и страница в собрании сочинений.

Основные функции и возможности системы. Корпусная информационно-исследовательская система «Исследование Словаря, Текстовых Особенностей, Конкордансов» («ИСТОК») позволяет: (а) просматривать и копировать в файл имеющиеся словари и конкордансы; (б) получать новые словари и конкордансы путем комбинирования тех типов информации, которыми размечен корпус; (в) работать с каждым произведением в полнотекстовом режиме и получать справочную информацию о нем. Работа в системе возможна в трех режимах: (1) «Конкорданс», (2) «Текст» и (3) «Справочные материалы».

Главным является режим «Конкорданс». Через него осуществляются основные виды операций с корпусом – работа со словниками, контекстами и переход в полный текст произведений. Он дает доступ к типам информации, которыми размечен корпус.

Компоненты конкорданса – словник и контексты – располагаются в разных окнах. Они связаны между собой, и при перемещении по словнику меняется набор контекстов. Каждая строчка окна контекстов представляет собой особый контекст, иллюстрирующий конкретный случай употребления выбранной единицы. Длина контекста по желанию может увеличиваться и уменьшаться. Каждый из конкордансов группирует материал корпуса особым образом в соответствии с выбранным типом информации.

При выборе конкретного типа информации открывается словник нужного конкорданса, для каждого из элементов которого можно получить: список его контекстов; сведения о его частотности; адрес элемента, т.е. текст, из которого взят его контекст.

Словник конкорданса может быть отсортирован трояким образом – по алфавиту, по частоте, а также c конца единиц. Это дает возможность получать словари разных типов – алфавитно-частотные, частотные и обратные – по всем тем единицам, которые выделены в корпусе. Контексты также могут быть отсортированы различным образом.

Контексты, тексты, а также словники могут быть помещены в буфер и сохранены в текстовый файл.

Доступ к конкретному тексту также осуществляется через режим «Конкорданс». Для этого нужно выбрать нужный контекст и перейти в закладку «Текст». Если необходимо найти определенное произведение, то нужно выбрать тип информации «Названия произведений» и, установив курсор на нужное название, перейти в «Текст».

При работе с конкретным контекстом можно вызвать вспомогательное окно, в котором показан текст произведения (по правой клавише мыши), либо перейти в полнотекстовый режим, нажав на закладку «Текст».

Для единиц некоторых конкордансов («Слова», «Названия произведений», «Особые употребления») автоматически выдается дополнительная информационная справка – словарная статья из справочных материалов.

Помимо уже готовых конкордансов, выбираемых из меню «Тип информации», система позволяет получать новые конкордансы. Для этого используется функция «Фильтр». Установка Фильтра на одном из элементов словника конкорданса позволяет «пересечь» информацию, содержащуюся в конкордансах разного типа, что и создает возможность для самостоятельного исследования корпуса.

Полезной функцией системы является возможность анализа совместной встречаемости элементов. Пользователь может получить конкорданс со списком всех элементов, находящихся на определенном месте слева или справа от изучаемой единицы.

Сочетаемость удобно также исследовать с помощью функции «Сортировка контекстов».

Режим «Справочные материалы» позволяет просматривать две базы данных: «Примечания и персоналии» и «Семантический комментарий». В первой собраны Примечания к произведениям А.П.Чехова» (по Академическому изданию в 30-ти томах), а также справочная информация о некоторых связанных с А.П.Чеховым и/или упоминаемых им лицах. Вторая база содержит семантические комментарии к выделенным лексическим единицам произведений. Они в целом совпадают с теми комментариями, которые даны в публикуемом «Частотном грамматико-семантическом словаре». Информация из этих справочных баз автоматически показывается также при выборе заглавных единиц в режиме «Конкорданс», а также при чтении текста. В системе «ИСТОК» имеется подробная гипертекстовая справка, вызываемая из верхнего меню.

Со Словарем можно ознакомиться на сайте лаборатории http://www.philol.msu.ru/~lex/. Вопросы и пожелания просим направлять на электронный адрес lex@philol.msu.ru.