Исключение как правило: Переходные единицы в грамматике и словаре - Михаил Копотев читать книги онлайн бесплатно полностью без регистрации стр 11.

Шрифт

Фон

Это расширенное понимание коллокаций несколько противоречит более строгому, собственно лингвистическому, пониманию коллокаций как единиц, имеющих связанное, некомпозициональное значение [Мельчук 1960; Melcuk 1995а; Борисова 1995; Кустова 2008в и др.]. С другой стороны, такой подход позволяет включить широкий и, надо сказать, слабо оформленный список единиц, предполагающий дальнейшую более строгую классификацию, исходящую не из теоретических предпосылок, а из закономерностей, выявляемых в реальном массиве языковых данных.

Для выявления коллокаций в тексте корпусная лингвистика использует специальные инструменты, которые основываются на предположении, что частота коллокаций должна быть более значимой, чем у каждой из входящих в нее единиц по отдельности. Для измерения совместной встречаемости используются специальные статистические инструменты, которые получили название "меры устойчивости"; к ним относятся тесты MI, T-score, log-likelihood и некоторые другие (см. [Pecina 2005; Браславский, Соколов 2006; Хохлова 2008]). Надо сказать, что существующие в настоящий момент методы автоматического извлечения коллокаций нельзя признать совершенными, как минимум, в двух отношениях: во-первых, с их помощью извлекается очень разнородный набор устойчивых единиц, во-вторых, полнота извлечения далека от стопроцентной.

Важно понимать, что анализ частоты совместной встречаемости не позволяет автоматически извлекать фразеологизмы в лингвистическом смысле этого слова, то есть единицы с некомпозициональным сочетанием значений. Однако анализ больших текстовых массивов позволяет выявить единицы, занимающие положение между свободными сочетаниями и связанными фразеологизмами – "неслучайное сочетание двух и более лексических единиц". Приведенная ниже в качестве примера таблица показывает, какие двухсловные коллокаций извлекаются из одного и того же корпуса (коллекция текстов портала www.lenta.ru, объем 66 млн текстоформ) с помощью двух разных мер устойчивости (использованы данные из работы [Ягунова, Пивоварова 2010]).

Михаил Копотев, Татьяна Стексова - Исключение как правило: Переходные единицы в...

Совершенно очевидно, что эти списки очень неоднородны. В них попадают:

– знаменательные лексические фразеологизмы (голубые фишки, тройская унция);

– незнаменательные лексические фразеологизмы, о которых шла речь выше (при этом, кроме того);

– фрагменты бо́льших конструкций ([в] связи с [чем], в результате [чего]);

– неидиоматизированные устойчивые сочетания (сообщает РИА, дельта Нигера, миллион долларов).

– составные имена собственные (Арбат Престиж, Ролан Гаррос) Повторим еще раз: в таблице представлены результаты автоматической работы алгоритма, которые не могут считаться ни полными, ни однородными. Однако теоретическое осмысление этих результатов позволяет заново поставить вопрос о соотношении устойчивости и идиоматичности (см. [Мельчук I960]), с одной стороны, и адекватности существующих классификаций – с другой.

Разрабатываемый под руководством одного из авторов этой книги алгоритм поиска устойчивых сочетаний усложняет эту задачу, позволяя определять устойчивость не только лексических, но и грамматических параметров для произвольной цепочки единиц (см. [Kopotev et al. 2013]). Этот алгоритм отвечает на вопрос, что и с какой вероятностью появится после конкретного слова или цепочки слов. Он находит ответы на такие, например, вопросы:

– Какая морфологическая категория оказывается наиболее устойчивой для этой позиции?

– Какое значение этой морфологической категории наиболее устойчиво?

– Что устойчивее: конкретные лексические единицы или морфологические параметры (например, падеж) с открытым списком лексем?

Использованная статистическая модель помогает распределить частоты морфологических признаков и лексических единиц на единой шкале, с тем чтобы определить наиболее стабильные параметры. Предложенный алгоритм отвечает на вопрос об измерении совместной встречаемости и морфологических признаков, и лексических единиц. Например, с помощью алгоритма можно установить, что после глагола греть мы с высокой вероятностью ожидаем: форму винительного падежа существительного греть + N.acc, лексему в составе фразеологизма греть душу и лексему в составе устойчивого, но не фразеологизированного выражения греть воду. Вместе с тем причины совместной встречаемости могут лежать в совершенно разных областях, что, безусловно, нуждается в теоретическом осмыслении.

Данные, основанные на статистике совместной встречаемости, показывают сложную картину устойчивости лексических и грамматических параметров. Очевидно, что в них присутствуют единицы разной природы, обладающие разными признаками устойчивости. Эти признаки мы и обсудим ниже на примере созданного с помощью описанного алгоритма списка устойчивых сочетаний предлога без с существительным:

Без: оглядки, устали, остатка, вести, умолку, малого, исключения, шапки, погон, сомнения, преувеличения, ведома, обиняков, содрогания, спросу, разбору, промаха, выходных, галстука, раздумий.

Некомпозициональность значения

Некомпозициональность значения считается одной из главных черт, отличающих связанное словосочетание от свободных. И это действительно так. Лишь некоторые из единиц, извлекаемых с помощью алгоритма, являются традиционными фразеологизмами, о которых шла речь в предыдущей части. Об этом говорит наличие самостоятельного номинативного значения, превращающего предложно-падежное сочетание в наречную лексему: бе́з вести, без у́стали, без у́молку (ср. с лексемой бездна, образованную из предложной группы без дна). Тесная связаннность коллокатов подкрепляется в ряде случаев переносом ударения на прежде безударный предлог. Любопытно, что в НКРЯ можно найти примеры слитного написания некоторых из этих единиц не только в интернет-текстах, но и в научно-популярной (11) и художественной (12) литературе:

(11) Все они работали безустали(Л. Чуковская. Декабристы).

(12) Ей хотелось говорить безумолку, смеяться, дурачиться, но темный угол за роялью угрюмо молчал, и кругом, во всех комнатах верхнего этажа, было тихо, безлюдно. [А. П. Чехов. Бабье царство (1894)]

Профилирование коллокатов

Идея профилирования как инструмента анализа семантики лексем, прежде всего синонимов и квазисинонимов, была предложена П. Хэнксом в 1996 г. [Hanks 1996] и развита в работах С. Гриса, Д. Дивьяк, Л. Янды, О. Ляшевской и др. Она сводится к тому, что близкие по значению лексемы обладают разными "индивидуальными метками" (ID tags): это могут быть морфологические, синтаксические, семантические или другие количественные характеристики словоформ (см. [Gries 2006: 3]), создающие уникальный профиль использования лексемы в речи. Мы полагаем, что эта идея может быть чрезвычайно продуктивной не только при исследовании отдельных лексем, но и при исследовании их сочетаний – коллокаций. Ниже мы покажем, что набор форм, которыми представлена в корпусе та или иная лексема, связан с сочетаемостными ограничениями, или – другими словами – с включенностью лексемы в определенный ряд коллокаций, который в одном случае может быть довольно широким, а в другом – ограничен лишь несколькими коллокациями.

Ваша оценка очень важна

Шрифт

Фон

Назад Следующая →

Перейти к странице

Автор книги Михаил Копотев

Михаил Копотев - Исключение как правило: Переходные единицы в грамматике и словаре стр 11.

Помогите Вашим друзьям узнать о библиотеке

Скачать книгу

Похожие книги

Популярные книги автора