Михаил Копотев - Исключение как правило: Переходные единицы в грамматике и словаре стр 11.

Шрифт
Фон

Это расширенное понимание коллокаций несколько противоречит более строгому, собственно лингвистическому, пониманию коллокаций как единиц, имеющих связанное, некомпозициональное значение [Мельчук 1960; Melcuk 1995а; Борисова 1995; Кустова 2008в и др.]. С другой стороны, такой подход позволяет включить широкий и, надо сказать, слабо оформленный список единиц, предполагающий дальнейшую более строгую классификацию, исходящую не из теоретических предпосылок, а из закономерностей, выявляемых в реальном массиве языковых данных.

Для выявления коллокаций в тексте корпусная лингвистика использует специальные инструменты, которые основываются на предположении, что частота коллокаций должна быть более значимой, чем у каждой из входящих в нее единиц по отдельности. Для измерения совместной встречаемости используются специальные статистические инструменты, которые получили название "меры устойчивости"; к ним относятся тесты MI, T-score, log-likelihood и некоторые другие (см. [Pecina 2005; Браславский, Соколов 2006; Хохлова 2008]). Надо сказать, что существующие в настоящий момент методы автоматического извлечения коллокаций нельзя признать совершенными, как минимум, в двух отношениях: во-первых, с их помощью извлекается очень разнородный набор устойчивых единиц, во-вторых, полнота извлечения далека от стопроцентной.

Важно понимать, что анализ частоты совместной встречаемости не позволяет автоматически извлекать фразеологизмы в лингвистическом смысле этого слова, то есть единицы с некомпозициональным сочетанием значений. Однако анализ больших текстовых массивов позволяет выявить единицы, занимающие положение между свободными сочетаниями и связанными фразеологизмами – "неслучайное сочетание двух и более лексических единиц". Приведенная ниже в качестве примера таблица показывает, какие двухсловные коллокаций извлекаются из одного и того же корпуса (коллекция текстов портала www.lenta.ru, объем 66 млн текстоформ) с помощью двух разных мер устойчивости (использованы данные из работы [Ягунова, Пивоварова 2010]).

Михаил Копотев, Татьяна Стексова - Исключение как правило: Переходные единицы в...

Совершенно очевидно, что эти списки очень неоднородны. В них попадают:

– знаменательные лексические фразеологизмы (голубые фишки, тройская унция);

– незнаменательные лексические фразеологизмы, о которых шла речь выше (при этом, кроме того);

– фрагменты бо́льших конструкций ([в] связи с [чем], в результате [чего]);

– неидиоматизированные устойчивые сочетания (сообщает РИА, дельта Нигера, миллион долларов).

– составные имена собственные (Арбат Престиж, Ролан Гаррос) Повторим еще раз: в таблице представлены результаты автоматической работы алгоритма, которые не могут считаться ни полными, ни однородными. Однако теоретическое осмысление этих результатов позволяет заново поставить вопрос о соотношении устойчивости и идиоматичности (см. [Мельчук I960]), с одной стороны, и адекватности существующих классификаций – с другой.

Разрабатываемый под руководством одного из авторов этой книги алгоритм поиска устойчивых сочетаний усложняет эту задачу, позволяя определять устойчивость не только лексических, но и грамматических параметров для произвольной цепочки единиц (см. [Kopotev et al. 2013]). Этот алгоритм отвечает на вопрос, что и с какой вероятностью появится после конкретного слова или цепочки слов. Он находит ответы на такие, например, вопросы:

– Какая морфологическая категория оказывается наиболее устойчивой для этой позиции?

– Какое значение этой морфологической категории наиболее устойчиво?

– Что устойчивее: конкретные лексические единицы или морфологические параметры (например, падеж) с открытым списком лексем?

Использованная статистическая модель помогает распределить частоты морфологических признаков и лексических единиц на единой шкале, с тем чтобы определить наиболее стабильные параметры. Предложенный алгоритм отвечает на вопрос об измерении совместной встречаемости и морфологических признаков, и лексических единиц. Например, с помощью алгоритма можно установить, что после глагола греть мы с высокой вероятностью ожидаем: форму винительного падежа существительного греть + N.acc, лексему в составе фразеологизма греть душу и лексему в составе устойчивого, но не фразеологизированного выражения греть воду. Вместе с тем причины совместной встречаемости могут лежать в совершенно разных областях, что, безусловно, нуждается в теоретическом осмыслении.

Данные, основанные на статистике совместной встречаемости, показывают сложную картину устойчивости лексических и грамматических параметров. Очевидно, что в них присутствуют единицы разной природы, обладающие разными признаками устойчивости. Эти признаки мы и обсудим ниже на примере созданного с помощью описанного алгоритма списка устойчивых сочетаний предлога без с существительным:

Без: оглядки, устали, остатка, вести, умолку, малого, исключения, шапки, погон, сомнения, преувеличения, ведома, обиняков, содрогания, спросу, разбору, промаха, выходных, галстука, раздумий.

Некомпозициональность значения

Некомпозициональность значения считается одной из главных черт, отличающих связанное словосочетание от свободных. И это действительно так. Лишь некоторые из единиц, извлекаемых с помощью алгоритма, являются традиционными фразеологизмами, о которых шла речь в предыдущей части. Об этом говорит наличие самостоятельного номинативного значения, превращающего предложно-падежное сочетание в наречную лексему: бе́з вести, без у́стали, без у́молку (ср. с лексемой бездна, образованную из предложной группы без дна). Тесная связаннность коллокатов подкрепляется в ряде случаев переносом ударения на прежде безударный предлог. Любопытно, что в НКРЯ можно найти примеры слитного написания некоторых из этих единиц не только в интернет-текстах, но и в научно-популярной (11) и художественной (12) литературе:

(11) Все они работали безустали(Л. Чуковская. Декабристы).

(12) Ей хотелось говорить безумолку, смеяться, дурачиться, но темный угол за роялью угрюмо молчал, и кругом, во всех комнатах верхнего этажа, было тихо, безлюдно. [А. П. Чехов. Бабье царство (1894)]

Профилирование коллокатов

Идея профилирования как инструмента анализа семантики лексем, прежде всего синонимов и квазисинонимов, была предложена П. Хэнксом в 1996 г. [Hanks 1996] и развита в работах С. Гриса, Д. Дивьяк, Л. Янды, О. Ляшевской и др. Она сводится к тому, что близкие по значению лексемы обладают разными "индивидуальными метками" (ID tags): это могут быть морфологические, синтаксические, семантические или другие количественные характеристики словоформ (см. [Gries 2006: 3]), создающие уникальный профиль использования лексемы в речи. Мы полагаем, что эта идея может быть чрезвычайно продуктивной не только при исследовании отдельных лексем, но и при исследовании их сочетаний – коллокаций. Ниже мы покажем, что набор форм, которыми представлена в корпусе та или иная лексема, связан с сочетаемостными ограничениями, или – другими словами – с включенностью лексемы в определенный ряд коллокаций, который в одном случае может быть довольно широким, а в другом – ограничен лишь несколькими коллокациями.

Ваша оценка очень важна

0
Шрифт
Фон

Помогите Вашим друзьям узнать о библиотеке

Скачать книгу

Если нет возможности читать онлайн, скачайте книгу файлом для электронной книжки и читайте офлайн.

fb2.zip txt txt.zip rtf.zip a4.pdf a6.pdf mobi.prc epub ios.epub fb3