Это расширенное понимание коллокаций несколько противоречит более строгому, собственно лингвистическому, пониманию коллокаций как единиц, имеющих связанное, некомпозициональное значение [Мельчук 1960; Melcuk 1995а; Борисова 1995; Кустова 2008в и др.]. С другой стороны, такой подход позволяет включить широкий и, надо сказать, слабо оформленный список единиц, предполагающий дальнейшую более строгую классификацию, исходящую не из теоретических предпосылок, а из закономерностей, выявляемых в реальном массиве языковых данных.
Для выявления коллокаций в тексте корпусная лингвистика использует специальные инструменты, которые основываются на предположении, что частота коллокаций должна быть более значимой, чем у каждой из входящих в нее единиц по отдельности. Для измерения совместной встречаемости используются специальные статистические инструменты, которые получили название "меры устойчивости"; к ним относятся тесты MI, T-score, log-likelihood и некоторые другие (см. [Pecina 2005; Браславский, Соколов 2006; Хохлова 2008]). Надо сказать, что существующие в настоящий момент методы автоматического извлечения коллокаций нельзя признать совершенными, как минимум, в двух отношениях: во-первых, с их помощью извлекается очень разнородный набор устойчивых единиц, во-вторых, полнота извлечения далека от стопроцентной.
Важно понимать, что анализ частоты совместной встречаемости не позволяет автоматически извлекать фразеологизмы в лингвистическом смысле этого слова, то есть единицы с некомпозициональным сочетанием значений. Однако анализ больших текстовых массивов позволяет выявить единицы, занимающие положение между свободными сочетаниями и связанными фразеологизмами – "неслучайное сочетание двух и более лексических единиц". Приведенная ниже в качестве примера таблица показывает, какие двухсловные коллокаций извлекаются из одного и того же корпуса (коллекция текстов портала www.lenta.ru, объем 66 млн текстоформ) с помощью двух разных мер устойчивости (использованы данные из работы [Ягунова, Пивоварова 2010]).

Совершенно очевидно, что эти списки очень неоднородны. В них попадают:
– знаменательные лексические фразеологизмы (голубые фишки, тройская унция);
– незнаменательные лексические фразеологизмы, о которых шла речь выше (при этом, кроме того);
– фрагменты бо́льших конструкций ([в] связи с [чем], в результате [чего]);
– неидиоматизированные устойчивые сочетания (сообщает РИА, дельта Нигера, миллион долларов).
– составные имена собственные (Арбат Престиж, Ролан Гаррос) Повторим еще раз: в таблице представлены результаты автоматической работы алгоритма, которые не могут считаться ни полными, ни однородными. Однако теоретическое осмысление этих результатов позволяет заново поставить вопрос о соотношении устойчивости и идиоматичности (см. [Мельчук I960]), с одной стороны, и адекватности существующих классификаций – с другой.
Разрабатываемый под руководством одного из авторов этой книги алгоритм поиска устойчивых сочетаний усложняет эту задачу, позволяя определять устойчивость не только лексических, но и грамматических параметров для произвольной цепочки единиц (см. [Kopotev et al. 2013]). Этот алгоритм отвечает на вопрос, что и с какой вероятностью появится после конкретного слова или цепочки слов. Он находит ответы на такие, например, вопросы:
– Какая морфологическая категория оказывается наиболее устойчивой для этой позиции?
– Какое значение этой морфологической категории наиболее устойчиво?
– Что устойчивее: конкретные лексические единицы или морфологические параметры (например, падеж) с открытым списком лексем?
Использованная статистическая модель помогает распределить частоты морфологических признаков и лексических единиц на единой шкале, с тем чтобы определить наиболее стабильные параметры. Предложенный алгоритм отвечает на вопрос об измерении совместной встречаемости и морфологических признаков, и лексических единиц. Например, с помощью алгоритма можно установить, что после глагола греть мы с высокой вероятностью ожидаем: форму винительного падежа существительного греть + N.acc, лексему в составе фразеологизма греть душу и лексему в составе устойчивого, но не фразеологизированного выражения греть воду. Вместе с тем причины совместной встречаемости могут лежать в совершенно разных областях, что, безусловно, нуждается в теоретическом осмыслении.
Данные, основанные на статистике совместной встречаемости, показывают сложную картину устойчивости лексических и грамматических параметров. Очевидно, что в них присутствуют единицы разной природы, обладающие разными признаками устойчивости. Эти признаки мы и обсудим ниже на примере созданного с помощью описанного алгоритма списка устойчивых сочетаний предлога без с существительным:
Без: оглядки, устали, остатка, вести, умолку, малого, исключения, шапки, погон, сомнения, преувеличения, ведома, обиняков, содрогания, спросу, разбору, промаха, выходных, галстука, раздумий.
Некомпозициональность значения
Некомпозициональность значения считается одной из главных черт, отличающих связанное словосочетание от свободных. И это действительно так. Лишь некоторые из единиц, извлекаемых с помощью алгоритма, являются традиционными фразеологизмами, о которых шла речь в предыдущей части. Об этом говорит наличие самостоятельного номинативного значения, превращающего предложно-падежное сочетание в наречную лексему: бе́з вести, без у́стали, без у́молку (ср. с лексемой бездна, образованную из предложной группы без дна). Тесная связаннность коллокатов подкрепляется в ряде случаев переносом ударения на прежде безударный предлог. Любопытно, что в НКРЯ можно найти примеры слитного написания некоторых из этих единиц не только в интернет-текстах, но и в научно-популярной (11) и художественной (12) литературе:
(11) Все они работали безустали(Л. Чуковская. Декабристы).
(12) Ей хотелось говорить безумолку, смеяться, дурачиться, но темный угол за роялью угрюмо молчал, и кругом, во всех комнатах верхнего этажа, было тихо, безлюдно. [А. П. Чехов. Бабье царство (1894)]
Профилирование коллокатов
Идея профилирования как инструмента анализа семантики лексем, прежде всего синонимов и квазисинонимов, была предложена П. Хэнксом в 1996 г. [Hanks 1996] и развита в работах С. Гриса, Д. Дивьяк, Л. Янды, О. Ляшевской и др. Она сводится к тому, что близкие по значению лексемы обладают разными "индивидуальными метками" (ID tags): это могут быть морфологические, синтаксические, семантические или другие количественные характеристики словоформ (см. [Gries 2006: 3]), создающие уникальный профиль использования лексемы в речи. Мы полагаем, что эта идея может быть чрезвычайно продуктивной не только при исследовании отдельных лексем, но и при исследовании их сочетаний – коллокаций. Ниже мы покажем, что набор форм, которыми представлена в корпусе та или иная лексема, связан с сочетаемостными ограничениями, или – другими словами – с включенностью лексемы в определенный ряд коллокаций, который в одном случае может быть довольно широким, а в другом – ограничен лишь несколькими коллокациями.