Всего за 999 руб. Купить полную версию
В разведочной добыче данных вы, по определению, не знаете раньше времени, что же за данные вы ищете. Вы исследователь. Вы можете четко объяснить, когда двое клиентов выглядят похожими, а когда разными, но вы не знаете лучшего способа сегментировать свою клиентскую базу. Поэтому «просьба» к компьютеру сегментировать клиентскую базу за вас называется неконтролируемым машинным обучением, потому что вы ничего не контролируете не диктуете компьютеру, как делать его работу.
В противоположность этому процессу, существует контролируемое машинное обучение, которое появляется, как правило, когда искусственный интеллект попадает на первую полосу. Если я знаю, что хочу разделить клиентов на две группы скажем, «скорее всего купят» и «вряд ли купят» и снабжаю компьютер историческими примерами таких покупателей, применяя все нововведения к одной из этих групп, то это контроль.
Если вместо этого я скажу: «Вот что я знаю о своих клиентах и вот как определить, разные они или одинаковые. Расскажи-ка что-нибудь интересненькое», то это отсутствие контроля.
В данной главе рассматривается самый простой способ кластеризации под названием метод k-средних, который ведет свою историю из 50-х годов и с тех пор стал дежурным в открытии знаний из баз данных (ОЗБД) во всех отраслях и правительственных структурах.
Метод k-средних не самый математически точный из всех методов. Он создан, в первую очередь, из соображений практичности и здравого смысла как афроамериканская кухня. У нее нет такой шикарной родословной, как у французской, но и она зачастую угождает нашим гастрономическим капризам. Кластерный анализ с помощью k-средних, как вы вскоре убедитесь, это отчасти математика, а отчасти экскурс в историю (о прошлых событиях компании, если это сравнение относится к методам обучения менеджменту). Его несомненным преимуществом является интуитивная простота.
Посмотрим, как работает этот метод, на простом примере.
Девочки танцуют с девочками, парни чешут в затылке
Цель кластеризации методом k-средних выбрать несколько точек в пространстве и превратить их в k группы (где k любое выбранное вами число). Каждая группа определена точкой в центре вроде флага, воткнутого в Луну и сигнализирующего: «Эй, вот центр моей группы! Присоединяйтесь, если к этому флагу вы ближе, чем к остальным!» Этот центр группы (с официальным названием кластерный центроид) то самое среднее из названия метода k-средних.
Вспомним для примера школьные танцы. Если вы сумели стереть ужас этого «развлечения» из своей памяти, я очень извиняюсь за возвращение таких болезненных воспоминаний.
Герои нашего примера ученики средней школы Макакне, пришедшие на танцевальный вечер под романтическим названием «Бал на дне морском», рассеяны по актовому залу, как показано на рис. 21. Я даже подрисовал в Photoshop паркет, чтобы было легче представить ситуацию.
А вот примеры песен, под которые эти юные лидеры свободного мира будут неуклюже танцевать (если вдруг вам захочется музыкального сопровождения, к примеру, на Spotify):
Styx: Come Sail Away
Everything But the Girl: Missing
Ace of Base: All that She Wants
Soft Cell: Tainted Love
Montell Jordan: This is How We Do It
Eiffel 65: Blue
Теперь кластеризация по k-средним зависит от количества кластеров, на которое вы желаете поделить присутствующих. Давайте остановимся для начала на трех кластерах (далее в этой главе мы рассмотрим вопрос выбора k). Алгоритм размещает три флажка на полу актового зала некоторым допустимым образом, как показано на рис. 22, где вы видите 3 начальных флажка, распределенных по полу и отмеченных черными кружками.