Алгоритмы машинного обучения: базовый курс - Тайлер Венс читать книги онлайн бесплатно полностью без регистрации стр 16.

Книгу можно купить на ЛитРес.
Всего за 690 руб. Купить полную версию

Шрифт

Фон

изменяться, или изменения будут незначительными.

Однако есть несколько ограничений у K-means. Одним из них является необходимость заранее знать количество кластеров, что не всегда возможно, особенно если структура данных неочевидна. Также алгоритм чувствителен к начальному выбору центроидов, что может повлиять на итоговый результат, особенно в случае, когда данные сильно перекошены или содержат выбросы.

Алгоритм DBSCAN

В отличие от K-means, алгоритм DBSCAN (Density-Based Spatial Clustering of Applications with Noise) не требует указания числа кластеров заранее. Этот алгоритм основан на плотности объектов в пространстве. DBSCAN пытается группировать объекты, которые находятся в областях с высокой плотностью, и отделяет их от областей с низкой плотностью, которые могут считаться выбросами.

Одним из сильных преимуществ DBSCAN является его способность обнаруживать кластеры произвольной формы, в то время как K-means склонен работать лучше только с кластерами, имеющими круглую или сферическую форму. Алгоритм также эффективно справляется с выбросами, которые он не включает в кластеры, что позволяет избежать искажения результатов, как это может случиться в K-means, если выбросы слишком сильно влияют на расчёт центроидов.

Однако, несмотря на свою гибкость, DBSCAN также имеет некоторые ограничения. Например, он чувствителен к параметрам, которые нужно установить радиусу окрестности для поиска соседей и минимальному числу объектов, которое должно быть в окрестности, чтобы её можно было считать кластером. Выбор этих параметров может сильно повлиять на результаты работы алгоритма.

Когда использовать какой алгоритм?

Выбор между K-means и DBSCAN зависит от характера данных. Если у вас есть данные, которые можно разделить на кластеры с ясными центроидами и одинаковыми размерами, то K-means может быть лучшим выбором. Этот алгоритм также подойдёт, если вы точно знаете количество кластеров и хотите быстро получить решение.

Однако если ваши данные содержат выбросы или кластеры сложной формы, или если вы не уверены в количестве кластеров, DBSCAN может быть более подходящим вариантом. Он более гибок и способен выявлять такие структуры, которые другие алгоритмы могли бы проигнорировать.

Кроме того, можно комбинировать оба алгоритма: сначала использовать DBSCAN для предварительного выделения потенциальных кластеров и выбросов, а затем применить K-means для более точного уточнения границ кластеров, если есть уверенность в их числе.

Пример использования K-means и DBSCAN

Предположим, у нас есть набор данных о покупках клиентов, представленных двумя признаками:

Сумма покупок: сколько денег клиент потратил в магазине.

Частота покупок: как часто клиент делает покупки (например, количество покупок за месяц).

Мы будем использовать два алгоритма для сегментации данных:

1. K-means для создания чётких кластеров с заранее определённым количеством.

2. DBSCAN для выявления кластеров произвольной формы и обработки выбросов, где не нужно указывать количество кластеров.

Шаг 1: Подготовка данных

Для простоты примера создадим искусственные данные, представляющие 100 клиентов. Признаки: сумма покупок и частота покупок. Мы будем использовать Python и библиотеки `sklearn`, `numpy` и `matplotlib` для визуализации.

```python

import numpy as np

import matplotlib.pyplot as plt

from sklearn.cluster import KMeans

from sklearn.preprocessing import StandardScaler

from sklearn.datasets import make_blobs

from sklearn.cluster import DBSCAN

# Создаем искусственные данные

np.random.seed(42)

# Генерируем данные: 2 кластера с разными суммами покупок и частотами покупок

X, _ = make_blobs(n_samples=100, centers=[[20, 2], [50, 10]], cluster_std=[5, 7], random_state=42)

# Масштабируем данные для лучшего представления в модели

scaler = StandardScaler()

X_scaled = scaler.fit_transform(X)

# Визуализируем данные

plt.scatter(X_scaled[:, 0], X_scaled[:, 1])

plt.title("Изначальные данные")

plt.xlabel("Сумма покупок")

plt.ylabel("Частота покупок")

plt.show()

```

Шаг 2: Применение K-means

Для начала применим алгоритм K-means, указав, что хотим разделить данные на 2 кластера. Мы заранее предполагаем, что в данных есть два типа клиентов те, кто делает покупки часто, но с меньшими суммами, и те, кто совершает большие покупки реже.

```python

# Применяем алгоритм K-means

kmeans = KMeans(n_clusters=2, random_state=42)

y_kmeans = kmeans.fit_predict(X_scaled)

# Визуализируем результаты

plt.scatter(X_scaled[:, 0], X_scaled[:, 1], c=y_kmeans, cmap='viridis')

plt.scatter(kmeans.cluster_centers_[:, 0], kmeans.cluster_centers_[:, 1], s=200, c='red', marker='X', label='Центроиды')

plt.title("Результаты кластеризации K-means")

plt.xlabel("Сумма покупок")

plt.ylabel("Частота покупок")

plt.legend()

plt.show()

```

В результате кластеризации K-means мы получаем два чётких кластера, и каждый клиент будет отнесён к одному из них. Центроиды этих кластеров будут отображены на графике красными крестиками.

Шаг 3: Применение DBSCAN

Теперь применим алгоритм DBSCAN. В отличие от K-means, DBSCAN не требует указания количества кластеров и может находить кластеры произвольной формы. Мы также используем параметры для настройки алгоритма:

Ваша оценка очень важна

Шрифт

Фон

Назад Следующая →

Перейти к странице

Автор книги Тайлер Венс

Тайлер Венс - Алгоритмы машинного обучения: базовый курс стр 16.

Помогите Вашим друзьям узнать о библиотеке

Скачать книгу