ИВВ - Максимизируйте эффективность машинного обучения. Полное руководство по информационной системе стр 6.

Книгу можно купить на ЛитРес.
Всего за 309.9 руб. Купить полную версию
Шрифт
Фон

Обучение алгоритмов на большом объеме данных часто включает следующие шаги:


1. Предобработка данных: перед началом обучения необходимо предобработать данные.


В процессе предобработки данных необходимо выполнить следующие шаги:


1.1. Удаление выбросов: Выбросы  это экстремальные значения, которые сильно отличаются от остальных данных. Они могут искажать обучение модели и влиять на точность предсказаний. Удаление выбросов может быть выполнено путем нахождения значений, выходящих за пределы определенного порога или на основе стандартного отклонения данных.


1.2. Обработка пропущенных значений: Пропущенные значения в данных могут возникнуть из-за ошибок в сборе данных или отсутствия информации. Обработка пропущенных значений включает такие методы, как удаление записей с пропущенными значениями, заполнение пропущенных значений средними или медианами, использование методов машинного обучения для предсказания пропущенных значений или использование специальных методов, таких как множественная импьютация.


1.3. Нормализация признаков: Некоторые алгоритмы машинного обучения могут быть чувствительны к несбалансированным или различающимся по масштабу признакам. Нормализация признаков позволяет привести их значения к определенному интервалу или стандартному распределению. Популярными методами нормализации являются масштабирование на интервал [0,1], стандартизация с нулевым средним и единичной дисперсией или нормализация по Z-оценке.


1.4. Преобразование категориальных признаков в числовые: некоторые алгоритмы машинного обучения требуют числовых данных. Если у вас есть категориальные признаки, такие как «пол» или «страна», их можно преобразовать в числовые признаки, используя методы, такие как кодирование меток или кодирование с одним активным состоянием (one-hot encoding).


1.5. Разбиение данных на обучающую, проверочную и тестовую выборки: для оценки качества модели необходимо разделить данные на независимые наборы. Обучающая выборка используется для обучения модели, проверочная  для настройки гиперпараметров и выбора лучшей модели, а тестовая выборка  для оценки качества предсказаний на неизвестных данных. Разбиение данных может быть выполнено случайным образом или с использованием временных разделителей, в зависимости от типа данных и целей анализа.

Ваша оценка очень важна

0

Дальше читают

Шрифт
Фон

Помогите Вашим друзьям узнать о библиотеке

Скачать книгу

Если нет возможности читать онлайн, скачайте книгу файлом для электронной книжки и читайте офлайн.

fb2.zip txt txt.zip rtf.zip a4.pdf a6.pdf mobi.prc epub ios.epub fb3