Бизнес-аналитика. Извлечение, преобразование и загрузка данных - Валентин Юльевич Арьков читать книги онлайн бесплатно полностью без регистрации стр 7.

Книгу можно купить на ЛитРес.
Всего за 5.99 руб. Купить полную версию

Шрифт

Фон

Нажимаем кнопку OK.

Рис. 5.6. Выбор каталога для загрузки

Задание. Вызовите загрузку файлов из вашего каталога.

Появляется диалоговое окно для настройки варианта загрузки (рис. 5.7).

Нам предлагают объединить данные из всех файлов в указанном каталоге:

КОНЕЦ ОЗНАКОМИТЕЛЬНОГО ОТРЫВКА

Нам предлагают объединить данные из всех файлов в указанном каталоге:

Combine & Transform Data.

Попробуем это проделать.

Рис. 5.7. Выбор файлов для загрузки

Задание. Выберите вариант объединения и преобразования данных.

Появляется диалоговое окно объединения данных из файлов:

Combine Files.

Рассматриваем пример распознанного содержимого файлов (рис. 5.8).

Здесь также указана кодировка исходных файлов и разделитель полей.

Нажимаем кнопку ОК.

Рис. 5.8. Настройка объединения файлов

Следующее окно редактор запросов (рис. 5.9):

Power Query Editor.

Рассмотрим полученную таблицу.

Первая строка использована для формирования заголовков.

Даты представлены как целые числа.

Последние 5 столбцов числовые значения.

Рис. 5.9. Редактор запросов

Задание. Загрузите данные и изучите форму запроса.

Теперь можно заняться очисткой и преобразованием данных.

Попробуем удалить лишние столбцы:

Source_Name;

PER;

TIME.

Щёлкаем правой кнопкой по первому столбцу и выбираем в контекстном меню:

Remove.

Удалим два других лишних столбца.

Нажимаем кнопку Закрыть и загрузить:

Close & Load.

Рис. 5.10. Удаление столбца

Задание. Удалите лишние столбцы.

Наши файлы имеют однотипный формат. В первой строке файла расположены названия полей (столбцов).

Рассмотрим объединённую таблицу (рис. 5.11).

На границе данных по Газпрому и Сбербанку лишних строк не наблюдается.

Будем считать, что заголовки обработаны корректно. Теперь у нас один общий заголовок.

Рис. 5.11. Результаты загрузки

Задание. Рассмотрите данные в полученной таблице и убедитесь в отсутствии лишних строк (второго заголовка).

Возвращаемся к редактору запросов.

Щёлкаем правой кнопкой по нашему запросу и выбираем в контекстном меню редактирование:

Edit.

Проверим, что у нас есть в колонке тикеров (рис. 5.12).

Нажимаем кнопку фильтрации в заголовке первого столбца.

Список значений содержит всего два варианта:

GAZP

SBER

Мы ещё раз убедились, что первая строка второго файла была удалена, и у нас не появился второй заголовок. Надеемся, что загрузка следующих файлов пройдёт точно так же.

Рис. 5.12. Проверка лишних строк

Задание. Вызовите меню фильтрации и изучите значения в ячейках первого столбца.

Поработаем со столбцом дат.

Здесь четыре цифры года, две цифры месяца и две цифры числа.

Щёлкнем по столбцу дат и попробуем выбрать тип значений Дата:

Home Transform Data Type Date.

Попытка не удалась. Во всех ячейках столбца выводится сообщение об ошибке (рис. 5.13).

Нажимаем красный крестик в списке применённых шагов и откатываем последнее преобразование.

Рис. 5.13. Ошибка преобразования типа «Дата»

Задание. Измените тип данных на «Дату». При появлении сообщений об ошибке откатите изменения.

Подойдём к преобразованию даты с другой стороны.

Выделим год, месяц и день в отдельные колонки.

Щёлкаем по столбцу дат.

Нажимаем в верхнем меню кнопку разделения столбца:

Home Transform Split Column By Number of Characters.

Всплывающая подсказка поясняет, что мы будем работать с фрагментами строки заданной длины.

Рис. 5.14. Разделение столбца

Появляется диалоговое окно для настройки разделения окна:

Split Column by Number of Characters.

Указываем количество символов (рис. 5.15):

Number of characters 4.

Задание. Разделите столбец на части по 4 символа.

КОНЕЦ ОЗНАКОМИТЕЛЬНОГО ОТРЫВКА

Задание. Разделите столбец на части по 4 символа.

Рассмотрим результаты (рис. 5.16).

Теперь у нас два столбца вместо одного.

В обоих столбцах тип данных целые числа.

Номер года выглядит хорошо. А вот номер месяца и дня пострадал. Вместо 0306 получилось 306. Ноль перед числом удалили, и осталось три цифры. Если нам попадутся месяцы 10, 11 или 12, то в ячейке будет четыре цифры. И с таким содержимым работать будет совсем тяжело.

Рис. 5.16. Результаты разделения столбца

Задание. Изучите результаты разделения столбца.

Обратим внимание, что в списке применённых шагов есть два действия:

Split Column by Position разделение столбцов по количеству символов;

Changed Type1 изменение типа значения в ячейках.

Откатим изменение типа и посмотрим на результат (рис. 5.17).

Обе колонки стали текстовыми, и обе содержат по четыре символа.

Рис. 5.17. Тип значений текст

Задание. Отмените преобразование типа и обратите внимание на тип данных в столбцах.

Разделим второй столбец на два чтобы в каждом было по два символа. И снова отменим преобразование типа.

Теперь у нас три столбца, и все три текстовые (рис. 5.18).

Рис. 5.18. Текстовый тип значений

Задание. Разделите столбец на месяц и день и отмените преобразование типа.

Объединим наши три столбца, но поставим между значения разделитель точку.

Выделяем три столбца, нажав клавишу Ctrl и щёлкая по столбцам.

Вызываем объединение столбцов:

Transform Text Column Merge Columns.

Появляется диалоговое окно

Merge Columns.

Настроим параметры объединения столбцов (рис. 5.19).

Разделитель пользовательская настройка точка:

Ваша оценка очень важна

Шрифт

Фон

Валентин Юльевич Арьков - Бизнес-аналитика. Извлечение, преобразование и загрузка данных стр 7.

Помогите Вашим друзьям узнать о библиотеке

Скачать книгу

Популярные книги автора