Валентин Юльевич Арьков - Бизнес-аналитика. Извлечение, преобразование и загрузка данных стр 8.

Шрифт
Фон

Separator  Custom  (.).

Название объединённого столбца  Дата:

New column name  Date.

Нажимаем ОК.


Рис. 5.19. Настройка объединения столбцов


Задание. Объедините столбцы с использованием разделителя.


Посмотрим, что у нас получилось (рис. 5.20).

Четыре цифры  год. Точка. Две цифры  месяц. Точка. Две цифры  день.

Тип данных  текст.


Рис. 5.20. Объединённый столбец


Задание. Рассмотрите результаты объединения столбцов.


После преобразования типа наш столбец стал похож на дату (рис. 5.21). Правда, это дата в американском формате:

месяц/день/год.

В заголовке столбца указано, что это дата  видно значок календаря.

В группе Transform тоже говорится, что это дата:

Data Type  Date.


Рис. 5.21. Столбец «Дата» в формате даты


Задание. Преобразуйте тип данных в дату.


Теперь для полноты картины подправим заголовки остальных столбцов. Щёлкаем по заголовку и выбираем в контекстном меню пункт Rename. Редактируем каждый заголовок и убираем угловые скобки (рис. 5.22).


Рис. 5.22. Отредактированные заголовки


Задание. Отредактируйте заголовки и обратите внимание на изменения в списке применённых шагов.


Мы настроили преобразование данных.

Нажимаем ОК и получаем объединённую таблицу (рис. 5.23).

Заголовки исправлены.

Числа не пострадали.

Но дата пока что выводится в американском формате.


Рис. 5.23. Объединённая таблица.


Нам остаётся настроить формат даты.

Выделяем диапазон ячеек с датами и настраиваем формат вывода даты (рис. 5.24).


Рис. 5.24. Формат даты


Задание. Настройте формат даты.


Теперь добавим файлы в нашу папку.

Скачаем котировки ещё трёх крупнейших компаний из состава индекса:

КОНЕЦ ОЗНАКОМИТЕЛЬНОГО ОТРЫВКА

 ROSN  Роснефть;

 LKOH  Лукойл;

 GMKN  Горно-металлургический комбинат (ГМК) Норильский никель.

Теперь в нашей папке пять файлов с котировками (рис. 5.25).


Рис. 5.25. Добавляем файлы с котировками


Задание. Добавьте три файла с котировками.


Мы добавили файлы в папку.

Теперь обновим запрос к данным.

Щёлкаем правой кнопкой мыши по нашему запросу в списке

Queries & Connections.

В контекстном меню выбираем обновление:

Refresh.

Рядом с названием запроса нам сообщают, сколько теперь строк загружено. Их явно стало больше, чем в начале работы.

Посмотрим, все ли компании у нас собраны в таблице.

Нажимаем кнопку фильтрации в заголовке столбца TICKER.

В разделе выбора значений видим пять знакомых названий. Лишних значений нет.

Пока всё идёт нормально.


Рис. 5.26. Список загруженных котировок


Задание. Обновите запрос и убедитесь, что теперь у вас загружены котировки акций пяти компаний.


Осталось одно «НО»: формат даты.

Мы настроили формат даты.

Но после обновления запроса и добавления данных формат вернулся к первоначальному (рис. 5.27).

С этим нужно что-то сделать

Попробуйте на досуге с этой проблемой справиться.


Рис. 5.27. Формат даты


Задание. Рассмотрите объединённую таблицу и обратите внимание на формат даты.

5.4. Дубликаты данных

При загрузке данных из нескольких источников можно получить несколько совершенно одинаковых, идентичных строк. Это называется ДУБЛИКАТЫ данных. Если это две разные записи, относящиеся к одному и тому же факту, нужно оставить только одну запись, а дублирующие строки удалить.

Средства ETL позволяют проводить ОЧИСТКУ данных. Это включает, в том числе, и удаление дубликатов. Смоделируем ситуацию с загрузкой дубликатов и посмотрим, как с этим справиться.

Загрузим ещё один файл для первой ценной бумаги с данными за последний календарный месяц. Поместим файл в каталог для загрузки (рис. 5.28).

Теперь в нашем каталоге два файла с котировками акций Газпрома:

 GAZP_190306_200306.csv;

 GAZP_200301_200306.csv.

В первом файле содержатся данные за период с 6 марта 2019 года по 6 марта 2020 года.

Во втором файле  с 1 марта 2020 года по 6 марта 2020 года.

Второй файл дублирует пять строк первого файла.


Рис. 5.28. Файл с дубликатами данных


Задание. Загрузите дополнительный файл с дубликатами данных за один календарный месяц и убедитесь, что указанные данные в файлах совпадают.


Итак, мы подготовили файлы с дубликатами данных.

Обновим наш запрос и посмотрим на результаты.

Обратим внимание на количество строк рядом с названием запроса.

Рассмотрим объединённую таблицу (рис. 5.29).

Данные в строках 250254 в точности совпадают с данными в строках 255 259. Это и есть наши дубликаты, от которых нам нужно буде избавиться.


Рис. 5.29. Дубликаты данных в объединённой таблице


Задание. Обновите запрос и проверьте, появились ли дубликаты в объединённой таблице.


Возвращаемся в редактор запросов.

Выбираем в верхнем меню удаление дубликатов:

Home  Reduce Rows  Remove Rows  Remove Duplicates.

Но не будем спешить нажимать ОК и Next.

Для начала почитаем всплывающую подсказку (рис. 5.30).

Нам сообщают, что будут удалены строки, где есть дубликаты в выбранных столбцах.


Рис. 5.30. Удаление дубликатов


Задание. Изучите всплывающую подсказку по поводу удаления дубликатов.


Что будет, если выбрать первый столбец с тикерами и удалить дубликаты? Попробуем.

У нас осталось всего пять строк (рис. 5.31).

Мы потеряли практически все данные, зато теперь тикеры не повторяются.

Нам такое не подходит. Откатываем назад последнее преобразование:

КОНЕЦ ОЗНАКОМИТЕЛЬНОГО ОТРЫВКА

Ваша оценка очень важна

0
Шрифт
Фон

Помогите Вашим друзьям узнать о библиотеке

Скачать книгу

Если нет возможности читать онлайн, скачайте книгу файлом для электронной книжки и читайте офлайн.

fb2.zip txt txt.zip rtf.zip a4.pdf a6.pdf mobi.prc epub ios.epub fb3