Загрузка
данных
05
/21
О чем мы поговорим сегодня
Посмотрим на кейс по модернизации аналитики и объединения отчетности в Казахтелеком, а также изучим процесс загрузки данных и его особенности. Попробуем загрузить наши первые данные!
ИСТОРИЯ УСПЕХА
Дашборд совета директоров в АО «Казахтелеком»: проверка качества данных и не только
Марат Абдилдабеков
главный директор по информационным технологиям, АО Казахтелеком
АО «Казахтелеком» сегодня — это крупнейшая телеком компания Казахстана, которая владеет национальной информационной супермагистралью и имеет современную ИТ-инфраструктуру, включающую 25 ЦОДов с более 1,500 стоек.

Ранее аналитический ландшафт Казахтелеком включал в себя SAP BO, MS Excel, а для презентации аналитических выводов и результатов работы часто использовался MS PowerPoint, что создавало большие трудозатраты при подготовке отчетности. Так, в разработке отчетности для совета директоров АО «Казахтелеком» было задействовано несколько различных подразделений в разных блоках.
Сейчас же многие отчеты автоматизированы и формируются в Qlik Sense без необходимой ежедневной ручной обработки, а сразу доступны в системе бизнес-аналитики
Раньше такие операции делались вручную. Например, отчет по удержанным компанией абонентам ранее формировался из нескольких отчетов SAP BO и отдельной дополнительной выгрузки из CRM.
Порядка 100 отчетов по услуге интернет, телевидению и FMS были объединены всего лишь в 3 дашборда в Qlik Sense
Причины выбора Qlik Sense в качестве новой BI-платформы:
1
Гибкая настройка отчетности и аналитических приложений с учетом быстрых изменений требований рынка
2
Подключение разнородных источников данных, автоматизация их сбора и
стандартизация
3
Ролевая модель доступа и высокая степень защищенности данных
4
Серверные мощности для поддержки высокого качества аналитических решений вне зависимости от клиентского ПК
Чтобы убедиться в выборе BI-платформы, было сделано несколько пилотных проектов внутри компании… Один из них — обеспечение качества данных в отчете «Дашборд Совета директоров», совместно с партнером ADC Project.
«Дашборд Совета Директоров» — единая информационная панель, которая предоставляет сводную информацию по деятельности компании и стратегическим KPI бизнеса, включая:
  • Общие показатели по группе компаний
  • Персонал
  • Выполнение объемных показателей
  • Показатели направления «Сеть»
  • GM4 по сегментам
  • Торговая дебиторская задолженность CLV (Customer Lifetime Value), SAC, SRC
  • Инновации. Показатели по услугам
Дашборд Совета Директоров помогает получать актуальную аналитику по 136 основным показателям, таким как Выручка, FCFF, CLV, SAC, SRC и многим другим. Все показатели представлены в разрезе периодов, услуг, ДЗО, сегментов, филиалов, а также агрегировано.
Это амбициозный глобальный проект отчетности, для которого собирается много разных данных: в дашборде рассчитываются показатели в режиме реального времени на объеме более 500 миллионов строк
Обычно, сверка данных происходит на этапе разработке отчетности. Создаются детализации, находятся примеры отклонений и после их анализа можно корректировать алгоритм расчета. В этом проекте требовался более гибкий и быстрый инструмент — данных много, данные максимально важные.

Дополнительную проверочную отчетность в компании разработали в Qlik Sense. Приложения позволяют получать быстрые выгрузки с необходимой степенью детализации. Также, было разработано служебное приложение для мониторинга корректности маппинга со справочниками ЦНСИ.
Новый BI-инструмент позволил «на лету» корректировать условия выборки и формы визуализаций в зависимости от изменяющихся требований
Адиль Хасенов
директор департамента развития систем управления предприятием Дивизиона информационных технологий, АО Казахтелеком
Благодаря Qlik Sense сотрудники быстро получают, связывают и визуализируют данные из различных систем-источников, не инициируя дополнительные процедуры и не обращаясь к разработчикам. При наличии единой методики расчета и единого источника данных такой подход позволяет аналитику по направлению самостоятельно и быстро формировать валидные отчеты и визуализации.
Другие кейсы использования Qlik в АО «Казахтелеком»
Выступление КазахТелеком на Qlik Data Transformation Day 2022
Коллеги рассказали о выборе Qlik как единой платформы построения бизнес-аналитики в Казахтелеком, а также о кейсах использования и подходах, которые позволяют извлекать ценность из данных.
ТЕОРИЯ
Процесс подключения данных
Для того, чтобы начать работу, нужно загрузить данные в приложение. Для этого есть две опции: через Диспетчер данных или через Редактор Скриптов. Диспетчер данных откроет окошко для добавления данных из файлов и других источников через дружелюбный интерфейс. В Редакторе скриптов вы сможете написать свой собственный код загрузки данных.

Рассмотрим более простой способ загрузки - через Диспетчер данных. На базовом уровне, процесс можно описать так:
1
Добавление подключения к источнику и выбор нужных таблиц из исходной системы
2
Выбор полей загружаемой таблицы
3
Предварительный просмотр данных в Диспетчере данных и проставление взаимосвязей между таблицами, если их несколько
4
Загрузка данных в приложение
Триальная версия Qlik Sense Business не имеет ограничений по источникам данных, но приложения не должны занимать в памяти более 1,25 GB. Сравнение и ограничения облачных подписок Qlik Sense Business и Qlik Sense SaaS (Qlik Cloud) приведены здесь. Qlik Sense Desktop по-прежнему ограничен только оперативной памятью компьютера, на котором установлен.
После добавления подключения, вы увидите окно подготовки данных: список столбцов с опцией фильтрации и выбора нужных полей.
Когда вы добавите источник, в верхней панели окна вы сможете открыть дополнительные инструменты управления данными, например, открыть Диспетчер данных, чтобы посмотреть связи между таблицами (если их несколько).

Из Диспетчера данных вы можете перейти в режим редактирования таблицы и поменять тип загружаемого поля или создать в таблице новое вычисление. Поле может быть общего типа или специального: датой, временем или иметь географические значения. Qlik определяет подходящий тип поля автоматически.

Выставление соответствующего типа поля влияет на визуализацию этих данных на диаграммах. Также на экране редактирования свойств, вам доступно превью значений по столбцам таблицы, изменение значений данных, определение пустых значений.
Второй способ подключения данных — Редактор скриптов — открывает редактор загрузки данных. Здесь можно написать код загрузки с нуля, а можно более детально настроить скрипт уже загруженных данных через Диспетчер. Скрипт загрузки данных подключает приложение к источнику данных и загружает данные в приложение.

При этом, скрипт создается как автоматически, так и доступен вам для настройки вручную — более продвинутые пользователи обычно прописывают скрипт вручную, но это необязательно на старте. При автоматической загрузке, в скрипте проставляются форматы используемых полей, например, формат времени или первый день недели.
Редактор загрузки также используется для сложных операций по переподготовке данных для анализа в Qlik. Код скрипта пишет продвинутый пользователь.

Вот некоторые из возможностей по моделированию данных через скрипты:
  • преобразование столбцов данных в строки
  • преобразование строк данных в поля
  • загрузка данных, упорядоченных по иерархическим уровням, например, схема организации
  • загрузка только новых или обновленных записей из базы данных большого размера
  • объединение данных из двух таблиц с общим полем
  • сопоставление дискретного значения с интервалом
  • обработка не согласованных значений полей
Практические советы по загрузке данных
Денис Катюшин
генеральный директор, QUBData
При разработке процесса загрузки данных необходимо определить следующее:
1
Какая будет глубина анализа данных — сколько данных потребуется загрузить в аналитическое приложение;
2
Как часто необходимо загружать данные в Qlik (раз в час, ежедневно, раз в неделю, раз в месяц);
3
Какой период (как правило, «скользящий») данных будет неизменным на стороне источника, какой будет постоянно меняться/дополняться — используется для реализации инкрементальной загрузки.
Кейс 1
Обновление данных по CDR каждые 20 минут. Загрузка данных по звонкам из биллинговой системы для:
  • целей мониторинга маржинальности направлений ip-трафика в оперативном режиме — это позволяет своевременно вносить изменения в тарифы, а также менять поставщиков услуг для транзита трафика по направлениям ip-звонков.
  • целей технического мониторинга работы маршрутизаторов, чтобы своевременно перенаправить трафик с неисправного узла на альтернативные маршруты транзита трафика — это позволяет снизить количество не-дозвонов и сократить отток клиенткой базы, которая недовольна качеством связи.
За счет создания подобного мониторинга компания смогла повысить маржинальность и выйти на показатели выше отраслевых. Для отрасли ip-телефонии маржинальность выше 6% - это исключение.
Кейс 2
Обновление данных по чекам и строкам чеков по сети ресторанов из более чем 150 торговых точек. Загрузка данных из кассовых систем каждые 20 минут. Для обеспечения доставки данных из более чем 150 торговых точек данные грузили в 10 потоков. Такая аналитика позволяет обеспечить оперативный мониторинг работы торговых точек, в частности посмотреть:
  • работает ли торговая точка,
  • сколько касс открыто,
  • сколько чеков пробивается в единицу времени,
  • достаточно ли компонентов для производства блюд и т. д.
Самое важно в модели — обеспечить правильные связи между объектами модели. Как правило, формируется одна таблица фактов, а на лучах находятся таблицы справочников. Ниже приведен пример неидеальной модели, но наглядно иллюстрирующей взаимосвязи между различными объектами. Утрированно — идеальная модель — одна таблица, в которой есть все факты и все аналитики.
Таблица фактов является основной таблицей хранилища данных. Как правило, она содержит сведения об объектах или событиях, совокупность которых будет в дальнейшем анализироваться. Самый распространенный тип таблицы фактов — таблицы транзакций, т. е. событий, которые мы хотим анализировать.

Справочники — или таблицы измерений — содержат неизменяемые или редко изменяемые данные. Обычно это относительно статичные списки таких сущностей, как клиенты, поставщики, список товаров, список филиалов и т. д. Строки записей из справочников «передаются» в таблицу фактов для полноты данных.
Но в любом случае при создании модели необходимо учитывать объемы данных, которые предстоит анализировать, ширину (набор колонок) самой большой таблицы, содержимое полей справочников. Достаточно распространенным и эффективно работающим решением является модель, в которой одна таблица фактов и несколько таблиц справочников (где, как правило, больше 10 текстовых колонок) на лучах одного уровня.
ПРАКТИКА
Загрузка данных
Игорь Буробин
эксперт по Qlik Sense, «Про BI»
Практическое задание
Перед вами четыре файла Excel, содержащие часть выгрузки базы данных IMDB по фильмам. Наша задача во время сегодняшнего дня и следующих дней загрузить эти данные и вычислить несколько показателей.

1. Скачайте четыре файла:
Описание каждого источника вы найдете ниже.

2. Создайте новое приложение, загрузите в него данные, вычислите показатели, отвечающие на вопросы:
  • Фильмов какого жанра больше в нашей выборке?
  • У какого фильма самые большие кассовые сборы?
  • У какого фильма самый большой бюджет?

3. Подробное описание этапов выполнения задания находится здесь.
Описание источников данных
  • Произведения.xlsx – файл, содержащий данные о произведениях. У каждого произведения есть свой уникальный код. Этот код нам пригодится для сопоставления данных их разных файлов.
  • Страны.xlsx – файл, содержащий данные о странах производства фильмов. Следуют обратить внимание на то, что для одного произведения может быть указано несколько стран, а может быть и ни одной. Ассоциативная модель данных Qlik Sense позволяет использовать эти данные, не присоединяя к таблице с произведениями, а устанавливая связь. Тем самым решается проблема дублирования данных при присоединении. 
  • Жанры.xlsx – файл содержит жанры произведений. Так же, как и файл со странами, для произведения может быть указано несколько жанров или ни одного.
  • ДатыВыходаФильмов.xlsx – в файле находятся даты выхода фильмов и года выхода фильмов.
Полезные ссылки
Если вам интересно узнать больше, переходите по ссылкам для дальнейшего изучения тем и расширения кругозора
Обзор дня и встреча с экспертом: День 05
Семен Астахов, архитектор решений по встроенной аналитике, Qlik СНГ
Телеграм-сообщество Qlik
Приглашаем вас присоединиться к телеграм-чату Qlik, чтобы общаться с коллегами, задавать вопросы экспертам и оставаться в курсе новостей Марафона.
@qlikbi_chat

2022