Понимаем виды данных
02
/21
О чем мы поговорим сегодня
Узнаем об истории модернизации аналитики в крупнейшем ритейлере Magnum Cash&Carry, разберемся с тем, что такое данные, какие типы данных мы выделяем, какие шкалы измерения данных нужно знать, чтобы работать с аналитикой, и познакомимся с видами агрегаций.
ИСТОРИЯ УСПЕХА
Аналитика миллиардов данных в Magnum Cash&Carry
«Magnum Cash&Carry» — крупнейшая торгово-розничная сеть Казахстана внедряет data-driven подход к бизнесу с помощью аналитики Qlik Sense. Решение обеспечивает оперативными данными для принятия решений более 450 сотрудников компании.

На протяжении последних 10 лет компания Magnum уже использовала платформу QlikView для задач финансовой аналитики. Но по мере развития компании пришло понимание, что, встроив аналитику в бизнес-процессы, можно повысить их эффективность, а также качество и скорость бизнес-решений. Для этого потребовалась полная перестройка BI-системы, и было принято решение обновить технологическую платформу — перейти на Qlik Sense для реализации подхода BI-самообслуживания.
Сакен Кудияров
руководитель BI-департамента, Magnum Cash&Carry
В 2020 году стартовал проект по миграции BI-приложений на платформу Qlik Sense. Проект по модернизации BI в Magnum — это глобальная перестройка всех процессов сбора, хранения и обработки данных в компании.
Среди основных целей, которые ставились командой:
1
исключение ручного сбора данных и повышение скорости и точности передачи данных
2
создание «единого центра правды» на стороне Qlik Sense
3
разработка новой архитектуры сбора данных (DWH) от первоисточников
4
вовлечение сотрудников в процесс бизнес-аналитики, создание большего числа приложений для бизнеса, собственной BI-команды и центра компетенции
На данный момент проект находится в активной фазе: уже созданы приложения для финансового, операционного, коммерческого и HR-департамента, разработан портал поставщика, дорабатывается приложение по аналитике цепочки поставок.

В дальнейшем список доступных приложений будет расширяться, в том числе появятся отчеты для ИТ-подразделения:
Qlik Sense анализирует более 2.4 млрд строк, в том числе — данные со всех чеков розницы
Это помогает эффективно отслеживать промо-акции и товарные запасы, не допуская дефицита или профицита товарных запасов, а значит, улучшая доступность товаров для конечных посетителей.
Сакен Кудияров
руководитель BI-департамента, Magnum Cash&Carry
Количество активных пользователей Qlik Sense в Magnum уже превысило 450 человек.
Magnum также оценивает экономию от внедрения Qlik Sense в сотнях миллионов тенге за последние годы.
Кроме того, в Magnum важное внимание уделяется обучению пользователей работе с бизнес-аналитикой (в том числе в школе Datanomix Academy) и развитию data-driven культуры внутри организации.

Так, цель процесса обучения Qlik Sense — создание управляемой воронки self-service пользователей: от пользователя к полноценному data-аналитику и разработчику аналитических приложений. Далее в компании классифицируют бизнес-пользователей аналитики по категориям в зависимости от того, как они анализируют, производят данные, отчеты. Ну и после этого каждому типу пользователей предоставляется соответствующий контент и путь обучения.

Вот типы пользователей и результаты, которые Magnum получает после обучения:
Менеджеры бизнес-подразделений

После курса стали точнее формулировать свои требования, понимая функциональные возможности платформы

Аналитики

После курса стали меньше времени тратить на рутинные операции по обработке данных, поняли, куда хотят расти профессионально

Разработчики BI

После курса стали глубже понимать архитектуру и возможности развития и поддержки текущих приложений, самостоятельно разрабатывать новые

Руководитель BI

После курса стал точнее понимать суть работы аналитиков и разработчиков и эффективнее управлять внутренней командой по Qlik Sense
Эффект от такого внедрения бизнес-аналитики, конечно, выражается в скорости и качестве принимаемых бизнес-решений: сотрудники получают более качественные данные быстрее. Кроме того, снизилось количество ручного труда по сбору информации от филиалов — все данные централизованно хранятся в DWH.
Сакен Кудияров
руководитель BI-департамента, Magnum Cash&Carry
В работе над BI-приложениями мы используем Agile-подход: команда внедрения находится в постоянном контакте с внутренними заказчиками, изучает их запросы, обсуждает и ищет возможности их удовлетворить. И, хотя проект еще далек от завершения, мы уже сейчас видим, насколько ускорилась работа с данными: мы экономим порядка 10−20% человеческих ресурсов на подготовку управленческой отчетности. К тому же, значительно сократился цикл принятия решений на основе данных и возможности тестирования гипотез по промо-акциям.
 Выступление на Qlik Data Transformation Day 2022 в Astana Hub
Сакен Кудияров, руководитель BI-департамента, Magnum Cash&Carry, рассказал о крупной BI-модернизации в компании

>2,4 млрд
Qlik Sense анализирует более 2,4 млрд строк, в том числе — данные со всех чеков розницы
>450
сотрудников компании используют Qlik Sense
ТЕОРИЯ
Что такое данные
Данные — это набор фактов и наблюдений, которые можно использовать для анализа, расчетов, планирования и прогнозирования. Все данные можно разделить на две категории: структурированные данные и неструктурированные. Информационные системы и BI-инструменты, в том числе и Qlik Sense, работают со структурированными данными.
Денис Катюшин
генеральный директор, QUBData
Большинство данных в мире неструктурированы. Такие данные, как правило, представлены в виде текста, который может содержать любую информацию: цифры, даты, прочие факты.
>> Два кейса по работе с неструктурированными данными
Кейс 1. Банковский сектор, регулятор. При построении комплексной оценки банковской системы РФ была необходимость собирать информацию по новостному фону относительно конкретной кредитной организации (КО) или персон КО. Это необходимо для того, чтобы отслеживать насколько негативный фон нагнетается в различных СМИ (федеральные или региональные) относительно КО (что может спровоцировать сильный отток денежных средств за счет закрытия депозитов, закрытия текущих счетов и т. д.) и предпринять действия, позволяющие нивелировать воздействие такого фона на состояние КО. На первом этапе была задача по ключевым словам или сочетанию слов (которые определяют окрас фона: негативный, позитивный, нейтральный) определять окрас публикации. Но ввиду того, что такой алгоритм определения окраса публикации не давал точных результатов аналитика была переведена на готовой источник (специальное агентство предоставляло уже размеченный по окрасу массив публикаций в СМИ).

Кейс 2. Нефтегазовая компания. Анализ переписки из почтовой базы для классификации писем на предмет того, какой объем коммуникации осуществляется с использованием почтовой платформы по тому или иному проекту, задаче (по анализу текстового содержимого темы, анализ содержимого письма был недопустим по правилам безопасности компании).
В любом случае приведенные кейсы не являются в чистом виде задачами по обработке неструктурированных данных.
Примером неструктурированных данных могут являться любые тексты (даже в формате Word, PDF), книги, видео, аудио, изображения — вообще практически все, что вы видите вокруг себя. Мы не можем провести какой-либо анализ содержимого на этой странице без этапа обработки и подготовки данных.
Структурированные данные — все, которые имеют формализованную структуру. То есть, их можно разложить на столбцы и строки и загрузить в инструмент для анализа данных.

Структурированные данные упорядочены и типизированы. Хранятся в форме таблицы, имеют столбцы (поля), и строки (записи). Еще говорят, что каждый столбец представляет собой атрибут данных, а каждая строка — единицу наблюдения
Структурированные данные — это данные о посещении сайтов в системах веб-аналитики, о покупках в интернет-магазине в специальной учетной системе о проведенных финансовых операциях, транзакциях.
Виды шкал
Нам важно понимать, как мы измеряем те или иные данные, чтобы применять подходящие методы их анализа. Поэтому мы акцентируем внимание на типах шкал — типах измерения данных. Зная с какими данными вам предстоит работать, вы будете знать и ваш план действий, чтобы провести анализ грамотно.
4 вида шкал при работе с данными
Качественные данные
Содержат наименования категорий, поэтому их также называют категориальными. Значения категорий уникальны. По своей форме, качественные данные могут содержать только текст (наименования товаров в магазине), могут состоять полностью из цифр (номер паспорта или телефона – тоже уникальная категория), а могут содержать и то и другое (номер автомобиля).

Качественные данные делятся на номинальные и порядковые. Здесь все просто: у номинальных данных нет порядка, а у порядковых есть заданная последовательность. Мы не можем количественно сравнивать номинальные данные, но можем оценить порядковые данные: у каждой порядковой категории есть своя “очередность”, поэтому можно сказать кто “лучше”, а кто “хуже”.

Номинальные данные —
жанры кино: боевик, комедия, драма, детектив
набор фруктов: яблоко, апельсин, банан
ученики класса: Даша, Вова, Ксюша, Петя

Порядковые данные —
медаль, полученная на соревнованиях: бронза, серебро, золото
размеры одежды: XS-S-M-L-XL
рейтинги книг, фильмов, ресторанов: от 1 до 5 звезд
опросная шкала Лейкерта: от «полностью не согласен» до «полностью согласен»
Денис Катюшин
генеральный директор, QUBData
Любые качественные данные используются для проведения анализа количественных характеристик объекта анализа и получения ответов на вопросы, что позволяет выработать и принять решение пользователю, который проводит такой анализ.
Примеры работы с качественными данными
Пример — работа с данными судебной статистики. В данной области большая часть данных — качественная. Как правило, это гендер, возраст, статья соответствующего кодекса, социально-демографическое положение, семейное положение, образование и т. д. Но вопросы, на которые необходимо получить ответы в рамках проведения анализа, трансформируются в количественные характеристики. Например, сколько было вынесено приговоров по статье "распространение наркотиков" в разрезе гендера и возраста, в зависимости от состава семьи (полная семья, только отец, только мать, сирота). И исходя из полученных результатов на уровне различных государственных программ могут быть запущены инициативы (социальные программы поддержки различных групп) для той целевой группы, которая покажет максимальное значение по вопросу выше.

Еще один пример — оценка работы тренинг-центра и конкретных тренеров пользователями, прошедшими обучение по той или иной внешней или корпоративной программе обучения. В данном случае все оценки собираются в шкале: от типа «категорически не устраивает» до «полностью удовлетворен» и далее обрабатываются для целей формирования отчетности — на выходе оценивается повторяемость оценок и те, которые встречаются наиболее часто характеризуют качество работы тренера или тренинг центра. По сути, это перевод набора качественных характеристик в количественные показатели оценок конкретных субъектов.
Количественные данные
Содержат в себе числа, поэтому позволяют совершать над собой разные математические операции. Как и порядковые данные, количественные данные могут сравниваться между собой при помощи сравнения "больше/меньше". Количественные данные делятся на интервальные и относительные.

Интервальные данные также проименованы и имеют заданный порядок, как в предыдущих двух видах. Но основным отличием является свойство равных интервалов. Интервальная шкала позволяет однозначно определить, какое значение больше или меньше и на сколько. Однако, не все виды математических операций могут быть применимы (зачем нам нужна сумма наблюдений температур в городе за неделю?)
Интервальные данные —
  • температура
  • географические координаты
  • года (2018, 2019, 2020)

Относительные данные —
  • рост
  • вес
  • возраст
Относительные данные похожи на интервальные. Основное отличие: относительные данные не могут быть отрицательными, у них есть действительный ноль. «В интервальных данных тоже есть ноль!» — скажете вы. Но на самом деле, 0º температуры за окном или нулевой год — это условность, которая была искусственно придумана для облегчения жизни. (Шкала Кельвина сюда не относится)
Основные виды агрегации данных
Возможности нашего восприятия не позволяют проводить анализ данных в уме, просматривая сотни записей в таблице одна за одной. Но возможности программ и приложений для анализа данных основаны на функциях агрегирования данных! Это основной способ получения представления об имеющихся данных.

Агрегация — это способ объединения данных для упрощения их восприятия и анализа.

Представьте, что у вас есть набор данных погоды в вашем городе за последние 10 лет: это более 3500 тысяч наблюдений по нескольким показателям! Чтобы ответить на вопрос «стали ли зимы теплее», вам нужно оценить изменение температуры за сотни записей во времени. Просматривать 3500 строк поштучно неэффективно, но вы можете сделать агрегацию — посчитать среднюю температуру за каждый год и отследить ее динамику.

Чаще всего используются следующие виды агрегаций:
  • сумма – суммирование всех наблюдений
  • среднее – подсчет арифметического среднего
  • минимум / максимум – наименьшее или наибольшее наблюдение в данных
  • количество – сколько раз встречается то или иное значение
Виталий Тренкеншу
основатель, Datanomix.pro
В этом видео я подробно объясняю виды агрегаций с примерами. Вы сможете освежить школьные знаний по основным видам агрегирования данных вместе с примерами визуализаций на Qlik Sense.
Понимание агрегаций
Подробное объяснение от Datanomix.pro
ПРАКТИКА
Понимание данных
Практическое задание 1
В исследовании, моделирующем деятельность авиадиспетчера, группа испытуемых проходила подготовку перед началом работы на тренажере. Испытуемые должны были решать задачи по выбору оптимального типа взлетно-посадочной полосы для данного типа самолета. Показатели количества ошибок в тренировочной сессии приведены в таблице ниже.

Что сделать:
→ 1.1. Поставьте оценки за тренировочную сессию на основе имеющихся данных.
→ 1.2. Определите, кого можно допускать к работе, а какого – нельзя.
→ 1.3. Определите шкалы, по которым проведены измерения:
– количество ошибок
– оценка (за тренировочную сессию)
– допуск к работе
Практическое задание 2
  1. Скачайте приложение по ссылке.
  2. Загрузите приложение в Qlik Sense (дублируем ссылку на инструкцию по загрузке).
  3. В листе “День 02. Виды данных” необходимо проанализировать среднюю цену пачки бумаги А4 используя значения KPI-карточек (индикаторов) AVG и MEDIAN, а также гистограмму “Распределение цены за единицу без НДС”.
  4. Как вы думаете почему функции AVG и MEDIAN дают разный результат на одних и тех же данных? Почему по версии AVG цена одной пачки бумаги А4 отличается от цены по версии MEDIAN?
Полезные ссылки
Если вам интересно узнать больше, переходите по ссылкам для дальнейшего изучения тем и расширения кругозора
Обзор дня и встреча с экспертом: День 02.
Игорь Буробин, эксперт по Qlik Sense, ПроBI
  • Полезные ресурсы марафона: Zoom-встречи, чат марафона, Карта обучения Qlik
  • Как Qlik позволяет работать с разнородными источниками данных — от Excel до Hadoop, SAP, 1C, соц. сетей?
  • Большие и маленькие данные: когда нужны промышленные решения, только ли для Big Data?
  • Совет новичкам, которые только начинают работать с аналитикой в Qlik Sense
Телеграм-сообщество Qlik
Приглашаем вас присоединиться к телеграм-чату Qlik, чтобы общаться с коллегами, задавать вопросы экспертам и оставаться в курсе новостей Марафона.
@qlikbi_chat

2022