Letyshops

Применение средств аналитической обработки данных

Том Эйкор
Achor Kristjanson Consulting

Признаки OLAP

Средства аналитической обработки данных в реальном времени (OLAP) в сочетании с хранилищами данных и репозиториями – это некое подмножество промышленных приложений, которые гибкостью и скоростью превосходят реляционные базы данных и финансовые отчеты.

Термин «OLAP» предложил Е. Кодд (E. F. Codd) в 1993 г. Он называл двенадцать главных особенностей OLAP:

  • многомерность;
  • прозрачность сервера;
  • доступность;
  • стабильные доступ и работа;
  • архитектура «клиент-сервер»;
  • видовая размерность;
  • управление разреженностью данных;
  • многопользовательский режим;
  • операции с измерениями;
  • интуитивное манипулирование данными;
  • гибкая запись и редактирование;
  • несколько измерений и уровней.

Хотя данные OLAP и реляционных структур в чем-то схожи друг с другом, различия между ними более значительны. Реляционная структура минимизирует требования к хранению и избыточности данных, при этом выводя гибкость на максимум. С другой стороны, данные OLAP оптимизируются для улучшения работы и ускорения времени доступа, а их структура после создания может оказаться не столь гибкой.

С точки зрения пользователя, средства OLAP – простые в применении, графически представленные и конкретно сориентированные – удобнее, чем запросы по реляционной базе данных. Главное в реляционных БД – эффективность, а в БД OLAP – производительность.

Термин OLAP иногда ошибочно используют как синоним бизнес-интеллекта (BI), систем поддержки решений (DSS) и управленческих информационных систем (EIS). OLAP – это не просто средство, даже не технология. Это многомерный анализ, выполняемый при помощи компьютеров. Руководители бизнеса давно занимались бы им, если бы не пугающий объем вычислений.

Многомерность и иерархия

Представим таблицу сбыта из простой базы данных торгового предприятия. С точки зрения OLAP, это куб. Измерениями в таблице будут единицы проданного товара, которые (в терминах OLAP) представлены продуктом и временем. Измерения делятся на категории или диапазоны значений (например, один год). Значения внутри измерения называются членами или позициями. Как и в электронной таблице, пересечения членов измерений называются ячейками.

Чтобы увидеть другое измерение (регион), куб должен быть трехмерным. Такую фигуру уже нельзя наглядно представить в плоской таблице. Одно из преимуществ онлайнового анализа состоит в том, что вы можете передвигаться по данным, а не пытаться увидеть сразу все измерения.

Пользователи Excel иногда применяют функцию сводной таблицы, что позволяет провести ограниченный многомерный анализ данных в электронной таблице или связанной БД. Большинство ведущих OLAP-систем, в том числе Hyperion, Essbase и Cognos PowerPlay, включают в себя или допускают интерфейс на базе Excel, работающий как сводная таблица.

Предположим, вышеупомянутая торговая компания имеет четыре участка по пять магазинов. В каждом магазине шесть отделов по 20 линий товара, а в каждой из линий – 100 товаров. Для простого анализа потребуется 240 000 ссылок.

Подобный анализ, охватывающий данные за год, можно представить в отчете акционерам. Для более детализированного варианта, видимо, придется применить разбиение на кварталы, месяцы, недели и дни, так что возможное количество ячеек в кубе вырастет до 262 800 000.

Правила Кодда для OLAP требуют большого количества измерений и уровней, а также иерархии и способа объединения данных. Например, отделы сводятся в магазины, магазины – в участки, а товары – в линии. Дни группируются в недели или месяцы, месяцы – в кварталы, а кварталы – в годы. Механизм OLAP позволяет графически определить эти иерархии для всех измерений и обычно снабжен календарем с предопределенной иерархией периодов времени.

Пожалуй, главное из двенадцати признаков Кодда – «интуитивное манипулирование данными». У современных средств OLAP обманчиво простые интерфейсы, где высокоуровневый анализ выполняется обычным перетаскиванием результата мышью по экрану. Большинство реализаций также имеют большие возможности многоуровневого поиска, часто вплоть до исходной записи о транзакции.

 

 

Реклама: