Letyshops

Что должен знать бухгалтер о хранении данных

Марк Левин, Джоэль Сигель

Начало в выпусках: #126, #127

В кратком изложении

Загрузка данных

Источниками информации для хранилищ служат базы данных и системы в различных подразделениях организации. Каждая база-источник обслуживает свои приложения.

Унаследованные системы могут хранить данные мэйнфреймов в сетевых базах компании.

Исходную информацию можно найти в файловых системах отделов, на рабочих местах и серверах компаний. Данные могут поступать извне: из баз данных, совместно используемых клиентами или поставщиками, из Интернета.

Перемещение данных в хранилище состоит из пяти этапов: извлечение, преобразование, интеграция, очистка и загрузка. Так как информация поступает из множества разных, часто несовместимых, источников, эффективное извлечение должно свести все данные в стандартные форматы и поля.

Очистка устраняет ошибки и несоответствия. Затем данные обобщаются, чтобы конечным пользователям было проще с ними работать.

Архитектура хранилища данных включает комплекс программных инструментов, которые обеспечивают доступ к данным и взаимодействие с системами поддержки принятия решений. Функциональные приложения извлекают, загружают и изменяют данные, делая их согласованными и готовыми к обработке в хранилище.

Программы преобразования данных автоматизируют извлечение информации из разнородных источников, переводят ее в целевую и создают программный код для ее обработки. Перед загрузкой поля из исходных баз данных идентифицируются, изменяются, упорядочивается их движение. После загрузки производится очистка данных, проверка их согласованности и цельности, поиск противоречивых записей. Создаются списки ошибок и отчеты об исключениях.

Загрузка данных может быть однократной или непрерывной, в зависимости от технологии сбора информации.

Программные инструменты выполняют следующие функции:

  • чтение данных из унаследованных систем или систем подразделений;
  • определение изменений, которые необходимо произвести;
  • создание новых загрузочных записей;
  • передача данных с мэйнфреймов на серверы хранилища данных;
  • преобразование и слияние исходных данных в таблицы хранилища;
  • сортировка данных для подготовки новых совокупных записей;
  • поиск и обработка исключений;
  • индексация загруженных записей.

Процесс загрузки, преобразования, интеграции и очистки осложнен согласованием источников данных, поступающих в хранилище. Важно контролировать возникающие в процессе загрузки проблемы. Существует ПО, разработанное специально для этого, но может понадобиться и коммерческий пакет на заказ.

Внутренняя обработка данных в хранилище предполагает соединение форматов в соответствии с запросами конечных пользователей.

Работники, ответственные за принятие решений, могут использовать стандартные электронные таблицы, графики, диаграммы или карты. Сложные исследования иногда требуют сохранения структуры отчета, но с подстановкой базовых переменных. Так, общенациональный отчет о товарообороте несложно переформатировать с учетом конкретных товаров и торговых точек.

Программирование для пользователей

Они идут дальше SQL, так как содержат многомерные пространственные инструменты (multidimensional dimensional tools, MDD), которые позволяют хранить данные в форме "куба", измерениями которого можно представить: продукт, клиента, географию, торговые точки и другие переменные.

OLAP-инструменты позволяют отвечать на вопросы: "Почему?" и "Что если?". Помогают анализировать тенденции при принятии стратегических решений.

Архивирование информации - вторая по значению функция хранилища данных (после обновления). Она обеспечивает целостность системы. Исторические данные, которые больше не нужны для анализа, следует сохранить на диске, чтобы иметь возможность реконструировать сделки (например, для аудита).

Окончание в следующем выпуске.

Продолжение в выпусках: #129, #130

 

 

Реклама: