Тольяттинский государственный университет
Студентка кафедры «Прикладная математика и информатика»
Лесных Юрий Иванович, доктор физико-математических наук, профессор кафедры физики, СамГТУ
УДК 004.65
Введение
В наше время большинство крупных фирм и предприятий имеют большой объем информации, накопившийся за много лет, который следует комплексно исследовать, анализировать, следить за динамикой, тенденцией и т.д. Чаще всего эта информация доступна только тем подразделениям, в которых она накапливается, поэтому аналитики и руководители не могут ее использовать. Поэтому появляется потребность в система, которые помогут решить данную проблему. В современных бизнес-приложения имеется достаточно много возможностей для анализа информации, однако, большая ее часть скрыта в данных, которые были созданы до использования современных информационных систем.
Аспекты хранения данных
Структуры хранения данных
Серверы хранения данных, например, OLAP – серверы или серверы многомерных баз данных хранят информацию по-разному. В любом хранилище данных информация хранится не только детальная, которую извлекают из операционных систем, но и сводные показатели, например, число произведенных деталей в месяц, категории деталей и т.п. Обобщенные данные пользуются большим спросом у аналитиков, чем детальные, поэтому агрегаты хранятся в явном виде, что ускоряет время выполнения запросов. К тому же, если бы каждый раз для составления сводного отчета пришлось бы использовать отчеты по месяцам (неделям), время исполнения данного задания было бы слишком велико. Хотя при всем этом время выполнения запроса напрямую зависит от количества данных.
Детальные данные и агрегаты хранятся в реляционных или многомерных структурах. Быстрые операции с агрегатами и различные многомерные изменения обеспечиваются многомерным хранением данных, что позволяет обращаться с ними как с многомерным массивом.
Однако, хранения данных в многомерном виде сопровождается «разбуханием» из-за хранения пустых значений. Данных хранятся в многомерном массиве, где зарезервированы места для всевозможных комбинаций меток измерений, поэтому большая часть куба может пустовать из-за отсутствия данных, (например, ряд деталей изготавливается только в определенный сезон года) хотя место в памяти будет занято.
Поставщики
Стоит отметить принципиальные отличия OLAP-систем. Это программное обеспечение, которое позволяет пользователю получать ответы на аналитические запросы в режиме реального времени. OLAP-системы включают в себя только те программы, которые имеют многомерную изменяемую таблицу в качестве внешнего интерфейса. Такая таблица может вычислять промежуточные и окончательные итоги в группах данных при всем это она так же позволяет пользователю менять местами строки и столбцы, задавать условия фильтрации.
Обязательная часть OLAP-анализа – графическое отображение данных. Программная реализация OLAP-решений нуждается в существовании машины вычислений (OLAP-сервера) и много мерной базы данных (М-OLAP), к которой обращаются с запросами клиентские программы для выполнение вычислений и получения данных. OLAP-компонента содержится в каждом конечном решении и является интерфейсом пользователя. Такие компоненты схожи между собой, их визуальная часть содержит элементы отображения и управления данных.
Из поставщиков такого класса программного обеспечения известны поставщики серверов баз данных такие как Informix (MetaCube), IBM, Microsoft (OLAP Server), Oracle (OLAP-продукт Express), Microsoft (OLAP Services).
До недавнего времени OLAP-продукты продавались по очень высоким ценам, например, Oracle Express обходился в $95000, поэтому большинство управленцев использовали Excel из офисного пакета Microsoft для решения аналитических задач. Не смотря на то, что Excel создан для одного пользователя, при нужном использовании интеграции и правильной организации работы с внешним приложением, достигаются требуемые результаты в получении аналитики. Появление OLAP-функциональности ознаменовало появление нового класса продуктов – настольных OLAP (DOLAP- Desktop OLAP).
Такие программы можно разделить на локальные и корпоративные по способу получения данных:
Разработчики многомерных и реляционных баз данных сами поставляют DOLAP-системы, например, Oracle Discovery, SAS Corporate Reporter, такие комплексы программ как Pivot Table, MS Pivot Services и другие. Российские компании тоже имеют свои разработки, например, разработка компании ПиБи – OLAP 7.7 – инструмент анализа данных для семейства программ 1С: Предприятие 7.7, а так же Контур Стандарт от Intersoft Lab. Таким образом, применение OLAP 7.7 помогает выявить лучших и худших поставщиков и покупателей, определить тенденцию объемов продаж по периодам или регионам.
Продукты Контур представлены:
Также упомянем о пакете Deductor, обеспечивающий прогнозирование, моделирование, поиск закономерностей, добыча данных (Data Mining) и другие технологии обнаружения знаний (Knowledge Discovery in Databases). В состав входят:
Советы для повышения производительности OLAP-кубов
1) Для максимальной производительности нужно верно выбрать режим хранения – HOLAP, MOLAP, ROLAP. HOLAP, MOLAP имею примерно одинаковую производительность, а ROLAP всегда понижает ее. MOLAP нуждается в больших объемах дискового пространства, чем ROLAP или HOLAP, тем не менее HOLAP нуждается в меньшем количестве оперативной памяти.
2) Рекомендуемый уровень агрегирования кубов – от 25% до 60%, если уровни агрегирования превышают 60%, он не приводит к увеличению скорости обработки запросов, но, как правило, требует огромного объема дискового пространства.
3) Чтобы достигнуть высокой производительности SQL-сервер с хранилищем или витрина данных и OLAP-сервер должны находиться на разных компьютерах.
4) OLAP-серверы следует размещать на разных серверах, если они большие по размеру или часто используется, это разделит нагрузку. Так же можно создать копии часто используемого куба на разных серверах.
5) Обновлять информацию в кубах нужно тогда, когда нагрузка на сервер минимальна.
6) Объем памяти для OLAP-сервера – половина оперативной памяти сервера, это значение устанавливается автоматически. При использовании сервером одного из нескольких кубов, значение доступной памяти должно быть не менее 90% памяти сервера.
7) Важно помнить, что максимальное количество процессов, которые обрабатывает OLAP Service, равно 1000. Нагрузку процессов можно определить с помощью монитора производительности.
8) Чтобы не включать в разработку OLAP-кубов меры или измерения, которые не будут использоваться, следует производить качественные анализы и проектирования систем.
9) Для повышения производительности следует использовать мастера оптимизации при создании OLAP-куба, а так же мастера анализа для того, чтобы проанализировать обрабатываемые запросы.
10) Для того чтобы уменьшить количество ненужных связей и снизить время обработки куба, следует отключить опцию оптимизации схемы.
11) OLAP-кубы делятся на партии в случае, если SQL-сервер используется в корпоративной версии, это повышает производительность. Уровень агрегирования и режим хранения данных свой для каждой партии. Наличие партий обеспечивает размещение их на разных дисках и повышение интенсивности их использования.
Заключение
В ходе выполнения работы мы ознакомились с терминологией вечного хранения данных и понятием этого термина, с хранилищами и базами данных, со структурой хранения данных и простейшими аспектами их хранения.
Рецензии:
24.12.2015, 18:07 Клинков Георгий Тодоров
Рецензия: Статья рекомендуется к публикации.Основания:
1/Релационный подход Едгара Кода является перспективной технологии....
2/Развитие архитектуры типа "клиент-сервер"...
3/Интуитивное манипулование базовой информации...
4/Комбинирование ROLAP и MOLAP....
Комментарии пользователей:
Оставить комментарий