Министерствокультуры и туризма Украины
Харьковскаягосударственная академия культуры
Кафедраинформационных технологий
Реферат
по дисциплине «Электронныйдокументооборот»
«Системыоперативного анализа данных OLAP»
Выполнила
Студентка І гр.
Факультета ДИД
Голик Ольга
Харьков – 2009
СОДЕРЖАНИЕ
Введение
1. Основа концепции OLAP
2. Общие требования к OLAP-системам и способы храненияданных в них
3. OLAP на клиенте и на сервере
Заключение
Список использованной литературы
ВВЕДЕНИЕ
Трудно найти в компьютерном мире человека, который хотябы на интуитивном уровне не понимал, что такое базы данных и зачем они нужны. Вотличие от традиционных реляционных СУБД, концепция OLAP не так широкоизвестна.
OLAP (On-Line Analytical Processing) — оперативнаяаналитическая обработка данных. Иногда аналитическую обработку называют ионлайновой, и интерактивной, однако прилагательное «оперативная» как нельзяболее точно отражает смысл технологии OLAP.
OLAP — это не отдельно взятый программный продукт, ацелая технология. Если постараться охватить OLAP во всех его проявлениях, тоэто совокупность концепций, принципов и требований, лежащих в основепрограммных продуктов, облегчающих доступ к данным.
Термин «OLAP» неразрывно связан с термином«хранилище данных» (Data Warehousing) — местом OLAP в информационнойструктуре предприятия.
Эта технология применяется в хранилищах данных дляповышения эффективности анализа данных. Причём анализ данных происходит врежиме реального времени.
1. ОСНОВА КОНЦЕПЦИИ OLAP
OLAP — представляет собой инструмент для анализа большихобъёмов данных. Взаимодействуя с OLAP-системой, пользователь сможетосуществлять гибкий просмотр информации, получать произвольные срезы данных ивыполнять аналитические операции детализации, свёртки, сквозного распределения,сравнения во времени. Вся работа с OLAP-системой происходит в терминахпредметной области.
OLAP-системы являются часть более общего понятия BusinessIntelligence, которое включает в себя помимо традиционного OLAP-сервисасредства организации совместного использования документов, возникающих впроцессе работы пользователей хранилища. Технология Business Intelligenceобеспечивает электронный обмен отчётными документами, разграничение правпользователей, доступ к аналитической информации из Internet/Intranet.
В основе концепции OLAP лежит принцип многомерногопредставления данных. По измерениям в многомерной модели выделяют факторы,влияющие на деятельность предприятия (например, время, продукты, отделениякомпании и т.п.) и получают гиперкуб, который затем наполняется показателямидеятельности предприятия (цены, продажи, план, прибыли, убытки и т.п.).Наполнение это может вестись как реальными данными оперативных систем, так ипрогнозируемыми на основе исторических данных, то есть данных, накопленных заопределённый период времени.
Измерения гиперкуба могут носить сложный характер, бытьиерархическими, между ними могут быть установлены отношения. В процессе анализапользователь может менять точку зрения на данные (так называемая операция сменылогического взгляда), тем самым, просматривая данные в различных разделах иразрешая конкретные задачи. Над кубами могут выполняться различные операции,включая прогнозирование и условное планирование (анализ типа «что, если»).
Оперативные данные собираются из различных источников,очищаются, интегрируются и складываются в реляционное хранилище. При этом ониуже доступны для анализа при помощи различных средств построения отчетов. Затемданные (полностью или частично) подготавливаются для OLAP-анализа. Они могутбыть загружены в специальную БД OLAP или оставлены в реляционном хранилище.Важнейшим его элементом являются метаданные, то есть информация о структуре,размещении и трансформации данных. Благодаря им обеспечивается эффективноевзаимодействие различных компонентов хранилища.
2. ОБЩИЕ ТРЕБОВАНИЯ К OLAP-СИСТЕМАМ И СПОСОБЫ ХРАНЕНИЯДАНЫХ В НИХ
В 1993 году Е.Ф. Коддом — создателем концепцииреляционных СУБД и, по совместительству, OLAP — были сформулированы критерииOLAP. Они заключаются в недостатках реляционной модели и, в первую очередь,указывают на невозможность «объединять, просматривать и анализировать данные сточки зрения множественности измерений, то есть самым понятным длякорпоративных аналитиков способом». Общие требования к системам OLAP, расширяютфункциональность реляционных СУБД и включают многомерный анализ как одну изсвоих характеристик.
Кодд определил 12 правил, которым должен удовлетворятьпрограммный продукт класса OLAP:
Многомерное концептуальное представление данных(Multi-Dimensional Conceptual View). Концептуальное представление модели данныхв продукте OLAP должно быть многомерным по своей природе, то есть позволятьаналитикам выполнять интуитивные операции «анализа вдоль и поперёк» («slice anddice»), вращения (rotate) и размещения (pivot) направлений консолидации.
Прозрачность (Transparency). Пользователь не должен знатьо том, какие конкретные средства используются для хранения и обработки данных,как данные организованы и откуда берутся.
Доступность (Accessibility). Аналитик должен иметьвозможность выполнять анализ в рамках общей концептуальной схемы, но при этомданные могут оставаться под управлением оставшихся от старого наследства СУБД,будучи при этом привязанными к общей аналитической модели. То есть,инструментарий OLAP должен накладывать свою логическую схему на физическиемассивы данных, выполняя все преобразования, требующиеся для обеспеченияединого, согласованного и целостного взгляда пользователя на информацию.
Устойчивая производительность (Consistent ReportingPerformance). С увеличением числа измерений и размеров базы данных аналитики недолжны столкнуться с каким бы то ни было уменьшением производительности.Устойчивая производительность необходима для поддержания простоты использованияи свободы от усложнений, которые требуются для доведения OLAP до конечногопользователя.
Клиент – серверная архитектура (Client-ServerArchitecture). Главная идея работы в среде клиент – сервер — это то, чтосерверный компонент инструмента OLAP должен быть достаточно интеллектуальным иобладать способностью стоить общую концептуальную схему на основе обобщения иконсолидации различных логических и физических схем корпоративных баз данныхдля обеспечения эффекта прозрачности.
Равноправие измерений (Generic Dimensionality). Всеизмерения данных должны быть равноправными. Дополнительные характеристики могутбыть предоставлены отдельным измерениям. Но поскольку все они симметричны,данная дополнительная функциональность может быть предоставлена любомуизмерению. Базовая структура данных, формулы и форматы отчётов не должныопираться на какое-то одно измерение.
Динамическая обработка разреженных матриц (Dynamic SparseMatrix Handling). Инструмент OLAP должен обеспечивать оптимальную обработкуразреженных матриц. Скорость доступа должна сохраняться вне зависимости отрасположения ячеек данных и быть постоянной величиной для моделей, имеющихразное число измерений и различную разреженность данных.
Поддержка многопользовательского режима (Multi-UserSupport). Зачастую несколько аналитиков имеют необходимость работатьодновременно с одной аналитической моделью или создавать различные модели наоснове одних корпоративных данных. Инструмент OLAP должен предоставлять имконкурентный доступ, обеспечивать целостность и защиту данных.
Неограниченная поддержка кроссмерных операций(Unrestricted Cross-Dimensional Operations). Вычисления и манипуляция даннымипо любому числу измерений не должны запрещать или ограничивать любые отношениямежду ячейками данных. Преобразования, требующие произвольного определения,должны задаваться на функционально полном формульном языке.
Интуитивное манипулирование данными (Intuitive DataManipulation). Детализация данных в колонках и строках, агрегация и другиеманипуляции, свойственные структуре иерархии, должны выполняться в максимальноудобном, естественном и комфортном пользовательском интерфейсе.
Гибкий механизм генерации отчётов (Flexible Reporting). Должныподдерживаться различные способы визуализации данных, то есть отчёты должныпредставляться в любой возможности ориентации.
Неограниченное количество измерений и уровней агрегации(ed Dimensions and Aggregation Levels). Настоятельно рекомендуется допущение вкаждом серьёзном OLAP инструменте как минимум пятнадцати измерений ваналитической модели. Более того, каждое из этих измерений должно допускатьпрактически неограниченное количество определённых пользователем уровнейагрегации.
Набор этих требований, послуживших фактическимопределением OLAP, следует рассматривать как рекомендательный, а конкретныепродукты оценивать по степени приближения к идеально полному соответствию всемтребованиям.
Позднее все эти требования были переработаны в такназываемый тест FASMI, который также определяет требования к продуктам OLAP.FASMI — это аббревиатура от названия каждого пункта теста:
Fast (Быстрый). Приложение OLAP должно обеспечивать минимальноевремя доступа к аналитическим данным — в среднем порядка 5 секунд;
Analysis (Анализ). Приложение OLAP должно даватьпользователю возможность осуществлять числовой и статистический анализ;
Shared (Разделяемый доступ). Приложение OLAP должно предоставлятьвозможность работы с информацией многим пользователям одновременно;
Multidimensional (Многомерность). Приложение должнообеспечивать многомерное концептуальное представление данных, включая полнуюподдержку для иерархий.
Information (Информация). Приложение OLAP должно даватьпользователю возможность получать нужную информацию, в каком бы электронномхранилище данных она не находилась.
Данные могут храниться либо в реляционных, либо вмногомерных структурах. Поэтому в настоящее время применяются три способахранения данных:
MOLAP (Multidimensional OLAP) –— исходные и агрегатныеданные хранятся в многомерной базе данных. Хранение данных в многомерныхструктурах позволяет манипулировать данными как многомерным массивом, благодарячему скорость вычисления агрегатных значений одинакова для любого из измерений.Однако в этом случае многомерная база данных оказывается избыточной, так какмногомерные данные полностью содержат исходные реляционные данные.
ROLAP (Relational OLAP) — исходные данные остаются в тойже реляционной базе данных, где они изначально и находились. Агрегатные жеданные помещают в специально созданные для их хранения служебные таблицы в тойже базе данных.
HOLAP (Hybrid OLAP) — исходные данные остаются в той жереляционной базе данных, где они изначально находились, а агрегатные данныехранятся в многомерной базе данных.
Некоторые OLAP-средства поддерживают хранение данныхтолько в реляционных структурах, некоторые — только в многомерных. Однакобольшинство современных серверных OLAP-средств поддерживают все три способахранения данных. Выбор способа хранения зависит от объема и структуры исходныхданных, требований к скорости выполнения запросов и частоты обновленияOLAP-кубов.
Отметим также, что подавляющее большинство современныхOLAP-средств не хранит «пустых» значений (примером «пустого» значения можетбыть отсутствие продаж сезонного товара вне сезона).
Одним из популярных средств разработки OLAP-системявляется семейство программных продуктов Oracle Express OLAP компании Oracle.Программное обеспечение Oracle Express предоставляет широкие возможности длясоздания аналитических систем на основе сервера многомерных баз данных — OracleExpress Server. В состав инструментальных средств Oracle Express входятсредства создания и администрирования многомерных баз данных —ExpressAdministrator, средство визуального создания “облегченных” клиентскихприложений и презентаций — Express Analyzer, профессиональная инструментальнаясреда объектно-ориентированной разработки OLAP-приложений — Express Objects,позволяющая создавать сложные интегрированные клиентские приложения, и другиесредства, связанные с публикацией данных в Интернете.
3. OLAP НА КЛИЕНТЕ И НА СЕРВЕРЕ
Многомерный анализ данных может быть произведен с помощьюразличных средств, которые условно можно разделить на клиентские и серверныеOLAP-средства.
Клиентские OLAP-средства представляют собой приложения,осуществляющие вычисление агрегатных данных (сумм, средних величин,максимальных или минимальных значений) и их отображение, при этом самиагрегатные данные содержатся в кэше внутри адресного пространства такогоOLAP-средства.
Если исходные данные содержатся в настольной СУБД,вычисление агрегатных данных производится самим OLAP-средством. Если жеисточник исходных данных — серверная СУБД, многие из клиентских OLAP-средствпосылают на сервер запросы, содержащие оператор GROUP BY, и в результатеполучают агрегатные данные, вычисленные на сервере.
Как правило, OLAP-функциональность реализована всредствах статистической обработки данных (из продуктов этого класса нароссийском рынке широко распространены продукты компаний StatSoft и SPSS) и внекоторых электронных таблицах. В частности, неплохими средствами многомерногоанализа обладает Microsoft Excel 2000.
Многие средства разработки содержат библиотеки классовили компонентов, позволяющие создавать приложения, реализующие простейшуюOLAP-функциональность. Помимо этого многие компании предлагают элементыуправления ActiveX и другие библиотеки, реализующие подобную функциональность.
Отметим, что клиентские OLAP-средства применяются, какправило, при малом числе измерений (обычно рекомендуется не более шести) инебольшом разнообразии значений этих параметров, — ведь полученные агрегатныеданные должны умещаться в адресном пространстве подобного средства, а ихколичество растет экспоненциально при увеличении числа измерений. Поэтому дажесамые примитивные клиентские OLAP-средства, как правило, позволяют произвестипредварительный подсчет объема требуемой оперативной памяти для создания в ней многомерногокуба.
Многие клиентские OLAP-средства позволяют сохранитьагрегатные данные в виде файла, что, в свою очередь, позволяет не производитьих повторное вычисление. Отметим, что нередко такая возможность используетсядля отчуждения агрегатных данных с целью передачи их другим организациям илидля публикации. Типичным примером таких отчуждаемых агрегатных данных являетсястатистика заболеваемости в разных регионах и в различных возрастных группах,которая является открытой информацией, публикуемой министерствамиздравоохранения различных стран и Всемирной организацией здравоохранения. Приэтом собственно исходные данные, представляющие собой сведения о конкретныхслучаях заболеваний, являются конфиденциальными данными медицинских учреждений,которые ни в коем случае не должны попадать в руки страховых компаний и темболее становиться достоянием гласности.
Идея сохранения агрегатных данных в файле получила своедальнейшее развитие в серверных OLAP-средствах. В них сохранение и изменениеагрегатных данных, а также поддержка содержащего их хранилища осуществляютсяотдельным приложением или процессом, называемым OLAP-сервером. Клиентскиеприложения могут запрашивать подобное многомерное хранилище и в ответ получатьте или иные данные. Некоторые клиентские приложения могут также создавать такиехранилища или обновлять их в соответствии с изменившимися исходными данными.
Преимущества применения серверных OLAP-средств посравнению с клиентскими OLAP-средствами: в случае применения серверных средстввычисление и хранение агрегатных данных происходят на сервере, а клиентскоеприложение получает лишь результаты запросов к ним, что позволяет в общемслучае снизить сетевой трафик, время выполнения запросов и требования кресурсам, потребляемым клиентским приложением. Поскольку все ведущиепроизводители серверных СУБД производят (либо лицензировали у других компаний)те или иные серверные OLAP-средства, выбор их достаточно широк и почти во всехслучаях можно приобрести OLAP-сервер того же производителя, что и у самогосервера баз данных.
Отметим, что многие клиентские OLAP-средства позволяютобращаться к серверным OLAP-хранилищам, выступая в этом случае в роликлиентских приложений, выполняющих подобные запросы. Помимо этого имеетсянемало продуктов, представляющих собой клиентские приложения к OLAP-средствамразличных производителей.
ЗАКЛЮЧЕНИЕ
В последние годы аналитическая обработка данныхпривлекает все большее внимание в мире. Например, аналитические модулипоявились в составе всех основных западных и российскихфинансово-производственных приложений — ведь в условиях рыночной экономикикачество информационной поддержки деятельности руководителей и аналитиковявляется одним из факторов достижения успеха предприятия. OLAP и является тойтехнологией, которая превращает «сырые» данные OLTP в информацию изнание для конечных пользователей.
В заключение, можно определить OLAP как совокупностьсредств анализа данных, накопленных в хранилище, а также его основныеособенности:
Выделение из большого объёма исторических данныхсодержательной информации (знаний) с использованием средств обработкиинформации на основе методов искусственного интеллекта
Использование мощной вычислительной техники испециального хранилища данных, которое накапливает информацию из различныхисточников за большой период времени, а также обеспечение оперативного доступак данным.
СПИСОК ИСПОЛЬЗОВАННОЙ ЛИТЕРАТУРЫ
1. Асеев Г.Г. Электронный документооборот /Г.Г. Асеев. —К.: Кондор, 2007. — 500 с.
2. Асеев Г.Г. Электронный документооборот /Г.Г. Асеев. —Х.: ХДАК, 2000. — 470 с.
3. Заботнев М.С. Методы представления информации вразреженных гиперкубах данных [Электронный ресурс]. — Режим доступа: www.olap.ru/basic/theory.asp
4. Введение в OLAP. [Электронный ресурс]. — Режимдоступа: www.olap.ru/basic/oolap.asp
5. Стариков. Ядро OLAP системы. [Электронный ресурс]. —Режим доступа: www.masters.donntu.edu.ua/2004/kita/petrov/library/lec8.htm
6. Альперович М. Введение в OLAP и многомерные базыданных. [Электронный ресурс]. — Режим доступа: www.olap.ru/basic/alpero2i.asp