Федеральное агентство образования РФ
Московский Государственный Технический Университет «МАМИ»
Факультет экономики
Кафедра
Курсовая работа по ЭИС:
«Корпоративные базы данных электронныхинформационных систем».
Студентки: Силаевой М.А., 10-ВЭФМе-3
Москва, 2010
Содержание
Введение
1. Корпоративные информационные системы и базы данных
2. OLTP-системы (On-Line Transaction Processing)
3. Хранилища данных (Data Warehouse)
3. Оперативная аналитическая обработка (On-Line AnalyticalProcessing, OLAP)
4. Интеллектуальный анализ данных (Data Mining)
5. Интеграция OLAP и Data Mining
Заключение
Список использованных источников
Введение
Тема исследования данной курсовой работы — корпоративные базыданных ЭИС.
Актуальность данного исследования обусловлена тем, что сейчаснаше общество находится в состоянии перехода от индустриального общества к постиндустриальному.Происходит информатизация, т.е. развитие информационных технологий, обеспечивающихдостижение и поддержание уровня информированности членов общества, необходимогодля улучшения условий жизни в обществе. Для успешного ведения бизнеса в наше времятребуется информация. То, как успешно компания использует и управляет информацией,говорит о том, какого успеха эта компания может достигнуть. Невозможно принять верноеуправленческое решение не подвергая информацию обработке. Обработка данных — этопроцесс преобразования информации из первоначального вида к определенному результату.Сбор, накопление, хранение информации часто не являются конечной целью информационногопроцесса. Чаще всего первичные данные привлекаются для решения какой-либо проблемы,затем они преобразуются шаг за шагом в соответствии с алгоритмом решения задачидо получения выходных данных, которые после анализа пользователем предоставляютнеобходимую информацию.
Цель данного исследования — ознакомление с корпоративными базамиданных в учебных целях.
Предмет данной курсовой работы — полезность баз данных, подходящихпод классификацию «корпоративные».
Необходимо ли использование подобного рода систем для совершенствованияи отлаживания ведения бизнеса — ответ на этот вопрос является объектом исследования.
Теоретическая ценность данной работы заключается в том, что вней скомпелированны основные понятия о корпоративных базах данных.
Практическая ценность работы состоит в том, что она раскрываетвыбранную тему «Корпоративные базы данных» и может использоваться в качествевспомогательного материала при изучении предмета.
1. Корпоративные информационные системы и базы данных
Во время жизненного цикла корпорации накапливают большие объемыданных, которые несут в себе потенциальные возможности по получению новой аналитическойинформации. На основе полученной информации необходимо строить стратегию фирмы,выявлять тенденции развития рынка, находить новые решения, обусловливающие успешноеразвитие в условиях конкурентной борьбы.
Понять, что такое корпоративные базы данных невозможно без введениядвух понятий: экономическая информационная система и корпоративная информационнаясистема, частью которых и являются корпоративные базы данных.
Экономическая информационная система (ЭИС) представляет собойсовокупность организационных, технических, программных и информационных средств,объединённых в единую систему с целью сбора, хранения, обработки и выдачи необходимойинформации, предназначенной для выполнения функций управления.
Корпоративная информационная система (КИС) — это масштабируемаяЭИС система, предназначенная для комплексной автоматизации всех видов хозяйственнойдеятельности больших и средних предприятий, в том числе корпораций, состоящих изгруппы компаний, требующих единого управления. Они являются развитием систем длярабочих групп и ориентированы на крупные компании. Могут поддерживать территориальноразнесенные узлы или сети. В основном они имеют иерархическую структуру из несколькихуровней. Для таких систем характерна архитектура клиент-сервер со специализациейсерверов или же многоуровневая архитектура. При разработке таких систем могут использоватьсяте же серверы баз данных, что и при разработке групповых информационных систем.Для групповых и корпоративных систем существенно повышаются требования к надежностифункционирования и сохранности данных. Эти свойства обеспечиваются поддержкой целостностиданных, ссылок и транзакций в серверах баз. [2] Наиболее существенной чертой комплекснойинформационной системы должно стать расширение контура автоматизации для получениязамкнутой, саморегулирующейся системы, способной гибко и оперативно перестраиватьпринципы своего функционирования.
На данный момент существует достаточно большое количество разновидностейинформационных систем. Классификация информационных систем обычно осуществляетсяна основе каких-либо выделенных признаков. Например, с точки зрения управленческогоуровня, на котором осуществляется использование ИС, принято делить корпоративныеИС на следующие виды:
1. ИС для обеспечения текущих бизнес-операций предназначены длярешения задач оперативного учета и контроля бизнес-процессов предприятия. В основномих используют работники компании и их непосредственного начальства. Данные ИС можноразделить на: системы, выполняющие поддержку финансовых операций (так же осуществляющиемодернизацию баз данных, обработку данных, формирование отчетов и прочих документов);системы управления процессами, управляющие физическими процессами производства продукции;системы автоматизации офиса (автоматизирующие коммуникации, делопроизводство и производительностьофиса, охватывающие обработку текстов, электронную почту, организацию телеконференций,обработку и хранение документов).
2. Системы поддержки процесса принятия решений также имеют триразновидности: системы предоставления информации (предоставляющие менеджерам предопределенныеи регламентированные сообщения и отчеты о текущих бизнес-операциях); системы поддержкипринятия решений (имеющие в своем составе набор диалоговых и специальных средствпроектирования альтернативных решений для использования в непрограммируемых ситуациях);ИС руководителей, обслуживающие менеджеров высшего уровня с целью мгновенного формированиякритической информации в свободном формате (информируют о состоянии предприятияпо ключевым факторам); ИС для обеспечения стратегических преимуществ дают мгновенныйдоступ к информации о важнейших факторах, влияющих на достижении фирмой своих задач.
Корпоративные ИС можно классифицировать на основе следующих характеристик:
1. предметная область системы;
2. вид поддерживаемых информационных ресурсов;
3. функции обработки информационных ресурсов;
4. степень детализации предметной области;
5. среда хранения информационных ресурсов;
6. объем информационных ресурсов;
7. степень динамичности информационных ресурсов;
8. состав лингвистических ресурсов системы;
9. архитектура системы;
10. регламент обслуживания пользователей системы;
11. расписание функционирования системы;
12. способы и характер доступа к системе;
13. поддерживаемые стандарты информационных технологий;
14. реализуемые интерфейсы;
15. программно-аппаратная платформа;
16. коммуникационное оборудование;
17. состав программного обеспечения;
18. состав системного персонала;
19. методология и инструментальные средства разработки систем[2].
После ознакомления с сущностью понятия КИС, нужно ввести понятияданных, баз данных и систем управления базами данных (СУБД)
Данные — это формализованное представление информации, доступноедля обработки, интерпретации и обмена между людьми или в автоматическом режиме.База данных — совокупность взаимосвязанных данных (файлов), предназначенных дляобщего применения.
Термин база данных (БД) относится к набору данных, многомерномув том смысле, что между его элементами существуют внутренние связи, и поэтому доступк информации можно осуществлять с различных точек зрения. В этом отличие базы данныхот файлов традиционных систем, иногда называемых одноуровневыми файлами, которыеявляются одномерной системой хранения и представляют информацию только с одной точкизрения [4].
Базы данных представляют собой синтез структур данных и файловыхструктур. В современных базах данных методы из обеих областей применяются для созданиятакой системы хранения больших объемов данных, которая может выглядеть как системас множеством видов организаций данных и обслуживать приложения различных типов.
В те годы, когда формировалось понятие база данных, то в нейдействительно хранились данные и только данные. Однако в современных системах управлениябазами данных имеется возможность не только хранить данные в своих структурах, нои хранить программный код, т.е. методы, с помощью которых происходит взаимодействиес потребителем или с другим программно — аппаратным комплексом.
Если провести обобщение выше сказанного то можно сказать, чтоэто совокупность сведений о конкретных объектах реального мира в какой-либо предметнойобласти. Кроме того, это хранилище данных для совместного использования. При автоматизациидеятельности человека происходит перенос реального мира в электронный формат. Дляэтого выделяется какая-то часть этого мира и анализируется на предмет возможностиавтоматизации. Она называется предметной областью и строго очерчивает круг объектов,которые изучаются, измеряются, оцениваются и т.д. В результате этого процесса выделяютсяобъекты автоматизации и определяются реквизиты, по которым данные объекты оцениваются[1].
Базы данных выполняют две основные функции. Они группируют данныепо информационным объектам и их связям и предоставляют эти данные пользователям.Информация может храниться в неструктурированном виде, например, в виде текстовогодокумента, где данные об объектах предметной области записаны в произвольной форме.
Система управления базами данных (СУБД) — комплекс программ,которые обеспечивают взаимодействие пользователя с базой данных. Посредством СУБДобеспечивается решение таких основных заданий:
1. Создание базы данных;
2. Занесение, корректировка и изъятие данных;
3. Упорядочение данных;
4. Выбор совокупности данных, что отвечают заданным критериям;
5. Оформление выходных данных и т.д.
Совокупность СУБД и базы данных — это банк данных. К достоинствамподхода, который основывается на концепции банка данных, принадлежит:
1. Удовлетворение информационных потребностей разных типов пользователей;
2. Достоверность и непротиворечивость информации, что сохраняется;
3. Санкционированный доступ к данным;
4. Адаптационной модели к изменениям предметной области;
5. Выдача информации в форме установленной пользователем;
6. Одноразовое введение данных и многократное их использование;
7. Возможность исключения избыточности данных, что сохраняются,и т.д.
Базу данных можно считать корпоративной если она: включена вКИС, отвечает требованиям распределенной обработки данных, масштабируема. [3]
В последние годы в мире оформился ряд новых концепций храненияи
анализа корпоративных данных:
1. Информационные системы класса OLTP
2. Хранилища данных (Data Warehouse);
3. Оперативная аналитическая обработка (On-Line Analytical Processing,OLAP);
4. Интеллектуальный анализ данных — ИАД (Data Mining).
Технологии OLAP тесно связаны с технологиями построения хранилищаданных (Data Warehouse) и методами интеллектуальной обработки — Data Mining.2. OLTP-системы (On-Line Transaction Processing)
Информационные системы класса OLTP (On-Line Transaction Processing)или OLTP-системы предназначены, прежде всего, для обслуживания повседневной деятельностипредприятия.
Главная задача этих систем — выполнение большого количества короткихтранзакций. Транзакцией называют неделимую с точки зрения воздействия на базу данныхпоследовательность операций манипулирования данными.
Сами транзакции являются достаточно простыми, но проблемы состоятв том, что таких транзакций очень много, выполняются они одновременно и при возникновенииошибок транзакция должна откатиться и вернуть систему в состояние, в котором табыла до начала транзакции. Практически все запросы к базе данных в OLTP-приложенияхсостоят из команд вставки, обновления и удаления. Типичными примерами OLTP — приложенийявляются системы складского учета, заказов билетов, операционные банковские системыи др. Запросы на выборку в OLTP — системах, в основном, предназначены для предоставленияпользователям выборки данных из различного рода справочников. Поскольку большаячасть запросов известна заранее ещё на этапе проектирования системы, то критическимдля OLTP-приложений является скорость и надежность выполнения коротких операцийобновления данных.
Таким образом, OLTP-системы имеют следующие особенности:
1. Рассчитаны на быстрое обслуживание относительно простых запросовбольшого числа пользователей;
2. Работают с данными, которые требуют защиты от несанкционированногодоступа, нарушений целостности, аппаратных и программных сбоев.
Для обеспечения целостности данных и изолированности пользователейтранзакции в OLTP-системах должны обладать четырьмя основными свойствами:
1. Атомарность. Транзакция должна выполняться как единая операциядоступа к базе данных (БД) и может быть выполнена полностью либо не выполнена совсем.
2. Согласованность. Свойство согласованности гарантирует взаимнуюцелостность данных, т.е. выполнение ограничений целостности БД после окончания обработкитранзакции.
3. Изолированность. Это свойство означает, что транзакции должнывыполняться независимо друг от друга, и доступ к данным, изменяемым с помощью однойтранзакции, для других транзакций должен быть запрещен, пока изменения не будутзавершены.
4. Долговечность. Свойство долговечности означает, что если транзакциявыполнена успешно, то произведенные ею изменения в данных не должны быть потеряныни при каких обстоятельствах. [5]
Длительное время в качестве стратегии разработки OLTP-системиспользовались следующие принципы:
построение отдельных автоматизированных рабочих мест (АРМ), предназначенныхдля обработки групп функционально связанных документов, и тиражирование готовыхАРМ на места;
построение полнофункциональных систем с тиражированием и настройкойпо местам. Однако получаемые таким способом системы имели невысокие адаптационныевозможности, предъявляли высокие требования к эксплуатационному персоналу и требовалибольших накладных расходов на сопровождение.
Относительно недавно начала применяться новая, третья стратегияразработки информационных систем класса OLTP. Ее суть состоит в том, что тиражируютсяне готовые системы, а некоторые заготовки и технологический инструмент, позволяющиенепосредственно на месте быстро построить или достроить систему с необходимой функциональностьюи далее с помощью этого же инструмента ее модифицировать в соответствии с динамикойпредметной области.3. Хранилища данных (Data Warehouse)
Хранилище данных (ХД) — предметно-ориентированный, интегрированный,неизменчивый, поддерживающий хронологию набор данных, организованный для целей поддержкиуправления.
По аналогии с реальными хранилищами, в хранилищах данных имеютсябольшие области для сбора, хранения или перемещения существующих данных. Понятие«хранение данных» возникло, в середине 1980-х гг., и предназначалось дляописания архитектурной модели потока данных от операционной системы к средствамподдержки принятия решений. Без такой архитектурной модели передаваемая управляющаяинформация обычно содержит большое количество избыточных данных.
В больших корпорациях множественные проекты принятия решенийобычно осуществляются независимо, и при этом используется один и тот же набор данных.Таким образом, происходит накопление дублированных данных, что в конечном итогеприводит к снижению эффективности поддержки принятия решений.
Для повышения эффективности поддержки принятия решений и уменьшениядублированности данных применяют очистку данных (data cleaning или scrubbing). В ХД очистку данных такжеприменяют для выявления и удаления ошибок, несоответствий в данных с целью улучшенияих качества.
Хранилища данных требуют и одновременно обеспечивают всестороннююподдержку очистки данных. Они загружают и постоянно обновляют огромные объемы данныхиз различных источников, поэтому вероятность попадания в них «грязных данных»весьма высока. Более того, хранилища данных используются в процессе принятия решений,следовательно, чтобы некорректные данные не привели к некорректным выводам, необходимопроводить корректировки таких данных. Например, дублирующаяся или утраченная информацияможет стать причиной некорректной или неадекватной статистики («мусор на входе- мусор на выходе»). Ввиду большого спектра возможных несоответствий в данныхи большого объема данных их очистка считается одной из самых крупных проблем в технологиихранилищ данных.
В состав хранилища данных, как правило, входит:
виртуальное хранилище данных;
витрины данных;
глобальное хранилище данных;
многоуровневая архитектура хранилища данных.
В основе виртуального хранилища данных лежит репозиторий метаданных,который описывается источниками информации (БД транзакционных систем, внешние файлыи др.), SQL-запросами для их считывания и процедурами обработки и предоставленияинформации. Непосредственный доступ к последним обеспечивает программное обеспечениепромежуточного слоя. В этом случае избыточность данных нулевая. Конечные пользователифактически работают с транзакционными системами напрямую со всеми вытекающими отсюдаплюсами (доступ к не агрегированным данным в реальном времени) и минусами (интенсивныйсетевой трафик, снижение производительности OLTP-систем и реальная угроза их работоспособностивследствие неудачных действий пользователей-аналитиков).
Витрина данных (Data Mart) — это облегченный вариант хранилищаданных, содержащий только тематически объединенные данные. Целевая база данных максимальноприближена к конечному пользователю и может содержать тематически ориентированныеагрегатные данные. Витрина данных существенно меньше по объему, чем хранилище данных,поэтому его реализации не требуется мощная вычислительная техника.
Глобальное хранилище данных. В последнее время все более популярнойстановится идея совместить концепции хранилища и витрины данных в одной реализациии использовать хранилище данных в качестве единственного источника интегрированныхданных для всех витрин данных. Тогда естественной становится следующая трехуровневаяархитектура системы.
На первом уровне реализуется корпоративное хранилище данных наоснове одной из развитых современных реляционных СУБД. Это хранилище состоит, восновном, из детализированных данных. Реляционные СУБД обеспечивают эффективноехранение и управление данными очень большого объема, но не слишком хорошо соответствуютпотребностям OLAP-систем, в частности, в связи с требованием многомерного представленияданных.
На втором уровне поддерживаются витрины данных на основе многомернойсистемы управления базами данных (примером такой системы является Oracle Express Server). Такие СУБД почти идеально подходятдля целей разработки OLAP-систем, но пока не позволяют хранить сверхбольшие объемыданных (предельный размер многомерной базы данных составляет 10-40 Гбайт). В данномслучае это и не требуется, поскольку речь идет о витринах данных. Необходимо заметить,что витрина данных не обязательно должна быть полностью сформирована. Она можетсодержать ссылки на хранилище данных и добирать оттуда информацию по мере поступлениязапросов. Конечно, это несколько увеличивает время отклика, но зато снимает проблемуограниченного объема многомерной базы данных.
На третьем уровне находятся клиентские рабочие места конечныхпользователей, на которых устанавливаются средства оперативного анализа данных.
Хранилища данных обладают рядом свойств:
1. Предметная ориентация. В отличие от традиционной схемы реализацииинформационной системы, где источником данных для средств анализа являются ОБД,в которых данные ориентированы на обработку и функциональность систем сбора информации,данные в ХД ориентированы на решение задач анализа и представления данных.
2. Интегрированность данных. Данные в информационное хранилищепоступают из различных источников, где они могут иметь разные имена, атрибуты, единицыизмерения и способы кодировки. После загрузки в ХД данные очищаются от индивидуальныхпризнаков. С этого момента они представляются пользователю в виде единого информационногопространства.
3. Инвариантность во времени. В OLTP-системах истинность данныхгарантирована только в момент чтения, поскольку уже в следующее мгновение они могутизмениться в результате очередной транзакции. Важным отличием ХД от OLTP-системявляется сохранение истинности данных в любой момент процесса чтения. В OLTP-системахинформация часто модифицируется как результат выполнения каких-либо транзакций.
4. Неразрушаемость — стабильность информации. В OLTP-системахзаписи могут регулярно добавляться, удаляться и редактироваться. В системах ХД,как следует из требования временной инвариантности, однажды загруженные данные теоретическиникогда не меняются. По отношению к ним возможны только две операции: начальнаязагрузка и чтение (доступ).
5. Интеграция. Различные ОБД разрабатываются различными коллективамиразработчиков, зачастую в разное время и различными средствами разработки. Это приводитк тому, что объекты, отражающие одну сущность, имеют различные наименования и единицыизмерения. Обязательная интеграция данных в ХД позволяет решить эту проблему.
6. Минимизация избыточности информации. В ХД информация загружаетсяиз ОБД или OLTP-систем, при этом избыточность оказывается минимальной (около
Все данные в хранилище данных делятся на три основных категории:
метаданные;
детальные (текущие) данные;
агрегированные данные.
Традиционные подходы моделирования хранилищ данных основываются,как правило, на использовании временных отметок создания записей и их модификации.На данный момент известны три основных способа моделирования времени в хранилищахданных:
1. Модель снимков данных. Снимок данных — это представление данныхв определенный момент времени. Данная модель характерна для оперативных систем(OLTP). Обновления данных носят деструктивный характер, т.е. предыдущие значенияатрибутов замещаются новыми значениями. Модель имеет достаточно ограниченный кругприменения в хранилищах данных, поскольку не обеспечивает хранения истории изменений.
2. Событийная модель используется для моделирования событий(данных), возникающих в определенные моменты времени. Данная модель подходит длямоделирования транзакций, таких как: продажи, финансовые транзакции, складские операциии т.д.
3. Статусная модель используется для моделирования состоянияобъектов во времени. Она подходит для представления данных, имеющий нетранзакционныйхарактер [5].
Статусная и событийная модели являются взаимно дополняющими.Путем преобразований из одной можно получить другую.
Для того чтобы существующие хранилища данных способствовали принятиюуправленческих решений, информация должна быть представлена аналитику в нужной форме,т.е. он должен иметь развитые инструменты доступа к данным хранилища и их обработки.
Очень часто информационно-аналитические системы, создаваемыев расчете на непосредственное использование лицами, принимающими решения, оказываютсячрезвычайно просты в применении, но жестко ограничены в функциональности. Такиестатические системы называются Информационными системами руководителя (ИСР), илиExecutive Information Systems (EIS). Они содержат в себе множества запросов и, будучидостаточными для повседневного обзора, неспособны ответить на все вопросы которыемогут возникнуть при принятии решений.
Результатом работы такой системы, как правило, являются многостраничныеотчеты, после тщательного изучения, которых у аналитика появляется новая серия вопросов.Однако каждый новый запрос, непредусмотренный при проектировании такой системы,должен быть сначала формально описан, закодирован программистом и только затем выполнен.Время ожидания в таком случае может составлять часы и дни, что не всегда приемлемо.3. Оперативная аналитическая обработка (On-Line AnalyticalProcessing, OLAP)
Технология комплексного многомерного анализа данных получиланазвание OLAP (On-Line Analytical Processing). OLAP — это ключевой компоненторганизации хранилищ данных. Концепция OLAP была описана в 1993 г. Эдгаром Коддом и имеет следующие требования к приложениям для многомерного анализа [7]:
многомерное концептуальное представление данных, включая полнуюподдержку для иерархий и множественных иерархий (ключевое требование OLAP);
предоставление пользователю результатов анализа за приемлемоевремя (обычно не более 5 с), ценой менее детального анализа;
возможность осуществления любого логического и статистическогоанализа, характерного для данного приложения, и его сохранения в доступном для конечногопользователя виде;
многопользовательский доступ к данным с поддержкой соответствующихмеханизмов блокировок и средств авторизованного доступа;
возможность обращаться к любой нужной информации независимо отее объема.
OLAP-система состоит из множества компонентов. На самом высокомуровне представления система включает в себя источник данных, многомерную базу данных(МБД), предоставляющая возможность реализации механизма составления отчетов на основетехнологии OLAP, OLAP-сервер и клиента. Система построена по принципу клиент-сервери обеспечивает удаленный и многопользовательский доступ к серверу МБД.
Рассмотрим составные части OLAP-системы.
Источники. Источником в OLAP-системах является сервер, поставляющийданные для анализа. В зависимости от области использования OLAP-продукта источникомможет служить хранилище данных, наследуемая база данных, содержащая общие данные,набор таблиц, объединяющих финансовые данные или любая комбинация перечисленного.
Хранилище данных. Исходные данные собираются и помещаются в хранилище,спроектированное в соответствии с принципами построения хранилищ данных. ХД представляетиз себя реляционную базу данных (РБД). Основная таблица ХД (таблица фактов) содержитчисловые значения показателей, по которым собирается статистическая информация.
Многомерная база данных. Хранилище данных служит поставщикоминформации для многомерной базы данных, которая является набором объектов. Основнымиклассами этих объектов являются измерения и показатели. К измерениям относятся множествазначений (параметров), по которым происходит индексация данных, например, время,регионы, тип учреждения и пр. Каждое измерение заполняется значениями из соответствующихтаблиц измерений хранилища данных. Совокупность измерений определяет пространствоисследуемого процесса. Под показателями понимаются многомерные кубы данных (гиперкубы).В гиперкубе содержатся сами данные, а также агрегатные суммы по измерениям, входящимв состав показателя. Показатели составляют основное содержание МБД и заполняютсяв соответствии с таблицей фактов. Вдоль каждой оси гиперкуба данные могут быть организованыв виде иерархии, представляющей различные уровни их детализации. Это позволяет создаватьиерархические измерения, по которым при последующем анализе данных будут осуществлятьсяагрегирование или детализация представления данных. Типичным примером иерархическогоизмерения служит список территориальных объектов сгруппированных по районам, областям,округам.
Сервер. Прикладной частью OLAP-системы является OLAP-сервер.Эта составляющая выполняет всю работу (в зависимости от модели системы), и хранитв себе всю информацию, к которой обеспечивается активный доступ. Архитектурой серверауправляют различные концепции. В частности, основной функциональной характеристикойOLAP-продуктов является использование МБД либо РБД для хранения данных.
Клиентское приложение. Данные, структурированные соответствующимобразом и хранимые в МБД доступны для анализа с помощью клиентского приложения.Пользователь получает возможность удаленного доступа к данным, формулирования сложныхзапросов, генерации отчетов, получения произвольных подмножеств данных. Получениеотчета сводится к выбору конкретных значений измерений и построению сечения гиперкуба.Сечение определяется выбранными значениями измерений. Данные по остальным измерениямсуммируются.
Основными понятиями многомерной модели данных являются: гиперкубданных (Data Hypercube), измерение (Dimension), метки (Memders),ячейка (Cell) и мера (Measure).
Гиперкуб данных содержит одно или более измерений и представляетсобой упорядоченный набор ячеек. Каждая ячейка определяется одним и только однимнабором значений измерений — меток. Ячейка может содержать данные — меру или бытьпустой.
Измерением называется множество меток, образующих одну из гранейгиперкуба. Примером временного измерения является список дней, месяцев, кварталов.Примером географического измерения может быть перечень территориальных объектов:населенных пунктов, районов, регионов, стран и т.д.
Для получения доступа к данным пользователю необходимо указатьодну или несколько ячеек путем выбора значений измерений, которым соответствуютнеобходимые ячейки. Процесс выбора значений измерений называется фиксацией меток,а множества выбранных значений измерений — множеством фиксированных меток.
Преимущества применения серверных OLAP-средств по сравнению склиентскими OLAP-средствами: в случае применения серверных средств вычисление ихранение агрегатных данных происходят на сервере, а клиентское приложение получаетлишь результаты запросов к ним, что позволяет в общем случае снизить сетевой трафик,время выполнения запросов и требования к ресурсам, потребляемым клиентским приложением.
1. Многомерное представление данных — средства конечного пользователя,обеспечивающие многомерную визуализацию и манипулирование данными; слой многомерногопредставления абстрагирован от физической структуры данных и воспринимает данныекак многомерные.
2. Многомерная обработка — средство (язык) формулирования многомерныхзапросов (традиционный реляционный язык SQL здесь оказывается непригодным) и процессор,умеющий обработать и выполнить такой запрос.
3. Многомерное хранение — средства физической организации данных,обеспечивающие эффективное выполнение многомерных запросов [2].
Первые два уровня в обязательном порядке присутствуют во всехOLAP-средствах. Третий уровень, хотя и является широко распространенным, не обязателен,так как данные для многомерного представления могут извлекаться и из обычных реляционныхструктур.
В любом хранилище данных — и в обычном, и в многомерном — нарядус детальными данными, извлекаемыми из оперативных систем, хранятся и агрегированныепоказатели (суммарные показатели), такие, как суммы объемов продаж по месяцам, покатегориям товаров и т.д.
Основными недостатками являются увеличение объема хранимой информации(при добавлении новых измерений объем данных, составляющих куб, растет экспоненциально)и времени на их загрузку.
Степень увеличения объема данных при вычислении агрегатов зависитот количества измерений куба и структуры этих измерений, т.е. соотношения количества«родителей» и «потомков» на разных уровнях измерения. Для решенияпроблемы хранения агрегатов применяются сложные схемы, позволяющие при вычислениидалеко не всех возможных агрегатов достигать значительного повышения производительностивыполнения запросов.
Как исходные, так и агрегатные данные могут храниться либо вреляционных, либо в многомерных структурах. В связи с этим в настоящее время применяютсятри способа хранения многомерных данных:
MOLAP (Multidimensional OLAP) — исходные и агрегатные данныехранятся в многомерной базе данных. Хранение данных в многомерных структурах позволяетманипулировать данными как многомерным массивом, благодаря чему скорость вычисленияагрегатных значений одинакова для любого из измерений. Однако в этом случае многомернаябаза данных оказывается избыточной, так как многомерные данные полностью содержатисходные реляционные данные.
Эти системы обеспечивают полный цикл OLAP-обработки. Они либовключают в себя, помимо серверного компонента, собственный интегрированный клиентскийинтерфейс, либо используют для связи с пользователем внешние программы работы сэлектронными таблицами.
ROLAP (Relational OLAP) — исходные данные остаются в той же реляционнойбазе данных, где они изначально и находились. Агрегатные же данные помещают в специальносозданные для их хранения служебные таблицы в той же базе данных.
HOLAP (Hybrid OLAP) — исходные данные остаются в той же реляционнойбазе данных, где они изначально находились, а агрегатные данные хранятся в многомернойбазе данных.
Некоторые OLAP-средства поддерживают хранение данных только вреляционных структурах, некоторые — только в многомерных. Однако большинство современныхсерверных OLAP-средств поддерживают все три способа хранения данных. Выбор способахранения зависит от объема и структуры исходных данных, требований к скорости выполнениязапросов и частоты обновления OLAP-кубов.4. Интеллектуальный анализ данных (Data Mining)
Термин Data Mining обозначает процесс поиска корреляций, тенденцийи взаимосвязей посредством различных математических и статистических алгоритмов:кластеризации, регрессионного и корреляционного анализа и т.д. для систем поддержкипринятия решений.
При этом накопленные сведения автоматически обобщаются до информации,которая может быть охарактеризована как знания.
В основу современной технологии Data Mining положена концепцияшаблонов, отражающих закономерности, свойственные подвыборкам данных и
Поиск шаблонов производится методами, не использующими никакихаприорных предположений об этих подвыборках. Важной особенностью Data Mining являетсянестандартность и неочевидность разыскиваемых шаблонов. Иными словами, средстваData Mining отличаются от инструментов статистической обработки данных и средствOLAP тем, что вместо проверки заранее предполагаемых пользователями взаимосвязеймежду данными, они на основании имеющихся данных способны самостоятельно находитьтакие взаимосвязи, а также строить гипотезы об их характере [6].
В общем случае процесс интеллектуального анализа данных (DataMining) состоит из трёх стадий:
1. Выявление закономерностей (свободный поиск);
2. Использование выявленных закономерностей для предсказаниянеизвестных значений (прогностическое моделирование);
3. Анализ исключений, предназначенный для выявления и толкованияаномалий в найденных закономерностях.
Иногда в явном виде выделяют промежуточную стадию проверки достоверностинайденных закономерностей между их нахождением и использованием (стадия валидации).
Выделяют пять стандартных типов закономерностей, выявляемых методамиData Mining:
1. Ассоциация позволяет выделить устойчивые группы объектов,между которыми существуют неявно заданные связи. Частота появления отдельного предметаили группы предметов, выраженная в процентах, называется распространенностью. Низкийуровень распространенности (менее одной тысячной процента) говорит о том, что такаяассоциация не существенна.
2. Последовательность — это метод выявления ассоциаций во времени.В данном случае определяются правила, которые описывают последовательное появлениеопределенных групп событий. Такие правила необходимы для построения сценариев. Крометого, их можно использовать, например, для формирования типичного набора предшествующихпродаж, которые могут повлечь за собой последующие продажи конкретного товара.
3. Классификация — инструмент обобщения. Она позволяет перейтиот рассмотрения единичных объектов к обобщенным понятиям, которые характеризуютнекоторые совокупности объектов и являются достаточными для распознавания объектов,принадлежащих этим совокупностям (классам). Суть процесса формирования понятий заключаетсяв нахождении закономерностей, свойственных классам. Для описания объектов используютсямножества различных признаков (атрибутов). Проблема формирования понятий по признаковымописаниям была сформулирована М.М. Бонгартом. Ее решение базируется на применениидвух основных процедур: обучения и проверки. В процедурах обучения строится классифицирующееправило на основе обработки обучающего множества объектов. Процедура проверки (экзамена)состоит в использовании полученного классифицирующего правила для распознаванияобъектов из новой (экзаменационной) выборки. Если результаты проверки признаны удовлетворительными,то процесс обучения заканчивается, в противном случае классифицирующее правило уточняетсяв процессе повторного обучения.
4. Кластеризация — это распределение информации (записей) изБД по группам (кластерам) или сегментам с одновременным определением этих групп.В отличие от классификации здесь для проведения анализа не требуется предварительногозадания классов.
5. Прогнозирование временных рядов является инструментом дляопределения тенденций изменения атрибутов рассматриваемых объектов с течением времени.Анализ поведения временных рядов позволяет прогнозировать значения исследуемых характеристик.
Для решения таких задач используются различные методы и алгоритмыData Mining. Ввиду того, что Data Mining развивалась и развивается на стыке такихдисциплин, как статистика, теория информации, машинное обучение, теория баз данных,вполне закономерно, что большинство алгоритмов и методов Data Mining были разработанына основе различных методов из этих дисциплин.
Из многообразия существующих методов исследования данных можновыделить следующие:
1 Регрессионный, дисперсионный и корреляционный анализ (реализованв большинстве современных статистических пакетов, в частности, в продуктах компанийSAS Institute, StatSoft и др.);
2. Методы анализа в конкретной предметной области, базирующиесяна эмпирических моделях (часто применяются, например, в недорогих средствах финансовогоанализа);
3. Нейросетевые алгоритмы — метод имитации процессов и явлений,позволяющий воспроизводить сложные зависимости. Метод основан на использовании упрощенноймодели биологического мозга и заключается в том, что исходные параметры рассматриваютсякак сигналы, преобразующиеся в соответствии с имеющимися связями между «нейронами»,а в качестве ответа, являющегося результатом анализа, рассматривается отклик всейсети на исходные данные. Связи в этом случае создаются с помощью так называемогообучения сети посредством выборки большого объема, содержащей как исходные данные,так и правильные ответы. Нейронные сети широко применяются для решения задач классификации;
4. Нечеткая логика применяется для обработки данных с размытымизначениями истинности, которые могут быть представлены разнообразными лингвистическимипеременными. Нечеткое представление знаний широко применяется для решения задачклассификации и прогнозирования, например, в системе XpertRule Miner (Attar SoftwareLtd., Великобритания), а также в AIS, NeuFuz и др;
5. Индуктивные выводы позволяют получить обобщения фактов, хранящихсяв БД. В процессе индуктивного обучения может участвовать специалист, поставляющийгипотезы. Такой способ называют обучением с учителем. Поиск правил обобщения можетосуществляться без учителя путем автоматической генерации гипотез. В современныхпрограммных средствах, как правило, сочетаются оба способа, а для проверки гипотезиспользуются статистические методы. Примером системы с применением индуктивных выводовявляется XpertRule Miner, разработанная фирмой Attar Software Ltd. (Великобритания);
6. Рассуждения на основе аналогичных случаев (метод «ближайшегососеда») (Case-based reasoning — CBR) основаны на поиске в БД ситуаций, описаниякоторых сходны по ряду признаков с заданной ситуацией.
7. Принцип аналогии позволяет предполагать, что результаты похожихситуаций также будут близки между собой. Недостаток этого подхода заключается втом, что здесь не создается каких-либо моделей или правил, обобщающих предыдущийопыт. Кроме того, надежность выводимых результатов зависит от полноты описания ситуаций,как и в процессах индуктивного вывода. Примерами систем, использующих CBR, являются:KATE Tools(Acknosoft, Франция), Pattern Recognition Workbench (Unica, США);
8. Деревья решений — метод структурирования задачи в виде древовидногографа, вершины которого соответствуют продукционным правилам, позволяющим классифицироватьданные или осуществлять анализ последствий решений. Этот метод дает наглядное представлениео системе классифицирующих правил, если их не очень много. Простые задачи решаютсяс помощью этого метода гораздо быстрее, чем с использованием нейронных сетей. Длясложных проблем и для некоторых типов данных деревья решений могут оказаться неприемлемыми.Кроме того, для этого метода характерна проблема значимости. Одним из последствийиерархической кластеризации данных является отсутствие большого числа обучающихпримеров для многих частных случаев, в связи с чем классификацию нельзя считатьнадежной. Методы деревьев решений реализованы во многих программных средствах, аименно: С5.0 (RuleQuest, Австралия), Clementine(Integral Solutions,Великобритания), SIPINA (University of Lyon, Франция), IDIS (Information Discovery,США);
9. Эволюционное программирование — поиск и генерация алгоритма,выражающего взаимозависимость данных, на основании изначально заданного алгоритма,модифицируемого в процессе поиска; иногда поиск взаимозависимостей осуществляетсясреди каких-либо определенных видов функций (например, полиномов);
10. Алгоритмы ограниченного перебора, вычисляющие частоты комбинацийпростых логических событий в подгруппах данных.5. Интеграция OLAP и Data Mining
Оперативная аналитическая обработка (OLAP) и интеллектуальныйанализ данных (Data Mining) — две составные части процесса поддержки принятия решений.Однако сегодня большинство систем OLAP заостряет внимание только на обеспечениидоступа к многомерным данным, а большинство средств Data Mining, работающих в сферезакономерностей, имеют дело с одномерными перспективами данных. Для увеличения эффективностиобработки данных для систем поддержки принятия решений эти два вида анализа должныбыть объединены [2].
В настоящее время появляется составной термин «OLAP DataMining» (многомерный интеллектуальный анализ) для обозначения такого объединения.Существует три основных способа формирования «OLAP Data Mining»:
1. «Cubing then mining». Возможность выполнения интеллектуальногоанализа должна обеспечиваться над любым результатом запроса к многомерному концептуальномупредставлению, то есть над любым фрагментом любой проекции гиперкуба показателей.
2. «Mining then cubing». Подобно данным, извлечённымиз хранилища, результаты интеллектуального анализа должны представляться в гиперкубическойформе для последующего многомерного анализа.
3. «Cubing while mining». Этот гибкий способ интеграциипозволяет автоматически активизировать однотипные механизмы интеллектуальной обработкинад результатом каждого шага многомерного анализа (перехода между уровнями обобщения,извлечения нового фрагмента гиперкуба и т.д.).
Заключение
В данной курсовой работе была предоставлена заявленная во введенииознакомительная информация о корпоративных базах данных. Для раскрытия темы быливведены понятия данных, базы данных, системы управления базами данных, корпоративныеинформационные системы. Кратко о выше перечисленном:
Базы данных представляют собой синтез структур данных и файловыхструктур.
Система управления базами данных (СУБД) — комплекс программ,которые обеспечивают взаимодействие пользователя с базой данных.
Корпоративная информационная система (КИС) — это масштабируемаясистема, предназначенная для комплексной автоматизации всех видов хозяйственнойдеятельности больших и средних предприятий, в том числе корпораций, состоящих изгруппы компаний, требующих единого управления.
Далее были рассмотрены корпоративные базы данных: OLTP-системы,главной задачей которых является выполнение большого количества коротких транзакций;хранилище данных — предметно-ориентированный, интегрированный, неизменчивый, поддерживающийхронологию набор данных, организованный для целей поддержки управления; витринаданных (Data Mart) — облегченный вариант хранилища данных, содержащий только тематическиобъединенные данные; OLAP — многомерное концептуальное представление данных, включаяполную поддержку для иерархий и множественных иерархий; интеллектуальный анализданных (Data Mining). Были рассмотрены их особенности, положительные и отрицательныечерты, а так же возможности интегрирования данных систем.
Использование подобного рода вспомогательных средств века компьютерныхтехнологий важно для получения максимальных результатов при минимальных затратахв анализе, сборе и хранении информации. Как было сказано «Кто владеет информацией,тот владеет миром», а кто умеет грамотно воспользоваться информацией — владеетВселенной возможностей.
С точки зрения экономики использование корпоративных баз данныхдля ведения бизнеса — необходимость в наше время. Неоспорима ценность скорости икачества обработки данных при использовании этих систем.
Список использованных источников
1. Андрейчиков А.В. Интеллектуальные информационные системы /А.В. Андрейчиков,О.В. Андрейчикова. — М.: Финансы и статистика, 2004.
2. Борисов Д.Н. Корпоративные информационные системы. — Воронеж: Издательско-полиграфическийцентр Воронежского государственного университета, 2007.
3. Запечников С.В. Основы построения частных сетей / С.В. Запечников,Н.Г. Милославская, А.И. Толстой. — М.: Горячая линия — Телеком, 2003.
4. Лукьянов Д.Б. Информатика и математика. Курс лекций. /Д.Б. Лукьянов.А.Н.Прокопенко. — Белгород ООНИ и РИД БелЮИ МВД России, 2004.
5. Рындин А.А. и др.; под ред.А. А. Рындина. Проектирование корпоративныхинформационных систем — Воронеж: Кварта, 2003.
6. Столингс В. Современные компьютерные сети / В. Столингс. — 2-е изд.- СПб.: Питер, 2003.
7. Хансен Г. «Базы данных» — Москва: БИНОМ, 2009