Реферат по предмету "Информатика, программирование"


Методы Data Mining

Содержание
Что такое Data Mining
Классификация задач Data Mining
Задача классификации и регрессии
Задача поиска ассоциативных правил
Задача кластеризации
Возможности Data Miner в Statistica 8
Средства анализа STATISTICA Data Miner
Пример работы в Data Minin
Создание отчетов и итогов
Сортировка информации
Анализ цен жилищных участков
Анализ предикторов выживания
Заключение

Что такое Data Mining
Современный компьютерныйтермин Data Mining переводится как «извлечение информации» или «добыча данных».Нередко наряду с Data Mining встречаются термины Knowledge Discovery(«обнаружение знаний») и Data Warehouse («хранилище данных»). Возникновениеуказанных терминов, которые являются неотъемлемой частью Data Mining, связано сновым витком в развитии средств и методов обработки и хранения данных. Итак,цель Data Mining состоит в выявлении скрытых правил и закономерностей в больших(очень больших) объемах данных.
Дело в том, чточеловеческий разум сам по себе не приспособлен для восприятия огромных массивовразнородной информации. В среднем человек, за исключением некоторыхиндивидуумов, не способен улавливать более двух-трех взаимосвязей даже внебольших выборках. Но и традиционная статистика, долгое время претендовавшаяна роль основного инструмента анализа данных, так же нередко пасует при решениизадач из реальной жизни. Она оперирует усредненными характеристиками выборки,которые часто являются фиктивными величинами (средней платежеспособностьюклиента, когда в зависимости от функции риска или функции потерь вам необходимоуметь прогнозировать состоятельность и намерения клиента; среднейинтенсивностью сигнала, тогда как вам интересны характерные особенности ипредпосылки пиков сигнала и т. д.).
Поэтому методы математическойстатистики оказываются полезными главным образом для проверки заранеесформулированных гипотез, тогда как определение гипотезы иногда бываетдостаточно сложной и трудоемкой задачей. Современные технологии Data Miningперерабатывают информацию с целью автоматического поиска шаблонов (паттернов),характерных для каких-либо фрагментов неоднородных многомерных данных. Вотличие от оперативной аналитической обработки данных (OLAP) в Data Miningбремя формулировки гипотез и выявления необычных (unexpected) шаблоновпереложено с человека на компьютер. Data Mining — это не один, а совокупностьбольшого числа различных методов обнаружения знаний. Выбор метода часто зависитот типа имеющихся данных и от того, какую информацию вы пытаетесь получить.Вот, например, некоторые методы: ассоциация (объединение), классификация,кластеризация, анализ временных рядов и прогнозирование, нейронные сети и т. д.
Рассмотрим свойстваобнаруживаемых знаний, данные в определении, более подробно.
Знания должны быть новые,ранее неизвестные. Затраченные усилия на открытие знаний, которые уже известныпользователю, не окупаются. Поэтому ценность представляют именно новые, ранеенеизвестные знания.
Знания должны бытьнетривиальны. Результаты анализа должны отражать неочевидные, неожиданныезакономерности в данных, составляющие так называемые скрытые знания.Результаты, которые могли бы быть получены более простыми способами (например,визуальным просмотром), не оправдывают привлечение мощных методов Data Mining.
Знания должны быть практическиполезны. Найденные знания должны быть применимы, в том числе и на новых данных,с достаточно высокой степенью достоверности. Полезность заключается в том,чтобы эти знания могли принести определенную выгоду при их применении.
Знания должны быть доступныдля понимания человеку. Найденные закономерности должны быть логическиобъяснимы, в противном случае существует вероятность, что они являютсяслучайными. Кроме того, обнаруженные знания должны быть представлены в понятномдля человека виде.
В Data Mining дляпредставления полученных знаний служат модели. Виды моделей зависят от методових создания. Наиболее распространенными являются: правила, деревья решений,кластеры и математические функции.
Сфера применения DataMining ничем не ограничена — Data Mining нужен везде, где имеются какие-либоданные. Опыт многих таких предприятий показывает, что отдача от использованияData Mining может достигать 1000%. Например, известны сообщения обэкономическом эффекте, в 10-70 раз превысившем первоначальные затраты от 350 до750 тыс. дол. Приводятся сведения о проекте в 20 млн. дол., который окупилсявсего за 4 месяца. Другой пример — годовая экономия 700 тыс. дол. за счетвнедрения Data Mining в сети универсамов в Великобритании. Data Miningпредставляют большую ценность для руководителей и аналитиков в их повседневнойдеятельности. Деловые люди осознали, что с помощью методов Data Mining онимогут получить ощутимые преимущества в конкурентной борьбе.
Классификация задач DataMining
Методы DataMining позволяют решить многие задачи, скоторыми сталкивается аналитик. Из них основными являются: классификация,регрессия, поиск ассоциативных правил и кластеризация. Ниже приведено краткоеописание основных задач анализа данных.
1) Задача классификациисводится к определению класса объекта по его характеристикам. Необходимозаметить, что в этой задаче множество классов, к которым может быть отнесенобъект, заранее известно.
2) Задача регрессии,подобно задаче классификации, позволяет определить по известным характеристикамобъекта значение некоторого его параметра. В отличие от задачи классификациизначением параметра является не конечное множество классов, а множестводействительных чисел.
3) Задача ассоциации. Припоиске ассоциативных правил целью является нахождение частых зависимостей (илиассоциаций) между объектами или событиями. Найденные зависимости представляютсяв виде правил и могут быть использованы как для лучшего понимания природыанализируемых данных, так и для предсказания появления событий.
4) Задача кластеризациизаключается в поиске независимых групп (кластеров) и их характеристик во всеммножестве анализируемых данных. Решение этой задачи помогает лучше понятьданные. Кроме того, группировка однородных объектов позволяет сократить ихчисло, а следовательно, и облегчить анализ.
5) Последовательныешаблоны – установление закономерностей между связанными во времени событиями,т.е. обнаружение зависимости, что если произойдет событие X, то спустя заданноевремя произойдет событие Y.
6) Анализ отклонений –выявление наиболее нехарактерных шаблонов.
Перечисленные задачи поназначению делятся на описательные и предсказательные.
Описательные(descriptive) задачи уделяют внимание улучшению понимания анализируемых данных.Ключевой момент в таких моделях — легкость и прозрачность результатов длявосприятия человеком. Возможно, обнаруженные закономерности будут специфическойчертой именно конкретных исследуемых данных и больше нигде не встретятся, ноэто все равно может быть полезно и потому должно быть известно. К такому видузадач относятся кластеризация и поиск ассоциативных правил.
Решение предсказательных(predictive) задач разбивается на два этапа. На первом этапе на основаниинабора данных с известными результатами строится модель. На втором этапе онаиспользуется для предсказания результатов на основании новых наборов данных.При этом, естественно, требуется, чтобы построенные модели работали максимальноточно. К данному виду задач относят задачи классификации и регрессии. Сюдаможно отнести и задачу поиска ассоциативных правил, если результаты ее решениямогут быть использованы для предсказания появления некоторых событий.
По способам решениязадачи разделяют на supervised learning (обучение с учителем) и unsupervisedlearning (обучение без учителя). Такое название произошло от термина MachineLearning (машинное обучение), часто используемого в англоязычной литературе иобозначающего все технологии Data Mining.
В случае supervisedlearning задача анализа данных решается в несколько этапов. Сначала с помощьюкакого-либо алгоритма Data Mining строится модель анализируемых данных –классификатор. Затем классификатор подвергается обучению. Другими словами,проверяется качество его работы и, если оно неудовлетворительно, происходитдополнительное обучение классификатора. Так продолжается до тех пор, пока небудет достигнут требуемый уровень качества или не станет ясно, что выбранныйалгоритм не работает корректно с данными, либо же сами данные не имеютструктуры, которую можно выявить. К этому типу задач относят задачи классификациии регрессии.
Unsupervised learningобъединяет задачи, выявляющие описательные модели, например закономерности впокупках, совершаемых клиентами большого магазина. Очевидно, что если этизакономерности есть, то модель должна их представить и неуместно говорить об ееобучении. Отсюда и название — unsupervised learning. Достоинством таких задачявляется возможность их решения без каких-либо предварительных знаний обанализируемых данных. К ним относятся кластеризация и поиск ассоциативныхправил.
Задача классификации ирегрессии
При анализе частотребуется определить, к какому из известных классов относятся исследуемыеобъекты, т. е. классифицировать их. Например, когда человек обращается в банкза предоставлением ему кредита, банковский служащий должен принять решение:кредитоспособен ли потенциальный клиент или нет. Очевидно, что такое решениепринимается на основании данных об исследуемом объекте (в данном случае — человеке): его месте работы, размере заработной платы, возрасте, составе семьи ит. п. В результате анализа этой информации банковский служащий должен отнестичеловека к одному из двух известных классов «кредитоспособен» и«некредитоспособен».
Другим примером задачиклассификации является фильтрация электронной почты. В этом случае программафильтрации должна классифицировать входящее сообщение как спам (нежелательнаяэлектронная почта) или как письмо. Данное решение принимается на основаниичастоты появления в сообщении определенных слов (например, имени получателя,безличного обращения, слов и словосочетаний: приобрести,«заработать», «выгодное предложение» и т. п.).
В общем случае количествоклассов в задачах классификации может быть более двух. Например, в задачераспознавания образа цифр таких классов может быть 10 (по количеству цифр вдесятичной системе счисления). В такой задаче объектом классификации являетсяматрица пикселов, представляющая образ распознаваемой цифры. При этом цветкаждого пиксела является характеристикой анализируемого объекта.
В Data Mining задачуклассификации рассматривают как задачу определения 'значения одного изпараметров анализируемого объекта на основании значений других параметров.Определяемый параметр часто называют зависимой переменной, а параметры,участвующие в его определении — независимыми переменными. В рассмотренныхпримерах независимыми переменными являлись:
·  зарплата, возраст, количество детей ит. д.;
·  частота определенных слов;
·  значения цвета пикселов матрицы.
Зависимыми переменными вэтих же примерах являлись:
·  кредитоспособность клиента (возможныезначения этой переменной «да» и «нет»);
·  тип сообщения (возможные значенияэтой переменной «spam» и «mail»);
·  цифра образа (возможные значения этойпеременной 0, 1,..., 9).
Необходимо обратитьвнимание, что во всех рассмотренных примерах независимая переменная принималазначение из конечного множества значений: {да, нет}, {spam, mail}, {0, 1,...,9}. Если значениями независимых и зависимой переменных являются действительныечисла, то задача называется задачей регрессии. Примером задачи регрессии можетслужить задача определения суммы кредита, которая может быть выдана банкомклиенту.
Задача классификации ирегрессии решается в два этапа. На первом выделяется обучающая выборка. В неевходят объекты, для которых известны значения как независимых, так и зависимыхпеременных. В описанных ранее примерах такими обучающими выборками могут быть:
·  информация о клиентах, которым ранеевыдавались кредиты на разные суммы, и информация об их погашении;
·  сообщения, классифицированные вручнуюкак спам или как письмо;
·  распознанные ранее матрицы образовцифр.
На основании обучающейвыборки строится модель определения значения зависимой переменной. Ее частоназывают функцией классификации или регрессии. Для получения максимально точнойфункции к обучающей выборке предъявляются следующие основные требования:
·  количество объектов, входящих ввыборку, должно быть достаточно большим. Чем больше объектов, тем построеннаяна ее основе функция классификации или регрессии будет точнее;
·  в выборку должны входить объекты,представляющие все возможные классы в случае задачи классификации или всюобласть значений в случае задачи регрессии;
·  для каждого класса в задачеклассификации или каждого интервала области значений в задаче регрессии выборкадолжна содержать достаточное количество объектов.
На втором этапепостроенную модель применяют к анализируемым объектам (к объектам снеопределенным значением зависимой переменной).
Задача классификации ирегрессии имеет геометрическую интерпретацию. Рассмотрим ее на примере с двумянезависимыми переменными, что позволит представить ее в двумерном пространстве(рис. 2.1.1). Каждому объекту ставится в соответствие точка на плоскости.Символы "+" и "-" обозначают принадлежность объекта кодному из двух классов. Очевидно, что данные имеют четко выраженную структуру:все точки класса "+" сосредоточены в центральной области. Построениеклассификационной функции сводится к построению поверхности, которая обводитцентральную область. Она определяется как функция, имеющая значения "+"внутри обведенной области и "-" — вне.
/>
Рис. Классификация вдвумерном пространстве
Как видно из рисунка,есть несколько возможностей для построения обводящей области. Вид функции зависитот применяемого алгоритма.
Основные проблемы, скоторыми сталкиваются при решении задач классификации и регрессии, — этонеудовлетворительное качество исходных данных, в которых встречаются какошибочные данные, так и пропущенные значения, различные типы атрибутов — числовые и категорические, разная значимость атрибутов, а также так называемыепроблемы overfitting и underfilling. Суть первой из них заключается в том, чтоклассификационная функция при построении «слишком хорошо»адаптируется к данным, и встречающиеся в них ошибки и аномальные значенияпытается интерпретировать как часть внутренней структуры данных. Очевидно, чтотакая модель будет некорректно работать в дальнейшем с другими данными, гдехарактер ошибок будет несколько иной. Термином underfitting обозначаютситуацию, когда слишком велико количество ошибок при проверке классификатора наобучающем множестве. Это означает, что особых закономерностей в данных не былообнаружено и либо их нет вообще, либо необходимо выбрать иной метод их обнаружения.
Задача поискаассоциативных правил
Поиск ассоциативныхправил является одним из самых популярных приложений Data Mining. Суть задачизаключается в определении часто встречающихся наборов объектов в большоммножестве таких наборов. Данная задача является частным случаем задачиклассификации. Первоначально она решалась при анализе тенденций в поведениипокупателей в супермаркетах. Анализу подвергались данные о совершаемых имипокупках, которые покупатели складывают в тележку (корзину). Это послужило причинойвторого часто встречающегося названия — анализ рыночных корзин (BasketAnalysis). При анализе этих данных интерес прежде всего представляет информацияо том, какие товары покупаются вместе, в какой последовательности, какиекатегории потребителей, какие товары предпочитают, в какие периоды времени и т.п. Такая информация позволяет более эффективно планировать закупку товаров,проведение рекламной кампании и т. д.
Например, из наборапокупок, совершаемых в магазине, можно выделить следующие наборы товаров,которые покупаются вместе:
·  {чипсы, пиво};
·  {вода, орехи}.
Следовательно, можносделать вывод, что если покупаются чипсы или орехи, то, как правило, покупаютсяпиво или вода соответственно. Обладая такими знаниями, можно разместить этитовары рядом, объединить их в один пакет со скидкой или предпринять другиедействия, стимулирующие покупателя приобрести товар.
Задача поискаассоциативных правил актуальна не только в сфере торговли. Например, в сфереобслуживания интерес представляет, какими услугами клиенты предпочитаютпользоваться в совокупности. Для получения этой информации задача решаетсяприменительно к данным об услугах, которыми пользуется один клиент в течениеопределенного времени (месяца, года). Это помогает определить, например, как наиболеевыгодно составить пакеты услуг, предлагаемых клиенту.
В медицине анализу могутподвергаться симптомы и болезни, наблюдаемые у пациентов. В этом случае знанияо том, какие сочетания болезней и симптомов встречаются наиболее часто,помогают в будущем правильно ставить диагноз.
При анализе частовызывает интерес последовательность происходящих событий. При обнаружениизакономерностей в таких последовательностях можно с некоторой долей вероятностипредсказывать появление событий в будущем, что позволяет принимать болееправильные решения. Такая задача является разновидностью задачи поискаассоциативных правил и называется сиквенциалъным анализом.
Основным отличием задачисиквенциального анализа от поиска ассоциативных правил является установлениеотношения порядка между исследуемыми наборами. Данное отношение может бытьопределено разными способами. При анализе последовательности событий,происходящих во времени, объектами таких наборов являются события, а отношениепорядка соответствует хронологии их появления.
Сиквенциальный анализшироко используется, например в телекоммуникационных компаниях, для анализаданных об авариях на различных узлах сети. Информация о последовательностисовершения аварий может помочь в обнаружении неполадок и предупреждении новыхаварий. Например, если известна последовательность сбоев:
/>
где />— сбой с кодом i, то наосновании факта появления сбоя /> можно сделать вывод о скоромпоявлении сбоя />. Зная это, можно предпринятьпрофилактические меры, устраняющие причины возникновения сбоя. Еслидополнительно обладать и знаниями о времени между сбоями, то можно предсказатьне только факт его появления, но и время, что часто не менее важно.
Задача кластеризации
Задача кластеризациисостоит в разделении исследуемого множества объектов на группы«похожих» объектов, называемых кластерами. Слово кластер английскогопроисхождения (cluster), переводится как сгусток, пучок, группа. Родственныепонятия, используемые в литературе, — класс, таксон, сгущение. Часто решениезадачи разбиения множества элементов на кластеры называют кластерным анализом.
Кластеризация можетприменяться практически в любой области, где необходимо исследованиеэкспериментальных или статистических данных. Рассмотрим пример из областимаркетинга, в котором данная задача называется сегментацией.
Концептуальносегментирование основано на предпосылке, что все потребители — разные. У нихразные потребности, разные требования к товару, они ведут себя по-разному: впроцессе выбора товара, в процессе приобретения товара, в процессеиспользования товара, в процессе формирования реакции на товар. В связи с этимнеобходимо по-разному подходить к работе с потребителями: предлагать имразличные по своим характеристикам товары, по-разному продвигать и продаватьтовары. Для того чтобы определить, чем отличаются потребители друг от друга икак эти отличия отражаются на требованиях к товару, и производится сегментированиепотребителей.
В маркетинге критериями(характеристики) сегментации являются: географическое местоположение,социально-демографические характеристики, мотивы совершения покупки и т. п.
На основании результатовсегментации маркетолог может определить, например, такие характеристикисегментов рынка, как реальная и потенциальная емкость сегмента, группыпотребителей, чьи потребности не удовлетворяются в полной мере ни однимпроизводителем, работающим на данном сегменте рынка, и т. п. На основании этихпараметров маркетолог может сделать вывод о привлекательности работы фирмы вкаждом из выделенных сегментов рынка.
Для научных исследованийизучение результатов кластеризации, а именно выяснение причин, по которымобъекты объединяются в группы, способно открыть новые перспективныенаправления. Традиционным примером, который обычно приводят для этого случая,является периодическая таблица элементов. В 1869 г. Дмитрий Менделеев разделил 60 известных в то время элементов на кластеры или периоды.Элементы, попавшие в одну группу, обладали схожими характеристиками. Изучениепричин, по которым элементы разбивались на явно выраженные кластеры, взначительной степени определило приоритеты научных изысканий на годы вперед. Нолишь спустя 50 лет квантовая физика дала убедительные объяснения периодическойсистемы.
Кластеризация отличаетсяот классификации тем, что для проведения анализа не требуется иметь выделеннуюзависимую переменную. С этой точки зрения она относится к классу unsupervisedlearning. Эта задача решается на начальных этапах исследования, когда о данныхмало что известно. Ее решение помогает лучше понять данные, и с этой точкизрения задача кластеризации является описательной задачей.
Для задачи кластеризациихарактерно отсутствие каких-либо различий как между переменными, так и междуобъектами. Напротив, ищутся группы наиболее близких, похожих объектов. Методыавтоматического разбиения на кластеры редко используются сами по себе, простодля получения групп схожих объектов. После определения кластеров применяютсядругие методы Data Mining, для того чтобы попытаться установить, а что означаеттакое разбиение, чем оно вызвано.
Кластерный анализпозволяет рассматривать достаточно большой объем информации и резко сокращать,сжимать большие массивы информации, делать их компактными и наглядными.
Отметим ряд особенностей,присущих задаче кластеризации.
Во-первых, решение сильнозависит от природы объектов данных (и их атрибутов). Так, с одной стороны, этомогут быть однозначно определенные, четко количественно очерченные объекты, а сдругой — объекты, имеющие вероятностное или нечеткое описание.
Во-вторых, решениезначительно зависит также и от представления кластеров и предполагаемыхотношений объектов данных и кластеров. Так, необходимо учитывать такиесвойства, как возможность/невозможность принадлежности объектов несколькимкластерам. Необходимо определение самого понятия принадлежности кластеру:однозначная (принадлежит/не принадлежит), вероятностная (вероятностьпринадлежности), нечеткая (степень принадлежности).
Возможности Data Miner в Statistica 8
Компанией StatSoft быларазработана система STATISTICA Data Miner, которая спроектирована и реализованакак универсальное и всестороннее средство анализа данных — от взаимодействия сразличными базами данных до создания готовых отчетов, реализующее такназываемый графически — ориентированный подход. Чтобы описать все возможностиданного пакета потребуется написать целую книгу, поэтому постараемся вкратцеописать имеющиеся в данном пакете основные средства Data Mining.
/>
·  Наиболее полный пакет методов DataMining на рынке программного обеспечения;
·  Большой набор готовых решений;
·  Удобный пользовательский интерфейс,полностью интегрированный с MS Office;
·  Мощные средства разведочного анализа;
·  Полностью оптимизированный пакет дляработы с огромным объемом информации;
·  Гибкий механизм управления;
·  Многозадачность системы;
·  Чрезвычайно быстрое и эффективноеразвертывание;
·  Открытая COM архитектура,неограниченные возможности автоматизации и поддержки пользовательскихприложений (использование промышленного стандарта Visual Basic (являетсявстроенным языком), Java, C/C++).
Сердцем STATISTICA DataMiner является браузер процедур Data Mining, содержащий более 300 основныхпроцедур, специально оптимизированных под задачи Data Mining, и средствлогической связи между ними и управления потоками данных, позволяющийконструировать собственные аналитические методы.
/>
/>
Рабочее пространство STATISTICAData Miner состоит из четырех основных частей:
·  Data Acquisition — Сбор данных. Вданной части пользователь идентифицирует источник данных для анализа, будь тофайл данных или запрос из базы данных.
·  Data Preparation, Cleaning,Transformation — Подготовка, преобразования и очистка данных. Здесь данныепреобразуются, фильтруются, группируются и т.д.
·  Data Analysis, Modeling,Classification, Forecasting — Анализ данных, моделирование, классификация,прогнозирование. Здесь пользователь может при помощи браузера или готовыхмоделей задать необходимые виды анализа данных таких как, прогнозирование,классификация, моделирование и т.д.
·  Reports — Результаты. В данной частипользователь может просмотреть, задать вид и настроить результаты анализа(например, рабочая книга, отчет или электронная таблица).
Средства анализа STATISTICA Data Miner
В пакете предлагаетсяисчерпывающий набор процедур и методов визуализации.
Средства анализа STATISTICA Data Miner можно классифицировать напять основных классов:
·  /> General Slicer/Dicer andDrill-Down Explorer — Разметка/Разбиение и Углубленный анализ. Набор процедурпозволяющий разбивать, группировать переменные, вычислять описательныестатистики, строить исследовательские графики и т.д.
·  /> General Classifier — Классификация. STATISTICA Data Miner включает в себя полный пакет процедурклассификации: обобщенные линейные модели, деревья классификации, регрессионныедеревья, кластерный анализ и т.д.
·  /> General Modeler/MultivariateExplorer — Обобщенные линейные, нелинейные и регрессионные модели. Данныйэлемент содержит линейные, нелинейные, обобщенные регрессионные модели иэлементы анализа деревьев классификации.
·  /> General Forecaster — Прогнозирование. Включает в себя модели АРПСС, сезонные модели АРПСС,экспоненциальное сглаживание, спектральный анализ Фурье, сезонная декомпозиция,прогнозирование при помощи нейронных сетей и т.д.
·  /> General Neural Networks Explorer- Нейросетевой анализ. В данной части содержится наиболее полный пакет процедурнейросетевого анализа.
Приведенные выше элементыявляются комбинацией модулей других продуктов StatSoft, кроме них STATISTICAData Miner содержит набор специализированных процедур Data Mining, которыедополняют линейку инструментов Data Mining
/>
·  Feature Selection and VariableFiltering (for very large data sets) — Специальная выборка и фильтрация данных(для больших объемов данных). Данный модуль автоматически выбирает подмножествапеременных из заданного файла данных для последующего анализа. Например, модульможет обработать около миллиона входных переменных с целью определенияпредикторов для регрессии или классификации.
·  Association Rules — Правилаассоциации. Модуль является реализацией так называемого априорного алгоритмаобнаружения правил ассоциации например, результат работы этого алгоритма мог быбыть следующим: клиент после покупки продукт «А», в 95 случаях из100, в течении следующих двух недель после этого заказывает продукт «B»или «С».
·  Interactive Drill-Down Explorer — Интерактивный углубленный анализ. Представляет собой набор средств для гибкогоисследования больших наборов данных. На первом шаге вы задаете набор переменныхдля углубленного анализа данных, на каждом последующем шаге вы выбираетенеобходимую подгруппу данных для последующего анализа.
·  Generalized EM & k-Means ClusterAnalysis — Обобщенный метод максимума среднего и кластеризация методом Ксредних. Данный модуль — это расширение методов кластерного анализа,предназначен для обработки больших наборов данных и позволяет кластеризовыватькак непрерывные так и категориальные переменные, обеспечивает все необходимыефункциональные возможности для распознавания образов.
·  Generalized Additive Models (GAM) — Обобщенные аддитивная модели (GAM). Набор методов, разработанных ипопуляризованных Hastie и Tibshirani (1990); более детальное рассмотрение этихметодов вы также может найти в работах Schimek (2000).
·  General Classification and RegressionTrees (GTrees) — Обобщенные классификационные и регрессионные деревья (GTrees).Модуль является полной реализацией методов разработанных Breiman, Friedman,Olshen, и Stone (1984). Кроме этого модуль содержит разного рода доработки идополнения такие как, оптимизации алгоритмов для больших объемов данных и т.д.Модуль является набором методов обобщенной классификации и регрессионныхдеревьев.
·  General CHAID (Chi-square AutomaticInteraction Detection) Models — Обобщенные CHAID модели (Хи-квадратавтоматическое обнаружение взаимодействия). Подобно предыдущему элементу данныймодуль является оптимизацией данной математической модели для больших объемовданных.
data miner statisticaрегрессия кластеризация

/>
·  Interactive Classification andRegression Trees — Интерактивная классификация и регрессионные деревья. Вдополнение к модулям автоматического построения разного рода деревьев, STATISTICAData Miner также включает средства для формирования таких деревьев винтерактивном режиме.
·  Boosted Trees — Расширяемые простыедеревья. Последние исследование аналитических алгоритмов показывают, что длянекоторых задач построения «сложных» оценок, прогнозов иклассификаций, использование последовательно увеличиваемых простых деревьевдает более точные результаты чем нейронные сети или сложные цельные деревья.Данный модуль реализует алгоритм построения простых увеличиваемых (расширяемых)деревьев.
·  Multivariate Adaptive RegressionSplines (Mar Splines) — Многомерные адаптивные регрессионные сплайны (MarSplines). Данный модуль основан на реализации методики предложенной Friedman(1991; Multivariate Adaptive Regression Splines, Annals of Statistics, 19,1-141); в STATISTICA Data Miner расширены опции MARSPLINES для того, чтобыприспособить задачи регрессии и классификации к непрерывными и категориальнымпредикторам.
·  Goodness of Fit Computations — Критерии согласия. Данный модуль производит вычисления различных статистическихкритериев согласия как для непрерывных переменных, так и для категориальных.
·  Rapid Deployment of Predictive Models- Быстрые прогнозирующие модели (для большого числа наблюдаемых значений).Модуль позволяет строить за короткое время классификационные и прогнозирующиемодели для большого объема данных. Полученные результаты могут бытьнепосредственно сохранены во внешней базе данных. Пример работы в DataMiningСоздание отчетов и итоговОткрываем базу данных:/>Таблица содержит имена менеджеров вразличных ресторанных сетях. Первая колонка – пол менеджера, вторая – чтопоставляется от вашего ресторана менеджерам, колонки с 3 по 26 – информация околичестве закупок по 23 месяцам сделанных у вашей компании.Необходимо определить какой из менеджеровкупил больше всего продукции, поделенной по типам продукции.Выбираем средуработы в DataMining ->Workspaces->All Procedures./>Выбираем данные (базу данных) для работы:/>Выбираем переменные:/>
Далее необходимо убрать все нули безпотери данных для вычисления среднего числа:/>Далее определяем параметры фильтрации:/>
После запуска проекта на выполнение:/>Все нулевые значения убраны:/>
Далее посчитаем среднее число поставок запоследние 3 и 6 месяцев:/>/>/>/>Запускаем проект на выполнение.
Результат:/>/>
Сортировка информацииОтсортируем информацию по двум переменным,которые мы создали./>/>
/>/>
Для первой сортировки:/>Для второй сортировки:/>
Запускаем проект на выполнение:/>Результат первой сортировки:/>
Построение графика:/>Далее выбираем вид процедур:/>
/>Запускаем проект на выполнение:/>
Результаты:/>/>
Анализ цен жилищных участковВыбираем среду работы в DataMining ->Workspaces->All Procedures./>Выбираем данные (базу данных) для работы:/>В следующем примере анализируются данные ожилищном строительстве в Бостоне. Цена участка под застройку классифицируетсякак Низкая — Low, Средняя — Medium или Высокая — High в зависимости от значениязависимой переменной Price. Имеется один категориальный предиктор — Cat1 и 12порядковых предикторов — Ord1-Ord12. Весь набор данных, состоящий из 1012наблюдений, содержится в файле примеров Boston2.sta.Далее выбираем переменные для анализа.STATISTICA различает категориальные и непрерывные переменные, а также зависимыеи предикторы (независимые переменные). Категориальные переменные – те, которыесодержат информацию о некотором дискретном количестве или характеристике,описывающей наблюдения в файле данных (например, Пол: Мужской, Женский);непрерывные переменные измерены в некотором непрерывном масштабе (например,Высота, Вес, Стоимость). Зависимые переменные – те, которые мы хотимпредсказать; их также иногда называют переменными результата; предикторы(независимые) переменные – те, что мы хотим использовать для предсказания иликлассификации (категориальных исходящих).После выбора файла появится окно диалога«Выберите зависимые переменные и предикторы»
/>/>
Выбранные переменные для анализа:/>После нажатия кнопки ОК данные заносятся врабочее пространство.Запускаем диспетчер узлов.Далее открываем окно для выбора видаанализа или задания преобразования данных:/>
А также выбираем ещё такую процедуру:/>Диспетчер узлов включает в себя вседоступные процедуры для добычи данных. Всего доступно около 260 методовфильтрации и очистки данных, методов анализа. По умолчанию, процедуры помещеныв папки и отсортированы в соответствии с типом анализа, который они выполняют.Однако пользователь имеет возможность создать собственную конфигурациюсортировки методов.Для того чтобы выбрать необходимый анализ,необходимо выделить его на правой панели и нажать кнопку «вставить».В нижней части диалога дается описание выбираемых методов. Выберем, для примера, DescriptiveStatistics и Standard Classification Trees with Deployment (C And RT). ОкноData Miner выглядит следующим образом.
/>Источник данных в рабочей области DataMiner автоматически будет соединен с узлами выбранных анализов. Операциисоздания/удаления связей можно производить и вручную.Запускаем на выполнение проект “Run”. Все узлы, соединенные с источниками данныхактивными стрелками, будут проведены:/>Далее можно просмотреть результаты (встолбце отчетов). Подробные отчеты создаются по умолчанию для каждого видаанализа. Для рабочих книг результатов доступна полная функциональность системыSTATISTICA./>/>
Кроме того, в диспетчере узлов STATISTICAData Miner содержатся разнообразные процедуры для классификации иДискриминантного анализа, Регрессионных моделей и Многомерного анализа, а такжеОбобщенные временные ряды и прогнозирование. Все эти инструменты можноиспользовать для проведения сложного анализа в автоматическом режиме, а такжедля оценивания качества модели.Анализ предикторов выживанияДанный пример базируется на данных опассажирах корабля. Приведены пол, возраст, тип класса, и статус выживания дляпассажиров плохо снаряженных суден./>/>Отображаются единичная точка входа длясоединения с данными, а также различные точки для получения разных моделей изданной информации.Данный монтируется с помощью Trainingsample, а затем оцениваются с помощью Testing sample.В итоге Advanced Comprehensive ClassifiersProject предоставит различные методы классификации проблемы, и автоматическисгенерирует развернутую информацию необходимую, чтоб классифицировать новыенаблюдения, используя один из этих методов или комбинации этих методов.Проанализируем предикторы выживания вслучае катастрофы корабля./>/>
/>/>/>/>Запускаем проект:/>Результат:/>
/>/>Если следовать этому дереву решений, выувидите, что женщины в первом и втором классах имеют более высокий шансвыживания, чем дети мужского пола в первом и втором классах.
ЗаключениеData Mining включает огромный наборразличных аналитических процедур, что делает его недоступным для обычныхпользователей, которые слабо разбираются в методах анализа данных. КомпанияStatSoft нашла выход и из этой ситуации, данный пакет Statisticaмогут использовать как профессионалы, так и обычные пользователи, обладающиенебольшими опытом и знаниями в анализе данных и математической статистике. Дляэтого кроме общих методов анализа были встроены готовые законченные (сконструированные)модули анализа данных, предназначенные для решения наиболее важных и популярныхзадач: прогнозирования, классификации, создания правил ассоциации и т.д.


Не сдавайте скачаную работу преподавателю!
Данный реферат Вы можете использовать для подготовки курсовых проектов.

Поделись с друзьями, за репост + 100 мильонов к студенческой карме :

Пишем реферат самостоятельно:
! Как писать рефераты
Практические рекомендации по написанию студенческих рефератов.
! План реферата Краткий список разделов, отражающий структура и порядок работы над будующим рефератом.
! Введение реферата Вводная часть работы, в которой отражается цель и обозначается список задач.
! Заключение реферата В заключении подводятся итоги, описывается была ли достигнута поставленная цель, каковы результаты.
! Оформление рефератов Методические рекомендации по грамотному оформлению работы по ГОСТ.

Читайте также:
Виды рефератов Какими бывают рефераты по своему назначению и структуре.