Реферат по предмету "Наука и техника"


Классификация объектов нечисловой природы на основе непараметрических оценок плотности

КЛАССИФИКАЦИЯ ОБЪЕКТОВ НЕЧИСЛОВОЙ ПРИРОДЫ НА ОСНОВЕ НЕПАРАМЕТРИЧЕСКИХ ОЦЕНОК ПЛОТНОСТИ.

           

            В СССР в середине 70-х годов активно ведутся работы по статистическому анализу нечисловых данных [1]. В
настоящее время во Всесоюзном центре статистических методов и информатики мы при разработке методических документов и программных продуктов по прикладной
статистике делим ее на четыре части соответственно виду обрабатываемых статистических данных: на статистику случайных величин, многомерный
статистический анализ, статистику временных рядов и случайных процессов, статистику объектов нечисловой природы (другими словами, статистику нечисловых
данных).

            Вероятностный и статистический анализ нечисловых данных сопровождали теорию вероятностей и математическую
статистику с самого начала их развития. Типичными примерами являются урновые схемы и изучение рождаемости. Испытание Бернулли- вероятностная модель
простейшего объекта нечисловой природы. Наиболее массовым применением статистических методов является, видимо, выборочный контроль качества продукции
по альтернативному признаку (т. е. по признаку "годен” - “не годен"), относящийся, очевидно, к статистике объектов нечисловой природы [2].

            Развитие прикладных исследований привело к необходимости рассмотрения в качестве статистических данных различных
объектов нечисловой природы. Этот термин применяем к объектам, которые нецелесообразно рассматривать как описанные числами. Другими словами, речь идет
об элементах пространства, не являющихся линейными (векторными). Примеры: бинарные отношения (ранжировки, разбиения, толерантности и т. д.); множества;
нечеткие множества; результаты измерений в шкалах, отличной от абсолютной; как обобщение перечисленных объектов - элементы пространств общей природы. Для
результатов наблюдений, являющихся объектами нечисловой природы, рассматривают [1] классические задачи статистики: описание данных (включая классификацию)
оценивание (параметров, характеристик, плотности распределения, регрессионной зависимости и т. д.).

            Математический аппарат статистики объектов нечисловой природы основан не на свойстве линейности пространства, а
на применении симметрик и метрик в нем, поэтому существенно отличается от классического.

            В прикладных работах наиболее распространенный пример объектов нечисловой природы - разнотипные данные. В
этом случае реальный объект описывается вектором, часть координат которого - значения количественных признаков, а часть - качественных (номинальных и
порядковых).

            Основная цель настоящего раздела - обосновать новый подход [3] к классификации в пространствах произвольной
природы, основанный на построении не параметрических оценок плотности распределений вероятности в таких пространствах [4].

" Пусть  - измеримое пространство,.  и . суть
 -конечные меры на ., причем  абсолютно непрерывна относительно , т. е. из равенства. . =0
следует равенство =0, где .. В этом случае на  существует неотрицательная измеримая
функция  такая, что



для любого  Функция называется производной
Родона-Никодима меры  по мере , а в случае, когда  - вероятностная мера, также плотностью
вероятности   по отношению к . " [5]

                                          Будем считать, что в пространстве объектов нечисловой природы фиксирована некоторая
мера , а мера  соответствует распределению Р случайного
элемента  со знаниями в измеримом пространстве , т. е.



Если -  пространство из конечного числа точек, то в
качестве меры  можно использовать считающую меру (приписывающую
единичный вес каждой точке), т. е. , или



                                          В случае считающей меры значение плотности в точке  совпадает с вероятностью попасть в точку , т. е.

              Многие методы классификации используют расстояния или меры близости между объектами или признаками. Такие
методы пригодны и для классификации объектов нечисловой природы, лишь бы в соответствующем пространстве было определено расстояние или мера близости.
Таким образом, широко известные иерархические агломеративные алгоритмы ближайшего соседа, дальнего соседа, средней связи и др., результатом работы
которых являются дендрограммы, на самом деле относятся к статистике объектов нечисловой природы.

              Не пытаясь рассмотреть все многообразие методов классификации в статистике объектов нечисловой природы
(см., например, [6, 7]), сосредоточимся на тех из них, которые используют плотности распределения и их оценки. Зная плотности распределения классов,
можно решать основные задачи классификации - как задачи выделения кластеров, так и задачи диагностики. В задачах кластер-анализа можно находить моды
плотности и принимать их за центры кластеров или за начальные точки итерационных методов типа динамических сгущений. В задачах диагностики
(дискриминации, распознавания образов с учителя) можно принимать решения о классификации объектов на основе отношения плотностей, соответствующих классам. При
неизвестных плотностях представляется естественным использовать их состоятельные оценки. Корректность такой постановки, как правило, нетрудно
обосновать, например, в стиле [8]. Таким образом, для переноса на пространства произвольной природы основных методов классификации рассматриваемого типа
достаточно уметь оценивать плотность распределения вероятности в таких пространствах.

              Методы оценивания плотности вероятности в пространствах общего вида предложен и первоначально изучены в
[4]. В частности, в задачах классификации объектов нечисловой природы предлагаем использовать непараметрические ядерные оценки плотности типа
Парзена-Розенблатта (этот вид оценок и его название введены нами в [4]):

,

где К:  - ядерная функция  - выборка по которой оценивается плотностью,  - расстояние между элементом выборки  и точкой , в
которой оценивается плотность последовательность  показателей размытости такова, что при 0 и n, а  - нормирующий множитель, обеспечивающий выполнение условия



              Оценки типа Парзена-Розенблатта - частный случай линейных оценок [4]. В теоретическом плане они выделяются тем,
что удается получать результаты такого же типа, что в классическом одномерном случае (), но, разумеется, с помощью совсем иного математического аппарата.

              Одна из основных идей состоит в том, чтобы согласовать между собой расстояние  и меры . А
именно, рассмотрим шары радиуса



и их меры



              Предположим, что  как функция  при фиксированном  непрерывна и строго возрастает. Введем
функцию



              Это - монотонное преобразование расстояния, а потому  - метрика или симметрика (т. е. неравенство треугольника может быть не выполнено), которую, как и , можно рассматривать как меру близости между  и .

              Введем

.

              Поскольку  определена однозначно, то

^

где ., а потому



              Переход от  к  напоминает классическое преобразование, использованное Н. В. Смирновым, , переводящее случайную величину  с непрерывной функцией распределения  в случайную величину ,
равномерно распределенную на [ 0, 1]. Оба рассматриваемых преобразования существенно упрощают дальнейшие рассмотрения.

              Преобразование  зависит от точки , что не влияет на дальнейшие рассуждения, поскольку ограничиваемся изучением
сходимости в точке.

              Функцию , для
которой мера шара радиуса  равна , называют [4] естественным показателем различия или естественной метрикой. В случае
пространства  и евклидовой метрики  имеем



где -объем шара единичного радиуса в .

              Поскольку можно записать, что



где



то переход от  к  соответствует переходу от  к . Выгода от такого перехода заключается в том, что утверждения приобретают более
простую формулировку.

              ТЕОРЕМА 1. Пусть  - естественная метрика,



Плотность  непрерывна в  и ограничена на ,
причем . Тогда , оценка  является состоятельной, т. е. по вероятности при ,



Теорема 1 доказана в [4]. Однако остается открытым вопрос о скорости сходимости ядерных
оценок, т. е. о поведении величины



и об оптимальном выборе показателей размытости .

              Введем круговое распределение  и круговую плотность .

              ТЕОРЕМА 2. Пусть ядерная функция  непрерывна и при .
Пусть круговая плотность допускает разложение



причем остаточный член равномерно ограничен [0, 1,...., ]. Пусть



Тогда



              Величина  достигает минимума, равного



при



что совпадает с классическими результатами для  (см. [9, с316]). Заметим, что для
уменьшения смещения оценки приходится применять знакопеременные ядра .

              В случае дискретных пространств естественных метрик не существует. Однако можно получить аналоги теорем 1 и 2
переходя к пределу не только по объему выборки , но и
по параметру дискретности .

              Пусть -
последовательность конечных пространств, -
расстояния в

 для любого .

              Положим

,

,

,

Тогда функции  кусочно постоянны и имеют скачки в некоторых
точках , причем .

              ТЕОРЕМА 3. Если  при  (другими словами,  при ), то существует последовательность параметров дискретности  такая, что при , ,  справедливы заключения теорем 1 и 2.

              ПРИМЕР 1. Пространство  всех подмножеств конечного множества  из  элементов допускает [10, Пар 4. 3]
аксиоматическое введение метрики , где  - символ симметрической разности множеств. Рассмотрим непараметрическую оценку плотности типа Парзена - Розенблатта , где  - функция нормального стандартного
распределения. Можно показать, что эта оценка удовлетворяет условиям теоремы 3 .

              ПРИМЕР 2. Рассмотрим пространство функций , определенных на конечном множестве  со значениями в конечном множестве . Это пространство можно интерпретировать как пространство нечетких множеств [11].
Очевидно, . Будем использовать расстояние . Непараметрическая оценка плотности имеет вид: .

Если , , то при  выполнены условия теоремы 3, а потому
справедливы теоремы 1 и 2.

.             ПРИМЕР 3. Рассматривая пространства ранжировок  объект непреов, в качестве расстояния  между ранжировками  и . Тогда . не
стремиться к 0 при ., условия теоремы 3 не выполнены.

              Пространства разнотипных признаков - это декартово произведение непрерывных и дискретных пространств. Для него
возможны различные постановки. Пусть, например, число градаций качественных признаков остается постоянным. Тогда непараметрическая оценка плотности
сводится к произведению частоты попадания в точку в пространстве качественных признаков на классическую оценку Парзена-Розенблатта в пространстве
количественных переменных. В общем случае расстояние  можно, например, рассматривать как сумму
евклидова расстояния  между количественными факторами, расстояния  между номинальными признаками (, если
 и , если ) и расстояния  между порядковыми переменными (если  и  - номера градаций., то .

              Наличие количественных факторов приводит к непрерывности и строгому возрастанию , а потому для непараметрических оценок плотности в пространствах разнотипных
признаков справедливы теоремы 1 - 3.



Литература

1.Орлов А.И. Устойчивость в социально-экономических моделях.-М.Наука,1979.-296 с.

2.Орлов А.И. Экспертные оценки / Вопросы кибернетики. Вып.58.-М.: Научный Совет СССР по
комплексной проблеме "Кибернетика", 1979.С.17-33.

3.Орлов А.И. / Тезисы докладов Четвертой международной Вильнюсской конференции по теории вероятностей
и математической статистике: Том 2.-Вильнюс, Вильнюсский госуниверситет, 1985.С.278-280.

4.Орлов А.И. / Анализ нечисловой информации в социологических исследованиях.-М.Наука,
1985.С.58-92.

5.Орлов А.И. / Статистика. Вероятность. Экономика.-М.Наука,1985. С.99-107.

6.Орлов А.И. / Заводская лаборатория. 1987.Т.58. N3.С.90-91.

7.Орлов А.И. /Надежность и контроль качества. 1987.N6.С.54-59.

8.Рекомендации. Прикладная статистика. Методы обработки данных. Основные требования и
характеристики.- М.:ВНИИС,1987.-64 с.

9.Кривцов В.С., Фомин В.Н., Орлов А.И. / Стандарты и качество. 1988.N3.С.32-36.

11.Колмогоров А.Н. Статистический приемочный контроль при допустимом числе дефектных изделий,
равном нулю. - Л.: ДНТП, 1951. - 22 с.

12. Гнеденко Б.В. Математика и контроль качества продукции.- М.: Знание, 1978. - 64 с.

13. Беляев Ю.К. Вероятностные методы выборочного контроля.-М.: Наука, 1975. - 408 с.

14. Лумельский Я.П. Статистические оценки результатов контроля качества. - М.: Из-во
стандартов, 1979. - 200 с. 

15. Орлов А.И. Современные проблемы кибернетики: Прикладная статистика. - М.: Знание, 1981. с
3-14.

16. Статистические методы анализа экспертных оценок / Ученые записки по статистике,
т. 29, -М.: Наука, 1977-384 с. 17.

17.Экспертные оценки в системных исследованиях / Сборник трудов. - Вып. 4. - М.: ВНИИСИ, 1970
- 120 с.

18. Экспертные оценки / Вопросы кибернетики. - Вып. 58. - М.: Научный Совет АН СССР по
комплексной проблеме / "Кибернетика". 1979. - 200 с.


Не сдавайте скачаную работу преподавателю!
Данный реферат Вы можете использовать для подготовки курсовых проектов.

Поделись с друзьями, за репост + 100 мильонов к студенческой карме :

Пишем реферат самостоятельно:
! Как писать рефераты
Практические рекомендации по написанию студенческих рефератов.
! План реферата Краткий список разделов, отражающий структура и порядок работы над будующим рефератом.
! Введение реферата Вводная часть работы, в которой отражается цель и обозначается список задач.
! Заключение реферата В заключении подводятся итоги, описывается была ли достигнута поставленная цель, каковы результаты.
! Оформление рефератов Методические рекомендации по грамотному оформлению работы по ГОСТ.

Читайте также:
Виды рефератов Какими бывают рефераты по своему назначению и структуре.

Сейчас смотрят :

Реферат 1. Вставьте, где необходимо, пропущенные буквы, раскройте скобки
Реферат Финансовый рынок: сущность, виды, функции
Реферат Abortion Essay Research Paper The Ethics of
Реферат Рынок его структура и функционирование 2
Реферат Кто такая кузькина мать?
Реферат Программа защиты объектов операционной системы Windows95, работающей в многопользовательском режиме под управлением сервера Novell NetWare
Реферат Инновационные процессы в Чехии
Реферат Заболевания сердечно сосудистой системы
Реферат Анализ ассортимента макаронных изделий
Реферат Albert Einstein Work And Physics Essay Research
Реферат Формирование эффективной системы управления оборотными активами
Реферат 1. 1Использование сервисов сети Интернет для организации совместной работы с учащимися и родителями. Интернет
Реферат Анализ способов защиты и хищения информации в счетчиках электрической энергии
Реферат Деятельность руководителя по совершенствованию профессионального мастерства работников
Реферат Литературные кафе Санкт-Петербурга начала XX века: Привал комедианта и Бродячая собака