Реферат по предмету "Наука и техника"


Классификация объектов нечисловой природы на основе непараметрических оценок плотности

КЛАССИФИКАЦИЯ ОБЪЕКТОВ НЕЧИСЛОВОЙ ПРИРОДЫ НА ОСНОВЕ НЕПАРАМЕТРИЧЕСКИХ ОЦЕНОК ПЛОТНОСТИ.

           

            В СССР в середине 70-х годов активно ведутся работы по статистическому анализу нечисловых данных [1]. В
настоящее время во Всесоюзном центре статистических методов и информатики мы при разработке методических документов и программных продуктов по прикладной
статистике делим ее на четыре части соответственно виду обрабатываемых статистических данных: на статистику случайных величин, многомерный
статистический анализ, статистику временных рядов и случайных процессов, статистику объектов нечисловой природы (другими словами, статистику нечисловых
данных).

            Вероятностный и статистический анализ нечисловых данных сопровождали теорию вероятностей и математическую
статистику с самого начала их развития. Типичными примерами являются урновые схемы и изучение рождаемости. Испытание Бернулли- вероятностная модель
простейшего объекта нечисловой природы. Наиболее массовым применением статистических методов является, видимо, выборочный контроль качества продукции
по альтернативному признаку (т. е. по признаку "годен” - “не годен"), относящийся, очевидно, к статистике объектов нечисловой природы [2].

            Развитие прикладных исследований привело к необходимости рассмотрения в качестве статистических данных различных
объектов нечисловой природы. Этот термин применяем к объектам, которые нецелесообразно рассматривать как описанные числами. Другими словами, речь идет
об элементах пространства, не являющихся линейными (векторными). Примеры: бинарные отношения (ранжировки, разбиения, толерантности и т. д.); множества;
нечеткие множества; результаты измерений в шкалах, отличной от абсолютной; как обобщение перечисленных объектов - элементы пространств общей природы. Для
результатов наблюдений, являющихся объектами нечисловой природы, рассматривают [1] классические задачи статистики: описание данных (включая классификацию)
оценивание (параметров, характеристик, плотности распределения, регрессионной зависимости и т. д.).

            Математический аппарат статистики объектов нечисловой природы основан не на свойстве линейности пространства, а
на применении симметрик и метрик в нем, поэтому существенно отличается от классического.

            В прикладных работах наиболее распространенный пример объектов нечисловой природы - разнотипные данные. В
этом случае реальный объект описывается вектором, часть координат которого - значения количественных признаков, а часть - качественных (номинальных и
порядковых).

            Основная цель настоящего раздела - обосновать новый подход [3] к классификации в пространствах произвольной
природы, основанный на построении не параметрических оценок плотности распределений вероятности в таких пространствах [4].

" Пусть  - измеримое пространство,.  и . суть
 -конечные меры на ., причем  абсолютно непрерывна относительно , т. е. из равенства. . =0
следует равенство =0, где .. В этом случае на  существует неотрицательная измеримая
функция  такая, что



для любого  Функция называется производной
Родона-Никодима меры  по мере , а в случае, когда  - вероятностная мера, также плотностью
вероятности   по отношению к . " [5]

                                          Будем считать, что в пространстве объектов нечисловой природы фиксирована некоторая
мера , а мера  соответствует распределению Р случайного
элемента  со знаниями в измеримом пространстве , т. е.



Если -  пространство из конечного числа точек, то в
качестве меры  можно использовать считающую меру (приписывающую
единичный вес каждой точке), т. е. , или



                                          В случае считающей меры значение плотности в точке  совпадает с вероятностью попасть в точку , т. е.

              Многие методы классификации используют расстояния или меры близости между объектами или признаками. Такие
методы пригодны и для классификации объектов нечисловой природы, лишь бы в соответствующем пространстве было определено расстояние или мера близости.
Таким образом, широко известные иерархические агломеративные алгоритмы ближайшего соседа, дальнего соседа, средней связи и др., результатом работы
которых являются дендрограммы, на самом деле относятся к статистике объектов нечисловой природы.

              Не пытаясь рассмотреть все многообразие методов классификации в статистике объектов нечисловой природы
(см., например, [6, 7]), сосредоточимся на тех из них, которые используют плотности распределения и их оценки. Зная плотности распределения классов,
можно решать основные задачи классификации - как задачи выделения кластеров, так и задачи диагностики. В задачах кластер-анализа можно находить моды
плотности и принимать их за центры кластеров или за начальные точки итерационных методов типа динамических сгущений. В задачах диагностики
(дискриминации, распознавания образов с учителя) можно принимать решения о классификации объектов на основе отношения плотностей, соответствующих классам. При
неизвестных плотностях представляется естественным использовать их состоятельные оценки. Корректность такой постановки, как правило, нетрудно
обосновать, например, в стиле [8]. Таким образом, для переноса на пространства произвольной природы основных методов классификации рассматриваемого типа
достаточно уметь оценивать плотность распределения вероятности в таких пространствах.

              Методы оценивания плотности вероятности в пространствах общего вида предложен и первоначально изучены в
[4]. В частности, в задачах классификации объектов нечисловой природы предлагаем использовать непараметрические ядерные оценки плотности типа
Парзена-Розенблатта (этот вид оценок и его название введены нами в [4]):

,

где К:  - ядерная функция  - выборка по которой оценивается плотностью,  - расстояние между элементом выборки  и точкой , в
которой оценивается плотность последовательность  показателей размытости такова, что при 0 и n, а  - нормирующий множитель, обеспечивающий выполнение условия



              Оценки типа Парзена-Розенблатта - частный случай линейных оценок [4]. В теоретическом плане они выделяются тем,
что удается получать результаты такого же типа, что в классическом одномерном случае (), но, разумеется, с помощью совсем иного математического аппарата.

              Одна из основных идей состоит в том, чтобы согласовать между собой расстояние  и меры . А
именно, рассмотрим шары радиуса



и их меры



              Предположим, что  как функция  при фиксированном  непрерывна и строго возрастает. Введем
функцию



              Это - монотонное преобразование расстояния, а потому  - метрика или симметрика (т. е. неравенство треугольника может быть не выполнено), которую, как и , можно рассматривать как меру близости между  и .

              Введем

.

              Поскольку  определена однозначно, то

^

где ., а потому



              Переход от  к  напоминает классическое преобразование, использованное Н. В. Смирновым, , переводящее случайную величину  с непрерывной функцией распределения  в случайную величину ,
равномерно распределенную на [ 0, 1]. Оба рассматриваемых преобразования существенно упрощают дальнейшие рассмотрения.

              Преобразование  зависит от точки , что не влияет на дальнейшие рассуждения, поскольку ограничиваемся изучением
сходимости в точке.

              Функцию , для
которой мера шара радиуса  равна , называют [4] естественным показателем различия или естественной метрикой. В случае
пространства  и евклидовой метрики  имеем



где -объем шара единичного радиуса в .

              Поскольку можно записать, что



где



то переход от  к  соответствует переходу от  к . Выгода от такого перехода заключается в том, что утверждения приобретают более
простую формулировку.

              ТЕОРЕМА 1. Пусть  - естественная метрика,



Плотность  непрерывна в  и ограничена на ,
причем . Тогда , оценка  является состоятельной, т. е. по вероятности при ,



Теорема 1 доказана в [4]. Однако остается открытым вопрос о скорости сходимости ядерных
оценок, т. е. о поведении величины



и об оптимальном выборе показателей размытости .

              Введем круговое распределение  и круговую плотность .

              ТЕОРЕМА 2. Пусть ядерная функция  непрерывна и при .
Пусть круговая плотность допускает разложение



причем остаточный член равномерно ограничен [0, 1,...., ]. Пусть



Тогда



              Величина  достигает минимума, равного



при



что совпадает с классическими результатами для  (см. [9, с316]). Заметим, что для
уменьшения смещения оценки приходится применять знакопеременные ядра .

              В случае дискретных пространств естественных метрик не существует. Однако можно получить аналоги теорем 1 и 2
переходя к пределу не только по объему выборки , но и
по параметру дискретности .

              Пусть -
последовательность конечных пространств, -
расстояния в

 для любого .

              Положим

,

,

,

Тогда функции  кусочно постоянны и имеют скачки в некоторых
точках , причем .

              ТЕОРЕМА 3. Если  при  (другими словами,  при ), то существует последовательность параметров дискретности  такая, что при , ,  справедливы заключения теорем 1 и 2.

              ПРИМЕР 1. Пространство  всех подмножеств конечного множества  из  элементов допускает [10, Пар 4. 3]
аксиоматическое введение метрики , где  - символ симметрической разности множеств. Рассмотрим непараметрическую оценку плотности типа Парзена - Розенблатта , где  - функция нормального стандартного
распределения. Можно показать, что эта оценка удовлетворяет условиям теоремы 3 .

              ПРИМЕР 2. Рассмотрим пространство функций , определенных на конечном множестве  со значениями в конечном множестве . Это пространство можно интерпретировать как пространство нечетких множеств [11].
Очевидно, . Будем использовать расстояние . Непараметрическая оценка плотности имеет вид: .

Если , , то при  выполнены условия теоремы 3, а потому
справедливы теоремы 1 и 2.

.             ПРИМЕР 3. Рассматривая пространства ранжировок  объект непреов, в качестве расстояния  между ранжировками  и . Тогда . не
стремиться к 0 при ., условия теоремы 3 не выполнены.

              Пространства разнотипных признаков - это декартово произведение непрерывных и дискретных пространств. Для него
возможны различные постановки. Пусть, например, число градаций качественных признаков остается постоянным. Тогда непараметрическая оценка плотности
сводится к произведению частоты попадания в точку в пространстве качественных признаков на классическую оценку Парзена-Розенблатта в пространстве
количественных переменных. В общем случае расстояние  можно, например, рассматривать как сумму
евклидова расстояния  между количественными факторами, расстояния  между номинальными признаками (, если
 и , если ) и расстояния  между порядковыми переменными (если  и  - номера градаций., то .

              Наличие количественных факторов приводит к непрерывности и строгому возрастанию , а потому для непараметрических оценок плотности в пространствах разнотипных
признаков справедливы теоремы 1 - 3.



Литература

1.Орлов А.И. Устойчивость в социально-экономических моделях.-М.Наука,1979.-296 с.

2.Орлов А.И. Экспертные оценки / Вопросы кибернетики. Вып.58.-М.: Научный Совет СССР по
комплексной проблеме "Кибернетика", 1979.С.17-33.

3.Орлов А.И. / Тезисы докладов Четвертой международной Вильнюсской конференции по теории вероятностей
и математической статистике: Том 2.-Вильнюс, Вильнюсский госуниверситет, 1985.С.278-280.

4.Орлов А.И. / Анализ нечисловой информации в социологических исследованиях.-М.Наука,
1985.С.58-92.

5.Орлов А.И. / Статистика. Вероятность. Экономика.-М.Наука,1985. С.99-107.

6.Орлов А.И. / Заводская лаборатория. 1987.Т.58. N3.С.90-91.

7.Орлов А.И. /Надежность и контроль качества. 1987.N6.С.54-59.

8.Рекомендации. Прикладная статистика. Методы обработки данных. Основные требования и
характеристики.- М.:ВНИИС,1987.-64 с.

9.Кривцов В.С., Фомин В.Н., Орлов А.И. / Стандарты и качество. 1988.N3.С.32-36.

11.Колмогоров А.Н. Статистический приемочный контроль при допустимом числе дефектных изделий,
равном нулю. - Л.: ДНТП, 1951. - 22 с.

12. Гнеденко Б.В. Математика и контроль качества продукции.- М.: Знание, 1978. - 64 с.

13. Беляев Ю.К. Вероятностные методы выборочного контроля.-М.: Наука, 1975. - 408 с.

14. Лумельский Я.П. Статистические оценки результатов контроля качества. - М.: Из-во
стандартов, 1979. - 200 с. 

15. Орлов А.И. Современные проблемы кибернетики: Прикладная статистика. - М.: Знание, 1981. с
3-14.

16. Статистические методы анализа экспертных оценок / Ученые записки по статистике,
т. 29, -М.: Наука, 1977-384 с. 17.

17.Экспертные оценки в системных исследованиях / Сборник трудов. - Вып. 4. - М.: ВНИИСИ, 1970
- 120 с.

18. Экспертные оценки / Вопросы кибернетики. - Вып. 58. - М.: Научный Совет АН СССР по
комплексной проблеме / "Кибернетика". 1979. - 200 с.


Не сдавайте скачаную работу преподавателю!
Данный реферат Вы можете использовать для подготовки курсовых проектов.

Поделись с друзьями, за репост + 100 мильонов к студенческой карме :

Пишем реферат самостоятельно:
! Как писать рефераты
Практические рекомендации по написанию студенческих рефератов.
! План реферата Краткий список разделов, отражающий структура и порядок работы над будующим рефератом.
! Введение реферата Вводная часть работы, в которой отражается цель и обозначается список задач.
! Заключение реферата В заключении подводятся итоги, описывается была ли достигнута поставленная цель, каковы результаты.
! Оформление рефератов Методические рекомендации по грамотному оформлению работы по ГОСТ.

Читайте также:
Виды рефератов Какими бывают рефераты по своему назначению и структуре.

Сейчас смотрят :

Реферат Діяльність канцелярії. Атестація і звільнення кадрів
Реферат Діяльність органів управління освітою
Реферат Організація надання послуг споживачам у готелі "ЄВА"
Реферат Державна політика регулювання зайнятості світовий досвід та вітчизняна практика
Реферат Страхование 5
Реферат Kick The Habit Essay Research Paper Banes
Реферат История Украины (2)
Реферат Влияние содержания 1,2-полибутадиена на свойства динамических термоэластопластов
Реферат Деловые переговоры
Реферат Деятельность профсоюзов
Реферат Снижение загрязнения окружающей среды при работе пассажирского вагонного депо Ростов с разработк
Реферат Психолого-педагогическое сопровождение детей дошкольного возраста на разных этапах развития
Реферат Волга и ее значение в хозяйственной деятельности человека
Реферат 4. Налоговые правонарушения
Реферат Творчество как механизм самореализации личности в научной деятельности