Реферат по предмету "Информатика, программирование"


Технология извлечения знаний из нейронных сетей: апробация, проектирование ПО, использование в психолингвистике

Министерство образования Российской Федерации
Омский Государственный Университет
Математический факультет
Горбань Павел Александрович
ТЕХНОЛОГИЯ ИЗВЛЕЧЕНИЯ ЗНАНИЙ ИЗ НЕЙРОННЫХ СЕТЕЙ:
АПРОБАЦИЯ, ПРОЕКТИРОВАНИЕ ПО,
ИСПОЛЬЗОВАНИЕ В ПСИХОЛИНГВИСТИКЕ
Дипломная работа
Научный руководитель:
Член-корреспондент РАН
В.В. Шайдуров
Омск – 2002

Оглавление
Введение… 4
Цель работы… 4
Основные задачи исследования. 4
Основные результаты работы, полученные лично автором… 4
Апробация работы… 5
Публикации. 5
Глава 1. Проблема извлечения знаний и обзор методовизвлечения знаний   6
1.1 Знание и приобретение знаний. 6
1.1.1 «Знание». 6
1.1.2. Приобретениезнаний. 8
1.2. Методы извлечения и приобретения знаний. 8
1.2.1. Приобретение знаний,обучение и обобщение по примерам в теории классических экспертных систем. 9
1.2.1.1. Трудности при разработкеэкспертных систем. 11
1.2.2. Методы извлечения знаний изтаблиц данных. 12
1.2.2.1. Технология извлечениязнаний из таблиц данных. 12
1.2.2.2. Таблица эмпирическихданных. 13
1.2.2.3. Статистические методыизвлечения знаний из таблицы данных. 15
1.2.3. Методыидентификации систем. 15
1.2.4. Другие методы обработкиданных. 16
1.3. Требования к технологии извлечения знаний. 17
Глава 2. Нейронные сети… 19
2.1. Коннекционизм… 19
2.2. Элементы нейронных сетей. 20
2.3. Основные архитектуры нейронных сетей. 21
2.4. Обучение нейронных сетей как минимизация функцииошибки. 22
Глава 3. Упрощение нейронной сети. 27
3.1. Что такое упрощение нейронной сети и зачем оно нужно. 27
3.2. Задача извлечения знаний из нейронной сети. 28
3.3. Методы упрощения нейронных сетей. 29
3.3.1.Контрастирование синапсов нейросети. 30
3.3.2.Контрастирование нейронов нейросети. 32
3.3.3. Контрастирование входныхсигналов нейросети. 35
3.3.4. Бинаризация синапсов. 36
3.3.5. Упрощение нелинейныхпреобразователей нейронов. 37
3.3.6. Дополнительные модификацииалгоритмов контрастирования. 37
3.3.7. Методы модификацииструктуры обученной сети. 38
3.4. Требования к процессу упрощения сети для извлечениязнаний. 38
3.5. Упрощающие операции над нейронной сетью… 39
3.6. Процедура комплексного упрощения нейронной сети. 40
Глава 4. Методы извлечения знаний из искусственных нейронных сетей   41
4.1. Существующие методы извлечения знаний из обученнойнейросети  41
4.1.1. Методы на основеквантования сигналов сети. 42
4.1.2. Методы извлечения знанийпараллельно с обучением нейросети. 44
4.1.3. Методы извлечения знаний изобученной нейросети. 46
4.2. Методы извлечения знаний: требования к методам… 50
4.3. Методология извлечения явных знаний, использующаятехнологию комплексного упрощения нейросети. 52
4.4. Приемы повышения вербализуемости нейронной сети. 56
4.4.1. Добавление синдрома в наборвходных симптомов. 56
4.4.2. Построение иерархиипродукционных правил. 57
4.4.3. Ручное конструирование сетииз фрагментов нескольких логически прозрачных сетей. 59
Глава 5. Нейросетевой анализ структуры индивидуальногопространства смыслов… 60
5.1. Семантический дифференциал. 60
5.2. MAN-многообразия. 63
Литература… 65
Публикации автора по теме диплома… 69
Приложение 1. Плакаты для защиты диплома. 71
Приложение 2. Статья: Горбань П.А. Нейросетевой анализструктуры индивидуального пространства смыслов. «Нейрокомпьютеры»:разработка, применение. 2002, No 4. С. 14-19. 84

ВведениеЦель работы
Целью дипломной работы является апробациягибкой технологии извлечения знаний из нейронных сетей, настраиваемой с учетомпредпочтений пользователя. Тестирование, пробная эксплуатация и разработкановой версии программных средств, реализующих данную технологию. Проведениеисследований индивидуальных пространств смыслов на основе данной технологии.Основные задачи исследования
1.        Анализ разработанных методовизвлечения явных знаний из нейронных сетей с указанием их ограничений иобластей применимости.
2.        Апробация гибкой настраиваемой наоснове предпочтений пользователя технологии извлечения знаний, опирающейся напредварительное проведение комплексного упрощения нейронной сети,выполняющегося с учетом сформированных пользователем требований крезультирующему виду извлекаемых знаний.
3.        Тестирование, пробная эксплуатацияи разработка новой версии программных средств, реализующих данную технологию.
4.        Усовершенствование методасемантического дифференциала Осгуда при помощи технологии разреживанияобучаемых нейронных сетей.Основные результаты работы, полученные лично автором
1.        Предложены следующие приемы,упрощающие и делающие более гибким процесс вербализации (семантического анализа– осмысления в терминах проблемной области) извлеченного из сети набора правил:
a)        На основе гипотезы онеединственности извлекаемых правил и учитывая, что разные фрагменты сети(поднаборы правил) будут более или менее правдоподобны и интерпретируемы,предложено конструирование новой, более понятной пользователю нейронной сети изнаиболее просто интерпретируемых фрагментов других сетей, решающих ту жезадачу.
b)        Предложено добавление выходногосигнала некоторого фрагмента сети (содержательно интерпретируемого иправдоподобного с точки зрения пользователя) в качестве нового интегральногопризнака в число независимых признаков таблицы данных, и решение задачиизвлечения знаний на основе полученного расширенного набора признаков.
2.        Разработано техническое задание нановую версию программы-нейроимитатора, реализующую предложенные технологии.
3.        Усовершенствован метод семантическогодифференциала Осгуда при помощи технологии разреживания обучаемых нейронныхсетей. Проведена серия экспериментов, заключающихся в исследованиииндивидуальных смысловых пространств, проинтерпретированы их результаты.Предложена гипотеза о структуре индивидуального пространства смыслов: оносостоит из многообразия малой размерности, задаваемого культурой(«ман-многообразия» от немецкого безличного местоимения «man»)и сравнительно небольшого множества индивидуальных отклонений, которые могутбыть важны для диагностики. Каждая культура имеет небольшое количествоспецифических для нее ман -многообразий (субкультур).Апробация работы
 Основные положения работы докладывалисьна VI, VII Всероссийских семинарах «Нейроинформатика и ееприложения», (Красноярск, 1998, 2000 гг), I, Всероссийскойнаучно-технической конференции «Нейроинформатика» (Москва, МИФИ, 1999г.), VI Международной конференции «Математика.Компьютер. Образование» (1999г, Пущино), International Joint Conference on Neural Networks (1999г, Washington, DC, USA), XXXVII Международной научной студенческой конференции «Cтуденти научно-технический прогресс»: Информационные технологии. Новосибирск,НГУ, 1999 (награждена Дипломом 3 степени). Публикации
По теме диплома автором опубликована 1статья в научном журнале и 4 тезиса докладов.
Глава 1. Проблема извлечения знаний и обзор методов извлечения знаний
Введение
Первый параграф определяет понятия«знание» и «приобретение знания».
Второйпараграф посвящен обзору существующих методов извлечения и приобретения знаний.Рассматриваются существующие в теории классических экспертных систем методыприобретения знаний, рассматриваются использующиеся для извлечения знаний изтаблиц данных методы статистического анализа, математического моделирования иидентификации.
Третий параграф описывает набор требованийк направленной на конечного пользователя технологии извлечения знаний.1.1 Знание и приобретение знаний1.1.1«Знание»
Под знанием понимается достаточно широкийспектр информации. В [1, с.430-432] представлена следующая классификация типовзнаний:
1.        Базовые элементы знания(информация о свойствах объектов реального мира). Связаны с непосредственнымвосприятием, не требуют обсуждения и используются в том виде, в которомполучены.
2.        Утверждения и определения.Основаны на базовых элементах и заранее рассматриваются как достоверные.
3.        Концепции – перегруппировки илиобобщения базовых элементов. Для построения каждой концепции используются своиприемы (примеры, контрпримеры, частные случаи, более общие случаи, аналогии).
4.        Отношения. Выражают какэлементарные свойства базовых элементов, так и отношения между концепциями. К свойствамотношений относят их большие или меньшие правдоподобие и связь с даннойситуацией.
5.        Теоремы и правила перезаписи –частный случай продукционных правил (правил вида «если…, то…,иначе…») с вполне определенными свойствами. Теоремы не представляют пользыбез экспертных правил их применения.
6.        Алгоритмы решения. Необходимы длявыполнения определенных задач. Во всех случаях они связаны со знанием особоготипа, поскольку определяемая ими последовательность действий оказываетсяоформленной в строго определенном порядке, в отличие от других типов знаний,где элементы знания могут появляться и располагаться без связи друг с другом.
7.        Стратегии и эвристика. Врожденныеили приобретенные правила поведения, которые позволяют в конкретной ситуациипринять решение о необходимых действиях. Человек постоянно пользуется этимтипом знаний при формировании концепций, решении задач и формальныхрассуждениях.
8.        Метазнание. Присутствует на многихуровнях и представляет знание того, что известно, определяет значениекоэффициента доверия к этому знанию, важность элементарной операции поотношению ко всему множеству знаний. Сюда же относятся вопросы организацииразного типа знаний и указания, где, когда и как они могут быть использованы.
В настоящей работе первому типу знанийбудет соответствовать информация об измеримых (или наблюдаемых) свойствахобъектов реального мира. Именно эта информация сведена в таблицу данных типа«объект-признак». Остальным типам знаний соответствуют ограничения надиапазоны значений, которые могут принимать признаки объекта (второй тип),информация о взаимозависимости признаков и о возможности описания однихпризнаков через другие, информация о статистических свойствах значенийпризнаков,… Фактически, нас интересует знание второго и последующих типов –знание, которое человек добывает в процессе анализа информации, рассуждений,обобщений, проведения аналогий.
Естественным является требованиепредставления знаний в виде, допускающем «тиражирование» –возможность передачи знаний другим людям. Для первого типа знаний возможнополучение как объективных (точно измеренных) значений свойств объектовреального мира, так и субъективных, персонализированных, чувственных оценокзначений этих свойств. Для знаний последующих типов для возможности передачивводятся требования объективизации, достоверности, непротиворечивости [1].
Информационныеединицы (знания) обладают гиб­кой структурой [2]. Для них выполняется «принцип матрешки» – рекурсивная вложенность одних информационных единиц в другие (этонаблюдается и на примере вышеприведенной классификации из [1]).
Каж­даяинформационная единица может быть включена в состав любой другой, и из каждойинформационной единицы можно выделить некоторые составляющие ее единицы. Т.е.между отдельными информационными еди­ницами возмож­но установление отношенийтипа «часть – целое», «род – вид» или «элемент – класс».
Для информационныхединиц одного уровня иерархии семантика отношений может носить декларативный илипроцедурный характер [2]: две или более информационных единицы могут бытьсвязаны декларативными отношениями «одновременно»,«причина – следствие» или «быть ря­дом»,либо процедурными отношениями типа «аргу­мент – функция».
Можно различатьотношения структу­ризации, процедурные отношения,каузальные отношения и семантические отношения. Спомощью первых задаются иерархии информационных единиц, вторые несутпроцедурную информацию, позволяющую находить (вычислять) одни информационныеединицы через другие, третьи задают причинно-следст­венные связи, четвертыесоответствуют всем остальным отношениям [2]. 1.1.2.Приобретение знаний
Приобретением знанийназывается выявление знаний из источников и пре­образование их в нужную форму (например, перенос в базу знанийэкспертной системы) [2]. Источни­ками знаний могут быть книги, архивные документы, содержимое другихбаз знаний и т.п., т.е.некоторые объективизированные знания, переведенные в форму, которая делает ихдоступными для потребителя. Другим типом зна­ний являются экспертные знания,которые имеются у специалистов, но не зафи­ксированы во внешних по отношению к ним хранилищах. Экспертные знания являютсясубъективными. Еще одним видом субъективных знаний являются эмпирическиезнания, полученные путем наблюдения за окружающей средой.Ввод в базу знаний объективизированных знаний не представляет проблемы,выявление и ввод субъективных экспертных знаний до­статочнотрудны. Для извлечения и формализации экспертных знаний разработано множествостратегий интервьюирования эксперта и множество моделей представления знаний[2].
В когнитивнойпсихологии изучаются формы репрезентации знаний, характерные для человека: представление класса понятий через его элементы; представлениепонятий класса с помощью базового прототипа, отражающегонаиболее типичные свойства объектов класса;представ­ление с помощью признаков[3]. Форма репрезентации знаний определяетиспользуемую методологию выявления знаний и модель представления знаний.1.2. Методы извлечения и приобретения знаний
К настоящему времени сформировалось триосновных направления извлечения знаний. Эти направления могут использовать однии те же математические методы; подходы, первоначально разработанные в рамкахнекоторого направления, могут применяться для решения задач из другогонаправления. Вот эти направления:
1.  Методы самообучения и приобретениязнаний в теории классических экспертных систем (Параграф 1.2.1).
2.  Извлечение знаний из таблицданных. Включает теорию статистических выводов и другие методы анализа данных(Параграф 1.2.2).
3.  Теория идентификации систем(Параграф 1.2.3).1.2.1. Приобретениезнаний, обучение и обобщение по примерам в теории классических экспертныхсистем
Исследуется автоматизированный процесс получения знаний,объясняющих имеющиеся факты и способных объяснять, классифициро­вать илипредсказывать новые. В общем виде задача формулирует­ся так [2]: по совокупности наблюдений (фактов) F, совокупности требований идопущений к виду результирующей гипотезы H и совокупности базовых знаний и предположений,включающих зна­ния об особенностях предметнойобласти, выбранном способе представления знаний,наборе допустимых операторов, эвристик и др.,сформировать гипотезу Н: HÞF (Н «объясняет» F).
Общий вид гипотезы Нзависит от цели обобщения и выбранного способапредставления знаний. Методы обобщения, включающие модели классификации,формирования понятий, распознавания образов, обнаружения закономерностей,определяются целями обобщения, способамипредставления знаний, общими характеристикамифактов, критериями оценки гипотез.
Для обобщения повыборкам совокупность фак­тов F имеет вид обучающей выборки – множестваобъектов, каждый из которыхсопоставляется с именем некоторого класса. Цельюобобщения в этом случае может являться:
-          формирование понятий: построение по данным обучающей выборки длякаждого класса максимальной совокупности его общих характеристик[4];
-          классификация:построение по данным обучающей выборки для каждогокласса минимальной совокупности характеристик, которая отличала бы элементы класса от элементов других классов;
-          определениезакономерности последовательногопоявления событий.
К методам обобщенияпо выборкам относятся лингвистические модели, методы автоматического синтеза алгоритмов ипрограмм по при­мерам и другие [2].
В методах обобщения по данным априорноеразделение фактов по классам отсутствует. Здесьмогут ставиться следующие цели:
-          формулирование гипотезы, обобщающейданные факты;
-          выделение образов на множестве наблюдаемых данных,группировка данных по признакам(задача формиро­вания понятий, определенная в модели обобщения по выборкам,также часто ставится без априорного разбиенияобучающей выборки по классам)[4];
-          установление закономерностей, характеризующих совокупность наблюдаемых данных [5].
Рассмотрим кратко связь между задачами обобщения и классификации и задачами, решаемыми в рамках теориивероятностей и математической статистики. В математическойстатистике ставятся и решаются задачи вывода новых знаний на основании анализа совокупности наблюдений,при этом устанавливаются частотные закономерности появления событий:определяются общий вид и параметры функций распределениявероятно­стей событий по данным наблюдений, делаются выводы о степенистатистиче­ской зависимости наблюдаемых случайныхвеличин, проверяются гипотезы о характеристикахслучайного события. Действительно, в задачеформализации и вывода знаний о реальном мире нельзяне учитывать наличия стати­стических закономерностей в его проявлениях. Общаяже задача формирования гипотез по данным наблюдений не ограничивается установлением статистическихзакономерностей. Так, разработаны формально-логические модели выдвижения гипотез [6], которыеиспользуются в теории искусственного интеллекта.
С точки зрения способа представления знаний и допущений на общий вид объектов наблюдений, методы обобщения делятся на методы обобщения по признакам иструктурно-логические (или концептуальные) методы[2]. В первом случае объекты представляются в виде совокупности значений косвенных признаков. Методы обоб­щения ираспознавания по признакамразличаются для качественных (номинальных илипорядковых) и количественных(измеримых) значений признаков.Структурно-логические методы, в отличие от признаковых, предназначены длярешения задачи обобщения на множестве объектов, имеющих внутреннюю логическуюструктуру (последовательности событий, иерархически организованные сети,характеризуемые как признаками и свойствами объектов – элементов сети, так иотношениями между ними). В формально-логических системах, использующихструктурно-логические методы обобщения, вывод общих следствий из данных фактов называютин­дуктивным выводом. Сформулированы основные вопросы, на которые долж­ныдавать ответы индуктивные логики и методы выдвижения гипотез:
1.        Явля­ется лигипотеза Н обоснованной данным знанием?
2.        Существуютли методы обосно­вания Н при данном знании?
3.        Каковыусловия для Н при данном знании, такие, что Н дает наиболее разумное иинтересное объяснение?
4.        Существуютметоды для выдвижения гипотез на основании данного знания, дающих наи­болееразумное и интересное объяснение изучаемого явления?
В экспертныхсистемах (ЭС) для представления знаний об объектахиспользуются обычно модификации языка исчисленияпредикатов без ограничения арности предикатныхсимволов или адекватные им по выразительноймощности семантические сети [2]. Моделям обобщения на семантических сетях свойственны чертыкак алгоритмов обобщения по признакам, так ииндуктивной логики. Здесь также определяется набор операторов, используе­мыхпри формировании обобщенного представления (гипотезы) Н, и выдвига­ютсякритерии оценки «интересности» иобоснованности гипотез. Кроме того, в этих моделях широко используется характерный для обобщения покачест­венным признакам [7] аппарат теории покрытийи устанавливаются отношения на множествезначений при­знаков объектов-элементов сети. Методами структурного обобщенияреша­ются обычно задачи классификации, формирования понятий, анализа сцен[2].
Для задачи обобщенияпо признакам известен следующий результат: каков быни был реальный вид разделяющей функция y (в общем случае – индуктив­ной гипотезы Н) и алгоритм ее формирования пообучающей выборке, всегда найдется такая (непустая)обучающая выборка, что сформированная функция y ' (гипотеза Н') явится некорректной (ложной).
В связи с этим гипотезы принято оценивать с точки зрения их«разумности», «рациональности»,«интересности». В [6] рациональ­ностьответа на вопрос 1 (см. выше) индуктивного вывода понимается следующим обра­зом.Пусть F – имеющиесяистинные утверждения, а j – эмпирические данные. Тогда для порождаемойложной гипотезы F,jÞy вероятностная мера наблюдения y на j должна быть мала (например, меньше 0,05).
Можно оцениватьгипотезы с точки зрения мощностей подмножествпокрываемых ими элементов обучаю­щей выборки. В ряде исследованийдля подтверждения или отрицания выдвигаемой гипотезы используютсяметоды автоматического порождения новых элементов обучающей выборки, которые выдаются для классификацииэксперту. Решающее правило переопределяется, покане будет достигнута равновесная ситуация [2].1.2.1.1. Трудности приразработке экспертных систем
К настоящему временив теории классических экспертных систем разработана формализованная технологияизвлечения и представления экспертных знаний. Однако, существует целый рядтрудностей [8]:
-          ПостроениеЭС не под силу конечному пользователю, не обладающему экспертными знаниями опроблемной области.
-          Необходимостьпривлечения человека-эксперта в проблемной области, который является носителемзнаний. Кроме трудности нахождения эксперта (его может и не быть), необходимодобавить еще и возможные трудности взаимодействия эксперта соспециалистом-когнитологом (именно последний, путем диалога с экспертом,оформляет полученные от эксперта знания в выбранном формализме представлениязнаний).
-          Имеющаясяоболочка ЭС и/или используемая ей модель представления знаний могут плохоподходить для выбранной проблемной области, задачи. Это часто вынуждаетразрабатывать программный инструментарий «с нуля».
-          Процессизвлечения знаний из эксперта, их формализация, проверка на непротиворечивостьи устранение противоречий очень длителен, несмотря на наличие программныхсредств автоматизации. До получения первого прототипа системы проходитдлительное время (месяцы), и до этих пор нельзя определить, возможно липостроение ЭС, решающей поставленную задачу с заданной степенью точности иувеличивающей точность решения при дальнейшем пополнении базы знаний, либодостижение заданных характеристик системы невозможно. Это может вести к большимматериальным затратам в последнем случае. Другими словами, один из самых первыхэтапов при разработке любой информационной системы – анализ реализуемости – приразработке ЭС откладывается до момента построения исследовательского прототипасистемы.
Перечисленные трудности препятствуютширокому применению теоретических методов и программных оболочек ЭС напрактике.1.2.2. Методыизвлечения знаний из таблиц данных1.2.2.1. Технологияизвлечения знаний из таблиц данных
В настоящей работеисследуется извлечение знаний из таблиц данных при помощи математических илиэмпирических методов обработки данных и моделирования. Фактически, в индустрииобработки данных существуют некоторые формальные схемы обработки данных ианализа результатов. Так, общая схема обработки данных методами математическойстатистики приведена в [9]:
1.        Анализисследуемой системы или объекта. В ходе анализа определяются: основные целиисследования на содержательном уровне; совокупность единиц (объектов,измерений,..), представляющих предмет исследования; перечень показателей(свойств), характеризующих состояние или поведение каждой из исследуемых единиц;степень формализации и детализации этих показателей при сборе данных; моменты,требующие дополнительной проверки перед составлением детального планаисследований; формализованная постановка задачи (например, на статистическомуровне, т.е. включающая вероятностную модель изучаемого явления и природустатистических выводов, к которым должен или может прийти исследователь в ходеобработки массива данных).
2.        Составлениеплана сбора исходной статистической информации: определение типа выборки –случайная, пропорциональная и т.п.; определение требуемого объема выборки ипродолжительности наблюдений; планирование активного эксперимента (еслидопускается задачей и исследуемым объектом).
3.        Сбор данныхи их ввод в ЭВМ.
4.        Первичнаястатистическая обработка данных: статистическое описание совокупностей данных сопределением пределов варьирования переменных; анализ резко выделяющихсянаблюдений, принятие решения об исключении выделяющихся наблюдений илидальнейшем уменьшении учета их вклада с помощью некоторой весовой функции,убывающей по мере роста степени аномальности наблюдений; восстановлениезначений пропущенных наблюдений; проверка однородности нескольких порцийисходных данных (требуется при разделении в пространстве и/или времени моментовполучения этих порций данных); проверка статистической независимостипоследовательных наблюдений; унификация типов переменных; экспериментальныйанализ закона распределения исследуемой генеральной совокупности ипараметризация распределений.
5.        Составлениеплана вычислительного анализа статистического материала.
6.        Вычислительнаяреализация обработки данных.
7.        Осмысление,интерпретация и подведение итогов исследования.
Как при использовании традиционных статистическихметодов анализа данных, так и при использовании нейронных сетей приведеннаясхема действий остается без изменений. При этом пункты 5-7 детализируются взависимости от целей и задач исследования и применяемых методов. 1.2.2.2. Таблицаэмпирических данных
Строгие математические методы построениястатистически достоверных решающих правил разработаны для случаев, когда ораспределениях генеральных совокупностей образов известно абсолютно все: видызаконов распределений и все их параметры, априорные вероятности появленияобразов, матрица потерь от ошибок и т.д.
К сожалению, при решении реальных задачтакие условия не встречаются. Обучающая выборка каждого из kобразов S1, S2,…,Sk представлена конечным числом mi реализаций, описанных nхарактеристиками x1,x2,…,xn. Сведений о законах и параметрах распределениягенеральных совокупностей Gi образов нет. Неизвестна связь обучающей выборки сгенеральными совокупностями (неизвестна степень «представительности»выборки). Владелец обучающей выборки имеет туманные представления об априорнойвероятности появления различных образов Pi ио матрице стоимости ошибок распознавания Cij.Выборка может быть очень небольшой, в данных могут быть ошибки и пробелы,признаки могут быть измерены в разных шкалах [7], среди признаков могут бытьнеинформативные, «шумящие» признаки.
Для приведения ситуации к виду, прикотором можно было бы применить тот или иной статистический алгоритм, нужно кимеющейся объективной информации добавить ряд субъективно выбираемыхпредположений или гипотез. Этот этап привнесения эвристических гипотез имеетместо во всех случаях решения реальных задач, и поэтому деление алгоритмов на«строгие статистические» и «нестрогие эвристические» неимеет смысла [10].
Фактически, выдвижение и проверку новыхгипотез для рассматриваемой таблицы данных можно рассматривать часть процессаизвлечения знаний.
На применимость и качество работыотдельных методов большое влияние оказывает тип признаков (характеристик)объектов – дискретный (качественный), номинальный (порядковый) иликоличественный.
Во всех случаях вопрос о том, что являетсяполезной информацией, совсем не очевиден и требует специального рассмотрения.
Представления о характере полезнойинформации, содержащейся в эмпирических данных, а зачастую и сам характерподобных данных не позволяют использовать для их обработки классическиестатистические методы. В связи с этим возникли совершенно новые задачиобработки эмпирических данных, а значит, и новые методы решения таких задач.
Это прежде всего задачи регрессионного,авторегрессионного и факторного анализов. В последние годы регрессионный ифакторный анализ развивались особенно интенсивно и обогатились рядом новыхмоделей и методов, например, такими, как модель структурных уравнений регрессии[11], или методы группировки параметров.
Другая группа задач обработки данных –получение типологии изучаемых объектов. С ними связаны распознавание образов,методы автоматической классификации и т.п.
Новые эффекты обнаружились прикомбинированном применении методов формирования факторов и методовавтоматической классификации с тем, чтобы с каждым фактором была связана своятипология. Оказалось, что полученные типологии легко поддаются интерпретации иих можно понимать как системы терминов, позволяющих достаточно короткоописывать отдельные явления. Удалось создать обобщенный подход к обработкеэмпирических данных самой различной природы, получивший названиелингвистического [11].1.2.2.3. Статистическиеметоды извлечения знаний из таблицы данных
Рассмотрим статистические методы извлечениязнаний из таблиц данных. Естественно, объем имеющейся выборки будет определятьнадежность статистического вывода – т.е. подтверждения или отклонения гипотезыили доверия к полученным параметрам модели. При этом неотрицательный результатстатистической проверки гипотезы не означает, что высказанное предположениеявляется наилучшим, единственно подходящим: просто оно не противоречитимеющимся выборочным данным, однако таким же свойством могут наряду с этойгипотезой обладать и другие гипотезы [9].
Кратко перечислим существующие на данныймомент методы:
1.        Проверка гипотезы об аномальномизмерении.
2.        Проверка гипотез о выборочныхзначениях характеристик случайной величины.
3.        Проверка гипотезы о распределениислучайной величины и нахождение параметров этого распределения.
4.        Корреляционный анализ.
5.        Линейный регрессионный иавторегрессионный анализ.
6.        Факторный анализ и анализ главныхкомпонент.
7.        Байесовские классификаторы взадаче бинарной классификации.
8.        Построение линейных икусочно-линейных разделяющих поверхностей в задаче бинарной классификации.
9.        Автоматическая группировкаобъектов – методы автоматической классификации (кластеризации).1.2.3.Методы идентификации систем
Под идентификацией понимается построениемодели, с заданной точностью описывающей реакцию наблюдаемого объекта навнешнее воздействие (описываемое набором входных, независимых переменных).
Задаче идентификации посвящено огромноеколичество работ (см., например, библиографию в [13]), отличающихся не толькотипами объектов, которые необходимо идентифицировать, но и самими методами иалгоритмами идентификации. Среди алгоритмов идентификации чаще всегоиспользуются рекуррентные алгоритмы, позволяющие осуществлять идентификацию врежиме нормальной работы объекта. Иными словами, для рекуррентных алгоритмов неформируется обучающая выборка (таблица данных), а адаптация модели ведется сиспользованием только текущей пары «вход объекта – выход объекта».Однако нет никаких ограничений на использование рекуррентных алгоритмов дляобработки таблицы ранее собранных данных об объекте.
Принципы формирования алгоритмовидентификации тесно связаны с выбором уравнения, использующего наблюдаемыеданные и аппроксимирующего уравнение объекта, выбором критерия качествааппроксимации (функции потерь), выбором метода оптимизации критерия. Этот выбордо последнего времени был в значительной мере произволен и обусловил господстволинейной аппроксимации уравнения объекта и квадратичного критерия (при этомзадача идентификации сводилась к решению системы линейных уравнений). Нопрактика показала, что такой выбор не всегда приводит к положительнымрезультатам.
В настоящее время разработанаинформационная теория идентификации [13], позволяющая оптимально выбиратьуравнение аппроксимации, критерий, и алгоритм идентификации в зависимости отточки приложения к объекту помех, наличия той или иной информации о плотностираспределения помех и параметров этого распределения, используемой целевойфункции, априорной информации об искомом решении. Показана возможностьулучшения алгоритмов за счет управления входными воздействиями.1.2.4. Другие методыобработки данных
Существуют и другие методы обработкитаблиц данных:
1.  Метод потенциальных функций [14] для решения задачклассификации объектов с учителем.
2.  Методы непараметрической обработки данных:
-          байесовские классификаторы наоснове непараметрических оценок условных плотностей распределения вероятности[12];
-          непараметрическая регрессия;
-          непараметрические алгоритмыидентификации объектов;
Однако использование этих методов дляприобретения знаний невозможно, поскольку при этом не возникает новогоотдельного «объекта» (например, регрессионного уравнения, уравненияразделяющей поверхности,…), которым можно манипулировать и который можнопытаться интерпретировать – такой объект заменяется обучающей выборкой.Конечно, для каждого метода можно определить оптимальные значения некоторыхпараметров («заряды» классов для метода потенциальных функций,параметры сглаживания и вид ядерных функций для непараметрических методов),минимизирующих ошибку классификации или предсказания, но нахождение оптимальныхзначений этих параметров трудно интерпретировать как прибавление новых знаний.1.3. Требования к технологии извлечения знаний
Возможности применения технологииизвлечения знаний должны распространяться вплоть до индивидуальногопользователя, имеющего возможность применять технологию извлечения знаний кдоступных данных и конкретизирующего отдельные аспекты этой технологии взависимости от своего собственного опыта и конкретной задачи. Это означает, чтодолжно произойти коренное изменение технологии производства таких систем.Системы принятия решений, основанные на явных правилах вывода, создаются, какправило, группой специалистов, в числе которых – математики, программисты ипредметные специалисты, ставящие задачи. Возможности настройки таких систем наконечного потребителя часто недостаточны. Приобретая такую систему, он частосталкивается с ее неприменимостью к конкретным условиям работы (например,другой спектр лабораторных анализов или методов обследования, принятый в даннойклинике). Выход – дать специалисту возможность самому конструировать ЭС исходяиз конкретных условий, собственного опыта и опыта коллег. Такое конструированиедолжно производиться без знания предметным специалистом математическогоаппарата, требуя только обычных навыков работы на ЭВМ. В этой ситуацииснимается психологическая проблема доверия к заключениям ЭС, которая работает,опираясь на опыт и знания того специалиста, который ее сконструировал, егоколлег, которым он доверяет, и реальные данные, которые он сам получил врезультате наблюдений [15].
Самообучающиеся ЭС принятия решений,диагностики и прогнозирования должны удовлетворять следующим требованиям [15]:
1. Индивидуализация (настройка наконкретные наборы экспериментальных данных, индивидуальный опыт и знанияспециалиста);
2. Динамическое развитие (накоплениеопыта системы в процессе функционирования, следуя изменениям в пунктах,перечисленных в предыдущем требовании);
3. Возможность перенастройки прирезком изменении условий, например, при перенесении в другой регион;
4. Способность к экстраполяциирезультата. Требование, обратное индивидуальности. Система не должна резкотерять качество работы при изменении условий;
5. Возможность конструирования с нуляконечным пользователем (специалист должен иметь возможность придуматьсовершенно новую ЭС и иметь возможность просто и быстро создать ее);
6. “Нечеткий” характер результата.Решение, выдаваемое системой, не должно быть окончательным. Оно может быть вероятностнымили предлагать сразу несколько вариантов на выбор. Это дает возможностьспециалисту критически оценивать решение системы и не лишает его инициативы впринятии окончательного решения.
7. ЭС является только советчикомспециалиста, не претендуя на абсолютную точность решения. Она должнанакапливать опыт и знания и значительно ускорять доступ к ним, моделироватьрезультат при изменении условий задачи. Ответственность за решение всегда лежитна специалисте.
8. Универсальность такой технологииозначает, она не должна опираться на семантику проблемной области, предлагаяунифицированный подход для решения типовых задач в любой проблемной области.Семантический аспект постановки задачи, осмысления процесса решения и анализарезультатов лежит на конечном специалисте.
Анализ существующих методов обработкиинформации показал, что этим требованиям хорошо удовлетворяютнейроинформационные технологии, основанные на искусственных нейронных сетях[16-19]. В основе их функционирования лежат алгоритмы, моделирующиераспространение сигналов по нейронам и синапсам нервной системы. Существуетдостаточно большой набор архитектур и метаалгоритмов функционирования нейронныхсетей, при этом задачи, решаемые нейроинформатикой, в большинстве случаевтребуют подгонки архитектуры и алгоритмов обучения нейросетей под определенныйкласс задач или даже конкретную задачу. Поэтому разработка теоретических иметодологических основ и универсальной технологии создания ЭС, включающейоптимизацию архитектур и метаалгоритмов функционирования нейросетей при работес информацией, и извлечение знаний из нейросетей является актуальной задачей.

Глава 2. Нейронные сети2.1. Коннекционизм
Нейронные сети ‑ это сети, состоящиеиз связанных между собой простых элементов ‑ формальных нейронов. Нейронымоделируются довольно простыми автоматами, а вся сложность, гибкостьфункционирования и другие важнейшие качества определяются связями междунейронами. Каждая связь представляется как совсем простой элемент, служащий дляпередачи сигнала.
Научно-техническое направление,определяемое описанным представлением о нейронных сетях, называетсяконнекционизмом (по-ангийски connection – связь). С коннекционизмом тесносвязан следующий блок идей:
1) однородность системы (элементыодинаковы и чрезвычайно просты, все определяется структурой связей);
2) надежные системы из ненадежныхэлементов и «аналоговый ренессанс» – использование простых аналоговыхэлементов;
3) «голографические» системы –при разрушении случайно выбранной части система сохраняет свои полезныесвойства.
Существует большой класс задач: нейронныесистемы ассоциативной памяти, статистической обработки, фильтрации и др., длякоторых связи формируются по явным формулам. Но еще больше (по объемусуществующих приложений) задач требует неявного процесса. По аналогии собучением животных или человека этот процесс также называют обучением.
Обучение обычно строится так: существуетзадачник – набор примеров с заданными ответами. Эти примеры предъявляютсясистеме. Нейроны получают по входным связям сигналы – «условияпримера», преобразуют их, несколько раз обмениваются преобразованнымисигналами и, наконец, выдают ответ – также набор сигналов. Отклонение отправильного ответа штрафуется. Обучение состоит в минимизации штрафа как(неявной) функции связей.
Неявное обучение приводит к тому, чтоструктура связей становится «непонятной» – не существует иного способаее прочитать, кроме как запустить функционирование сети. Становится сложноответить на вопрос: «Как нейронная сеть получает результат?» – тоесть построить понятную человеку логическую конструкцию, воспроизводящуюдействия сети.
Это явление можно назвать «логическойнепрозрачностью» нейронных сетей, обученных по неявным правилам.
 С другой стороны, при использованиинейронных сетей в экспертных системах возникает потребность прочитать илогически проинтерпретировать навыки, выработанные сетью. Для этого служатметоды контрастирования – получения неявными методами логически прозрачныхнейронных сетей. 2.2. Элементы нейронных сетей
Для описания алгоритмов и устройств внейроинформатике выработана специальная «схемотехника», в которойэлементарные устройства – сумматоры, синапсы, нейроны и т.п. объединяются всети, предназначенные для решения задач.
Адаптивный сумматор вычисляет скалярноепроизведение вектора входного сигнала x на вектор параметров a. На схемах он обозначается так, как показано на рис. 1. Адаптивным онназывается из-за наличия вектора настраиваемых параметров a. Для многих задач полезно иметь линейную неоднородную функцию выходныхсигналов. Ее вычисление также можно представить с помощью адаптивногосумматора, имеющего n+1 вход и получающего на 0-й вход постоянный единичныйсигнал (рис. 2).
/>
Рис. 2. Неоднородный адаптивный сумматор
/>
Рис. 1. Адаптивный сумматор.
/>
Рис. 5. Формальный нейрон
/>
Рис. 3. Нелинейный преобразова-тель сигнала.
/>
Рис. 4. Точка ветвления
Нелинейный преобразователь сигналаизображен на рис. 3. Он получает скалярный входной сигнал x и переводит его в j(x).
Точка ветвления служит для рассылки одногосигнала по нескольким адресам (рис. 4). Она получает скалярный входной сигнал xи передает его всем своим выходам.
 Стандартный формальный нейрон составлениз входного сумматора, нелинейного преобразователя и точки ветвления на выходе(рис. 5).
Линейная связь ‑ синапс ‑ отдельноот сумматоров не встречается, однако для некоторых рассуждений бывает удобновыделить этот элемент (рис. 6). Он умножает входной сигнал x на“вес синапса” a.
/>
Рис. 6. Синапс.
Итак, дано описание основных элементов, изкоторых составляются нейронные сети. 2.3. Основные архитектуры нейронных сетей
Как можно составлять эти сети? Строгоговоря, как угодно, лишь бы входы получали какие-нибудь сигналы. Используютсянесколько стандартных архитектур, из которых путем вырезания лишнего или (реже)добавления строятся большинство используемых сетей.
Здесь и далее рассматриваются тольконейронные сети, синхронно функционирующие в дискретные моменты времени: всенейроны срабатывают “разом”.
В семействе нейронных сетей можно выделитьдве базовых архитектуры – слоистые и полносвязные сети.
/>
Рис. 7. Слоистая сеть
Слоистые сети: нейроны расположены внесколько слоев (рис. 7). Нейроны первого слоя получают входные сигналы,преобразуют их и через точки ветвления передают нейронам второго слоя. Далеесрабатывает второй слой и т.д. до k-го слоя, который выдает выходные сигналыдля интерпретатора и пользователя. Если не оговорено противное, то каждыйвыходной сигнал i-го слоя подается на вход всех нейронов i+1-го. Число нейроновв каждом слое может быть любым и никак заранее не связано с количествомнейронов в других слоях. Стандартный способ подачи входных сигналов: всенейроны первого слоя получают каждый входной сигнал. Особое распространениеполучили трехслойные сети, в которых каждый слой имеет свое наименование:первый – входной, второй – скрытый, третий – выходной.
Полносвязные сети: каждый нейрон передаетсвой выходной сигнал остальным нейронам, включая самого себя. Выходнымисигналами сети могут быть все или некоторые выходные сигналы нейронов посленескольких тактов функционирования сети. Все входные сигналы подаются всемнейронам.
Элементы слоистых и полносвязных сетеймогут выбираться по-разному. Существует, впрочем, стандартный выбор – нейрон садаптивным неоднородным линейным сумматором на входе (рис. 5).
Для полносвязной сети входной сумматорнейрона фактически распадается на два: первый вычисляет линейную функцию отвходных сигналов сети, второй – линейную функцию от выходных сигналов другихнейронов, полученных на предыдущем шаге.
Функция активации нейронов(характеристическая функция) j – нелинейный преобразователь,преобразующий выходной сигнал сумматора (см. рис. 5) – может быть одной и тойже для всех нейронов сети. В этом случае сеть называют однородной (гомогенной).Если же j зависит еще от одного или нескольких параметров,значения которых меняются от нейрона к нейрону, то сеть называют неоднородной(гетерогенной).
Если полносвязная сеть функционирует дополучения ответа заданное число тактов k, то ее можно представить как частныйслучай k-слойной сети, все слои которой одинаковы и каждый из них соответствуеттакту функционирования полносвязной сети.2.4. Обучение нейронных сетей как минимизация функцииошибки
Построение обучения как оптимизации даетуниверсальный метод создания нейронных сетей для решения задач. Еслисформулировать требования к нейронной сети, как задачу минимизации некоторойфункции — оценки, зависящей от части сигналов (входных, выходных, ...) и отпараметров сети, то обучение можно рассматривать как оптимизацию и строитьсоответствующие алгоритмы, программное обеспечение и, наконец, устройства.Функция оценки обычно довольно просто (явно) зависит от части сигналов — входных и выходных, но ее зависимость от настраиваемых параметров сети можетбыть сложнее и включать как явные компоненты (слагаемые, сомножители,...), таки неявные — через сигналы (сигналы, очевидно, зависят от параметров, а функцияоценки — от сигналов).
За пределами задач, в которых нейронныесети формируются по явным правилам (сети Хопфилда, проективные сети,минимизация аналитически заданных функций и т.п.) требования к нейронной сетиобычно можно представить в форме минимизации функции оценки. Не следует путатьтакую постановку задачи и ее весьма частный случай — «обучение сучителем».
Если для решения задачи не удается явнымобразом сформировать сеть, то проблему обучения можно, как правило,сформулировать как задачу минимизации оценки. Осторожность предыдущей фразы(«как правило») связана с тем, что на самом деле неизвестны и никогдане будут известны все возможные задачи для нейронных сетей, и, быть может,где-то в неизвестности есть задачи, которые несводимы к минимизации оценки.
Минимизация оценки — сложная проблема:параметров астрономически много (для стандартных примеров, реализуемых на РС — от 100 до 1000000), адаптивный рельеф (график оценки как функции отподстраиваемых параметров) сложен, может содержать много локальных минимумов,извилистых оврагов и т.п.
Наконец, даже для того, чтобы воспользоватьсяпростейшими методами гладкой оптимизации, нужно вычислять градиент функцииоценки. В данном разделе описывается связь двойственного функционирования сетей- автоматов с преобразованием Лежандра и неопределенными множителями Лагранжа.
Переменные обратного функционирования m появляются как вспомогательные при вычислении производных сложнойфункции. Переменные такого типа появляются не случайно. Они постоянно возникаютв задачах оптимизации и являются множителями Лагранжа.
Для всех сетей автоматов, встречавшихся впредыдущих разделах, можно выделить три группы переменных:
внешние входные сигналы x...,
переменные функционирования — значения навыходах всех элементов сети f...,
переменные обучения a...(многоточиямизаменяются различные наборы индексов).
Объединим их в две группы — вычисляемыевеличины y… — значения f… и задаваемые — b…(включая a… и x...). Упростим индексацию, перенумеровавf и b натуральными числами: f1,...,fN; b1,...,bM.
Пусть функционирование системы задаетсянабором из N уравнений
yi(y1 ,...,yN ,b1,...,bM)=0 (i=1,...,N).                               (1)
Для послойного вычисления сложных функцийвычисляемые переменные — это значения вершин для всех слоев, кроме нулевого,задаваемые переменные — это значения вершин первого слоя (константы и значенияпеременных), а уравнения функционирования имеют простейший вид (4), длякоторого
/>
Предполагается, что система уравнений (1)задает способ вычисления yi .
Пусть имеется функция (лагранжиан) H(y1,...,yN ,b1 ,...,bM). Этафункция зависит от b и явно, и неявно — через переменные функционирования y.Если представить, что уравнения (1) разрешены относительно всех y (y=y(b)), тоH можно представить как функцию от b:
H=H1(b)=H(y1(b),...,yN(b),b).                                        (2)
где b — вектор с компонентами bi .
Для задачи обучения требуется найтипроизводные Di=¶H1(b)/¶bi. Непосредственно и явно это сделать трудно.
Поступим по-другому. Введем новыепеременные m1,...,mN(множители Лагранжа) и производящую функцию W:
/> 
В функции W аргументы y, b и m — независимые переменные.
Уравнения (1) можно записать как
/>                                               (3)
Заметим, что для тех y, b, которыеудовлетворяют уравнениям (13), при любых m
W(y,b,m)ºH(y,b).                                                 (4)
Это означает, что для истинных значенийпеременных функционирования y при данных b функция W(y,b,m) совпадает с исследуемой функцией H.
Попытаемся подобрать такую зависимость mi(b),чтобы, используя (4), получить для Di=¶H1(b)/¶bi наиболее простые выражения. На многообразии решений (15)
/> 
Поэтому
/>     (5)
Всюду различается функция H(y,b), где y иb — независимые переменные, и функция только от переменных b H(y(b),b),где y(b) определены из уравнений (13). Аналогичное различениепринимается для функций W(y,b,m) и W(y(b),b,m (b)).
Произвол в определении m(b) надо использовать наилучшим образом — все равно от него придетсяизбавляться, доопределяя зависимости. Если выбрать такие m, что слагаемые в первой сумме последней строки выражения (5) обратятся внуль, то формула для Di резко упростится. Положим поэтому
/>.                                  (6)
Это — система уравнений для определения mk(k=1,...,N). Если m определены согласно (6), то
/> 
Основную идею двойственногофункционирования можно понять уже на простейшем примере. Рассмотрим вычислениепроизводной сложной функции одного переменного. Пусть заданы функции одногопеременного f1(A) ,f2(A) ,...,fn(A). Образуем из них сложную функцию
F(x)=fn (fn-1(...(f1 (x))...)). (1)
Можно представить вычисление F(x) какрезультат работы n автоматов, каждый из которых имеет один вход и выдает навыходе значение fi (A), где A — входной сигнал (рис.8, а). Чтобыпостроить систему автоматов, вычисляющую F¢(x), надодополнить исходные автоматы такими, которые вычисляют функции fi¢(A), где A- входной сигнал (важно различать производную fi повходному сигналу, то есть по аргументу функции fi, ипроизводную сложной функции fi(A(x)) по x; fi¢(A) ‑производные по A).
Для вычисления F¢(x) потребуется еще цепочка из n-1 одинаковыхавтоматов, имеющих по два входа, по одному выходу и подающих на выходпроизведение входов. Тогда формулу производной сложной функции
/>
можно реализовать с помощью сети автоматов, изображенной на рис. 8, б. Сначалапо этой схеме вычисления идут слева направо: на входы f1 и f1'подаются значения x, после вычислений f1(x) это числоподается на входы f2 и f2' и т.д. В конце цепочкиоказываются вычисленными все fi (fi-1 (...)) и fi'(fi-1 (...)).
/>
Рис.8. Схематическое представление вычисления сложной
функции одного переменного и ее производных.
Можно представить вычисление любой сложнойфункции многих переменных, как движение по графу: в каждой его вершинепроизводится вычисление простой функции (рис 9. а). Вычисление градиентапредставляется обратным движением (рис 9. б). Отсюда и термин: методы(алгоритмы) обратного распространения.
а)
/>
б)
/> Рис. 9. Прохождение вершины t в прямом (а) и обратном (б) направлении.
Предлагается рассматривать обучениенейронных сетей как задачу оптимизации. Это означает, что весь арсенал методовоптимизации может быть испытан для обучения.
 Существует, однако, ряд специфическихограничений. Они связаны с огромной размерностью задачи обучения. Числопараметров может достигать 108 — и даже более. Уже в простейшихпрограммных имитаторах на персональных компьютерах подбирается 103 — 104 параметров.
Из-за высокой размерности возникает дватребования к алгоритму:
1. Ограничение по памяти. Пусть n — числопараметров. Если алгоритм требует затрат памяти порядка n2, то онвряд ли применим для обучения. Вообще говоря, желательно иметь алгоритмы,которые требуют затрат памяти порядка Kn, K=const.
2. Возможность параллельного выполнениянаиболее трудоемких этапов алгоритма и желательно — нейронной сетью.

Глава 3. Упрощение нейронной сети.3.1. Что такое упрощение нейронной сети и зачем ононужно
По обучающей выборке невозможно сказать,какая структура сети (число слоев, элементов сети) требуется для решениязадачи. Также не существует конструктивного алгоритма определения значенийадаптивных параметров сети исходя из обучающей выборки. Хотя и был предложенподход [17,20] к анализу достаточности структуры сети при помощи оценкиконстанты Липшица функции, вычисляемой сетью, и выборочной оценки константыЛипшица для обучающей выборки, но он не учитывает влияния и вида используемойпри обучении целевой функции (функции оценки) и некоторых других аспектов.
Поэтому обычно задаются некоторойизбыточной структурой сети и адаптивные параметры находят путем обучения сети,т.е. с привлечением методов оптимизации [16-20]. Это приводит к тому, что частов нейронной сети присутствует некоторое число избыточных элементов, без которыхможно вполне обойтись при решении задачи. Удаление таких элементов из нейросетиназывается упрощением сети.
Упрощение нейронной сети преследуетследующие цели [16,17,20]:
-          Получение нейросети, наиболеепросто реализуемой технически и обеспечивающей максимальное быстродействие приаппаратной реализации.
-          Улучшение интер- иэкстраполяционных способностей нейросети.
-          Сокращение числа входных сигналовсети (при сохранении требуемой точности решения задачи) для удешевления иускорения процесса сбора информации, на основе которой нейросеть принимаетрешение.
-          Обеспечение (или облегчение) явнойвербальной интерпретации процесса и результатов обработки данных.
В настоящей работе и в Главе 3 основноевнимание уделяется последней задаче, задача минимизации числа входных сигналоврешается как побочная.
Нужно отметить, что после проведенияупрощения теряется такое свойство сети, как отказоустойчивость к повреждениямэлементов. Поэтому для получения отказоустойчивых нейросетей разработаныспециальные модификации алгоритмов обучения и упрощения, например, [21]. 3.2. Задача извлечения знаний из нейронной сети
Обучаясь, нейросеть формирует некоторыйнавык решения неформализованной задачи классификации или предсказания. Этотнавык можно оценить при помощи тестовой выборки – если точность решениятестовых задач достаточна с точки зрения пользователя, то полученная нейросетьможет в дальнейшем использоваться в составе нейросетевой экспертной системы длярешения задачи [17].
Однако нейросеть сформировала скрытое,неявное знание об алгоритме решения задачи. Это знание заложено в сеть в видезначений весов ее адаптивных параметров. В нейросети могут присутствовать иизбыточные элементы (см. Параграф 2.2.6), поэтому пользователю сложно илипрактически невозможно осмыслить и преобразовать в явную форму нейросетевоеправило принятия решения путем анализа структуры сети и ее адаптивныхпараметров.
Поэтому появилась задача извлечения знанийиз нейронной сети, процесс решения которой схематически можно представить так[22,23]:
вырезание «всего лишнего»
нейросеть              логическипрозрачная нейросеть
данные           неявные знания                   явные знания
Т.е. нейросеть в ходе обучения формируетнеявные знания, в ходе упрощения сети достигается некоторая безизбыточная(логически прозрачная) структура сети, удовлетворяющая некоторым заданнымтребованиям, и по полученной безизбыточной сети возможно записать правилапринятия решения в явном виде. Этот процесс будет изучаться и детализироватьсядалее в Главах 3, 4.
Результатомпроцесса извлечения знаний должен являться набор правил, который с заданнойточностью решает заданное число примеров обучающей выборки (эти требования кточности заложены в использовавшихся при обучении сети целевой функции иалгоритме обучения, который может позволять прекращать обучение при достиженииправильного решения заданного числа примеров). Все другие манипуляции снейросетью (упрощение сети, извлечение из сети набора явных правил вывода изапись их в требуемом виде) не дожны снижать требуемую точность. Качествоизвлеченных знаний проверяется путем решения задач тестовой выборки, так какпроцесс упрощения сети и извлечения знаний может снизить точность решениятестовых задач по сравнению с точностью исходной сети после ее обучения.3.3. Методы упрощения нейронных сетей
К настоящему моменту разработано большоечисло методов упрощения нейронных сетей. Можно ввести несколько классификацийэтих методов, например, разделить на 2 группы на основе информации,используемой методом для определения незначимых элементов и сигналов нейросети[24,25]:
1.   Методы, использующие толькоинформацию о значениях весов синапсов и, при необходимости, внутренние сигналысети на обучающей выборке.
2.   Методы, использующие информацию обизменении значения целевой функции либо оценку такого изменения на основепервых или вторых производных целевой функции по значению упрощаемого элемента.
Другая классификация делит методы на 3класса по стратегии упрощения:
1.        Методы, выполняющие цикл«элементарное упрощение – дообучение нейросети» до тех пор, покадообучение приводит к решению задачи с требуемой точностью.
2.        Методы, добавляющие к целевойфункции дополнительное штрафное слагаемое (штрафующее за структурную сложностьнейросети) и оптимизирующие при обучении полученный композиционный критерий.После завершения обучения проводится исключение выявленных избыточныхэлементов. Дообучения сети после этого не требуется.
3.        Методы, упрощающие уже обученнуюсеть и не требующие дообучения. Они используют идею о как можно меньшемизменении поведения системы – например, чтобы выходной сигнал нейрона илинейросети после проведения упрощения как можно меньше отличался от сигнала доупрощения [17].
Можно вводить и другие классификации.
Далее, при рассмотрении методов, вотдельных случаях будет использоваться вторая классификация.
Избыточным, незначимым элементом илисигналом нейросети является элемент или сигнал, который может быть удален изсети при сохранении требуемой точности решения задачи.
Такое удаление элемента будем называтьконтрастированием [16,17,20,26].
Другая возможная модификация элемента –модификация его параметров. Для синапса имеется операция бинаризации –приведение веса синапса к значению из зафиксированного набора выделенныхзначений [17,20,26].
Для нелинейного преобразователя нейронавозможна замена его нелинейной функции на иную.
Рассмотрим существующие методы упрощения.3.3.1.Контрастирование синапсов нейросети
Рассматриваемые в параграфе методыприменимы как к синапсам, так и к неоднородным входам нейронов – содержательныхотличий синапса от неоднородного входа нет.
Один из наиболее широко используемыхметодов сокращения числа синапсов нейросети – добавление штрафного слагаемого вцелевую функцию – т.н. «структурное обучение» [30-33]. Это слагаемоештрафует за большой (по абсолютному значению) вес синапса. Новая целеваяфункция имеет, например, вид />. В качестве первого слагаемого взят критерий наименьших квадратов (/> – требуемый, />–текущий выходной сигнал сети на i-м примере обучающей выборки). Дляупрощения нейросети с несколькими выходными сигналами в первом слагаемом длякаждого примера суммируются невязки всех выходных сигналов сети [28,29]. Штрафза веса синапсов wjk (второе слагаемое) входит с регуляризующим весом e, от величины которого зависит баланс между точностью решения задачи ипростотой структуры сети.
После завершения обучения проводитсяудаление синапсов, модуль веса которых близок к нулю (не превосходит некотороймалой величины d), т.е. контрастирование выполняется, фактически,одновременно с обучением. К сожалению, этот подход не позволяет заранее задаватьчисло удаляемых из сети элементов и требует экспериментов для определенияоптимальной величины веса e.
Для решения проблемы определенияоптимальной величины регуляризующего веса e может быть использованаего адаптивная подстройка на основе учета текущей ошибки сети и желаемогопользователем финального уровня ошибки. Однако при этом требуется заданиефинального уровня ошибки, который может быть недостижим для нейросети заданногоразмера.
Вторая группа методов контрастированиясинапсов основана на вычислении т.н. показателей значимости – оценки изменениязначения штрафной функции после некоторой модификации нейросети, либопоказателей чувствительности – оценки изменения выходного сигнала нейросети послемодификации нейросети.
В [34] предложено осуществлять мониторингсумм изменений весов синапсов во время обучения. Малозначимыми считаютсясинапсы, веса которых претерпевали малые изменения во время обучения.
В [36,37] вычисляются показатели чувствительностивторого порядка. В [35] чувствительностью синапса является произведение второйпроизводной целевой функции по весу синапса /> на квадрат величины планируемого изменения веса синапса. Использованиевторых производных связано с тем, что упрощается нейросеть, достигшая приобучении локального минимума, т.е. имеющая нулевой градиент (нулевые значенияпервых частных производных).
Есть также методы, где используется полнаяматрица вторых частных производных, а не только ее диагональные элементы:построенная только по диагональным элементам оценка изменения значения целевойфункции может оказаться неточной. Но в отличие от [35], где удаляется наименеезначимый синапс и затем дообучается сеть, тут предложена явная формула длякоррекции значений остающихся весов синапсов сети, что исключает потребность вдообучении.
Использование первых производных(компонент градиента) целевой функции как традиционно применяемых, например,при идентификации систем [13] показателей чувствительности в случае нейронныхсетей сталкивается с трудностями. Во-первых, при идентификации систем чащевсего используются линейные модели, а нейросети являются сильно нелинейнымимоделями, первые производные которых могут существенно меняться от точки кточке в пространстве обучаемых параметров сети. Во-вторых, после обучения додостижения локального минимума целевой функции вычисление показателейзначимости первого порядка невозможно – градиент в точке минимума нулевой. Этовынуждает использовать некоторые дополнительные приемы.
В [16-17,20,26] для контрастированиясинапсов, основанного на показателях чувствительности первого порядка,предлагается усреднять первые производные целевой функции по весу синапса входе нескольких шагов обучения, либо – после завершения обучения – понескольким точкам, полученным небольшим случайным сдвигом относительнодостигнутой точки минимума. Усреднение проводится в некоторой норме (суммамодулей или максимум модуля) в зависимости от того, какую чувствительностьнужно получить: усредненную или максимальную. Затем полученная величинадомножается на планируемое изменение веса синапса.
Также в [17] предлагаются показателизначимости первого порядка, основанные не на оценке изменения значения целевойфункции, а на оценке изменения выходного сигнала нейросети: первые производныевыходного сигнала сети по весу синапса усредняются по обучающей выборке в тойили иной норме и домножаются на планируемое изменение веса синапса.
Показатели значимости нулевого порядка,основанные на рассмотрении абсолютной величины веса синапса, фактически,используются только после обучения со штрафом за большие по модулю весасинапсов. В других случаях часто случается так, что удаление синапса с малымвесом может гораздо сильнее ухудшить навык сети по сравнению с удалениемсинапса с большим весом (значимость синапса зависит и от величин проходящихчерез синапс сигналов и величин активации нейрона, которому принадлежитсинапс). Третья группа методов контрастирования синапсов удаляет синапс из сетипутем «перераспределения» его веса по другим синапсам так, чтобынаименее сильно изменить выходной сигнал нейрона или сети.
Существует алгоритм упрощения, нетребующий дообучения сети:
-          Задается порог допустимогоизменения значения суммарной целевой функции на всей обучающей выборке.
-          Находится синапс с минимальным помодулю весом – (используется показатель значимости нулевого порядка).
-          Перераспределяется вес этогосинапса между другими входными синапсами нейрона по заданным в [38] явнымформулам.
-          Если значение целевой функции невышло за некоторый установленный порог, проведенные изменения окончательновносятся в сеть и осуществляется упрощение следующего синапса, а иначепоследнее изменение отменяется.
Число удаляемых элементов зависит отизбыточности сети – в описываемой в [38] задаче удавалось удалять без ухудшениякачества распознавания для сетей с 5, 10, 15 и 20 нейронами 13, 17, 23 и 35%синапсов соответственно.
В [17] алгоритм сокращения синапсовоснован на рассмотрении сумматора отдельного нейрона сети.
Показано, что для достижения минимальногоизменения выходного сигнала сумматора на обучающей выборке контрастироватьсядолжен тот синапс сумматора, произведение веса которого на среднеквадратичноеуклонение проходящего по нему сигнала минимально среди всех синапсов нейрона.
При этом к весу неоднородного входа должнодобавляться произведение веса контрастируемого синапса на матожиданиепроходящего по синапсу сигнала. Существует модификация метода, вместосреднеквадратичного уклонения использующая среднеквадратичное уклонение «свесами», зависящими от ошибки на каждом обучающем примере.3.3.2.Контрастирование нейронов нейросети
Контрастирование нейронов может достигатьсякак побочный результат контрастирования синапсов: если у нейрона удалены всевходные синапсы или все выходные синапсы, то такой нейрон можно удалить из сетибез ухудшения качества решения задачи. Тем не менее, имеются методыконтрастирования собственно нейронов.
В [39] предложено в целевую функциюдобавлять дополнительное штрафное слагаемое. Это слагаемое (энтропийного вида)штрафует за слишком большие модули выходных сигналов нейронов. Минимизациятакой оценки приводит к тому, что в сети будет активироваться только малоечисло нейронов, а остальные нейроны будут выдавать сигнал, близкий к 0. Формулаштрафного слагаемого: />, где M – число нейронов, /> - нормированный выходной сигнал /> i-го нейрона, />, e – параметр регуляризации. Это слагаемоепересчитывается для каждого примера выборки, и градиент для каждого примерасчитается с учетом этого слагаемого. После обучения сети для удаления нейронов,которые не активируются, используется следующиий метод: для каждого нейрона наобучающей выборке усредняется его выходной сигнал, и из сети удаляются нейроны,средняя активация которых меньше некоторого порога d.
В [40,41] предлагается вычислятьзначимость нейрона как модуль вызванного контрастированием нейрона изменениязначения целевой функции, просуммированный по всем примерам выборки. Нейрон снаименьшей значимостью удаляется из сети, и сеть дообучается. Поскольку длявычисления значимости нейрона не требуется вычисления градиента целевойфункции, подход может применяться для сетей, которые нельзя обучатьградиентными методами (например, для сетей с пороговыми нейронами).
Работа [21] использует тот же подход, чтои [40,41], но взамен усреднения изменения значения целевой функции по примерамвыборки ищется максимум модуля такого изменения.
Похожий на [21,40,41], но болееспециализированный метод предложен в [42] для сети-классификатора (требуемыевыходные сигналы сети – 0 или 1, число выходных нейронов сети не важно).Вводится функция качества, характеризующая правильность интерпретации ответадля всей выборки: />, где />, oj, yj – требуемый и выходной сигналы j-говыходного нейрона, n – число выходных нейронов, N – числопримеров в обучающей выборке, e – требуемая близость сигналавыходного нейрона к требуемому выходному значению для данного примера. Длякаждого нейрона невыходного слоя вычисляется значение функции качества приусловиях удаления этого нейрона из сети, и нейрон, вызывающий наименьшееухудшение качества распознавания, удаляется из сети.Этот метод нацелен насохранение правильной интерпретации ответа сети – чтобы контрастированиенейрона приводило к неправильной классификации как можно меньшего числапримеров обучающей выборки.
В [43] показателем значимости нейронаявляется сумма квадратов весов синапсов нейрона (включая неоднородный вход) ивесов всех синапсов, по которым нейрон рассылает свой выходной сигнал.
В [44,45] наряду с весами синапсовучитываются и величины проходящих по синапсам сигналов. Для каждого нейронасчитается значение критерия />, где oi — выходной сигнал i-го нейрона для примера p обучающейвыборки, wij- вес синапса, идущего от i-го нейрона к j-мунейрону следующего слоя. Удаляются нейроны с наименьшим значением критерия.Т.е. значимые нейроны – те, которые часто возбуждаются и рассылают свой сигналпо синапсам со значительными (по модулю) величинами весов. В [46] проводитсядальнейшая модификация: в критерий входит еще и выходной сигнал j-гонейрона следующего слоя:/>. Т.е.предполагается, что значимые нейроны обладают свойствами из [44,45] (сильноевозбуждение и большие веса выходных синапсов) и вдобавок приводят к возбуждениюнейронов следующего слоя.
На основе метода контрастирования синапсоввторого порядка [36] предложен метод контрастирования нейронов второго порядка,где показателем значимости нейрона является сумма произведений всех вторыхчастных производных целевой функции по весу синапса на квадрат веса синапса,взятая по всем входным синапсам нейрона и синапсам, по которым нейрон рассылаетсвой выходной сигнал.
В [48] предложено показателем значимостинейрона считать показатель значимости первого порядка вида [16-17,20,26] еговыходного сигнала. Также рассмотрен основанный на показателях значимостисинапсов первого [16-17,20,26], а не второго порядка вариант метода [47], гдепоказателем значимости нейрона считается сумма показателей значимости всех еговходных и выходных синапсов.
Обобщенный подход [17,20,26] позволяетполучать для выходного сигнала любого нейрона сети показатели значимостивыходных сигналов нейронов предыдущих слоев и входных сигналов сети. Поэтомувозможно контрастирование нейронов не на основе оценки изменения величины целевойфункции, но и оценки изменения выходного сигнала сети (выходного сигналанекоторого нейрона последнего слоя сети).
В [49-50] вводится и в [51] выполняетсяконтрастирование нейронов путем переупорядочивания весов синапсов. Удаляютсянейроны, имеющие на обучающей выборке наименьшую дисперсию своего выходногосигнала среди сигналов всех нейронов, при этом происходит коррекция весовнеоднородных входов нейронов следующего слоя на величины, равную произведениюматожидания выходного сигнала удаляемого нейрона на вес синапса, по которому нанейрон следующего слоя приходил этот сигнал. Удаляются все, кроме одного,нейроны, имеющие сильно скоррелированные выходные сигналы, также с коррекциейвесов синапсов, по которым будет рассылать сигнал остающийся нейрон.3.3.3. Контрастированиевходных сигналов нейросети
Критическому обзору идей, лежащих в основеметодов контрастирования входов сети, посвящена работа Уоррена С. Сарле [52].Все приводимые автором аргументы и примеры могут быть адресованы и крассмотренным ранее методам вычисления показателей значимости синапсов инейронов сети. Основные положения статьи таковы:
-          Имеется показатель значимостивхода и показатель чувствительности выходного сигнала сети к изменению навходе. Это – разные показатели, и их надо разделять.
-          Нельзя определять значимость входачерез изменение остаточной дисперсии модели после удаления этого входа исоответствующей перестройки модели – при наличии коррелированных признаковостающиеся признаки скомпенсируют отсутствие удаленного.
-          Использовать как показательзначимости абсолютное значение веса синапса при входном параметре нельзя –могут быть и разные диапазоны изменения входов, и разные их дисперсии.Нормирование входов проблему не решает, поскольку используемые при нормализацииполученные по выборке оценки могут сильно отличаться от истинных значений.
-          Использование произведения весасинапса, по которому проходит входной сигнал на вес синапса, по которому нейронразошлет свой выходной сигнал дальше, и усреднение этих произведений по всемвыходным синапсам нейрона (см. [44,45]) не учитывает влияние функции активациинейрона (дополнительное домножение на величину активации, как сделано в [46],будет правильней).
-          Рассмотрение компоненты градиентавыходного сигнала сети по входному сигналу предпочтительнее рассмотрений весовсинапсов. Однако опираться только на величины производных недостаточно вслучае, когда планируется кардинальное изменение сети – контрастирование входа.
-          Усреднение производных по всемудиапазону изменения входа в большом числе точек (т.е. получениерепрезентативной выборки значений производных) требует сведения их в одно число– показатель значимости. Простое суммирование (или поиск среднего) тутприменяться не может из-за того, что производные могут иметь как положительный,так и отрицательный знаки и при усреднении дать среднее вблизи нуля, хотя ихабсолютные значения могут быть очень большими. Усреднять нужно модули иликвадраты значений производных.
-          Конечные разности, когда в качествеодной точки выступает текущее состояние входов, а в качестве второй – состояниепосле предполагаемой модификации, предпочтительнее производных.
-          Имеется проблема выбораконстантного значения, которым будет заменяться отконтрастированный входной сигнал.Тут мы сталкиваемся с проявлением нелинейности модели (может быть, привыбранном значении нейросеть будет выдавать сильно отличающийся сигнал),вдобавок входной сигнал может быть распределен по любому закону, поэтомусредним значением интервала изменения заменять большинство сигналов нельзя.
-          Шум в данных, другие факторы тожетребуют учета путем обязательного оперирования с обучающей выборкой –рассмотрения только нейронной сети недостаточно.
Теперь рассмотрим существующие методыконтрастирования входных сигналов в свете критических положений статьи У.Сарле.
В [17,20,26] предложен подход первогопорядка, усредняющий произведения частных производных целевой функции по входамсети на планируемые изменения величин сигналов. Усреднение ведется в некоторойнорме по всем примерам обучающей выборки и нескольким точкам в пространствеадаптивных параметров сети. Здесь удовлетворяется большинство требованийУ.Сарле: используется усреднение модулей значений произведений производных повыборке и в нескольких точках и производится умножение на планируемое изменениевеличин сигналов. Вместо производных целевой функции можно использоватьпроизводные выходных сигналов сети по входным сигналам.3.3.4. Бинаризациясинапсов
В [16,17,26] для бинаризации применяетсяпоказатель значимости синапса первого порядка при замене веса синапса навыделенное значение. Для задачи контрастирования выделенным весом синапсаявлялся 0, для задачи бинаризации формируется набор выделенных значений.
 Для синапса вычисляются показателизначимости для каждого выделенного значения и находится выделенное значение,соответствующее минимальному значению показателя чувствительности.
 Такая операция проводится для всехсинапсов сети и синапс с наименьшим показателем значимости бинаризуется донайденного для него выделенного значения
Также для бинаризации может применятьсяметод контрастирования [16], добавляющий к функции оценки штрафной член,«притягивающий» веса синапсов к выделенному значению.
В [54] представлен алгоритм квантованиявесов синапсов, отличающийся тем, что число и величины выделенных дискретныхзначений синапсов задаются не пользователем, а определяются самим алгоритмом.
Другие методы бинаризации, основанные нена показателях значимости и не на штрафных функциях, а на требовании кминимальному изменению выходного сигнала сумматора на выборке, введены в[17,18]. 3.3.5. Упрощениенелинейных преобразователей нейронов
В [55] представлен метод замены гладкихнелинейных функций нейронов константами, линейными, пороговыми иликусочно-линейными функциями.
На обучающей выборке для каждого нейронавычисляется минимальный и максимальный выходные сигналы его сумматора и наполученном отрезке вычисляется интеграл разности исходной нелинейной функциинейрона и новой замещающей функции (ошибка). Упрощается нейрон с наименьшимзначением интеграла ошибки.
Недостаток предложенного алгоритма –невозможность оптимального подбора параметров замещающей функции. Посколькувведение в нейросеть порогового или кусочно-линейного нейрона не позволяетзатем дообучать сеть градиентными методами, то для подбора параметровзамещающей функции могут потребоваться дополнительные эксперименты.3.3.6. Дополнительныемодификации алгоритмов контрастирования
Контрастирование не обязательно вести какпроцесс только исключения незначимых элементов. В [17,57] предложено нанекотором шаге упрощения дополнительно возвращать в сеть часть ранееотконтрастированных элементов.
Действительно, сеть после шагаконтрастирования модифицировалась. В связи с этим изменилась и значимость ранееотброшенных элементов.
Можно определить эту новую значимость ивернуть в сеть несколько наиболее значимых ранее отброшенных элементов. Этоможет помочь отконтрастировать в дальнейшем большее количество элементов [27].3.3.7. Методымодификации структуры обученной сети
Существуют методы, которые нельзя отнестик методам упрощения сети, поскольку упрощение структуры сети при этом невыполняется. Однако эти методы проводят такую эквивалентную модификацию сети (ссохранением достигнутого при обучении сети навыка решения задачи), котораяможет быть полезна для последующего процесса извлечения знаний.
Так, для нейрона с сигмоидной нелинейнойфункцией вида /> (или другой симметричной относительно нуля нелинейной функцией) возможнаодновременная смена знака весов всех его синапсов и всех синапсов, по которымрассылается выходной сигнал нейрона, с сохранением правильности решениянейросетью задачи [56]. Поэтому появляется возможность, например, приведенияобщего числа отрицательных весов синапсов сети к минимуму (если заданагипотеза, что именно такая структура сети упростит в дальнейшем извлечение иинтерпретацию знаний).3.4. Требования к процессу упрощения сети дляизвлечения знаний
Перейдем к оценке применимости описанныхметодов упрощения сети к задаче извлечения знаний. Рассмотренные ранее методыконтрастирования синапсов, нейронов и входных сигналов можно разбить на 2группы методов:
1.        Методы, не позволяющие задаватьчисло контрастируемых элементов сети (методы, основанные на модификацииштрафной функции).
2.        Методы, выполняющие пошаговоеупрощение нейронной сети. На каждом шаге удаляется наименее значимый элементсети (или несколько наименее значимых элементов – [57]), затем после дообученияудаляется следующий наименее значимый элемент и т.д. Такие методы позволяютудалять из нейросети заданное число элементов и строить пользовательскиестратегии упрощения путем последовательного применения различных методов,контрастирующих различные элементы.
Представляется, что методы из первойгруппы мало пригодны для упрощения сети при последующем извлечении из неезнаний из-за недостаточной гибкости и невозможности конструированиякомбинированных алгоритмов, так как у пользователя обычно имеется некотороесоображение об оптимальной структуре сети. Оптимальность обычно достигается непо одному какому-то критерию (например, «минимальность числа нейронов», «минимальность числа входов »,…), а по нескольким. И еслипоследовательно применять методы из первой группы, то достижение одногокритерия возможно, а последующих –проблематично, поскольку примененный длядостижения первого критерия оптимальности метод контрастированияотконтрастировал сеть до минимума по этому критерию и оставил очень малоизбыточности в сети, чтобы можно было достичь общего оптимума путем дальнейшегоконтрастирования по другим критериям.
Поэтому можно сформировать следующиетребования к процессу упрощения нейросети для задачи последующего извлечения изнее знаний. Эти требования накладывают определенные ограничения на возможностьиспользования тех или иных методов упрощения:
1.        Процесс упрощения должен позволятьпользователю выбирать контрастируемые структурные элементы сети (нейроны,входы, синапсы,…) путем выбора отдельных элементарных упрощающих операций.
2.        Процесс упрощения должен позволятьзадавать последовательность проведения различных выбранных в п.1 упрощающихопераций.
3.        Возможность задавать числоконтрастируемых элементов как для каждого шага отдельной упрощающей операции,так и для всего процесса в целом.
4.        Возможность определять условиеостановки контрастирования (по каждой упрощающей операции) взаменконтрастирования сети «до предела».
5.        Процесс упрощения должен бытьнастраиваем под требования конкретного метода извлечения знаний из нейроннойсети. Иными словами, процесс упрощения должен сформировать нейросеть,оптимальную для дальнейшей работы конкретного алгоритма извлечения знаний.
Требование к возможности выбирать изадавать последовательность выполнения упрощающих операций требует введенияноменклатуры элементарных упрощающих операций.3.5. Упрощающие операции над нейронной сетью
Введем номенклатуру элементарныхупрощающих операций [22,23,58]:
-          Удаление входного сигнала (см.раздел 3.3.3).
-          Удаление синапса сети (раздел3.3.1).
-          Удаление нейрона сети (раздел3.3.2).
-          Бинаризация синапса сети (раздел3.3.4).
-          Модификация нелинейногопреобразователя нейрона сети (раздел 3.3.5).
-          Эквивалентное преобразованиеструктуры сети, приводящее к оптимизации структуры сети по некоторому критерию(раздел 3.3.7).
Для всех этих операций возможно назначение«области действия» как задания фрагмента нейросети (путемперечисления элементов и сигналов сети), внутри которого на каждом шагеупрощения и будет проводиться контрастирование.
Путем задания последовательностиприменения элементарных упрощающих операций, критерия остановки выполненияоперации, задания требований к результирующему виду нейросети стратегииупрощения нейросети настраиваются под предпочтения пользователя и алгоритмаизвлечения знаний.3.6. Процедура комплексного упрощения нейронной сети
Для задачи извлечения явных знаний изданных введем понятие логически прозрачной сети [17,18,20,23,58]. Под логическипрозрачной понимается нейросеть, обладающая минимальной структурной сложностьюи при этом удовлетворяющая требованиям (предпочтениям) пользователя (еслипользователь сам будет вручную проводить процесс извлечения знаний – осмысленияи интерпретации структуры сети) и/или требованиям алгоритма автоматизированногоизвлечения знаний к виду результирующей сети.
Формализуем процесс получения логическипрозрачной сети, удовлетворяющий введенным в*Параграфе 3.2 требованиям (процессупрощения должен быть настраиваем под конкретный метод извлечения знаний изнейронной сети, т.е. должен формировать нейросеть, оптимальную для конкретногоалгоритма извлечения знаний).
1.        Вводятся требуемые критериилогической прозрачности. Критериями могут являться как перечисленные впредыдущем подразделе критерии простоты сети, так и другие требования.Например, может потребоваться квантование внутренних, проходящих по нейроннойсети сигналов. Критерии логической прозрачности определяют требуемый внастоящее время пользователю класс логически прозрачных сетей – множествовариантов структур сети, удовлетворяющих поставленным требованиям.
2.        Для каждого критерия вводитсядискретная шкала, по которой отсчитывается удаленность текущего состояниянейронной сети от класса логически прозрачных сетей, как число сигналов илиэлементов сети, не удовлетворяющее требованиям критерия. Поскольку для каждогокритерия может вводиться число элементов или сигналов, которые необходимооставить в сети неотконтрастированными и/или немодифицированными, либо другоеусловие останова, то этим числом или условием определяется нуль дискретной шкалы.
3.        Проводится процедура упрощениянейронной сети. Упрощение строится так, чтобы минимизировать«расстояние» от текущей нейронной сети до класса логически прозрачныхфункций. «Расстояние» вычисляется как взвешенная сумма тех критериев,по которым сеть не удовлетворяет требованиям логической прозрачности. На каждомшаге упрощения среди всех доступных элементарных операций выбирается такаяоперация, которая приводит к наибольшему уменьшению «расстояния».Если выбранная операция не может быть выполнена (например, из-за достиженияминимума по этому критерию логической прозрачности), то выбирается следующаяоперация. Если достигнуты условия остановки, процесс упрощения заканчивается.
4.        Если требования некоторыхкритериев не достигнуты, но никакая из упрощающих операций не может бытьвыполнена, то возможно возвращение в нейросеть некоторых ранееотконтрастированных элементов или сигналов (см. раздел 3.3.6). Возвращать всеть нужно те элементы, которые не приводят к росту текущего расстояния докласса логически прозрачных сетей либо дают минимальный рост расстояния. Затемосуществляется очередное выполнение шага 3. Естественно, нужно приниматьнекоторые меры против зацикливания шагов 3-4.

 Глава 4. Методы извлечениязнаний из искусственных нейронных сетей4.1. Существующие методы извлечения знаний изобученной нейросети
Как и для методов упрощения нейросети, дляметодов извлечения из сети знаний можно тоже ввести несколько классификаций.Так, в [59] представлено ранжирование методов извлечения знаний по следующимсвойствам:
-          Накладываются ли ограничения навозможный вид нейросети (на структуру сети, число нейронов, входов и выходовсети, вид входных и выходных сигналов сети).
-          Модифицируется или нет обученнаясеть при извлечении из нее знаний.
-          Делится ли непрерывнозначнаявходная и/или промежуточная (сигнал нейрона) переменная на интервалы, которымзатем можно сопоставить лингвистические категории. Как происходит процесс этогоделения.4.1.1. Методы на основеквантования сигналов сети
Квантованиенепрерывнозначных сигналов имеет целью получение для каждой входной переменнойтаких интервалов ее изменения, каждому из которых можно в дальнейшемсопоставить некоторую лингвистическую категорию. Порождаемые лингвистическиекатегории можно использовать для процесса объяснения принятия сетью решения.Некоторые методы позволяют переход от непрерывнозначных сигналов кдискретнозначным либо путем сопоставления с каждым интервалом некоторого дискретногозначения (и в дальнейшем дискретизации каждой непрерывнозначной переменной посопоставленным с ней значениям), либо путем некоторой модификации сети.
В [53] разработан метод порождения ипроверка гипотез о структурной и функциональной связи между входом и выходом,состоящий из трех этапов:
1.  Определение «границрешения» – разбиение диапазонов значений непрерывных входных признаков наподдиапазоны, внутри которых правила принятия решения будут различаться. Работаведется на уже обученной сети. Для каждого i-го входного сигнала строитсяграфик показателя чувствительности выходного сигнала сети к изменению i-госигнала в точке x, из диапазона значений сигнала: />, где j – номер примераобучающей выборки, Oj(i) – выходной сигнал сети при замене значенияi-го входного сигнала j-го примера на заданную величину. Входные сигналы,содержащие границы решения, будут иметь высокие пики на своих графиках (соответствующиебольшим значениям производной выходного сигнала). Неинформативные сигналы пиковиметь не будут, высота их графиков будет малой.
2.  Анализ чувствительности выхода квходу для определения причинно-следственной связи – путем вычисления показателязначимости входа как суммы по всем примерам выборки модуля разностнойаппроксимации частной производной выходного сигнала по входному. Формулааналогична накоплению показателей значимости в норме «сумма модулей»[17,26], но основана на разностной аппроксимации производной выходного сигналасети по входному. Самостоятельного значения этот этап не имеет, используетсявнутри этапа 3.
3.  Проверка гипотезы о существованииграницы решения. Для наиболее чувствительного сигнала делим выборку наподнаборы (в зависимости от числа пиков на графике чувствительности для этогосигнала из п.1.), внутри которых сигнал принимает значения из соответствующегодиапазона. Внутри каждого интервала исследуем значимость сигналов (п.2.) посоответствующему поднабору выборки. Если граница решения существует, то внутриэтих интервалов будет различна чувствительность выходов по входам – каждый разбудут значимы другие входы. Далее можно использовать обычный регрессионныйанализ – у нас уже есть выделение значимых признаков для каждого интервала, иможно надеяться, что внутри этих интервалов зависимость выхода отсоответствующих интервалу наиболее значимых входных сигналов может бытьлинейна.
Аналогичный подход к определению границрешения на основе анализа производных выходного сигнала сети (именно выходногосигнала, а не функции качества) по входным сигналам использован в [59].
В [59] рассмотрено извлечение нечеткихправил из сети-классификатора с непрерывнозначными входными сигналами. Длякаждого входного сигнала формируются несколько лингвистических категорий(например, «малый», «ниже среднего», «средний»,«выше среднего», «высокий» или другие в зависимости отфизического смысла сигнала) и соответствующие каждой лингвистической категориинечеткие функции принадлежности. Процесс построения правил использует тольковходные и выходные сигналы сети и выполняется путем перебора всех возможныхсочетаний лингвистических категорий на входах с вычислением нечетких значенийна выходах при работе сети. Для каждого сочетания категорий получается наборнечетких значений на выходах сети, и для класса с наибольшим значениемзаписывается правило вида if-then, где в правой части правила коэффициентуверенности принимает значение вычисленной нечеткой величины. Построенияиерархии правил (по числу слоев нейросетевого классификатора) в [59] неделается. Правила в левой части содержат значения входных переменных, а вправой – выходных переменных нейросети. Практически аналогичный методизвлечения нечетких правил предложен в [60] – фаззификация и введение лингвистическихкатегорий для входных сигналов сети, построение набора нечетких правил,выдающих по фаззифицированным входным сигналам ответ, близкий к ответу сети(требуемому выходному сигналу). Т.е. структура сети снова во внимание непринимается, фактически, можно обойтись просто обучающей выборкой.
Наиболее недавние работы [62,63]предлагают свободное от семантики, полуавтоматизированное определение числа играниц диапазонов значений. В [62] предлагается следующий процесс извлечениязнаний:
-          Выделение диапазонов значений (исоответствующих им лингвистических переменных) для непрерывнозначных входныхсигналов. Выполняется путем анализа гистограмм (в случаях, когда величинысигналов распределены по мультимодальному закону), используя методы линейного разделенияпо переменной (в случае решения задачи классификации),… либо с использованиемподхода из [63].
-          Наращивание нейронной сети надсформированным набором слингвистических переменных – до тех пор, покадобавление нейронов не будет повышать точности прогноза сети.
-          Оптимизация правил путем упрощениясформированного логического выражения и/или сокращения числа лингвистическихкатегорий путем их объединения. На новом наборе лингвистических переменныхможет быть повторен предыдущий шаг построения сети и т.д. до сходимостипроцесса.
Более подробно механизм определениядиапазонов рассмотрен в [63]. Функция принадлежности формируется как разностьвыходных сигналов двух сигмоидных нейронов с разными значениями весовнеоднородных входов /> и одинаковыми(единственными) входными сигналами с одинаковыми же весами синапсов. Т.е. такимобразом кодируется лингвистическая переменная для интервала />. Если этот разностныйсигнал используется далее с отрицательным весом, то лингвистическая переменнаяполучается для интервала />. Однасигмоида может кодировать переменную ³a0или £a0.Фактически, предлагается строить дополнительный кодирующий слой нейронов (самыйпервый), где для каждого непрерывнозначного входного сигнала будут иметьсянесколько пар нейронов (их обучение должно идти с сохранением одинаковыхзначений весов синапсов в каждой паре), и два дополнительных нейрона дляпредставления лингвистических переменных вида ³a0или £a0.Обучение нейросети и контрастирование такого слоя окончательно сформирует интервалыдля лингвистических переменных, а их число будет оптимизировано по сравнению сисходным числом кодирующих нейронов для каждого сигнала.4.1.2. Методыизвлечения знаний параллельно с обучением нейросети
Отдельныеметоды опираются на процесс обучения нейросети.
В [64] исследуется возможность применения«структурного обучения» и его модификаций [28-33] не только какметода контрастирования синапсов, но и как метода извлечения знаний.Подчеркивается необходимость упрощения сети для получения более компактного ипонятного набора правил. Предложено построение иерархии правил – выделениесначала доминантных правил, а затем дополнений и исключений из правил (или,другими словами, правил, определяющих основные зависимости, и правил, которыеуточняют детали). Процесс – установка сравнительно большого значения величиныпараметра регуляризации и обучение сети до получения простой структуры, записьправил (наиболее доминантных) по полученной сети, фиксация и выведение изобучения полученной структуры сети (ненулевых весов синапсов), уменьшениезначения параметра регуляризации, обучение сети (чтобы достигнуть большейточности решения, некоторые ранее отконтрастированные синапсы получат ненулевыевеса и сформируют иерархию правил уровнем ниже), и запись дополнительносформированных менее доминантных правил и т.д. до тех пор, пока суммарный наборправил (именно набор правил, а не нейросеть) не будет работать наобучающей/тестовой выборке с заданной точностью.
Однако процесс выбора начального значенияпараметра регуляризации и стратегии его уменьшения неоднозначен. Вдобавок,используемая в [64] оценка МНК может приводить к избыточной сложности набораправил для сетей-классификаторов. Также не обсуждается механизм собственнозаписи правил (тестовый пример в [64] работал с булевыми входными переменными)обсуждается только механизм упрощения сети для формирования структуры правил,отранжированных по шкале общности (доминирования) – детализации.
Как доработку метода можно предложитьпостроение графика зависимости точности решения примеров обучающей выборки отчисла элементов в сети или числа правил, порождаемых по сети (эти величины, всвою очередь, зависят от величины параметра регуляризации). Вероятнее всего, награфике будут наблюдаться несколько скачкообразных изменений точностираспознавания – см., например, пример в [60]. Представляется, что, приформировании иерархии правил, «естественной» будет иерархия,соответствующая наблюдаемым скачкообразным изменениям точности.
В [65] рассматривается метод, формирующийправила параллельно с обучением сети. Если текущий прогноз сети правилен, то внабор правил вводится правило, обеспечивающее такой же ответ на даннойситуации, и делается попытка переформулирования некоторых имеющихся идобавляемого правил – например, путем объединения нескольких частных правил водно более универсальное правило. Если ответ сети неверен, то набор правилмодифицируется для недопущения ошибки. Т.е. правила формируются не по нейроннойсети, а на основании обучающей выборки. По сравнению с извлечением знаний послеобучения сети, такой подход формирует более «сырой» и«рыхлый» набор правил и может оставлять рудиментарные правила. Но дляситуаций, когда необходимо формирование знаний в режиме on-line (когда невозможнозаранее сформировать обучающую выборку), такая идея достаточно перспективна длядальнейшего развития.4.1.3. Методыизвлечения знаний из обученной нейросети
В [66-68] предложен метод извлечениязнаний, опирающийся только на структуру и веса синапсов обученной нейросети, нетребующий обучающей выборки и не рассматривающий природу входных ипромежуточных сигналов сети. Для каждого нейрона взвешенная с весами синапсовсумма его входных сигналов (т.е. выходной сигнал сумматора нейрона) сравниваетсясо значением неоднородного входа нейрона. Превышение/непревышение оформляется вотдельное правило вида “если…, то”. В случае сигмоидных или пороговых функцийпревышение или непревышение взвешенной суммой значения неоднородного входаописывает уровень активации выходного сигнала нейрона.
В [69] рассматривались похожие идеи, но санализом порождаемых на обучающей выборке промежуточных сигналов нейросети –величин активации нейронов. Рассматривалась ситуация активации/неактивациинейрона при конкретных комбинациях значений бинарных входных сигналов нейрона.Строились правила вида «M of N», описывающие накладываемые назначения входных сигналов условия для получения того или иного выходногосостояния нейрона. При этом при записи правил отсеивались те входные сигналынейрона, изменение значений которых не приводит к изменению выходного состоянияпри фиксированных значениях других входов.
MofN-правила – продукционные правила вида:
«ЕСЛИ хотя бы / ровно / по меньшеймере M из N условий C1, C2,..,CN выполнены, ТО…,ИНАЧЕ…»
Такие правила более гибки чем простейшаяформа «если…, то…».
В алгоритме [70] извлекаются правилапростейшего вида, вдобавок содержащие в левой и правой частях правила только поединственному атрибуту. Это приводит к необходимости дальнейшей оптимизации ипереформулирования получающегося большого количества простых продукционныхправил, например, в набор меньшего числа правил вида MofN.
В [71] предлагается метод построениямногошаговой схемы логического вывода, где на каждом шаге вывода могут использоватьсякак концепты предыдущего шага, так и концепты всех более ранних шагов ипервоначальные входные данные – это отличает предложенный метод от большинствадругих методов, где в формировании концептов некоторого уровня участвуют толькоконцепты предыдущего уровня. Здесь концепты формируются в ходе просмотраобучающей выборки путем объединения встречающихся 2 и более раз комбинацийзначений дискретных входных признаков в величину с некоторым значением, которойможно дать лингвистическое описание. После порождения концепта он начинаетучаствовать в формировании концептов следующего уровня наряду со всеми ранеесформированными концептами.
Большинство методов извлечения знанийнацелено на работу с нейросетями, получающими на вход и выдающими на выходе бинарные,номинальные или порядковые величины. При обработке же непрерывных величинкаждая величина разбивалась на несколько интервалов, причем практически всегдаразбиение на интервалы проводилось вручную без учета статистической природывеличины.
Другие методы начали свою жизнь как методыуточнения имеющихся явных знаний, когда производилось встраивание имеющихсянаборов правил в нейросеть, затем проводилось обучение сети и извлечениеуточненных знаний.
Именно как методы уточнения имеющихсяаприорных знаний первоначально были представлены методы [69,70,72-74]. При этомв нейросеть встраивается имеющийся набор правил вывода, который не долженобязательно быть ни полным, ни непротиворечивым. Правила оперируют бинарнымиили номинальными величинами, входные/промежуточные сигналы реализующей этиправила нейросети тоже делаются квантованными. Для обработки входной информациикаждая непрерывнозначная величина разбивается пользователем на несколькоинтервалов. Нейросеть «достраивается» до полного размера набором связейс небольшими весами и набором добавочных нейронов. После обучения сетиизвлекаются откорректированные правила логического вывода вида M of N. Высокаяили низкая активация нейронов интерпретируется как истинное или ложное значениевычисляемой нейроном булевой переменной. Такой метод извлечения знанийназывается в [73,74] KBANN-алгоритмом.
Ограничение KBANN-алгоритма в том, что,фактически, не порождается новых правил. При формировании сети делается так,чтобы добавляемые синапсы имели малые веса и добавляемые нейроны имели низкуюактивацию. При обучении сети корректируются как добавленные элементы, так исопоставленные с первоначальными символьными правилами элементы. Но посколькупоследние изначально имеют большие значения синапсов и высокие активации нейронов,то они и сформируют кластера активности, а добавленные элементы будутиспользоваться на этапе извлечения правил. Фактически из сети извлекаетсянемного скорректированный набор исходных правил.
Определению необходимости добавления ичисла добавляемых к сети нейронов в ходе ее формирования посвящены работы[75,76], обходящие указанное ограничение KBANN-метода. TopGen-расширениеKBANN-алгоритма осуществляет эвристический поиск оптимальных модификаций сетина основе обучающих данных, получающегося набора символьных правил и поведениясети. Другие алгоритмы наращивают сеть при малой скорости сходимости обученияи/или большой ошибке обучения/обобщения и т.д. TopGen же нацелен на работу сKBANN-сетями и при своей работе использует извлечение из сети и анализсимвольных правил для того, чтобы определить, в каком месте сети требуетсякоррекция. При работе алгоритма корректируется символьное представление правили их иерархическая структура наряду с их адаптацией путем обучения сети. Ещеодна особенность алгоритма – стремление не слишком нарушать вставленные внейросеть исходные формализованные правила, а иначе после извлечения правилможно получить правила, кардинально отличающиеся от первоначальных и сложные винтерпретации. Т.е. добавляемые в сеть элементы должны научиться по обучающейвыборке распознавать исключения из исходных правил и/или научитьсякорректировать ответ этих правил, если последние слишком уж плохо работают навыборке.
Метод извлечения знаний, использовавшийсяв составе KBANN-алгоритма [73,74], был адаптирован и для извлечения знаний изнейросетей без первоначального встраивания в них правил. Идея исходного метода– при обучении получить нейросеть, в которой значения весов синапсов иактиваций нейронов группируются в кластеры, и лингвистически интерпретироватьполученные кластеры. Были предложены следующие варианты доработки:
1.        В [77] используется процедуракоррекции, которая после обычного обучения сети группирует значения весовсинапсов каждого нейрона в кластеры (веса синапсов затем заменяются значениямицентров кластеров) и корректирует значения неоднородного входа нейрона так,чтобы скомпенсировать внесенные в сеть изменения, и таким образом делаетвозможным применение старого варианта метода извлечения знаний.
2.        В [78] на основе поисковогоалгоритма разработан метод построения набора правил, приблизительноэквивалентных правилам, сформированным некоторой произвольной сетью безограничений на ее топологию. Не требуется квантования величин активацийнейронов при обучении сети, и требуется только равенство выходных сигналов сетии нового набора правил на обучающей выборке, что дает свободу в примененииправил различного вида и не привязывает иерархию извлеченных правил к структуресети.
3.        В [78,79] на основе идей [76,77]предложен алгоритм TREPAN построения построения иерархии правил, причем числоуровней иерархии может не совпадать с числом слое нейронов сети. При этом такжеиспользуется обучающая выборка.
Наиболее недавняя работа [79] дает началоновому этапу развития методов извлечения знаний из нейросетей. Cуществует2 основных подхода к извлечению знания из нейросети – это анализ топологии сетии анализ поведения сети в терминах отображения вход-выход и/или активациинейронов. Существующие методы интерпретации топологии нейросети «локальны»и не учитывают «распределенного» по нейросети знания об алгоритмерешения задачи. Очень редко при извлечении правил удается выявить именнораспределенные правила принятия решения. Второй же подход более интересен.
До [79] фактически единственной работойэтого подхода была работа [53], в которой проводилось формирование границрешения (построение интервалов изменения входных переменных, внутри которыхимелось отличие функциональной зависимости вход-выход от зависимостей в другихинтервалах) и определение значимости входных сигналов внутри каждого интервалас возможностью дальнейшего перехода от нейросети к структурно-функциональноймодели, состоящей из набора условных правил, в зависимости от значений входныхсигналов выбирающих ту или иную простую (по сравнению с исходной нейроннойсетью) модель отображения «вход-выход».
В [79] вдобавок предложено использоватьанализ активации нейронов сети; при этом желательно иметь пороговые нейроны,либо нейроны, чья активация на обучающей выборке подчиняется многомодальномузакону распределения (для получения информации о состояниях нейрона можноиспользовать гистограмму его активации, кластерный анализ его выходныхсигналов,..). Анализируя этот закон, для нейрона можно сформировать несколькограниц его состояния (и затем семантически интерпретировать каждое состояние).Таким образом мы получаем знания о структуре внутренних сигналов сети[69-74,77,78]. Но такой анализ активаций тоже является локальной интерпретациейнейронов.
Также предложено для каждого из выделенныхсостояний нейронов проверять различные статистические гипотезы для групппримеров, формирующих именно это состояние. Причем гипотезы могут касаться какзначений входных переменных в группе примеров, так и значений внутреннихсигналов сети на этой группе примеров. Для нескольких групп примеров (каждаягруппа формирует свое состояние нейрона) проверяются гипотезы о равенстве илиотличии матожиданий, равенстве или отличии значений сигналов,… Такаястатистическая информация не извлекается ни из исходной таблицы данных, ни прианализе нейросети без одновременного анализа таблицы данных. При таком анализевозможно упрощение извлеченных из сети правил и параллельная или альтернативнаязапись всего набора правил или отдельных правил на другом «языке».Возможно рассмотрение вектора, составленного из выходных сигналов нейронов(например, некоторого слоя) сети, и применение кластерного анализа для набораполученных по выборке таких векторов. Для каждого кластера опять проверяютсястатгипотезы. Тут может получаться меньше кластеров, чем число сочетанийсостояний этих нейронов.4.2. Методы извлечения знаний: требования к методам
Обзорам методов извлечения знаний итребованиям к ним, анализу текущего состояния проблемы посвящены работы[80,81-83]. В этих работах рассматриваются общие вопросы применимостинейросетей для анализа данных и извлечения знаний, преимущества, получаемые отприменения нейросетей, методы извлечения знаний из нейросетей и встраиваниязнаний в нейросети, методы обучения/формирования сети, содержащей явныеправила.
В [80] требования, сформированные в [84]для задач машинного обучения в теории классического искусственного интеллекта(«Результатом компьютерного индуктивного вывода должны быть символьныеописания заданных сущностей, семантически и структурно похожие на те, которыеформирует человек-эксперт на основе обзора тех же сущностей. Компоненты этихописаний должны формировать самодостаточные информационные сущности, прямоинтерпретируемые на естественном языке, и единоднообразно определять какколичественные, так и качественные понятия» – [84]), переносятся и наалгоритмы и методы извлечения знаний из нейросетей. Поясняется, почему такоетребование является важным:
-          С точки зрения проверки полученныхправил – человек должен понимать полученные правила, чтобы им доверять.
-          С точки зрения получения новыхзнаний – человек должен иметь возможность понять и проинтерпретироватьпорожденное системой знание.
-          С точки зрения объяснения – важноне просто ответить на введенный запрос, но и объяснить промежуточныерассуждения, приведшие к получению именно этого ответа.
-          С точки зрения дальнейшегоуточнения и обобщения знаний – представление входной информации оказываетсущественное влияние на получаемый набор правил и возможность его обобщения,поэтому анализ извлеченного набора правил может привести к появлению болеекорректной кодировки входной информации или к укрупнению/огрублению входныхсущностей без потери качества решения задачи.
-          С точки зрения уточнения знаний –как человеком, так и с помощью автоматических процедур – требуетсяманипулирование атомарными, самодостаточными сущностями.
Знания в нейронной сети являютсяпроцедурными, поэтому их символьное декларативное представление дает какдополнительное знание, так и является более открытым для дополнения, даетвозможность использования отдельных фрагментов полученного знания.
Также показательна недавняя работа [83],рассматривающая результаты десятилетия исследований методик и алгоритмовизвлечения знаний из нейронных сетей. В этой работе говорится, что технологияизвлечения знаний еще не стала широко применимой на практике и не дала такихрезультатов, которые могла бы дать. Все дело в том, что наиболее точныеизвлекаемые модели и знания оказываются слишком сложными инепонятными/неявными. Там же вводится дополнительный набор критериев дляметодов извлечения знаний:
1.        Явность/понятность извлеченногонабора правил для человека.
2.        Точность описания исходнойнейросети, из которой знания были извлечены.
3.        Точность решения задачи.
4.        Масштабируемость – применимостьметода для сетей с большим числом нейронов и/или входных сигналов и/или большойобучающей выборкой.
5.        Общность – отсутствие жесткихограничений на архитектуры сети, алгоритмы обучения, решаемые сетью задачи.
Критерии 2,3 необходимы потому, что еще сработы [85] 1991г процесс извлечения знаний из нейронной сети строился вподавляющем большинстве случаев итеративным образом, когда из нейросетиизвлекается и записывается в символьной форме знание о проблемной области, азатем полученный алгоритм корректируется экспертом и снова встраивается внейросеть для коррекции. Такой процесс извлечения и встраивания знанийпродолжается до тех пор, пока не будет получен алгоритм, адекватный экспертномузнанию о проблемной области. Итерационный процесс, фактически, требуется из-задвух обстоятельств, существенных на время работы [85] и так и не обойденных досих пор:
-          Извлечение знаний производится изнеупрощенной сети и использует только наибольшие по модулю веса синапсов, чтоприводит к потере тех знаний, которые распределены по большому числу синапсов смалыми весами, и поэтому часто дает малую точность извлеченного набора правил.
-          нет такой процедурыизвлечения/встраивания знаний, которая после встраивания извлеченных знанийдавала бы сеть, аналогичную исходной. Требования пользователей к видуизвлекаемых знаний и форме их записи могут приводить к очень большим отличиямизвлеченных знаний от знаний, содержащихся в исходной сети.
В [62] под извлечением знаний из данныхпонимается наиболее компактное описание данных и правил решения задачи,обеспечивающее достаточную точность решения. Извлечение логических правил изданных может выполняться различными инструментами – статистикой, распознаваниемобразов, методами автоматического обучения, нейросетевыми алгоритмами и ихкомбинациями. Подчеркивается, что при извлечении знаний недостаточно простоизвлечь знания из нейросети и представить их в некотором требуемом виде, нонеобходимо оптимизировать их структуру и постоянно иметь в виду аспектыдальнейшего их применения. Фактически же исследователи делают упор только наэтап извлечения знаний.4.3. Методология извлечения явных знаний, использующаятехнологию комплексного упрощения нейросети
Понятности извлекаемых знаний дляпользователя сложно или невозможно достичь автоматизированной процедуройизвлечения знаний. Программная система не имеет никаких экспертных знаний опроблемной области и не может оценить ни уровня правдоподобия, ни уровня понятностипредлагаемого извлеченного знания для конкретного человека, поэтому задачаинтерпретации знаний так и остается прерогативой пользователя.
Остальные же критерии, описывающиетребования к точности и форме рассуждений (знаний), достижимы автоматизированнымиметодами. Правда, сначала пользователь должен уточнить эти требования дляконкретной задачи.
Требования точности описания исходнойнейронной сети и точности решения задачи делают невозможным использование дляизвлечения знаний тех рассмотренных выше методов, которые извлекают описание,соответствующее только наиболее сильно активирующимся нейронам и/или синапсам снаибольшими весами – при использовании таких методов может происходить потеряточности. С другой стороны, избыточность структуры сети будет приводить кизбыточности набора правил, если при извлечении правил учитывать абсолютно всеэлементы сети. Эти два фактора приводят к следующему утверждению: для полученияпростой структуры знаний необходимо предварительное упрощение нейросети с цельюоставить в нейросети только действительно необходимые для решения задачиэлементы и сигналы, а затем использование такого метода извлечения знаний,который формирует знания по всем элементам и сигналам, оставшимся у сети послеупрощения.
Требование масштабируемости – применимостиметода извлечения знаний для сетей больших размеров – во многих случаях небудет важным при правильном определении требований к точности решения задачи икорректной постановке задачи, поскольку упрощение сети даст для не слишком высокихтребований как достаточно малое число элементов в сети, так и малое числовходных сигналов по сравнению с первоначальным. Поскольку процесс интерпретациибольшого объема правил более длителен по сравнению со временем выполненияупрощения сети и дальнейшего процесса интерпретации гораздо меньшего набораправил, то требование масштабируемости становится некритическим приобязательном выполнении предварительного упрощения. Достигнутая к настоящемумоменту производительность средств вычислительной техники и быстрота алгоритмовобучения и контрастирования сети делают затраты на проведение упрощения малымипо сравнению с затратами на анализ человеком интерпретацию системы правил.
Требование отсутствия ограничений наархитектуры сети приводит к требованию проведения извлечения знаний какпоэлементного описания сети, когда вид сопоставленных с элементом продукционныхправил не будет зависеть от места элемента в структуре сети. Этому требованиюудовлетворяют методы, описывающие сеть понейронно, когда нейрону может соответствоватьнесколько правил и вид правил не зависит от места нейрона в структуре сети.
Представим сформированные требования кпроцессу извлечения знаний более формально:
1.        Обязательное проведение упрощениясети перед извлечением знаний.
2.        Формирование набора правил путемописания всего множества элементов и сигналов сети, без разделения элементов исигналов на значимые и незначимые (незначимые должны полностью отсеяться приупрощении).
3.        Формирование набора продукционныхправил поэлементно. При этом заданный человеком вид результирующегопредставления правил не должен и не будет зависеть от места элемента вструктуре сети.
4.        Заданный человеком видрезультирующих правил, предпочтения к особенностям, свойствам и структуреправил должны обязательно влиять на процесс проведения упрощения в п.1.
На основе этих требований разработанследующий процесс извлечения правил [22,23,58]. Правила извлекаются в ходепонейронного рассмотрения нейросети и для каждого нейрона возможно построениеодного или нескольких правил. Пусть Y – выходной сигнал нейрона, Yi– i-е дискретное значение выхода (в случае дискретнозначного выхода), X1,..,Xn– входные сигналы нейрона, xij – j-e дискретное значение i-говхода (в случае дискретнозначного входа), F(X1,..,Xn) –нелинейная функция нейрона. Здесь имеется и может использоваться упрощающаяоперация над нелинейной функцией нейрона, после проведения которой нейрон ссигмоидной нелинейной функцией может становиться пороговым нейроном илинейроном с кусочно-линейной функцией. Возможны различные виды извлекаемыхправил:
1.        Если все входные сигналы нейронадискретны, то независимо от вида нелинейной функции выходной его сигнал будетдискретнозначен. Поэтому для каждой возможной комбинации значений входов будетполучено правило вида IF (X1=x1j AND X2=x2kAND … AND Xn=xnl)THEN Y=Yi.
После построения набора атомарных правилвида «если-то» в варианте 1 возможен переход от них к правиам видаMofN.Если же хотя бы один входной сигнал у нейрона непрерывен, то применимонижеследующее:
2.        Если нелинейная функция гладкая(например, сигмоидная), то строится зависимость вида Y= F(X1,..,Xn).
3.        Если нелинейная функция пороговая,то выход дискретен и для каждого его дискретного значения можно определитьусловия, налагаемые на взвешенную сумму входных сигналов как IF A
4.        Если функция кусочно-линейна, токусочно-постоянные участки будут описываться условными правилами (п.3), акусочно-линейные – функциональными (п.2).
Видно, что требования пользователя к видуизвлекаемых правил приводят к необходимости выполнения той или иной модификациинелинейной функции нейрона. Задаваемое ограничение на число сущностей (входныхсигналов нейрона), учитываемых в левой части правила, приводит к необходимостипроведения операции равномерного упрощения сети по входам нейронов, и.т.д. Вслучае, когда упрощение нейросети не выполнено или все же оставило некоторыеизбыточные элементы, возможно огрубление извлеченных из сети правил содновременным сокращением их числа по сравнению с исходным числом правил.Критерием возможности проведения огрубления выступает точность решения задачинабором правил – если точность при огрублении не опускается ниже требуемойпользователем точности, то огрубление можно производить. Вот вариантыогрубляющих операций:
1.        В случае использования сигмоиднойнелинейной функции можно даже при непрерывнозначных входных сигналах нейронаперейти к описанию активации нейрона в терминах высокой (+1 или иное значение взависимости от конкретной нелинейной функции) или низкой (-1 или иное значение)активации. Для этого взвешенная сумма входных сигналов нейрона W1X1+W2X2+…+WnXnсравнивается со значением неоднородного входа нейрона W0и припревышении значения активация нейрона считается положительной, а иначе –отрицательной. Т.е. формируется единственное правило вида IF (W1X1+…+WnXn)>W0THEN Y=Yвысокая ELSEY=Yнизкая.
2.        В случае сигмоидной функциивозможно исследование вида функции распределения выходного сигнала нейрона ипри многомодальном распределении возможен переход к квантованию величинактивации по центрам кластеров [61,62].
3.        Для k выделенных кластеровактивации с центрами кластеров в точках Ui и k-1 граничнымизначениями активации Zij между кластерами i и j формируется правилов виде цепочки
IF (W1X1+ …+WnXn)
4.        При многомодальном распределениизначений величин активации нейрона с сигмоидной, пороговой или кусочно-линейнойфункцией возможна проверка различных гипотез касательно статистическиххарактеристик величин входных и промежуточных сигналов нейронной сети приразличных делениях обучающей выборки на фрагменты. Это делает возможным заменунекоторого числа продукционных правил на более простые правила. В качественачальной нелинейной функции нейрона может быть рассмотрена любая функция,имеющая непрерывную первую производную. Каждой конкретной функциисопоставляется набор ее негладких аппроксимаций в зависимости от последующихтребований семантики. Так, гауссова функция /> можетбыть в дальнейшем интерпретируема как нечеткая функция принадлежности иаппроксимируема прямоугольной, трапецеидальной или треугольной негладкойфункцией. Соответственно этому меняются описывающие нейрон правила и схемыогрубления. Здесь можно сделать следующие выводы:
-          Существует номенклатура видовизвлекаемых из сети элементарных правил.
-          Каждому виду извлекаемых правилможно сопоставить некоторый набор операций по упрощению сети, если из исходнойсети этот вид элементарных правил не извлекается.
-          Набор извлеченных элементарныхправил далее можно преобразовать в меньшее число более гибких и высокоуровневыхправил, поэтому не следует стремиться к первоначальному извлечениювысокоуровневых правил, тем более что сопоставленные с последними упрощающиеоперации либо будут полностью соответствовать упрощающим операциям дляполучения заданного вида элементарных правил, либо их будет трудно ввести.4.4. Приемы повышения вербализуемости нейронной сети
Под вербализуемостью сети и извлеченногоиз нее набора правил понимается понятность этих правил пользователю, если всезаданные критерии к виду правил уже удовлетворены на этапе извлечения правил.
Вербализацию можно проводить на основевизуального графического представления структуры сети и/или текстуальногопредставления набора правил, путем последовательного построениясимптом-синдромной структуры возникающих новых понятий предметной области[22,23,48,58]. Входные сигналы сети являются входными симптомами, выходныесигналы нейронов первого слоя – синдромами первого уровня и одновременносимптомами для нейронов второго слоя, генерирующих синдромы второго уровня, ит.д.
Рассмотрим идеи, которые могут помочь впроцессе извлечения знаний.4.4.1. Добавлениесиндрома в набор входных симптомов
Отдельныефрагменты сети будут достаточно просто интерпретируемы и правдоподобны с точкизрения пользователя, тогда как другим фрагментам пользователь может и не датьправдоподобной интерпретации. Поэтому поскольку интерпретированные синдромымогут быть в дальнейшем полезны, с точки зрения пользователя, для решениядругих задач предсказания и классификации на данной обучающей выборке, топользователь может добавить к выборке одну или несколько новых переменных — значений этих синдромов. Затем можно снова попытаться решить исходную задачу наоснове нового, увеличенного набора входных признаков. Полученная новаянейронная сеть окажется меньше по размеру, чем исходная и может быть болеепросто интерпретируемой [58].
Утверждение о более простой интерпретацииопирается на следующий факт: в слоистой нейросети синдром зависит только отсиндромов (симптомов) предыдущего уровня. Поэтому, если для синдрома некоторогоуровня требуется сигнал не с предыдущего уровня, то сеть должна включать в себяцепочку элементов для передачи требуемого сигнала к данному синдрому. Этацепочка строится, как несколько соединенных последовательно нейронов, чтозатрудняет интерпретацию. Вдобавок, на протяжении цепочки к ней могут «подключаться»другие сигналы. Если же для порождения синдрома доступен не только предыдущийуровень иерархии симптомов, но и все ранее полученные симптомы, то такихцепочек передачи информации создавать не придется.
Нейронная сеть с таким набором синапсов,что каждый входной сигнал сети и сигнал любого нейрона может подаваться на всенейроны следующих слоев, не формирует цепочек элементов для передачи информациичерез слои – эти элементы уже присутствуют в сети. Вдобавок, линии передачиинформации являются простыми линейными связями, а не суперпозицией функций,вычисляемых нейронами. Однако при такой архитектуре число синапсов в сетистановится очень большим по сравнению с числом синапсов в исходной слоистойсети, что удлиняет время приведения такой сети к логически прозрачному виду.4.4.2. Построениеиерархии продукционных правил
Точностьрешения задачи нейронной сетью регулируется целевой функцией, вычисляющейневязку между выходными сигналами сети и сигналами, которые требуется получить.Чем ниже требуемая точность, тем более простая и более логически прозрачнаясеть может решить задачу. Поэтому для задачи приведения сети к логическипрозрачному виду надо устанавливать минимально необходимые требования кточности.
Не все примеры сеть может решить содинаковой точностью – в таблице данных могут присутствовать примеры, которые струдом решаются сетью в то время как остальные примеры сеть решает хорошо.Причиной этого может быть некорректность поставленной задачи. Например, втаблицу данных входят примеры трех классов, а делается попытка обучить сетьклассификации на два класса. Другой причиной может быть, например, ошибкаизмерений.
Для того, чтобы обнаружить некорректностьв данных (либо в постановке задачи), предлагается исключать из таблицы данныхнаиболее “трудные” примеры (примеры с наибольшим значением функции оценки).Если сеть обучается правильно решать задачу и упрощается до довольно простойструктуры, то исключение примеров производить не надо – задача корректна. Впротивном случае можно предложить следующие варианты.
Зададимся требованием к числу правильнорешенных примеров. Допустим, что нас устроит правильность решения 95% от общегочисла примеров, присутствующих в таблице данных. Тогда построим процессобучения и упрощения сети так, чтобы сеть, правильно решающая 95% примеров,считалась правильно обученной решать задачу и, соответственно, упрощалась ссохранением навыка решения 95% примеров. При упрощении сети примеры, входящие всостав 5% наиболее трудных, могут меняться. После завершения процессаупрощения, если в итоге получилась сеть, гораздо более простая, чем полученнаядля всего набора примеров логически прозрачная сеть, необходимопроанализировать наиболее трудные примеры – там могут встретиться ошибки вданных (см., например, [17], стр. 14) либо эти примеры “нетипичны” по сравнениюс остальными.
Если же сеть с самого начала не можетобучиться правильно решать задачу, то будем исключать из таблицы данныхнаиболее трудные примеры до тех пор, пока сеть не сможет обучиться. Далее надоисследовать статистические различия между набором оставшихся и исключенныхданных – может обнаружиться, что отброшенные примеры образуют отдельныйкластер. Так было при решении задачи нейросетевой постановки диагнозавторичного иммунодефицита по иммунологическим и метаболическим параметрамлимфоцитов. Только коррекция классификационной модели (из отброшенных данныхсформировали третий класс в дополнение к двум изначально имевшимся) позволилаобучить сеть правильно решать теперь уже измененную задачу ([17], стр. 15-16).Далее это даст более простой набор решающих правил, т.к. ранее сеть былавынуждена фактически запоминать обучающую выборку, а теперь классификационнаямодель соответствует естественной внутренней кластерной структуре объектовпроблемной области.
Еще одна трудность может существовать припопытке решения задачи, для которой обратная задача некорректно поставлена внекоторых точках области определения – например, из-за того, что в этих точкахпроисходит смена описывающей данные зависимости. В зависимости от уровнянекорректности, на некотором наборе обучающих точек сеть будет давать большуюошибку обучения по сравнению с ошибкой на других точках. Исследование поведениячастной производной выходного сигнала сети по входному сигналу помогаетопределять области некорректности как границы смены вида решения. Если границырешения совпадают с примерами выборки с большой ошибкой обучения, то этоговорит о том, что некорректность действительно существует и исходная нейросетьне может аппроксимировать поведение фукнции в области некорректности стребуемой точностью. Требуемую точность можно достичь увеличением размера сети(с соответствующим усложнением процесса ее интерпретации), но это нежелательно.Поэтому предпочтительнее подход [53], связанный с переходом от единственнойсети к набору малых сетей, каждая из которых работает внутри своей областиопределения, а выбор той или иной сети осуществляется с помощью набора условныхправил, сравнивающих значения признаков примера выборки с границами решения.
Гибкое управление требуемой точностьюрешения примеров обучающей выборки или требуемым числом правильно решенныхпримеров позволяет предложить следующий механизм построения иерархическойструктуры правил вывода, от наиболее важных правил до уточняющих икорректирующих, как циклическое выполнение следующих этапов:
-          обучение сети до распознаваниязаданного числа примеров обучающей выборки (или до решения всех примероввыборки с заданной точностью),
-          упрощение сети,
-          извлечение правил,
-          фиксирование полученнойминимальной структуры сети,
-          возвращение в сеть удаленных наэтапе упрощения элементов,
-          увеличение требуемого числаправильно распознанных примеров (или усиление требований к точности) – наследующей итерации цикла это добавит к полученной минимальной структуренекоторое число элементов, которые и сформируют правила следующего уровнядетализации.4.4.3. Ручноеконструирование сети из фрагментов нескольких логически прозрачных сетей
Принципиально,что для одной и той же таблицы данных и различных сетей (либо одной сети, но сразной начальной случайной генерацией исходных значений набора настраиваемыхпараметров) после обучения, упрощения по единой схеме и вербализации можетполучиться несколько различных логически прозрачных сетей и, соответственно,несколько алгоритмов решения задачи. По конечной таблице данных всегда строитсянесколько полуэмпирических теорий или алгоритмов решения. Далее теории начинаютпроверяться и конкурировать между собой. Комбинируя фрагменты несколькихтеорий, можно сконструировать новую теорию. В силу этого неединственностьполучаемого знания не представляется недостатком.
При вербализации некоторые синдромыдостаточно осмысленны и естественны, другие, напротив, непонятны. Из наборалогически прозрачных нейросетей можно отсеять несколько наиболее осмысленныхсиндромов, объединить их в новую нейронную сеть, при этом введя, еслинеобходимо, некоторые дополнительные нейроны или синапсы для связывания этихфрагментов между собой. Полученная нейросеть после адаптации и упрощения можетбыть более понятна, чем любой из ее предков. Таким образом, неединственностьполуэмпирических теорий может стать ценным инструментом в рукахисследователей-когнитологов.
В отдельные программы-нейроимитаторывстроены специальные средства визуального конструирования нейросетей. Однакоручное конструирование сети с целью заложения в нее эмпирических экспертныхзнаний достаточно сложно и часто практически неприменимо.
Вместо конструирования нейросети «снуля» будем конструировать ее из фрагментов других сетей. Для реализациитакой возможности программа-нейроимитатор должна включать в себя достаточноразвитый визуальный редактор нейронных сетей, позволяющий вырезать из сетейотдельные блоки, объединять их в новую сеть и дополнять сеть новыми элементами.Это одна из возможностей нейроимитатора NeuroPro (идеяпредложена лично автором работы).
Если в результате дообучения и упрощенияновой сети понимаемость использованных при конструировании фрагментов непотеряна, то новый набор правил потенциально более понятен пользователю, чемкаждый из начальных.
Естественно,что возможны различные стратегии обучения и контрастирования сконструированнойсети: можно запрещать обучение (изменение параметров) и контрастированиефрагментов, из которых составлена сеть, и разрешать обучение и контрастированиетолько добавленных элементов. Можно разрешать только дообучать фрагменты, можноразрешать и их контрастирование. Все зависит от предпочтений пользователяпрограммы-нейроимитатора.

Глава5. Нейросетевой анализ структуры индивидуального пространства смыслов5.1. Семантический дифференциал
Словаосмысляются человеком не через «толковый словарь», а через ощущения,переживания. За каждым словом у человека стоит несколько этих базовыхпереживаний: собака — это что-то маленькое, добродушненькое, пушистое, с мокрымязычком, …, но это и здоровенный, грозно рычащий зверь со злобными глазами,огромными клыками, …. Большинство слов кодирует некоторые группы переживаний,ощущений, и определить смысл слова, то есть эти самые переживания – довольносложная задача.
Дж.Осгуд с соавторами в работе под названием “Измерение значений” ввели длярешения этой задачи метод “семантического дифференциала” (обзор литературы данв работе [86]). Они предложили искать координаты слова в пространстве свойствследующим образом. Был собран некоторый набор слов (например, «мама»,«папа» и т.д.) и набор признаков к этим словам (таких, как близкий — далекий, хороший — плохой, и т.д.), и опрашиваемые люди оценивали слова по этимшкалам. Затем отыскивался минимальный набор координат смысла, по которому можновосстановить все остальные. Было выделено 3 базовых координаты смысла, покоторым все остальные можно предсказать достаточно точно: сильный — слабый,активный — пассивный и хороший — плохой. С другой стороны, выявились огромныеразличия между культурами, например, у японцев и американцев очень многие вещиимеют существенно разные смысловые характеристики.
Существуют различные способы выделенияосновных признаков (базовых координат), например, метод главных компонент,факторный анализ и др. В данной работе используются нейросетевые методы.Разработка технологии сокращения описания и извлечения знаний из данных спомощью обучаемых и разреживаемых нейронных сетей началась в 90-е годы XXвека и к настоящему времени созданы библиотеки нейросетевых программ даже для PC,позволяющие строить полуэмпирические теории в различных областях.
В данной работе с помощью нейроимитатораисследовались индивидуальные смысловые пространства. Был создан вопросник, вкотором определяются координаты (от –10 до 10) 40 слов по 27 параметрам и былипроведены эксперименты на нескольких людях.
Слова:


Не сдавайте скачаную работу преподавателю!
Данный реферат Вы можете использовать для подготовки курсовых проектов.

Поделись с друзьями, за репост + 100 мильонов к студенческой карме :

Пишем реферат самостоятельно:
! Как писать рефераты
Практические рекомендации по написанию студенческих рефератов.
! План реферата Краткий список разделов, отражающий структура и порядок работы над будующим рефератом.
! Введение реферата Вводная часть работы, в которой отражается цель и обозначается список задач.
! Заключение реферата В заключении подводятся итоги, описывается была ли достигнута поставленная цель, каковы результаты.
! Оформление рефератов Методические рекомендации по грамотному оформлению работы по ГОСТ.

Читайте также:
Виды рефератов Какими бывают рефераты по своему назначению и структуре.