Реферат по предмету "Информатика, программирование"


Метод анализа главных компонентов регрессионной модели измерений средствами нейронных сетей

Дипломная работа
на тему
Методанализа главных компонентов регрессионной модели измерений средствами нейронныхсетей
 

Содержание
 
Список сокращений
Введение
1. Организация нейронныхсетей для вычисления дисперсионных характеристик случайных сигналов
1.1 Архитектуры нейронных сетей
1.2 Однослойные сети прямого распространения
1.3 Многослойные сети прямого распространения
1.4 Инварианты в структуре нейроннойсети
1.5 Анализ главных компонентовалгоритмами самообучения нейронных сетей
1.5.1 Структура анализа главныхкомпонентов
1.5.2 Основные представления данных
1.5.3 Матричная формулировкаалгоритма самообучения
1.5.4 Анализ главных компонентов наоснове фильтра Хебба
1.5.5 Исследование сходимости прирешении главной компоненты сигнала
1.5.6 Оптимальность обобщенногоалгоритма Хебба
1.5.7 Алгоритм GHA в сжатом виде
2. Оценка параметроврегрессионных уравнений при аппроксимации дисперсионных распределений методом АГК
2.1 Организация наблюдений ирегрессионные методы оценки параметров
2.2.1 Оценивание по конечному числунаблюдений
2.1.2 Оценки по методу наименьшихквадратов
2.2 Нейронные сети и статистическиехарактеристики
2.3 Различие нейронных сетей истатистики
2.4 Нейронные сети и статистическиеэкспертные системы
2.5 Сети интервальных нейронов
2.6 Сети и свойства численныхструктур регрессионного анализа
2.6.1 Идея сингулярного разложения матрицыданных
2.6.2 Линейный МНК
2.7 Нелинейные решения проблемстандартного МНК
2.7.1 Аппроксимация линейным или нелинейным МНК
2.7.2 Нелинейный МНК с использованием гессиана или без него
2.7.3 Нелинейный МНК как обратнаякоммуникация
2.8 Решение параметров регрессионногоуравнения с использованием аппроксимации ковариационной матрицы по данным ГКпри обучении НС
Заключение
Библиографический списокиспользованной литературы
 

Список сокращений
 
АГК – анализ главныхкомпонент;
БД – база данных;
ИТ – информационныетехнологии;
МНК – метод наименьших квадратов;
НС – нейронные сети;
ОС – операционнаясистема;
ПК – персональный компьютер;
ПО – программноеобеспечение;
ЦОС – цифровая обработкасигналов;
ЭВМ – электронная вычислительнаямашина;
 

Введение
 
Одно из современныхнаправлений технических исследований – поиск адаптивных методов адаптации иформул нейронных сетей к традиционным задачам цифровой обработки сигналов(анализ Фурье, свертка) и регрессионному анализу (МНК и его модификации).Причем данные задачи НС решает путем перевода пространства данных впространство признаков, фактически изменяя входные размерности и формируягиперпространства для поиска решения. НС имеет универсальную структуру, что бынапрямую моделировать решение задач ЦОС и ряд косвенных методов полученияхарактеристик стохастических сред, которые потом можно использоватьтрадиционными способами оценки параметров регрессионных моделей на основесвойств отношения корреляций и спектров исходных регрессий.
Формирование пространствапризнаков с помощью унарных операторов, или их вещественных аналогов –ортогональных операторов (при ограниченной Евклидовой норме) – это основнаяособенность нейронных сетей, отличающая результат ее решений от методов ЦОС,регрессионного и спектрального анализа. Подобия их решений сеть находит наэлементах анализа в пространстве признаков и самый простой способ обучения сетиработает эффективней, чем, например, классический метод ЦОС при попытке того жеразделения данных на признаки. Только специфичная формула сети прямогораспространения способна с минимальной трудностью для алгоритмов ЭВМ построитьсистему независимых подмножеств – ортогональных подпространств собственных векторов,образующих совокупность унарных операторов преобразования пространства данных впространство признаков той же или отличной размерности. Это принципиальноеотличие НС от методов регрессионного анализа, у которых унарный операторзависит от характеристик исходной среды и строится, например, минимизациейЕвклидовой нормы вектора ошибки. Вектор имеет размерность только входногопространства данных, а условия для критерия его минимизации часто оказываютсятривиальными, а отклонения, например в сторону корреляции нормируемых помех,уже приводит к несостоятельному результату оценки параметров или матрицакорреляции данных, являющаяся основой минимизируемого функционала ошибки,становится вырожденной. В свою очередь, НС, преобразует пространство данных впространство признаков, выполняя задачу статистического распознавания. Каждыйпризнак на выходе нейрона получает собственный набор ортогональных векторов ввиде весов этого нейрона, значения всех признаков в ортонормированных базисах такжевзаимно ортогональны. Это следует понимать как разложение исходногопространства данных в прямую сумму собственных подпространств, где собственнымивекторами являются веса нейронов, а собственными числами – значении их выходовпосле стадии самообучения. Эта общность на уровне линейных пространств способнапорождать множество задач в области прикладного анализа в различныхдисциплинах, с той разницей, что стадия анализа в НС наряду с компонентоманализа вычисляет совокупность собственных подсистем векторов в качествеунарного оператора, или ортогонального матричного оператора, например в видеограниченной Евклидовой нормы.
Главной задачей встатистическом распознавании является выделение признаков или извлечениепризнаков. Под выделением признаков понимается процесс, в котором пространстводанных преобразуется в пространство признаков, теоретически имеющее ту жеразмерность, что и исходное пространство. Однако обычно преобразованиявыполняются таким образом, чтобы пространство данных могло быть представленосокращенным количеством «эффективных» признаков. Это актуально и длярегрессионных сред, где часть «незначащих» дисперсий ковариационной матрицыданных могут быть значительно меньше дисперсии помех, что приводит кнесостоятельной оценке параметров регрессионных моделей. По существу цель преобразованиястохастической среды в пространство признаком можно разделить на двасущественных направления: выделение характеристик среды для методовкорреляционного и дисперсионного анализа; изменение размерности исходных данныхсреды с потерей несущественных признаков в плане минимума их среднеквадратичнойошибки. Эти два направления должны выполнить задачу обеспечения регрессионныхметодов невырожденными унитарными операторами, когда априорной информации обошибках измерений недостаточно или она трудно извлекаема из исходных данныхсреды.
Анализ главныхкомпонентов осуществляет выделение главных признаков на этапе анализа;сокращает размерности, игнорируя незначащие величины признаков; при синтезеисходных данных проводит линейное преобразование, при котором сокращение будетоптимальным в смысле среднеквадратической ошибки. При осуществлении метода НСна исходных данных стохастической среды, собственными числами (выход нейрона)являются распределения дисперсий, собственные вектора (веса нейрона) – ортонормированнаясистема собственного числа, образующая с ним собственное подпространство, гдепутем настройки ориентации весов решается задача экстремума для дисперсии. Совокупностидисперсий образуют диагональную матрицу – численный аналог корреляционной матрицыисходных данных, а совокупность весовых собственных подпространств формируетунарный, в вещественном смысле ортогональный, оператор. Матричное произведениеортонормированной системы и входной реализации случайной величины анализируютглавные компоненты признаков, а дуальная операция признаков относительноортогональной матрицы воссоздает исходный вектор данных стохастической среды.При этом выделяются главные признаки в дисперсионном распределении(диагональный оператор собственных чисел) при свойстве маленькой дисперсииотдельных компонентов. Таким образом, АКГ максимизирует скорость уменьшения дисперсиии вероятность правильного выбора. Алгоритмы обучения НС, основанные напринципах Хебба, после стадии самообучения НС осуществляют анализ главныхкомпонентов интересующего вектора данных. Основным объектом АГК длярегрессионного и дисперсионного анализа являются дисперсионные распределения,полученные дисперсионным зондом при настройке собственных подпространств в видевесов НС. Но, в отличие от критерия минимизации регрессионных методов, здесьприменяется критерий определения таких единичных векторов из совокупности весовнейрона, для которых дисперсионный зонд принимает экстремальные значения. Посленастройки весов однослойной сети имеется решение – диагональная матрица,состоящая из собственных значений корреляционной матрицы данных (ортогональноепреобразование подобия) и ортогональная матрица из объединения собственныхвекторов. Матричное произведение этих объектов приводит к результату, илиполучению числового оригинала дисперсий – корреляционной матрицы данных. Тоесть сама матрица корреляции может быть выражена в терминах своих собственныхвекторов и собственных значений по выражению спектральной теоремы.Преобразование подобия, спектральные операции синтеза данных являются темиобщностями, на которые следует обратить внимание при регрессионноммоделировании, если традиционные методы при малости априорной информации непозволяют получить достаточный объем данных из характеристик стохастическойсреды.
Еще раз уточним различиепринципов АГК и оценивания параметров статистических регрессионных моделей вдостижении одной цели – получения характеристик стохастических сред, вособенности наиважнейшей из них – корреляционной функции входного пространстваданных. Именно разница принципов позволяет достигать результата при нехваткеаприорной информации – если мала априорная информация о помехах, то решениеобращается к дисперсионным моделям случайных реализаций с их собственнымортонормированным пространством.
• Проекции дисперсийреализации случайной величины в ортонормированном векторном пространстве помехдолжны быть минимальны. Тем самым минимизируется корреляция аддитивных помех свыходом модели. Преимущество подхода – исследуется только модель шума, физическаяприрода полезного сигнала игнорируется. При этом параметры подбираютсястохастически и функция оценки имеет определенный тип распределения.
• При АГК наоборотучитывается корреляционная модель сигнала, определяется ортогональный оператортаким образом, что бы проекции коэффициентов, предоставляемые корреляционнойматрицей, были максимальны. Тогда на выходе нейронов в пространстве признаковформируются скаляры – дисперсии исходных реализаций случайной величины, илисобственные числа корреляционной матрицы. Это преобразование подобия –результат самообучения сети, по результату которого возможно спектральноевоссоздание корреляционной матрицы с максимальными дисперсиями в пространстведанных. Это и есть противоположность минимальной дисперсии данных в ортонормированномпространстве вектора помех. Максимум дисперсий данных в АГК и минимумфункционала ошибки регрессионных линейных статических методов способствуютсостоятельным оценкам решения.
Теперь можно сделать выводы, касающиеся продукциианализа главных компонентов по отношению к регрессионному анализу.
• Собственные векторы матрицы корреляции случайноговектора данных с нулевым средним определяют настраиваемые веса НС; онипредставляют основные направления, вдоль которых дисперсионный зонд (выходанейронов) принимает экстремальные значения.
• Экстремальные значения дисперсионного зонда – этособственные числа корреляционной матрицы входных данных; последовательностьчисел образует преобразование подобия этой матрицы в виде диагональногооператора.
Формально результат анализа – это проекции вектораданных на основные направления, представленные единичными векторами в видевесов каждого нейрона НС. Эти проекции называются главными компонентами и ихколичество соответствует размерности вектора данных.
Итак, выбрав тему работы на принципах АГК, нужнопредставлять выполняемые задачи как проблемы математического анализа награничном пересечении технологий и методов корреляционной оценки параметровстохастических моделей и адаптивных алгоритмов пространственных преобразований.Для основного объема работы следует выбрать три формулы АГК на базеортогонального оператора, полученного средствами НС.
• Формула ортогонального преобразования полученияподобия корреляционной матрицы данных – диагонального оператора из дисперсийпространства данных.
• Формула анализа – вычисление проекции векторареализации случайной величины в каждой ортогональной подсистеме собственныхвекторов.
• Спектральная формула синтеза ковариационной матрицыпо исходной реализации случайного вектора данных.
Формула синтеза исходных данных с сокращениемразмерности может не приниматься во внимание, так как она в основном относитсяк задачам распознавания образов в пространстве признаков; проблема текущей темы– расчет скалярных и векторных величин в пространстве признаков НС для решенияплохо обусловленных задач регрессионного анализа.
Актуальность работы:возможность использования эффективных численных методов на алгоритмах ЭВМ прирешении регрессионных методов, но в условиях дефицита априорной информации опомехах.
Целю работы является разработка технологии применения метода АГК врешении плохо обусловленных задач статического регрессионного анализа.
Основные задачи, определенные в соответствии с поставленной цельюквалификационной работы:
– анализ существующихметодов идентификации статических моделей статистических объектов;
– анализ основных проблемрешения регрессионных задач линейными методами при дефиците априорнойинформации о помехах;
– изучениепространственных характеристик АГК и структур НС при обработке имистохастических сред;
– создание на основе выявленных критериев состоятельности методов АГКописания принципов адаптации АГК к проблемам регрессионного анализа;
– модернизация классических технологий получения дисперсионныххарактеристик стохастических сред алгоритмами самообучения НС в пространствепризнаков;
– составление алгоритмов на основе АГК, содействующие регрессионномуанализу, тесты эталонных моделей с истинными параметрами;
– составление рядарекомендаций по использованию разработанных адаптивных алгоритмов скорреляционными методами получения оценок для регрессионных моделей.

1. Организациянейронных сетей для вычисления дисперсионных характеристик случайных сигналов
 
1.1Архитектура сетей
Структуранейронных сетей тесно связана с используемыми алгоритмами обучения.Классификация алгоритмов обучения будет приведена в следующей главе, а вопросыих построения будут изучены в последующих главах. В данном разделе мысосредоточим внимание на архитектурах сетей (структурах).
В общем случаеможно выделить три фундаментальных класса нейросетевых архитектур.
 
1.2Однослойные сети прямого распространения
В многослойнойнейронной сети нейроны располагаются по слоям. В простейшем случае в такой сетисуществует входной слой (input layer) узловисточника, информация от которого передается на выходной слой (output layer) нейронов (вычислительные узлы), но не наоборот.Такая сеть называется сетью прямого распространения (feedforward) или ацикличной сетью (acyclic). На рис. 1.1 показана структуратакой сети для случая четырех узлов в каждом из слоев (входном и выходном).Такая нейронная сеть называется однослойной (single-layer network), при этомпод единственным слоем подразумевается слой вычислительных элементов(нейронов). При подсчете числа слоев мы не принимаем во внимание узлыисточника, так как они не выполняют никаких вычислений.
 

1.3Многослойные сети прямого распространения
Другойкласс нейронных сетей прямого распространения характеризуется наличием одногоили нескольких скрытых слоев (bidden layer), узлыкоторых называются скрытыми нейронами (hidden neuron), или скрытыми элементами (hidden unit). Функция последних заключается в посредничествемежду внешним входным сигналом и выходом нейронной сети. Добавляя один илинесколько скрытых слоев, мы можем выделить статистики высокого порядка.
/>
Рисунок1.1 — Сеть прямого распространения с одним слоем нейронов
Такаясеть позволяет выделять глобальные свойства данных помощью локальных соединенийза счет наличия дополнительных синаптических связей и повышения уровнявзаимодействия нейронов. Способность скрытых нейронов выделять статистическиезависимости высокого порядка особенно существенна, когда размер входного слоя достаточновелик.
Узлыисточника входного слоя сети формируют соответствующие элементы шаблонаактивации (входной вектор), которые составляют входной сигнал, поступающий нанейроны (вычислительные элементы) второго слоя (т.е. первого скрытого слоя).Выходные сигналы второго слоя используются в качестве входных для третьего слояи т.д. Обычно нейроны каждого из слоев сети используют в качестве входныхсигналов выходные сигналы нейронов только предыдущего слоя. Набор выходныхсигналов нейронов выходного (последнего) слоя сети определяет общий отклик сетина данный входной образ, сформированный узлами источника входного (первого)слоя. Сеть, показанная на рис. 1.1, называется сетью 10-4-2, так как она имеет10 входных, 4 скрытых и 2 выходных нейрона. В общем случае сеть прямогораспространения с m входами, h1нейронами первого скрытого слоя, h2 нейронами второго скрытого слоя и q нейронами выходного слоя называется сетью m — h1— h2—q-
Нейроннаясеть, показанная на рис. 1.1, считается полносвязной (fully connected) в том смысле, что все узлы каждогоконкретного слоя соединены со всеми узлами смежных слоев. Если некоторые изсинаптических связей отсутствуют, такая сеть называется неполносвязной (partially connected).
 
1.4Инварианты в структуре нейронной сети
Рассмотримследующие физические явления.
•  Если исследуемый объект вращается, тосоответствующим образом меняется и его образ, воспринимаемый наблюдателем.
•  В когерентном радаре, обеспечивающеминформацию об амплитуде и фазе источников окружающей среды, эхо от движущегосяобъекта смещено по частоте. Это связано с эффектом Доплера, который возникаетпри радиальном движении объекта наблюдения относительно радара.
•  Диктор может произносить слова кактихим, так и громким голосом, как медленно, так и скороговоркой.
Для тогочтобы создать систему распознавания объекта, речи или эхо-локации, учитывающуюявления такого рода, необходимо принимать во внимание диапазон трансформаций (transformation) наблюдаемого сигнала.Соответственно основным требованием при распознавании образов является созданиетакого классификатора, который инвариантен к этим трансформациям. Другимисловами, на результат классификации не должны оказывать влияния трансформациивходного сигнала, поступающего от объекта наблюдения.
Существуюткак минимум три приема обеспечения инвариантности нейронной сети классификациик подобным трансформациям.
1. Структурнаяинвариантность (invariance by structure). Инвариантность может бытьпривнесена в нейронную сеть с помощью соответствующей структуризации. В частности,синаптические связи между отдельными нейронами сети строятся таким образом,чтобы трансформированные версии одного и того же сигнала вызывали один и тот жевыходной сигнал. Рассмотрим для примера нейросетевую классификацию входногосигнала, которая должна быть инвариантна по отношению к плоскому вращениюизображения относительно своего центра. Структурную инвариантность сетиотносительно вращения можно выразить следующим образом. Пусть Wji — синаптический вес нейрона j, связанного с пикселем i входного изображения. Если условие Wji = Wjk выполняетсядля всех пикселей j и k, лежащих на равном удалении от центра изображения, нейроннаясеть будет инвариантной к вращению. Однако, для того чтобы обеспечитьинвариантность относительно вращения, нужно дублировать синаптические веса Wji всех пикселей, равноудаленных отцентра изображения. Недостатком структурной инвариантности является то, чтоколичество синаптических связей изображения даже среднего размера будетчрезвычайно велико.

/>/>
Рисунок1.2 — Диаграмма системы, использующей пространство инвариантных признаков
2.Инвариантность по обучению (invariance by training). Нейронные сети обладаютестественной способностью классификации образов. Эту способность можноиспользовать для обеспечения инвариантности сети к трансформациям. Сетьобучается на множестве примеров одного и того же объекта, при этом в каждомпримере объект подается в несколько измененном виде (например, снимки с разныхракурсов). Если количество таких примеров достаточно велико и если нейроннаясеть обучена отличать разные точки зрения на объект, можно ожидать, что эти данныебудут обобщены и сеть сможет распознавать ракурсы объекта, которые неиспользовались при обучении. Однако с технической точки зрения инвариантностьпо обучению имеет два существенных недостатка. Во-первых, если нейронная сетьбыла научена распознавать трансформации объектов некоторого класса, совсем необязательно, что она будет обладать инвариантностью по отношению ктрансформациям объектов других классов. Во-вторых, такое обучение являетсяочень ресурсоемким, особенно при большой размерности пространства признаков.
3. Использованиеинвариантных признаков (invariant featurespace). Третий метод созданияинвариантного нейросетевого классификатора проиллюстрирован на рис. 1.2. Оносновывается на предположении, что из входного сигнала можно выделить информативныепризнаки, которые описывают самую существенную информацию, содержащуюся внаборе данных, и при этом инвариантны к трансформациям входного сигнала. Прииспользовании таких признаков в нейронной сети не нужно хранить лишний объеминформации, описывающей трансформации объекта. В самом деле, при использованииинвариантных признаков отличия между разными экземплярами одного и того жеобъекта могут быть вызваны только случайными факторами, такими как шум.Использование пространства инвариантных признаков имеет три важныхпреимущества. Во-первых, уменьшается количество, признаков, которые подаются внейронную сеть. Во-вторых, ослабляются требования к структуре сети. И,в-третьих, гарантируется инвариантность всех объектов по отношению к известнымтрансформациям. Однако этот подход требует хорошего знания специфики проблемы.
Итак, извышесказанного можно сделать вывод, что использование инвариантных признаковявляется наиболее подходящим методом для обеспечения инвариантностинейросетевых классификаторов.
/>
/>
Рисунок1.3 — Модель авторегрессии второго порядка: модель фильтра на линии задержки сотводами (а) и модель решетчатого фильтра (б).
Чтобыпроиллюстрировать идею пространства инвариантных признаков, рассмотрим вкачестве примера систему когерентного радара, используемую авиадиспетчерами, вовходном сигнале которой может содержаться информация, поступающая от самолетов,стаи птиц и некоторых погодных явлений. Сигнал радара, отраженный от различныхцелей, имеет разные спектральные характеристики. Более того, экспериментальныеисследования показали, что сигнал такого радара можно промоделировать с помощьюавторегрессионного процесса (AR-процесса)среднего порядка (autoregressive process of moderate order). AR-процесспредставляет собой особый вид регрессионной модели, описываемой следующимобразом:
/>                       (1.1)
где />— коэффициенты (coefficient) авторегрессии; М — порядок модели (model order); x(n) — входной сигнал (input signal); e(n) — помеха (error), представляющая собой белый шум. Модель, описаннаяформулой (1.1), представляет собой фильтр на линии задержки с отводами (tapped-delay-line filter),показанный на рис. 1.3, а для М = 2. Аналогично, ее можно представить как решетчатыйфильтр (lattice filter), показанный на рис. 1.3, б, коэффициенты которогоназываются коэффициентами отражения (reflection coefficient). Между коэффициентами авторегрессии (рис. 1.3, а) и коэффициентамиотражения (рис. 1.3, б) существует однозначное соответствие. В обеих моделяхпредполагается, что входной сигнал x(n) является комплексной величиной (какв случае с когерентным радаром), в которой коэффициенты авторегрессии икоэффициенты отражения также являются комплексными. Звездочка в выражении (1.1)и на рис. 1.3 обозначает комплексное сопряжение. Здесь важно подчеркнуть, чтоданные когерентного радара можно описать множеством коэффициентов авторегрессииили соответствующим ему множеством коэффициентов отражения. Последнее имеетопределенные преимущества в плане сложности вычислений. Для него существуютэффективные алгоритмы получения результата непосредственно из входных данных.Задача выделения признаков усложняется тем фактом, что движущиеся объектыхарактеризуются переменными доплеровскими частотами, которые зависят от скоростиобъекта относительно радара и создают искажения в спектре коэффициентовотражения, по которым определяются признаки. Для того чтобы обойти этусложность, в процессе вычисления коэффициентов отражения следует использовать инвариантностьДоплера (Doppler invariance). Угол фазы первого коэффициентаотражения принимается равным доплеровской частоте сигнала радара.Соответственно для всех коэффициентов выполняется нормировка относительнодоплеровской частоты, устраняющая влияние сдвига доплеровской частоты. Дляэтого определяется новое множество коэффициентов отражения кm, связанных с множеством исходныхкоэффициентов отражения Кmследующим соотношением:
/>                     (1.2)
где q — фазовый угол первого коэффициентаотражения. Операция, описанная выражением (1.2), называется гетеродинированием (heterodyning). Исходя из этого, набор инвариантныхк смещению Доплера признаков (Doppler-invariant radar feature) представляется нормированными коэффициентамиотражения к'1, к'2, ..., />-где />— единственный коэффициент этого множества свещественным значением. Как уже отмечалось, основными категориями объектов,выделяемых радарной установкой, являются стаи птиц, самолеты, погодные явленияи поверхность земли. Первые три категории объектов являются движущимися, в товремя как последняя — нет Гетеродинные спектральные параметры эха радара отземли аналогичны соответствующим параметрам эха от самолета. Отличить эти двасигнала можно по наличию у эха от самолета небольшого смещения Доплера.Следовательно, классификатор радара должен содержать постпроцессор. Он обрабатываетрезультаты классификации с целью идентификации класса земли. Препроцессор (preprocessor) обеспечивает инвариантностьпризнаков по отношению к смещению Доплера, в то время как постпроцессор используетсмещение Доплера для разделения объектов «самолет» и«земля» в выходном сигнале.
 
1.5Анализ главных компонентов алгоритмами самообучения нейронных сетей
Главнойзадачей в статистическом распознавании является выделение признаков (feature selection) или извлечение признаков (feature extraction). Под выделением признаковпонимается процесс, в котором пространство данных (data space) преобразуется в пространство признаков (feature space), теоретически имеющее ту же размерность, что иисходное пространство. Однако обычно преобразования выполняются таким образом,чтобы пространство данных могло быть представлено сокращенным количеством«эффективных» признаков. Таким образом, остается только существеннаячасть информации, содержащейся в данных. Другими словами, множество данныхподвергается сокращению размерности (dimensionality reduction). Для большей конкретизациипредположим, что существует некоторый вектор х размерности т, который мы хотимпередать с помощью i чисел, где i
Пусть X — m-мерный случайный вектор, представляющий интересующую нассреду. Предполагается, что он имеет нулевое среднее значение
/>,
гдеE — оператор статистического ожидания. Если X имеет ненулевое среднее, можно вычестьэто значение еще до начала анализа. Пусть q—единичный вектор (unit vector)размерности т, на который проектируется вектор X. Эта проекция определяется как скалярное произведениевекторов X и q:
/>                        (1.3)
приограничении
/>                        (1.4)
ПроекцияА представляет собой случайную переменную со средним значением и с дисперсией,связанными со статистикой случайного вектора X. В предположении, что случайный вектор X имеет нулевое среднее значение,среднее значение его проекции А также будет нулевым:
/>

Такимобразом, дисперсия А равна
/>             (1.5)
Матрица R размерности т х т является матрицейкорреляции случайного вектора X.определяемой как ожидание произведения случайного вектора X самого на себя:
/>                                                                     (1.6)
Матрица R является симметричной, т.е.
/>                                                                           (1.7)
Из этогоследует, что если а и b —произвольные векторы размерности т х 1, то
/>                                                                  (1.8)
Извыражения (1.5) видно, что дисперсия /> 2 проекции А является функцией единичного вектора q. Таким образом, можно записать:
/>                                                         (1.9)
наосновании чего ψ(q) можно представить как дисперсионныйзонд (variance probe).
 

1.5.1Структура анализа главных компонентов
Следующимвопросом, подлежащим рассмотрению, является поиск тех единичных векторов q, для которых функция ψ(q) имеет экстремальные или стационарные значения (локальныемаксимумы и минимумы) при ограниченной Евклидовой норме вектора q. Решение этой задачи лежит всобственной структуре матрицы корреляции R. Если q —единичный вектор, такой, что дисперсионный зонд ψ(q)имеет экстремальное значение, то для любого возмущения 6q единичного вектора q выполняется!
/>                                                          (1.10)
Изопределения дисперсионного зонда можем вывести следующее соотношение:
/>,
где вовторой строке использовалось выражение (1.8). Игнорируя слагаемое второгопорядка (δq)TRδq и используя определение (1.9), можнозаписать следующее:
/>     (1.11)
Отсюда,подставляя (1.10) в (1.11), получим:
/>,                                                                (1.12)
Естественно,любые возмущения δqвектора q нежелательны; ограничим их толькотеми возмущениями, для которых норма возмущенного вектора q+δq остается равной единице, т.е.

/>
или, чтоэквивалентно,
/>,
Исходяиз этого, в свете равенства (1.4) требуется, чтобы для возмущения первогопорядка δq выполнялось соотношение
/>                                                                     (1.13)
Этозначит, что возмущения δqдолжны быть ортогональны вектору q и,таким образом, допускаются только изменения в направлении вектора q.
Согласносоглашению, элементы единичного вектора q являются безразмерными в физическом смысле. Таким образом,можно скомбинировать (1.12) и (1.13), введя дополнительный масштабирующий множительl, в последнееравенство с той же размерностью, что и вхождение в матрицу корреляции R. После этого можно записатьследующее:
/>,
или,эквивалентно,
/>,                         (1.14)
Для тогочтобы выполнялось условие (1.14), необходимо и достаточно, чтобы

/>                                             (1.15)
Это —уравнение определения таких единичных векторов q, для которых дисперсионный зонд ψ (q)принимает экстремальные значения.
Вуравнении (1.15) можно легко узнать задачу определения собственных значений (eigenvalue: problem) из области линейной алгебры. Эта задача имеетнетривиальные решения (т.е. q ≠ 0) только для некоторых значений l, которые называются собственными значениями (eigenvalue) матрицы корреляции R. При этом соответствующие векторы q называют собственными векторами (eigenvector). Матрица корреляции характеризуетсядействительными, неотрицательными собственными значениями. Соответствующиесобственные векторы являются единичными (если все собственные значенияразличны). Обозначим собственные значения матрицы R размерности т х т как l1, l2,,.., lm, а соответствующие им собственные векторы -q1, q2,...,qm соответственно.Тогда можно записать следующее:
/>                     (1.16)
Пустьсоответствующие собственные значения упорядочены следующим образом:
/> ,                (1.17)
При этомl1 будет равно lmax. Пусть из соответствующихсобственных векторов построена следующая матрица размерности т х т:
/>                  (1.18)

Тогдасистему т уравнений (1.16) можно объединить в одно матричное уравнение:
/>                                            (1.19)
где А —диагональная матрица, состоящая из собственных значений матрицы R:
/>            (1.20)
Матрица Q является ортогональной (унитарной) втом смысле, что векторы-столбцы (т.е. собственные векторы матрицы R) удовлетворяют условиюортогональности:
/>                                  (1.21)
Выражение (1.21)предполагает, что собственные значения различны. Эквивалентно, можно записать:
/>
из чегоможно заключить, что обращение матрицы Q эквивалентно ее транспонированию:
/>                                           (1.22)
Этозначит, что выражение (8.17) можно переписать в форме, называемой ортогональнымпреобразованием подобия (orthogonal similarity transformation):
/>                                         (1.23)
или врасширенной форме:
/>                             (1.24)
Ортогональноепреобразование подобия (1.23) трансформирует матрицу корреляции R в диагональную матрицу, состоящую изсобственных значений. Сама матрица корреляции может быть выражена в терминахсвоих собственных векторов и собственных значений следующим образом:
/>                                 (1.25)
Это выражение называют спектральнойтеоремой (spectral theorem). Произведение векторов />имеет ранг 1 для всех i.
Уравнения(1.23) и (1.25) являются двумя эквивалентными представлениями разложения пособственным векторам (eigencomposition) матрицы корреляции R.
Анализглавных компонентов и разложение по собственным векторам матрицы R являются в сущности одним и тем же;различается только подход к задаче. Эта эквивалентность следует из уравнений(1.9) и (1.25), из которых ясно видно равенство собственных значений идисперсионного зонда, т.е.
/>                  (1.26)
Теперьможно сделать выводы, касающиеся анализа главных компонентов.
•  Собственные векторы матрицыкорреляции R принадлежат случайному вектору X с нулевым средним значением иопределяют единичные векторы q j, представляющие основныенаправления, вдоль которых дисперсионный зонд Ψ(qj)принимает экстремальные значения.
•  Соответствующие собственные значенияопределяют экстремальные значения дисперсионного зонда Ψ(uj)
 
1.5.2Основные представления данных
Пусть векторданных х является реализацией случайного вектора X.
Приналичии т возможных значений единичного вектора q следует рассмотреть т возможных проекций вектора данных х. Вчастности, согласно формуле (1.3)
/>                                      (1.27)
где aj — проекции вектора х на основные направления, представленныеединичными векторами qj.Эти проекции aj- называют главными компонентами (principal component). Их количество соответствуетразмерности вектора данных х. При этом формулу (1.27) можнорассматривать как процедуру анализа (analysis).
Для тогочтобы восстановить вектор исходных данных х непосредственно из проекций aj, выполним следующее. Прежде всего объединим множество проекций{ aj | j = 1,2,..., m} в единый вектор:
/>    (1.28)
Затемперемножим обе части уравнения (1.28) на матрицу Q, после чего используем соотношение (1.22). В результатеисходный вектор данных х будет реконструирован в следующем виде:

/>                                             (1.29)
который можнорассматривать как формулу синтеза. В этом контексте единичные векторы qj будут представлять собой пространства данных. И в самом деле,выражение (1.29) является не чем иным, как преобразованием координат, всоответствии с которым точки х пространства данных преобразуются всоответствующие точки а пространства признаков.
 
1.5.3 Матричнаяформулировка алгоритма самообучения
Дляудобства выкладок введем следующие обозначения:
/>                          (1.30)
и
/>                       (1.31)
Входнойвектор x(n) и вектор синаптических весов w(n) обычно являются реализациями случайных векторов. Используяэто векторное представление, выражение (1.26) можно переписать в формескалярного произведения:
/>                                    (1.32)
Аналогично,выражение (1.30) можно переписать в следующем виде:
/>                (1.33)

Подставляя(1.32) в (1.33), получим:
/> (1.34)
Алгоритмобучения (1.34) представляет собой нелинейное стохастическое разностноеуравнение (nonlinear stochasticс difference equation), которое делает анализ сходимостиэтого алгоритма сложным с математической точки зрения. Для того чтобыобеспечить базис для анализа сходимости, немного отвлечемся от поставленнойзадачи и обратимся к общим методам анализа сходимости стохастических алгоритмоваппроксимации.
 
1.5.4Анализ главных компонентов на основе фильтра Хебба
Описанныйв предыдущем разделе фильтр Хебба извлекает первый главный компонент извходного сигнала. Линейная модель с одним нейроном может быть расширена до сетипрямого распространения с одним слоем линейных нейронов с целью анализа главныхкомпонентов для входного сигнала произвольной размерности.
Длябольшей конкретизации рассмотрим сеть прямого распространения, показанную нарис. 8.6. В ней сделаны следующие допущения относительно структуры:
1. Все нейроны выходного слоя сетиявляются линейными.
2. Сеть имеет т входов и I выходов. Более того, количество выходов меньше количествавходов (т.е. I
Обучениюподлежит только множество синаптических. весов {wji}, соединяющих узлы iвходногослоя с вычислительными узлами j выходного слоя,где i = l,2,...,m; j = 1,2,..., l.
Выходнойсигнал уi, (п) нейрона j в момент времени п, являющийся откликом на множество входныхвоздействий {xi(п) i = 1,2,...,m}, определяется по следующей формуле(рис. 8.7, а):
/>                                     (1.35)
Синаптическийвес wji(n) настраиваетсяв соответствии с обобщенной формой правила обучения Хебба:
/> (1.36)
где wji(n) — коррекция,применяемая к синаптическому весу wji(n) в момент времени n; η — параметр скорости обучения. Обобщенный алгоритм обучения Хеббa (generalized Hebbian algorithm — GHA) (1.36) для слоя из l нейронов включает в себе алгоритм (8.39) для одного нейрона вкачестве частного случая, т.е. для l = 1.
Для тогочтобы заглянуть вглубь обобщенного алгоритма обучения Хебба, перепишемуравнение (8.80) в следующем виде:
/>      (1.37)
где х/>(п)— модифицированная версия i-гоэлемента входного вектора х(n),являющаяся функцией индекса j, т.е.
/>                               (1.38)

Дляконкретного нейрона j алгоритм, описанный выражением(1.37), имеет ту же математическую форму, что и (8.39), за исключением тогофакта, что в (1.38) входной сигнал xi(n) заменен его модифицированным значением х/>(n). Теперь можно сделать следующий шаг и переписатьвыражение (1.37) в форме, соответствующей постулату обучения Хебба:
/>                        (1.39)
где
/>              (1.40)
Такимобразом, принимая во внимание
/>          (1.41)
и
/>                     (1.42)
где z-1 — оператор единичной задержки, можно построить графпередачи сигнала показанный на рис. 1.4, б, для обобщенного алгоритма Хебба. Изэтого графа видно,

/>
Рисунок 1.4- Представление обобщенного алгоритма Хебба в виде графа передачи сигнала: графуравнения (1.35) (а); граф выражений (1.36), (1.37) (б)
что самалгоритм (согласно его формулировке в (1.41)) базируется на локальной формереализации. Учтем также, что выход уi(n), отвечающий за обратную связь награфе передачи сигнала (см. рис. 1.4, б), определяется по формуле (1.35).Представление Для эвристического понимания того, как обобщенный алгоритм Хеббаработает на самом деле, в первую очередь запишем версию алгоритма (1.37) вматричном представлении:
/>      (1.43)
где
/>                                           (1.44)

Вектор х'(п)представляет собой модифицированную форму входного вектора. Основываясь напредставлении (1.43), можно сделать следующие наблюдения. Для первого нейронасети прямого распространения:
/>
Дляэтого случая обобщенный алгоритм Хебба сводится к виду (1.33), записанному дляодиночного нейрона. Из материала, представленного в разделе 1.5.4, известно,что этот нейрон извлекает первый основной компонент входного вектора х(п).
1. Длявторого нейрона сети можно записать:
/>
Учитывая,что первый нейрон уже извлек первый главный компонент, второй нейрон видитвходной вектор x'(n), из которого уже удален первыйсобственный вектор матрицы корреляции R. Таким образом, второй нейрон извлекает первый главный компонент х'(n), что эквивалентно второму главномукомпоненту исходного входного вектора х(n).
2. Длятретьего нейрона можно записать:
/>
Предположим,что первые два нейрона уже сошлись к первому и второму главным компонентам.Значит, третий нейрон видит входной вектор x'(n), из которогоудалены первый и второй собственные векторы. Таким образом, он извлекает первыйглавный компонент вектора х'(n),что эквивалентно третьему главному компоненту исходного входного вектора х(n).
3. Продолжаяэту процедуру для оставшихся нейронов сети прямого распространения, получим,что каждый из выходов сети, обученный с помощью обобщенного алгоритма Хебба(1.37), представляет собой отклик на конкретный собственный вектор матрицыкорреляции входного вектора, причем отдельные выходы упорядочены по убыванию еесобственных значений.
Этотметод вычисления собственных векторов аналогичен методу, получившему название процессаисчерпания. Он использует процедуру, аналогичную ортогонализации Грама-Шмидта.
Представленноездесь описание «от нейрона к следующему нейрону» было приведено дляупрощения изложения. На практике все нейроны в обобщенном алгоритм Хеббасовместно работают на обеспечение сходимости.
1.5.5Исследование сходимости при решенииглавной компоненты сигнала
Пусть W(n) ={wji(n)} — матрица весов размерности т х l сети прямого распространения:
/>                        (1.45)
Пустьпараметр скорости обучения обобщенного алгоритма Хебба (1.45) имеет форму,зависящую от времени η(n), такую, что в пределе
/>          (1.46)
Тогдаэтот алгоритм можно переписать в матричном виде:

/> (1.47)
гдеоператор LT[-] устанавливает все элементы,расположенные выше диагонали матрицы аргументов, в нуль. Таким образом,полученная матрица становится нижней треугольной (lower triangular). При этих условиях и допущениях,изложенных в разделе 8.4, сходимость алгоритма GHA доказывается с помощью процедуры, аналогичнойпредставленной в предыдущем разделе для фильтра по извлечению максимальногособственного значения. В связи с этим можно сформулировать следующую теорему.
Еслиэлементы матрицы синоптических весов W(n) нашаге п = 0 принимают случайные значения, то с вероятностью 1 обобщенныйалгоритм Хебба (8.91) будет сходиться к фиксированной точке, aWT(n) достигнет матрицы, столбцы которой являются первыми l собственными векторами матрицыкорреляции Rразмерности т х т входных векторовразмерности m x l, упорядоченных по убыванию собственных значений.
Практическоезначение этой теоремы состоит в том, что она гарантирует нахождение обобщеннымалгоритмом Хебба первых l собственныхвекторов матрицы корреляции R,в предположении, что соответствующие собственные значения отличны друг от друга.При этом важен и тот факт, что в данном случае не требуется вычислять самуматрицу корреляции R:ее первые l собственных векторов вычисляютсянепосредственно на основании входных данных. Полученная экономия вычислительныхресурсов может быть особенно большой, если размерность входного пространства т достаточновелика, а требуемое количество собственных векторов, связанных с l наибольшими собственными значениями матрицы корреляции R, является лишь небольшой частьюразмерности т.
Даннаятеорема о сходимости сформулирована в терминах зависящего от времени параметраскорости обучения x(n). На практике этот параметр обычно принимает значениенекоторой малой константы Т. В этом случае сходимость гарантируется в смыслесреднеквадратической ошибки синаптических весов порядка т|.
Висследовались свойства сходимости алгоритма GHA (1.47). Проведенный в работе анализ показал, чтоувеличение параметра т) ведет к более быстрой сходимости и увеличениюасимптотической среднеквадратической ошибки (что интуитивно предполагалось).Среди прочего в этой работе точно показана обратная зависимость между точностьювычислений и скоростью обучения.
 
1.5.6Оптимальность обобщенного алгоритма Хебба
Предположим,что в пределе можно записать:
/>           (1.48)
и
/>                                                          (1.49)
Тогдапредельные значения q1,q2,...,qi; векторов синаптических весов нейронов сети прямогораспространения (см. рис. 8.5) представляют собой нормированные собственныевекторы (normalized eigenvector), ассоциированные с l доминирующими собственными значениями матрицы корреляции R, упорядоченными по убываниюсобственных значений. Таким образом, для точки равновесия можно записатьследующее:
/>                                   (1.50)

где l1 > l2 >… > li .
Длявыхода нейрона j получим предельное значение:
/>                                (1.51)
Пусть Yj(n) — случайнаяпеременная с реализацией yj(n). Взаимная корреляция (cross-correlation) между случайными переменными Yj(n) и Yk(n) в равновесном состоянии записывается в виде
/>           (1.52)
/>
Рисунок 1.5 — Представлениев виде графа передачи сигнала процесса восстановления вектора
Следовательно, можноутверждать, что в точке равновесия обобщенный алгоритм Хебба (1.47) выступает вроли средства собственных значений (eigen-analyzer) входных данных.
Пустьх^(n) — частное значение входного векторах(n), для которого предельные условия(1.48) удовлетворяются при j = l — 1. Тогда из матричной формы (8.80) можно получить, что впределе

/>
Этозначит, что для заданных двух множеств величин — предельных значений q1,q2,…,qlвекторов синаптических весов нейронов сети прямого распространения исоответствующих выходных сигналов y1, у2,…,yl — можно построить линейную оценку по методу наименьшихквадратов (linear least-squares estimate) значениях^(n) входного вектора х(n), В результате формулу (1.52) можнорассматривать как одну из форм восстановления данных (data reconstruction) (рис. 1.4). Обратите внимание, чтов свете дискуссии, этот метод восстановления данных имеет вектор ошибкиаппроксимации, ортогональный оценке х^(n).
1.5.7Алгоритм GHAвсжатом виде
Вычисления,выполняемые обобщённым алгоритмом Хебба (GHA), являются простыми, и их можно описать следующейпоследовательностью действий.
1. Вмомент времени n = 1 инициализируем синаптические весаωji сети случайными малыми значениями.Назначаем параметру скорости обучения Ш] некоторое малое положительноезначение.
2. Для /> вычислим:.
/>
/>
где xi(n) — i-йкомпонент входного вектора х(п) размерности т х 1; l- требуемое число главных компонентов.
3.Увеличиваемзначение n на единицу, переходим к шагу 2 ипродолжаем до пор, пока синаптические веса wji не достигнут своих установившихся (steady-state)значений. Для больших п синаптические веса wji нейрона j сходятсяк i-му компоненту собственного вектора,связанного с j-м собственным значением матрицыкорреляции входного вектора х(n).

2. Оценкапараметров регрессионных уравнений при аппроксимации дисперсионныхраспределений методом АГК
 
2.1 Организациянаблюдений и регрессионные методы оценки параметров
 
2.1.1 Оценивание по конечному числу наблюдений
До сихпор предполагалось, что все математические ожидания могут быть вычислены, т. е.известна совместная плотность распределения р (х1,,… ., хт, у). Так бываетдовольно редко. Обычно необходимо оценивать параметры, используя конечное числонаблюдений, а именно выборочные значения. Таким образом, оценка должна бытьфункцией этих выборочных значений, которые фактически представляют собойнаблюдаемые значения реализаций случайных величин. Это означает, что оценкатоже случайная величина и может быть охарактеризована плотностью вероятности.Качество оценки зависит от этой функции и, в частности, от среднего значения идисперсии.
Излагаемыеметоды имеют длинную историю. Уже в 1795 г. Гаусс использовал их приисследовании движения планет. В наши дни они применяются, например, приопределении параметров орбит спутников. Следует отметить что, помимо обычныхрегрессионных моделей
/>
где ni — случайная величина, в литературерассматриваются также авторегрессионная модель
/>

и обобщеннаярегрессионная модель
/>
Обозначения.Теперь посмотрим, как получаются оценки. Пусть наблюдается выходной сигналобъекта у, который состоит из отклика на входное воздействие и, шума объекта иошибок измерений. В момент j-гоизмерения выходной сигнал имеет вид
/>                             (2.1)
Векторомb обозначена зависимость выборочныхзначений от компонент вектора параметров объекта b0, b1:… ., bт. Определим
/>                                      (2.2)
Шумзададим его математическим ожиданием и ковариационной матрицей:
/> (2.3)
/>                      (2.4)
Задачасостоит в том, чтобы определить оценку β вектора параметров Ь.Для этого используется теоретически предсказываемый выходной сигнал w, т. е. выход модели, который зависитот вектора коэффициентов β = (β0, βi,...,β m).Эта функциональная зависимость может быть выбрана различными способами.Простейшей является линейная функциональная связь между w и J (линейная по параметрам модель)

/>
где ui(j)—известные линейно независимые функции. Запишем w в виде
/>                                              (2.5)
где
/>                 (2.6)
Сновазаметим, что такой выбор линейной связи между w и Р не означает того, что связь между входом и выходоммодели должна быть линейной, Предполагается, что матрица U полностью известна, т. е. может бытьизмерена без ошибок. Кроме того, предполагается, что число наблюдений к превышаетчисло т + 1 неизвестных параметров.
Класс линейныхнесмещенных оценок определяется следующими свойствами:
/>                      (2.7)
где Q — (т + 1) x k-матрица, и
/>                                              (2.8)

Предполагается,что равенство (2.5) может дать полное описание объекта, т.е.
/>                                                 (2.9)
Допустимсначала, что U и n статистически независимы. Теперь вектор ошибки е можноопределить как
/>                                    (2.10)
Вкачестве функции ошибок или функции потерь можно выбрать положительноопределенную форму
/>                                       (2.11)
где R- матрица весовых коэффициентов rij. Без потери общности можно предположить, что эта матрицасимметрична. Функция ошибок может быть записана в виде
/>
/>          (2.12)
Так как [Uβ]' —β'U', a R — симметричная матрица, то
/>                             (2.13)
Дифференцированиеэтого выражения по р дает (см. приложение В)

/>                 (2.14)
Последнеевыражение можно записать в виде -2U'R[y-Uβ]= — 2U'Re.
Принекотором р выражение (2.14) обращается в нуль. Отсюда находим р,обеспечивающее экстремум функции ошибок Е:
/>                                          (2.15)
Этусистему называют системой нормальных уравнений. Если U'RU — невырожденнаяматрица, то
/>                                    (2.16)
Нетруднопоказать, что при β = β^ функций ошибок Е принимает минимальное значение. Этозначение Е (β^) называется остаточной ошибкой (основанной на k наблюдениях).
Здесь уместносделать несколько замечаний:
1) Конечно,уравнение (2.16) можно решить методами
вариационногоисчисления:
/>
или
/>

припроизвольном ∆β (принцип ортогональности).
2)Прямое доказательство того, что Е достигает минимума, может быть основано настандартном приеме анализа членов второго порядка по р. Из формулы (2.12) имеем
/>
Очевидно,что при p, удовлетворяющем уравнению (2.16), Едостигает минимума.
3) Вкачестве мнемонического правила может оказаться удобным использовать то, что
/>
умножаетсяна U'R:
/>
Так каквторое слагаемое неизвестно, не измеряется и предполагается, что U и n статистически независимы, то это слагаемое отбрасывается. Врезультате получается оценка Р истинного значения b [см. формулу (2.15)]. Естественно, такой способ выводауравнения (2.16) не показывает, в каком смысле оценка оптимальна.
Этаоценка обладает свойством линейности, поскольку
/>                (2.17)
Изформул (6.31) и (6.24) следует, что

/>
Посколькувходной сигнал и шум статистически независимы,
/>                           (2.18)
А таккак уже предполагалось, что ε[n] = 0, то оценка является и несмещенной:
/>Отсюда следует, что
/>
т. е.математическое ожидание выхода модели равно выходу объекта без аддитивногошума.
Желательноопределить еще одну характеристику оценки β [формула (2.16)] — ее дисперсию.Интересно также оценить корреляцию между компонентами вектора 3. Все этихарактеристики можно определить с помощью ковариационной матрицы
/>  (2.19)
По-прежнемупредполагается, что справедливо соотношение (6.24) и U и nстатистически независимы. Тогда, используя формулу (6.32), находим
/>
 (2.20)

Следовательно,
/>
Будетпоказано, что в нескольких практически интересных случаях это выражение можносущественно упростить. Главная диагональ матрицы состоит из оценок дисперсийоцениваемых параметров.
 
2.1.2Оценки по методу наименьших квадратов
Прииспользовании метода наименьших квадратов минимизируется выражение
/>                       (2.21)
Такимобразом, в уравнении (2.11) и вытекающих из него уравнениях
/>,
и изформул (2.15), (2.16) и (2.20) получаем
/>                                       (2.22)
или
/>                                (2.23)
и />     (2.24)
Если U — квадратная матрица, т. е. еслиразмер выборки равен числу оцениваемых параметров, и если матрица U имеет обратную, то

/>                      (2.25)
и />                            (2.26)
Синженерной точки зрения этот случай не представляет особого интереса, посколькуслучайные возмущения не учитываются. Для уменьшения влияния шумов размервыборки должен быть гораздо больше числа параметров. Если в уравнении (2.22)выразить все величины через Ui(j), то нетрудно получить
/>   (2.27)
Ортогональностьили ортонормальность пробных сигналов может привести к существенным упрощениям.В случае ортонормальности
/> — единичная матрица
и/>, или
/>
Можнодать простую геометрическую интерпретацию оценок метода наименьших квадратовдля случая двумерного вектора параметров β (рис. 2.1). Необходимо минимизировать длину вектора
/>.

/>
Рисунок2.1 — Геометрическаяинтерпретация оценок метода наименьших квадратов для случая двумерного вектора параметровβ
 
Есливектор е ортогонален к u1 и u2
/> или />
Следовательно,
/>
или
/>,
т. е. имеемуравнение (2.22).
 

2.2 Нейронные сети истатические характеристики
Поскольку в настоящеевремя нейронные сети с успехом используются для анализа данных, уместносопоставить их со старыми хорошо разработанными статистическими методами. Влитературе по статистике иногда можно встретить утверждение, что наиболее частоприменяемые нейросетевые подходы являются ни чем иным, как неэффективнымирегрессионными и дискриминантными моделями. Мы уже отмечали прежде, чтомногослойные нейронные сети действительно могут решать задачи типа регрессии иклассификации. Однако, во-первых, обработка данных нейронными сетями носитзначительно более многообразный характер — вспомним, например, активнуюклассификацию сетями Хопфилда или карты признаков Кохонена, не имеющиестатистических аналогов. Во-вторых, многие исследования, касающиеся применениянейросетей в финансах и бизнесе, выявили их преимущества перед ранееразработанными статистическими методами. Рассмотрим подробнее результатысравнения методов нейросетей и математической статистики.
 
2.3 Различие нейронныхсетей и статистики
В чем жезаключается сходство и различие языков нейрокомпьютинга и статистики в анализеданных. Рассмотрим простейший пример.
Предположим,что мы провели наблюдения и экспериментально измерили N пар точек,представляющих функциональную зависимость
/>
Если попытаться провестичерез эти точки наилучшую прямую, что на языке статистики будет означатьиспользование для описания неизвестной зависимости линейной модели /> (где ε обозначает шум при проведениинаблюдения), то решение соответствующей проблемы линейной регрессии сведется кнахождению оценочных значений параметров a,b минимизирующихсумму квадратичных невязок.
/>
Еслипараметры a и b найдены, то можно оценить значение y для любого значения x,то есть осуществить интерполяцию и экстраполяцию данных.
Та же самаязадача может быть решена с использованием однослойной сети с единственнымвходным и единственным линейным выходным нейроном. Вес связи a и порог b могутбыть получены путем минимизации той же величины невязки (которая в данномслучае будет называться среднеквадратичной ошибкой) в ходе обучения сети,например методом backpropagation. Свойство нейронной сети к обобщению будет приэтом использоваться для предсказания выходной величины по значению входа.
/>
Рисунок. 2.2 — Линейная регрессия и реализующий ееоднослойный персептрон

При сравненииэтих двух подходов сразу бросается в глаза то, что при описании своих методовстатистика апеллирует к формулам и уравнениям, а нейрокомпьютинг к графическомуописанию нейронных архитектур.
Еще одним существеннымразличием является то, что для методов статистики не имеет значения, какимобразом будет минимизироваться невязка — в любом случае модель остается той жесамой, в то время как для нейрокомпьютинга главную роль играет именно методобучения. Иными словами, в отличие от нейросетевого подхода, оценка параметровмодели для статистических методов не зависит от метода минимизации. В то жевремя статистики будут рассматривать изменения вида невязки, скажем какфундаментальное изменение модели
/>
В отличие от нейросетевогоподхода, в котором основное время забирает обучение сетей, при статистическомподходе это время тратится на тщательный анализ задачи. При этом опытстатистиков используется для выбора модели на основе анализа данных иинформации, специфичной для данной области. Использование нейронных сетей — этих универсальных аппроксиматоров — обычно проводится без использованияаприорных знаний, хотя в ряде случаев оно весьма полезно. Например, длярассматриваемой линейной модели использование именно среднеквадратичной ошибкиведет к получению оптимальной оценки ее параметров, когда величина шума имеетнормальное распределение с одинаковой дисперсией для всех обучающих пар. В тоже время если известно, что эти дисперсии различны, то использование взвешеннойфункции ошибки может дать значительно лучшие значения параметров.

/>
Факторный анализ используется для изучения структурыданных. Основной его посылкой является предположение о существовании такихпризнаков — факторов, которые невозможно наблюдать непосредственно, но можнооценить по нескольким наблюдаемым первичным признакам. Так, например, такиепризнаки, как объем производства и стоимость основных фондов, могут определятьтакой фактор, как масштаб производства. В отличие от нейронных сетей, требующихобучения, факторный анализ может работать лишь с определенным числомнаблюдений. Хотя в принципе число таких наблюдений должно лишь на единицупревосходить число переменных рекомендуется использовать хотя бы втрое большеечисло значение. Это все равно считается меньшим, чем объем обучающей выборкидля нейронной сети. Поэтому статистики указывают на преимущество факторногоанализа, заключающееся в использовании меньшего числа данных и, следовательно,приводящего к более быстрой генерации модели. Кроме того, это означает, чтореализация методов факторного анализа требует менее мощных вычислительныхсредств. Другим преимуществом факторного анализа считается то, что он являетсяметодом типа white-box, т.е. полностью открыт и понятен — пользователь можетлегко осознавать, почему модель дает тот или иной результат. Связь факторногоанализа с моделью Хопфилда можно увидеть, вспомнив векторы минимального базисадля набора наблюдений. Именно эти векторы являются аналогами факторов,объединяющих различные компоненты векторов памяти — первичные признаки.
Логистическая регрессия является методом бинарнойклассификации, широко применяемом при принятии решений в финансовой сфере. Онапозволяет оценивать вероятность реализации (или нереализации) некоторогособытия в зависимости от значений некоторых независимых переменных — предикторов:/>В модели логистической регресиитакая вероятность имеет аналитическую форму:
/>, где />
Нейросетевым аналогом ееочевидно является однослойный персептрон с нелинейным выходным нейроном. Вфинансовых приложениях логистическую регрессию по ряду причин предпочитаютмногопараметрической линейной регрессии и дискриминантному анализу. Вчастности, она автоматически обеспечивает принадлежность вероятности интервалу[0,1], накладывает меньше ограничений на распределение значений предикторов.Последнее очень существенно, поскольку распределение значений финансовыхпоказателей, имеющих форму отношений, обычно не является нормальным и«сильно перекошено». Достоинством нейронных сетей является то, чтотакая ситуация не представляет для них проблемы. Кроме того, нейросетинечувствительны к корреляции значений предикторов, в то время как методы оценкипараметров регрессионной модели в этом случае часто дают неточные значения. Вто же время многие нейронные парадигмы, такие как сети Кохонена или машинаБольцмана не имеют прямых аналогов среди статистических методов.
2.4 Нейронные сети и статистическиеэкспертные системы
 
Рассмотрим теперьотношения нейрокомпьютинга и экспертных систем. Обе эти технологии иногдаотносят к направлению Искусственный Интеллект, хотя строго говоря, терминискусственный интеллект появился в 70-е годы в связи с экспертными системами,как направления альтернативного нейронным сетям.
Егооснователи — Марвин Минский и Эдвард Фейгенбаум посчитали излишней апелляцию кархитектуре мозга, его нейронным структурам, и декларировали необходимостьмоделирования работы человека со знаниями. Тем самым, поставив в центр вниманияоперации с формально-логическими языковыми структурами, они заведомо выбралиориентацию на имитацию обработки информации левым полушарием мозгачеловека. Системы обработки таких формализованных знаний были названыэкспертными, поскольку они должны были воспроизводить ход логическихрассуждений эксперта (высокопрофессионального специалиста) в конкретнойпредметной области. Эти рассуждения проводятся с использованием правил вывода,которые инженер знаний должен извлечь у эксперта.
Заметим, чтов настоящее время распространено более широкое толкование систем искусственногоинтеллекта. К ним относят не только экспертные, но и нечеткие системы,нейронные сети и всевозможные комбинации, такие как нечеткие экспертные системыили нечеткие нейронные системы. Отдельным направлениями, выделяются такжеэвристический поиск, в рамках которого в 80-е годы Ньюэллом и Саймоном былразработан Общий Решатель Задач (GPS — General Problem Solver), а такжеобучающиеся машины (Ленат, Холланд). И если GPS не мог решать практическиезадачи, то машинная обучающаяся система EURISCO внесла значительный вклад всоздание СБИС, изобретя трехмерный узел типа И/ИЛИ.
Однако,экспертные системы претендовали именно на решение важных прикладных задачпрежде всего в таких областях, как медицина и геология. При этомсоответствующая технология в сочетании с нечеткими системами была в 1978 годуположена японцами в основу программы создания компьютеров 5-го поколения.
Парадокс искусственногоинтеллекта заключается в том, что как только некоторая, кажущаясяинтеллектуальной, деятельность оказывается искусственно реализованной, онаперестает считаться интеллектуальной. В этом смысле наибольшие шансы остатьсяинтелелктуальными имеют как раз нейронные сети, из которых еще не извлеченыартикулированные знания.
Сопоставлениеэкспертных систем и нейрокомпьютинга выявляет различия, многие из которыххарактерны для уже отмечавшихся в первой лекции различий обычных компьютеров (аэкспертные системы реализуются именно на традиционных машинах, главным образомна языке ЛИСП и Пролог) и нейрокомпьютеров
Таблица 1.Сравнение методов нейронных сетей и экспертных систем Нейронные сети Экспертные системы Аналогия правое полушарие левое полушарие Объект данные знания Вывод отображение сетью правила вывода
Важным преимуществомнейронных сетей является то, что разработка экспертных систем, основанных направилах требует 12-18 месяцев, а нейросетевых — от нескольких недель до месяцев.
Рассматриваяизвлечение знаний из обученных нейронных сетей мы уже показали, чтопредставление о них, как о черных ящиках, не способных объяснить полученноерешение (это представление иногда рассматривается как аргумент в пользу преимуществаэкспертных систем перед нейросетями), неверно. В то же время, очевидно, что,как и в случае мозга, в котором левое и правое полушарие действуют сообща,естественно и объединение экспертных систем с искусственными нейронными сетями.Подобные синтетические системы могут быть названы нейронными экспертнымисистемами — этот термин использовал Иржи Шима, указавший на необходимостьинтеграции достоинств обоих типов систем. Такая интеграция может осуществлятьсядвояким образом. Если известна только часть правил, то можно либоинициализировать веса нейронной сети исходя из явных правил, либоинкорпорировать правила в уже обученные нейронные сети. Шима предложилиспользовать и чисто коннекционистский методику построения нейронных эксперныхсистем, которая обладает таким достоинством, как возможность работы с неполнымиданными (ситуация типичная для реальных баз данных). Такой возможностьюобладают введенные им сети интервальных нейронов.
 
2.5 Сетиинтервальных нейронов
Ситуация, вкоторой некоторые данные не известны или не точны, встречается достаточночасто. Например, при оценке возможностей той или иной фирмы, можно учитывать ееофициально декларируемый капитал, скажем в 100 миллионов, но лучше всегосчитать, что в действительности его величина является несколько большей именяется в интервале от 100 до 300 млн. Удобно ввести в данном случаеспециальные нейроны, состояния которых кодируют не бинарные или непрерывныезначения, а интервалы значений. В случае, если нижняя и верхняя границаинтервала совпадают, то состояния таких нейронов становятся аналогичнымисостояниям обычных нейронов.
Дляинтервального нейрона i на каждый еговход j подается не одно />, а пара значений, определяющая границы интервала, вкотором лежит величина воздействия j-го нейрона. Воздействие, оказываемое на i-й нейрон со стороны всех связанных с ним нейронов само лежитв интервале />, где
/>,
/>,

/> — обратная температура.
Интервальноезначение, которое принимает i-йнейрон при данном воздействии, равно
/>,
где
/>
Передаточнаяфункция интервального нейрона приблизительно отражает идею монотонности поотношению к операции интервального включения. Это означает, что при />, если вход j-го нейрона лежит в интервале />, то выход i- го нейрона, определенный по классической функции Ферми, обязательнопопадет в интервал />. Интервальные нейроны могут являтьсяэлементами многослойных персептронов. В этом случае их состояния вычисляютсяпоследовательно, начиная от входного слоя к выходному. Для сетей интервальныхнейронов может быть построено обобщение метода обратного распространенияошибки, описание которого выходит за рамки нашего курса.
 
2.6 Сети исвойства численных структур регрессионного анализа
Простой итерационный алгоритм сингулярного разложения матриц допускает простую высокопараллельную(в том числе, нейросетевую) реализацию. Сингулярное разложение матриц (англ.Singular value decomposition) необходимо для решения многих задач анализаданных. В том числе, анализ главных компонент сводится к сингулярномуразложению матрицы центрированных данных.
 
2.6.1 Идея сингулярного разложения матрицы данных
Если />— матрица, составленная из векторов-строкцентрированных данных, то выборочная ковариационная матрица
/> и задача о спектральном разложенииковариационной матрицы />превращается в задачу о сингулярномразложении матрицы данных X.
Числоσ³0 называется сингулярнымчислом матрицы />тогда итолько тогда, когда существуют правый и левый сингулярные векторы: такие />-мерный вектор-строка />и />-мерныйвектор-столбец /> (оба единичной длины), что выполненодва равенства:
/>; />
Пусть />— ранг матрицы данных. Сингулярноеразложение матрицы данных X— этоеё представление в виде
/>
где />— сингулярное число, />— соответствующий правый сингулярный вектор-столбец, а/> — соответствующий левый сингулярныйвектор-строка (/>). Правыесингулярные векторы-столбцы />, участвующие в этом разложении,являются векторами главных компонент и собственными векторами эмпирическойковариационной матрицы />, отвечающими положительным собственнымчислам />.
Хотя формально задачи сингулярного разложения матрицы данных испектрального разложения ковариационной матрицы совпадают, алгоритмы вычислениясингулярного разложения напрямую, без вычисления спектра ковариационнойматрицы, более эффективны и устойчивы. Это следует из того, что задачасингулярного разложения матрицы />лучшеобусловлена, чем задача разложения матрицы />: для ненулевых собственных и сингулярных чисел
/>
Простой итерационный алгоритм сингулярного разложения
Основная процедура — поиск наилучшего приближения произвольной m x n матрицы />матрицей вида /> (где b— m-мерный вектор, а a— n-мерный вектор) методом наименьших квадратов:
/>

Решениеэтой задачи дается последовательными итерациями по явным формулам. Прификсированном векторе />значения />, доставляющие минимум форме F(b,a), однозначно и явно определяются из равенств
/>
Аналогично,при фиксированном векторе /> определяются значения: />
/>
B качестве начального приближения вектора />возьмемслучайный вектор единичной длины, вычисляем вектор b, далее для этого вектора />вычисляемвектор />и т. д. Каждый шаг уменьшаетзначение F(b,a). В качестве критерия остановкииспользуется малость относительного уменьшения значения минимизируемогофункционала F(b,a)за шаг итерации (∆F/F) или малость самого значения F.
В результате для матрицы X=(/>)получили наилучшее приближение матрицей /> вида /> (здесь верхним индексом обозначенномер итерации). Далее, из матрицы />вычитаем полученную матрицу />, и для полученной матрицы уклонений /> вновь ищем наилучшее приближение /> этого же вида и т. д., пока, например, норма /> не станет достаточно малой. В результате получилиитерационную процедуру разложения матрицы X в виде суммы матриц ранга 1, то есть/>. Полагаем /> и нормируем векторы />: /> В результате получена аппроксимациясингулярных чисел />и сингулярных векторов (правых — />и левых — />).
К достоинствам этого алгоритма относится его исключительная простота и возможностьпочти без изменений перенести его на данные с пробелами, а также взвешенныеданные.
Существуют различные модификации базового алгоритма, улучшающие точностьи устойчивость. Например, векторы главных компонент />приразных l должны быть ортогональны «попостроению», однако при большом числе итерации (большая размерность, многокомпонент) малые отклонения от ортогональности накапливаются и можетпотребоваться специальная коррекция />на каждом шаге, обеспечивающая его ортогональностьранее найденным главным компонентам.
Для квадратных симметричных положительно определённых матриц описанныйалгоритм превращается в метод прямых итераций для поиска собственных векторов.
 
2.6.2 Линейный МНК
Задача аппроксимациилинейным МНК в матричной форме записывается, как
/>

Иногда к задачедобавляются ограничения:
/>
Здесь c обозначаетискомый вектор коэффициентов. Столбцы матрицы F соответствуют базисным функциям(всего M столбцов), строки — экспериментальным точкам (всего N строк), Fij содержитзначение j-ой базисной функции в i-ой точке набора данных. Вектор y содержитзначения аппроксимируемой функции в точках, соответствующих строкам матрицы F.Матрица W является диагональной матрицей весовых коэффициентов, элементыкоторой соответствуют важности той или иной точки. Матрица C задаетдополнительные ограничения, которым должна удовлетворять аппроксимируемаяфункция — минимум ошибки ищется среди функций, точно удовлетворяющих заданнымограничениям. В такой формулировке задача сводится к решению системы линейныхуравнений. Полученная система линейных уравнений, как правило, являетсяпереопределенной — число уравнений намного больше числа неизвестных. Длярешения используется основанный на QR-разложении солвер. Сначала матрица Aпредставляется в виде произведения прямоугольной ортогональной матрицы Q иквадратной верхнетреугольной матрицы R. Затем решается система уравнений Rx = QTb. Если матрица R вырождена, алгоритм использует SVD-разложение, котороепозволяет добиться решения независимо от свойств матрицы коэффициентов.Трудоемкость решения такой задачи составляет O(N·M 2).
Модуль lsfit содержитчетыре подпрограммы для линейной аппроксимации: LSFitLinear (простейшая задача- нет ограничений, W — единичная матрица), LSFitLinearW (взвешенная аппроксимациябез ограничений), LSFitLinearC (аппроксимация с ограничениями, без весовыхкоэффициентов) и LSFitLinearWC (аппроксимация с индивидуальными весовымикоэффициентами и ограничениями).
2.7 Нелинейные решения проблем стандартного МНК
 
2.7.1 Аппроксимациялинейным или нелинейным МНК
Методнаименьших квадратов (часто называемый МНК) обычно упоминается в двухконтекстах. Во-первых, широко известно его применение в регрессионном анализе,как метода построения моделей на основе зашумленных экспериментальных данных.При этом помимо собственно построения модели обычно осуществляется оценкапогрешности, с которой были вычислены её параметры, иногда решаются и некоторыедругие задачи. Во-вторых, МНК часто применяется просто как метод аппроксимации,без какой-либо привязки к статистике. На этой странице МНК рассматривается какметод аппроксимации. Также следует отметить, что модуль lsfit,рассматриваемый на этой странице, решает задачи общего вида. Модули для работыс полиномами, сплайнами, рациональными функциями содержат подпрограммы схожейфункциональности, позволяющие осуществлять аппроксимацию этими функциями.
/>2.7.2Нелинейный МНК: с использованием гессиана или без него
Нелинейная задача МНКзначительно сложнее линейной: аппроксимант уже не представляется в виделинейной комбинации базисных функций. Для аппроксимации используется функцияобщего вида, зависящая от M аргументов и K параметров:
/>
Нам известны значенияаргументов x в N точках, требуется найти значения параметров c, при которыхотличие f от заданных значений y будет минимально. Задача при этом имеетследующую формулировку:

/>
Для решения используетсяметод Левенберга-Марквардта, реализованный в модуле minlm. Алгоритм используетту же схему обратной коммуникации для вычисления значения функции, что и модульminlm — вам необходимо ознакомиться с ней перед использованием алгоритма. Как ив модуле minlm, пользователь может выбирать несколько схем оптимизации: FG(использование функции f и её градиента) и FGH (использование функции,градиента и гессиана). Пользователь может задать индивидуальные весовыекоэффициенты (на что указывает суффикс W) или решать задачу без них. Итогоимеем четыре версии подпрограмм для оптимизации: LSFitNonlinearWFG, LSFitNonlinearFG,LSFitNonlinearWFGH, LSFitNonlinearFGH.
В случае оптимизации сиспользованием схемы FG (градиент известен, гессиан неизвестен) возможны двеситуации: «дорогой» градиент, трудоемкость вычисления которого равна O((M+K)2), и «дешевый» градиент, трудоемкость вычисления которогосущественно ниже, чем O((M+K) 2). Первый вариант — это градиент, вычисленныйпри помощи разностной схемы, либо аналитический градиент сложной функции.Второй вариант — аналитический градиент функции с регулярной структурой,допускающей ускоренное вычисление градиента (пример: обучение нейронных сетей).Во втором случае можно использовать гибридный вариант алгоритмаЛевенберга-Марквардта, входящий в состав ALGLIB — этот вариант позволяетзначительно ускорить решение задач с «дешевыми» градиентами.«Стоимость» градиента обозначается параметром CheapFG подпрограмм LSFitNonlinearWFGи LSFitNonlinearFG.
Замечание 1
Если для оптимизациииспользуется гессиан, то всегда используется гибридный алгоритм — в такихзадачах его применение всегда оправдано.

Замечание 2
Предпочтительнымвариантом является использование аналитического градиента. Из-за возможныхпроблем с низкой точностью не рекомендуется использовать для вычисленияградиента разностную схему. Если вы все же используете её, ни в коем случае неиспользуйте двухточечную схему — используйте как минимум четырехточечную схему.
/> 
2.7.3 Нелинейный МНКкак обратная коммуникация
Алгоритм аппроксимации входе своей работы должен получать значения функции/градиента/… в выбранных имточках. В большинстве программных пакетов эта проблема решается путем передачиуказателя на функцию (C++, Delphi) или делегата (C#), который осуществляет этуоперацию.
Пакет ALGLIB, в отличиеот других библиотек, использует для решения этой задачи обратную коммуникацию.Когда требуется вычислить значение функции (или её производных), состояниеалгоритма сохраняется в специальной структуре, после чего управлениевозвращается в вызвавшую программу, которая осуществляет все вычисления и сновавызывает вычислительную подпрограмму.
Таким образом, работа салгоритмом аппроксимации осуществляется в следующей последовательности:
1. Подготовкаструктуры данных LSFitState при помощи одной из подпрограмм инициализацииалгоритма (LSFitNonlinearWFG, LSFitNonlinearFG, LSFitNonlinearWFGH, LSFitNonlinearFGH).
2. Вызовподпрограммы LSFitNonlinearIteration.
3. Если подпрограммавернула False, работа алгоритма завершена и минимум найден (сам минимум можетбыть получен при помощи подпрограммы LSFitNonlinearResults).
4. Если подпрограммавернула True, подпрограмма требует информацию о функции. В зависимости от того,какие поля структуры LSFitState установлены в True (ниже этот вопрос рассмотренболее подробно), вычислите функцию/градиент/гессиан.
5. После того, каквся требуемая информация загружена в структуру LSFitState, требуется повторновызвать подпрограмму LSFitNonlinearIteration.
Для обмена информацией спользователем используются следующие поля структуры LSFitState:
· LSFitState.X[0..M-1]– массив, хранящий координаты точки, информация о которой запрашиваетсяалгоритмом
· LSFitState.C[0..K-1]– массив, хранящий значение параметров функции
· LSFitState.F – вэто поле следует поместить значение функции F (если оно было запрошено)
· LSFitState.G[0..K-1]– в это поле следует поместить градиент df(x,c)/dci (если он был запрошен)
· LSFitState.H[0..K-1,0..K-1]– в это поле следует поместить гессиан d 2f(x,c)/dcij ^2 (если он был запрошен)
В зависимости от того,что именно требуется вычислить, подпрограмма LSFitNonlinearIteration можетустанавливать в True одно и только одно из следующих полей:
· NeedF – сигнализируето том, что требуется вычислить значение функции F
· NeedFG –сигнализирует о том, что требуется вычислить значения функции F и градиента F
· NeedFGH –сигнализирует о том, что требуется вычислить значение функции F, градиент F игессиан F
 

2.8 Решение параметроврегрессионного уравнения с использованием аппроксимации ковариационной матрицыпо данным ГК при обучении НС
 
Актуальность работыопределяется проблемой регрессионных методов, когда оценка параметровзатруднена дефицитом априорной информации о помехах или обратнаяавтоковариационная матрица входных регрессоров является вырожденной. Целевоенаправление работы – создание алгоритма оценки параметров регрессионной моделиизмерений при аппроксимации дисперсионных характеристика методом главных компонентов.Основная решаемая задача заключается в нахождении соотношения характеристикглавных компонентов и регрессионных уравнений. Эффективность достигается засчет решения главных компонентов средствами нейронных сетей на основе фильтраХебба.
пространственный стохастический адаптивный алгоритмрегрессионный
/>
Рисунок 2.3 — Алгебраическиекомпоненты модели ГК и регрессионного анализа

Конкретно в текущейработе было выполнены следующие этапы построения представляемого метода (рис.2.3):
– рассмотрениеалгебраической модели данных метода главных компонентов для выявленияструктурных соотношений с регрессионным анализом;
– анализ структуры иметода обучения нейронных сетей для решения аппроксимации ковариации входногосигнала методом главных компонент;
– поиск оптимальногопараметра отклика регрессионными методами и по данным анализа главныхкомпонентов;
– решение поверхностиотклика по данным АГК, в условиях, когда обратная матрица автоковариациивходных регрессоров вырождена.
/>
Рисунок 2.4 — ОтношенияГК и входного пространства
В основе метода главныхкомпонентов находится задача наилучшей аппроксимации конечного множества точеклинейными многообразиями типа прямых и плоскостей (рис. 2.4). Эти линейныемногообразия определяются ортонормированным набором векторов, линейных попараметрам. По входным координатам, относительно каждого базиса многообразия,рассчитывается минимальная квадратичная сумма до их проекции. Таким образом,формируется главная компонента, связанная с максимальной дисперсией проекциивхода относительно элемента базиса. Совокупность проекций отдельногонаправления и их главная компонента в свою очередь образуют собственныеподпространства, ортогональные по отношению друг к другу.
/>
Рисунок 2.5 — Эффектрешения задачи ГК для проблем регрессионного анализа
Таким образом,формируется распределение максимальных дисперсий аппроксимируемых точек впространстве компонент (рис. 2.5). Проекция искажений, или помех, ортогональнаи не коррелированны с данными. То есть дисперсия помех минимальна, чтосоответствует задачам регрессионного анализа. Но расчет всех главныхкомпонентов – аналитически сложная задача оптимизации. Эффект ее решения этонахождение:
— максимальной дисперсииполезного сигнала;
— системынекоррелированных координат;
— аппроксимацияковариационной матрицы диагональю из дисперсий проекций по данным ГК.
При этомортонормированный базис для собственных векторов существует всегда. Даже еслиспектр ковариационной матрицы вырожден, то есть когда она является сингулярнойи не решает оценки параметров регрессионной модели.
/>
Рисунок 2.6 — Алгоритманализа главных компонентов обучением НС на основе фильтра Хебба
С целью анализа главныхкомпонентов для входного сигнала произвольной размерности возможно применениетехнологии обучения нейронных сетей (рис. 2.6). Сеть прямого распространения содним слоем линейных нейронов, модифицируемая по обобщенному правиле Хебба,образует устройство — фильтр Хебба. Фильтр извлекает главные компоненты извходного сигнала в пространстве собственных векторов, которыми являются весанейронов. Число компонент соответствует числу ортосистем, то есть числу весовыхсистем и соответственно равно числу нейронов сети. Таким образом, всегда будетдостижима задача аппроксимации ковариационной матрицы входного случайногосигнала заданной размерности.

/>
Рисунок 2.7 — Поверхностьотклика при матричном расчете и аппроксимации главными компонентамиковариационной матрицы факторов
В качестве практическогоэксперимента была выбрана аппроксимация квадратичным полиномом выхода линейнойсистемы с нормально распределенной аддитивной помехой (рис. 2.7). Дисперсияпомехи менялась в пределах 3-10% от дисперсии сигнала. Решение определялось вфактор-пространстве поверхности оптимального отклика. Входными данными являлисьфакторы регрессионного выражения отклика. Оптимальное значение откликарассчитывалось при оценке параметров МНК. В расчетах использовалась стандартнаяматрица ковариации и ее аппроксимация диагональным оператором главныхкомпонент. Компоненты получены по результатам настройки весов нейронной сетиалгоритмом Хебба с использованием пакета Matlab. Отклонение параметров модели отклика на данныхдиагональной матрицы главных компонент от стандартных расчетов составило всреднем 2.2%.

/>
Рисунок 2.8 — Решениеотклика в условиях аппроксимации автоковарационной матрицы входного сигналапроизвольной размерности
Далее былсделан переход к квадратичному полиному размерностью в три входных фактора. Вэтих условиях были смоделированы значения факторов, когда обратнаяковариационная матрица входа становится вырожденной и решение регрессии по МНКне выполнимо (рис. 2.8). После чего матрица аппроксимировалась алгоритмом Хеббана модели НС. Графическая демонстрация отклика производится пристабилизированном третьем факторе, что позволяет наблюдать поверхность откликапо данным главных компонентов.
Итак, в результатеисследования и апробации решения главных компонентов на модели НС, практическиполучен метод содействия регрессионному анализу измерений. Метод позволяетоценивать параметры на отношении дисперсий ковариации и аппроксимированнойглавными компонентами автоковариации входного сигнала произвольной размерности.Подобное применение современных технологий на алгоритмах обучения нейронныхсетей выполняет достижение цели, определенной в дипломной работе.
 

Заключение
Произведеннаятеоретическая и практическая часть (в виде алгоритмического программирования)работы достигает цели, поставленной при дипломном проектировании. В качествеобъекта проектирования выступали регрессионные среды измерений, гдепараметрическая идентификация на принципах минимизации дисперсионныхраспределений матричного функционала ошибки затруднена стандартными регрессионнымиметодами.
Новизной результата сталиприменение формулы самообучающейся нейронной сети к регрессионным средам;альтернатива методам поиска стационарных значений (минимальных) функционала(скаляра) ошибки в векторном пространстве данных как метод поиска экстремальныхдисперсий в векторном пространстве признаков (при той же ограниченнойЕвклидовой норме вектора помех).
В дипломной работе быларазработана схему адаптации метода анализа главных компонентов, решаемого наоснове нейронных сетей, к регрессионному анализу стохастических сред, гдекорреляционные методы оценок затруднены из-за плохой обусловленностиортогональной матрицы автоковариаций. В результате выполнения дипломной работыбыли получены алгоритмы на основе метода анализа главных компонентов дляполучения дисперсионных распределений стохастических сред моделируемых сигналови систем, позволяющие с помощью принципов спектрального анализа содействоватьоценке параметров регрессионных моделей.

Библиографический список использованнойлитературы
1. Саймон Хайкин. Нейронные сети.Москва, Вильямс, 2006.
2. Эйкхофф П. Основы идентификациисистем управления. Москва, Мир. 1975.
3. Бокс Дж., Дженкинс Г. Анализвременных рядов, прогноз и управление. — М.: Мир, 1974. — 193 с.
4. Кацюба О.А., Гущин А.В. Осостоятельности оценок параметров многомерной линейной регрессии на основенелинейного метода наименьших квадратов // Труды IV Международной конференции«Идентификация систем и задачи управления» SICPRO’05. Статья – Москва, 25-28января 2005 г. Институт проблем управления им. В.А. Трапезникова РАН, 2005, с. 279-284.
5. Кацюба О.А., Гущин А.В. Оцениваниепараметров многомерной линейной авторегрессии // XI международная конференция «Математика, компьютер,образование». Дубна, 26-31 января 2004 г. МГУ, Пущинский центр биологическихисследований РАН, институт прикладной математики им.М.В. Келдыша РАН: Тез.докл. – Москва-Ижевск, 2004. Выпуск № 11, с.-107.
6. Кацюба О.А., Гущин А.В. Численныеметоды определения оценок параметров многомерного линейного разностногоуравнения // XVIII Международная научная конференция «Математические методы втехнике и технологиях». Статья – Казань, 31 мая — 2 июня 2005г. Казанскийгосударственный технологический университет, 2005, с.156-159.


Не сдавайте скачаную работу преподавателю!
Данный реферат Вы можете использовать для подготовки курсовых проектов.

Поделись с друзьями, за репост + 100 мильонов к студенческой карме :

Пишем реферат самостоятельно:
! Как писать рефераты
Практические рекомендации по написанию студенческих рефератов.
! План реферата Краткий список разделов, отражающий структура и порядок работы над будующим рефератом.
! Введение реферата Вводная часть работы, в которой отражается цель и обозначается список задач.
! Заключение реферата В заключении подводятся итоги, описывается была ли достигнута поставленная цель, каковы результаты.
! Оформление рефератов Методические рекомендации по грамотному оформлению работы по ГОСТ.

Читайте также:
Виды рефератов Какими бывают рефераты по своему назначению и структуре.