Содержание
Введение1 Модели обучения2 Введение в нейронные сети3 Краткие сведения о нейроне4 Искусственный нейрон5 Искусственные нейронные сети. Персептрон6 Проблема XOR7 Решение проблемы XOR8 Нейронные сети обратного распространения9 Повышение эффективности обучения10 Подготовка входных и выходных данных11 Методы обучения12 Нейронные сети Хопфилда и Хэмминга
Выводы
Литература
Введение
Тема контрольной работы «Самообучающиеся системы»по дисциплине «Проектированиеинтеллектуальных систем».
В современном мире прогресс производительностипрограммиста достигается в тех случаях, когда часть интеллектуальной нагрузкиберут на себя компьютеры. Одним из способов достигнуть максимального прогрессав этой области, является «искусственный интеллект», когда компьютерберет на себя не только однотипные, многократно повторяющиеся операции, но исам сможет обучаться.
Целью изучения дисциплины является подготовкаспециалистов в области автоматизации сложноформализуемых задач. Задачейизучения дисциплины является приобретение знаний о фундаментальных алгоритмах,применяемых при построении систем искусственного интеллекта, а также методовразработки программных приложений, реализующих эти системы.
Принципиальное отличие интеллектуальных систем отлюбых других систем автоматизации заключается в наличии базы знаний опредметной среде, в которой решается задача. Неинтеллектуальная система приотсутствии каких-либо входных данных прекращает решение задачи,интеллектуальная же система недостающие данные извлекает из базы знаний ирешение выполняет.
Основное внимание в контрольной работе уделяется исследованиямв области искусственного интеллекта — самообучающимся системам.
1 Модели обучения
В психологии под обучением понимают способность к приобретениюранее неизвестных умений и навыков. В интелектуальных системах (ИС)неформальное понимание обучения трактуется аналогично. Предполагается, что впроцессе деятельности ИС анализирует имеющуюся информацию и на основе анализаизвлекает из нее полезные закономерности. Обучение как математическая задачаможет быть отнесена к классу оптимизационных проблем поиска описаний.Индивидуальная оптимизационная задача L есть пятерка
,
где XL, YL — множества входных ивыходных записей;
L XL YL — отношение (или функция: XL YL);
FL — множество отношений (fL XLYL для всех fL FL),называемых описаниями;
JL — оператор качества для FL, показывающийдля каждого fL FL степень его близости к L.
Задача состоит в отыскании оптимального по JLописания f*Lна FL. Для задач,относимых к обучению, характерна неполнота спецификации. Например, операторкачества может быть плохо формализуемым, либо информация об отношении.
Система (человек или машина) может получать новые знания многимиспособами. Можно, например, вывести нужную информацию как логическое следствиеимеющихся знаний, получить ее модификацией имеющихся знаний, рассчитывая на«аналогичность» ситуаций, попытаться вывести общий закон из имеющихся примеров.Следующие задачи традиционно относятся к задачам обучения по примерам:
- прогнозирование:дана последовательность чисел: 2, 8, 14, … Чему равен следующий членпоследовательности?
- Идентификация(синтез) функций: имеется «черный ящик», о внутреннем устройстве которого можносудить по его поведению, подавая на вход сигналы и получая в ответ выходные.Требуется по этой информации сформулировать описание работы анализируемогоустройства. К задачам идентификации относятся расшифровка структуры конечныхавтоматов, индуктивный синтез программ на языке Lisp;
- Расшифровкаязыков – поиск правил синтеза текстов некоторого языка на основе анализаконкретных текстов на этом языке ( расшифровка кодов, систем письменности ит.д.). Задачей такого же типа является обучение распознаванию образов;
- Индуктивныйвывод – в широком смысле в это направление вписываются все рассмотренные вышезадачи, а в узком смысле совпадает с проблемой расшифровки языков;
- Синтезс дополнительной информацией. В качестве дополнительной информации можетиспользоваться структура примеров, их родовидовая принадлежность и т.д. Кдополнительной информации относятся также контрпримеры. Например, возможностьсинтеза программ упрощается, если с каждой парой вход – выход задается«траектория» (последовательность состояний программы без учета ихтождественности) ее вычисления.
Все рассмотренные задачи в зависимости от предмета исследованияотносятся к одной из двух категорий: синтезу языков или синтезу функций. Длязадач обучения по примерам характерны следующие два свойства:
- всеони являются задачами нахождения описаний;
- задаваемаяв виде примеров информация является недостаточной для однозначного формированиятребуемого описания.
Возможны ситуации, когда новые примеры ничего не изменяют в ужеполученном решении. Не существует алгоритма, способного определять моментстабилизации решения и, соответственно, невозможно алгоритмически определитьколичество примеров для достижения стабильного обучения. Предположение определьной стабилизации гипотез является основой гипотетико-дедуктивногоподхода, согласно которому решение задачи обучения по примерам включает 4этапа:
- наблюдение:сбор и накопление исходных данных (примеров);
- обобщение:нахождение «разумной» гипотезы н об искомом описании;
- дедукцию:выдвижение различных следствий из н или прогнозов на основе ее;
- подтверждение:проверка гипотезы Н; если гипотеза Н подтверждается, то Н остается в качестветекущей гипотезы и весь процесс повторяется сначала, а в противном случаегипотеза Н заменяется новой.
Для большинства задач обучения по примерам не существуетуниверсальных способов их решения. В теории первый результат такого рода былполучен в 1967 году Гольдом, из которого следовал, что по множеству позитивныхпримеров нельзя синтезировать множество регулярных языков. 2 Введение в нейронныесети
Постоянно возрастает необходимость в системах, которые способны нетолько выполнять однажды запрограммированную последовательность действий надзаранее определенными данными, но и способны сами анализировать вновьпоступающую информацию, находить в ней закономерности, производитьпрогнозирование и т.д. В этой области приложений самым лучшим образомзарекомендовали себя так называемые нейронные сети – самообучающиеся системы,имитирующие деятельность человеческого мозга.
Область науки, занимающаяся построением и исследованием нейронныхсетей, находится на стыке нейробиологии, математики, электроники ипрограммирования и называется нейрокибернетикой или нейроматематикой (neurocomputing).Способность нейронной сети к обучению была впервые исследована Дж. Маккаллокоми У. Питсом. В 1943 г. вышла их работа «Логическое исчисление идей, относящихсяк нервной деятельности», в которой была построена модель нейрона исформулированы принципы построения искусственных нейронных сетей. В 1962 г. Ф.Розенблат (Корнельский университет) предложил модель нейронной сети, названную персептроном.В 70 – х годах японским ученым К. Фукушима была предложена другая модель – когнитрон,способная хорошо распознавать сложные образы (иероглифы и т.п.) независимо отповорота и изменения масштаба изображения. В 1982 г. американский биофизик Дж.Хопфилд предложил модель нейронной сети, названную его именем.
Нейронные сети наиболее эффективны в системах распознаванияобразов, ассоциативной памяти, прогнозирования и адаптивного управления инеэффективны в областях, требующих точных вычислений. На рынке появляютсяреализации нейроподобных систем в виде пакетов программ, нейроплат инейрочипов. Исследованиями в области нейрокомпьютеров занимаются в Японии:фирмы NBC, Nihon Denki, Mitec, Fujitsu, Matsusita, Mitsubishi, Sony, Toshiba,Hitachi; в США: AT&T, IBM, Texas Instruments, Xerox. 3 Краткие сведения онейроне
Нейрон – это нервная клетка, состоящая из тела и отростков,соединяющих ее с внешним миром.
/>
Рисунок1 — Биологический нейрон
Биологический нейрон содержит следующие структурные единицы:
Тело клетки (т) — сома: содержит ядро (я), митохондрии (обеспечивают клеткуэнергией), другие органеллы, поддерживающие жизнедеятельность клетки.
Дендриты (д) – входные волокна, собирают информацию от других нейронов.Активность в дендритах меняется плавно. Длина их обычно не больше 1 мм.
Мембрана – поддерживает постоянный состав цитоплазмы внутри клетки,обеспечивает проведение нервных импульсов.
Цитоплазма — внутренняя среда клетки. Отличается концентрацией ионов K+,Na+, Ca++ и других веществ по сравнению с внеклеточной средой.
Аксон (а), один или ни одного у каждой клетки, – длинное, иногда большеметра, выходное нервное волокно клетки. Импульс генерируется в аксонном холмике(а.х.). Аксон обеспечивает проведение импульса и передачу воздействия на другиенейроны или мышечные волокна (мв). Ближе к концу аксон часто ветвится.
Синапс (с) – место контакта нервных волокон — передает возбуждение отклетки к клетке. Передача через синапс почти всегда однонаправленная. Различаютпресинаптические и постсинаптические клетки — по направлению передачи импульса.
Шванновские клетки (шв.кл). Специфические клетки, почти целикомсостоящие из миелина, органического изолирующего вещества. Плотно«обматывают» нервное волокно 250 слоями миелина. Неизолированныеместа нервного волокна между шванновскими клетками называются перехватамиРанвье (пР). За счет миелиновой изоляции скорость распространения нервныхимпульсов возрастает в 5 — 10 раз и уменьшаются затраты энергии на проведениеимпульсов. Миелинизированные волокна встречаются только у высших животных.
В центральной нервной системе человека насчитывается от 100 до1000 типов нервных клеток, в зависимости выбранной степени детализации. Ониотличаются картиной дендритов, наличием и длиной аксона и распределениемсинапсов около клетки.
Клетки сильно связаны между собой. У нейрона может быть больше1000 синапсов. Близкие по функциям клетки образуют скопления, шаровидные илипараллельные слоистые. В мозгу выделены сотни скоплений. Кора головного мозга –тоже скопление. Толщина коры — 2 мм, площадь — около квадратного фута.
Нервный импульс (спайк) – процесс распространения возбуждения по аксону оттела клетки (аксонного холмика) до окончания аксона. Это основная единицаинформации, передаваемая по волокну, поэтому модель генерации и распространениянервных импульсов (НИ) — одна из важнейших в теории НС.
Импульсы по волокну передаются в виде скачков потенциалавнутриклеточной среды по отношению к внешней среде, окружающей клетку. Скоростьпередачи – от 1 до 100 м/с. Для миелинизированных волокон скорость передачипримерно в 5 – 10 раз выше, чем для немиелинизированных.
При распространении форма спайка не меняется. Импульсы незатухают. Форма спайка фиксирована, определяется свойствами волокна и независит от того, каким способом создан импульс.
При воздействии вспышек света постоянной длительности и различнойинтенсивности вырабатывались импульсы в соответствующем зрительном волокне.Было определено, что от интенсивности света зависит не амплитуда импульсов и ихформа, а плотность и общее количество. 4 Искусственный нейрон
Несмотря на большое разнообразие вариантов нейронных сетей, всеони имеют общие черты. Так, все они, так же, как и мозг человека, состоят избольшого числа связанных между собой однотипных элементов – нейронов, которыеимитируют нейроны головного мозга. На рисунке показана схема нейрона.
/>
Рисунок2 — Схема нейрона
Из рисунка видно, что искусственный нейрон, так же, как и живой,состоит из синапсов, связывающих входы нейрона с ядром; ядра нейрона, котороеосуществляет обработку входных сигналов и аксона, который связывает нейрон снейронами следующего слоя. Каждый синапс имеет вес, который определяет,насколько соответствующий вход нейрона влияет на его состояние. Состояниенейрона определяется по формуле:
S= ånxiwi,
где
n – число входов нейрона;
xi – значение i-го входа нейрона;
wi – весi-го синапса.
Затем определяется значение аксона нейрона по формуле
Y = f(S),
где f – некоторая функция, которая называетсяактивационной.
Самая простая интерпретация выработки сигнала в аксон – сравнениесуммарного возбуждения с некоторым пороговым значением. Исходя из этойинтерпретации, искусственный нейрон будет иметь схему, показанную на рисунке 3.
/>
Рисунок3 — Элементы схемы нейрона
Наиболее часто в качестве активационной функции используется такназываемый сигмоид, который имеет следующий вид:
/>.
Основное достоинство этой функции в том, что она дифференцируемана всей оси абсцисс и имеет очень простую производную:
f'(s) = af(s)(1 – f(s)).
При уменьшении параметра a сигмоид становится болеепологим, вырождаясь в горизонтальную линию на уровне 0,5 приa=0.При увеличении a сигмоид все больше приближается к функцииединичного скачка. 5 Искусственные нейронныесети. Персептрон
Нейроны в сети могут соединяться регулярным или случайным образом.Работа сети разделяется на обучение и тестирование.
Под обучением понимается процесс адаптации сети к предъявляемымэталонным образам путем модификации (в соответствии с тем или иным алгоритмом)весовых коэффициентов связей между нейронами.
Тестирование – это работа сети при подаче входного возбуждения (образа дляраспознавания) и неизменных весовых коэффициентах. Если сеть работаетправильно, то подаваемое на вход возбуждение должно вызывать появление навыходе той реакции, на которую сеть была обучена, и при этом сеть должнастабилизироваться.
Свойства нейронной сети зависят от следующих факторов:
- моделинейронов;
- структурысети;
- алгоритмаобучения;
- порядкапредъявления сети эталонных образов;
- характерасамих эталонов.
Искусственные нейронные сети могут иметь слоистую структуру.
Слой, воспринимающий внешнее раздражение, называют рецепторным.Как правило, он служит для распределения сигналов на другие слои и никакойвычислительной работы не выполняет.
Слой, с которого снимается реакция сети, называется эффекторным.
Слои, находящиеся между этими двумя, называются скрытыми.
Связи между слоями в направлении от рецепторного слоя кэффекторному, называются прямыми, а с противоположным направлением – обратными.
Самым распространенным видом сети стал многослойный персептрон.В многослойном персептроне (МСП) нет обратных связей. Такие моделиназываются сетями прямого распространения. Они не обладают внутреннимсостоянием и не позволяют без дополнительных приемов моделировать развитиединамических систем.
Функция активации «жесткая ступенька» используется в классическомформальном нейроне:
┌ 0, x
f(x) = ┤
└ 1, x ≥θ.
Функция вычисляется двумя — тремя машинными инструкциями, поэтомунейроны с такой нелинейностью требуют малых вычислительных затрат. Эта функциячрезмерно упрощена и не позволяет моделировать схемы с непрерывными сигналами.
Сеть состоит из произвольного количества слоев нейронов. Нейроныкаждого слоя соединяются с нейронами предыдущего и последующего слоев попринципу «каждый с каждым». Количество нейронов в слоях может бытьпроизвольным. Обычно во всех скрытых слоях одинаковое количество нейронов.Существует путаница с подсчетом количества слоев в сети. Входной слой не выполняетникаких вычислений, а лишь распределяет входные сигналы, поэтому иногда егосчитают, иногда — нет.
Каждый слой рассчитывает нелинейное преобразование от линейнойкомбинации сигналов предыдущего слоя. Отсюда видно, что линейная функцияактивации может применяться только для тех моделей сетей, где не требуетсяпоследовательное соединение слоев нейронов друг за другом. Для многослойныхсетей функция активации должна быть нелинейной, иначе можно построитьэквивалентную однослойную сеть, и многослойность оказывается ненужной. Еслиприменена линейная функция активации, то каждый слой будет давать на выходелинейную комбинацию входов. Следующий слой даст линейную комбинацию выходовпредыдущего, а это эквивалентно одной линейной комбинации с другимикоэффициентами, и может быть реализовано в виде одного слоя нейронов.
Многослойная сеть может формировать на выходе произвольнуюмногомерную функцию при соответствующем выборе количества слоев, диапазонаизменения сигналов и параметров нейронов. Как и ряды, многослойные сетиоказываются универсальным инструментом аппроксимации функций. Видно отличиеработы нейронной сети от разложения функции в ряд:
f(x) = ∑cifi(x).
За счет поочередного расчета линейных комбинаций и нелинейныхпреобразований достигается аппроксимация произвольной многомерной функции присоответствующем выборе параметров сети.
В многослойном персептроне нет обратных связей. Такие моделиназываются сетями прямого распространения. Они не обладают внутреннимсостоянием и не позволяют без дополнительных приемов моделировать развитиединамических систем. 6 Проблема XOR
Наглядной и уже ставшей классической иллюстрацией ограниченностидля однослойного персептрона является функция «исключающее ИЛИ». Этабулева функция от двух переменных принимает значение «истина», когдазначения входных переменных различны, и «ложь» – в противном случае.Попробуем применить однослойную сеть, состоящую из одного нейрона, дляпостроения этой функции.
Для сохранения симметрии будем сопоставим значению«ложь» сигнал нейросети, равный -1, а значению «истина» —равный 1. Значения входов и выходов дискретны, и есть смысл использоватьжесткую ступеньку в качестве функции активации. Требуемая таблица истинности исоответствующие уравнения для весов и порогов для функции «исключающееили» имеет вид:
Таблица 1 — Система неравенств для построения функции XOR
x1
x2
y Условие 1 1 -1
w1 + w2 — Θ 1 -1 1
w1 — w2 — Θ > 0 -1 1 1
-w1 + w2 — Θ > 0 -1 -1 -1
-w1 — w2 — Θ
Вычтем из первого уравнения второе, а из третьего — четвертое.Получим несовместную систему:
2w2
2w2 >0.
Хотя система условий в таблице — лишь система неравенств, пустьсодержащая три переменных и четыре уравнения, она оказывается несовместной.Следовательно, функция XOR не реализуется на однослойном персептроне. Тот жерезультат можно получить графически. Возможные значения входов сети — нарисунке.
/>
Рисунок4 — Графическое представление функции XOR
Один нейрон с двумя входами может сформировать решающуюповерхность в виде прямой. Требуется провести ее так, чтобы отделить значения y= 1 от значений y = -1. Очевидно, что это невозможно.
Задачи, для которых не существует решающей поверхности в видегиперплоскости, называются линейно неразделимыми.
Хотя данный пример нагляден, он не является серьезным ограничениемнейросетей. Функция XOR легко формируется уже двухслойной сетью, причем многимиспособами. 7 Решение проблемы XOR
Для построения булевых функций c помощью нейросетей естьзавершенные математические методы [Мкртчян71]. Рассмотрим простейший пример ипостроим нейронную сеть без предварительного обучения.
Запишем функцию XOR в виде: y= x1XORx2= (x1 ANDNOTx2) OR(NOTx1 ANDx2). Алгоритмическиеобозначения операторов использованы для наглядности. Легко построитьдвухслойную сеть для реализации такой функции. Инверсию можно осуществитьотрицательным весовым коэффициентом, а операции AND и OR — каждую отдельнымнейроном с различными значениями порогов. Схема сети представлена на рисунке 6.
/>
Рисунок5 — Двухслойная сеть, реализующая функцию XOR.
Таблица 2 -Таблица истинности для нейронной сети
x1
x2
d1
d2
y1
y2
d
y -1 -1 -1 -1 -2w -1 -1 1 -w w -1 1 w 1 1 -1 w -w 1 -1 w 1 1 1 1 1 -2w -1 8 Нейронные сетиобратного распространения
Нейронные сети обратного распространения – это инструмент поисказакономерностей, прогнозирования, качественного анализа. Такое название – сетиобратного распространения (back propagation), — они получили из-заиспользуемого алгоритма обучения, в котором ошибка распространяется отвыходного слоя к входному, т. е. в направлении, противоположном направлениюраспространения сигнала при нормальном функционировании сети.
Нейронная сеть обратного распространения состоит из несколькихслоев нейронов, причем каждый нейрон слоя i связан с каждым нейрономслоя i+1, т. е. речь идет о полносвязной НС.
В принципе, для создания нейронных сетей количество слоевопределяется исходя из поставленной задачи. Чем больше слоев в сети, тем болеесложную функцию можно представить с помощью ИНС. При решении практических задачобычно выбираются один или два скрытых слоя, так как при большем количествеслоев трудно обучать ИНС.
В общем случае задача обучения НС сводится к нахождению некойфункциональной зависимости Y=F(X) где X – входной, а Y –выходной векторы. В общем случае такая задача, при ограниченном наборе входныхданных, имеет бесконечное множество решений. Для ограничения пространства поискапри обучении ставится задача минимизации целевой функции ошибки НС, котораянаходится по методу наименьших квадратов:
/>
где
yj – значение j-го выхода нейросети;
dj– целевое значение j-го выхода;
k– число нейронов в выходном слое.
Обучение нейросети производится методом градиентного спуска, т. е.на каждой итерации изменение веса производится по формуле
/>
где ή – параметр, определяющий скорость обучения.
Для выходного слоя можно записать компоненты градиента по весамфункции ошибки:
/>
где
yj– значение выхода j-го нейрона;
Sj– взвешенная сумма входных сигналов j-го нейрона;
wij– i-тый вход j – того нейрона.
При этом производная взвешенной суммы по весам будет равна:
/>
где xi – значение i-го входанейрона.
Для выходного слоя производная функции ошибки будет равна:
/>,
где p – номер обучающего образца.
Если в качестве активационной функции используется сигмоид, то /> будетопределяться формулой:
/>,
где />, определяет текущее значениевыходного сигнала.
Расчеты по вышеприведенным формулам позволяют выполнить коррекциювесов для нейронов последнего слоя. Для получения формул для других слоев можновоспользоваться формулой производной функции ошибки по входному сигналу (n –номер слоя):
/>.
Последний сомножитель тождественно совпадает с весовымкоэффициентом i – того входа j – того нейрона:
/>.
Но производная по входному значению />для последнего слоя тождественносовпадает с производной по соответствующему выходу для предыдущего слоя:
/>.
Первый множитель формулы (7) определяется формулой:
/>,
где k –число нейронов в слое n.
Вводится вспомогательная переменная
/>
Тогда можно задать рекурсивную формулу для определения /> (n-1) — гослоя, если известны />следующего n — го слоя.
/> .
Нахождение же />для последнего слоя нейронной сетине представляет трудности, так как известен целевой вектор, т. е. вектор техзначений, которые должна выдавать нейронная сеть при данном наборе входныхзначений.
/>.
Можно записать формулу для приращений весовых коэффициентов враскрытом виде
/>.
Полный алгоритм обучения нейросети складывается из следующихшагов:
1) подать на вход НС один из обучающих образов и определитьзначения выходов нейронов;
2) рассчитать функцию ошибки Е. Если значение ошибки непревышает допустимое, то выбрать следующий обучающий образец и перейти на шаг1. Целесообразно организовать случайный выбор образцов из обучающейпоследовательности. Иначе – к следующему пункту;
3) рассчитать />для выходного слоя нейронной сети поформуле (12) и рассчитать изменения весов />выходного слоя n по формуле(13);
4) рассчитать по формулам (11) и (13) соответственно /> и /> для остальных слоев, n = N-1..1;
5) скорректировать все веса нейронной сети:
/>
6) перейти на шаг 1. 9 Повышение эффективностиобучения
Простейший метод градиентного спуска, рассмотренный выше, оченьнеэффективен в случае, когда производные по различным весам сильно отличаются.Это соответствует ситуации, когда значение функции S для некоторых нейроновблизка по модулю к 1 или когда модуль некоторых весов много больше 1. В этомслучае для плавного уменьшения ошибки надо выбирать очень маленькую скоростьобучения, но при этом обучение может занять непозволительно много времени.
Простейшим методом усовершенствования градиентного спуска являетсявведение момента µ, когда влияние градиента на изменение весов изменяется современем. Тогда формула (13) примет вид
/>
Дополнительным преимуществом от введения момента являетсяспособность алгоритма преодолевать мелкие локальные минимумы. 10 Подготовка входных ивыходных данных
Данные, подаваемые на вход сети и снимаемые с выхода, должны бытьправильно подготовлены.
Один из распространенных способов — масштабирование:
x = ( x’ – m)*c,
где
x’ — исходный вектор,
x — масштабированный;
m – вектор усредненных значений совокупности входных данных;
с — масштабный коэффициент.
Масштабирование желательно, чтобы привести данные в допустимыйдиапазон. Если этого не сделать, то возможно несколько проблем:
1) нейроны входного слоя или окажутся в постоянном насыщении (|m|велик, дисперсия входных данных мала) или будут все время заторможены (|m|мал, дисперсия мала);
2) весовые коэффициенты примут очень большие или очень малыезначения при обучении (в зависимости от дисперсии), и, как следствие,растянется процесс обучения и снизится точность.
Рассмотрим набор входных данных для сети с одним входом:
{x’} = {10 10.5 10.2 10.3 10.1 10.4}.
Если функция активации — гиперболический тангенс с множествомзначений, то при весовых коэффициентах около единицы нейроны входного слояокажутся в насыщении для всех x′. Применим масштабированиес m=10,2 и c=4. Это даст значения в допустимом диапазоне (-1; 1).
Выходы сети масштабируются так же. Т.к. пользователь сам выбираетсмысл выходного вектора при создании сети, то данные подготавливаются так,чтобы диапазон изменения выходных сигналов лежал на рабочем участке функцииактивации.
Основное отличие НС в том, что в них все входные и выходныепараметры представлены в виде чисел с плавающей точкой обычно в диапазоне[0..1]. В то же время данные предметной области часто имеют другое кодирование.Это могут быть числа в произвольном диапазоне, даты, символьные строки. Такимобразом, данные о проблеме могут быть как количественными, так и качественными.
Качественные данные можно разделить на две группы: упорядоченные (ординальные)и неупорядоченные. Способы кодирования этих данных рассматриваются на примерезадачи о прогнозировании успешности лечения какого-либо заболевания. Например,примером упорядоченных данных могут быть данные о дополнительных факторах рискапри каком — либо заболевании.
нет
ожирение
алкоголь
курение
гипертония
Опасность каждого фактора возрастает при движении слева направо.
В первом случае у больного может быть несколько факторов рискаодновременно. В таком случае необходимо использовать такое кодирование, прикотором отсутствует ситуация, когда разным комбинациям факторов соответствуетодно и то же значение. Наиболее распространен способ кодирования, когда каждомуфактору ставится в соответствие разряд двоичного числа. 1 в этом разрядеговорит о наличии фактора, а 0 о его отсутствии. Параметру нет можнопоставить в соответствии число 0. Таким образом, для представления всехфакторов достаточно 4-х разрядного двоичного числа. Таким образом, число 01012означает наличие у больного гипертонии и употребления алкоголя, а числу 00002соответствует отсутствие у больного факторов риска. Таким образом факторы рискабудут представлены числами в диапазоне [0..15].
Другим возможным примером может быть возраст больного: до 25 лет 25-39 лет 40-49 лет 50-59 лет 60 и старше
Во этом случае также можно кодировать все значения двоичнымивесами, но это будет нецелесообразно, т.к. набор возможных значений будетслишком неравномерным. Более правильным будет установка в соответствие каждомузначению своего веса, отличающегося на 1 от веса соседнего значения. Так, число3 будет соответствовать возрасту 50--59лет. Таким образом, возраст будетзакодирован числами в диапазоне [0..4].
В принципе аналогично можно поступать и для неупорядоченныхданных, поставив в соответствие каждому значению какое-либо число. Однако этовводит нежелательную упорядоченность, которая может исказить данные, и сильнозатруднить процесс обучения. В качестве одного из способов решения этойпроблемы можно предложить поставить в соответствие каждому значению одного извходов НС. В этом случае при наличии этого значения соответствующий ему входустанавливается в 1 или в 0 при противном случае. К сожалению, данный способ неявляется панацеей, ибо при большом количестве вариантов входного значения числовходов НС разрастается до огромного количества. Это резко увеличит затратывремени на обучение. В качестве варианта обхода этой проблемы можноиспользовать несколько другое решение. В соответствие каждому значению входногопараметра ставится бинарный вектор, каждый разряд которого соответствуетотдельному входу НС. Например, если число возможных значений параметра 128, томожно использовать 7 разрядов.
11 Методы обучения
Алгоритмы обучения бывают с учителем и без. Алгоритм называется алгоритмомс учителем, если:
1) при обучении известны и входные, и выходные вектора сети;
2) имеются пары вход + выход — известные условия задачи и решение.
В процессе обучения сеть меняет свои параметры и учится даватьнужное отображение X → Y. Сеть учится давать результаты, которыенам уже известны. За счет способности к обобщению сетью могут быть полученыновые результаты, если подать на вход вектор, который не встречался приобучении.
Алгоритм относится к обучению без учителя, если известны тольковходные вектора, и на их основе сеть учится давать наилучшие значения выходов.Что понимается под “наилучшими” — определяется алгоритмом обучения.
Персептрон обучается с учителем. Это означает, что должно бытьзадано множество пар векторов {xs, ds}, где { xs} — формализованное условие задачи, { ds } — известноерешение для этого условия. Совокупность пар {xs, ds}составляет обучающее множество.S — количество элементов в обучающеммножестве — должно быть достаточным для обучения сети, чтобы под управлениемалгоритма сформировать набор параметров сети, дающий нужное отображение X →Y. Количество пар в обучающем множестве не регламентируется. Если элементовслишком много или мало, сеть не обучится и не решит поставленную задачу. 12 Нейронные сетиХопфилда и Хэмминга
Среди различных конфигураций искусственных нейронных сетей (НС)встречаются такие, при классификации которых по принципу обучения, строгоговоря, не подходят ни обучение с учителем, ни обучение без учителя. В такихсетях весовые коэффициенты синапсов рассчитываются только однажды перед началомфункционирования сети на основе информации об обрабатываемых данных, и всеобучение сети сводится именно к этому расчету. С одной стороны, предъявлениеаприорной информации можно расценивать, как помощь учителя, но с другой – сетьфактически просто запоминает образцы до того, как на ее вход поступают реальныеданные, и не может изменять свое поведение, поэтому говорить о звене обратнойсвязи с «миром» (учителем) не приходится. Из сетей с подобной логикойработы наиболее известны сеть Хопфилда и сеть Хэмминга, которые обычноиспользуются для организации ассоциативной памяти. Далее речь пойдет именно оних.
Структурная схема сети Хопфилда приведена на рисунке. Она состоитиз единственного слоя нейронов, число которых является одновременно числомвходов и выходов сети. Каждый нейрон связан синапсами со всеми остальныминейронами, а также имеет один входной синапс, через который осуществляется вводсигнала. Выходные сигналы, как обычно, образуются на аксонах Задача, решаемаяданной сетью в качестве ассоциативной памяти, как правило, формулируетсяследующим образом. Известен некоторый набор двоичных сигналов (изображений,звуковых оцифровок, прочих данных, описывающих некие объекты или характеристикипроцессов), которые считаются образцовыми. Сеть должна уметь из произвольногонеидеального сигнала, поданного на ее вход, выделить («вспомнить» почастичной информации) соответствующий образец (если такой есть) или «датьзаключение» о том, что входные данные не соответствуют ни одному изобразцов. В общем случае, любой сигнал может быть описан вектором X = { xi:i=0...n-1}, n – число нейронов в сети и размерность входных и выходныхвекторов. Каждый элемент xi равен либо +1, либо -1. Обозначимвектор, описывающий k-ый образец, через Xk, а егокомпоненты, соответственно, – xik, k=0...m-1, m – числообразцов. Когда сеть распознает (или «вспомнит») какой-либо образецна основе предъявленных ей данных, ее выходы будут содержать именно его, тоесть Y = Xk, где Y – вектор выходных значений сети: Y= { yi: i=0,...n-1}. В противном случае, выходной вектор несовпадет ни с одним образцовым.
/>
Рисунок6 — Структурная схема сети Хопфилда
Если, например, сигналы представляют собой некие изображения, то,отобразив в графическом виде данные с выхода сети, можно будет увидетькартинку, полностью совпадающую с одной из образцовых (в случае успеха) или же«вольную импровизацию» сети (в случае неудачи).
На стадии инициализации сети весовые коэффициенты синапсовустанавливаются следующим образом:
/>
Здесь i и j – индексы, соответственно,предсинаптического и постсинаптического нейронов; xik, xjk– i-ый и j-ый элементы вектора k-ого образца.
Алгоритм функционирования сети следующий (p – номеритерации):
1) На входы сети подается неизвестный сигнал. Фактически его вводосуществляется непосредственной установкой значений аксонов:
yi(0) = xi, i = 0...n-1,
поэтому обозначение на схеме сети входных синапсов в явном виденосит чисто условный характер. Ноль в скобке справа отyiозначает нулевую итерацию в цикле работы сети.
2) Рассчитывается новое состояние нейронов
/>
и новые значения аксонов
/>
где f – активационная функция в виде скачка,приведенная на рисунке 7, а.
/>
Рисунок7 — Активационная функция
3) Проверка, изменились ли выходные значения аксонов за последнююитерацию. Если да – переход к пункту 2, иначе (если выходы застабилизировались)– конец. При этом выходной вектор представляет собой образец, наилучшим образомсочетающийся с входными данными.
Как говорилось выше, иногда сеть не может провести распознавание ивыдает на выходе несуществующий образ. Это связано с проблемой ограниченностивозможностей сети. Для сети Хопфилда число запоминаемых образов mне должно превышать величины, примерно равной 0.15 • n. Кроме того, еслидва образа А и Б сильно похожи, они, возможно, будут вызывать у сетиперекрестные ассоциации, то есть предъявление на входы сети вектора А приведетк появлению на ее выходах вектора Б и наоборот.
/>
Рисунок 8 — Структурная схема сети Хэмминга
Когда нет необходимости, чтобы сеть в явном виде выдавала образец,то есть достаточно, скажем, получать номер образца, ассоциативную памятьуспешно реализует сеть Хэмминга. Данная сеть характеризуется, по сравнению ссетью Хопфилда, меньшими затратами на память и объемом вычислений, что становитсяочевидным из ее структуры (см. рисунок).
Сеть состоит из двух слоев. Первый и второй слои имеют по mнейронов, где m – число образцов. Нейроны первого слоя имеют по nсинапсов, соединенных с входами сети (образующими фиктивный нулевой слой).Нейроны второго слоя связаны между собой ингибиторными (отрицательнымиобратными) синаптическими связями. Единственный синапс с положительной обратнойсвязью для каждого нейрона соединен с его же аксоном.
Идея работы сети состоит в нахождении расстояния Хэмминга оттестируемого образа до всех образцов. Расстоянием Хэмминга называется числоотличающихся битов в двух бинарных векторах. Сеть должна выбрать образец сминимальным расстоянием Хэмминга до неизвестного входного сигнала, в результатечего будет активизирован только один выход сети, соответствующий этому образцу.
1) На стадии инициализации весовым коэффициентам первого слоя ипорогу Tk активационной функции присваиваются следующие значения
/>, i=0...n-1
Tk = n / 2, дляk = 0,…., m – 1;
0 em,
где n – количество входов;
m – количество нейронов в слое.
После этого полученными значениями инициализируются значенияаксонов второго слоя:
/>
yj(2) = yj(1), j = 0...m-1
2) Вычислить новые состояния нейронов второго слоя:
/>
и значения их аксонов:
/>
Активационная функция f имеет вид порога (рисунок3.2, б), причем величина F должна быть достаточно большой, чтобы любыевозможные значения аргумента не приводили к насыщению.
3) Проверить, изменились ли выходы нейронов второго слоя запоследнюю итерацию. Если да – перейди к шагу 2, иначе – конец.
Из оценки алгоритма видно, что роль первого слоя весьма условна:воспользовавшись один раз на шаге 1 значениями его весовых коэффициентов, сетьбольше не обращается к нему, поэтому первый слой может быть вообще исключен изсети (заменен на матрицу весовых коэффициентов).
Выводы
В процессеизучения темы «Самообучающиеся автоматы» мы ознакомились со следующимивопросами:— моделями обучения;— введением в нейронные сети;— краткими сведениями о нейроне;— искусственным нейроном;— проблемой XOR;— решением проблем XOR;— нейронными сетями обратного распространения;— повышением эффективности обучения;— методами обучения;— нейронными сетями Хопфилда и Хэмминга.
Литература
1. Уоссермен Ф.,Нейрокомпьютерная техника, — М., Мир, 1992.
2. Горбань А.Н. Обучениенейронных сетей. — М.: ПараГраф, 1990
3. Горбань А.Н., РоссиевД.А. Нейронные сети на персональном компьютере. — Новосибирск: Наука, 1996
4. Gilev S.E., Gorban A.N., Mirkes E.M. Several methods foraccelerating the training process of neural networks in pattern recognition //Adv. Modelling & Analysis, A. AMSE Press. – 1992. – Vol.12,N4. – P.29-53
5. С. Короткий. Нейронные сети: алгоритм обратного распространения.
6. С. Короткий, Нейронныесети: обучение без учителя. Artificial Neural Networks: Concepts and Theory,IEEE Computer Society Press, 1992.
7. Заенцев И. В. Нейронныесети: основные модели./Учебное пособие к курсу «Нейронные сети» длястудентов 5 курса магистратуры к. электроники физического ф-та ВоронежскогоГосударственного университета – e-mail: ivz@ivz.vrn.ru
/>8. Лорьер Ж.Л. Системы искусственного интеллекта.– М.: Мир, 1991. – 568 с.
9. Искусственный интеллект. – В 3-х кн. Кн. 2. Модели и методы:Справочник/ Под ред. Поспелова Д. А. – М.: Радио и связь, 1990. – 304 с.
10. Бек Л. Введение в системное программирование.- М.: Мир,1988.
11. Шлеер С., Меллор С.Объектно-ориентированный анализ: моделирование мира в состояниях. – К.:Диалектика, 1993. – 240 с.
12. Буч Г. Объектно-ориентированныйанализ и проектирование с примерами приложений на С++. — www.nexus.odessa.ua/files/books/booch.
13. Аджиев В. MS:корпоративная культура разработки ПО – http:// www.osp.ru
14. Трофимов С.А. Case-технологии. Практическаяработа в Rational Rose. – М.: ЗАО «Издательство БИНОМ», 2001.
15. Новичков А. Эффективнаяразработка программного обеспечения с использованием технологий и инструментовкомпании RATIONAL. – www.interface.ru
16. Selic B., Rumbaugh J. Использование UML при моделированиисложных систем реального времени. — www.interface.ru.