Использование нейросетей для построения системы распознавания речи

Содержание
Введение
1. Распознавание речи –ключевые моменты
2. Возможностьиспользования нейросетей для построения системы распознавания речи
3. Самообучающиесяавтономные системы
4. Система распознаванияречи как самообучающаяся система
5. Описание системы
5.1 Ввод звука
5.2 Наложение первичныхпризнаков на вход нейросети
5.3 Модель нейросети
5.4 Обучение нейросети
6. Применение
Список использованныхисточников

Введение
Я думаю, нетсмысла рассказывать о том, зачем нужно исследование искусственных нейронныхсетей, чем они привлекают исследователей и какие новые возможности ониоткрывают перед разработчиками систем обработки информации — если Вы сейчасчитаете эту статью, то Вам итак все ясно. Если же Вы новичок в областинейрокомпьютинга и всего, что с ним связано, то существует огромное количествостатей, научных публикаций, учебной литературы, посвященной нейросетям([1],[5],[6],[8]); написано множество программ, создано множество работающихобразцов (от простых исследовательских моделей до полнофункциональныхпромышленных систем), в которых используются нейросети. В общем, теоретическоеисследование нейросетевых алгоритмов ведется уже давно, и на данный момент ониуже широко применяются для решения практических задач. В связи с очевиднойконкурентоспособностью этого способа обработки информации по сравнению с существующимина сегодняшний момент традиционными способами особый интерес представляетпроблема определения круга задач, для которых было бы эффективным применениенейросетевых алгоритмов. Распознавание образов – это одна из задач, успешнорешаемых нейросетями. Одним из приложений теории распознавания образов являетсяраспознавание речи. Проблема распознавания речи как одно из составляющихискусственного интеллекта давно привлекала исследователей, и на сегодняшнийдень хоть и достигнуты определенные успехи, она остается открытой. Объединеннаяс проблемой синтеза речи, она представляет очень интересное поле дляисследований.
Попытатьсяприменить нейросетевые алгоритмы на практике, описать и решить возникшиепроблемы, а также разработать теорию автономных самообучающихся систем иреализовать её на конкретном примере – вот какие задачи ставились в рамках этойработы.

1. Распознавание речи – ключевые моменты
Чтопонимается под распознаванием речи? Это может быть преобразование речи в текст,распознавание и выполнение определенных команд, выделение из речи каких либохарактеристик (например, идентификация диктора, определение его эмоциональногосостояния, пола, возраста, и т.д.) – все это в разных источниках может попастьпод это определение. В моей работе под распознаванием речи понимается отнесениезвуков речи или их последовательности (фонем, букв, слов) к какому-либо классу.Затем этому классу могут быть сопоставлены символы алфавита – получим системупреобразования речи в текст, или определенные действия – получим системувыполнения речевых команд. Вообще этот способ обработки речевой информацииможет использоваться на первом уровне какой-либо системы с гораздо болеесложной структурой. И от эффективности этого классификатора будет зависетьэффективность работы системы в целом.
Какиепроблемы возникают при построения системы распознавания речи? Главнаяособенность речевого сигнала в том, что он очень сильно варьируется по многимпараметрам: длительность, темп, высота голоса, искажения, вносимые большойизменчивостью голосового тракта человека, различными эмоциональными состояниямидиктора, сильным различием голосов разных людей. Два временных представлениезвука речи даже для одного и того же человека, записанные в один и тот жемомент времени, не будут совпадать. Необходимо искать такие параметры речевогосигнала, которые полностью описывали бы его (т.е. позволяли бы отличить одинзвук речи от другого), но были бы в какой-то мере инвариантны относительноописанных выше вариаций речи. Полученные таким образом параметры должны затемсравниваться с образцами, причем это должно быть не простое сравнение насовпадение, а поиск наибольшего соответствия. Это вынуждает искать нужную формурасстояния в найденном параметрическом пространстве.
Далее, объеминформации, которую может хранить система, не безграничен. Каким образомзапомнить практически бесконечное число вариаций речевых сигналов? Очевидно,здесь не обойтись без какой-либо формы статистического усреднения.
Ещё однапроблема – это скорость поиска в базе данных. Чем больше её размер, теммедленнее будет производиться поиск – это утверждение верно, но только дляобычных последовательных вычислительных машин. А какие же ещё машины смогутрешить все вышеперечисленные проблемы? – спросите Вы. Совершенно верно, этонейросети.

2. Возможность использования нейросетей для построения системыраспознавания речи
Классификация- это одна из «любимых» для нейросетей задач. Причем нейросеть может выполнятьклассификацию даже при обучении без учителя (правда, при этом образующиесяклассы не имеют смысла, но ничто не мешает в дальнейшем ассоциировать их сдругими классами, представляющими другой тип информации – фактически наделитьих смыслом). Любой речевой сигнал можно представить как вектор в каком-либопараметрическом пространстве, затем этот вектор может быть запомнен внейросети. Одна из моделей нейросети, обучающаяся без учителя – этосамоорганизующаяся карта признаков Кохонена. В ней для множества входныхсигналов формируется нейронные ансамбли, представляющие эти сигналы. Этоталгоритм обладает способностью к статистическому усреднению, т.е. решаетсяпроблема с вариативностью речи. Как и многие другие нейросетевые алгоритмы, оносуществляет параллельную обработку информации, т.е. одновременно работают всенейроны. Тем самым решается проблема со скоростью распознавания – обычно времяработы нейросети составляет несколько итераций.
Далее, наоснове нейросетей легко строятся иерархические многоуровневые структуры, приэтом сохраняется их прозрачность (возможность их раздельного анализа). Так какфактически речь является составной, т.е. разбивается на фразы, слова, буквы,звуки, то и систему распознавания речи логично строить иерархическую.
Наконец, ещёодним важным свойством нейросетей (а на мой взгляд, это самое перспективное ихсвойство) является гибкость архитектуры. Под этим может быть не совсем точнымтермином я имею в виду то, что фактически алгоритм работы нейросетиопределяется её архитектурой. Автоматическое создание алгоритмов – это мечтауже нескольких десятилетий. Но создание алгоритмов на языках программированияпока под силу только человеку. Конечно, созданы специальные языки, позволяющиевыполнять автоматическую генерацию алгоритмов, но и они не намного упрощают этузадачу. А в нейросетях генерация нового алгоритма достигается простымизменением её архитектуры. При этом возможно получить совершенно новое решениезадачи. Введя корректное правило отбора, определяющее, лучше или хуже новаянейросеть решает задачу, и правила модификации нейросети, можно в конце концовполучить нейросеть, которая решит задачу верно. Все нейросетевые модели,объединенные такой парадигмой, образуют множество генетических алгоритмов. Приэтом очень четко прослеживается связь генетических алгоритмов и эволюционнойтеории (отсюда и характерные термины: популяция, гены, родители-потомки,скрещивание, мутация). Таким образом, существует возможность создания такихнейросетей, которые не были изучены исследователями или не поддаются аналитическомуизучению, но тем не менее успешно решают задачу.
Итак, мыустановили, что задача распознавания речи может быть решена при помощинейросетей, причем они имеют все права на конкуренцию с обычными алгоритмами.

/>/>/>3. Самообучающиеся автономные системы
Чемотличается работа, которую выполняют роботы и которую может выполнить человек?Роботы могут обладать качествами, намного превосходящими возможности людей:высокая точностью, сила, реакция, отсутствие усталости. Но вместе с тем ониостаются просто инструментами в руках человека. Существует работа, котораяможет быть выполнена только человеком и которая не может быть выполненароботами (или необходимо создавать неоправданно сложных роботов). Главноеотличие человека от робота – это способность адаптироваться к изменениюобстановки. Конечно, практически у всех роботов существует способность работатьв нескольких режимах, обрабатывать исключительные ситуации, но все этоизначально закладывается в него человеком. Таким образом, главный недостатокроботов – это отсутствие автономности (требуется контроль человека) иотсутствие адаптации к изменению условий (все возможные ситуации закладываютсяв него в процессе создания). В связи с этим актуальна проблема создания систем,обладающих такими свойствами.
Один изспособов создать автономную систему с возможностью адаптации – это наделить еёспособностью обучаться. При этом в отличие от обычных роботов, создаваемых сзаранее просчитанными свойствами, такие системы будут обладать некоторой долейуниверсальности.
Попыткисоздания таких систем предпринимались многими исследователями, в том числе и сиспользованием нейросетей. Один из примеров – созданный в Киевском Институтекибернетики еще в 70-х годах макет транспортного автономного интегральногоробота (ТАИР) (см. [6]). Этот робот обучался находить дорогу на некоторойместности и затем мог использоваться как транспортное средство.
Вот какимисвойствами, по моему мнению, должны обладать такие системы:
Разработкасистемы заключается только в построении её архитектуры.
В процессесоздания системы разработчик создает только функциональную часть, но ненаполняет (или наполняет в минимальных объемах) систему информацией. Основнуючасть информации система получает в процессе обучения.
Возможностьконтроля своих действий с последующей коррекцией
Этот принципговорит о необходимости обратной связи [Действие]-[Результат]-[Коррекция] всистеме. Такие цепочки очень широко распространены в сложных биологическихорганизмах и используются на всех уровнях – от контроля мышечных сокращений насамом низком уровне до управления сложными механизмами поведения.
Возможностьнакопления знаний об объектах рабочей области
Знание обобъекте – это способность манипулировать его образом в памяти т.е. количествознаний об объекте определяется не только набором его свойств, но ещё иинформацией о его взаимодействии с другими объектами, поведении при различныхвоздействиях, нахождении в разных состояниях, и т.д., т.е его поведении вовнешнем окружении (например, знание о геометрическом объекте предполагаетвозможность предсказать вид его перспективной проекции при любом повороте иосвещении).
Это свойствонаделяет систему возможностью абстрагирования от реальных объектов, т.е. возможностьюанализировать объект при его отсутствии, тем самым открывая новые возможности вобучении
Автономностьсистемы
Приинтеграции комплекса действий, которые система способна совершать, с комплексомдатчиков, позволяющих контролировать свои действия и внешнюю среду, наделеннаявышеприведенными свойствами система будет способна взаимодействовать с внешниммиром на довольно сложном уровне, т.е. адекватно реагировать на изменениевнешнего окружения (естественно, если это будет заложено в систему на этапеобучения). Способность корректировать свое поведение в зависимости от внешнихусловий позволит частично или полностью устранить необходимость контроля извне,т.е. система станет автономной.

4. Система распознавания речи как самообучающаяся система
С цельюизучения особенностей самообучающихся систем модели распознавания и синтезаречи были объединены в одну систему, что позволило наделить её некоторымисвойствами самообучающихся систем. Это объединение является одним из ключевыхсвойств создаваемой модели. Что послужило причиной этого объединения?
Во-первых, усистемы присутствует возможность совершать действия (синтез) и анализировать их(распознавание), т.е. свойство (2). Во-вторых, присутствует свойство (1), таккак при разработке в систему не закладывается никакая информация, и возможностьраспознавания и синтеза звуков речи – это результат обучения.
Преимуществомполученной модели является возможность автоматического обучения синтезу.Механизм этого обучения описывается далее.
Ещё однойочень важной особенностью является возможность перевода запоминаемых образов вновое параметрическое пространство с гораздо меньшей размерностью. Этаособенность на данный момент в разрабатываемой системе не реализована и напрактике не проверена, но тем не менее я постараюсь кратко изложить её суть напримере распознавания речи.
Предположим,входной сигнал задается вектором первичных признаков в N-мерном пространстве.Для хранения такого сигнала необходимо N элементов. При этом на этапе разработкимы не знаем специфики сигнала или она настолько сложна, что учесть еёзатруднительно. Это приводит к тому, что представление сигнала, которое мыиспользуем, избыточно. Далее предположим, что у нас есть возможностьсинтезировать такие же сигналы (т.е. синтезировать речь), но при этомсинтезируемый сигнал является функцией вектора параметров в M-мерномпространстве, и M

5. Описание системы
Далееописывается модель автоматического распознавания и синтеза речи. Описываетсямеханизм ввода звука в нейросеть, модель синтеза речи, модель нейросети,проблемы, возникшие при построении модели.

5.1 Вводзвука
Ввод звукаосуществляется в реальном времени через звуковую карту или через файлы форматаMicrosoft Wave в кодировке PCM (разрядность 16 бит, частота дискретизации 22050Гц). Работа с файлами предпочтительней, так как позволяет многократно повторятьпроцессы их обработки нейросетью, что особенно важно при обучении.
Для того,чтобы звук можно было подать на вход нейросети, необходимо осуществить над нимнекоторые преобразования. Очевидно, что представление звука во временной форменеэффективно. Оно не отражает характерных особенностей звукового сигнала.Гораздо более информативно спектральное представление речи. Для полученияспектра используется набор полосовых фильтров, настроенных на выделениеразличных частот, или дискретное преобразование Фурье. Затем полученный спектрподвергается различным преобразованиям, например, логарифмическому изменениюмасштаба (как в пространстве амплитуд, так и в пространстве частот). Этопозволяет учесть некоторые особенности речевого сигнала – понижениеинформативности высокочастотных участков спектра, логарифмическуючувствительность человеческого уха, и т.д.
Как правило,полное описание речевого сигнал только его спектром невозможно. Наряду соспектральной информацией, необходима ещё и информация о динамике речи. Для еёполучения используются дельта-параметры, представляющие собой производные повремени от основных параметров.
Полученныетаким образом параметры речевого сигнала считаются его первичными признаками ипредставляют сигнал на дальнейших уровнях его обработки.
Процесс вводазвуковой информации изображен на рис. 1:
/>/>/>/>/>/>/>/>/>/>/>/>/>/>/>/>/>/>
Рис 1. Вводзвука
При обработкефайла по нему перемещается окно ввода, размер которого равен размеру окнадискретного преобразования Фурье (ДПФ). Смещение окна относительно предыдущегоположения можно регулировать. В каждом положении окна оно заполняется данными(система работает только со звуком, в котором каждый отсчет кодируется 16битами). При вводе звука в реальном режиме времени он записывается блокамитакого же размера.
После вводаданных в окно перед вычислением ДПФ на него накладывается окно сглаживанияХэмминга:
/>, (1)
N – размерокна ДПФ
Наложениеокна Хэмминга немного понижает контрастность спектра, но позволяет убратьбоковые лепестки резких частот (рис 2), при этом особенно хорошо проявляетсягармонический состав речи.
/>
без окнасглаживания с окном сглаживания Хэмминга
Рис 2.Действие окна сглаживания Хэмминга (логарифмический масштаб)
После этоговычисляется дискретное преобразование Фурье по алгоритму быстрогопреобразования Фурье ([ХХ]). В результате в реальных и мнимых коэффициентахполучается амплитудный спектр и информация о фазе. Информация о фазеотбрасывается и вычисляется энергетический спектр:
/>(2)
Так какобрабатываемые данные не содержат мнимой части, то по свойству ДПФ результатполучается симметричным, т.е. E[i] = E[N-i]. Таким образом, размеринформативной части спектра NS равен N/2.
Всевычисления в нейросети производятся над числами с плавающей точкой ибольшинство сигналов ограничены диапазоном [0.0,1.0], поэтому полученный спектрнормируется на 1.00. Для этого каждый компонент вектора делится на его длину:

/>, (3)
/>(4)
Информативностьразличных частей спектра неодинакова: в низкочастотной области содержитсябольше информации, чем в высокочастотной. Поэтому для предотвращения излишнегорасходования входов нейросети необходимо уменьшить число элементов, получающихинформацию с высокочастотной области, или, что тоже самое, сжатьвысокочастотную область спектра в пространстве частот. Наиболеераспространенный метод (благодаря его простоте) – логарифмическое сжатие (см.[3], “ Non-linear frequency scales”):
/>, (5)
f – частота вспектре, Гц,
m – частота вновом сжатом частотном пространстве
5.2 Наложение первичных признаков на вход нейросети
Посленормирования и сжатия спектр накладывается на вход нейросети. Входы нейросетине выполняют никаких решающих функция, а только передают сигналы дальше внейросеть. Выбор числа входов – сложная задача, потому что при малом размеревходного вектора возможна потеря важной для распознавания информации, а прибольшом существенно повышается сложность вычислений (только при моделированиина PC, в реальных нейросетях это неверно, т.к. все элементы работаютпараллельно).
При большойразрешающей способности (большом числе) входов возможно выделение гармоническойструктуры речи и как следствие определение высоты голоса. При малой разрешающейспособности (малом числе) входов возможно только определение формантнойструктуры.
Как показалодальнейшее исследование этой проблемы, для распознавания уже достаточно толькоинформации о формантной структуре. Фактически, человек одинаково распознаетнормальную голосовую речь и шепот, хотя в последнем отсутствует голосовойисточник. Голосовой источник дает дополнительную информацию в виде интонации(изменением высоты тона на протяжении высказывания), и эта информация оченьважна на высших уровнях обработки речи. Но в первом приближении можноограничиться только получением формантной структуры, и для этого с учетомсжатия неинформативной части спектра достаточное число входов выбрано впределах 50~100.
5.3 Модель нейросети
Нейросетьимеет довольно простую структуру и состоит из трех уровней: входной слой,символьный слой и эффекторный слой (рис. 4). Каждый нейрон последующего слоясвязан со всеми нейронами предыдущего слоя. Функция передачи во всех слоялинейная, во входном слое моделируется конкуренция.

/>/>/>/>/>/>/>/>/>
Рис. 4Архитектура нейросети
1. Входнойслой — этот слой получает сигналы непосредственно от входов нейросети (входы неосуществляют обработку сигнала, а только распределяют его дальше в нейросеть).Он представляет собой один из вариантов самоорганизующейся карты Кохонена,обучающейся без учителя. Основной задачей входного уровня является формированиенейронных ансамблей для каждого класса входных векторов, которые представляютсоответствующие им сигналы на дальнейших уровнях обработки. Фактически, именноэтот слой определяет эффективность дальнейшей обработки сигнала, имоделирование этого слоя представляет наибольшую трудность.
Нейроны этогослоя функционируют по принципу конкуренции, т.е. в результате определенногоколичества итераций активным остается один нейрон или нейронный ансамбль(группа нейронов, которые срабатывают одновременно). Этот механизмосуществляется за счет латеральных связей и называется латеральным торможением.Он подробно рассмотрен во многих источниках ([1], [6]). Так как отработка этогомеханизма требует значительных вычислительных ресурсов, в моей модели онмоделируется искусственно, т.е. находится нейрон с максимальной активностью,его активность устанавливается в 1, остальных в 0.
Обучение сетипроизводится по правилу (7):

wн = wс + (x – wс)a, (6)
wн — новоезначение веса,
wс – староезначение,
 — скорость обучения, 
x — нормированный входной вектор,
a –активность нейрона.
Геометрическиэто правило иллюстрирует рисунок 5:
/>/>/>/>/>
Рис. 5.Коррекция весов нейрона Кохонена
Входнойвектор x перед подачей на вход нейросети нормируется, т.е. располагается нагиперсфере единичного радиуса в пространстве весов. При коррекции весов поправилу (6) происходит поворот вектора весов в сторону входного вектора.Постепенное уменьшение скорости поворота  позволяет произвестистатистическое усреднение входных векторов, на которые реагирует данный нейрон.
Проблемы,которые возникают при обучении слоя Кохонена, описаны ниже (см. 5.5)
2. Символьныйслой – нейроны этого слоя ассоциированы с символами алфавита (это необязательно должен быть обычный буквенный алфавит, но любой, например, алфавитфонем). Этот слой осуществляет генерацию символов при распознавании и вводсимволов при синтезе. Он представляет собой слой Гроссберга, обучающийся сучителем. Нейрон этого слоя функционирует обычным образом: вычисляет суммарныйвзвешенный сигнал на своих входах и при помощи линейной функции передает его навыход. Модификация весов связей при обучении происходит по следующему правилу:
wijн = wijс + (yj – wijс)xi, (7)
wijн, wijс –веса связей до и после модификации
 — скорость обучения, 
yj – выходнейрона
xi – входнейрона
По этомуправилу вектор весов связей стремится к выходному вектору, но только еслиактивен вход, т.е. модифицироваться будут связи только от активных в данныймомент нейронов слоя Кохонена. Выходы же у символьного слоя бинарные, т.е.нейрон может быть активен (yj = 1) или нет (yj = 0), что соответствуетвключению определенного символа. Входной слой совместно с символьным слоемпозволяют сопоставить каждому классу входных сигналов определенный символалфавита.
3.Эффекторный слой – этот слой получает сигналы от символьного слоя и такжеявляется слоем Гроссберга. Выходом слоя является вектор эффекторов – элементов,активность которых управляет заданными параметрами в модели синтеза. Связьэффекторов с параметрами модели синтеза осуществляется через карту эффекторов.Этот слой позволяет сопоставить каждому нейрону символьного слоя (аследовательно, и каждому символу алфавита) некоторый вектор эффекторов (аследовательно, и определенный синтезируемый звук). Обучение этого слояаналогично символьному слою.

5.4 Обучение нейросети
Обучениенейросети состоит из трех этапов. Сначала системе предъявляется только образцызвуков, при этом во входном слое формируются нейронные ансамбли, ядрами которыхявляются предъявляемые образцы. Затем предъявляются звуки и соответствующие имсимволы алфавита. При этом происходит ассоциация нейронов входного уровня снейронами символьного слоя. На последнем этапе система обучается синтезу. Приэтом системе не предъявляются никакие образцы, а используется накопленная напредыдущих этапах информация. Используется механизм стохастического обучения:нейроны эффекторного слоя подвергаются случайным изменениям, затем генерируетсязвук, он распознается и результат сравнивается с тем символом, для которого былсгенерирован звук. При совпадении изменения фиксируются. Этот процессповторяется до тех пор, пока не будет достигнута правильная генерация всехзвуков.
Выбор скоростей обучения
Зачем вправиле обучения слоя Кохонена (6) присутствует коэффициент ? Если быон был равен 1, то для каждого входного вектора вектор связей активного нейронаприравнивался бы к нему. Как правило, для каждого нейрона существует множествовходных сигналов, которые могли бы его активировать, и его вектор связейпостоянно менялся бы. Если же 
Чем определяетсяскорость обучения? Здесь главную роль играет порядок предъявления образцов.Допустим, имеется большая обучающая выборка, последовательным предъявлениемэлементов которой обучается нейросеть. Если скорость обучения велика, то уже насередине этой выборки нейросеть «забудет» предыдущие элементы. А если каждыйобразец предъявляется подряд много раз, то уже на следующем образце нейросетьзабудет предыдущий. Таким образом, главный критерий выбора скоростей обучения –незначительное изменение связей в пределах ВСЕЙ обучающей выборки. Но неследует забывать, что время обучения обратно пропорционально скорости обучения.Так что здесь необходимо искать компромисс.
Запоминание редко встречающихся элементов
Описанныйвыше алгоритм обучения хорош для часто повторяющихся сигналов. Если же сигналвстречается редко на фоне всей обучающей выборки, он просто не будет запомнен.В таком случае необходимо привлечение механизма внимания [5]. При появлениинеизвестного нейросети образца скорость обучения многократно возрастает иредкий элемент запоминается в нейросети. В разрабатываемой системе обучающаявыборка строится искусственно, поэтому такой проблемы не возникает, и механизмвнимания не реализован. Необходимость механизма внимания появляется приобучении в естественных условиях, когда обучающая выборка заранее непредсказуема.
Проблемы, возникающие при обучении слоя Кохонена
Дляисследования динамики обучения и свойств слоя Кохонена был создан инструмент«Модель нейросети», в котором моделируется слой Кохонена в двумерном сигнальномпространстве (Рис 6).

/>
1. Начальныезначения весов 2. Веса после обучения
Рис.6.Моделирование слоя Кохонена
В моделисоздается нейросеть с двумя входами, так что она способна классифицироватьвходные вектора в двумерном сигнальном пространстве. Хоть функционированиетакой нейросети и отличается от функционирования нейросети в сигнальномпространстве с гораздо большей размерностью, основные свойства и ключевыемоменты данного нейросетевого алгоритма можно исследовать и на такой простоймодели. Главное преимущество – это хорошая визуализация динамики обучениянейросети с двумя входами. В ходе экспериментов с этой моделью были выявленыследующие проблемы, возникающие при обучении нейросети.
1. выборначальных значений весов.
Так как вконце обучения вектора весов будут располагаться на единичной окружности, то вначале их также желательно отнормировать на 1.00. В моей модели вектора весоввыбираются случайным образом на окружности единичного радиуса (рис. 6.1).
2.использование всех нейронов.
Если весовойвектор окажется далеко от области входных сигналов, он никогда не дастнаилучшего соответствия, всегда будет иметь нулевой выход, следовательно, небудет корректироваться и окажется бесполезным. Оставшихся же нейронов может нехватить для разделения входного пространства сигналов на классы. Для решенияэтой проблемы предлагается много алгоритмов ([1],[8]). в моей работеприменяется правило «желания работать»: если какой либо нейрон долго ненаходится в активном состоянии, он повышает веса связей до тех пор, пока нестанет активным и не начнет подвергаться обучению. Этот метод позволяет такжерешить проблему тонкой классификации: если образуется группа входных сигналов,расположенных близко друг к другу, с этой группой ассоциируется и большое числонейронов Кохонена, которые разбивают её на классы (рис. 6.2). Правило «желанияработать» записывается в следующей форме:
wн=wc + wс1 (1 — a), (8)
где wн — новое значение веса,
wс – староезначение,
 1 — скорость модификации,
a –активность нейрона.
Чем меньшеактивность нейрона, тем больше увеличиваются веса связей.
Выборкоэффициента  1 определяется следующими соображениями: постоянный роствесов нейронов по правилу (8) компенсируется правилом (6) (активные нейроныстремятся снова вернуться на гиперсферу единичного радиуса), причем за однуитерацию нейросети увеличат свой вес практически все нейроны, а уменьшит толькоодин активный нейрон или нейронный ансамбль. В связи с этим коэффициент 1 в (8) необходимо выбирать значительно меньше коэффициента  в (6),учитывая при этом число нейронов в слое.
3.неоднородное распределение входных векторов в пространстве сигналов и дефицитнейронов.
Очень частоосновная часть входных векторов не распределена равномерно по всей поверхностигиперсферы, а сосредоточена в некоторых небольших областях. При этом лишьнебольшое количество весовых векторов будет способно выделить входные вектора,и в этих областях возникнет дефицит нейронов, тогда как в областях, гдеплотность сигнала намного ниже, число нейронов окажется избыточным.
Для решенияэтой проблемы можно использовать правило «нахождения центра масс», т.е.небольшое стремление ВСЕХ весовых векторов на начальном этапе обучения квходным векторам. В результате в местах с большой плотностью входного сигналаокажется и много весовых векторов. Это правило записывается так:
wн = wс + 2(x – wс). (9)
где wн — новое значение веса,
wс – староезначение,
 2 — скорость модификации,
x – входнойвектор
Это правилохорошо работает, если нейроны сгруппированы в одном месте. Если же существуетнесколько групп нейронов, то это правило не дает нужного результата.
Ещё однорешение – использовать «отжиг» весовых векторов. В нашем случае он может бытьреализован как добавление небольшого шума при модификации весов, что позволитим перемещаться по поверхности гиперсферы. При обучении уровень шума постепеннопонижается, и весовые вектора собираются в местах наибольшей плотности сигнала.
Недостатокэтого правила – очень медленное обучение. Если в двумерном пространстве нейроны«находили» входные вектора более-менее успешно, то в многомерном пространствевероятность этого события существенно снижается.
Самымэффективным решением оказалось более точное моделирование механизмалатерального торможения. Как и раньше, находится нейрон с максимальнойактивностью. Затем искусственно при помощи латеральных связей устанавливаетсяактивность окружающих его нейронов по правилу (10):
/>(10)
aj –активность нейрона
i — выигравший нейрон
j – индекснейрона
/> — определяетрадиус действия латеральных связей, уменьшается в процессе обучения
При этомпредполагается, что все нейроны имеют определенную позицию по отношению кдругим нейронам. Это топологическое отношение одномерно и линейно, позициякаждого нейрона определяется его индексом. Правило (10) говорит о том, чтовозбуждается не один нейрон, а группа топологически близких нейронов. Врезультате обучения образуется упорядоченная одномерная карта признаков.Упорядоченность означает, что ближайшие два нейрона в ней соответствуют двумближайшим векторам в пространстве сигнала, но не наоборот (так как невозможнонепрерывно отобразить многомерное пространство на одномерное). Сначала радиусдействия латеральных связей достаточно большой, и в обучении участвуютпрактически все нейроны. При этом они находят «центр масс» всей обучающейвыборки. В процессе обучения коэффициент />уменьшается, нейроны разделяютсяна группы, соответствующие локальным центрам масс. В конце концов радиуслатеральных связей снижается настолько, что нейроны функционируют независимодруг от друга и могут разделять очень близкие вектора.

6. Применение
Разрабатываемаясистема может применяться как инструмент для проведения исследований в даннойпредметной области, для демонстрации принципов работы нейросетей и моделисинтеза речи.

/>/>/>Список использованных источников
1.        Ф. Уоссермен«Нейрокомпьютерная техника: Теория и практика». Перевод на русский язык Ю. А. Зуев,В. А. Точенов, 1992.
2.        ВинцюкТ.К. «Анализ, распознавание и интерпретация речевых сигналов.» -Киев: Наук.думка, 1987. -262 с.
3.        SpeechAnalysis FAQ — svr-www.eng.cam.ac.uk/~ajr/SA95/SpeechAnalysis.html
4.        Л.В. Бондарко«Звуковой строй современного русского языка» -М.: Просвещение, 1997. –175 с.
5.        Э.М.Куссуль«Ассоциативные нейроподобные структуры» -Киев, Наукова думка, 1990
6.        Н.М.Амосов и др. «Нейрокомпьютеры и интеллектуальные роботы» -Киев: Наукова думка,1991
7.        Г.Нуссбаумер «Быстрое преобразование Фурье и алгоритмы вычисления сверток».Перевод с англ. – М.: Радио и связь, 1985. –248 с.
8.        А.А.Ежов, С.А. Шумский “НЕЙРОКОМПЬЮТИНГ и его приложения в экономике”, — МИФИ, 1998

Не сдавайте скачаную работу преподавателю!

Данный реферат Вы можете использовать для подготовки курсовых проектов.

Доработать Узнать цену написания по вашей теме

Поделись с друзьями, за репост + 100 мильонов к студенческой карме :

Заказать работу:

!	Курсовая работа
!	Дипломная работа
!	Реферат
!	Решение задач
!	Отчет по практике
!	Контрольная работа

Пишем реферат самостоятельно:

!	Как писать рефераты Практические рекомендации по написанию студенческих рефератов.
!	План реферата Краткий список разделов, отражающий структура и порядок работы над будующим рефератом.
!	Введение реферата Вводная часть работы, в которой отражается цель и обозначается список задач.
!	Заключение реферата В заключении подводятся итоги, описывается была ли достигнута поставленная цель, каковы результаты.
!	Оформление рефератов Методические рекомендации по грамотному оформлению работы по ГОСТ.

Читайте также:

→	Виды рефератов Какими бывают рефераты по своему назначению и структуре.

Другие популярные рефераты:

Реферат	Механические волны
Реферат	Обратная матрица
Реферат	Инверсия и ее применение
Реферат	Социокультурная динамика межпоколенных взаимодействий
Реферат	Расследование преступлений в сфере компьютерной информации
Реферат	Туристско-краеведческая характеристика Калининградской области
Реферат	Организация административно-хозяйственной службы гостиницы
Реферат	Диагностика психологической готовности ребенка к школе 2
Реферат	Модель современного менеджера
Реферат	Условия формирования военно-административной системы Южного Зауралья в XVII - первой половине XIX века

Сейчас смотрят :

Реферат	Агроэкологическая оценка загрязнения почвы кобальтом и разработка системы земледелия в СХП "Колос"
Реферат	Случай с Евсейкой
Реферат	Цихлида из Габона
Реферат	Нетрадиционные подходы к воспитанию трудных подростков
Реферат	Воспитание в национальных традициях детей старшего дошкольного возраста
Реферат	Eternal Creativity Essay Research Paper Emily Dickinson
Реферат	Менеджмент (Шпаргалка)
Реферат	Всемирная служба телевидения BBC
Реферат	620014, г. Екатеринбург, ул. Чернышевского 16, оф. 607, тел.: (343) 380-88-66, 253-22-05
Реферат	Greek Theatre Essay Research Paper The History
Реферат	Смысловые и ритмические контрасты поэмы Александра Блока Двенадцать
Реферат	Landfills Essay Research Paper Landfillsby Brandon NollLandfills
Реферат	1. Взаємозв ’ язки економічних процесів та явищ
Реферат	Greed Essay Research Paper Greed can drive
Реферат	Противостояние личности и тоталитаризма на примере произведений АИ Солженицына Раковый корпус

Реферат по предмету "Информатика, программирование"

Использование нейросетей для построения системы распознавания речи

Другие популярные рефераты:

Сейчас смотрят :