Сжатие речи на основе алгоритма векторного квантования

Министерствообразования и науки Украины

Пояснительнаязаписка
к курсовому проекту
по дисциплине «Цифровая обработкасигналов»на тему: «сжатие речи на основе алгоритма векторногоквантования»
2006

Аннотация

В данной курсовой работе представлена разработкаалгоритма функционирования системы, обеспечивающей сжатие речи с помощьювекторного квантования, и программная реализация алгоритма в системе MATLAB ина языке С.
Приводится исследование влияния на работоспособностьсистемы аддитивных шумов, разработка и исследование программной реализациисистемы на основе ЦПОС. Разработана система сжатия речи, обеспечивающая сжатиеречи до уровня 2400 бит/с и ниже и и подсистема декодирования в реальномвремени с помощью алгоритма векторного квантования. Предусмотрены несколькоступеней сжатия. Обеспечена работа системы в двух режимах: дикторо-зависимом идикторо-независимом. Система реализована в пакете MATLAB и на языке С.

СОДЕРЖАНИЕ
Введение
1.Постановка задачи
2.Описание существующих методов сжатия речи
3.Описание выбранного метода сжатия
4.Разработка программы на MATLab
5.Тестирование на MATLab
6.Системные требования
Заключение
Библиографическийсписок
ПриложениеА. Текст программы на MATLab
ПриложениеБ. Текст программы на С

ВВЕДЕНИЕ
При передаче речи по цифровым каналам связи, будь тосотовая или Интернет-телефония, самый важный вопрос — это сколько информации(число бит в единицу времени) придется передавать по каналам, чтобы снабдитьпользователя качественной голосовой связью. Ответ на него в каком-то смыслеопределяет все — стоимость и качество предоставляемых пользователям услуг иаппаратуры, емкость и масштабируемость сети передачи данных и многое другое.
Сжатие речи при ее передаче сокращает объем передаваемыхданных, затраты и, благодаря этому, позволяет снижать цены на услуги ипривлекать новых пользователей. Именно поэтому рынок цифровой телефонииразвивается под непосредственным технологическим диктатом ученых иразработчиков кодеков речи.
Очевидно, что, начиная с каких-то пороговых значенийсоотношения скорости передачи и доступной емкости каналов, операторы связиимеют достаточную (для развития и своего, и рынка) прибыль. В настоящее времяможно сказать, что этот порог уже превышен. Это привело к тому, что расценки нацифровую связь стали более чем конкурентны по сравнению с проводной аналоговой,а благодаря скорому переходу к кодекам речи на скорости порядка 2,4 кбит/с иниже, цена минуты междугородного разговора может в ближайшие годы снизиться донескольких центов за минуту.
Сказав про успехи, нельзя не сказать хотя бы пару слов ио недостатках. Качество звучания сжатой речи, что в сотовой, что вИнтернет-телефонии оставляет желать лучшего. Некоторые (из тех, кто имеет такойвыбор) до сих пор предпочитают аналоговые сотовые сети цифровым, поскольку впоследних речь часто звучит механически, случаются посторонние звуки и т. п. — и все из-за сжимающих кодеков речи, так как в остальном цифровые протоколыпередачи обеспечивают лучшее качество звучания. В компьютерной телефонии снижениюкачества, помимо кодеков речи, способствует заметное запаздывание сигнала иошибки при сборке пакетов. Впрочем, понятно, что если с кодеком на 2,4 кбит/с«узкий» канал справляется с трудом, то на скорости 1,2 кбит/с проблембудет меньше. Да и пропускная способность компьютерных сетей возрастаетнастолько быстро, что в ближайшей перспективе сетевая задержка снизится внесколько раз. И тогда и у пользователей, и у операторов на первое место могутвстать высокие требования именно к низкоскоростным кодекам речи.
Речь представляет собой колебания сложной формы,зависящей от произносимых слов, тембра голоса, интонации, пола и возрастаговорящего. Спектр речи весьма широк (примерно от 50 до 10000 Гц), но дляпередачи речи в аналоговой телефонии когда-то отказались от составляющих,лежащих вне полосы 0,3-3,4 кГц, что ухудшило восприятие ряда звуков (например,шипящих, существенная часть энергии которых сосредоточена в верхней частиречевого спектра), но мало затронуло разборчивость. Ограничение частоты снизу (до300 Гц) также ухудшает восприятие из-за потерь низкочастотных гармоникосновного тона. А в цифровой телефонии к влиянию ограничения спектрадобавляются еще шумы дискретизации, квантования и обработки, дополнительнозашумляющие речь.
Решающими в выборе полосы 0,3-3,4 кГц были экономическиесоображения и нехватка телефонных каналов. Потребности пользователей в каналахсделали тогда вопросы качества речи второстепенными.
Для совместимости по полосе с распространеннымианалоговыми сетями в цифровой телефонии отсчеты аналоговой речи приходитсябрать согласно теореме Котельникова с частотой 8 кГц — не меньше двух отсчетовна 1 Гц полосы. Правда, в цифровой телефонии существует принципиальнаявозможность использовать спектр речи за пределами полосы 0,3-3,4 кГц и темсамым повысить качество, но эти методы не реализуются, так как онивычислительно пока еще очень сложны. Впрочем, кое-что появляется: ужеразработаны универсальные кодеки для компьютерной телефонии и мультимедиа,способные передавать не только речь, но и музыку. При полосе исходного сигналадо 6 кГц и тактовой частоте отсчетов около 16 кГц сжатый цифровой сигналтребует для передачи канал в 12 кбит/с.
Озвученная речь, представляющая большую трудность длясжатия, образуется с помощью звуковых связок человека. Скорость ихпериодических колебаний задает так называемую частоту основного тона (ОТ) — энергию голосового тракта человека, который представляет собой объемныйрезонатор. Голосовой тракт формирует спектральную окраску речи или, другимисловами, ее формантную структуру. Другое название голосового тракта — синтезирующий фильтр — нам более удобно, так как математическое описаниеречеобразования обычно ведется в терминах линейной фильтрации. Тогда, условно,речевой сигнал можно разделить на две составляющие, отвечающие за (1) ОТ(возбуждение фильтра) и (2) голосовой тракт (формантная структура сигнала).Соответственно, большинство на сегодня используемых алгоритмов, так или иначе,решают один вопрос — как наиболее эффективно выделить и сокращенно описать обесоставляющие.

1 ПОСТАНОВКА ЗАДАЧИ

Необходимо разработать систему сжатия речи,обеспечивающую сжатие речи до уровня 2400 бит/с и ниже с помощью алгоритмоввекторного квантования. Предусмотреть несколько ступеней сжатия. Обеспечитьработу системы в двух режимах: дикторо-зависимом и дикторо-независимом.Реализовать систему в пакете MATLAB и подсистему декодирования в реальномвремени с помощью ЦПОС TMS320C7711/5402.

2 ОПИСАНИЕ СУЩЕСТВУЮЩИХ МЕТОДОВ СЖАТИЯ РЕЧИ
Многие методы сжатия речевых сигналов основаны налинейном предсказании речи. В частности, линейное предсказание используется присжатии речи по методу АДИКМ. Стандарт G726, определяющий алгоритмы АДИКМ,устанавливает для данного типа сжатия речевых сигналов нижнюю скорость передачи16 Кбит/с .
Дальнейшее снижение скорости передачи возможно прииспользовании схем анализ-синтез речи, учитывающих особенности цифровой моделиформирования речи. Применяют два варианта таких схем – без обратной связи и собратной связью.
На рисунке 2.1 (а) приведена схема сжатия речи безобратной связи, основанная на анализе по методу линейного предсказания исинтезе речевого сигнала. Здесь речевой сигнал s[n] разбивается насегменты длительностью 20-39 мс. На каждом из сегментов с помощью устройстваоценивания (УО) определяются коэффициенты линейного инверсного фильтра-анализаФ1 десятого порядка. Кроме этого, на этапе сжатия с помощью выделения основноготона (ОТ) и анализатора тон-шум (Т-Ш) определяются соответствующие параметрыфункции возбуждения. В кодере выполняется кодирование коэффициентов фильтра ипараметров функции возбуждения, которые затем передаются по каналу связи илисохраняются в памяти.
В восстанавливающем устройстве (рисунок 2.1 а) сначалапроисходит декодирование коэффициентов фильтра и параметров функции возбуждения,а затем выполняется синтез речевого сигнала S^[n]. Для этого взависимости от значения признака тон-шум (ТШ) на вход фильтра-синтеза Ф2подается сигнал либо с выхода генератора тона (ГТ), либо с выхода генераторашума (ГШ). В технике связи устройство, выполняющее сжатие и восстановлениеречевых сигналов по приведенной схеме, называют вокодером. Для кодированияпериода основного тона используют 6 бит, для коэффициентов усиления — 5 бит,для признака тон/шум – 1 бит, для коэффициента усиления – 5 бит, длякоэффициентов линейного предсказания – 8-10 бит. С учетом того, что для каждогосегмента речи оценивается 10 коэффициентов предсказания, получим 97-117 бит наодин сегмент. Скорость передачи при длительности сегмента 30 мс составитпримерно 3000 бит/секунду.
В системе, изображенной на рисунке 2.1 б), параметрывозбуждения (частота основного тона, признак тон/шум, форма сигналавозбуждения) формируются без учета их влияния на качество синтезированной речи,поэтому восстановленная речь как механическая и не обеспечивает узнаваемостиголоса.
а)
/>

/>
Рисунок 2.1 — Сжатие речевых сигналовв схеме без обратных связей
Для повышения натуральности речииспользуется схема анализа-синтеза с обратной связью (рисунок 2.2). В этойсхеме возбуждающая последовательность формируется путем минимизации ошибкивосстановления речевого сигнала, т.е. разности между исходным речевым сигналомs[n] и восстановленнымсигналом S[n]. Восстановленный речевой сигнал формируетсяс помощью фильтров Ф1 и Ф2, на вход которых подается сигнал с выходагенератора функции возбуждения (ФВ). Фильтр Ф1 учитывает квазипериодическиесвойства вокализованных участков речи, а фильтр Ф2 моделирует формантнуюструктуру речи. Инверсный фильтр, соответствующий фильтру Ф1, является фильтромдолговременного предсказания, а инверсный фильтр, соответствующий фильтру Ф2,называется фильтром кратковременного предсказания.
Фильтр долговременного предсказанияописывается передаточной функцией
PL(z) = 1- AL(z),                   (2.1)
где AL(z)-az^-tи t— задержка,соответствующая периоду основного тона, равная 20-150 интервалам дискретизации.Если на вход фильтра долговременного предсказания подать сигнал ошибкикратковременного предсказания dK[n], то в соответствии с(2.1) ошибка долговременного предсказания dД{[n] будет равна:
dД[n] = dK[n]- adK[n-T]                             (2.2)
/>
Рисунок 2.2 — Сжатие речевых сигналовв схеме анализ-синтез
Данная ошибка по своим свойствамблизка к белому шуму с нормальным законом распределения. Это упрощаетформирование сигнала возбуждения, так как при синтезе последовательности S[n] ошибка долговременногопредсказания выступает в роли сигнала возбуждения.
Фильтр с передаточной функцией W(z) (рисунок 2.2)позволяет учесть особенности слухового восприятия человека. Для человека шумнаименее заметен в частотных полосах сигнала с большими значениями спектральнойплотности. Этот эффект называют маскировкой. Фильтр W(z) учитывает эффектмаскировки и придает ошибке восстановления различный вес в разных частотныхдиапазонах. Вес выбирается так, чтобы ошибка восстановления маскировалась вполосах речевого сигнала с высокой энергией.
Принцип работы схемы, изображенной нарисунке 2.2, состоит в выборе функции возбуждения (ФВ), минимизирующей квадратошибки (МКО) восстановления.
Существует несколько различныхспособов формирования функции возбуждения: многоимпульсное,регулярно-импульсное и векторное (кодовое) возбуждение. Соответствующиеалгоритмы представляют много-импульсное (MLPC),регулярно-импульсное (RPE-LPC) и линейное предсказание скодовым возбуждением (code excited linear prediction — CELP). MLPC использует функциювозбуждения, состоящую из множества нерегулярных импульсов, положение иамплитуда которых выбирается так, чтобы минимизировать ошибку восстановления.Алгоритм RPE-LPC является разновидностью MLPC, когда импульсыимеют регулярную расстановку. В этом случае оптимизируется амплитуда иотносительное положение всей последовательности импульсов в пределах сегментаречи. CELP представляет способ, который основывается на векторномквантований. В соответствии с этим способом из кодовой книги возбуждающихпоследовательностей выбирается квазислучайный вектор, который минимизируетквадрат ошибки восстановления. Кодовая книга используется как на этапе сжатияречевого сигнала, так и на этапе его восстановления. Для восстановлениясегмента речевого сигнала необходимо знать номер соответствующего вектора возбужденияв кодовой книге, параметры фильтров A\.(z) и A(z), коэффициент усиленияСУ. Восстановление речевого сигнала по указанным параметрам выполняется вдекодере только с помощью элементов, входящих в верхнюю часть схемы,изображенной на рисунке 2.2.
В настоящее время применяетсянесколько стандартов, основывающихся на рассмотренной схеме сжатия:
1)      RPE-LPC со скоростьюпередачи 13 Кбит/с используется в качестве стандарта мобильной связи вЕвропейских странах;
2)CELP со скоростьюпередачи 4,8 Кбит/с. Одобрен в США федеральным стандартом FS-1016. Используетсяв системах скрытой телефонной связи;
3)VCELP со скоростью передачи7,95 Кбит/с (vector sum excited linearprediction). Используется вцифровых сотовых системах в Северной Америке. VCELP со скоростьюпередачи 6,7 Кбит/с принят в качестве стандарта в сотовых сетях Японии;
4)LD-CELP (low-delay CELP) одобрен стандартомМККТТ G.728. Вданном стандарте достигается небольшая задержкапримерно 0,625 мс(обычно методы CELP имеют задержку 40-60 мс), используютсякороткие векторы возбуждения и не применяется фильтр долговременногопредсказания с передаточной функцией АL(z).
Необходимо отметить, что рассмотренные методы сжатияречи, использующие линейное предсказание с кодовым возбуждением, хорошо приспособленыдля работы с речевыми сигналами в среде без шумов. В случае шумовоговоздействия на речевые сигналы синтезированная речь имеет плохое качество.Поэтому в настоящее время разрабатывается ряд методов линейного предсказания скодовым возбуждением для использования в шумовой обстановке (ACELP, CS-CELP).
На рисунке 2.3, а изображена обобщенная схема сжатия речевогосигнала с помощью алгоритмов векторного квантования./> /> /> /> /> /> /> />
Рисунок 2.3 – Векторное квантование
Входной вектор si представляет собойвектор признаков речевого сигнала (например, спектральных),
/>.
Кодер отображает входной вектор /> в выходной символ un, n = 1, 2, …, L с помощью кодовойкниги. Кодовая книга содержит L векторов
/>, n = 1, 2, …, L.
Предположим, что канал не имеет шумов, т.е. />.
Векторный квантователь функционирует следующим образом.Входной вектор /> сравнивается скаждым вектором из кодовой книги. В результате из кодовой книги выбираетсявектор />, ближайший к вектору />, и в канал передаетсясимвол un, представляющий адрес найденного кодовоговектора. На приемной стороне с помощью полученного адреса un восстанавливаетсявектор признаков речевого сигнала />, наоснове которого синтезируется речевой процесс. В такой интерпретации векторноеквантование, по сути, является распознаванием образов, где вектор /> представляет собой входнойобраз, кодовая книга соответствует базе эталонов.
В качестве меры расстояния между входными векторами ивекторами из кодовой книги обычно используется сумма квадратов отклонений si(k) и />:
/>               (2.3)
Кодовая книга (база эталонов) создается путем разделенияN — мерногопространства признаков на L непрерывающихся ячеек (областей) (рисунок2.3, а). Каждая ячейка ассоциируется Cn с вектором-эталоном />. Если входной вектор /> принадлежит ячейке Cn, то квантовательназначает этому вектору символ un, которыйпредставляет собой адрес вектора-эталона данной ячейки (центроида).
В простейшем случае, если вектор /> представляет собой блокотсчетов речевого сигнала, рассмотренная схема квантования является обобщениемимпульсной кодовой модуляции (ИКМ), и называется векторной ИКМ. В векторной ИКМ(ВИКМ) число битов, приходящихся один отсчет речевого сигнала определяется поформуле
/>                      (2.4)
ВИКМ имеет преимущество перед различными видами ИКМ [ 1], если />.
Процесс проектирования кодовой книги, который связан собучением, может быть реализован двумя способами. В первом случае кодовая книгаразрабатывается на основе алгоритма К-средних. Рекомендуется, чтобы обучающаявыборка содержала по 40 примеров векторов признаков для каждого кодовоговектора. Вычислительную сложность разработки кодовой книги можно снизить, еслиопределенным образом структурировать кодовую книгу. Действительно, так как впроцессе построения кодовой книги выполняется поиск среди L векторов-эталонов,то упорядочение книги может привести к сокращению времени поиска. Для ускоренияпоиска часто применяют бинарные деревья [2]. Сложность вычислений можноуменьшить, если в кодовой книге отдельно хранить нормализованные векторы /> и масштабный коэффициент G (коэффициент усиления).
Во втором случае кодовая книга создается с помощью алгоритмаобучения, в соответствии с которым положение центроидов на каждом шаге уточняетсяпо рекуррентной формуле
/>,        (2.5)
где t – номер шага; α — коэффициент обучения, α ~/>.Формулауточняет положение только того центроида, для которого входной вектор /> оказался ближайшим.
Выражение (2.5) соответствует правилу обучения состязательныхнейронных сетей, в частности, правилу Кохонена. Подробнее см. в [2].
Существует различные схемы сжатия речи c помощью алгоритмоввекторного квантования. Большинство из них основано на схеме “анализ-синтез”.Применяют два варианта таких схем – без обратной связи и с обратной связью [1].В основе каждой из схем лежит модель синтеза речи на основе коэффициентов линейногопредсказания [1]. В соответствии с этой моделью речь может быть получена путемподачи специальным образом подобранного возбуждающего сигнала на вход линейногофильтра, который моделирует резонансные частоты голосового тракта. Передаточнаяфункция фильтра описывается уравнением
/>                   (2.6)
где G — коэффициент усиления, ai — коэффициенты линейного предсказания, P — порядок предсказателя.
Возможная структурная схема системы низкоскоростногокодирования речи с помощью алгоритмов векторного квантования изображена нарисунке 2.2.
/>
/> />
Рисунок 2.4– Низкоскоростное кодирование речи
Процедура кодирования речи сводится к следующему:
— оцифрованный речевой сигнал s[n]нарезается на сегменты длительностью 20 мс (при fg=8 КГц в каждом сегменте будет по 160 выборок);
— для каждого сегмента вычисляются с помощью устройстваоценивания (УО) параметры фильтра линейного предсказания и определяется ошибкапредсказания d[n], соответствующая функции возбуждения;
— функция возбуждения и параметры фильтра линейногопредсказания кодируются с помощью отдельных векторных квантователей ипередаются в канал.
Процедура декодирования заключается в пропусканиивосстановленного сигнала возбуждения через синтезирующий фильтр (2.4),параметры которого переданы одновременно с функцией возбуждения.
Приведенное описание процессов кодирования и декодированияречи не является исчерпывающим, оно объясняет лишь принцип действия кодера.Практические схемы намного сложнее, и это связано в основном со следующими двумямоментами.
Во-первых, на рисунке 2.2 изображена схема без обратнойсвязи. Лучшего качества синтезируемой речи можно добиться в схемах с обратнойсвязью [1]. Однако такие схемы сложнее.
Во-вторых, описанная выше схема, используеткратковременное предсказание и не обеспечивает в достаточной степени устраненияизбыточной речи. Поэтому в дополнение к кратковременному предсказаниюиспользуется еще и долговременное предсказание [1]. Выходной сигнал фильтракратковременного предсказания используется для оценивания параметров фильтрадолговременного предсказания – задержки τ и коэффициентапредсказания a:
/>
При оценке качества кодирования и сопоставлении различныхкодеров оцениваются разборчивость речи и качество синтеза речи (качество звучания).Для оценки разборчивости речи используется метод ДРТ (диагностическийрифмованный текст). В этом методе подбираются пары близких по звучанию слов,отличающиеся отдельными согласными (“кол-гол-пол”), которые многократнопроизносятся рядом дикторов, и по результатам испытаний оценивается доля искажений[3,4].
Для оценки качества звучания используется критерий ДМП(диагностическая мера приемлемости) [4]. Испытания заключаются в чтениинесколькими дикторами, мужчинами и женщинами, ряда специально подобранных фраз,которые прослушиваются на выходе тракта связи рядом экспертов-слушателей,выставляющих свои оценки по 5-балльной шкале. Результатом является средняяоценка мнений (MOS).
Обратим внимание на следующий факт. Если кодовая книгасоздается на обучающих данных, принадлежащих только одному диктору, тонеследует ожидать, что она будет обеспечивать хорошее качество звучания длядругого диктора. Соответственно, кодовая книга, полученная в лабораторных условиях,не обеспечит того же качества звучания при записи речи в шумовой обстановке,например, в салоне автомобиля. Для построения дикторо-независимой системынеобходимо проектировать кодовую книгу на речевых сигналах различных дикторов.

3 ОПИСАНИЕ ВЫБРАННОГО МЕТОДА СЖАТИЯ

Разработанные за последние 20 лет методы кодированияобеспечивают хорошее качество (разборчивость, натуральность звучания,повышенную возможность опознавания говорящего) при передаче речи в цифровойформе по узкополосным каналам связи. На практике широкое применение нашликодеры с линейным предсказанием при многоимпульсном возбуждении и при возбужденииот кода.
Наиболее совершенным алгоритмом (с точки зрениякачества) является алгоритм с векторным квантованием.

/>
Рисунок 3.1 –Структурная схема кодирования
Речевой сигнал S разделяется накадры длительностью в 20 мс. В каждом кадре с использованием алгоритмалинейного предсказания (LPC) определяются параметры синтезирующегофильтра 1/А(z), после чего методом анализа через синтез находятсяпараметры сигнала возбуждения, минимизирующие взвешенный сигнал ошибки. Сигналвозбуждения представляется наборами индексов векторов извлекаемых изстохастической и адаптивной кодовых книг а также наборами соответствующих им коэффициентовусиления. При кодировании сигнала возбуждения кадр разбивается на 4 подкадра по5 миллисекунд. В каждом подкадре кодируются и передаются индексы (9 бит наиндекс), коэффициенты усиления. В целом кадр кодируется 144 битами из которых40 бит отводятся на кодирование коэффициентов усиления с использованиемскалярного квантования.
При использованиивекторного квантования для каждого из двух коэффициентов усиления производилосьобъединение четырех значений, полученных для подкадров одного кадра, в одинчетырехмерный вектор. В результате этого для каждого кадра формировались двавектора коэффициентов усиления для квантования которых использовались различныекодовые книги. Формирование кодовых книг выполнялось на основе обучающейвыборки размером 16 000 векторов, с использованием которой для каждого извекторов были построены по две кодовые книги размером 64 и 128 эталонныхвекторов (длина кодового слова 6 и 7 бит соответственно). При таких размерахкодовых книг количество бит, отводимых на кодирование коэффициентов усиления,сокращается соответственно на 28 и 26 бит на кадр.
Обучающая выборкаформировалась в результате обработки речевого материала от двенадцати дикторов(5 женщин и 7 мужчин) общей продолжительностью 8 минут. Для построения кодовыхкниг использовался алгоритм К средних с начальными условиями, полученнымииспользованием Диагностической Меры Приемлемости (DAM) путемпрослушивания 12 фонетически сбалансированных 6-слоговых предложений,произносимых дикторами, не участвовавшими в формировании обучающей выборки.Качестов звучания оценивалось бригадой из 10 слушателей. По результатам оценкивычислялась средняя оценка мнений (процент предпочтений).
Таким образом,использование векторного квантования коэффициента усиления позволяет без ущербакачества звучания понизить скорость до 2,4 Кбит/сек.
4 Разработка программы на MATLAB
Входные файлы должны быть 16-разрядные .WAV файлы, с частотойдискретизации в 8 кГц. Программное обеспечение большинства звуковых платподдерживает этот формат файла.
Описание некоторых функций.
1) Функция Speech_process — моделированиевокодера, включая анализ, передачу, синтез, и графический интерфейспользователя (GUI).
2) Функция COR — вычисление автокорреляции задержки.
Вычисление коэффициентов автокорреляции последовательностиданных:
idim
C(i) = SUM rar(k) * rar(k-i) , где i = 0,..., n
k=i+1
c0 = C(0)
3) Функция LSPDECOD — независимый LSP декодер;
4) Функция DECODHAM — расшифровываеткодируемое ключевое слово в получателе. Исправляет одиночные ошибки или обнаруживаетмногократные ошибки (проверка по чету).
5) Функция VDECODE — создает стохастический векторвозбуждения по индексу кодовой книги. Формирует LPC возбуждение.
6) Функция WAVHDR — создает заголовок файла для16-разрядного, 8 кГц, моно 7) Функция ZEROFILT — нерекурсивныйфильтр. Фильтр осуществлен в прямой реализации.
N -i
H (z) = SUM b (i) z
I=0
X (t) — > — (z0) — b0 > — +----- > y (t)
| |
Z1 — b1 > — +
| |
Z2 — b2 > — +
| |
::
| |
ZN — bN > — +

5 Тестированиепрограммы на MATLAB
Кодовое представление параметров каждого из сегментов вшестнадцатеричном
виде:
ASCII hex-encoded representation of each setof frame parameters:
855C146BF548AD8EFE03BD2CD2ED0EE6B0A2
291C111D51673E41CD5BF56406582BCC3821
FF5046DBCDE6CE54DE5E67008A20498CAD30
575C908A636E8ED3AF0B46CC023EE29CB0BB
41BE7B8ADC0F9E5758DCDEC0C4C4C3A58CF4
193C70ECF504840F281C5E44082AB4EFB477
442088F484200F070AD21D60DEE9AF841D0E
A8CE80DF01A626049FE934A8C66735331CDD
0F863600A412234C603D33C5C2F632221F94
...
43F33E5F0B5F004800B70A4A5ADB9310067E
/>
Рисунок 5.1 – амплитудная характеристика звукового файлаFive.Wav
/>
Рисунок 5.2 – частотная характеристика звукового файла Five.Wav
(после окна Хэмминга)

СИСТЕМНЫЕ ТРЕБОВАНИЯ
·         486DX4-100или лучше;
·         16(рекомендуется) Мбайт;
·         512Кб минимум свободного места жесткого диска;
·         Microsoft Windows v3.1 или выше;
·         MATLABдля Windows v4.0 или лучше
·         программноеобеспечение также запускается в UNIX и других средах рабочей станции.
Заключение
В данном курсовом проекте с помощью пакета MATLAB был разработан рядфункций, осуществляющих сжатие речи по алгоритму векторного квантования,обеспечивающих сжатие речи до уровня 2400 бит/с и ниже. Предусмотрено несколькоступеней сжатия. Обеспечена работа системы в двух режимах: дикторо-зависимом идикторо-независимом.

Библиографическийсписок

1.        БондаревВ.Н. Цифровая обработка сигналов: методы и средства/ В.Н. Бондарев, Г. Трестер,В.Н. Чернега.- Харьков: Изд-во Конус, 2001.-398 с.
2.        БондаревВ.Н. Искусственный интеллект/ В.Н. Бондарев, Ф.Г. Аде.- Севастополь: Изд-воСевНТУ, 2002.-616 с.
3.        РабинерЛ.Р Цифровая обработка речевых сигналов/ Л.Р. Рабинер, Р.В. Шафер.- М.: Радио иСвязь. 1981.-495 с.
4.        РатынскийМ.В. Основы сотовой связи/ М.В. Ратынский; Под ред. Д.Б. Зимина.- М.: Радио иСвязь, 1998.- 248 с.
5.        Makhoul J. Vector Qvantization // Speech Coding Proceedingsof the IEEE, 1985.- Vol. 73. — N 11.- P.1551-1588.

Не сдавайте скачаную работу преподавателю!

Данный реферат Вы можете использовать для подготовки курсовых проектов.

Доработать Узнать цену написания по вашей теме

Поделись с друзьями, за репост + 100 мильонов к студенческой карме :

Заказать работу:

!	Курсовая работа
!	Дипломная работа
!	Реферат
!	Решение задач
!	Отчет по практике
!	Контрольная работа

Пишем реферат самостоятельно:

!	Как писать рефераты Практические рекомендации по написанию студенческих рефератов.
!	План реферата Краткий список разделов, отражающий структура и порядок работы над будующим рефератом.
!	Введение реферата Вводная часть работы, в которой отражается цель и обозначается список задач.
!	Заключение реферата В заключении подводятся итоги, описывается была ли достигнута поставленная цель, каковы результаты.
!	Оформление рефератов Методические рекомендации по грамотному оформлению работы по ГОСТ.

Читайте также:

→	Виды рефератов Какими бывают рефераты по своему назначению и структуре.

Другие популярные рефераты:

Реферат	Механические волны
Реферат	Обратная матрица
Реферат	Инверсия и ее применение
Реферат	Социокультурная динамика межпоколенных взаимодействий
Реферат	Расследование преступлений в сфере компьютерной информации
Реферат	Туристско-краеведческая характеристика Калининградской области
Реферат	Организация административно-хозяйственной службы гостиницы
Реферат	Диагностика психологической готовности ребенка к школе 2
Реферат	Модель современного менеджера
Реферат	Условия формирования военно-административной системы Южного Зауралья в XVII - первой половине XIX века

Сейчас смотрят :

Реферат	Методика обучения монологической и диалогической речи на начальном этапе изучения английского языка
Реферат	Организация нормирование и оплата труда в растениеводческой отрасли комплексной бригады агрофирмы
Реферат	Электрохимические процессы в океане
Реферат	Развитие Западно-Сибирского района
Реферат	Wuthering Heights Essay Research Paper Throughout the
Реферат	Воспалительные заболевания коньюнктивы и оболочек глаза
Реферат	Содержание и последовательность специальной технологии обслуживания
Реферат	Происхождение и развитие галактик и звёзд.
Реферат	Система эстетических воззрений Сартра
Реферат	Радиоактивное загрязнение окружающей среды
Реферат	Аннотация рабочей программы дисциплины (модуля) Введение в специальность
Реферат	Літературно–теоретичне мислення в київських поетиках XVII – першої половини XVIII століття
Реферат	Visual Basic 5.0
Реферат	Обыск
Реферат	Формы проявления коррупции в РФ

Реферат по предмету "Информатика, программирование"

Сжатие речи на основе алгоритма векторного квантования

Другие популярные рефераты:

Сейчас смотрят :