Реферат по предмету "Информатика, программирование"


Анализ существующих подходов к системам локализации области губ человека на изображении

/>/>/>Содержание
1 Сведенияоб объекте исследования… 3
2 Цельработы… 4
3 Выборнаправления исследования… 5
3.1 Краткая характеристика и оценка состояния рассматриваемойпроблемы     5
3.1.1 Распознаваниеконтуров губ в видеопотоке… 6
3.1.2 Применениескрытых Марковских моделей… 9
3.2Актуальность работы… 13
3.3 Обоснование выбранного метода направления исследования… 13
5.Ожидаемые результаты… 16
Списокиспользованных источников… 17

1Сведения об объекте исследования
В распознавании речи, необходимом для развитияи совершенствования интерфейсов между человеком и компьютером, все болеезначительную роль приобретает визуальная система ввода информации, основаннаяна задаче чтения по губам. Одним из способов получения входных данных дляданной задачи является поиск характерных точек, в частности распознаваниеконтуров губ. Объектом данного исследования являются методы компьютернойобработки и анализа цифрового изображения, а предметом можно считать цифровое изображение,содержащее губы человека, и методы их локализации. Отточности решения задачи локализации во многом зависит точность решения задачанализа изображения области губ более высокого уровня. Разработки,рассмотренные в данной работе, являются важным этапом напути к усовершенствованию интерфейса между человеком и компьютером.

2Цель работы
Цельнаписания работы – анализ существующих подходов к решению задачи локализацииобласти губ человека на изображении. А так же ознакомиться с применением всевозможныхметодов распознавания.

3Выбор направления исследования
3.1Краткая характеристика и оценка состояния рассматриваемой проблемы
Технологии автоматического обнаружения ираспознавания лица используются в ряде современных систем компьютерного зрения:биометрическая идентификация, человеко-машинный интерфейс, зрение роботов, компьютернаяанимация, видеоконференции. Основное отличие данных приложений между собой –это целевые классы, которые являются объектами распознавания. Целевыми классамив задачи распознавания лица могут являться: лицо, лицо с элементами перекрытий,морда животного, лицо человека, живое лицо человека, мимика лица, черты лица,пол, раса, личность человека. Выбор одного из таких целевых классов определяетспецифику алгоритма распознавания, остальные классы являются второстепенными искорее играют роль признаков при распознавании целевого класса.
Основным способом извлечения данных о речи извидеоинформации является анализ движений губ, или чтение по губам. Главнымисточником получения входных данных для данной задачи является поискхарактерных точек, в частности распознавание контуров губ. В большей частиисследований, посвященных задаче распознавания речи, поиск контуров губ осуществляетсяс помощью активных контурных моделей.
Существует также другой возможный способполучения информации о губах, заключающийся в выделении особенностей областирта без поиска характерных точек.
В данной работе рассматривается задачараспознавания контуров губ в цветном видеопотоке и локализация с помощью скрытыхМарковских моделей.
3.1.1 Распознавание контуровгуб в видеопотоке
В данной задаче распознаванияконтуров губ в видеопотоке предметом анализа являются цветные изображения приусловии фронтального расположения лица. Кроме того, рассматривается видеопотокнизкого разрешения, характерный для бытовых видеокамер. Такая постановка задачинакладывает ограничения на скорость работы алгоритма, распознавание контуровдолжно оставлять достаточно времени для распознавания речи. Важными факторамидля разрешения этой задачи являются использование цвета в качестве главногоисточника информации, устойчивость архитектуры, а также применение быстрогоалгоритма поиска контуров.
Для распознавания используется цветоваяинформация. Выделение по цвету человеческой кожи и губ достаточно устойчиво, ихцветовые характеристики практически не зависят от освещения. Поэтому цветовое пространство,в котором будет осуществляться поиск, не должно учитывать освещение. Этомуусловию удовлетворяет цветовое пространство (r/g,b/g), которое используется припостроении цветовых классов.
Для улучшения качества распознавания выделяютсядва цветовых класса — кожа и губы. В используемом двухмерном цветовомпространстве на основе выделенных на изображениях областей строятся двухмерныегистограммы (рис. 1). Предполагая нормальноераспределение цветов, можно сократить описание цветовых классов с двухмернойгистограммы до пяти параметров. Функция принадлежности цветовому классу имеетзначения в диапазоне [0,1].
На основе определенных цветовых классовстроится оценочная функция; функция принадлежности цветовому классу кожиучитывается с обратным знаком. Несмотря на возможность использования обобщенныхцветовых классов, для получения лучших результатов используется предварительнаяподстройка под пользователя.
Устойчивость алгоритма обеспечивает архитектураIFA, при которой алгоритм разделен на несколько этапов. Данные, полученные напредыдущем этапе, уточняются на следующем, и, таким образом, неуспешный поискна текущем этапе означает возврат к предыдущему. В соответствии с архитектуройIFA решение задачи распознавания контуров разбито на три этапа. Первый этап — приблизительный поиск области губ на изображении, второй — ограничение контурагуб эллипсом, третий — уточнение контура алгоритмом, основанном на радиальномрасширении.
/>r/g
                  
b/g
Рисунок 1. Двухмерная гистограмма, губы
Для распознавания важно, чтобы характеристикигуб, полученные в результате, были инвариантны относительно освещения иположения лица на изображении. Первый этап — это предварительный поискположения губ на изображении. На этом этапе происходит поиск начального приближения.Предполагая приблизительный размер области губ, на изображении осуществляетсяпоиск области соответствующей площади. На этом этапе вычисляютсяприблизительные координаты центра области губ.
Предполагая работу в реальном времени, задачупоиска положения можно упростить, так как она может проводиться не во всехкадрах. Для работы в каждом кадре используются в качестве начального значениярезультаты поиска положения на предыдущем кадре.
На втором этапе область губ ограничиваетсяэллипсом с помощью статистических методов. Рассматриваются значения оценочнойфункции в области, найденной на предыдущем этапе. Рассматриваются точки, в которыхоценочная функция выше порогового значения. Значение f оценочной функции вточке изображения (xi,yi) интерпретируется как количество попаданий случайныхвеличин X и Y в диапазон ≤ iiiixXxyY. Для случайныхвеличин X и Y вычисляются математические ожидания и матрица ковариации. Осикоординат совмещаются с направлениями, соответствующими собственным векторамматрицы. Для случайных величин X’ и Y’, соответствующих новой системе координат,считается среднее квадратическое отклонение. Математические ожидания xm,ym,угол поворота α и средние квадратические отклонения dx,dy однозначно определяютэллипс с центром в (xm,ym), повернутый относительно оси на угол α и срадиусами dx и dy.
На третьем этапе определяются характеристикиформы губ, нужных для последующего распознавания. Контур уточняется с помощьюалгоритма радиального расширения. В качестве начального приближения для контураиспользуются точки на эллипсе, полученном на предыдущем этапе. Точки на эллипсеберутся в соответствии с точками спецификации MPEG4. Точки перемещаются порадиусам эллипса в зависимости от действия сил. Силы для точки xi определяютсякак
 
FiFiout Fiin/>iint,
 
Fiout =kout,
 
/>iint =-kin,
/>iint =-kint />
 
Где k — коэффициенты, vi — направление перемещения точки xi.
За счет наложения более жестких ограничений наформу контура данный алгоритм позволяет производить более точное и быстрое распознавание,чем алгоритмы на основе активных контурных моделей. Количество итераций такжесокращается за счет получения хорошего начального приближения на втором этапе.
В результате работы построен эффективныйалгоритм поиска контуров губ для задачи распознавания речи. В отличие оталгоритмов на основе активных контурных моделей, этот алгоритм дает приемлемыерезультаты при меньшем числе итераций (4-8). Алгоритм позволяет надежно ибыстро искать контуры губ в видеопотоке, освобождая больше времени для задачичтения по губам.
3.1.2 Применение скрытых Марковских моделей
Первым этапом решения задачи чтения по губамявляется выделение контуров губ; это производится с помощью алгоритма выделенияконтуров губ на цветном изображении, основанного на алгоритме радиального расширения.
Для работы алгоритма выделения контуров губнеобходима подготовка изображений. Изображения переводятся в цветовое пространство(r/g,b/g), что позволяет избежать влияния освещения. На основе нескольких изображенийс выделенными областями кожи лица и губ стоятся цветовые классы. Описаниецветового класса представляет собой параметры эллипса, внутри которогонаходится большинство точек класса на двумерной гистограмме в пространствецветов (r/g,b/g). На основе определенных цветовых классов строится оценочнаяфункция; функция принадлежности цветовому классу кожи учитывается с обратнымзнаком.
В дальнейшем осуществляется поиск контура спомощью оценочной функции. Первый шаг алгоритма находит приблизительноеположение центра области губ на изображении. Второй шаг находит эллипс, описывающийобласть губ. Третий шаг находит уточненный контур, с помощью модифицированногоалгоритма радиального расширения. Схема алгоритма удобна для применения квидеопоследовательностям. В этом случае вместо первого шага для поискаположения центра области губ можно воспользоваться положением центра областигуб на предыдущем кадре видеопоследовательности. Процедура выделения контуровгуб определяет эллипс, описывающий область рта и набор координат точек. Контурвыделяется на наборе изображений, отражающем большинство возможных состоянийгуб. Для распознавания движений губ необходимо выделить вектора признаков изполученных данных.
Процедура поиска контура губ находит n точек,пронумерованных от p1 до pn по часовой стрелке. Используемыекоординаты точек нормализуются: средняя точка эллипса считается началомкоординат, ось x направлена по направлению большего радиуса эллипса, большойрадиус эллипса считается единицей. Кроме координат точек, в процессе выделенияконтуров губ находятся параметры эллипса, описывающего область губ на исходномизображении. Параметры эллипса позволяют сделать выводы о таких общих параметрахобласти рта, как открыт рот или закрыт. Нумерация контура начинается с местапересечения контура губ левым большим радиусом эллипса.
Затем выполняем поиск углов (рис. 2). Средиполученных точек необходимо определить правый и левый угол. Несмотря нанумерацию точек, это не всегда точки p1 и pn/2. Правым угломсчитается точка, находящаяся в правой половине контура (между pn/4 и p3n/4),у которой угол α является наименьшим. Угол α — это угол междусредними qnext и qprev. Здесь qnext= (pi+1+…+ pi+k)/k, qprev=(pi-1+…+ pi-k)/k, k=n/5. Аналогичноеправило используется для левого угла.
/>
Рисунок 2 — Поиск углов
Следующим шагом после нахождения углов являетсяпреобразование набора исходных данных в набор векторов признаков. В качестве несколькихпервых элементов в векторе признаков используются признаки, полученные отдельноот координат — отношение высоты эллипса области губ к его ширине. Дальнейшиеэлементы вектора признаков — это координаты левого и правого угла контура,координаты верхней и нижней точек контура, координаты остальных точек контура.Рассмотрим варианты анализа полученных данных методом главных компонент.Выделение базиса методом главных компонент позволяет найти основные направления,по которым изменяются вектора признаков. Это дает возможность значительнопонизить размерность векторов признаков. Метод главных компонент применяется кнабору векторов признаков, полученных из набора данных, отражающих большинствовозможных состояний губ.
Каждому вектору признаков необходимо поставитьв соответствие символ скрытой Марковской модели. Для этого используем метод векторнойквантизации. С помощью этого метода пространство векторов признаков разбиваетсяна кластеры, по принципу близости к центрам кластеров — кодовым словам. Наборкодовых слов называется кодовой книгой. Основная сложность метода состоит впостроении кодовой книги векторов. Размер кодовой книги определяетсяколичеством состояний губ в исходных данных. Кодовая книга известного размера kстроится алгоритмом K средних.
На первом шаге алгоритма случайным образомвыбираются k векторов, считающихся кодовыми словами (центрами кластеров). На следующемшаге каждый входной вектор приписывается к тому кластеру, чье кодовое словонаходится на наименьшем расстоянии от него. На третьем шаге кодовые словакаждого кластера пересчитываются. Каждое кодовое слово делается равным среднемуарифметическому среди всех векторов кластера. Второй и третий шаги повторяютсядо тех пор, пока изменения кодовых слов не станут достаточно малы.
Этот алгоритм медленный, но применение анализаглавных компонент перед квантованием позволяет понизить размерность и, тем самым,значительно ускорить процесс построения кодовой книги. Новые исходные данныеперед использованием в процессе распознавания квантуются: каждому векторуставится в соответствие ближайший вектор из кодовой книги, и в дальнейшемвместо вектора в качестве символа скрытой Марковской модели используется егоиндекс в кодовой книге.
Распознавание по изображению не может работатьна уровне визем, так как виземы для различных фонем достаточно близки. При этомраспознавание на основе последовательностей визем — дифонов, трифонов — гораздоболее надежно. Для распознавания используется система эргодических скрытыхМарковских моделей. Каждому дифону соответствует своя СММ. СММ инициализируютсяравными вероятностями для символов и переходов между состояниями. Обучение системыСММ производится с помощью последовательности квантованных векторов признаков.Исходные данные вручную разбиваются по обучаемым дифонам, после чегосоответствующая СММ обновляется по алгоритму Баума-Велша. Результирующая СММвыдает максимальные значения вероятности на последовательностях, близких кнабору для обучения своего дифона.
В результате работы строится эффективныйалгоритм построения векторов признаков губ для задачи распознавания речи.Алгоритм позволяет преобразовать данные контуров губ в наборы признаков,пригодных для распознавания. Алгоритм обладает свойствами надежности и устойчивостии легко интегрируется с системой распознавания речи на основе скрытых Марковскихмоделей.
3.2Актуальность работы
Развитие компьютерной техники ведет кусовершенствованию интерфейсов между человеком и компьютером. Один из важнейшихспособов человеческой коммуникации — речь, поэтому надежный ввод речевой информацииявляется важным направлением усовершенствования человеко-машинных интерфейсов.Даже у самых надежных систем распознавания речи, основанных только на звуке,точность резко ухудшается при искажении звуковой информации шумами различнойприроды. При наличии нескольких говорящих система распознавания речисталкивается с проблемой идентификации говорящего в данный момент. Поэтомуцелесообразно использование также видеоинформации, что также является важнойчастью человеческого восприятия речи. Эксперименты ученых, данной области,показывают, что аудиовизуальная система ввода информации более надежна, чемпросто аудио система, а значит, актуальна в наше время.
3.3Обоснование выбранного метода направления исследования
Входе проведенного анализа существующих подходов к решению задачилокализации области губ человека на изображении, были выявлены достоинства инедостатки методов. В методе распознавание контуров губ в видеопотоке, засчет наложения более жестких ограничений на форму контура, алгоритм позволяетпроизводить более точное и быстрое распознавание. Количество итераций такжесокращается за счет получения хорошего начального приближения на втором этапе ив отличие от алгоритмов на основе активных контурных моделей, этот алгоритмдает приемлемые результаты при меньшем числе итераций. Рассматривая применениеметода скрытых Марковских моделей можно выделить некоторые преимущества инедостатки. Такой метод позволяет работать непосредственно со сжатымиизображениями, такими как JPEG и MPEG, в которые на сегодняшний день являютсяраспространёнными форматами хранения изображений и видео, что является большимпреимуществом. А так же одним из полезных свойств СММ является способностьсегментировать распознаваемое изображение. Метод скрытых Марковскихмоделей позволяет учесть локальные деформации и взаимное расположениеучастков изображений. Но в отличие от оптических потоков и других методовсопоставления деформациями, псевдодвумерная модель учитывает характердеформаций, а то какими именно могут быть возможные деформации, псевдодвумерныеСММ усваивают в процессе обучения. Еще одним недостатком является то, что скрытыеМарковские модели не обладают различающейспособностью. Т.е. алгоритм обучения только максимизирует отклик каждой моделина свои классы, но не минимизирует отклик на другие классы, и не выделяютсяключевые признаки, отличающие один класс от другого.
Данная область исследования является актуальной в наше время и не можетне заинтересовать, потому как методы локализации недостаточно изучены и требуютдальнейших разработок.

/>/>/>4.Этапы выполненияНИРС
Таблица 1 – Этапыразработки№ Этапы разработки Недели 1. Сведения об объекте исследования 1-3 2. Цель работы 3-5 3. Выбор направления исследования 5-8 4. Защита НИРС 10

5.Ожидаемые результаты
В дальнейших работах планируется устранениенедостатков метода скрытых Марковских моделей, а именно улучшенияспособов начального представления изображения и алгоритмов тренировки, чтопозволило бы повысить точность распознавания при меньшем объеме информации. Атак же эта разработка должна повысить точность системыраспознавания речи за счет использования дополнительной визуальной информации.Это, в частности, способствует усовершенствованию интерфейса между человеком икомпьютером.

Список использованных источников
1.   Michael J. Jones, James M. Rehg, StatisticalColor Models with Application to Skin Detection. In CVPR, 1999
2.  B.D. Zarit, B.J. Super, and F.K.H. Quek, Comparisonof five color models in skin pixel classification. In Proceedings of theInternational Workshop on Recognition, Analysis, and Tracking of Faces andGestures in Real-Time Systems, pages 58-63, Kerkyra, Greece, September 1999.
3.  Вежневец В. П. Локализация человеческого лица на цветном растровомизображении // Труды конференции «Математические методы распознавания образов»(ММРО — 10). – 2001
4.  Самаль Д.И., Старовойтов В.В. Выбор признаков дляраспознавания на основе статистических данных // Цифровая обработкаизображений. — Минск: ИТК, 1999. — С. 105-114.
5.  Самаль Д.И., Старовойтов В.В. Методика автоматизированногораспознавания людей по фотопортретам // Цифровая обработка изображений. — Минск: ИТК, 1999. — С. 81-85.


Не сдавайте скачаную работу преподавателю!
Данный реферат Вы можете использовать для подготовки курсовых проектов.

Поделись с друзьями, за репост + 100 мильонов к студенческой карме :

Пишем реферат самостоятельно:
! Как писать рефераты
Практические рекомендации по написанию студенческих рефератов.
! План реферата Краткий список разделов, отражающий структура и порядок работы над будующим рефератом.
! Введение реферата Вводная часть работы, в которой отражается цель и обозначается список задач.
! Заключение реферата В заключении подводятся итоги, описывается была ли достигнута поставленная цель, каковы результаты.
! Оформление рефератов Методические рекомендации по грамотному оформлению работы по ГОСТ.

Читайте также:
Виды рефератов Какими бывают рефераты по своему назначению и структуре.

Сейчас смотрят :