Говорит и показывает

Сегодня успешно решаются задачи куда более сложные. На конференции Siggraph‑2002, традиционно собирающей мировую элиту компьютерной графики и анимации, группа разработчиков из Массачусетского технологического института (МТИ) представила новую программу обработки видеозаписи, позволяющую имитировать произнесение человеком слов и фраз, которые в действительности тот никогда не говорил.
Нечто подобное делалось другими и раньше. Например, в конце 1990‑х разработчики технологии Video Rewrite, совместно созданной в университете Беркли и компании Interval, обработали кинохронику с записью одного из выступлений президента Джона Кеннеди в 1962 году. В результате этой цифровой модификации речь президента пополнилась довольно забавными фразами, например, «Я никогда не встречался с Форестом Гампом» [EG02].
Главная же особенность новой программы МТИ – небывалая прежде реалистичность морфинга, в результате чего зрители, принимавшие участие в тестировании, оказались уже не в состоянии отличать реальную запись от сгенерированной компьютером. Кроме того, нынешняя техника компьютерной анимации обычно требует ручной доработки при «склеивании» комбинируемых фрагментов изображения говорящего, в то время как технология МТИ уже практически полностью автоматизирована.

Формирование «базовых» лиц программы речевого морфинга

Программа построена на основе самообучающейся системы искусственного интеллекта, которая после анализа 2‑4‑минутного видеоролика (необходимый для работы минимум) выделяет кадры, представляющие полный спектр возможных движений рта и окружающих его областей. После чего компьютер становится способен синтезировать любое выражение лица как комбинацию из примерно полусотни «базовых» лиц объекта. Затем программа просматривает всю имеющуюся видеозапись, обучаясь тому, как лицо отображает произнесение каждого звука и как оно двигается от одного звука к другому. Теперь, получая новую последовательность звуков, компьютер может сгенерировать точную картину движений области рта и аккуратно наложить эти движения на лицо объекта.
Разработчики признают, что в настоящее время высокая реалистичность образа достигается лишь на протяжении одной‑двух фраз, после чего становится заметным отсутствие эмоциональности в лице говорящего. Однако уже ведутся работы по созданию и более сложной модели, способной обучаться выражению базовых эмоций человека. Так что генерация эмоциональной окраски и все более достоверного звукового сопровождения синтезируемых сцен – дело лишь времени. Новая программа разработчиков МТИ уже применяется на телевидении для формирования более правдоподобной мимики при дубляже читаемых диктором новостей с английского языка на испанский. Потенциал подобной технологии в кино и компьютерных играх поистине неисчерпаем, поскольку позволяет реалистично возродить на экране любого из уже ушедших из жизни актеров или знаменитых людей.
Яркий тому пример – инициатива южнокорейского продюсера Чул Шина, возвращающего на киноэкраны легендарного Брюса Ли, героя целой серии культовых фильмов 1970‑х годов о мастерах восточных единоборств. Скоропостижная смерть от кровоизлияния в мозг оборвала карьеру артиста в 1973 году, когда после картин «Кулаки ярости» и «Путь Дракона» он находился в самом зените славы. Несмотря на прошедшие годы, фильмы с Брюсом Ли по‑прежнему пользуются популярностью у зрителей Азии, Америки и Европы. Поэтому в 2001 году Чул Шин объявил о начале съемок новой картины, в которой благодаря современным компьютерным технологиям в главной роли вновь будет выступать легендарный артист. Сгенерированный компьютером персонаж будет на равных участвовать в действии вместе с живыми актерами и актрисами. Для этого тщательно подобран список азиатских актеров‑спортсменов, чрезвычайно похоже имитирующих манеру боя и движений Брюса Ли. С помощью хорошо известной в компьютерной анимации технологии «захвата движения» с максимальной реалистичностью моделируются все сцены схваток «цифрового Ли». Что же касается речи, то предполагается, что за Брюса Ли будет говорить актер с похожим голосом, а окончательное доведение тембра и прочих голосовых нюансов до оригинального звучания возьмет на себя программа синтеза речи [MS01].
Отдельного упоминания заслуживает и нынешний уровень наиболее продвинутых программ синтеза речи. С лета 2001 года научно‑исследовательский центр ATT Labs занимается коммерческими продажами своего программного обеспечения Natural Voices (www.naturalvoices.att.com). По свидетельству экспертов, на сегодняшний день у этой программы нет конкурентов в правдоподобности воспроизведения тембра, нюансов интонирования и прочих особенностей натурального человеческого голоса. При этом программа, основная цель которой – перевод печатного текста в синтезированную речь, способна говорить не только заранее выбранным голосом, но и обучаться воспроизведению хорошо всем знакомых голосов знаменитостей, как ныне живущих, так и давно ушедших из жизни [АВОЗ].
На примере Natural Voices уже очевидно, что клонирование человеческого голоса достигло такого уровня совершенства, когда на слух разница с оригиналом становится неощутима. В своей «базовой» версии это программное обеспечение вышло на рынок с тремя голосами профессиональных актеров, двух мужчин и одной женщины. Затем были добавлены еще два голоса– «ребенка» и «бабушки». Активно ведутся работы над версиями программы для разных языков и диалектов. Уже выпущены варианты «естественных голосов» на испанском, английском, французском и британском английском языках. Пока что комплект такого программного обеспечения стоит несколько тысяч долларов, и ориентировано оно на корпоративных клиентов, таких как телефонные компании; фирмы, занимающиеся созданием программ для чтения разного рода текстовых файлов; изготовители встраиваемых автоматизированных речевых устройств и тому подобное. Ясно, что перед бизнесом открываются захватывающие перспективы – привлечение толп новых клиентов с помощью легко узнаваемых голосов самых знаменитых актеров, телеведущих или политиков, бодро читающих нужные тексты абсолютно произвольного содержания. Но тут же встают многочисленные «скользкие» вопросы. Кто владеет правами на голос знаменитости? Наряду с полностью синтезированными актерами, проникающими ныне в кинематограф, не вытеснят ли синтезированные голоса живых артистов? Конечно же, всплывает сложнейшая проблема с имитацией голоса в мошеннических операциях, поскольку в телефонных переговорах начинается полное размытие границ между «настоящим» и «поддельным».
В настоящее время процесс обучения программы нужному – «заказному» – голосу выглядит следующим образом. Обладатель голоса приходит в студию, где в течение достаточно продолжительного времени – от 10 до 40 часов – начитывает специально подобранные тексты, от бессмысленной чепухи до бизнес‑отчетов. Все сделанные записи нарезаются на крошечные звуки‑фрагменты и в отсортированном виде хранятся в базе данных. Теперь, когда программа зачитывает произвольный текст, нужные фрагменты быстро извлекаются из базы, рекомбинируются и формируют требующиеся предложения. Данная технология именуется «конкатенативный синтез речи». Для тех ситуаций, когда в качестве обладателя заказного голоса фигурирует давно почившая знаменитость, подбирается массив архивных записей требуемого объема. Понятно, что если вдруг злоумышленники решат подделать чей‑то голос, от них потребуется «всего лишь» накопить нужный объем достаточно качественных записей жертвы…
По сути дела, такие программы как Natural Voices и компьютерный морфинг видеоизображения предоставляют неисчерпаемые возможности для преступных злоупотреблений в целях фабрикации ложных улик, дезинформации, провоцирования и просто обмана публики. И сегодня многие эксперты по анализу изображений все чаще предполагают, что судам в ближайшее время придется, возможно, вернуться к средневековой практике и принимать во внимание лишь показания тех свидетелей, которые видели произошедшее собственными глазами.

Не сдавайте скачаную работу преподавателю!

Данный конспект лекций Вы можете использовать для создания шпаргалок и подготовки к экзаменам.

Доработать Узнать цену работы по вашей теме

Поделись с друзьями, за репост + 100 мильонов к студенческой карме :

Заказать работу:

!	Курсовая работа
!	Дипломная работа
!	Реферат
!	Решение задач
!	Отчет по практике
!	Контрольная работа

Пишем конспект самостоятельно:

!	Как написать конспект Как правильно подойти к написанию чтобы быстро и информативно все зафиксировать.

Другие популярные конспекты:

Конспект	Движение тел в жидкостях и газах.
Конспект	Основные проблемы и этапы развития средневековой философии
Конспект	СОЕДИНЕНИЕ ПЛАНЕТЫ С ЛУННЫМИ УЗЛАМИ.
Конспект	Основы финансовых вычислений
Конспект	Проблема познаваемости мира. Гносеологический оптимизм, скептицизм, агностицизм. Взаимосвязь субъекта и объекта познания
Конспект	Лекция 1. История возникновения и развития межкультурной коммуникации
Конспект	Внутренняя политика первых Романовых.
Конспект	Понятие финансовой устойчивости организации
Конспект	Синтагматические, парадигматические и иерархические отношения в языке
Конспект	Техника безопасности при работах на высоте и за бортом судна

Сейчас смотрят :

Конспект	Анализ динамики, состава и структуры имущественного положения
Конспект	Социальные институты \| Функции социальных институтов
Конспект	Отграничение трудового права от смежных отраслей
Конспект	Общее обезболивание (наркоз).
Конспект	Кинематические и силовые соотношения в передачах

Конспект лекций по предмету "Политология"

Говорит и показывает

Другие популярные конспекты:

Сейчас смотрят :