Перспективыречевого интерфейса
Писать о речевом интерфейсесложно. С одной стороны, тема абсолютно не нова, с другой- активное развитие иприменение этой технологии только начинается (в который раз). С одной стороны,успели сформироваться устойчивые стереотипы и предубеждения, с другой — несмотря на почти полвека настойчивых усилий не нашли разрешения вопросы,стоявшие еще перед родоначальниками речевого ввода. Какбы то ни было, продолжатся поиски такогоинтерфейса, который устроил бы всех. Собственно говоря, это как раз то, к чемучеловечество всегда стремилось в общении с компьютером.
Исследователи недалеко продвинулисьза прошедшие десятки лет, что заставляет некоторых специалистов крайнескептически относиться к самой возможности реализации речевого интерфейса вближайшем будущем. Другие считают, что задача уже практически решена. Впрочем,все зависит от того, что следует считать решением этой задачи.
Построение речевого интерфейсараспадается на три составляющие.
I. Первая задача состоит в том, чтобы компьютер мог«понять» то, что ему говорит человек, то есть он доложен уметь извлекать изречи человека полезную информацию. Пока что, на нынешнем этапе, эта задачасводится к тому, чтобы извлечь из речи смысловую ее часть, текст (пониманиетаких составляющих, как скажем, интонация, пока вообще не рассматривается). Тоесть эта задача сводится к замене клавиатуры микрофоном.
II. Втораязадача состоит в том, чтобы компьютер воспринял смысл сказанного. Пока речевоесообщение состоит из некоего стандартного набора понятных компьютеру команд(скажем, дублирующих пункты меню), ничего сложного в ее реализации нет. Однаковряд ли такой подход будет удобнее, чем ввод этих же команд с клавиатуры илипри помощи мыши. Пожалуй, даже удобнее просто щелкнуть мышкой по иконкеприложения, чем четко выговаривать (к тому же мешая окружающим); «Старт!Главное меню! Бери!» В идеале компьютер должен четко «осмысливать» естественнуюречь человека и понимать, что, к примеру, слова «Хватит!» и «Кончай работу!»означают в одной ситуации разные понятия, а в другой — одно и то же.
III. Третьязадача состоит в том, чтобы компьютер мог преобразовать информацию, с которойон оперирует, в речевое сообщение, понятное человеку.
Так вот, из этих трех задачдостаточно ясное и окончательное решение существует только для третьей. Посути, синтез речи — это чисто математическая задача,которая в настоящее время решена на довольно хорошем уровне. И в ближайшеевремя, скорее всего, будет совершенствоваться только ее техническаяреализация.
Препятствиемдля окончательного решения первой задачи служит то, что никто до сихпор толком не знает, каким образом можно расчленить нашу речь, чтобы извлечьиз нее те составляющие, в которых содержится смысл. В том звуковом потоке, которыймы выдаем при разговоре, нельзя различить ни отдельных букв, ни слогов, обэтом более подробно я Вам расскажу позже… Во всяком случае, послепредварительной тренировки современные системыраспознавания речи работают довольно сносно и делают ошибок не больше, чемделали оптические системы распознавания печатных символовлет пять-семь назад.
Что касается второй задачи, тоона, по мнению большинства специалистов, не может быть решена без помощисистем искусственного интеллекта. Последние, как известно, пока не созданы,хотя большие надежды возлагаются на появление так называемых квантовых. Если же подобные устройства появятся, это будет означатькачественный переворот в вычислительных технологиях, и тогда, как знать, может быть, многие теперешние подходы к речевомуинтерфейсу вообще окажутся ненужными.
Поэтому пока удел речевогоинтерфейса — всего лишь дублирование голосом команд, которые могут бытьвведены с клавиатуры или при помощи мыши. А здесь его преимущества весьма сомнительны. Впрочем, есть одна область,которая для многих может оказаться очень привлекательной. Это речевой вводтекстов в компьютер. Действительно, чем стучать по клавиатуре, гораздо удобнеепродиктовать все компьютеру, чтобы он записал услышанное втекстовый файл. Здесь вовсе не требуется, чтобы компьютер «осмысливал»услышанное, а задача перевода речи в текст более или менее решена. Недаромбольшинство выпускаемых ныне программ «речевого интерфейса» ориентированыименно на ввод речи.
Хотя и здесь есть место дляскепсиса. Если читать вслух, четко выговаривая слова, с паузами,монотонно, как это требуется для системы распознаванияречи, то на машинописную страничку у меня уйдет пять минут. Печатаю наклавиатуре я с той же скоростью. Но сочиняю, при наличии вдохновения, раза вдва-три медленнее, а без оного — медленнее раз в пять,так что скорость «ввода» и при диктовке и при работе на клавиатуреу меня абсолютно одинакова. Но вот сочинять и одновременно выговаривать сочиняемое с четкой артикуляцией, хоть убей, те не смогу.
Первый — и, пожалуй, основной — вопроскасается области применения. Поиск приложений, где распознавание речи могло быпродемонстрировать все свои достоинства, вопреки устоявшемуся мнению, являетсязадачей далеко не тривиальной. Сложившаяся практика применения компьютероввовсе не способствует широкому внедрению речевого интерфейса.
Для подачи команд, связанныхс позиционированием в пространстве, человек всегда пользовался и будетпользоваться жестами, то есть системой «руки- глаза». На этом принципепостроен современный графический интерфейс. Перспектива замены клавиатуры имыши блоком распознавания речи абсолютно отпадает. При этом выигрыш от возложенияна него части функций управления настолько мал, что не смог предоставитьдостаточных оснований даже для пробного внедрения в массовых компьютерах напротяжении уже более тридцати лет. Именно таким сроком оцениваетсясуществование коммерчески применимых систем распознавания речи.
Для иллюстрации своих аргументов возможно,несколько спорных утверждений рассмотрю перспективу и основные проблемыприменения систем речевого ввода текстов, особенно активно продвигаемых впоследнее время.
Для сравнения: спонтанная речьпроизносится со средней скоростью 2,5 слов в секунду, профессиональнаямашинопись — 2 слова в секунду, непрофессиональная — 0,4. Таким образом, напервый взгляд, речевой ввод имеет значительное превосходство попроизводительности. Однако оценка средней скорости диктовки в реальныхусловиях снижается до 0,5-0,8 слова в секунду в связи с необходимостью четкогопроизнесения слов при речевом вводе и достаточно высоким процентом ошибокраспознавания, нуждающихся в корректировке.
Речевой интерфейс естественендля человека и обеспечивает дополнительное удобство при наборе текстов.Однако даже профессионального диктора может не обрадовать перспектива втечение нескольких часов диктовать малопонятливому и немому (кэтому я еще вернусь) компьютеру. Кроме того, имеющийся опыт эксплуатацииподобных систем свидетельствует о высокой вероятности заболевания голосовых связок операторов, что связано с неизбежнойпри диктовке компьютеру монотонностью речи.
Часто к достоинствам речевоговвода текста относят отсутствие необходимости в предварительном обучении.Однако одно из самых слабых мест современных систем распознавания речи- чувствительностьк четкости произношения- приводит к потере этого, казалось бы, очевидногопреимущества. Печатать на клавиатуре оператор учится всреднем 1-2 месяца. Постановка правильного произношения может занять нескольколет.
Существует и еще одно неприятноеограничение применимости, сознательно не упоминаемое, на мой взгляд,создателями систем речевого ввода. Оператор, взаимодействующий с компьютером через речевой интерфейс, вынужден работать взвука изолированном отдельном помещении либо пользоватьсязвукоизолирующим шлемом. Иначе он будет мешать работе своих соседей по офису,которые, в свою очередь, создавая дополнительный шумовой фон, будутзначительно затруднять работу речевого распознавателя. Таким образом, речевойинтерфейс вступает в явное противоречие с современной организационнойструктурой предприятий, ориентированных на коллективный труд. Ситуация несколькосмягчается с развитием удаленных форм трудовой деятельности, однако ещедостаточно долго самая естественная для человека производительная и потенциальномассовая форма пользовательского интерфейса обречена на узкий кругприменения.
Ограничения применимостисистем распознавания речи в рамках наиболее популярных традиционныхприложений заставляют сделать вывод о необходимости поиска потенциальноперспективных для внедрения речевого интерфейса приложений за пределамитрадиционной офисной сферы, что подтверждается коммерческими успехамиузкоспециализированных речевых систем. Самый успешный на сегодня проекткоммерческого применения распознавания речи — телефонная сеть фирмы АТ&Т. Клиент может запросить одну из пяти категорийуслуг, используя любые слова. Он говорит до тех пор, пока в его высказывании невстретится одно из пяти ключевых слов. Эта система в настоящее время обслуживаетоколо миллиарда звонков в год.
Несмотря на то, что одним изнаиболее перспективных направлений для внедрений систем распознавания речиможет стать сфера компьютерных игр, узкоспециализированных реабилитационныхпрограмм для инвалидов, телефонных и информационныхсистем, ведущие разработчики речевого распознавания наращивают усилия подостижению универсализации и увеличения объемов словаря даже в ущербсокращению процедуры предварительной настройки на диктора.
Даже Билл Гейтс,являющий собой в некотором смысле идеал прагматизма, оказался не свободенот исторически сложившихся стереотипов. Начав в 95-96 году с разработкисобственной универсальной системы распознавания речи, он, окрыленный первыми и,пожалуй, сомнительными успехами, в 97-м провозгласилочередную эру повсеместного внедрения речевого интерфейса. Средства речевоговвода планируется включить в стандартную поставку новой версии Windows NT — чисто офисной операционной системы. При этом руководитель Microsoftупорно повторяет фразу о том,что скоро можно будет забыть о клавиатуре и мыши. Вероятно, он планируетпродавать вместе с коробкой WindowsNTакустические шлемы вроде тех, которые используют военные летчики ипилоты «Формулы 1». Кроме того, неужели вближайшем будущем прекратится выпуск Word,Ехсеl и т. д.? Управлятьграфическими объектами экрана голосом, не имеявозможности помочь руками, более чем затруднительно.
Будущееречевого интерфейса в не меньшей степени зависит от умения современныхисследователей и разработчиков не только создать технологическую основуречевого ввода, но и гармонично слить технологические находки в единуюлогически завершенную систему взаимодействия «человек-компьютер». Основная работаеще впереди.
Базоваятехнология
Не следует путатьтермины «понимание» и распознавание» речи. В то время как второйнепосредственно относится к технологиипреобразования акустических речевых сигналов в последовательность символовмашинной кодировки, например ASCII. первый подразумевает анализ более высокихуровней (прагматический, семантический и т. д.)и формирование на его основе представления о смысловом содержаниивысказывания. Дальнейшее разграничение задан укрепилось благодаря коммерческомууспеху узкоспециализированных систем, ни в малейшей степени не нуждающихся,например, в модуле анализа контекста высказывания.
Традиционно процессраспознавания речи подразделяется на несколько этапов. На первом — производитсядискретизация непрерывного речевого сигнала. преобразованного в электрическуюформу Обычно частотадискретизации составляет 10-11 кГц. разрядность- 8 бит, что считаетсяоптимальным для работы со словарями небольшого объема (10-1000 слов) исоответствует качеству передачи речи телефонного канала (ЗГц-3.4кГц). понятно что увеличение объема активного словаря должно сопровождатьсяповышением частоты оцифровки н в некоторых случаях — поднятием разрядности.
На втором этапедискретный речевой сигнал подвергается очистке от шумов и преобразуется в болеекомпактную форму. Сжатие производится посредством вычисления через каждые 10 мснекоторого набора числовых параметров (обычно не более 16) с минимальными потерями информации, описывающейданный речевой сигнал. Состав набора зависит от особенностей реализации системы. Начиная с 70-х годовнаиболее популярным методом (практически стандартом) построения сжатогопараметрического описания стало линейно-предиктивное кодирование (ЛПК), воснове которого лежит достаточно совершенная линейная модель голосового тракта. На втором месте по популярностинаходится, вероятно, спектральное описание, полученное с помощью дискретного преобразования Фурье.
Очень хорошиерезультаты, однако, могут быть достигнуты и при использовании других методов,часто менее требовательных к вычислительным ресурсам, например клипирования. Вэтом случае регистрируется количество изменений знака амплитуды речевогосигнала и временные интервалы между ними. Получаемая в результатепоследовательность значений, представляющих собой оценку длительностей периодовсохранения знака амплитудой, несмотря на кажущуюся примитивность метода,достаточно полно представляет различия между произносимыми звуками. На такомметоде предобработки основана, в частности, система распознавания речи, разработаннаяв конце 80-х в НИИ счетного машиностроения (Москва).
Временной (10 мс)интервал вычисления был определен и обоснован экспериментально еще на зареразвития технологии автоматического распознавания речи. На этом интерваледискретный случайный процесс, представляющий оцифрованный речевой сигналсчитается стационарным, то есть на таком временном интервале параметрыголосового тракта значительно не изменяются.
Следующий этап- распознавание. Хранимые впамяти компьютера эталоны произношения по очереди сравниваются с текущимучастком последовательности десяти миллисекундных векторов, описывающих входнойречевой сигнал. В зависимости от степени совпадения выбирается лучший вариант иформируется гипотеза о содержании высказывания. Здесь мы сталкиваемся с оченьсущественной проблемой — необходимостью нормализации сигнала по времени. Темпречи, длительность произношения отдельных слов и звуков даже для одного диктораварьируется в очень широких пределах. Таким образом, возможны значительныерасхождения между отдельными участками хранимого эталона и теоретическисовпадающим с ним входным сигналом за счет их временного рассогласования.Достаточно эффективно решать данную проблему позволяет разработанный в 70-х годах алгоритм динамического программирования и егоразновидности (алгоритм Витерби). Особенностью таких алгоритмов являетсявозможность динамического сжатия и растяжения сигнала по временной осинепосредственно в процессе сравнения с эталоном. С начала 80-х все более широкоеприменение находят марковские модели, позволяющие на основе многоуровневоговероятностного подхода к описанию сигнала производить временную нормализацию ипрогнозирование продолжений, что ускоряет процесс перебора эталонов и повышаетнадежность распознавания.
Что такое распознавание речи?
На первый взгляд, все очень просто: выпроизносите фразу, на которую техническая система реагируетадекватно .На самом деле за столь простой идеей кроются огромные сложности.
Почему же между постановкойзадачи и ее решением лежит дистанция огромного размера? Распознавание речи — молодая, развивающаяся технология. Ее очертания пока зыбки и изменчивы.Поэтому в статье пока больше вопросов, чем ответов. Я попытаюсь немногорассказать о технологиях распознавания речи, и, надеюсь, вам будет интересно. Немного о терминах
Начнем с главного термина. Чтоесть речь?
Говоря о речи, мы должны различатьтакие понятия, как «речь», «звуковая речь», «звуковой сигнал», «сообщение»,«текст».
В нашем случае, в приложении к задачераспознавания такие понятия, как «речь» и «звуковая речь» означают одно и тоже — некое генерируемое человеком звуковое сообщение, которое может бытьобъективно зарегистрировано, измерено, сохранено,обработано и, что важно, воспроизведено при помощи приборов и алгоритмов. Тоесть речь может быть представлена в виде некоего речевого сигнала, который всвою очередь может использоваться для обратного воспроизведения речи. То естьможно поставить знак эквивалентности между звуковой речьюи ее представлением в виде речевого сигнала.При этом под понятием «сообщение» может скрываться любая полезная для получателя информация, ане только текст. Например, если интересоваться не словами а интонациями, тосообщением будут просодическиенюансы речи. Что жекасается распознавания речи, то в нашем случае задача сводится к извлечению изречи текста.
Но здесь мы сталкиваемся с однимпротиворечием. Текст, как известно, состоит из букв, слов, предложений, — тоесть он дискретен. Речь же в нормальных условиях звучит слитно. Человеческаяречь, в отличие от текста, вовсе не состоит из букв. Если мы запишем на магнитофонную ленту или на диск компьютеразвучание каждой отдельной буквы, а потом попробуем скомпоновать из этихзвуков речь, у нас ничего не получится.
Люди уже довольно давно догадалисьо том, что элементарные звуки, из которых состоит речь, не эквивалентны буквам.Поэтому придумалипонятие фонемы для обозначения элементарных звуков речи. Хотя до сих порспециалисты никак не могут решить — сколько же всего различных фонем существует.Есть даже такой раздел лингвистики — фонетика. Большинство авторов даже дляодного и того же языкового диалекта приводят разное количество фонем. Врусском языке по одним данным 43 фонемы,по другим — 64, по третьим — более сотни… Но так уж повелось, что есть миф онезыблемости понятия фонемы. И о том, что речевой сигнал состоитнепосредственно из кусочков сигнала, каждый из которых является фонемой. Ксожалению, все далеко не так просто.
Поначалу ученые рассматривалиречевой сигнал как набор некихуниверсалий, расположенных другза другом на временной оси, и считали этими универсалиями фонемы. Однакодальнейшие исследования речевых сигналов никаких фонем не обнаружили.
Тогда одни исследователи справедливорешили, что при генерации речевых сигналов наблюдается коартикуляция,то есть взаимопроникновение соседних звуков (мышцы лица, язык и челюсти обладаютразной инерцией). Значит, речевой сигнал должен состоять не из фонем, а изаллофонов — комбинаций «слипшихся» фонем.
Другие исследователи, подобнофизикам, атаковали идею элементарности фонем и стали утверждать, что фонемынадо поделить на еще более короткие кусочки или даже вообще отказаться от этогопонятия и «расчленять» речевой сигнал как-то иначе. Так родились фоноиды и еще масса авторских названий элементарных звуков.
А дальше все многозначительнозамолчали. Каждый принялся рассматривать речевой сигнал со своей позиции,сообщай об успехах весьма туманно. Последнее, весьма вероятно, можно объяснитьжеланием сохранить ноу-хау. Вот такая картина. Люди изобрели целую кучупретендентов на универсальность. Конечно, в их основу положено прежде всего человеческое ощущениезвука. Возможно поэтому фонемы ничем не лучше букв. А фоноиды,аллофоны и прочая — лишь усовершенствованная версия звукового деления речи. Может быть, в них и естькакой-то смысл. Мы ведь услышим. А технически-то сигнал состоит не из наших,человеческих компонентов восприятия. Сигнал можно разложить, отфильтровать,как-то еще преобразовать. Задача не в этом. Необходимо найти некий эквивалент,построить модель механизма восприятия звуков речи. Большой интерес дляученых, работающих в области распознавания речи, представляют различныеразделы лингвистики, науки о языках. Возможно, удачныйсинтез достижений этих наук и теории обработки речевых сигналов приведут к успешномусозданию систем распознавания .Главные трудностифонемного подхода
Темп речи варьируется в широких пределах,часто в несколько раз. При этом различные звуки речи растягиваются или сжимаютсяне пропо-рционально. Например, гласные изменяются значительно сильнее, чемполугласные и особенно смычные согласные. Для так называемых щелевых звуковесть свои закономерности. (Полугласные — это звуки при генерации которыхнеобходимо участие голосовых связок, как и для гласных звуков, но сами они вобиходе считаются согласными. Например, так обычно звучат «м», «н», «л» и«р». Смычные звуки образуются при резком смыкании и размыканииорганов артикуляции. Например «б», «л», «д», «т». Образование щелевыхзвуков связано с шипением и прочими эффектами турбулентности в органахартикуляции. Можно назвать «в», «ж», «с», а также «ш» и другие шипящие. Вкачестве примеров для простоты намеренно не приведены звуки, не имеющиебуквенных обозначений.) Эта свойство называется временнойнестационарностью образцов речевого сигнала. Произнося одно и то же слово или фразу в разное время, под влияниемразличных факторов (настроения, состояния здоровья и др.), мы генерируем заметноне совпадающие спектрально-временные распределения энергии. Это справедливодаже для дважды подряд произнесенного слова. Намного сильнее этот эффектпроявляется при сравнении спектрограмм одной и той же фразы, произнесеннойразными людьми. Обычно этот эффект называют спектральной нестационарной сетьюобразцов речевого сигнала (см. примеры спектрограмм). В Изменение темпа речи ичеткости произношения является причиной коартикуляционной нестационарности,означающей изменение взаимовлияния соседних звуков от образца к образцу.Проблема кластеризации слитной речи. Из непрерывного речевого потока довольнонепросто выделить какие-либо речевые единицы. Многие звуки «слипаются» либоимеют нечеткие границы.Многообразиевидов
Существующие системы распознаванияречи можно классифицировать по разным признакам.
По назначению:
1) командные системы
2) системы диктовки текста.
По потребительским качествам:
1) диктороориентированные (тренируемые наконкретного диктора)
2) дикторонезависимые (рискую предложить термин«омнивойс»)
3) распознающие отдельные слова
4) распознающие слитную речь.
По механизмам функционирования:
1) простейшие (корреляционные) детекторы
2) экспертные системы с различным способомформирования и обработки базы знаний
3) вероятностно-сетевые модели принятия решения, втом числе нейронные сети.
Довольно трудно выбрать удобныйпоказатель качества работы системы распознавания речи. Наиболее просто такойпоказатель качества вводится для командных систем. При тестировании в случайномпорядке произносятся все возможные команды достаточно большое число раз.Подсчитывается количество правильно распознанных команд и делится на общееколичество произнесенных команд. В результате получается оценка вероятностиправильного распознавания команды в заданной при эксперименте акустическойобстановке. Для систем диктовки похожий показатель качества может вычислятьсяпри диктовке некоторого тестового текста. Очевидно, что это не всегда удобныйпоказатель качества. В действительности мы сталкиваемся с самыми различнымиакустическими обстановками. Но как быть со сменой дикторов и сопутствующей ейтренировкой системы?
В качестве примера разрешитевзять на рассмотрение вариант простейшей командной системы распознавания речи.Функционирование системы основано на гипотезе о том, что спектрально-временныехарактеристики команд-слов для отдельно взятого диктора изменяются слабо.Акустическая модель такой системы представляет собой преобразователь изречевого сигналов спектрально-временную матрицу и может служить типичнымпримером изобретательского подхода. В самом простом случае команда локализуетсяво времени по паузам в речевом сигнале. Лингвистический блок способенобнаружить ограниченное число команд плюс еще одну, которая означает всеостальные неизвестные системе слова. Как правило, лингвистическая модельстроится как алгоритм поиска максимума функционала от входного образца иобразцов всего «словарного запаса» системы. Часто это обычный двумерный коррелятор. Хотя выбор размерности пространства описания иего метрики может широко варьироваться разработчиком.
Уже исходя из «конструкции»описанной системы понятно, что она представляет собой скорее игрушку, нежелиполезный инструмент. В настоящее время на рынке представлено множествокоммерческих систем распознавания речи с гораздо большими возможностями:
ü VoiceType Dictation, Voice Pilot, ViaVoice от IBM
ü VoiceAssist Creative от Techonology
ü Listenfor Windows от Verbex и многие другие.
Некоторые из них (например, ViaVoice) способны, как заявляютразработчики, вводить слитную речь.
Лингвистические блоки современныхсистем реализуют сложную модель естественного языка. Иногда она основана наматематическом аппарате скрытых цепей Маркова, иногда использует последниедостижения технологии нейронных сетей либо других ноу-хау. Устройство жеакустических блоков подобных систем держится в строгом секрете. По некоторымпризнакам можно догадаться, что акустический блок некоторых систем пытаетсямоделировать естественный слуховой аппарат.
Речевой вывод.
Речевой вывод информации изкомпьютера- проблема не менее важная, чем речевой ввод. Это вторая частьречевого интерфейса, без которой разговор с компьютером не может состояться.Я имею в виду прочтение вслух текстовой информации, а не проигрывание заранеезаписанных звуковых файлов. То есть выдачу в речевой форме заранее не известнойинформации.
Фактически, благодаря синтезуречи по тексту открывается еще один канал передачи данных от компьютера кчеловеку, аналогичный тому, какой мы имеем благодаря монитору. Конечно, трудноватобыло бы передать рисунок голосом. Но вот услышать электронную почту илирезультат поиска в базе данных в ряде случаев было бы довольно удобно, особенноесли в это время взгляд занят чем-либо другим. Например, придя утром на работув офис, вы могли бы поправлять галстуку зеркала или возвращать на место прическу(может быть, даже подкрашивать ногти ) в то время как компьютербудет читать вслухпоследние известия или почту. Или. например, в середине рабочего дня он может привлечь ваше внимание сообщением, что приближается времязаранее назначенной деловой встречи.
С точки зрения пользователя,наиболее разумное решение проблемы синтеза речи — это включение речевыхфункций (в перспективе — многоязычных, с возможностями перевода) в составоперационной системы. Компьютеры будут озвучивать навигацию по меню, читать(дублировать голосом) экранные сообщения, каталоги файлов, и т. д.Важное замечанием пользователь должен иметь достаточные возможности понастройке голоса компьютера, в частности, при желании, суметь выключить голоссовсем.
Вышеупомянутые функции исейчас были бы не лишними для лиц, имеющих проблемы со зрением. Для всехостальных они создадут новое измерение удобства пользования компьютером и значительноснизят нагрузку на нервную систему и на зрение. По моему мнению, сейчас нестоит вопрос, нужны синтезаторы речи в персональных компьютерах или нет.Вопрос в другом — когда они будут установлены на каждом компьютере. Осталосьждать, может быть, год или два. Методы синтеза речи
Теперь, после оптимистического описанияближайшего будущего давайте обратимся собственно к технологии синтеза речи.Рассмотрим какой-нибудь хотя бы минимально осмысленныйтекст, например, эту статью. Текст состоит из слов, разделенных пробелами изнаками препинания.Произнесение слов зависит от их расположения в предложении,а интонация фразы — от знаков препинания. Более того, довольно часто и от типаприменяемой грамматической конструкции: в ряде случаев при произнесениитекста слышится явная пауза, хотя какие-либо знаки препинанияотсутствуют. Наконец, произнесение зависит и от смысла слова! Сравните,например, выбор одного из вариантов за'мок» или «замо'к» для одного и того же слова «замок».
Обобщенная функциональная системасинтеза
Структура идеализированной системыавтоматического синтеза речи может быть представлена блок- схемой,изображенной на рис.1.
Ввод текста
Блокилингвистической Определение Исправление
Обработки языка текста ошибок
Подготовкатекста входного текста
козвучиванию
Нормализация текста
Лингвистическийанализ Формирование Фонемный транскриптор
Просодических Приведение фонем
характеристик кединицам синтеза
Озвучивание Формирование управляющейинформации
Получение звукового сигнала
Звук
Она не описывает ни одну из существующихреально систем, но содержит компоненты, которые можно обнаружить во многихсистемах. Модуль лингвистической обработки
Прежде всего, текст,подлежащий прочтению, поступает в модуль лингвистической обработки. В немпроизводится определение языка, а также отфильтровываются не подлежащиепроизнесению символы. В некоторых случаях используются спелчекеры(модули исправления орфографических и пунктуационных ошибок). Затемпроисходит нормализация текста, то есть осуществляется разделение введенноготекста на слова и остальные последовательности символов.Все знаки пунктуацииочень информативны.
Для озвучивания цифр разрабатываютсяспециальные подблоки. Преобразование цифр в последовательностислов является относительно легкой задачей, но цифры имеющие разное значение ифункцию, произносятся по-разному.
Лингвистический анализ
После процедуры нормализациикаждому слову текста необходимоприписать сведения о его произношении, то есть превратить в цепочку фонем или, иначе говоря,создать его фонемную транскрипцию. Во многих языках, в том числе и в русском,существуют достаточно регулярные правила чтения — правиласоответствия между буквами и фонемами (звуками), которые, однако могуттребовать предварительной расстановкисловесных ударений. В английском языке правила чтения очень нерегулярны, изадача данного блока для английского синтеза тем самым усложняется. В любомслучае при определении прои