Реферат по предмету "Программирование, Базы данных"


Речевые технологии

Перспективыречевого интерфейса
 
Писать о речевом интерфейсесложно. С одной стороны, тема абсолютно не нова, с другой- активное развитие иприменение этой технологии только начина­ется (в который раз). С одной стороны,успели сформировать­ся устойчивые стереотипы и пре­дубеждения, с другой — несмот­ря на почти полвека настойчивых усилий не нашли разрешения вопросы,стояв­шие еще перед родоначальниками речевого ввода. Какбы то ни было, продолжат­ся поиски такогоинтерфейса, ко­торый устроил бы всех. Собственно говоря, это как раз то, к чемучеловечество всегда стремилось в общении с компьютером.
Исследователи недалеко про­двинулисьза прошедшие десятки лет, что заставляет некоторых спе­циалистов крайнескептически от­носиться к самой возможности реализации речевого интерфейса вближайшем будущем. Другие считают, что задача уже практи­чески решена. Впрочем,все зави­сит от того, что следует считать решением этой задачи.
Построение речевого интер­фейсараспадается на три состав­ляющие.
I.             Первая задача состоит в том, чтобы компьютер мог«понять» то, что ему говорит человек, то есть он доложен уметь извлекать изречи человека полезную ин­формацию. Пока что, на нынеш­нем этапе, эта задачасводится к тому, чтобы извлечь из речи смысловую ее часть, текст (пони­маниетаких составляющих, как скажем, интонация, пока вообще не рассматривается). Тоесть эта задача сводится к замене клави­атуры микрофоном.
II.           Втораязадача состоит в том, чтобы компьютер воспринял смысл сказанного. Пока речевоесообщение состоит из некоего стандартного набора понятных компьютеру команд(скажем, дуб­лирующих пункты меню), ничего сложного в ее реализации нет. Однаковряд ли такой подход бу­дет удобнее, чем ввод этих же ко­манд с клавиатуры илипри помо­щи мыши. Пожалуй, даже удоб­нее просто щелкнуть мышкой по иконкеприложения, чем четко выговаривать (к тому же мешая окружающим); «Старт!Главное меню! Бери!» В идеале компьютер должен четко «осмысливать» ес­тественнуюречь человека и пони­мать, что, к примеру, слова «Хва­тит!» и «Кончай работу!»означа­ют в одной ситуации разные по­нятия, а в другой — одно и то же.
III.        Третьязадача состоит в том, чтобы компьютер мог преобразо­вать информацию, с которойон оперирует, в речевое сообщение, понятное человеку.
Так вот, из этих трех задачдостаточно ясное и окончатель­ное решение существует только для третьей. Посути, синтез речи — это чисто математическая за­дача,которая в настоящее время решена на довольно хорошем уровне. И в ближайшеевремя, скорее всего, будет совершен­ствоваться только ее техническаяреализация.
Препятствиемдля  окончательного решения первой задачи слу­жит то, что никто до сихпор тол­ком не знает, каким образом мож­но расчленить нашу речь, чтобы извлечьиз нее те составляющие, в которых содержится смысл. В том звуковом потоке, которыймы выдаем при разговоре, нельзя различить ни отдельных букв, ни слогов, обэтом более подробно я Вам расскажу позже… Во всяком случае, послепредварительной тренировки современные системыраспознавания речи работают довольно сносно и делают оши­бок не больше, чемделали оптические системы распознавания пе­чатных символовлет пять-семь назад.
Что касается второй задачи, тоона, по мнению большинства спе­циалистов, не может быть решена без помощисистем искусственно­го интеллекта. Последние, как из­вестно, пока не созданы,хотя боль­шие надежды возлагаются на по­явление так называемых кванто­вых. Если же подобные устройства появятся, это будет оз­начатькачественный переворот в вычислительных технологиях, и тогда, как знать, может быть, мно­гие теперешние подходы к рече­вомуинтерфейсу вообще окажут­ся ненужными.
Поэтому пока удел речевогоинтерфейса — всего лишь дубли­рование голосом команд, кото­рые могут бытьвведены с клави­атуры или при помощи мыши. А здесь его преимущества весьма  сомнительны. Впрочем, есть одна область,которая для многих может ока­заться очень привлекательной. Это речевой вводтекстов в компью­тер. Действительно, чем стучать по клавиатуре, гораздо удобнеепродиктовать все компьютеру, чтобы он записал услышанное втекстовый файл. Здесь вовсе не требуется, чтобы компьютер «ос­мысливал»услышанное, а задача перевода речи в текст более или менее решена. Недаромбольшин­ство выпускаемых ныне программ «речевого интерфейса» ориенти­рованыименно на ввод речи.
Хотя и здесь есть место дляскепсиса. Если читать вслух, четко выговаривая слова, с паузами,монотонно, как это требуется для системы распознаванияречи, то на машинописную страничку у меня уйдет пять минут. Печатаю наклавиатуре я с той же скоростью. Но сочиняю, при наличии вдох­новения, раза вдва-три медлен­нее, а без оного — медленнее раз в пять,так что скорость «ввода» и при диктовке  и при работе на кла­виатуреу меня абсолютно одинакова. Но вот сочинять и одновременно выговаривать сочиняемое с четкой  артикуляцией, хоть убей, те не смогу.
  Первый — и, пожалуй, основ­ной — вопроскасается области применения. Поиск приложений, где распознавание речи могло быпродемонстрировать все свои достоинства, вопреки устоявше­муся мнению, являетсязадачей далеко не тривиальной. Сложив­шаяся практика применения ком­пьютероввовсе не способствует широкому внедрению речевого интерфейса.
Для подачи команд, связан­ныхс позиционированием в про­странстве, человек всегда поль­зовался и будетпользоваться жес­тами, то есть системой «руки- глаза». На этом принципепостроен современный графический ин­терфейс. Перспектива замены клавиатуры имыши блоком рас­познавания речи абсолютно от­падает. При этом выигрыш от воз­ложенияна него части функций управления настолько мал, что не смог предоставитьдостаточных оснований даже для пробного внедрения в массовых компьюте­рах напротяжении уже более три­дцати лет. Именно таким сроком оцениваетсясуществование ком­мерчески применимых систем распознавания речи.
 Для иллюстрации своих аргументов возможно,несколько спор­ных утверждений рассмотрю перспективу и основные пробле­мыприменения систем речевого ввода текстов, особенно активно продвигаемых впоследнее время.
Для сравнения: спонтанная речьпроизносится со средней ско­ростью 2,5 слов в секунду, про­фессиональнаямашинопись — 2 слова в секунду, непрофессио­нальная — 0,4. Таким образом, напервый взгляд, речевой ввод имеет значительное превосходство попроизводительности. Однако оценка средней скорости диктов­ки в реальныхусловиях снижается до 0,5-0,8 слова в секунду в связи с необходимостью четкогопроиз­несения слов при речевом вводе и достаточно высоким процентом ошибокраспознавания, нуждаю­щихся в корректировке.
Речевой интерфейс естественендля человека и обеспечивает допол­нительное удобство при наборе тек­стов.Однако даже профессиональ­ного диктора может не обрадовать перспектива втечение нескольких часов диктовать малопонятливому и немому (кэтому я еще вернусь) ком­пьютеру. Кроме того, имеющийся опыт эксплуатацииподобных сис­тем свидетельствует о высокой веро­ятности заболевания голосовых связок операторов, что связано с неиз­бежнойпри диктовке компьютеру монотонностью речи.
Часто к достоинствам речевоговвода текста относят отсутствие не­обходимости в предварительном обучении.Однако одно из самых слабых мест современных систем распознавания речи- чувстви­тельностьк четкости произноше­ния- приводит к потере этого, казалось бы, очевидногопреиму­щества. Печатать на клавиатуре оператор учится всреднем 1-2 месяца. Постановка правильного произно­шения может занять нескольколет.
Существует и еще одно непри­ятноеограничение применимо­сти, сознательно не упоминаемое, на мой взгляд,создателями сис­тем речевого ввода. Оператор, взаимодействующий с компьютером через речевой интерфейс, вынужден работать взвука изолированном отдельном помещении либо пользоватьсязвукоизоли­рующим шлемом. Иначе он будет мешать работе своих соседей по офису,которые, в свою очередь, создавая дополнительный шумо­вой фон, будутзначительно за­труднять работу речевого распо­знавателя. Таким образом, рече­войинтерфейс вступает в явное противоречие с современной ор­ганизационнойструктурой пред­приятий, ориентированных на коллективный труд. Ситуация не­сколькосмягчается с развитием удаленных форм трудовой дея­тельности, однако ещедостаточ­но долго самая естественная для человека производительная и по­тенциальномассовая форма поль­зовательского интерфейса обре­чена на узкий кругприменения.
Ограничения применимостисистем распознавания речи в рам­ках наиболее популярных тради­ционныхприложений заставляют сделать вывод о необходимости поиска потенциальноперспектив­ных для внедрения речевого ин­терфейса приложений за преде­ламитрадиционной офисной сфе­ры, что подтверждается коммер­ческими успехамиузкоспециали­зированных речевых систем. Са­мый успешный на сегодня проекткоммерческого применения рас­познавания речи — телефонная сеть фирмы АТ&Т. Клиент может запросить одну из пяти категорийуслуг, используя любые слова. Он говорит до тех пор, пока в его высказывании невстретится одно из пяти ключевых слов. Эта систе­ма в настоящее время обслужива­етоколо миллиарда звонков в год.
Несмотря на то, что одним изнаиболее перспективных направ­лений для внедрений систем рас­познавания речиможет стать сфе­ра компьютерных игр, узкоспециа­лизированных реабилитационныхпрограмм для инвалидов, телефонных и информационныхсис­тем, ведущие разработчики рече­вого распознавания наращивают усилия подостижению универса­лизации и увеличения объемов словаря даже в ущербсокращению процедуры предварительной на­стройки на диктора.
Даже Билл Гейтс,являющий со­бой в некотором смысле идеал праг­матизма, оказался не свободенот исторически сложившихся стерео­типов. Начав в 95-96 году с разра­боткисобственной универсальной системы распознавания речи, он, окрыленный первыми и,пожалуй, сомнительными успехами, в 97-м провозгласилочередную эру по­всеместного внедрения речевого ин­терфейса. Средства речевоговвода планируется включить в стандарт­ную поставку новой версии Windows NT — чисто офисной операционной системы. При этом руко­водитель Microsoftупорно повто­ряет фразу о том,что скоро можно будет забыть о клавиатуре и мыши. Вероятно, он планируетпродавать вместе с коробкой WindowsNTаку­стические шлемы вроде тех, кото­рые используют военные летчики ипилоты «Формулы 1». Кроме того, неужели вближайшем бу­дущем прекратится выпуск Word,Ехсеl и т. д.? Управлятьграфическими объектами экрана голосом, не имеявозможности помочь руками, бо­лее чем затруднительно.
Будущееречевого интерфейса в не меньшей степени зависит от умения современныхисследова­телей и разработчиков не только создать технологическую основуречевого ввода, но и гармонично слить технологические находки в единуюлогически завершенную систему взаимодействия «чело­век-компьютер». Основная ра­ботаеще впереди.
Базоваятехнология
Не следует путатьтермины «понимание» и распознавание» речи. В то время как второйнепосредственно относится к техноло­гиипреобразования акустических речевых сигналов в последова­тельность символовмашинной кодировки, например ASCII. первый подразумевает анализ более высокихуровней (прагматический, семантический и т. д.)и формирование на его основе представле­ния о смысловом содержаниивысказывания. Дальнейшее разграничение задан укрепилось благодаря коммерческомууспеху узкоспециализированных систем, ни в малейшей степени не нуждающихся,напри­мер, в модуле анализа контекста высказывания.
Традиционно процессраспознавания речи подразделяется на несколько этапов. На первом — производитсядискретизация непрерывного речевого сигнала. преобразованного в электрическуюформу  Обычно частотадискретизации составляет 10-11 кГц. разрядность- 8 бит, что считаетсяоптимальным для работы со словарями небольшого объема (10-1000 слов) исоответствует качеству передачи речи телефонного канала (ЗГц-3.4кГц). понятно что увеличение объема активного словаря должно со­провождатьсяповышением частоты оцифровки н в некоторых случаях — поднятием разрядности.
На втором этапедискретный речевой сигнал подвергается очистке от шумов и преобразуется в болеекомпактную форму. Сжатие производится посредством вычисления через каждые 10 мснекоторого набора числовых параметров (обычно не более  16) с минимальными потерями информации, описывающейданный речевой сигнал. Состав набора зависит от особенностей  реализации системы. Начиная с 70-х годовнаиболее популярным методом (практически стандартом) построения сжатогопараметрического описания стало линейно-предиктивное кодирование (ЛПК), воснове которого лежит достаточно совершенная линейная модель голосового тракта. На втором месте по популярностинаходится, вероятно, спектральное описание, полученное с  помощью дискретного преобразования Фурье.
Очень хорошиерезультаты, однако, могут быть достигнуты и при использовании других методов,часто менее требовательных к вычислительным ресурсам, например клипирования. Вэтом случае регистрируется количество изменений знака амплитуды речевогосигнала и временные интервалы между ними. Получаемая в резуль­татепоследовательность значений, представляющих собой оценку длительностей периодовсохранения знака амплитудой, несмотря на кажущуюся примитивность метода,достаточно полно представляет различия между произносимыми звуками. На такомметоде предоб­работки основана, в частности, система распознавания речи, разра­ботаннаяв конце 80-х в НИИ счетного машиностроения (Москва).
Временной (10 мс)интервал вычисления был определен и обос­нован экспериментально еще на зареразвития технологии авто­матического распознавания речи. На этом интерваледискретный случайный процесс, представляющий оцифрованный речевой сиг­налсчитается стационарным, то есть на таком временном интер­вале параметрыголосового тракта значительно не изменяются.
Следующий этап- распознавание. Хранимые впамяти компь­ютера эталоны произношения по очереди сравниваются с текущимучастком последовательности десяти миллисекундных векторов, описывающих входнойречевой сигнал. В зависимости от степени совпадения выбирается лучший вариант иформируется гипотеза о содержании высказывания. Здесь мы сталкиваемся с оченьсуще­ственной проблемой — необходимостью нормализации сигнала по времени. Темпречи, длительность произношения отдельных слов и звуков даже для одного диктораварьируется в очень широких пределах. Таким образом, возможны значительныерасхождения между отдельными участками хранимого эталона и теоретическисовпадающим с ним входным сигналом за счет их временного рассогласования.Достаточно эффективно решать данную пробле­му позволяет разработанный в 70-х годах алгоритм динамического программирования и егоразновидности (алгоритм Витерби). Осо­бенностью таких алгоритмов являетсявозможность динамического сжатия и растяжения сигнала по временной осинепосредственно в процессе сравнения с эталоном. С начала 80-х все более широкоеприменение находят марковские модели, позволяющие на основе многоуровневоговероятностного подхода к описанию сигнала производить временную нормализацию ипрогнозирование продолжений, что ускоряет процесс перебора эталонов и повышаетнадежность распознавания.
Что такое распознавание речи?
 На первый взгляд, все очень просто: выпроизносите фразу, на которую техническая система реагируетадекватно .На самом деле за столь простой идеей кроются огромные сложно­сти.
Почему же между постановкойзадачи и ее решением лежит дис­танция огромного размера? Рас­познавание речи — молодая, раз­вивающаяся технология. Ее очер­тания пока зыбки и изменчивы.Поэтому в статье пока больше во­просов, чем ответов. Я попытаюсь немногорассказать о технологиях распознавания речи, и, надеюсь, вам будет интересно. Немного о терминах
Начнем с главного термина. Чтоесть речь?
Говоря о речи, мы должны раз­личатьтакие понятия, как «речь», «звуковая речь», «звуковой сиг­нал», «сообщение»,«текст».
   В нашем случае, в приложении к задачераспознавания такие поня­тия, как «речь» и «звуковая речь» означают одно и тоже — некое генерируемое человеком звуковое сообщение, которое может бытьобъективно зарегистрировано, измерено, сохранено,обработано и, что важно, воспроизведено при по­мощи приборов и алгоритмов. Тоесть речь может быть представлена в виде некоего речевого сигнала, который всвою очередь может ис­пользоваться для обратного вос­произведения речи. То естьможно поставить знак эквивалентности ме­жду звуковой речьюи ее представ­лением в виде речевого сигнала.При этом под понятием «сообщение» может скрываться любая по­лезная для получателя информа­ция, ане только текст. Например, если интересоваться не словами а интонациями, тосообщением будут просодическиенюансы речи. Что жекасается распознавания речи, то в нашем случае задача сводится к извлечению изречи текста.
Но здесь мы сталкиваемся с од­нимпротиворечием. Текст, как из­вестно, состоит из букв, слов, пред­ложений, — тоесть он дискретен. Речь же в нормальных условиях звучит слитно. Человеческаяречь, в отличие от текста, вовсе не состоит из букв. Если мы запишем на магнитофонную ленту или на диск ком­пьютеразвучание каждой отдель­ной буквы, а потом попробуем ском­поновать из этихзвуков речь, у нас ничего не получится.
Люди уже довольно давно дога­далисьо том, что элементарные звуки, из которых состоит речь, не эквивалентны буквам.Поэтому  придумалипонятие фонемы для обозначения элементарных звуков речи. Хотя до сих порспециалисты никак не могут решить — сколько же всего различных фонем суще­ствует.Есть даже такой раздел лин­гвистики — фонетика. Большинство авторов даже дляодного и того же языко­вого диалекта приводят разное ко­личество фонем. Врусском языке  по одним данным 43 фонемы,по другим — 64, по третьим — более сотни… Но так уж повелось, что есть миф онезыблемости понятия фонемы. И о том, что речевой сиг­нал состоитнепосредственно из ку­сочков сигнала, каждый из которых является фонемой. Ксожалению, все далеко не так просто.
Поначалу ученые рассматрива­лиречевой сигнал как набор некихуниверсалий, расположенных другза другом на временной оси, и считали этими универсалиями фо­немы. Однакодальнейшие иссле­дования речевых сигналов ника­ких фонем не обнаружили.
Тогда одни исследователи спра­ведливорешили, что при генера­ции речевых сигналов наблюдает­ся коартикуляция,то есть взаимо­проникновение соседних звуков (мышцы лица, язык и челюсти об­ладаютразной инерцией). Значит, речевой сигнал должен состоять не из фонем, а изаллофонов — комбинаций «слипшихся» фонем.
Другие исследователи, подобнофизикам, атаковали идею элемен­тарности фонем и стали утвер­ждать, что фонемынадо поделить на еще более короткие кусочки или даже вообще отказаться от этогопонятия и «расчленять» речевой сигнал как-то иначе. Так родились фоноиды и еще масса авторских названий элементарных звуков.
А дальше все многозначитель­нозамолчали. Каждый принялся рассматривать речевой сигнал со своей позиции,сообщай об успе­хах весьма туманно. Последнее, весьма вероятно, можно объяснитьжеланием сохранить ноу-хау. Вот такая картина. Люди изобрели це­лую кучупретендентов на универ­сальность. Конечно, в их основу положено прежде всего человеческое ощущениезвука. Возмож­но поэтому фонемы ничем не луч­ше букв. А фоноиды,аллофоны и прочая — лишь усовершенство­ванная версия звукового деления речи. Может быть, в них и естькакой-то смысл. Мы ведь услы­шим. А технически-то сигнал со­стоит не из наших,человеческих компонентов восприятия. Сигнал можно разложить, отфильтровать,как-то еще преобразовать. Задача не в этом. Необходимо найти некий эквивалент,построить модель ме­ханизма восприятия звуков речи.  Большой интерес дляученых, работающих в облас­ти распознавания речи, представ­ляют различныеразделы лингвистики, науки о языках. Возможно, удачныйсинтез достижений этих наук и теории обработки речевых сигналов приведут к ус­пешномусозданию систем распознавания .Главные трудностифонемного подхода
             Темп речи варьируется в широ­ких пределах,часто в несколько раз. При этом различные звуки речи растягиваются или сжимают­сяне пропо-рционально. Напри­мер, гласные изменяются значи­тельно сильнее, чемполугласные и особенно смычные согласные. Для так называемых щелевых зву­ковесть свои закономерности. (По­лугласные — это звуки при гене­рации которыхнеобходимо участие голосовых связок, как и для гласных звуков, но сами они воби­ходе считаются согласными. На­пример, так обычно звучат «м», «н», «л» и«р». Смычные звуки образуются при резком смыкании и размыканииорганов артикуляции. Например «б», «л», «д», «т». Образование щелевыхзвуков свя­зано с шипением и прочими эф­фектами турбулентности в органахартикуляции. Можно назвать «в», «ж», «с», а также «ш» и другие шипящие. Вкачестве примеров для простоты намеренно не приведе­ны звуки, не имеющиебуквенных обозначений.) Эта свойство называется временнойнестационарностью образцов речевого сигнала. Произнося одно и то же слово или фразу в разное время, под влияниемразличных факторов (настроения, состояния здоровья и др.), мы генерируем заметноне совпадающие спектрально-вре­менные распределения энергии. Это справедливодаже для дваж­ды подряд произнесенного сло­ва. Намного сильнее этот эффектпроявляется при сравнении спек­трограмм одной и той же фразы, произнесеннойразными людьми. Обычно этот эффект называют спектральной нестационарной сетьюобразцов речевого сигнала (см. примеры спектрограмм). В Изменение темпа речи ичетко­сти произношения является при­чиной коартикуляционной нестационарности,означающей изме­нение взаимовлияния соседних звуков от образца к образцу.Проблема кластеризации слит­ной речи. Из непрерывного рече­вого потока довольнонепросто вы­делить какие-либо речевые еди­ницы. Многие звуки «слипаются» либоимеют нечеткие границы.Многообразиевидов
Существующие системы распо­знаванияречи можно классифи­цировать по разным признакам.
По назначению:
1)     командные системы
2)     системы диктовки текста.
По потребительским качествам:
1)     диктороориентированные (тре­нируемые наконкретного диктора)
2)     дикторонезависимые (рискую предложить термин«омнивойс»)
3)     распознающие отдельные слова
4)     распознающие слитную речь.
 По механизмам функциониро­вания:
1)     простейшие (корреляционные) детекторы
2)     экспертные системы с различ­ным способомформирования и обработки базы знаний
3)     вероятностно-сетевые модели принятия решения, втом числе нейронные сети.
Довольно трудно выбрать удоб­ныйпоказатель качества работы системы распознавания речи. Наи­более просто такойпоказатель ка­чества вводится для командных систем. При тестировании в слу­чайномпорядке произносятся все возможные команды достаточно большое число раз.Подсчитыва­ется количество правильно распознанных команд и делится на об­щееколичество произнесенных команд. В результате получается оценка вероятностиправильного распознавания команды в задан­ной при эксперименте акустиче­скойобстановке. Для систем дик­товки похожий показатель качест­ва может вычислятьсяпри диктов­ке некоторого тестового текста. Очевидно, что это не всегда удоб­ныйпоказатель качества. В дейст­вительности мы сталкиваемся с са­мыми различнымиакустическими обстановками. Но как быть со сменой дикторов и сопутствующей ейтре­нировкой системы?
В качестве примера разрешитевзять на рассмотрение вариант простейшей командной системы распознавания речи.Функционирование системы осно­вано на гипотезе о том, что спек­трально-временныехарактеристи­ки команд-слов для отдельно взя­того диктора изменяются слабо.Акустическая модель такой систе­мы представляет собой преобразователь изречевого сигналов спектрально-временную матрицу и мо­жет служить типичнымпримером изобретательского подхода. В са­мом простом случае команда ло­кализуетсяво времени по паузам в речевом сигнале. Лингвистический блок способенобнаружить огра­ниченное число команд плюс еще одну, которая означает всеосталь­ные неизвестные системе слова. Как правило, лингвистическая мо­дельстроится как алгоритм поиска максимума функционала от вход­ного образца иобразцов всего «словарного запаса» системы. Часто это обычный двумерный коррелятор. Хотя выбор размер­ности пространства описания иего метрики может широко варьиро­ваться разработчиком.
Уже исходя из «конструкции»описанной системы понятно, что она представляет собой скорее игрушку, нежелиполезный инструмент. В на­стоящее время на рынке представ­лено множествокоммерческих сис­тем распознавания речи с гораздо большими возможностями:
ü     VoiceType Dictation, Voice Pilot, ViaVoice от IBM
ü     VoiceAssist  Creative от Techonology
ü     Listenfor Windows  от Verbex и многие другие.
            Некоторые из них (например, ViaVoice) спо­собны, как заявляютразработчи­ки, вводить слитную речь.
Лингвистические блоки совре­менныхсистем реализуют слож­ную модель естественного языка. Иногда она основана наматемати­ческом аппарате скрытых цепей Маркова, иногда использует по­следниедостижения технологии нейронных сетей либо других ноу-хау. Устройство жеакустических блоков подобных систем держится в строгом секрете. По некоторымпризнакам можно догадаться, что акустический блок некоторых сис­тем пытаетсямоделировать естест­венный слуховой аппарат.
Речевой вывод.
Речевой вывод информации изкомпьютера- проблема не ме­нее важная, чем речевой ввод. Это вторая частьречевого интерфей­са, без которой разговор с компь­ютером не может состояться.Я имею в виду прочтение вслух тек­стовой информации, а не проиг­рывание заранеезаписанных зву­ковых файлов. То есть выдачу в речевой форме заранее не из­вестнойинформации.
Фактически, благодаря синтезуречи по тексту открывается еще один канал передачи данных от компьютера кчеловеку, анало­гичный тому, какой мы имеем бла­годаря монитору. Конечно, труд­новатобыло бы передать рисунок голосом. Но вот услышать элек­тронную почту илирезультат по­иска в базе данных в ряде случаев было бы довольно удобно, осо­бенноесли в это время взгляд за­нят чем-либо другим. Например, придя утром на работув офис, вы могли бы поправлять галстуку зер­кала или возвращать на место при­ческу(может быть, даже подкра­шивать ногти ) в то время как ком­пьютербудет  читать вслухпо­следние известия или почту. Или. например, в середине рабочего дня он может привлечь ваше вни­мание сообщением, что прибли­жается времязаранее назначен­ной деловой встречи.
С точки зрения пользователя,наиболее разумное решение про­блемы синтеза речи — это вклю­чение речевыхфункций (в перс­пективе — многоязычных, с воз­можностями перевода) в составоперационной системы. Компьютеры будут озву­чивать навигацию по меню, читать(дублировать голосом) экранные сообщения, каталоги файлов, и т. д.Важное замечанием пользо­ватель должен иметь достаточные возможности понастройке голоса компьютера, в частности, при же­лании, суметь выключить голоссовсем.
Вышеупомянутые функции исейчас были бы не лишними для лиц, имеющих проблемы со зре­нием. Для всехостальных они соз­дадут новое измерение удобства пользования компьютером и зна­чительноснизят нагрузку на нерв­ную систему и на зрение. По моему мнению, сейчас нестоит во­прос, нужны синтезаторы речи в персональных компьютерах или нет.Вопрос в другом — когда они будут установлены на каждом ком­пьютере. Осталосьждать, может быть, год или два. Методы синтеза речи
 Теперь, после оптимистического описанияближайшего будущего давайте обратимся собственно к тех­нологии синтеза речи.Рассмотрим какой-нибудь хотя бы минимально осмысленныйтекст, например, эту статью. Текст состоит из слов, раз­деленных пробелами изнаками  препинания.Произнесение слов зависит от их расположения в пред­ложении,а интонация фразы — от знаков препинания. Более того, довольно часто и от типаприме­няемой грамматической конструк­ции: в ряде случаев при произне­сениитекста слышится явная пауза, хотя какие-либо знаки препи­нанияотсутствуют. Наконец, про­изнесение зависит и от смысла сло­ва! Сравните,например, выбор од­ного из вариантов за'мок» или «замо'к» для одного и того же слова «замок».
Обобщенная функциональная системасинтеза
 Структура идеализированной сис­темыавтоматического синтеза ре­чи может быть представлена блок- схемой,изображенной на рис.1.

Ввод текста


          Блокилингвистической                    Определение                Исправление
          Обработки                                          языка текста                ошибок
                Подготовкатекста                                                            входного текста
             козвучиванию               
                          
                         Нормализация текста


                          Лингвистическийанализ                               Формирование             Фонемный  транскриптор
                                              Просодических                  Приведение фонем
                                характеристик                    кединицам синтеза


  Озвучивание               Формирование управляющейинформации
                                               Получение звукового сигнала
  
                                                                 Звук
 Она не описывает ни одну из суще­ствующихреально систем, но со­держит компоненты, которые мож­но обнаружить во многихсистемах. Модуль лингвистической обработки
Прежде всего, текст,подлежащий прочтению, поступает в модуль лингвистической обработки. В немпроизводится определение языка, а также отфильтровываются не подлежащиепроизнесению символы. В некоторых случаях ис­пользуются спелчекеры(модули исправления орфографических и пунктуационных ошибок). Затемпроисходит нормализация текста, то есть осуществляется разделе­ние введенноготекста на слова и остальные последовательности символов.Все знаки пунктуацииочень информатив­ны.
Для озвучивания цифр разра­батываютсяспециальные подблоки. Преобразование цифр в по­следовательностислов является относительно легкой задачей, но цифры имеющие разное значение ифункцию, про­износятся по-разному.
Лингвистический анализ
После процедуры нормализациикаждому слову текста  необходимоприписать сведения о его произношении, то есть превратить в цепочку фонем или, иначе говоря,создать его фо­немную транскрипцию. Во многих языках, в том числе и в русском,существуют достаточно регулярные правила чтения — правиласо­ответствия между буквами и фоне­мами (звуками), которые, однако могуттребовать предварительной расстановкисловесных ударений. В английском языке правила чте­ния очень нерегулярны, изадача данного блока для английского синтеза тем самым усложняется. В любомслучае при определении прои


Не сдавайте скачаную работу преподавателю!
Данный реферат Вы можете использовать для подготовки курсовых проектов.

Поделись с друзьями, за репост + 100 мильонов к студенческой карме :

Пишем реферат самостоятельно:
! Как писать рефераты
Практические рекомендации по написанию студенческих рефератов.
! План реферата Краткий список разделов, отражающий структура и порядок работы над будующим рефератом.
! Введение реферата Вводная часть работы, в которой отражается цель и обозначается список задач.
! Заключение реферата В заключении подводятся итоги, описывается была ли достигнута поставленная цель, каковы результаты.
! Оформление рефератов Методические рекомендации по грамотному оформлению работы по ГОСТ.

Читайте также:
Виды рефератов Какими бывают рефераты по своему назначению и структуре.

Сейчас смотрят :