Лекция 11.Анализ и синтез естественного языка взаимодействия. Структурная схема лингвистического транслятора. Морфологический анализ (синтез). Синтаксический анализ (синтез). Семантическая интерпретация (синтез) и проблемный анализ.
Цель анализа предложений естественного языка (ЕЯ) заключается в их переводе на машинный язык (МЯ) вычислительной системы. Этот процесс можно представить наглядно в виде следующей схемы (рис11).
Структурная схема лингвистического транслятора
Рисунок 11.
Задача анализа ЕЯ сводится к:
- распознаванию правильно построенных предложений ЕЯ;
- исправлению ошибок в ЕЯ -тексте;
- декомпозиции предложения на Фрагменты и построению его синтаксической структуры;
- семантической интерпретации фрагментов ЕЯ во фрагменты М-языка;
- композиции фрагментов М-языка в структуру, описывающую ситуацию проблемной среды.
Задача синтеза ЕЯ заключается в:
- определении информации, которую необходимо сообщить пользователю;
- разбиении текста М-языка на фрагменты, соответствующие будущим фразам;
- определении лексем для синтезируемой фразы;
- построении синтаксической структуры фразы;
- определении порядка слов и осуществлении морфологического синтеза словоформ.
Морфологический анализ (синтез).
Цель морфологического анализа - построение для каждой словоформы предложения списка пар (х,у), где х - лексема или основа данной единицы, а у -подсписок значений грамматических признаков, определяющих данную словоформу (например, идут занятия);
идти - глагол, множественное число, настоящее время;
занятие - существительное, средний род, множественное число, именительный падеж.
Существуют два основных метода морфологического анализа:
- декларативный, когда в словаре системы хранятся все возможные словоформы с coответствующим комплексом морфологической информации;
- процедурный, когда наряду со словарем, в котором хранятся только основы слов, система имеет набор правил словообразования, позволяющих анализцровать словоформу и приписывать ей соответствующий комплекс информации.
Морфологический синтез предназначен для построения конкретных словоформ ЕЯ по словарю и заданной морфологической информации. Аналогично ананализу морфологический синтез реализуется декларативным и процедурным способами.
Синтаксический анализ (синтез).
Задача синтаксического анализа - построение синтаксической структуры предложена на основе морфологической информации и синтаксических правил объединения слов и словосочетаний. Синтаксическая структура отражает связи, существующие между словами предложения. Известны два основных способа описания синтаксической структуры - система составляющих и дерево зависимостей.
Система составляющих. Пусть имеется цепочка х (произвольная последовательность словоформ) длиной w (количество словоформ) . Каждая словоформа цепочки называется точкой. Для любых точек a и b цепочки х таких, что а < b (а левее b) вводится понятие отрезка, представляющего множество точек s, удовлетворяющих неравенству а < s < b . Множество S отрезков цепочки х называется системой составляющих этой цепочки, если
- множество S содержит отрезок, состоящий из всех точек цепочки х, либо все одноточечные отрезки цепочки;
- любые два отрезка из множества b либо не пересекаются, либо один из них содержится в другом.
Элементы S называются составляющими. Например, для предложения "лекция проводится в аудитории номер 232 главного корпуса" допустима следующая система составляющих (рис.12): -
Рисунок 12. Система составляющих предложения
Дерево зависимостей. Пусть х - произвольная непустая цепочка и X - множество всех точек х. Произвольное бинарное отношение R, определенное на X, при котором направленный граф (X,R) является деревом, называется отношением зависимости. Само дерево (X,R) называется деревом зависимостей для X. Если между точками а и b существует отношение а->b, то точку а называют управляющей, а b - подчиненной (рис.13).
Рисунок 13. Дерево зависимостей предложения
Целью синтаксического синтеза является формирование синтаксической структуры фраз и заполнение их соответствующими лексемами. Заключительным шагом синтеза является приписывание лексемам морфологических характеристик.
Семантическая интерпретация (синтез) и проблемный анализ.
Цель семантической интерпретации - формирование фрагментов на М-языке, соответствующих описанию проблемной ситуации. Получение таких фрагментов осуществляется на основе фрагментов ЕЯ-предложения, представленных в синтаксической структуре. Получение фрагментов М-языка предполагает добавление в них информации, которая выражена неявно в ЕЯ-пррдложении. На этапе проблемного анализа множество фрагментов проблемной ситуации структурируется с помощью правил описания ситуаций в проблемной среде. В результате этого получается структура описания ситуации, заданной ЕЯ-текстом, которая затем подается на вход ВС (рис.14).
Рисунок 14. Семантическая сеть предложения
Семантический синтез заключается в преобразовании текста М-языка таким образом, чтобы его части могли бы соответствовать будущим фразам и предложениям ЕЯ. Такое преобразование осуществляется за счет фрагментирования текста М-языка.