Реферат по предмету "Информатика, программирование"


Коррекция словарной базы модуля морфологического анализа «РДМА_ИПИИ»

 

Г.В. Дорохина, В.А. Акчурин

Введение

Обработку естественно-языковых текстов (ЕЯТ) относят к области искусственного интеллекта. Технологии обработки ЕЯТ нашли своё применение в системах машинного перевода, поисковых системах в сети Интернет, роботах-автоответчиках [1] и т.д.

Одним из первых этапов обработки ЕЯТ является морфологический анализ слов, содержащихся в тексте. В настоящее время средства морфологического анализа русскоязычных текстов являются достаточно развитыми – результаты их оценки представлены в [2], [3].

К настоящему времени ИПИИ разработаны модуль декларативного морфологического анализа слов русского языка «РДМА_ИПИИ» [4] и модуль морфологического анализа без словаря [5]. РДМА_ИПИИ в явном виде хранит парадигмы слов -около 3 млн словоформ, синтезированных по словарю А. А. Зализняка [6].

Оценка применения упомянутых модулей в рамках форума «Оценка методов автоматического анализа текста: морфологические парсеры русского языка» показала, что словарная база РДМА_ИПИИ содержит ряд ошибок, часть из которых связана с неверным заданием морфологической информации (МИ) словоформ – набора грамматических характеристик, присущих словоформе. Источником этих ошибок могли служить поэтапное расширение набора грамматических характеристик, используемых в модуле, а также многочисленные процедуры пополнения и корректировки , ной базы, в ходе совершенствования её наполнения.

Наличие ошибок в словарной базе РДМА_ИПИИ влечет за собой некорректные таты морфологического анализа. Так как словарная база РДМА_ИПИИ явля-источником для наполнения базы данных модуля морфологического анализа без ооваря, ошибки в ней впоследствии распространятся и на результаты бессловарного логического анализа.

В связи с этим актуальной является разработка методик проверки словарных наличие некорректных МИ и методики корректировки словарной'базы.

Объект исследования – словарная база модуля морфологического анализа. Предмет исследования – корректность морфологической информации.

Цель работы – коррекция словарной базы модуля морфологического анализа РДМА_ИПИИ. Для достижения цели поставлены и решены следующие задачи:

- генерация правил выявления некорректных значений МИ на основе теоретических данных и классификация видов ошибок;

- разработка рекомендаций по коррекции словарной базы.

Правила выявления некорректных значений МИ

Для анализа словарной базы на наличие некорректных значений МИ выберем из неё все значения МИ без повторений. В результате количество различных значений МИ составило 1359.

На основе теоретических данных [7], [8] был сформирован набор из 96 правил. Эти правила можно представить в виде двух таблиц. Табл. 1 отражает перечень обязательных и недопустимых грамматических категорий для частей речи. В этой таблице грамматическая категория, обязательная для некоторой части речи, отмечена цифрой «1» на пересечении соответствующего столбца и строки, а недопустимая грамматическая категория для некоторой части речи – цифрой «О».

Пустые ячейки таблицы на пересечении столбца и строки указывают на то, что грамматическая категория не является обязательной для всех словоформ данной части речи, в то же время парадигма слов данной части речи содержит хотя бы одну словоформу, которой присуща указанная грамматическая категория. В табл. 2 представлены правила определения некорректных значений МИ для случаев, соответствующих пустым ячейкам табл. 1.

Таблица 1 – Обязательные и недопустимые категории для частей речи

 

Грамматическая категория

Часть речи

123456789101112
ПадежВремяЛицоСтепень сравненияВид глаголаТип числительногоТип местоименияЗалогЧислоРодВозвратная форма глаголаОдушевленность
1Наречие000 00000000
2Деепричастие010 100000 0
3Причастие 1  10011  0
4Местоимение-прилагательное 00000 0  00
5Глагол0  0100    0
6Местоимение-существительное100000 0  00
7Существительное10000000  0 
8Прилагательное 00 0000  0 
9Числительное10000 00  0 

Для последующей ссылки на правила данной таблицы необходимо каждому из них присвоить некоторый идентификатор.

Правилам табл. 1 присвоим двойной номер. Первая часть будет обозначать часть речи, к которой применяется правило, вторая – номер морфологической категории. Таким образом, правило, запрещающее ненулевое значение категории «Падеж» у глаголов,будем обозначать П5.1.

Таблица 2 – Правила определения некорректных значений МИ

 

Часть речиУсловиеОшибка
ПрилагательноеЧисло = Множественное И Род≠0Определен род во множественном числе прилагательного1
Число = Единственное И Род=0Не определен род в единственном числе прилагательного2
0душевленность=0 И Падеж=В.п. И (Число=Мн. ИЛИ Род=м.р.)Не определена одушевленность3
Одушевленность≠0 И (Падеж≠В.п. ИЛИ Число=Ед. И Род≠м.р.)Определена одушевленность4
Степень сравнения = Сравнительная Степень И Род≠0Определен род в сравнительной степени прилагательного5
Степень сравнения = Сравнительная И Число≠0)Определено число в сравнительной степени прилагательного6
Степень сравнения = Сравнительная И Краткость≠0Определена краткость в сравнительной степени прилагательного7
Степень сравнения = Сравнительная И Падеж≠0Определен падеж в сравнительной степени прилагательного8
Краткая форма И Падеж≠0Определен падеж9
ЧислительноеТип Числительного = Порядковое И Число = Множественное И Род ≠0Определен признак рода10
Тип Числительного = Порядковое И Число = Единственное И Род = 0Не определен признак рода11
Тип Числительного = Порядковое И Число = 0Не определено число12
Падеж=В.п. И 0душевленность=0 И (Число=Мн. ИЛИ Род=м.р.)Не определена одушевленность13
Одушевленность≠0 И (Падеж≠В.п. ИЛИ Число=Ед. И Род≠м.р.)Определена одушевленность14
ГлаголВид глагола = Совершенный И Время = Наст. вр.Настоящее время у глагола совершенного вида15
Вид глагола = Несовершенный И Время = Буд.Будущее время у глагола несовершенного вида16
Наклонение = Повелительное И Время≠0Определено время в повелительном наклонении глагола17
Лицо≠0 И Род≠0Не заданы лицо и род глагола18
Лицо = 0 И (Время = Наст. вр. ИЛИ Время = Буд. ИЛИ Наклонение = Повелительное)Не определено лицо19
Время = Прош. вр. И Род = 0Не определен род20
Переходи. = Непереходный И Залог = СтрадательныйНеверный залог21
Форма глаг. = Возвратная И Залог = СтрадательныйНеверный залог22
ПричастиеЗалог = 0Не определен залог23
Непереходный И Залог = СтрадательныйНеверный залог причастия24
Вид=Совершенный И Время≠Прош.вр.Неверное время25
Число=ед. И Род=0Не определен род26
Число=мн. И Род≠0Определен род27
Число=0Не определено число28
НЕ Краткая форма И Падеж=0Не определен падеж29
Краткая форма И Падеж≠0Определен падеж30

В табл. 2 знаки равенство нулю («=0») значения некоторой грамматической категории обозначает, что эта категория не определена в анализируемой МИ, а неравенство нулю («^0») говорит об определенности категории в анализируемой МИ. Ссылки на правила табл. 2 будем делать по их порядковому номеру (4-й столбец). Например, П28.

С применением описанных выше правил (табл. 1,2) проведена проверка словарной базы РДМА_ИПИИ на наличие некорректных МИ. В результате было выявлено 211 значений МИ и около 44 500 словоформ, требующих корректировки.

Корректировка словарной базы РДМА_ИПИИ

Внесение автоматических изменений в словарную базу может явиться источником новых ошибок. В связи с этим идеология модуля РДМА_ИПИИ требует проверки человеком запланированных изменений.

Так как количество записей, отнесённых к ошибочным, исчисляется десятками тысяч, необходимо автоматизировать процесс классификации некорректных МИ и формирования рекомендаций по корректировке словарной базы. При этом будем использовать следующую методику.

1. Упорядочим таблицу некорректных МИ по убыванию количества словоформ с данной МИ. Назовём её Исходной таблицей МИ. Таблицу словоформ с ошибочными МИ назовём Таблицей словоформ.

2. Скопируем эту таблицу в таблицу, которую назовём Остатком некорректных МИ.

3. Выберем из таблиц 1, 2 правило, согласно которому . первый элемент Остатка некорректных МИ является некорректным.

4. Из Исходной таблицы выберем все записи, удовлетворяющие выбранному правилу. Сформулируем рекомендации по коррекции ошибки. Из Таблицы словоформ выберем все записи с данной ошибкой и убедимся, что применение рекомендации по коррекции ошибки устранит ошибку и не приведёт к появлению новых.

5. Добавим правило к Множеству применённых правил.

6. Сформируем Остаток некорректных МИ путём выбора из Исходной таблицы запи- 1 сей, которые не удовлетворяют ни одному из Множества применённых правил.

7. Если Остаток некорректных МИ не пуст и для его первого элемента количество словоформ с данной МИ больше порогового, перейти на шаг 3.

Таблица 3 – Корректировка словарной базы

 

ПравилоКоличество словоформРекомендация
П9, ПЗО38 468Заменить значение категории падежа на неопределенное.
П1,П104 794Заменить значение категории рода на неопределенное.
П24899

Набор словоформ разделен по леммам – получено 27 лемм. Из них:

- 8 являются исключениями из правила и корректировке не подлежат;

- для 1 ошибочно построены страдательные формы причастия (словоформы подлежат удалению);

- в 18 ошибочно отнесены к непереходным (заменить значение категории переходности на «переходный»).

П13123Заменить значение категории одушевленности на «неодушевленное».
П1442Заменить значение категории одушевленности на неопределенное.
П7.11120Данная группа содержит словоформы существительных группы plura-lia tantum («имеющие только множественное число»). Часть словоформ этой группы определены как имеющие единственное число (подлежат удалению). Для остальных обнулить в МИ признак возвратной формы глагола.
П2344Данная группа содержит причастия от леммы «врезать», с которой словарная база работает некорректно.

Результаты применения данной методики отражены в табл. 3, где также указан порядок применения правил и рекомендации по исправлению ошибок. Данные рекомендации позволяют исправить выявленные ошибки.

Выводы

Научная новизна данной работы состоит в следующем.

1. На основе теоретических сведений сгенерированы правила выявления некорректных значений морфологической информации.

2. Разработана методика корректировки словарной базы модуля морфологического анализа.

Практическая значимость работы состоит в применимости сгенерированных правил и методики для выявления, анализа и исправления ошибок в МИ словарных баз систем обработки русскоязычных текстов на морфологическом уровне.

Список литературы

1. Антонов А. Диалог 2 роботов о всякой ерунде [Электронный ресурс] / Антонов А. – Режим доступа: http://www.roboter.ru/news/arch_spri_08/dialog_08_04_l8.htm

2. Оценка методов автоматического анализа текста: морфологические парсеры русского языка [Электронный ресурс] / О. Ляшевская, И. Астафьева, А. Бонч-Осмоловская [и др.] // Компьютерная лингвистика и интеллектуальные технологии: материалы ежегодной Международной конференции «Диалог» (Бекасово, 26 – 30 мая 2010 г.). – Вып. 9 (16). – М.: РГГУ, 2010. – Режим доступа: http://ru-eval.ru/Dialog2010.pdf

3. Форум «Оценка методов автоматического анализа текста: морфологические парсеры русского языка»: Таблицы оценок 2010 [Электронный ресурс]. – Режим доступа: http://ru-eval.ru/tables_index.html

4. Дорохина Г.В. Модуль морфологического анализа слов русского языка / Г.В. Дорохина, А.П. Пав-люкова // Искусственный интеллект. – 2004. – № 3. – С. 636–642.

5. Дорохина Г.В. Модуль морфологического анализа без словаря слов русского языка / Г.В. Дорохина, В.Ю. Трунов, Е.В. Шилова // Искусственный интеллект. – 2010. – № 2. – С. 32–36.

6. Зализняк А.А. Грамматический словарь русского языка: словоизменение, около 100 000 слов / А.А. Зализняк. – М.: Русский язык, 1977. – 880 с.

7. Литневская Е. И. Морфология // Русский язык: краткий теоретический курс для школьников [Электронный ресурс] / Е.И. Литневская. – Режим доступа: http://www.gramota.ru/book/litnevskaya.php7part4.htrn

8. Розенталь Д.Э. Справочник по правописанию, произношению, литературному редактированию / Розенталь Д.Э., Джанджакова Е.В., Кабанова П.П. – [2-е изд., дополнен.]. – М.: ЧеРо, 1998. – 400 с.



Не сдавайте скачаную работу преподавателю!
Данный реферат Вы можете использовать для подготовки курсовых проектов.

Поделись с друзьями, за репост + 100 мильонов к студенческой карме :

Пишем реферат самостоятельно:
! Как писать рефераты
Практические рекомендации по написанию студенческих рефератов.
! План реферата Краткий список разделов, отражающий структура и порядок работы над будующим рефератом.
! Введение реферата Вводная часть работы, в которой отражается цель и обозначается список задач.
! Заключение реферата В заключении подводятся итоги, описывается была ли достигнута поставленная цель, каковы результаты.
! Оформление рефератов Методические рекомендации по грамотному оформлению работы по ГОСТ.

Читайте также:
Виды рефератов Какими бывают рефераты по своему назначению и структуре.

Сейчас смотрят :

Реферат Фотоэлектронная эмиссия Эффективные фотокатоды
Реферат Международные финансово кредитные организации
Реферат Методи організації виробничих процесів
Реферат Методы оценки интеллектуальной собственности
Реферат Методы анализа финансового состояния предприятия
Реферат Конфликты между Авторским правом и Промышленной собственностью в сфере мобильных услуг
Реферат Международные экономические отношения 4
Реферат Методы прогнозирования объема перевозок грузов
Реферат Методичка курса Экономика предприятия
Реферат Методики оценки кредитоспособности заемщика
Реферат *С крыш капала вода снег и сосульки, так давно лежавшие на ней подтаивали. Капель радовала учеников, вселяя надежду на более веселое времяпровождение, чем только уроки
Реферат Меркантилизм как первая школа политической экономии
Реферат Мировая экономика 4
Реферат Економічна оцінка результатів господарської діяльності промислових підприємств (на прикладі ВАТ "Енерготрансбуд")
Реферат Международные товарные аукционы