Алгоритм ранжирования связанных структур для задачи автоматического составления обзорных рефератов новостных сюжетов

Алгоритм ранжирования связанных структур для задачи автоматического составления обзорных рефератов новостных сюжетовС.Д. ТарасовАннотация Работа посвящена одной из актуальных проблем автоматического реферирования – составлению обзорных рефератов по набору документов. Рассмотрен новый на сегодняшний день алгоритм ранжирования связных структур (Manifold Ranking Algorithm) применительно к автоматическому реферированию новостных сюжетов. Алгоритм позволяет учитывать как зависимости между предложениями внутри одного документа, так и зависимости между всеми предложениями коллекции. Проведен анализ возможности использования алгоритма для русского языка. Построена пробная система автоматического реферирования. Приведены результаты работы системы. Сформулированы основные проблемы реализации системы и возможные методы их решения. Оценка качества работы системы произведена при помощи критерия ROUGE. Произведено сравнение результатов работы построенной системы с результатами в DUC 2003, DUC 2005 и результатами для простейшего метода Г. Луна. Введение Задача автоматизации реферирования текстовой информации на сегодняшний день остается очень актуальной, несмотря на огромное количество появившихся в последние годы публикаций. Это вызвано, в первую очередь, необходимостью в условиях постоянного роста информации знакомить специалистов и других заинтересованных людей с необходимыми им документами, представленными в сжатом виде, но с сохранением их смысла. В обзорной статье [1] описывается современное состояние в области автоматического реферирования, а также основные направления и пути развития. В традиционных методах реферирования чаще всего используются различные модификации подхода Г. Луна [9], известного с конца 50-х годов XX века, который заключается в отборе предложений с наибольшим весом для включения их в реферат, а также подходы, сочетающие традиционный подход с некоторыми новыми элементами. Вес предложения определяется как сумма частот, входящих в него значимых слов. В работе [2] описан метод, в котором в качестве значимых элементов выбираются не слова, а словосочетания. Развитие этого подхода есть в работе [3]. При формировании и показе сообщений новостных сюжетов приобретает актуальность задача составления обзорных рефератов (по некоторому набору документов), в которых были бы представлены все основные вопросы, затрагиваемые в каждом документе, но в обобщенном виде без повторений информации. За рубежом в рамках конференций по проблемам автоматического аннотирования DUC (Document Understanding Conference) и текстового реферирования TSC (Text Summarization Challenge) данному направлению исследований придается очень большое значение. Автоматическое реферирование набора новостных сюжетов реализовано в таких крупных новостных ресурсах, как Google News (http://news.google.com/), NewsBlaster (http://www.newsblaster.com/), Yandex News (http://news.yandex.ru/). Недавно разработанный алгоритм ранжирования связных структур (Manifold Ranking Algorithm)[4] может быть использован для ранжирования любых информационных примитивов: текстов, предложений, изображений, звуков. В этом случае любой вид информации должен быть представлен в векторном пространстве. В задачах автоматического аннотирования данный алгоритм может быть применен для ранжирования предложений набора документов и отбора наиболее значимых из них для включения в обзорный реферат. В задачах ранжирования результатов информационного поиска «отправной точкой» алгоритма является запрос, и ранг предложений определяется как мера их «информационной близости» запросу. В задаче автоматического реферирования «отправной точкой» алгоритма можно считать «тему» кластера. В этом случае, правда, тема должна быть сформулирована максимально четко и подробно, т.к. алгоритм основан на анализе лексики и не может учитывать возможную семантическую близость лексически «удаленных» предложений. Принцип автоматического реферирования набора документов на основе алгоритма пространственного ранжирования подробно описан в [5]. Там же приведена довольно подробная оценка работы метода. Мне представилось интересным опробовать данный алгоритм для автоматического реферирования новостных сюжетов на русском языке, а также провести свои оценки качества реферирования. В процессе работы были выявлены некоторые недостатки метода, а также намечены основные возможные пути улучшения качества реферирования.^ Алгоритм ранжирования связных структурОбзор Алгоритм Manifold Ranking позволяет описать связную структуру текста при помощи матриц. Изначально алгоритм предполагает выделение элементов (предложений) наиболее близких заданному (теме). Такая интерпретация характерна задаче информационного поиска. Для автоматического реферирования также выделяется набор предложений, наиболее близких заданной теме кластера, однако обязательным является применение алгоритма отсечения «похожих» предложений, что особенно актуально для многодокументного аннотирования. Автоматическое реферирование набора документов с использованием алгоритма ранжирования связных структур состоит из двух этапов: Вычисление ранга каждого предложения. Этим решается задача ранжирования всех предложений в соответствии с их «близостью» заданной теме кластера. Применение алгоритма отсечения предложений, наиболее похожих на те, что уже попали в обзорный реферат. Этим решается задача исключения из обзорного реферата одинаковых или близких предложений. В результате некоторое количество предложений с наибольшим рангом выбирается для результирующего реферата. Порядок следования предложений в общем случае никак не специфицируется подходом. Мной был реализован самый простейший алгоритм выборки предложений в порядке их относительного следования с приоритетом для более коротких предложений, что является естественным для русского языка. Строго говоря, вопрос связности полученного реферата является отдельной темой исследования. Некоторые методы решения представлены в [6]. Исходя из спецификации, алгоритм ранжирования связных структур оперирует двумя понятиями:^ Информационная значимость: По заданному набору предложений и заданной теме T вычисляется вектор информационной значимости каждого предложения . Информационная значимость предложения определяется как степень близости к заданной теме T. Предполагается, что тема кластера T наиболее полно отражает содержание набора документов и содержит наиболее полный набор лексики.^ Информационная новизна: Для каждого предложения определяется его близость с другими предложениями набора. В итоге суммарный рейтинг, который определяет попадание предложения в обзорный реферат, рассчитывается с учетом, как информационной значимости предложения, так и его «информационной новизны».АлгоритмАлгоритм ранжирования связных структур является универсальным алгоритмом ранжирования результатов обработки данных с учетом их связанной структуры. В нашем случае алгоритм можно формализовать следующим образом: Задается набор структур (предложений) , где – описание темы T. Мы полагаем, что тема формулируется одним предложением. Вводится – отображение, которое ставит в соответствие каждой точке значение ранга . Мы можем рассматривать как вектор Задается вектор . Согласно алгоритму , т.к. – тема кластера (в задачах информационного поиска соответствует фразе поискового запроса), и для всех остальных предложений. Для каждой пары и предложений вычисляется вес их «лексической близости» при помощи стандартной евклидовы меры. (1) где (2) , где – стандартная TF IDF мера относительной важности терма . Причем для того, чтобы полученный граф не содержал циклов. Следует отметить, что полученная матрица весов является симметричной относительно своей главной диагонали. Матрицы весов подвергается симметричной нормализации (3) где D – диагональная матрица, где равен сумме элементов i-ой строки матрицы W.вычисляется как результат итеративного процесса: (4) Согласно теореме в [4] итеративный процесс сходится к . Далее полагается, что – полученный ранг предложения с номером . Можно также предположить, что связи между предложениями одного документа, а также связи между предложениями различных документов набора должны быть дифференцированы. В этом случае полагается, что: (5) где - матрица весов связей предложений внутри одного документа, а - матрица весов связей предложений разных документов. В этом случае целесообразно ввести коэффициенты: (6)^ Алгоритм усечения схожих предложенийДля формирования итогового обзорного реферата по набору документов необходимо выполнить следующее: исключить из рассмотрения предложения, повторяющие по своей структуре те, что уже попали в обзорный реферат. Выполнить итоговую сортировку предложений с целью получения более-менее связного текста. Для задачи внесения в итоговый ранг фактора «информационной новизны» используется следующий алгоритм: Инициализируются два множества и . Для каждого предложения B текущий ранг принимается равным . (7) Предложения множества B сортируются в соответствии с их текущим рангом в порядке убывания. Полагая, что предложение имеет наивысший ранг, оно перемещается из B в A. Ранг оставшихся в B предложений рассчитывается как (8) Где - фактор усечения сходных предложений, а (9) Процесс повторяется, пока B не станет пустым. Вопрос окончательной сортировки предложений в обзорном реферате является темой отдельного исследования. Следует отметить, что в данном случае возможны как лексико-ориентированные алгоритмы, основанные на более детальном анализе предложений, так и семантические алгоритмы, основанные на сравнении поверхностно-семантических графов. Последние также позволяют исключать лексически разные, но семантически подобные предложения, однако не обладают такой простотой, быстротой и универсальностью, как первые.Реализация Система автоматического реферирования новостных сюжетов реализована как набор скриптов на языке PHP c Web-интерфейсом. Для матричных вычислений были применены библиотеки PEAR. Для морфологического анализа была задействована библиотека phpmorphy, основанная на словарях проекта AOT[7]. Система позволяет подбирать параметры и количество предложений, попадающих в обзорный реферат. По исходному корпусу строится обзорный реферат с выводом всех промежуточных расчетов. В ближайшее время будет произведена оптимизация системы (матричные вычисления на основе MTL[8], более быстрый морфологический разбор), которая позволит получать обзорные рефераты с заданными параметрами на лету.^ Исходные данныеВ качестве исходных данных для оценки работы алгоритма был взят набор кластеров новостной тематики, любезно предоставленный НИВЦ МГУ. Для кластера «На севере Омской области выпал разноцветный снег» содержащего 8 документов (всего 61 предложение) был получен обзорный реферат из 4 предложений при значении параметров «Представители властей заявили, что если вдруг выяснится, что разноцветный снег в Сибири выпал из-за промышленных выбросов, нарушителей привлекут к уголовной ответственности. Пока специалисты только говорят, что аномальные осадки не опасны для здоровья. Кроме того, необычный снег выпал в Томской и Тюменской областях. Вчера были обнародованы первые лабораторные исследования выпавшего 31 января в Омской области желто-оранжевого снега».Оценка Предварительная оценка работы алгоритма позволяет утверждать о возможности применения его в модифицированном виде для корпусов новостных сюжетов на русском языке. На сегодняшний день на основе ручных аннотаций, любезно предоставленных НИВЦ МГУ (Добров Б.В.) проведена оценка качества системы реферирования при помощи меры ROUGE. (10) Мера ROUGE-N представляет собой обобщенную статистическую меру, выражающую какой процент лексических единиц (N-gram,- последовательностей из N лексем), входящих в состав ручной, построенной независимым экспертом, аннотации, попадает в обзорный реферат.Результаты оценкиДля предварительной оценки качества работы системы были вычислены меры ROUGE-1, ROUGE-2, ROUGE-3 нескольких обзорных рефератов, полученных при помощи системы, для которых есть ручная аннотация. Для получения рефератов были использованы следующие значения параметров: . № Тема кластера ROUGE-1 ROUGE-2 ROUGE-3 1 ^ В Гальском районе Абхазии неизвестные похитили главу районной избирательной комиссии 0.4286 0.2545 0.2037 2 ^ Китай успешно запустил на орбиту навигационный спутник "Бэйдоу" 0.2581 0.0656 0.0333 3 ^ Секретаршу из Coca-Cola признали виновной в краже секретов компании 0.5600 0.4286 0.3542 4 ^ На севере Омской области выпал разноцветный снег 0.4655 0.3157 0.2500 Полученные результаты можно сравнить с результатами, полученными в DUC [5], а также с результатами для рефератов, полученных методом Луна. DUC 2003 DUC 2005 Построенная система Метод Луна ROUGE-1 0.37332 0.38434 0.42805 0.3951 ROUGE-2 0.07677 0.07317 0.26610 0.2344 Приведенные оценки являются предварительными и требуют дальнейшей корректировки с учетом большего количества обзорных рефератов. Незначительное улучшение характеристик по сравнению с примитивным методом Г. Луна обусловлено неполнотой текущего метода оценки качества ROUGE, учитывающего только соответствие лексики ручной аннотации и лексики оцениваемого реферата. ^ Будущая работаДля улучшения качества работы системы необходимо выполнить следующие действия: Выполнить оптимизацию элементов системы для получения рефератов «на лету». Улучшить алгоритм распознавания и разрешения анафор. Добавить в систему синонимию. Например, лексемы «км» и «километр», «15» и «пятнадцать» должны рассматриваться как совершенно идентичные. Для других вариантов возможно введения коэффициента синонимии. Провести более основательную оценку качества работы системы на основе большего количества ручных рефератов.ЗаключениеЗадача автоматизации реферирования текстовой информации на сегодняшний день остается очень актуальной. Алгоритм ранжирования связных структур зарекомендовал себя с положительной стороны, как довольно эффективный для задач автоматического аннотирования, и в то же время, относительно легко реализуемый, и может применяться для автоматического реферирования корпусов новостных сюжетов на русском языке. Однако алгоритм требует дополнительных доработок с учетом специфики, как русского языка, так и вообще естественного языка. Так необходимо более детально рассматривать предложения, содержащие прямую речь, разработать более совершенный (чем в [3]) алгоритм разрешения анафор, а также обеспечить связность текста полученного обзорного реферата.Благодарности Автор выражает благодарность Б.В. Доброву (НИВЦ МГУ) за предоставленные материалы ручных аннотаций кластеров, а также за помощь в написании данной статьи.Библиографический список Hahn U., Mani I. "The Challenges of Automatic Summarization," Computer, vol.33, no.11, pp. 29-36, Nov., 2000. http://doi.ieeecomputersociety.org/10.1109/2.881692 Белоногов Г.Г., Калинин Ю.П., Хорошилов А.А. Компьютерная лингвистика и перспек-тивные информационные технологии. М,. Русский мир, 2004. - 246 с. Н.Н. Абрамова, В.Е. Абрамов. Автоматическое составление обзорных рефератов новостных сюжетов. Труды 9-ой Всероссийской научной конференции «Электронные библиотеки: перспективные методы и технологии, электронные коллекции» - RCDL’2007, Переславль-Залесский, Россия, 2007. Zhou et al., 2003b D. Zhou, J. Weston, A. Gretton, O. Bousquet and B. Schlkopf. Ranking on data manifolds. In Proceedings of NIPS’2003. "Manifold-Ranking Based Topic-Focused Multi-Document Summarization" DUC 2003 http://www.ijcai.org/papers07/Papers/IJCAI07-467.pdf Barzilay R. Sentence Ordering in Multidocu-ment Summarization. Computer Science at Co-lumbia University, Web seit, 2007, http://www.cs.columbia.edu/nlp/papers/2001/barzilay_al_01.pdf Автоматическая обработка текста. http://aot.ru/ The Matrix Template Library. http://www.osl.iu.edu/research/mtl/ Luhn The Automatic Creation of Literature Abstracts (context) - 1958

Не сдавайте скачаную работу преподавателю!

Данный реферат Вы можете использовать для подготовки курсовых проектов.

Доработать Узнать цену написания по вашей теме

Поделись с друзьями, за репост + 100 мильонов к студенческой карме :

Заказать работу:

!	Курсовая работа
!	Дипломная работа
!	Реферат
!	Решение задач
!	Отчет по практике
!	Контрольная работа

Пишем реферат самостоятельно:

!	Как писать рефераты Практические рекомендации по написанию студенческих рефератов.
!	План реферата Краткий список разделов, отражающий структура и порядок работы над будующим рефератом.
!	Введение реферата Вводная часть работы, в которой отражается цель и обозначается список задач.
!	Заключение реферата В заключении подводятся итоги, описывается была ли достигнута поставленная цель, каковы результаты.
!	Оформление рефератов Методические рекомендации по грамотному оформлению работы по ГОСТ.

Читайте также:

→	Виды рефератов Какими бывают рефераты по своему назначению и структуре.

Другие популярные рефераты:

Реферат	Механические волны
Реферат	Обратная матрица
Реферат	Инверсия и ее применение
Реферат	Социокультурная динамика межпоколенных взаимодействий
Реферат	Расследование преступлений в сфере компьютерной информации
Реферат	Туристско-краеведческая характеристика Калининградской области
Реферат	Организация административно-хозяйственной службы гостиницы
Реферат	Диагностика психологической готовности ребенка к школе 2
Реферат	Модель современного менеджера
Реферат	Условия формирования военно-административной системы Южного Зауралья в XVII - первой половине XIX века

Сейчас смотрят :

Реферат	Dr. Heidegger
Реферат	Where Does The Major Responsibility For Duncan
Реферат	Simpsons Essay Research Paper Vito Pustovoy Engl
Реферат	Finnnney Essay Research Paper and after his
Реферат	Ценные бумаги. Рынок ценных бумаг
Реферат	Body Modification In Today
Реферат	Book Of Luke Essay Research Paper Luke
Реферат	Market Essay Research Paper The main questions
Реферат	Общее машиностроение РФ
Реферат	Деловая стратегия
Реферат	Comparison Of Perugino And Caravaggio Essay Research
Реферат	Vermont Essay Research Paper Vermont has been
Реферат	Ray Bradbury S Something Wicked This Way
Реферат	Odyssey Essay Research Paper The Odyssey is
Реферат	Системный анализ правового характера категории "административное правонарушение"

Реферат по предмету "Разное"

Алгоритм ранжирования связанных структур для задачи автоматического составления обзорных рефератов новостных сюжетов

Другие популярные рефераты:

Сейчас смотрят :