Реферат по предмету "Программирование, Базы данных"


Анализ текстов на заимствование методом построения семантических моделей

Министерство образования и науки Украины
Министерство образования и науки Украины
Запорожский институт экономики и информационных технологий
Факультет Компьютерной инженерии
Кафедра   Компьютерных систем
К  ЗАЩИТЕ ДОПУЩЕНА
Зав.кафедрой
____________
____________
 МАГИСТЕРСКАЯ РАБОТА
АНАЛИЗ ТЕКСТОВ НА ЗАИМСТВОВАНИЕ МЕТОДОМ
ПОСТРОЕНИЯ СЕМАНТИЧЕСКИХ МОДЕЛЕЙ
    Выполнил
ст. гр. КсиС-112М Евсеев Артур Александрович
  Руководитель                   проф. Лебедева Людмила Николаевна
  Нормоконтролер             Акимова Елена Александровна
 
 
 
 
 
 
 
Запорожье
2007

З А Д А Н И Е
НА АТТЕСТАЦИОННУЮ РАБОТУМАГИСТРА
Студенту  гр. КсиС-112М,     специальности _Компьютерные системы и сети»_
Евсееву АртуруАлександровичу                   
  (фамилия, имя, отчество)
1.Тема:
утверждена приказом по институту  “  ” _____________ 200_ г.  №
2.Срок сдачи студентом законченной работы  _____________________
3.Перечень вопросов, подлежащих разработке________________________
4.Объект исследования (характеристика объекта, условия исследованияи др.)
5. Основные задачи исследования
Дата выдачи задания “  ” _______ 200_ г.
Руководитель дипломной работы   _____________
(подпись)             (фамилия и инициалы) 
Задание принял к выполнению       ____________     
(подпись студента)(фамилия иинициалы) 

РЕФЕРАТ
Объем работы: стр. 104, приложений 6, таблиц 10, рисунков 18,источников 50, формул 23.
Вработе рассматриваются вопросы применения технологий семантического  анализа текстов, представленных наестественном языке с целью выявления наличия заимствований.
Задачаопределения факта заимствования сводится к сравнению моделей, отражающихсмысловую нагрузку текстов. Анализ ведется с использованием алгоритмов награфах, модифицированных и оптимизированных для применения в рамках даннойзадачи.
Использованиесхем анализа данных, предложенных в данной работе, может позволить выявлятьфакт заимствования даже если оригинал был определенным образом модифицирован(выполнен перевод, слова были заменены на синонимы, текст был изложен сиспользованием другой лексики и т.д.).
Результатывыполнения работы могут быть использованы во всех прикладных направлениях, длякоторых применимы методы семантического  анализа текстов.
ЕСТЕСТВЕННЫЕЯЗЫКИ, ЗАИМСТВОВАНИЕ, ИЗОМОРФНОСТЬ, НЕЧЕТКИЙ АНАЛИЗ, ОСМЫСЛЕННЫЙ АНАЛИЗ,ПЛАГИАТ, СЕМАНТИЧЕСКАЯ МОДЕЛЬ, ТЕОРИЯ ГРАФОВ, ЦИТИРОВАНИЕ.

СОДЕРЖАНИЕ TOC o «1-3» h z u
РАЗДЕЛ 1. PAGEREF _Toc170623442 h 10
Методы решения задачи анализатекстов на заимствование. Постановка задачи… PAGEREF _Toc170623443 h 10
1.1. Задача анализа заимствований набазе семантических технологий… PAGEREF _Toc170623444 h 11
1.2. Выводы… PAGEREF _Toc170623445 h 13
РАЗДЕЛ 2. PAGEREF _Toc170623446 h 14
Подходы к решению задачи анализазаимствований… PAGEREF _Toc170623447 h 14
2.1. Анализ на базе оценкирелевантностей… PAGEREF _Toc170623448 h 14
2.2. Анализ на базе оценки смысловойнагрузки текста… PAGEREF _Toc170623449 h 20
2.2.1. Формирование семантического словаря. PAGEREF _Toc170623450 h 20
2.2.2. Формирование семантическихмоделей. PAGEREF _Toc170623451 h 28
2.2.3. Представление данных. PAGEREF _Toc170623452 h 40
2.2.3.1. Объектная модель реализацииинструмента для разбора форматов данных. PAGEREF _Toc170623453 h 43
2.2.3.2. Преобразование из формата MS Word. PAGEREF _Toc170623457 h 45
2.2.4. Алгоритм лексического играмматического разбора предложений. PAGEREF _Toc170623458 h 46
2.2.5 Выводы… PAGEREF _Toc170623459 h 54
РАЗДЕЛ 3. PAGEREF _Toc170623460 h 55
Алгоритмы, используемые дляустановления факта заимствований при семантическом анализе   PAGEREF _Toc170623461 h 55
3.1.Анализ изоморфности графов. PAGEREF _Toc170623462 h 55
3.2.Анализ оптимальности алгоритма… PAGEREF _Toc170623463 h 73
3.3.Выводы… PAGEREF _Toc170623464 h 77
РАЗДЕЛ 4. PAGEREF _Toc170623465 h 78
Реализация приложения… PAGEREF _Toc170623466 h 78
4.1.Обоснование выбора средств разработки… PAGEREF _Toc170623467 h 78
4.2.Программный комплекс. PAGEREF _Toc170623468 h 81
4.2.1. Хранение данных. PAGEREF _Toc170623469 h 82
4.3Система анализа текстов на заимствование. PAGEREF _Toc170623470 h 85
4.4 Тестирование системы… PAGEREF _Toc170623471 h 88
4.4.1. Тестирование модулей системы(модульное тестирование) PAGEREF_Toc170623472 h 88
4.4.2. Тестирование корректности работы логики системы… PAGEREF _Toc170623473 h 89
4.4.3. Нагрузочное тестирование. PAGEREF _Toc170623474 h 89
РАЗДЕЛ 5. PAGEREF _Toc170623475 h 91
Возможности развития проекта… PAGEREF _Toc170623476 h 91
5.1.Формальное определение объектов семантической алгебры… PAGEREF _Toc170623477 h 91
5.2.Алгоритм лексического и грамматического разбора текстов. PAGEREF _Toc170623478 h 94
5.3.Алгоритмы установления факта изоморфности графов. PAGEREF _Toc170623479 h 95
5.4.Оптимизация хранилищ данных… PAGEREF _Toc170623480 h 96
5.5.Параллелизация вычислительных процессов. PAGEREF _Toc170623481 h 96
5.6.Выводы… PAGEREF _Toc170623482 h 98
ВЫВОДЫ… PAGEREF _Toc170623483 h 99
РЕКОМЕНДАЦИИ… PAGEREF _Toc170623484 h 101
ПЕРЕЧЕНЬ ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ… PAGEREF _Toc170623485 h 102
ПРИЛОЖЕНИЯ… PAGEREF _Toc170623486 h 106

ВВЕДЕНИЕ
         Однойиз проблем современных информационных систем является проблема систематизации икаталогизации материалов, представленных на естественном языке (ЕЯ).Необходимость этого обусловлена рядом причин:
·       Несуществует единых принципов оформления электронных материалов, излагаемых наЕЯ, поэтому часто оказывается проблематичным проводить автоматизированныйанализ такой информации;
·       Отсутствуетединая база данных, содержащая соответствия единиц электронных материалов (ЕЭМ)определенным предметным областям;
·       Практическиневозможно определить достоверность информации, предоставленной в публичныйдоступ, поскольку для ЕЭМ, как правило, не определяется индекс достоверности;
·       Многиематериалы, опубликованные в глобальных сетях, дублируют друг друга, или ихразличия очень незначительны. В таких случаях определение оригинала, которыйпослужил основой для данной ЕЭМ – весьма трудоемкая (а иногда и вовсе нерешаемая) задача;
·       Объемпубличной информации в глобальных компьютерных сетях – огромный, чтосущественно усложняет автоматизированный перебор и анализ ЕЭМ с одной стороны,и делает весьма трудоемким процесс поиска необходимой информации потенциальнымипользователями информационных систем с другой стороны.
Данная проблема решаетсямногими способами, один из которых – анализ текстов представленных на ЕЯ наоснове построения семантической модели.
Под семантикой, с точкизрения информационных технологий, можно понимать принципы организаций языковыхконструкций на ЕЯ.
Под семантической модельютекста, представленного на ЕЯ, можно понимать эквивалент данного текста,представленный таким образом, чтобы анализ смысловой нагрузки текста мог бытьвыполнен с использованием автоматизированных систем. Естественно, данная модельдолжна быть оформлена в соответствии с формально определенным форматом.
Развитие технологийпостроения семантических моделей во многом связано с развитием идеи, котораяполучила название “Семантическая сеть” (Semantic web). В соответствии с концепцией семантическойсети для каждой опубликованной ЕЭМ должна быть построена соответствующая ейсемантическая модель. Если потребуется выполнять поиск или анализ текстов наЕЯ, то анализироваться будет не сам текст, а его семантическая модель. Этопозволит решить несколько задач:
·       Запросы на поиск информации в глобальной сети можнобудет формировать не по ключевым словам, а на ЕЯ;
·       Материалы,представленные в глобальных сетях, станет возможным сортировать “по смыслу” ипринадлежности предметным областям;
·       Информационныесистемы смогут отбирать и использовать необходимую им информацию автоматически,без участия человека.
Предполагается, чтосначала будут созданы семантические модели для уже существующих ЕЭМ вглобальных сетях, а все ЕЭМ, которые будут туда помещаться вновь, будутсопровождаться соответствующими семантическими эквивалентами.
Для описаниясемантической модели на ЕЯ был определен специальный формат – RDF (Resource description format), который базируется на формате XML и позволяет определять соответствиявида объект – атрибут – значение. Кроме этого, ЕЭМ также предполагаетсяприсваивать информацию, определяющую уровень достоверности публикуемыхматериалов. Это осуществляется путем добавления цифровой подписи. Дляопределения онтологической информации (терминологии предметной области)используется язык OWL (Web ontology language).
Формат RDF позволяет представлять данные в видеиерархической структуры (как правило, в виде графа) в формате, который можетбыть разобран автоматически, с использованием, например, инструментов XML Parser. Каждый элемент документа,представленного в виде RDF, представляет собой набор фактов. Если рассматриватьэти факты с точки зрения текстов на ЕЯ, то они являются предложениями, определяющимисоответствие между подлежащим (объект), сказуемым (атрибут) и дополнением(значение).
Для определения объектовпринято использовать формат URI (универсальный идентификатор ресурсов). В качествесинтаксиса объектов может использоваться формат, похожий на обычный WWW URL (адрес вида http://something), хотя никакого отношения к реальным URL-адресам такой объект может и неиметь. Возможно, также использовать другие варианты представления объектов в RDF. Выбор того или иного формата обычноопределяется конкретной предметной областью, для элементов которой выполняетсягенерация семантической модели.
Для организации храненияинформации, представленной в виде RDF совсем не обязательно использоватьфайлы .RDF. Если окажется, что такую информацию более рационально представить ввиде реляционной модели, то имеет смысл хранить ее в некоторой реляционной базеданных. В таком случае может оказаться целесообразным разработатьинструментарий, выполняющий преобразование из файла .RDF в структуру БД и наоборот. Этопозволит использовать уже существующие утилиты, работающие с форматом .RDF.
Задача анализа текста наналичие заимствований также может решаться с использованием механизмапостроения семантических моделей.
В настоящий момент такаязадача, в основном, решается путем анализа ключевых слов. Такой метод можетоказаться эффективным для поиска полных заимствований, но если в текстевыполнялись модификации (например, была выполнена замена некоторыхсуществительных на синонимы или текст был переведен на другой язык), торезультаты такого анализа могут оказаться неудовлетворительными. В таком случаеимеет смысл использовать алгоритмы, которые предполагают построениесемантических моделей исходного и предполагаемых оригинальных текстов ипроводить сравнения этих моделей.
Задача анализа текстов,представленных на естественном языке на предмет заимствований в разных системахрешается по-разному:
1.    Система “antiplagiat.ru работает по принципу анализаключевых фраз и предназначена, в основном, для использования в учебных заведениях.Cистема собирает информацию изразличных источников: загружает из Интернета и обрабатывает сайты, находящиесяв открытом доступе, базы научных статей и рефератов. Полученные материалыпроходят процедуру фильтрации, в результате которой отбрасывается бесполезная сточки зрения потенциального цитирования информация.
2.    Система “Лингвоанализатор”. Анализведется на основе стилистики предполагаемого оригинального текста – атрибутикитекста.
3.    Методика выявления плагиата висходных текстах компьютерных программ, приведенная в [48].
4.    Система PlagiatInform работаетпо аналогии с системой Антиплагиат и рассчитана на применение на базе учебныхзаведений.
Автор работывыполнил исследование  методов анализатекстов на заимствования, предложил свои подходы к решению задачи.
РАЗДЕЛ1 Методырешения задачи анализа текстов на заимствование. Постановка задачи
         Задача анализа текстов, представленныхна естественном языке, в настоящий момент решается, как правило, тремяосновными методами:
1.    Анализ текстов экспертом в предметнойобласти, к которой можно отнести анализируемый текст.
Данный метод не предполагает автоматизацию процесса анализа. Анализ проводитнекоторое лицо, которое считается достаточно компетентным в соответствующейобласти знаний;
2.    Анализ текстов на базе оценкирелевантностей.
Данный метод является достаточно хорошо сформированным, хотя применяется он, восновном, для поиска информации в глобальных сетях. На базе данного методаосуществляется поиск практически во всех поисковых системах Интернета (Google,Yahoo, Lycos, Rambler, Yandexи др.). Этот же метод может быть успешно использован для анализа текстов наналичие заимствований. По такому принципу работает достаточно популярная вданный момент система antiplagiat.ru.
Метод не требует использования значительных вычислительных ресурсов. Для этихцелей требуется время, соответствующее алгоритму дихотомического поиска.
Однако этот метод не может быть применен в случае, если содержание текста былоизменено (без изменения смысловой нагрузки текста);
3.    Метод, базирующийся на анализе смыслатекста.
1.1. Задача анализазаимствований на базе семантических технологий
         Вданной работе задачу анализа текстов, представленных на естественном языкеможно разбить на несколько этапов:
1.     Регистрация материалов,рассматриваемых в качество исходных.
Поскольку предполагается, что объем исходных данных, а также объемвычислительной нагрузки на сервер, обслуживающий репозиторий исходных данных,могут быть значительными,  дляоптимизации производительности системы требуется особое внимание уделить выборуСУБД. В качестве сервера баз данных в данном случае имеет смысл использовать MS SQL server, поскольку он позволит организоватьраспределенное хранилище, а также обладает достаточной производительностью длявыполнения поставленной задачи.
Исходные документы хранить в БД не имеет смысла – достаточно хранить там толькоссылку на документ, располагающийся на диске.
Документ, представленный в текстовом виде, а также модели этого документа имеетсмысл хранить в самой БД, так как предполагается, что эти данные будутнепосредственно учувствовать в запросах при анализе текстов на заимствование.
2.     Каталогизация материалов,рассматриваемых в качестве исходных.
Время анализа документов на наличие заимствований можно значительно сократить,если проводить сравнение документов по близким предметным областям.
Таким образом, процесс анализа документов можно значительно оптимизировать,если предварительно все исходные документы сгруппировать по соответствиюнекоторым предметным областям. В данной работе степень соответствия предметнымобластям предполагается строить на основе словаря, содержащего соответствиямежду следующими объектами:
a.     Семантическая лексема на исходномязыке (в качестве такового предлагается русский);
b.     Список синонимов данной семантическойлексемы;
c.      Перевод семантической лексемы надругие языки
Под семантическойлексемой в данном контексте понимается некоторая самостоятельная единицаестественного языка, в соответствие которой возможно поставить формальноеопределение.
В качестве источника данных для формирования такого словаря в работепредполагается использовать часть открытого проекта Wikipedia – WikiСловарь. Все элементы WikiСловаря представляют собой html-страницы, которые включают в себявсе объекты, перечисленные выше.
3.     Построение семантических моделейдокументов в формате, близком к RDF, но оптимизированном для хранения в БД. Фактически,такая семантическая модель будет представлять собой множество ссылок на данныеиз словаря, представленное в виде ориентированного графа, взвешенного повершинам и ребрам.
Имеет смысл также выполнять анализ полученной модели с целью выделения из нееоригинальной смысловой нагрузки, для того, чтобы анализ проводился по основномусмыслу текста, а не по множествам семантических лексем, имеющих общий смысл.
4.     Анализ текста на заимствование.Данная операция аналогична помещению образца в базу данных:
a.     сначала требуется осуществитьпреобразование текста в формат простого текста (plain text);
b.     Для оптимизации перебора по множествуобразцов выполнить позиционирование данного текста в некоторых предметныхобластях – проставить индексы соответствия данного текста для каждой предметнойобласти. Далее анализ текста вести в предметных областях, индекс которыхнаибольший (в порядке убывания);
c.      Построить семантическую модельданного текста, представленную в виде взвешенного орграфа;
d.     Выполнить выделение основного смыслаиз текста, убрав множества семантических лексем, имеющие общий характер.Скорректировать построенный граф;
e.      Выполнить сравнения с образцами,хранящимися в БД в порядке убывания индекса соответствия предметной области.Сравнения вести на основе определения степени изоморфности двух графов –исходного и образца;
f.       Сделать вывод о степени заимствованияматериалов, подготовить соответствующий отчет;
g.     Если процент заимствования являетсядопустимым, то считать текст оригинальным и внести его в общую базу данныхобразцов.
h.     Если текст был признан оригинальным ивнесен в общую  базу данных, то должныбыть установлены соответствия между всеми семантическими лексемами,относящимися к этому тексту и уникальным номером текста в БД1.2. Выводы
Задачаанализа текстов, представленных на естественных языках, может решатьсяразличными методами. Выбор метода зависит, как правило, от характера  текста.
Вомногих случаях при автоматизированном анализе может быть применен методрелевантностей. Однако, если текст был некоторым образом модифицирован, тоэффективным решением может оказаться применение технологий, основанных наанализе смысловой нагрузки текста.РАЗДЕЛ 2 Подходык решению задачи анализа заимствований
         Основными автоматизированными методамирешения задачи анализа заимствований текстов, представленных на естественномязыке, являются:
1.    Анализ на базе релевантностей;
2.    Анализ на базе анализа смысловойнагрузки текста2.1. Анализ на базе оценки релевантностей
Одним из методов анализатекстов на предмет заимствований из публичных источников является метод,основанный на анализе уровня релевантности.
Методика полученияиндекса релевантности для задачи анализа текстов на заимствование похожа наалгоритм получения уровня релевантности в поисковых системах.
С точки зрения поисковыхсистем, под релевантностью понимают меру соответствия результатов поисказапрошенным данным.
Определять факт вхожденияключевых слов, заданных в качестве запроса на поиск можно разными способами:
1.                Точныйпоиск подстроки в строке
2.                Нечеткийпоиск подстроки в строке. Для выполнения такого поиска вводят понятие“расстояние между строками”. По определению Хемминга, расстоянием между 2строками является число позиций в строке, на которых символы отличаются. Прирешении задачи нечеткого поиска определяется максимально допустимое число dmax – расстояние между строками. Еслипроизводится нечеткий поиск подстроки A в строке B, то считается, что A является подстрокой B, если d(A, B)
При анализе текстов наналичие заимствований на базе вычисления релевантности, возможно, использоватьследующий алгоритм:
         Предположим,что
·       A – некоторый исходный текст, представленный на естественномязыке;
·       B = {B1, B2,…, Bn} – множество текстов, среди которых следует производитьпоиск.
В таком случае задачаанализа текста A на заимствование из текстов множества B сводится к сортировке множества B по уровням заимствований в порядкеубывания. Уровни заимствований определяются численной величиной – расстояниемХемминга между A и Bi, где i – номер рассматриваемого текста из множества B.
Таким образом, длякаждого элемента множества B определяются два подэлемента – текст и уровень заимствованияиз него текста A:
B = {{ B1, d1}, { B2, d2},…, { Bn, dn}}                      (2.1)
Причем,  множество B должно быть представлено такимобразом, что
                                  (2.2)
         Имеетсмысл рассматривать не все тексты из множества B, а только те, для которых di
         Сложностьалгоритма поиска расстояния между строками очень зависит от конкретнойреализации соответствующего алгоритма. Вывод о том, какой именно из алгоритмовпоиска расстояний между строками следует делать исходя из анализа следующихданных:
·       Максимальныйи средний размеры текстов, которые анализируются на наличие заимствований;
·       Максимальныйи средний размеры текстов, которые рассматриваются в качестве элементовмножества B;
·       Величинаn;
·       Априорнаяинформация о максимальном и среднем d
Наиболее распространенныеалгоритмы вычисления размера между строками представлены в таблице 2.1.

Таблица 2.1
Алгоритмы вычисления расстояний междустроками
N п/п
Алгоритм
Сложность по времени
Сложность по памяти
Особенности применения
1
Метод динамического программирования Вагнера и Фишера
O(n, m) = (n+1)*(m+1)
O(n, m) = (n+1)*(m+1)
Для вычисления всегда требует значительных затрат вычислительных ресурсов — квадратичного времени и памяти.
Может быть применен для вычисления расстояний подстрок строк A и B за константное время, если было рассчитано расстояние между A и B.
Позволяет, в случае необходимости, получить сами подстроки длиной d за линейное время.

Продолжение таблицы 2.1
Модификация Хиршберга
O(n, m) = n*m
O(n, m) = m+n
Требуется также стековая память для 2*max(n,m)-1 рекурсивных вызовов
Основан на методе Вагнера-Фишера. За счет экономии памяти не позволяет быстро получить общие подстроки длины d.
Алгоритм Ханта-Шиманского
O(n, m) = max2(n,m)*log(max(n,m))
O(n, m) = m*n
Алгоритм будет эффективен для больших по объему данных.

Продолжение таблицы 2.1
Алгоритм Машека и Патерсона
O(n, m) = max(n,m)/log(max(n,m))
O(n, m) = m*n
Единственный алгоритм, для которого оценочное время работы в худшем случае меньше квадратичного. Алгоритм работает очень эффективно на больших объемах данных. Разработчики рекомендуют применять его, когда
m, n > 262418
Алгоритм Уконнена
O(n,m) = d * max(n,m)
O(n, m) = m*n
Метод эффективен, когда расстояние между строками небольшое

         Посколькув задаче анализа текста на заимствование часто приходится иметь дело с базойданных текстов (множество B) очень большого объема, задача оптимизации поиска расстоянийпо этим текстам является очень актуальной. Для этого имеет смысл передвычислением расстояний между строками собирать информацию, которая позволитсделать выбор в пользу того или иного алгоритма; эффективным может оказатьсяметод динамического комбинирования алгоритмов.
         Алгоритмыпоиска расстояния между строками, как правило, позволяют эффективно применятьтехнологии распределенных и параллельных вычислений. 
         Методанализа текстов на заимствование методом анализа релевантностей  может оказаться эффективным в том случае,если исходный текст A не изменялся или выполнялись незначительные изменения. Если жевыполнялись изменения исходного текста (перевод на другой язык, заменанекоторых существительных синонимами), то такой метод может не дать требуемогорезультата.2.2. Анализ на базеоценки смысловой нагрузки текста
Данныйметод анализа принципиально отличается от того, который был изложен в разделе2.1, схема организации процесса проверки осуществляется иным способом.2.2.1. Формирование семантического словаря
         Процесспроверки текстов, представленных на естественном языке, на базе алгоритмованализа смысловой нагрузки опирается на заранее форматизированный банк данных –семантический словарь.
         Возможновыделить 2 основных типа словарей, используемых в алгоритмах анализасемантических данных:
1.     Базовый словарь.
Данный словарь представляет собой совокупность независимых фактов, уровеньдостоверности которых является максимальным. В словарь этого уровняпредполагается включать:
a.     Словарь синонимов;
b.     Словарь родственных семантическихлексем;
c.      Формальные лингвистические правилаязыков, которые могут быть выражены в виде фактов;
d.     Список правил перевода с одного языкана другой
2.     Семантический словарь.
В данном словаре предполагается хранить семантические данные базы документов,которую требуется использовать в качестве исходной. При анализе текстов назаимствование потребуется выявлять наличие заимствований именно из этой базыдокументов.
Несмотря на то, чтологически эти 2 типа словарей значительно отличаются, представление данныхобоих словарей очень похоже, поэтому для них возможно применение одного и тогоже алгоритма.
В данной работеформирование базового словаря было решено выполнять на основе данных,находящихся на сервере открытого проекта WikiPedia – ВикиСловарь.        
Для каждого слова вВикиСловаре существует страница, представленная в виде разделов следующимобразом:
1.    Морфологическиеи синтаксические свойства
2.    Семантическиесвойства
3.    Синонимы
4.    Антонимы
5.    Родственныеслова
6.    Устойчивыесловосочетания
7.    Этимология
8.    Перевод
Из данного спискаполезными для построения семантического словаря могут оказаться данные,принадлежащие разделам:
1.    Семантическиесвойства
2.    Синонимы
3.    Родственныеслова
4.    Устойчивыесловосочетания
5.    Этимология
6.    Перевод
Данные из Викисловаряможно получить путем обращения к соответствующим html-страницам.
Для того чтобы получить доступк любым WEB-страницам разработан соответствующий класс CWebData. У данного класса существуетединственный (кроме конструктора) публичный метод
        publicstring get_web_page(stringurl)
Данный метод принимает вкачестве параметра адрес требуемой страницы и возвращает ее содержимое в видеодной нуль-терминированной строки.
Предполагается, чтоданный класс будет использован в качестве родительского для некоторыхпроизводных классов (но не обязательно: класс не объявлен как абстрактный, аследовательно может быть использован и без наследования).
Данный класс может бытьунаследован для следующих целей:
1.                           Запроск WEB-страницеможет занимать длительное время, которое нецелесообразно тратить на ожиданиеответа WEB-сервера.
2.                           Маловероятно,что для задач анализа текста на наличие заимствований потребуется использоватьв исходном (сыром) виде. В большинстве случаев потребуется сначала разобратьсодержимое WEB-страницы, выделив из нее требуемые данные. Поэтому имеет смыслунаследовать от класса дочерний класс, который позволит выполнять parsing страницы и получать данные вструктурированном виде.
Для доступа к WEB-страницам в данном классеиспользуется средства, декларированные в пространствах имен System.Net, System.IO и System.Text.
Для выполнения анализа Викисловарясначала потребуется получить список всех доступных слов. Адреса страниц сосписками доступных слов в Викисловаре строятся по шаблону:
http://ru.wiktionary.org/wiki/%D0%98%D0%BD%D0%B4%D0%B5%D0%BA%D1%81:%D0%A0%D1%83%D1%81%D1%81%D0%BA%D0%B8%D0%B9_%D1%8F%D0%B7%D1%8B%D0%BA/%D0%N>
где — номер первой буквы слов,начиная с 90, представленный в 16-ричном виде.
         Списоквсех страниц “по буквам” хранится в файле letters.dat и приведен в приложении Д.
         Длядоступа к файлам используется класс CfFleReader, исходный код которого приведен вПриложении Г.
         Процессразбора данных, хранящихся в Викисловаре, разбивается на несколько этапов:
1.     Получение данных по буквам исохранение их в .html – файлах. Поскольку предполагается, что процесс разбораВикисловаря должен выполняться автоматически, то требуется исключить все факторы,которые могут повлечь за собой некорректную остановку процесса разбора. Данныефакторы выявлялись экспериментально, и приведены в таблице 2.2.
Таблица 2.2.
Факторы,которые могут повлечь за собой остановку процесса разбора словаря
N п/п
Фактор
Метод решения проблемы
1
Ошибка доступа к прокси-серверу или маршрутизатору
Включить потенциально опасный участок кода в блок обработки исключительных ситуаций, повторять попытки получения данных до успешного окончания
2
Ошибка доступа к серверу Викисловаря
Как правило, ошибка может быть связана либо с сильной загруженностью канала доступа (ошибка превышения допустимого таймаута) либо с чрезмерной загрузкой сервера Викисловаря. И в том и в другом случае следует повторить попытку после некоторого временного интервала.
Экспериментальным путем было установлено, что 10-секундного интервала для этих целей в большинстве случаев оказывается достаточно.
3
Ошибка 403 Forbidden
Данная ошибка может возникать в 2х случаях:
·        Если выполняется попытка обращения к несуществующей странице;
·        Если количество запросов с одного IP-адреса превысило допустимый предел.
Требуется повторить запрос через некоторый небольшой интервал времени (использовался интервал в 2 сек). Если после значительного количества попыток получить доступ к странице так и не удалось – исключить ее из списка рассматриваемых.
2.     Разбор полученных на первом этапе html-файлов и формирование первичногословаря. Семантические связи на данном этапе не устанавливаются и  не фиксируются.
3.     Проход по всему словарю, получение ификсирование базовой семантической информации.
Выполняется анализ всех WEB-страниц Викисловаря, относящихся к сформированному напредыдущем этапе словарю. При организации обращений к WEB-страницам следует предусмотретьобработку исключительных ситуаций аналогично тому, как это делается в пункте 1,согласно таблице 2.2.
Вся дополнительная информация, имеющая отношение к семантическим единицамдолжны быть внесена в словарь “на лету”.
         Данные этапы должны выполняться последовательно, однако врамках каждого этапа возможно использовать параллелизацию вычислений:
1.     Боль


Не сдавайте скачаную работу преподавателю!
Данный реферат Вы можете использовать для подготовки курсовых проектов.

Поделись с друзьями, за репост + 100 мильонов к студенческой карме :

Пишем реферат самостоятельно:
! Как писать рефераты
Практические рекомендации по написанию студенческих рефератов.
! План реферата Краткий список разделов, отражающий структура и порядок работы над будующим рефератом.
! Введение реферата Вводная часть работы, в которой отражается цель и обозначается список задач.
! Заключение реферата В заключении подводятся итоги, описывается была ли достигнута поставленная цель, каковы результаты.
! Оформление рефератов Методические рекомендации по грамотному оформлению работы по ГОСТ.

Читайте также:
Виды рефератов Какими бывают рефераты по своему назначению и структуре.