Реферат по предмету "Разное"


Автоматическое реферирование и аннотирование текста

Автоматическое реферирование и аннотирование текста Рефератом называется связный текст, который кратко выражает не только центральную тему или предмет какого-либо документа, но и цель, применяемые методы, основные результа­ты описанного исследования или разработки. Рефераты обычно составляют к научно-техническим документам (науч­ным книгам, статьям, патентам на изобретение и т.п.) Реферат ак­центирует внимание читателя на новых сведениях и определяет целесообразность его обращения к исходному документу. Он помо­гает человеку ориентироваться в информационных потоках, опе­ративно отбирать для себя наиболее ценную и полезную информа­цию. Процесс составления реферата называется реферированием.Аннотацией называют краткое изложение содержания докумен­та, дающее общее представление о его теме. Таким обра­зом, если реферат в краткой форме знакомит читателя с сутью излагаемого в документе содержания (фактами, методикой, экс­периментами и т.п.), то аннотация выполняет лишь сигнальную функцию, сообщая о том, что опубликована статья или книга на определенную тему. Процесс составления аннотации называется аннотированием. Рефераты и аннотации представляют собой вторичные доку­менты (первичные, или исходные, документы — это книги, статьи, патенты и т. п.) В каждом вторичном до­кументе можно выделить два компонента информации:содержательный и документографический. Первый компонент содержит информацию первоисточника (о чем книга, статья). Второй компонент — это сведения о самом первичном документе (тип документа: книга, статья и т.п.; вид: печатный, рукописный; год издания; место издания и т.д.). В даль­нейшем речь пойдет только о первом компоненте вторичного до­кумента. Научно-технический прогресс привел к появлению большого числа публикаций (книг, статей и т.п.) по самым разным проб­лемам науки, техники, образования, и специалисты не успевают следить за новейшей литературой по своей области знания. Для этого, как установлено, человек должен был бы прочитывать еже­дневно 1500 страниц текста на разных языках, что явно превыша­ет его физические возможности. Поэтому для оперативного «по­верхностного» знакомства с новейшими публикациями использу­ются рефераты и аннотации книг и статей, которые составляются в специальных организациях и публикуются в реферативных жур­налах (РЖ) и реферативных сборниках (PC). Реферирование и аннотирование текста являются сложными видами интеллектуальной деятельности. Составление человеком рефератов или аннотаций занимает много времени. Это приводит к тому, что до ученых, педагогов, инжене­ров и других специалистов новейшая информация (особенно зару­бежная) доходит очень медленно, что, в свою очередь, ведет к повторению в разных странах и в пределах одной страны одних и тех же исследований, более позднему применению новейших ме­тодик, технологий, процессов. Чтобы как-то избежать этого, для составления рефератов и аннотаций применяют современные ком­пьютеры. Составление реферата или аннотации текста с помощью компьютера называется автоматическим реферированием или ан­нотированием. При выполнении работы по составлению реферата или аннотации человеком (референтом) обычно выделяют три этапа: 1) подготовительный — референт определяет тематическую направленность текста и пытается понять и осмыслить документ в целом; 2) аналитический — референт делит текст на некоторые фраг­менты (абзацы, аспекты и т.п.). Каждый фрагмент внимательно изучается, в нем выделяют основные смысловые единицы (пред­ложения, словосочетания, слова). Данный этап заканчивается со­ставлением плана будущих реферата или аннотации; 3) этап непосредственного построения реферата или аннота­ции — выделенные ранее смысловые единицы (их комбинации или преобразования) располагаются в единый вторичный текст в соответствии с планом реферата или аннотации. В качестве основных смысловых единиц, выделяемых из исходного текста на 2-м этапе, могут выступать: 1) целые клю­чевые предложения; 2) ключевые словосочетания и слова.^ Ключевое (опорное) слово — это термин, относящийся к основ­ному содержанию текста и повторяющийся в нем несколько раз (с учетом всех возможных синонимов).^ Ключевое словосочетание — это сочетание слов, среди которых есть одно или несколько ключевых.Ключевым предложением считается предложение, содержащее два и более ключевых слова или ключевых словосочетания. Составление плана будущих реферата или аннотации заключа­ется в выделении некоторых смысловых ориентиров, которые на 3-м этапе будут развернуты более подробно. В качестве таких ориентиров выступают: 1) основные темы и подтемы исходного текста; 2) основные аспекты исследования; 3) основные ключевые предложения, словосочетания и слова. Создаваемый на 3-м этапе реферат или аннотация содержат выделенные ранее смысловые единицы. В качестве смысловых еди­ниц реферата могут выступать: 1) полные (без изменения) ключевые предложения исходного текста; 2) перефразированные ключевые предложения исходного текста; 3) предложения, составленные из ключевых слов или словосочетаний исходного текста с помощью специальных связующих элементов; 4) предложения, обобщающие несколько предложений исходного текста (не обязательно ключевых). При перефразировании применяются различные лексико-грамматические явления: использование синонимов, конверсивов, замен по принципу «вид — род», «часть — целое» и т.п. При получении новых предложений из ключевых слов и слово­сочетаний исходного текста чаще всего используют различные логико-смысловые скрепы, например, потому что, в то время как, поэтому, вследствие и т.п. В обобщающих предложениях исходный текст передается со­вершенно другими словами. В них то же самое содержание излага­ется в более кратком виде. Смысловыми единицами аннотации могут быть: 1) ключевые слова или словосочетания исходного текста с предшествующими им специальными фразами — реляторами типа: «В статье рассматриваются следующие вопросы:...», «Книга посвящена следующим проблемам: ...» и т.п.; 2) специальные предложения, содержащие оценочные элемен­ты: «Рассматривается важная проблема...», «Статья посвящена актуальной теме...» и т.д.; 3) специальные предложения, содержащие клише, т.е. специ­ализированные словесные штампы, фиксирующие внимание чи­тателя на определенных аспектах содержания: «Недостаток... за­ключается», «Цель публикации...», «Ставится задача...», «Делает­ся попытка...» и т.д. Следующий важный вопрос, который необходимо рассмотреть, связан с тем, как человек выбирает из текста ключевые предло­жения, словосочетания и слова. Это делается, как уже отмеча­лось, на 2-м этапе общего процесса составления вторичного до­кумента. Читая текст повторно (первый раз он читается на подго­товительном этапе) или в третий раз, человек мысленно выделяет в нем три типа единиц (предложений, словосочетаний, слов): 1) единицы, которые обязательно должны быть включены в реферат или аннотацию. Такие единицы отражают новые идеи, гипотезы, новые методы, явления, процессы, новые результаты, т.е. все новое и оригинальное, что есть в исходном документе. Это, по существу, и есть основные смысловые единицы текста (ключе­вые предложения, словосочетания и слова); 2) единицы, которые отражают фактические данные: параметры изделий, процессов, методов и т.д. Такие единицы не являются принципиально новыми; 3) единицы, которые аргументируют и иллюстрируют едини­цы первых двух типов. Единицы первого уровня обязательно используются при со­ставлении реферата. Из единиц второго уровня использу­ются лишь некоторые (в зависимости от типа реферата или его потребителя). Третья группа единиц изредка переносится в рефе­рат в обобщенном виде. Если поручить составление реферата или аннотации компью­теру, то, очевидно, его надо научить выполнять те же действия, которые осуществляет человек. Компьютер должен уметь: 1) находить в тексте ключевые слова, словосочетания и пред­ложения; 2) находить в тексте менее значимые единицы; 3) составлять из текстовых единиц двух первых типов смысло­вые единицы реферата или аннотации; 4) составлять из таких единиц текст реферата или аннотации. Говоря о двух последних «умениях» компьютера, необходимо помнить, что почти во всех существующих системах автоматиче­ского реферирования в качестве основных смысловых единиц ре­ферата выступают ключевые предложения или ключевые слово­сочетания и слова исходного текста. Первые в их последователь­ной совокупности (в том порядке, в котором они идут в исходном тексте) образуют текст (квазитекст) реферата. Второй тип смыс­ловых единиц (ключевые словосочетания и слова) используется компьютером для построения так называемых табличных рефе­ратов. При составлении с помощью компьютера аннотации также используются как ключевые предложения (в том виде, что и при составлении реферата), так и ключевые слова и словосочетания. Последние перечисляются вслед за реляторами вида: «В статье рассматриваются следующие вопросы:...», «Книга посвящена сле­дующим проблемам: ...», «Статья раскрывает следующие понятия: ...» и т.д. По способам выделения из исходных текстов ключевых слово­сочетаний и предложений (первые два «умения» компьютера) различают несколько методов автоматического реферирования и аннотирования текстов. Наиболее известны следующие три груп­пы методов: 1) статистические; 2) позиционные; 3) логико-семантические. Суть статистической группы методов заключается в том, что: 1) ключевыми словами считаются такие знаменательные слова текста, которые с учетом всех синонимов встречаются в тексте наибольшее число раз; 2) ключевым предложением считается предложение текста, которое: а) имеет несколько ключевых слов; б) содержит ключевые слова на небольшом расстоянии друг от друга. Принадлежность слова, словосочетания или предложения к числу ключевых определяется специальными статистическими коэффициентами. В позиционных методах автоматического реферирования и ан­нотирования ключевым предложением считается предложение, входящее в заголовок, подзаголовок, начало или конец какой-то части текста или всего текста. Такие предложения, как правило, содержат информацию о целях, методах, выводах и результатах исследования, описанного в первичном документе. Важность тех или иных предложений с указанной точки зрения определяется экспертами путем изучения семантической структуры первичных документов определенного типа. Логико-семантические методы опираются на исследование структуры и семантики текстов. Существует несколько вариантов этих методов, но цель их одна — выделить из конкретного текста предложения с наибольшим функциональным весом. Величина эта зависит от многих факторов: наличия в исследуемом предложе­нии специальных семантически значимых слов, связи этого пред­ложения с другими предложениями текста, синтаксического типа самого предложения и т.д.


Не сдавайте скачаную работу преподавателю!
Данный реферат Вы можете использовать для подготовки курсовых проектов.

Поделись с друзьями, за репост + 100 мильонов к студенческой карме :

Пишем реферат самостоятельно:
! Как писать рефераты
Практические рекомендации по написанию студенческих рефератов.
! План реферата Краткий список разделов, отражающий структура и порядок работы над будующим рефератом.
! Введение реферата Вводная часть работы, в которой отражается цель и обозначается список задач.
! Заключение реферата В заключении подводятся итоги, описывается была ли достигнута поставленная цель, каковы результаты.
! Оформление рефератов Методические рекомендации по грамотному оформлению работы по ГОСТ.

Читайте также:
Виды рефератов Какими бывают рефераты по своему назначению и структуре.