Реферат по предмету "Разное"


Автоматизированные информационно-поисковые

ГЛАВА 9. АВТОМАТИЗИРОВАННЫЕ ИНФОРМАЦИОННО-ПОИСКОВЫЕ СИСТЕМЫ 9.1. Формализованные модели структур данныхВ автоматизированных информационных системах (АИС) логическая структура формализованных данных определяется в значительной мере структурой современных электронных вычислительных машин, а последние ориентированы на предикатно-актантную структуру данных. К такому выводу можно прийти, изучая структуру машинных операций и структуру алгоритмических языков высокого уровня.В основе предикатно-актантной структуры данных лежит структура многоместных предикатов, которая имеет видF( , , . . . , ). (9.1)Здесь F – имя предиката (многоместного отношения), а пустые места предназначены для актантов (значений предметных переменных). Конкретные высказывания (сообщения) формируются путем подстановки на пустые места значений предметных переменных, соответствующих описываемым ситуациям, процессам или объектам. Так высказывание о ситуации, в которой выделены n элементов, будет иметь вид:F(X1, X2,…, Xn). (9.2)Здесь F, как и ранее, - имя предиката, X1, X2,…, Xn- имена понятий, обозначающих объекты, входящие в состав ситуации.От структуры (9.2) высказывания легко перейти к структуре в виде конкатенации (связки, сочетания) двусоставных признаков, каждый из которых состоит из наименования и значения. Действительно, в записи (9.2) синтагматические (ситуационные) связи между понятиями, входящими в состав высказывания, выражаются позиционными средствами – путем совместного контактного расположения кодов этих понятий и закрепления за их позициями определенной функциональной роли. Но функциональная роль понятия может быть обозначена и сочетанием кода (имени) отношения F и номером позиции этого понятия в высказывании. Если обозначить ее каким-либо другим способом, например, путем присвоения имени, выраженного словом или словосочетанием, то необходимость в использовании для этой цели кода отношения и номера позиции отпадет.Тогда характер отношения между понятиями X1, X2, …, Xnв высказывании (9.2) будет определяться перечнем имен функциональных ролей, в которых эти понятия выступают, а само высказывание может быть представлено в виде конкатенации пар элементов: имя понятия – имя функциональной роли, в которой оно выступает. Имя функциональной роли может быть интерпретировано как наименование признака, а имя понятия – как его значение.В автоматизированных информационных системах отображаются явления внешнего “мира” (внешнего по отношению к АИС), а в качестве элементов этого мира выступают его объекты. Членение внешнего “мира” на объекты может быть разным и зависит от целевой установки. Объекты могут быть простыми и сложными. Простой объект воспринимается как носитель совокупности характеризующих его свойств. Его сущность проявляется в этих свойствах, и они не отделимы от него. Внутренняя структура простого объекта не раскрывается. ^ Сложный объект состоит из простых объектов (как минимум двух). Он также воспринимается как нечто целое и характеризуется определенными свойствами. Но, в отличие от простого объекта, в нем различается внутренняя структура – его расчлененность на простые объекты. Деление объектов на простые и сложные относительно: один и тот же объект внешнего мира при решении одних задач может рассматриваться как простой, а при решении других задач – как сложный.Свойствам объектов в информационном отображении соответствуют их признаки, но в АИС отображаются не все свойства объектов, а лишь наиболее существенные, причем взгляд на существенность тех или иных свойств зависит от характера решаемых задач.^ Простому объекту внешнего “мира” в информационном отображении соответствует конкатенация характеризующих его признаков, а сложному – сетевая структура. В узлах этой структуры помещаются простые объекты, а узлы соединяются дугами, которые отражают связи (бинарные отношения) между объектами.Понятия бинарное отношение и признак во многом сходны друг с другом. И то, и другое характеризует определенное свойство объекта: первое – находиться в определенном отношении к другому объекту, второе – соотноситься с определенной качественной или количественной категорией. Более того, бинарное отношение можно считать частным случаем признака, характеризующего связь объекта с некоторым другим объектом. Частным случаем признака является и математическое понятие переменной: наименование переменной может быть интерпретировано как наименование признака, а значение переменной – как значение признака.При описании объектов на формализованных информационных языках в качестве минимальной самостоятельной единицы смысла может выступать элементарное высказывание, в котором утверждается принадлежность объекту одного его признака. Признак может выражаться одним понятием, но обычно он расчленяется на две части: на наименование признака и его значение. Таким образом, элементарное высказывание может быть представлено в виде триады, состоящей из идентификатора объекта, наименования признака и его значения. Все элементы этой триады присутствуют во всех формализованных языках, но кодируются они по-разному: часть элементов кодируется позиционными средствами, другая – комбинацией символов алфавита. В соответствии с этим, в АИС применяются три основных формата высказываний: - позиционный, анкетный и триадный.В позиционном формате для каждого признака отводится определенное поле памяти, на котором записываются значения этого признака. Связь между признаками обозначается контактным расположением полей, предназначенных для описания одного объекта. В анкетном формате (иногда его называют ключевым) наименования и значения признаков обозначаются комбинациями символов алфавита, а связь между признаками - их контактным расположением. Порядок следования признаков в пределах одного высказывания не играет роли. В триадном формате все компоненты элементарных высказываний – идентификаторы объектов, наименования признаков и их значения – выражаются комбинациями символов алфавита.Следует заметить, что в информационных отображениях внешнего “мира” имена объектов и ситуаций используются далеко не всегда (например, космический объект может быть охарактеризован его координатами, вектором скорости, линейными размерами и т. п., но собственного имени он может и не иметь). В общем случае “именем” объекта является совокупность характеризующих его признаков – высказывание об этом объекте, а идентификатором такого объекта может быть порядковый номер высказывания или сочетание так называемых “ключевых” признаков, выделяющих его из множества всех других объектов. Порядковый номер высказывания символизирует здесь конкатенацию всех признаков объекта, и он может рассматриваться в качестве указателя связи между ними.Если обозначить через S указатель связи между признаками, через R – наименование признака (указатель роли) а через X – значение признака, то высказывание может быть представлено последовательностью триад видаSiR1X1, SiR2X2, …, SiRnXn (9.3)с одним и тем же указателем связи Si. Запись вида SiRjXkчитается следующим образом: понятие (актант) Xkвыступает в высказывании Siв функциональной роли Rj. Это же высказывание может быть представлено и в анкетной форме R1X1, R2X2, …, RnXn, (9.4)если условиться, что его элементы будут располагаться рядом (контактно), а между записями различных высказываний будут стоять разделительные признаки (в различных высказываниях количество признаков может быть различным). Наконец, если описываемые объекты однородны и могут быть охарактеризованы одним и тем же набором наименований признаков R1, R2, …, Rn, то, закрепив за этими наименованиями определенные позиции, можно представить высказывание (9.4) в виде записиX1, X2, …, Xn. (9.5)Как уже указывалось, такая структура называется позиционной, и она широко применяется на практике.Популярной формой представления формализованной информации в позиционном формате являются двумерные информационные таблицы. В таких таблицах в качестве наименований граф используются обобщенные наименования объектов и наименования их характеристик. В графах записываются наименования конкретных объектов и соответствующие этим объектам значения характеристик (числовые и текстовые). Образец двумерной информационной таблицы представлен в таблице 9.1.Таблица 9.1.^ Двумерная информационная таблица X Y1 Y2 . . . Yn X1 Z11 Z12 . . . Z1n X2 Z21 Z22 . . . Z2n . . . . . . . . . . . . . . . Xm Zm1 Zm2 . . . Zmn Здесь символом X обозначены объекты, символом Y – характеристики, а символом Z – значения характеристик. Каждая строка таблицы содержит сведения о характеристиках одного объекта. Характеристики представлены их значениями Z. Смысловая функция этих значений уточняется в наименованиях граф. Таким образом, двумерную информационную таблицу можно рассматривать как множество высказываний, а форму этой таблицы как высказывательную форму (многоместный предикат). Синтагматические связи между понятиями здесь, как и в высказываниях типа (9.2), выражены позиционно – путем совместного контактного расположения (в одной строке таблицы) кодов понятий и закрепления за их позициями определенной функциональной роли. Функциональная роль позиций обозначена в наименованиях граф таблицы. Более общий вид информационной таблицы показан в таблице 9.2. Ее строки обозначены символами указателей связи S1, S2, …, Sm, столбцы – символами указателей роли R1, R2, …, Rn, а на пересечении строк и столбцов записаны коды понятий Xij(i = 1, 2, …, m; j = 1, 2, …, n). Каждой строке таблицы соответствует высказывание об одном объекте.^ Таблица 9.2.Обобщенная форма информационной таблицы R1 R2 . . . Rn S1 X11 X12 . . . X1n S2 X21 X22 . . . X2n . . . . . . . . . . . . . . . Sm Xm1 Xm2 . . . Xmn В практике автоматической обработки информации используется представление сведений в виде массивов записей. Каждая запись состоит из нескольких участков (полей), на которых размещаются буквенные и числовые коды понятий. Количество полей в записях может быть постоянным или изменяться от записи к записи. Соответственно этому и форматы записей могут быть постоянными или переменными. В записях постоянного формата функциональная роль понятий выражается позиционными средствами (путем закрепления за каждым полем определенного смысла), а в записях переменного формата – с помощью специальных кодовых комбинаций (ключевых слов, указателей роли и т.п.). Записи постоянного формата являются записи позиционной структуры, а записи переменного формата – записями анкетной структуры.^ Массив записей позиционной структуры можно рассматривать в качестве линейной построчной развертки двумерной информационной таблицы. Применительно к условным обозначениям таблицы 9.2 такая развертка будет иметь следующий вид:S1 = X11, X12, . . ., X1n S2 = X21, X22, . . ., X2n . . . . . . . . . . . . . . . . . . . (9.6) Sm = Xm1, Xm2, . . , Xmn.Если записи имеют одинаковую длину, то границы между ними легко распознаются, и указатели связи S1, S2, …, Sm становятся избыточными символами. Если они имеют переменную длину, то необходимы разделительные признаки.^ Массив записей анкетной структуры также может быть получен путем линейной развертки таблицы 9.2. Для этого необходимо сопроводить все элементы строк таблицы указателями роли R. Результаты линейной развертки будут иметь видS1 = R1X11, R2X12, . . ., RnX1n S2 = R1X21, R2X22, . . ., RnX2n . . . . . . . . . . . . . . . . . . . . . . . (9.7) Sm = R1Xm1, R2Xm2, . . , RnXmn.Наконец, двумерная таблица 9.2 может быть представлена в линейной развертке в виде последовательности элементарных триадS1R1X11, S1R2X12, …, SiRjXij… (9.8)Элементы S, R, X в линейных развертках (9.6), (9.7), (9.8) могут выражаться буквенными кодами их наименований или порядковыми номерами этих наименований по словарю. Для ускорения процессов формирования массивов информации, их обновления и поиска в них могут применяться ассоциативно- адресные структуры данных, т.е. такие структуры, в которых элементы высказываний связаны между собой адресными отсылками.Структуры (9.6), (9.7), (9.8) легко преобразуются друг в друга. Для перехода от структуры (9.6) к структуре (9.7) необходимо записать в структуре (9.6) перед каждым кодом понятия Xijсоответствующий указатель роли Rj(указатели роли берутся из описания формата массива (9.6)); для перехода от структуры (9.6) к структуре (9.8) нужно записать перед каждым кодом понятия Xijуказатель роли Rjи указатель связи Si; для перехода от структуры (9.7) к структуре (9.8) следует записать перед парами кодов вида RjXij соответствующие указатели связи Si.Обратный переход от структуры (9.8) к структурам (9.7) и (9.6) осуществляется путем группировки триад в массиве (9.8) по признакам S и R и вынесения этих признаков “за скобки”. Причем при переходе от структуры (9.8) к структуре (9.7) “за скобки” выносятся только элементы S, а при переходе от структуры (9.8) к структуре (9.6) – элементы S и R.Как уже указывалось, формализованные информационные отображения объектов, процессов и ситуаций (“информационные фантомы”) могут иметь простую и сложную структуру. При этом информационные отображения “простых” объектов (процессов, ситуаций) могут представляться наборами описывающих их признаков, а отображения сложных объектов могут состоять из отображений простых объектов, связанных друг с другом. Информационные отображения объектов могут храниться и в позиционной, и в анкетной, и в триадной форме. В книге [36] описан пример автоматизированной информационной системы, в которой используются все эти формы представления информации и предусмотрены программные средства для перехода от одной формы представления в другую.На начальном этапе развития электронной вычислительной техники (50-е и начало 60-х годов прошлого столетия) для каждой задачи создавалась своя структура данных и своя система доступа к ним. К середине 60-х годов появилась и приобрела большую популярность концепция банков данных. Под банком данных понимали совокупность формализованных информационных массивов (базы данных) и средств общения с этими массивами (языковых и программных). Основное назначение банков данных было обеспечение безызбыточного хранения информации и доступа к ней различных пользователей. Под безызбыточным понималось такое хранение информации, когда исключается дублирование одних и тех же сведений в различных массивах, и все сведения объединяются в единую систему под общим управлением. Поскольку для решения различных задач могут потребоваться различный состав и структура исходной информации, то провозглашался принцип независимости структур данных в базе данных от пользовательских программ, а структуры, необходимые пользователям, должны были формироваться автоматически программными средствами банка данных. В системах обработки информации требовалось обеспечить независимость программ как от изменения логической структуры данных, так и от изменения их физической структуры.В состав концепции банка данных входил также принцип разграничения доступа к информации. Этот принцип позволял повысить ответственность должностных лиц за целостность баз данных и их поддержание в актуальном состоянии. Он обеспечивал также соблюдение установленного порядка использования данных. Концепция банка данных была направлена на централизацию управления данными в сложных вычислительных системах, на уменьшение трудозатрат, связанных с их подготовкой и обновлением, и на обеспечение информационной и лингвистической совместимости прикладных программ.Существуют различные подходы к построению банков данных. Так, в 60-х и 70-х годах прошлого столетия работы в этой области велись в следующих трех направлениях: 1) в направлении, определенном американской рабочей группой по базам данных Комитета КОДАСИЛ (Conference on Data System Languages); 2) в направлении, сформулированном авторами системы ИМС (Information Management System) фирмы ИБМ; 3) в направлении, сформулированном американским ученым Е.Ф. Коддом и получившем название реляционная модель баз данных. Все три направления признавали перечисленные выше принципы построения банков данных, но предлагали различные способы их реализации и различные языковые средства управления данными.В нашу задачу не входит подробный анализ достоинств и недостатков этих направлений. Укажем лишь, что только Е.Ф. Кодду удалось в наибольшей степени отделить логическую структуру данных от физической. Он предложил использовать для представления информации в банках данных модель, в которой массивы форматированной информации интерпретируются как отношения. Каждое отношение представляется в виде двумерной таблицы с поименованными графами. В графах указываются значения признаков, характеризующих объекты, учитываемые в информационной системе. Е.Ф. Кодд утверждает, что любая структура данных (линейная, иерархическая, сетевая) может быть представлена в виде совокупности таблиц – в нормальной форме. При этом связи между объектами фиксируются как значения соответствующих признаков. Е.Ф. Кодд и его последователи ввели четыре разновидности нормальных форм, отличающиеся друг от друга характером функциональных связей между признаками.Реляционная модель Е.Ф. Кодда представляет собой первую серьезную попытку создания математической теории структур данных. На ее основе можно исследовать закономерности, имеющие место в этих структурах, и осуществлять оптимизацию структур. Эта концепция является более перспективной, чем концепция Комитета КОДАСИЛ и авторов системы ИМС. Вместе с тем следует отметить, что перечисленные выше три модели данных в большей степени отражают методы доступа к информации, чем ее логическую структуру. В логическом отношении они эквивалентны и могут быть преобразованы друг в друга.Неудовлетворительность этих моделей отмечает, в частности Г.М. Нийсен [118]. Он пишет: “Анализ основных идейных направлений современных публикаций по вопросам управления базами данных показывает, что уровень зрелости в этой области еще невысок. Исследователи еще слишком заняты рассмотрением идеологии Комитета КОДАСИЛ, иерархических систем и нормализованных реляционных моделей… Общепринятая объединяющая концепция пока отсутствует.С другой стороны, имеется ряд публикаций, вселяющих надежду на создание более зрелой и устойчивой теории управления базами данных. Поэтому разумно предположить, что следующее поколение систем управления базами данных будет создано на более совершенной концептуальной основе, чем современные системы.” (перевод БГГ).На наш взгляд, этой более совершенной объединяющей основой могла бы явиться концепция предикатно-актантной структуры, в рамках которой идеологию Комитета КОДАСИЛ, иерархических систем и нормализованных реляционных моделей можно интерпретировать как частные случаи.Термин реляционная модель баз данных, применяемый для обозначения модели Е.Ф. Кодда, не вполне корректен, так как отношения (relations) между элементами данных имеют место во всех без исключения информационных системах. Речь может идти не о наличии или отсутствии таких отношений в тех или иных системах, а лишь о различных способах их представления. Поэтому модель Е.Ф. Кодда правильнее было бы назвать нормализованная реляционная модель баз данных, как предлагает Г.М. Нийсен [118], или по имени ее автора, а не так, как ее принято называть в настоящее время.Да и понятие нормализации структур данных не обязательно связывать с табличной формой представления информации. Ведь в эквивалентных ей анкетной и триадной формах также есть возможность выражать связи между объектами через значения признаков, и к этим формам может быть приведена любая другая структура формализованной информации. Кроме того, здесь есть возможность хранить в одном массиве сведения об объектах различной структуры (что недопустимо в модели Е.Ф. Кодда) и оперативно изменять состав хранимой информации без изменения структуры массивов в целом.При формализованном описании единиц и структур естественных языков применяются различные форматы. Все они по существу являются вариациями предикатно-актантной структуры. В частности, разновидностью такой структуры является фрейм. Автор этого понятия М. Минский так характеризует его [70]: “Фрейм является структурой данных для представления стереотипной ситуации. С каждым фреймом ассоциирована информация разных видов. Одна ее часть указывает, каким образом следует использовать данный фрейм, другая – что предположительно может повлечь его выполнение, третья – что следует предпринять, если эти ожидания не подтвердятся. Фрейм можно представить себе в виде сети, состоящей из узлов и связей между ними”.Разновидностью предикатно-актантной структуры является и структура представления информации, используемая при так называемом компонентном анализе единиц языка и речи. В работе [49] так характеризуется существо такого анализа: “Под компонентным анализом в широком смысле понимается такая последовательность процедур, которая, будучи применена к речевым или языковым объектам, ставит в соответствие каждому такому объекту определенное множество (набор) семантических признаков, или иначе компонентов. Такой набор будем называть компонентным представлением. Если мы имеем дело не с представлением какой-то отдельной единицы, а сочетания единиц, то будем говорить о компонентном комплексе. Все множество простых компонентов, используемое при построении представлений, назовем алфавитом компонентов.”А несколько ранее, на стр. 1 работы [49] автор замечает: “Теория и практика компонентного анализа языковых единиц является одной из важнейших и в то же время дискуссионных областей современной лингвистической семантики. Между многочисленными подходами к этой проблеме наблюдаются порой весьма глубокие различия. Даже название основного понятия данного метода меняется от автора к автору: семантический компонент, дифференциальный элемент, семантический множитель, семантический признак, элементарное значение, атом смысла, сема, фигура плана содержания, основная единица значения, маркер, фактор, смысловая координата. Вот далеко не полный перечень бытующих в лингвистике имен центрального понятия компонентного анализа, не говоря уже о том, что ему может приписываться разный онтологический и гносеологический статус”. На наш взгляд, между различными подходами к проблеме компонентного анализа имеют место не такие уж глубокие различия, как это думает автор, хотя приведенный перечень разных названий одного и того же понятия весьма примечателен.Интересным примером применения идей компонентного анализа единиц языка и речи является попытка российского ученого И.А. Мельчука построить на его основе лингвистическую модель типа “Смысл Текст” [68]. Он сформулировал теоретические предпосылки для построения такого рода моделей и вместе со своими учениками и последователями составил довольно представительный семантический словарь русских слов. В этом словаре каждому слову ставился в соответствие набор семантических признаков, который, по мысли авторов, мог бы использоваться для вычисления “смысла” текстов на основе “смысла” составляющих их слов. На наш взгляд, в полном объеме это осуществить невозможно.Дело в том, что “смысл” словосочетаний и, тем более, “смысл” целых текстов не может быть вычислен на основе смысла составляющих их слов. Происходит это потому, что слова и даже словосочетания сами по себе мало что выражают. Они являются всего лишь стимуляторами, сигналами для запуска сложнейших мыслительных процессов, которые происходят в сознании, подсознании (а, может быть, и в сверхсознании) человека. Поэтому модели типа “Смысл Текст” могут быть дееспособными только в том случае, если удастся моделировать процессы мышления. А это - задача чрезвычайной сложности, и на ее решение в ближайшем будущем трудно рассчитывать. Скорее всего, в ближайшее время будут моделироваться (имитироваться) только некоторые частные функции мышления (что довольно успешно делается уже и в настоящее время).Следует также заметить, что семантические признаки, приписываемые единицам языка и речи в процессе компонентного анализа, далеко не счерпывают их содержания. Ведь в языке “все связано со всем”, и таких признаков у слова или словосочетания, обозначающего наименование понятия, может быть очень много. Если перечень используемых семантических признаков сознательно ограничивается только небольшим набором “базовых” признаков, так сказать, “атомов смысла”, то трудно рассчитывать на построение работоспособных моделей типа “Смысл Текст”.В основе попыток использовать при описании единиц языка и речи какие-то “атомы смысла” или семы лежит представление о естественном языке как о некотором исчислении и надежда, что, опираясь на атомы смысла, можно описывать (“исчислять”) смысловое содержание всех остальных смысловых единиц языка. Но естественный язык – не исчисление, и задача построения модели типа “Смысл Текст” в общей постановке не может быть решена. Сказанное нами вовсе не означает, что построением таких моделей не следует заниматься. Наоборот, их следует строить. Ведь построение подобных систем даже для ограниченных тематических областей позволит не только выяснить многие теоретические вопросы, но может оказаться полезным при разработке прикладных систем автоматической обработки текстовой информации (например, информационно-поисковых систем). Рассматривая формализованные модели структур данных и концепцию банка данных, мы, по существу, рассматривали и логическую структуру формализованных информационных языков. Формализованные языки создаются на базе естественных языков путем наложения ограничений на их лексику и грамматику, а также путем применения специальных обозначений для элементов этих языков. Формализованных информационных языков известно очень много. В конце 60-х годов прошлого столетия их насчитывалось около сотни. Далее их количество увеличивалось. Назовем некоторые из этих языков: Универсальная Десятичная Классификация (УДК), Библиотечно-библиографическая Классификация (ББК), Международная Классификация Изобретений (МКИ), Рубрикатор Государственной Автоматизированной системы Научно-технической Информации (Рубрикатор ГАСНТИ), языки общения с банками данных, различные языки дескрипторного типа, языки стандартных фраз и т. д. и т. п. В этом параграфе мы кратко охарактеризуем только языки классификационного и дескрипторного типов.Языки классификационного типа (классификаторы) являются важным элементом лингвистического обеспечения автоматизированных информационных систем. Они выступают в двоякой роли: с одной стороны они служат для однозначного обозначения объектов и классов объектов (в отличие от имен на естественном языке), с другой стороны - несут информацию о некоторых признаках объектов и классов объектов. В качестве классифицируемых объектов могут выступать как конкретные объекты, так и абстрактные. Классификационные коды обычно оформляются в виде позиционных структур, а для кодирования значений признаков классификации используются цифры и цифро-буквенные обозначения. Мы будем условно считать, что в классификационных кодах используются только цифровые обозначения, так как в памяти ЭВМ и цифровые, и буквенные коды обозначаются комбинациями двоичных знаков. В автоматизированных информационных системах чаще всего применяются иерархическая и фасетная классификации объектов, или их сочетание. В случае иерархической классификации классифицируемое множество объектов последовательно делится на классы, которым присваиваются порядковые номера. При этом на каждом этапе деления и для каждого классифицируемого множества могут применяться свои классификационные признаки и своя независимая нумерация классов. Классификационный код объекта представляет собой сочетание номеров классов, полученных на различных этапах деления. В качестве примера иерархической структуры кода может служить структура, используемая в универсальной десятичной классификации (УДК).В случае фасетной классификации деление исходного множества объектов на классы осуществляется независимо по всем выбранным признакам (фасетам). Для каждого признака в структуре кода отводится строго фиксированный участок, а значения признаков кодируются их порядковыми номерами по соответствующим словарям ( число словарей равно числу признаков классификации).В документальных информационно-поисковых системах широко используются дескрипторные языки. Они применяются в различных вариантах. Наиболее популярным из них является так называемый язык без грамматики. На этом языке каждый документ представляется своим формализованным описанием (поисковым образом), представляющим собой перечень наименований понятий (слов и словосочетаний), характеризующих содержание документа. В период бурного развития формализованных информационно-поисковых языков (60-е и 70-е годы прошлого века) проводилось различие между языками без грамматики и языками с грамматикой, а последние различались между собой по наличию или отсутствию указателей роли и указателей связи. Например, считалось возможным пользоваться такими выражениями как языки с указателями связи, но без указателей роли или языки с указателями роли, но без указателей связи. Вся эта терминология теоретически несостоятельна, так как языков без грамматики не бывает. Не бывает также и языков без указателей роли и без указателей связи.Возьмем, например, упомянутый выше дескрипторный язык “без грамматики”. В этом простейшем дескрипторном языке присутствуют все компоненты предикатно-актантной структуры: и коды понятий, и указатели роли, и указатели связи. Коды понятий представлены их наименованиями. Функциональная роль понятий (быть дескриптором) – позиционными средствами (местом записи наименований понятий) и разделительными знаками. Указатель связи дескрипторов с документом – позиционными средствами (контактным расположением дескрипторов) и разделительными знаками, обозначающими границы поисковых образов документов.В заключение настоящего параграфа мы хотели бы еще раз подчеркнуть, что в основе всех формализованных информационных языков лежит предикатно-актантная структура. Элементы этой структуры в разных языках кодируются по-разному: одни из них – позиционными средствами, другие – с помощью комбинаций символов алфавита. Если дано описание структуры языков, то в принципе возможен автоматический перевод информации с одних языков на другие (ее автоматическое конвертирование). При этом изобразительные средства языка, на который осуществляется перевод, не должны быть беднее, чем изобразительные средства входного языка (в противном случае возможна потеря информации). ^ 9.2. Поиск информации в базах данныхВ главе 1 мы говорили о том, что важной методологической проблемой прикладной компьютерной лингвистики является правильная оценка необходимого соотношения между декларативной и процедурной компонентами систем автоматической обработки текстовой информации: чему отдать предпочтение: мощным вычислительным процедурам, опирающимся на относительно небольшие словарные системы с богатой грамматической и семантической информацией, или мощной декларативной компоненте при относительно простых процедурных средствах. И высказали мнение, что второй путь предпочтительнее. Можно представить себе крайний случай такого предпочтения, когда лингвистическая задача решается путем создания большого словаря и поиска в этом словаре необходимой информации. Однако более реальна ситуация, когда задача решается путем последовательного поиска в небольшом количестве достаточно представительных словарей и выполнения несложных процедур преобразования результатов поиска. Всякий алгоритм реализует определенную функцию, т.е. отображает некоторое множество исходных данных во множество результатов. Такая функция может быть задана в табличном виде, и процесс решения будет сводиться к поиску ее значений по значениям аргументов. Но алгоритм может быть реализован и в виде набора таблиц-функций с регламентированным порядком (программой) обращения к этим таблицам. Именно такой подход используется в современных вычислительных машинах. При этом сравнительно ограниченный набор первичных элементарных функций (микрокоманд) реализуется в виде электрических схем, а все остальные функции генерируются программным путем. В более общей постановке (например, в вычислительной модели А.А. Маркова [64]), работа любого алгоритма может быть сведена к последовательности поисков левых частей подстановок в исходной последовательности символов (в исходном “слове”) и замене найденных левых частей на правые. Таким образом, процедура поиска является одной из центральных процедур в системах автоматической обработки информации. При решении любой задачи требуется выбирать исходные данные из некоторых заранее подготовленных массивов информации и записывать результаты решения в эти или другие массивы. Наиболее рациональным подходом к организации массивов информации при решении вычислительных задач является концепция банков и баз данных, рассмотренная нами в предыдущем параграфе. Проблемы поиска информации в формализованных базах данных заслуживают самого серьезного внимания, но они не имеют непосредственного отношения к тематике нашей книги. Поэтому мы рассмотрим их в самых общих чертах.Поиск информации в базах данных – это процесс отбора из них множества описаний объектов, удовлетворяющих сформулированным в запросе условиям. При этом в качестве результатов поиска могут выдаваться не все признаки объектов, а только часть их – в соответствии с условиями запроса. Объект может выбираться из массива по значению одного идентифицирующего его (ключевого) признака или по сочетанию значений нескольких ключевых признаков. Он может также выбираться по сочетанию любых других (неключевых) признаков, если это сочетание однозначно выделяет его из множества всех объектов массива.Будем различать первичные и производные (в частности, обобщенные) признаки объектов. Первичные признаки назначаются при первоначальном описании объектов, а производные являются функциями первичных. Поиск может вестись как по первичным, так и по производным признакам.Чаще всего в процессе поиска информации выбирается не один объект, а множество объектов. Оно может быть задано различными способами: 1) перечнем значений ключевых признаков или сочетаний ключевых признаков; 2) значением или интервалом (перечнем) значений одного неключевого признака; 3) булевой функцией значений или интервалов (перечней) значений любых признаков объекта (как ключевых, так и неключевых); 4) отношением между признаками, выраженным с помощью арифметических и логических операции (операций типа “И”, “ИЛИ”, “НЕ”), а также отношений =, >, Важной проблемой, возникающей при реализации процедур поиска информации, является проблема отождествления признаков объектов и установления парадигматических отношений между ними (отношений типа род-вид, целое-часть и др.). Общее решение этой проблемы связано с возможностью распознавания смыслового тождества и парадигматичес


Не сдавайте скачаную работу преподавателю!
Данный реферат Вы можете использовать для подготовки курсовых проектов.

Поделись с друзьями, за репост + 100 мильонов к студенческой карме :

Пишем реферат самостоятельно:
! Как писать рефераты
Практические рекомендации по написанию студенческих рефератов.
! План реферата Краткий список разделов, отражающий структура и порядок работы над будующим рефератом.
! Введение реферата Вводная часть работы, в которой отражается цель и обозначается список задач.
! Заключение реферата В заключении подводятся итоги, описывается была ли достигнута поставленная цель, каковы результаты.
! Оформление рефератов Методические рекомендации по грамотному оформлению работы по ГОСТ.

Читайте также:
Виды рефератов Какими бывают рефераты по своему назначению и структуре.

Сейчас смотрят :

Реферат Философская реформация Фрэнсиса Бэкона
Реферат Бухгалтерский учет у организаций, передающей имущество по договору дарения
Реферат Последствия инфляции, влияние инфляции на различные экономически процессы
Реферат How To Grow Venus Fly Traps Essay
Реферат Сталин и власть
Реферат Планирование себестоимости производства продукции 2
Реферат Реализация сельскохозяйственной продукции и финансовые результаты
Реферат Социальная политика комитета членов учредительного собрания (1918 год)
Реферат Детство и общество, Эриксон Эрик
Реферат Производство хлебобулочных изделий на базе мини-пекарни
Реферат Статистико-экономический анализ производства молока
Реферат Какая альтернативная гражданская служба в России будет с 01 01 2004 года
Реферат Кошачья выдра
Реферат Бритва Оккама
Реферат Алтай Экскурсия к петроглифам в долине реки Кучерла