Министерство общего и профессионального образования РФ Ульяновский государственный технический университеткафедра: "Вычислительная техника" дисциплина: "Инженерия знаний"РЕФЕРАТ Тема: "Онтологии управления знаниями"Выполнил: ст. гр. ЭВМмд-52 Долгов А. А.Ульяновск 2001 Введение Всемирная паутина Internet стремительно расширяется и "вплетается" буквально во все сферы жизни. Web становится все более мощным и важным источником информации. Современным средствам обработки данных в сети все труднее и труднее справляться с лавиной информации, уже существующей и добавляемой в сеть ежедневно. Кроме того, данные в Internet организованы крайне стихийно и не систематично. Дезорганизованность крайне затрудняет и запутывает процесс поиска нужной информации. Поэтому нужно научиться использовать структуру информационного пространства Web как можно эффектней.Для выхода на новый уровень в использовании Internet, в первую очередь, необходим переход к семантически значимому представлению информации в сети. Работы, представленные на международных конференциях за последнее время, показывают, что мировое сообщество не только уже осознало необходимость, но и активно включилось в процесс реконструирования Web-пространства в пространство знаний. Анализ как реально действующих в Internet систем, так и исследовательских прототипов, ориентированных на представление информации в виде знаний, позволяет утверждать, что лидирующим направлением для реализации приложений в этой области являются агентные технологии и мультиагентные системы.^ Управление знаниями Для начала рассмотрим что такое управление знаниями, его составные части и методы. УЗ – это установленный формальный порядок работы с информационными ресурсами для облегчения доступа к знаниям и повторного их использования с помощью современных информационных технологий. При этом знания классифицируются и распределяются по категориям в соответствии с предопределенной, но развивающейся онтологией структурированных и полуструктурированных баз данных и баз знаний. Основная цель УЗ– сделать знания доступными и повторно используемыми.Для применения систем УЗ используются разнообразные технологии: базы и хранилища данных, системы групповой поддержки, браузеры и системы поиска, корпоративные сети и Internet, экспертные системы и системы баз знаний, интеллектуальные системы.В системах искусственного интеллекта базы знаний генерируются для экспертов и систем, основанных на знаниях, в которых компьютеры используют правила вывода для получения ответов на вопросы пользователя. Хотя приобретение знаний для получения компьютерных заключений все еще остается важным вопросом, большинство современных разработок УЗ обеспечивают знания в удобной для восприятия форме, или поставляют ПО для обработки этих знаний.^ Хранилища данных Во многих компаниях одним из первых инструментариев УЗ были хранилища данных, которые работают по принципу центрального склада. Хранилища данных отличаются от традиционных БД тем, что они проектируются для поддержки процессов принятия решений, а не просто для эффективного сбора и обработки данных. Как правило хранилище содержит многолетние версии обычной БД, физически размещаемые в той же самой базе. Данные в хранилище не обновляются на основании отдельных запросов пользователей. Вместо этого вся база данных периодически обновляется целиком.Хранилища данных могут быть очень внушительных размеров. Например, компания MasterCard OnLine имеет хранилище объемом 1,2 Тбайт1. Когда все данные содержаться в едином хранилище, изучение связей между отдельными элементами данных может быть более плодотворным, а результатом анализа становятся новые знания.^ Хранилища знаний Если хранилища данных содержат в основном количественные данные, то хранилища знаний ориентированы в большей степени на качественные данные. УЗ-системы генерируют знания из широкого диапазона баз данных, хранилищ данных, рабочих процессов, статей новостей, внешних баз, Web-страниц. Таким образом, хранилища знаний подобны виртуальным складам, где знания распределены по большому количеству серверов.^ Базы данных и базы знаний Знания можно извлекать из рабочих процессов, обзоров новостей и широкого диапазона других источников. Знания, приходящие из рабочих процессов, базируются на рабочих материалах, предложениях и т. п.Базы данных для обучения. Обучающие БД могут использоваться для поддержки операций или генерации информации о бизнесе в целом. Например, компания Ford Motor имеет специальные файлы TGRW (things gone right/wrong – события, которые могут происходить правильно или неправильно) , в которых собирается информация о действиях, облегчающих выполнение задачи и о разного рода препятствиях. Обычно первый тип знаний бывает легче собрать хотя бы из-за того что, если знания архивируются, то мало кто из служащих захочет, чтобы его имя было связано с возникающими в корпорации проблемами.2Базы знаний оптимальных решений. Обычно подобные знания накапливаются в процессе использования различных тестов при поиске эффективных путей решения задач. После того как организация получила знания о наилучшем решении, доступ к ним может быть открыт для сотрудников корпорации. Например, компания Huges Electronics, входящая в состав General Motors, ведет базу данных лучших проектов реконструкции предприятий. Когда подобная информация доступна в простой базе данных, можно надеяться, что она будет востребована кем-то еще в организации. ^ Разведка знаний Разведка знаний представляет собой новое и быстро развивающееся направление, использующее методы искусственного интеллекта, математики и статистики для «выуживания» знаний из хранилищ данных. Этот метод включает инструментарий и различные подходы к анализу как текста, так и цифровых данных. Например, система Odie (On demand Information Extractor) каждую ночь сканирует около 1000 статей с последними новостями для извлечения знаний об изменениях в управлении. Odie, разработанная для американских и европейских обозревателей новостей, использует распознавание стилизованных фраз в статьях деловых новостей и знания о синтаксических правилах для распознавания соответствующих событий в сфере бизнеса.^ Представление знаний Системы УЗ представляют знания как в форме, удобной для нашего восприятия, так и в машиночитаемом виде. В первом случае доступ к знаниям можно получить используя браузеры и системы интеллектуального поиска. Но иногда знания, доступные в машиночитаемой форме, могут быть спроектированы как базы знаний экспертных систем для поддержки принятия решений.В представлении знаний для восприятия человеком используется широкий диапазон подходов, и способ представления знаний во многом зависит от ситуации. Например, УЗ-система для обслуживания клиентов в области модемной связи собирает данные об определенных модемах (технические спецификации, данные, картинки и т. д.) и обобщает их в базе знаний. Если у клиента возникает вопрос или желание посмотреть, как выглядит конкретный модем, все необходимое можно найти в базе знаний. Поскольку отдел поддержки клиентов ведет учет возникающих затруднений, то все случаи обращения пользователей индексируются по клиентам, модемам и типам проблем. Соответственно, если кто-то уже сталкивался с подобной проблемой, то ее решение можно обнаружить в базе данных.В других случаях, когда информация имеет декларативный характер (факт или утверждения), текст или правила могут использоваться для представления информации и знаний. Например, руководства, информационные бюллетени или другие подобные типы знаний обычно выглядят как документы, списки или правила.Используя машиночитаемые знания, экспертные системы «подводят» пользователя к рекомендованным решениям. Экспертные системы могут быть интегрированной частью УЗ-систем. Хотя последние иногда содержат элементы искусственного интеллекта, эти элементы используются только для поиска знаний, представленных в форме, удобной для восприятия человеком. Необходимы исследования для расширения сферы использования искусственного интеллекта и базирующихся на знаниях систем в УЗ. Нам нужно узнать, какие формы представления знаний лучше подходят для конкретных типов знаний и как искусственный интеллект может быть в дальнейшем интегрирован в УЗ-системы.Онтологии Онтология – это точное описание концептуализации. В УЗ-системах корпорации онтологические спецификации могут ссылаться на таксономию задач, которые определяют знание для системы (Таксономия – теория классификации и систематизации сложноорганизованных областей деятельности, обычно имеющих иерархическое строение.). Онтология определяет словарь, совместно используемый в УЗ-системе для упрощения коммуникации, общения, запоминания и представления. Разработка и поддержка онтологии в масштабе целого предприятия требует постоянных усилий для ее развития. Онтология, в частности, необходима для того, чтобы пользователь мог работать с базами данных оптимальных решений, относящихся к широкому кругу проблем предприятия и легко распознавать, какое решение может ему подойти в конкретной ситуации.Более подробно онтология будет рассмотрена в следующем разделе.^ Средства интеллектуального поиска С помощью средств интеллектуального поиска мы находим нужные данные в информационном наполнении Internet или корпоративных сетей. Например, InfoFinder изучает интересы пользователей по наборам классифицированных ими сообщений или документов. Кроме того, InfoFinder использует эвристические методы для сбора дополнительных, более точных сведений. Базируясь на синтаксисе сообщений, InfoFinder пытается определить ключевые фразы, которые помогают понять задачу пользователя. Например, один из эвристических подходов предполагает извлечение любых слов, целиком состоящих из заглавных букв, таких как ISDN, так как это, вероятно, соответствует представлению аббревиатур или технических имен. Другой эвристический метод заключается в том, чтобы не обращать при этом внимания на слова, если они используются для усиления, например «NOT». Еще один способ – включение перечислений, нумерованных списков, секций заголовков и описаний диаграмм. Все это позволяет InfoFinder находить документы, предугадывая запросы пользователя.Онтологии На сегодняшний день существует несколько подходов к «превращению» данных в знания в Internet. Машины поиска и извлечения информации, такие как "Yahoo!", "Lycos", "Infoseek", используют механизм поиска по ключевым словам и не учитывают контекст, в котором существует информация, поэтому результатом работы таких систем могут быть сотни тысяч ссылок. Современные версии поисковых систем ("Metacrawler", "WebSeek" и.т.п.) адресуют запрос пользователя сразу к множеству машин поиска, и составляют индексные мета-каталоги и базы данных. Но так как они остаются в рамках поиска, основанного на ключевых словах, то полученные индексы связывают информацию с терминами, учитывая только актуальный для данного запроса лексический или синтаксический контекст.Другой подход к решению проблемы интеллектуализации Internet заключается в дополнении специальными семантическими тэгами стандартного HTML для того, чтобы "внести знания" прямо в страницы. Такие модифицированные HTML-документы несут информацию о взаимосвязях понятий и их семантических атрибутах в HTML-подобном формате, то есть не требуют внутреннего языка представления знаний.Идея создания расширенного HTML нашла воплощение в таком стандарте, как язык XML (Extensible Markup Language). XML - язык для разметки синтаксической структуры документов, позволяющий благодаря спецификации синтаксиса, использовать такие документы множеству агентов, для которых данный формат является общим. В работах [Dobson S.A., Burrill V.A. 1995] и [Loke S.W, Davison A., Sterling L., 1996] также предлагается расширить HTML с целью получения семантических индексов к информации, организованной в виде так называемых Lightweight Deductive Databases, где связи между отдельными страницами определяются гипертекстовыми ссылками с атрибутами. Дедуктивные базы данных являются расширением реляционных за счет применения правил логического программирования для более сложного представления данных.Sandewall [Sandwall, 1996] предлагает создать Всемирную базу данных (WorldWide Data Base), состоящую из файлов, которые содержат полученные из Интернет небольшие фрагменты документов с описанием содержащихся в них понятий в виде объектов. Объекты представляются на специальном языке и могут включать ссылки на другие объекты, HTML-документы в Интернет или файлы из самой базы данных.В последнее время серьезное развитие получила другая парадигма, с точки зрения которой Web рассматривается как потенциальная база знаний. Для работы со знаниями в сети нужны специальные методы представления и обработки знаний, интерпретации запросов и т.д. Задача здесь прежде всего в том, чтобы адаптировать методы и средства, разработанные в ИИ для систем, основанных на знаниях, в новую проблемную область. В рамках такого подхода сейчас внимание различных исследователей привлекают онтологии как средство построения распределенных и неоднородных систем баз знаний в Интернет. Адекватным средством реализации таких систем являются агентные технологии и мультиагентные системы. Онтология - это определение на формальном языке некоторой темы, которое включает словарь (или список констант) для отсылки к терминам предметной области, ограничения целостности на термины, логические утверждения, которые ограничивают интерпретацию терминов и то, как они соотносятся друг с другом.Онтологии включают абстрактное описание как очень общих, так и специфичных для конкретной предметной области терминов. Вопрос о корректном способе анализа знаний с целью определения терминов остается пока открытым и его обсуждению посвящено множество работ [Chandrasekaran B.,. Josephson J. R,. Benjamins V. R, 1998]. Одной из сильных сторон онтологий являются их потенциальные свойства для решения таких важных задач как разделение знаний и их повторное использование. Это заключение основывается на предположении о том, что если общая схема (представления и использования знаний), - то есть онтология, -явно определена для работающих с ней агентов как общий ресурс, то этот ресурс возможно разделять между агентами и многократно использовать. ^ Модели онтологии Понятие онтологии предполагает определение и использование взаимосвязанной и взаимозависимой совокупности трех компонент: O=, гдеХ – конечное и непустое множество концептов (понятий, терминов) предметной области, которую представляет онтология О;К – конечное множество отношения между концептами заданной предметной области;Ф – конечное множество функций интерпретации (аксиоматизация), заданных на концептах и/или отношениях онтологии О.Рассмотрим случаи, связанные с пустотой К и Ф.Пусть К= и Ф=. Тогда онтология трансформируется в простой словарь: O=.Онтологии-словари имеют ограниченное использование, поскольку не вводят эксплицитно смысла терминов. Хотя в некоторых случаях, когда используемые термины принадлежа очень узкому словарю и их смыслы уже заранее хорошо согласованы в пределах определенного сообщества, такие онтологии применяются на практике. Именно такие онтологии сейчас широко применяются – это индексы машин поиска информации в сети Internet.Иная ситуация в случае использования терминов обычного естественного языка или в тех случаях, когда общаются программные агенты. В этом случае необходимо характеризовать предполагаемый смысл элементов словаря с помощью подходящей аксиоматизации, цель использования которой – в исключении нежелательных моделей и в том, чтобы интерпретация была единой для всех участников общения.Другой вариант соответствует случаю К= , но Ф. Тогда каждому элементу множества терминов Х может быть поставлена в соответствме функция интерпретации f из Ф. Формально это утверждение может быть записано следующим образом:Пусть X=X1X2,Причем X1X2=,Где X1 – множество интерпретируемых терминов;X2 – множество интерпретирующих терминов.Тогда (хХ1, у1,у2, … уk Х2),Такие, что Х=f(у1,у2, … уk),Где fФ.Пустота пересечения множеств X1 и X2 исключает циклические интерпретации, а введение в рассмотрение функции k аргументов призвано обеспечить более полную интерпретацию. Вид отображения f из Ф определяет выразительную мощность и практическую полезность этого вида онтологии. Так, если предположить, что функция интерпретации задается оператором присваивания значений (X1:=X2), то онтология трансформируется в пассивный словарь: О=.Такой словарь пассивен, так как все определения терминов из X1 берутся из уже существующего фиксированного множества X2. Практическая ценность его выше, чем простого словаря, но явно недостаточна, например, для представления знаний в задачах обработки информации в Internet в силу динамического характера этой среды.Для того, чтобы учесть последнее обстоятельство, предположим, что часть интерпретирующих терминов из множества X2 задается процедурно, а не декларативно. Смысл таких терминов «вычисляется» каждый раз при их интерпретации.Ценность такого словаря для задач обработки информации в среде Internet выше, чем у предыдущей модели, но все еще недостаточна, так как интерпретируемые элементы X1 никак не связаны между собой и, следовательно, играют роль ключей входа в онтологию.Для представления модели, которая нужна для решения задач обработки информации в Internet, очевидно, требуется отказаться от предположения К=.Далее можно обобщить частные случаи модели онтологии таким образом, чтобы обеспечить возможность: представления множества концептов в виде сетевой структуры; использования достаточно богатого множества К, включающего не только таксономические отношения, но и отношения, отражающие специфику конкретной предметной области, а также средства расширения множества К; использования декларативных и процедурных интерпретаций и отношений, включая возможность определения новых интерпретаций.Тогда можно ввести в рассмотрение модель расширяемой онтологии. Модель расширяемой онтологии является достаточно мощной для спецификации процессов формирования пространств знаний в Internet. Вместе с тем, и эта модель является неполной в силу своей пассивности даже там, где определены соответствующие процедурные интерпретации и введены специальные функции пополнения онтологии.Введем в рассмотрение понятие онтологической системы. Под формальной моделью онтологической системы о будем понимать триплет вида: о=meta, {Odt}, inf>Ometa – онтология верхнего уровня (метаонтология);{Odt} – множество предметных онтологий и задач предметной области;inf – модель машины вывода, ассоциированной с онтологической системой о. Использование системы онтологий и специальной машины вывода позволяет решать в такой модели различные задачи. Расширяя систему моделей {Odt}, можно учитывать предпочтения пользователя, а изменяя модель машины вывода, вводить специализированные критерии релевантность получаемой в процессе поиска информации и формировать специальные репозитарии накопленных данных, а также пополнять при необходимости используемые онтологии. В модели о имеются три онтологические компоненты: метаонтология; предметная онтология; онтология задач.Как указывалось выше, метаонтология оперирует общими концептами и отношениями, которые не зависят от конкретной предметной области. Концептами метауровня являются общие понятия. Тогда на уровне метаонтологии мы получаем интенсиональное описание свойств предметной онтологии и онтологии задач. Онтология метауровня является статической, что дает возможность обеспечить здесь эффективный вывод. Предметная онтология содержит прнятия, описывающие конкретную предметную область, отношения, семантически значимые для данной предметной области, и множество интерпретаций этих понятий и отношений (декларативных и процедурных). Понятия предметной области специфичны в каждой прикладной онтологии, но отношения – более универсальны. Поэтому в качестве базиса обычно выделяют такие отношения модели предметной онтологии, как part_of, kind_of, contained_in, member_of, see_also и некоторые другие. Онтология задач в качестве понятий содержит типы решаемых задач, а отношения этой онтологии, как правило, специфицируют декомпозицию задач на подзадачи. Машина вывода онтологической системы в общем случае может опираться на сетевое представление онтологий всех уровней. При этом ее функционирование будет связано: с активацией понятий и/или отношений, фиксирующих решаемую задачу (описание исходной ситуации); определением целевого состояния(ситуации); выводом на сети, заключающемся в том, что от узлов исходной ситуации распространяются волны активации, использующие свойства отношений, с ними связанных. Критерием остановки процесса является достижение целевой ситуации или превышение длительности исполнения.^ Примеры онтологий В настоящее время исследования в области онтологий и онтологических систем являются «горячими точками» не только в искусственном интеллекте, но и в работах по интеллектуализации информационного поиска, в первую очередь, в среде Internet; в работах по мультиагентным системам; в проектах по автоматическому «извлечению» знаний из текстов на естественном языке. Сегодня перечень проектов, которые в той или иной степени связаны с онтологиями на Web, поэтому здесь остановимся только на некоторых из них. Проект CYC® создания мульти-контекстной базы знаний и машины вывода, разрабатываемой Cycorp. Основная цель этого гигантского проекта – построить базу знаний всех общих понятий (начиная с таких, как время, сущность и т. д.), включающую семантическую структуру терминов, связей между ними, правил, которая будет доступна разнообразным программным средствам и будет играть роль базы «начальных знаний». В рамках проекта (KA)2 (Knowledge Acquisition Initiative) по организации интеллектуального доступа к документам онтология является основой для аннотации WWW - документов. (KA)2 - это открытая инициатива, в рамках которой участники включаются в процесс создания распределенной онтологии и модели извлечения знаний (онтологии предметной области). Одной из целей (KA)2 является трансформация из представления WWW (как базы знаний) в систему, основанную на знаниях. Проект SHOE ориентирован на решение проблемы добавления к Web-страницам семантической информации и соотнесения ее с онтологиями соответствующих предметных областей. Предполагается, что, используя эту информацию, поисковые системы смогут обеспечивать более релевантные ответы на запросы, чем это возможно сейчас на базе использования машин поиска, функционирующих в Internet. В SHOE "владельцы" информации могут сами аннотировать свои документы и расширять конкретную онтологию новыми понятиями. В этой системе центральный администратор онтологий не определен. Как следствие, давая запрос, пользователь может не знать все термины, которые используются для аннотации HTML-документов. Поэтому ответ на запрос может не содержать важную для пользователя информацию. В проекте Ontobroker предлагается организация онтологии с автоматической аннотацией WWW-документов семантической информацией. Основная идея данного проекта - это использование метафоры группы по интересам (newsgroup), чтобы определить группу людей, у которых общий взгляд на понятия и их место в общей онтологии. В отличие от SHOE, в Ontobroker имеется администратор онтологий и клиенты могут узнать все термины онтологий. В SHOE используется дескриптивная логика как базисный формализм для вывода, а Ontobroker использует логику, основанную на фреймах и поддерживает довольно сложный механизм вывода ответа на запрос. Созданный в рамках этого проекта специальный поисковый механизм Ontocrawler поддерживает полную коллекцию всех аннотированных с помощью Ontobroker HTML-страниц. Как отмечалось выше, в последние несколько лет резко усилился интерес к разработке интеллектуальных поисковых механизмов. Альянс свойств онтологий и систем, основанных на знаниях, в сочетании с текущей задачей интеллектуализации информационного поиска определили привлекательность идеи их использования в этом направлении. Таким образом, в настоящее время методы искусственного интеллекта определяющим образом влияют на развитие средств автоматического извлечения и анализа информации в сети Inernet и рассматриваются как катализатор для возникновения следующего этапа развития поисковых средств. Заключение Попытки структурировать Web предпринимаются постоянно. Онтологии это еще одна попытка решить проблему информационного переполнения в сети. Основные задачи, которые могут успешно решаться (и решаются) на базе онтологий, включают предоставление знаний для вывода информации, которая релевантна запросу пользователя; фильтрация и классификация информации; индексирование собранной информации; организация общей терминологии, которой могут пользоваться для коммуникации программные агенты и пользователи. До сих пор возможности логического вывода в Интернет практически не применялись. С "приходом" баз знаний и систем, основанных на знаниях, в Web появляются новые перспективы в освоении сетевого пространства.Конечно, существует ряд спорных моментов и проблем которые еще предстоит решить. Литература Гаврилова Т. А., Хорошевский В. Ф. Базы знаний интеллектуальных систем – СПб: Питер, 2000. Майкевич Н. В.От информационного пространства к пространству знаний. Онтологии в Интернет. (http://dll.botik.ru/nut/CAI98.html) Исследовательский центр искусственного интеллекта,Институт программных систем Российской Академии Наук Переславль-Залесский. Нариньяни А С. Кентавр по имени ТЕОН: Тезаурус + Онтология. (http://www.artint.ru/art/narin/teon.htm) Российский НИИ искусственного интеллекта, Москва. О’Лири Дэниэл Е. Управление корпоративными знаниями. (http://opensystems.ru/os/1998/04/07.htm) Университет Южной Калифорнии, Лос-Анжелес.http://ontology.buffalo.edu/Оглавление Введение 2Управление знаниями 3 Хранилища данных 3 Хранилища знаний 4 Базы данных и базы знаний 4 Разведка знаний 5 Представление знаний 6 Онтологии 7 Средства интеллектуального поиска 8Онтологии 9 Модели онтологии 11Примеры онтологий 16Заключение 18Литература 19 1.Гаврилова Т. А., Хорошевский В. Ф. Базы знаний интеллектуальных систем – СПб: Питер, 2000. 19 2.Майкевич Н. В.От информационного пространства к пространству знаний. Онтологии в Интернет. (http://dll.botik.ru/nut/CAI98.html) 19Оглавление 20 1 Управление корпоративными знаниями Дэниэл Е. О’Лири. 2 Управление корпоративными знаниями Дэниэл Е. О’Лири.