Реферат по предмету "Программирование"


Трансформация XML документов

Министерство образования Российской Федерации Саратовский государственный университет Имени Н.Г. Чернышевского Кафедра мат моделирования процессов и систем управления Трансформация XML документов Наименование курсовой работы прописными буквами КУРСОВАЯ РАБОТА Студента 4 курса механико-математического факультета Фроолова Николая Васильевича Фамилия, имя отчество

Научный руководитель Доцент, к.ф.м.н. Ковалев А.Д. Должность, уч степень подпись, дата инициалы, фамилия Зав. Кафедрой Доцент, к.ф.м.н. Мозжилкин В.В. подпись, дата САРАТОВ 2003 Саратовский государственный университет Имени Н.Г. Чернышевского УТВЕРЖДЕНО На заседании кафедры мат моделирования процессов и систем управления

протокол от г ЗАДАНИЕ НА КУСОВУЮ РАБОТУ По специальности 010200 Шифр ТемаТрансформация XML документов Наименование курсовой работы прописными буквами Студента 4 курса механико-математического факультета Фроолова Николая Васильевича Фамилия, имя отчество Перечень вопросов, подлежащих разработке в курсовой работе 1.

Моделирование XML-документов 2. Структура XML-документа 3. Documents Type Definitions DTD 4. Схемы данных Дата выдачи Число, месяц Срок выполнения Число, месяц Преподаватель Доцент, к.ф.м.н. Ковалев А.Д. Должность, уч степень подпись, дата инициалы, фамилия Содержание 1. Введение 2. Структура XML-документа 3.

Моделирование XML-документов 4. Documents Type Definitions DTD 5. Схемы данных 6. Иллюстрационный пример 1. Введение. За недолгое время своего официального существования язык XML привлек к себе уже достаточно много внимания со стороны разработчиков и пользователей Интернет. Сегодня количество приверженцев этой новой технологии возрастает очень стремительно.

Несмотря на то, что XML очень молод международная организация W3C утвердила спецификацию Extensible Markup LanguageXML 1.0 в начале февраля 1998 г и отдельные компоненты этого языка находятся еще в стадии доработки, уже сегодня появляются новые языки, созданные на основе XML, возникают многочисленные Web-сервера, использующие эту технологию для организации хранящейся на них информации. Когда осенью 1991 года Интернет впервые услышал о новой технологии, под названием

WWW, почти никто не мог представить себе, что завоевания ее окажутся настолько глобальными. Сегодня для многих пользователей слово Интернет прочно ассоциируется с WWW и с уст специалистов не сходит тема будущего информационных систем и влияния на это будущее всемирной сетевой паутины. Популярность World Wide Web и неотъемлемой ее части, HTML, безусловно, стала причиной повышенного внимания к системам гипертекстовой разметки документов.

Хотя понятие гипертекста было введено В.Бушем еще в 1945 году и, начиная с 60-х годов стали появляться первые приложения, использующие гипертекстовые данные, всплеск активности вокруг этой технологии начался лишь тогда, когда возникла реальная необходимость в механизме объединения множества информационных ресурсов, обеспечения возможности создания, просмотра нелинейного текста. И примером реализации этого механизма послужила паутина

WWW. Язык разметки документов - это набор специальных инструкций, называемых тэгами, предназначенных для формирования в документах какой-либо структуры и определения отношений между различными элементами этой структуры. Тэги языка, или, как их иногда называют, управляющие дескрипторы, в таких документах выделяются относительно основного содержимого документа и служат в качестве инструкций для программы, производящей показ содержимого документа на стороне клиента.

В самых первых системах для обозначения этих команд использовались символы и , внутри которых помещались названия инструкций и их параметры. Сейчас такой способ обозначения тэгов является стандартным. Использование гипертекстовой разбивки текстового документа в современных информационных системах во многом связано с тем, что гипертекст позволяет создавать механизм нелинейного просмотра информации. В таких системах данные представляются не в виде непрерывного потока текстовой информации, а набором

взаимосвязанных компонентов, переход по которым осуществляется при помощи гиперссылок. Самый популярный на сегодняшний день язык гипертекстовой разметки HTML, был создан специально для организации информации, распределенной в сети Интернет, и является одной из ключевых составляющих технологии WWW. С использованием гипертекстовой модели документа способ представления разнообразных информационных

ресурсов в сети стал более упорядочен, а пользователи получили удобный механизм поиска и просмотра нужной информации. HTML является упрощенной версией стандартного общего языка разметки - SGML Standart Generalised Markup Language, который был утвержден ISO в качестве стандарта еще в 80-х годах. Этот язык предназначен для создания других языков разметки, он определяет допустимый набор тэгов, их атрибуты и внутреннюю структуру документа.

Контроль над правильностью использования дескрипторов осуществляется при помощи специального набора правил, называемых DTD-описаниями, которые используются программой клиента при разборе документа. Для каждого класса документов определяется свой набор правил, описывающих грамматику соответствующего языка разметки. С помощью SGML можно описывать структурированные данные, организовывать информацию, содержащуюся в документах, представлять эту информацию в некотором стандартизованном формате.

Но в виду некоторой своей сложности, SGML использовался, в основном, для описания синтаксиса других языковнаиболее известным из которых является HTML, и немногие приложения работали с SGML- документами напрямую. Гораздо более простой и удобный, чем SGML, язык HTML позволяет определять оформление элементов документа и имеет некий ограниченный набор инструкций - тэгов, при помощи которых осуществляется процесс разметки.

Инструкции HTML, в первую очередь, предназначены для управления процессом вывода содержимого документа на экране программы-клиента и определяют этим самым способ представления документа, но не его структуру. В качестве элемента гипертекстовой базы данных, описываемой HTML, используется текстовый файл, который может легко передаваться по сети с использованием протокола HTTP. Эта особенность, а также то, что HTML является открытым стандартом и огромное количество пользователей

имеет возможность применять возможности этого языка для оформления своих документов, безусловно, повлияли на рост популярности HTML и сделали его сегодня главным механизмом представления информации в Web. Однако современные приложения нуждаются не только в языке представления данных на экране клиента, но и в механизме, позволяющем определять структуру документа, описывать содержащиеся в нем элементы. HTML обладает несложным набором команд и вполне успешно справляется с задачей описания текстовой информации

и отображением ее на экране программы просмотра - браузера. Однако сами отображаемые данные никак не связаны с теми тэгами, которые используются для форматирования, поэтому у программ-анализаторов нет возможности использовать тэги HTML для поиска нужных нам фрагментов документа. Т.е. встретив, например, такое описание font colorred rose font программа просмотра будет знать, каким цветом отобразить текст, содержащийся внутри тэгов

font font и, вероятно, отобразит его правильно, но ей абсолютно безразлично, в каком месте документа встретился этот тэг, в какие другие тэги заключен текущий фрагмент, существуют ли вложенные в него фрагменты, правильно ли построены отношения между объектами. Такое безразличие к структуре документа приводит к тому, что поиск или анализ информации внутри него ничем не будет отличаться от работы со сплошным, не разбитым на элементы текстовым файлом.

А это, как известно, не самый эффективный способ работы с информацией. Другим существенным недостатком HTML можно назвать ограниченность набора его тэгов. DTD-правила для HTML определяют фиксированный набор дескрипторов и поэтому у разработчика нет возможности вводить собственные, специальные тэги. Хотя время от времени появляются новые расширения языка, но долгий путь их стандартизации, сопровождаемый постоянными разногласиями между основными производителями браузеров

делают практически невозможной быструю адаптацию языка, его использование для отображения специализированной информациинапример, мультимедийной, математических, химических формул и т.д Подводя итог всему сказанному, можно утверждать, что HTML уже сегодня не удовлетворяет в полной мере требованиям, предъявляемым современными разработчиками к языкам подобного рода. И ему на смену был предложен новый язык гипертекстовой разметки, мощный, гибкий,

и, одновременно с этим, удобный язык XML. XML Extensible Markup Language - это язык разметки, описывающий целый класс объектов данных, называемых XML-документами. Этот язык используется в качестве средства для описания грамматики других языков и контроля над правильностью составления документов. Т.е. сам по себе XML не содержит никаких тэгов, предназначенных для разметки, он просто определяет порядок

их создания. Таким образом, если, например, мы считаем, что для обозначения элемента rose в документе необходимо использовать тэг flower то XML позволяет свободно использовать определяемый нами тэг и мы можем включать в документ фрагменты, подобные следующему flower rose flower Набор тэгов может быть легко расширен. Если, предположим, мы хотим также указать, что описание цветка должно по смыслу идти внутри описания оранжереи, в которой он цветет, то просто задаем новые тэги и

выбираем порядок их следования conservatory flower rose flower conservatory Процесс создания XML документа очень прост и требует лишь базовых знаний HTML и понимания тех задач, которые необходимо выполнить, используя XML в качестве языка разметки. Таким образом, у разработчиков появляется уникальная возможность определять собственные команды, позволяющие им наиболее эффективно определять данные, содержащиеся в документе.

Автор документа создает его структуру, строит необходимые связи между элементами, используя те команды, которые удовлетворяют его требованиям, и добивается такого типа разметки, которое необходимо ему для выполнения операций просмотра, поиска, анализа документа. Еще одним из очевидных достоинств XML является возможность использования его в качестве универсального языка запросов к хранилищам информации. Сегодня в W3C находится на рассмотрении рабочий вариант стандарта

XML-QLили XQL, который, возможно, в будущем составит серьезную конкуренцию SQL. Кроме того, XML-документы могут выступать в качестве уникального способа хранения данных, который включает в себя одновременно средства для разбора информации и представления ее на стороне клиента. В этой области одним из перспективных направлений является интеграция Java и XML - технологий, позволяющая использовать мощь обеих технологий при построении машинно-независимых

приложений, использующих, кроме того, универсальный формат данных при обмене информации. XML позволяет также осуществлять контроль над корректностью данных, хранящихся в документах, производить проверки иерархических соотношений внутри документа и устанавливать единый стандарт на структуру документов, содержимым которых могут быть самые различные данные. Это означает, что его можно использовать при построении сложных информационных систем, в которых очень

важным является вопрос обмена информацией между различными приложениями, работающими в одной системе. Создавая структуру механизма обмена информации в самом начале работы над проектом, менеджер может избавить себя в будущем от многих проблем, связанных с несовместимостью используемых различными компонентами системы форматов данных. Также одним из достоинств XML является то, что программы-обработчики XML-документов не сложны и уже сегодня появились и свободно

распространяются всевозможные программные продукты, предназначенные для работы с XML-документами. XML поддерживается в IE5. Было заявлено о его поддержке в последующих версиях Netscape Communicator, СУБД Oracle, DB-2, в приложениях MS-Office. Все это дает основания предполагать, что, скорее всего, в ближайшем будущем XML станет основным языком обмена информации для информационных систем, заменив собой, тем самым,

HTML. На основе XML уже сегодня созданы такие известные специализированные языки разметки, как SMIL, CDF, MathML, XSL, и список рабочих проектов новых языков, находящихся на рассмотрении W3C, постоянно пополняется. 2. Структура XML-документа Хотя XML, сильно отличается по своим возможностям и предназначению от языка гипертекстовой разметки, оба эти языка являются подмножествами SGML, и, следовательно, наследуют его базовые принципы.

Простейший XML-документ может выглядеть так xml version1.0 listofitems item id1 first Первый item item id2 Второй subitem подпункт 1 subitem item item id3 Третий item item id4 last Последний item listofitems Этот документ очень похож на обычную HTML-страницу. Так же, как и в HTML, инструкции, заключенные в угловые скобки называются тэгами и служат для разметки

основного текста документа. В XML существуют открывающие, закрывающие и пустые тэги в HTML понятие пустого тэга тоже существует, но специального его обозначения не требуется. Тело документа XML состоит из элементов разметкиmarkup и непосредственно содержимого документа - данныхcontent. XML - тэги предназначены для определения элементов документа, их атрибутов и других конструкций языка. Любой XML-документ должен всегда начинаться с инструкции xml , внутри которой также можно задавать

номер версии языка, номер кодовой страницы и другие параметры, необходимые программе-анализатору в процессе разбора документа. В общем случае XML-документы должны удовлетворять следующим требованиям В заголовке документа помещается объявление XML, в котором указывается язык разметки документа, номер его версии и дополнительная информация Каждый открывающий тэг, определяющий некоторую область данных в документе обязательно должен иметь закрывающий тэг

В XML учитывается регистр символов Все значения атрибутов, используемых в определении тэгов, должны быть заключены в кавычки Вложенность тэгов в XML строго контролируется, поэтому необходимо следить за порядком следования открывающих и закрывающих тэгов Вся информация, располагающаяся между начальным и конечными тэгами, рассматривается в XML как данные, и поэтому учитываются все символы форматирования т.е. пробелы, переводы строк, табуляции

не игнорируются, как в HTML. Если XML-документ не нарушает приведенные правила, то он называется формально-правильным и все анализаторы, предназначенные для разбора XML- документов, смогут работать с ним корректно. Однако кроме проверки на формальное соответствие грамматике языка, в документе могут присутствовать средства контроля над содержанием документа, за соблюдением правил, определяющих необходимые соотношений между элементами и формирующих структуру документа.

Для того, чтобы обеспечить проверку корректности XML- документов, необходимо использовать анализаторы, производящие такую проверку и называемые верифицирующими. На сегодняшний день существует два способа контроля правильности XML-документа DTD - определенияDocument Type Definition и схемы данныхSemantic Schema. В отличии от SGML, определение DTD-правил в

XML не является необходимостью. Конструкции языка Содержимое XML-документа представляет собой набор элементов, секций CDATA, директив анализатора, комментариев, спецсимволов, текстовых данных. Элементы данных Элемент - это структурная единица XML-документа. Заключая слово rose в в тэги flower flower , мы определяем непустой элемент, называемый

flower , содержимым которого является rose. В общем случае в качестве содержимого элементов могут выступать как просто какой-то текст, так и другие, вложенные, элементы документа, секции CDATA, инструкции по обработке, комментарии т.е. практически любые части XML-документа. Любой непустой элемент должен состоять из начального, конечного тэгов и данных, между ними заключенных. Например, следующие фрагменты будут являться элементами flower rose flower city

Saratov city Набором всех элементов, содержащихся в документе, задается его структура, и определяются все иерархическое соотношения. Плоская модель данных превращается с использованием элементов в сложную иерархическую систему с множеством возможных связей между элементами. Производя в последствии поиск в этом документе, программа клиента будет опираться на информацию, заложенную в его структуру - используя элементы документа. Поиск при этом, естественно, будет гораздо более эффективен,

чем нахождение нужной последовательности по всему документу. В XML документе, как правило, определяется хотя бы один элемент, называемый корневым и с него программы-анализаторы начинают просмотр документа. В некоторых случаях тэги могут изменять и уточнять семантику тех или иных фрагментов документа, по разному определяя одну и ту же информацию и тем самым предоставляя приложению-анализатору этого документа сведения о контексте использования описываемых данных.

Например, прочитав фрагмент city Holliwood city мы можем догадаться, что речь в этой части документа идет о городе, а вот во фрагменте restaurant Holliwood restaurant - о забегаловке. В случае, если элемент не имеет содержимого, т.е. нет данных, которые он должен определять, он называется пустым. Примером пустых элементов в HTML могут служить такие тэги HTML, как br , hr , img . Комментарии Комментариями является любая область данных, заключенная между

последовательностями символов и Комментарии пропускаются анализатором и поэтому при разборе структуры документа в качестве значащей информации не рассматриваются. Атрибуты Если при определении элементов необходимо задать какие-либо параметры, уточняющие его характеристики, то имеется возможность использовать атрибуты элемента. Атрибут - это пара название значение, которую надо задавать при определении элемента в начальном тэге.

Пример color RGBtrue ff08ff color color RGBfalse white color или author id0 Ivan Petrov author Специальные символы Для того, чтобы включить в документ символ, используемый для определения каких-либо конструкций языка например, символ угловой скобки и не вызвать при этом ошибок в процессе разбора такого документа, нужно использовать его специальный символьный либо числовой идентификатор. Например или 036десятичная форма записи, x1a шестнадцатеричная и т.д.

Строковые обозначения спецсимволов могут определяться в XML документе при помощи компонентов entity. Директивы анализатора Инструкции, предназначенные для анализаторов языка, описываются в XML документе при помощи специальных тэгов - и . Программа клиента использует эти инструкции для управления процессом разбора документа. Наиболее часто инструкции используются при определении типа документа например,

Xml version1.0 или создании пространства имен. CDATA Чтобы задать область документа, которую при разборе анализатор будет рассматривать как простой текст, игнорируя любые инструкции и специальные символы, но, в отличии от комментариев, иметь возможность использовать их в приложении, необходимо использовать тэги CDATA и . Внутри этого блока можно помещать любую информацию, которая может понадобится программе- клиенту

для выполнения каких-либо действий в область CDATA, можно помещать, например, инструкции JavaScript. Естественно, надо следить за тем, чтобы в области, ограниченной этими тэгами не было последовательности символов . 3. Моделирование XML-документов Одним из наиболее сильных свойств XML является возможность создавать собственные языки разметки, в которых определяются элементы и атрибуты, наилучшим образом соответствующие инкапсулируемой информации, и снимаются ограничения, вызываемые малопригодным

языком общего назначения. Однако пока нельзя определить язык формальным образом, ограничить словарь элементов и атрибутов поддающимся управлению множеством и управлять грамматикой элементов. Процесс формального определения языка в XML называется моделированием документов. На сегодняшний день существует два способа моделирования документов определения типа документа DTD, которые описывают структуру документа с помощью декларативных правил, и

XML Schema, описывающую структуру документа на примере с помощью шаблонов элементов. Модель определяет документы, которые можно создать с помощью языка или, в рамках терминологии XML, модель документа устанавливает, какие документы согласуются conform с языком. Модель документа отвечает на такие вопросы, как Может ли быть заголовок у данного элемента или Должна ли быть указана цена для этого элемента Модель является документом особого рода, написанным по

правилам синтаксиса, предназначенного для описания языков XML, и явно описывает грамматику и словарь отдельного языка разметки. Иногда язык, который она описывает, называют типом документа document type или приложением XML XML application. С помощью такой модели можно определить, согласуется ли некоторый документ XML с данным типом документа. Фактически написанные кем-то документы, называемые экземплярами документа

document instances, могут согласоваться с языком, описанным в модели документа или не согласоваться. Согласующиеся документы называют действительными valid в контексте языка другие документы называют недействительными invalid. Модель документа может быть лишним грузом, если надо сопровождать лишь один-два документа, но если документов много, а требования к качеству высоки, ее создание может окупиться. Вот некоторые ситуации, в которых модель документа в состоянии облегчить жизнь

Документы создаются людьми и являются данными для компьютерной программы. Программы особенно привередливы в отношении форматов данных, потому что трудно создавать программы, способные справляться с отклонениями от формата. Ограничив применяемый шаблон предсказуемым форматом, намного легче писать программы, а вероятность ошибок уменьшается. Сравнение каждого экземпляра документа с моделью гарантирует, что вы не столкнетесь с проблемой несоответствия.

В документе обязательно должны быть поля. Например, в бланке заказа изделия необходимо указать почтовый адрес, чтобы знать, куда отправлять посылку. Применение модели документа обеспечивает присутствие всех необходимых полей. Вы запрашиваете документы у людей, не знакомых с используемым приложением XML. Так как модель сама является документом, она может быть открытым ресурсом, доступным для загрузки, ссылок и передачи. Модель документа может выступать в качестве данных в средах создания структурированных

документов, например, в редакторе XML. В такой программе редактор может автоматически вставлять необходимые поля и предлагать разработчику документа списки допустимых групп элементов. Разработчику нужна надежная структура для развивающегося языка или семейства языков. Модель документа предоставляет простой способ создания стандарта, такого, например, как HTML Version 4.0. Отслеживание новых версий языка жизненно важно для программ

XML, поскольку старые программы могут оказаться несовместимыми с более новыми версиями языка. Модели документов можно объединить для создания составных языков. Например, DocBook использует модель таблиц CALS, а не пытается определить свою. Конечно, могут быть основания и не использовать модель документов. Сопровождение модели может оказаться неудобным, особенно в начале, когда язык подвергается тестированию

и дальнейшей разработке. Она может замедлить обработку, например, если браузеры XML должны загружать модель документа из сети. Наконец, наличие авторитарной модели, указывающей, какие элементы можно использовать, а какие нет, может просто сломать стиль работы. А, кроме того, нужно потратить силы на то, чтобы разработать модель или найти готовую, отвечающую потребностям. В конечном счете, автор сам решает, использовать модель документа или нет

XML спроектирован так, что позволяет работать в любом случае. Некоторые модели документов а именно, DTD не очень хорошо работают с пространствами именпространства имен являются способом группировки элементов из различных источников, например, встраивания уравнений MathML внутрь документов HTML. Это создает проблемы, если DTD стремятся ограничить применяемые автором элементы предсказуемым конечным множеством.

В настоящий момент исчерпывающего решения этой дилеммы нет. Невозможно предвидеть все виды пространств имен и объявить их элементы и атрибуты внутри своего DTD их может быть бесконечное число. 4. Documents Type Definitions DTD В XML-документах DTD определяет набор действительных элементов, идентифицирует элементы, которые могут находиться в других элементах, и определяет действительные атрибуты для каждого из них.

Синтаксис DTD весьма своеобразен и от автора-разработчика требуются дополнительные усилия при создании таких документовсложность DTD является одной из причин того, что использование SGML, требующего определение DTD для любого документа, не получило столь широкого распространения как, например, HTML. Как уже отмечалось, в XML использовать DTD не обязательно - документы, созданные без этих правил, будут правильно обрабатываться программой-

анализатором, если они удовлетворяют основным требованиям синтаксиса XML. Однако контроль над типами элементов и корректностью отношений между ними в этом случае будет полностью возлагаться на автора документа. До тех пор, пока грамматика нашего нового языка не описана, его может использовать только его автор, и для этого применять специально разработанное программное обеспечение, а не универсальные программы-анализаторы. В DTD для

XML используются следующие типы правил правила для элементов и их атрибутов, описания категориймакроопределений, описание форматов бинарных данных. Все они описывают основные конструкции языка - элементы, атрибуты, символьные константы внешние файлы бинарных данных. Для того, чтобы использовать DTD в документе, можно или описать его во внешнем файле и при описании DTD просто указать ссылку на этот файл или же непосредственно внутри самого документа выделить область,

в которой определить нужные правила. В первом случае в документе указывается имя файла, содержащего DTD-описания xml version1.0 standaloneyes DOCTYPE team SYSTEM team.dtd Внутри же документа DTD- декларации включаются следующим образом DOCTYPE team ELEMENT team coach, player, assistant В том случае, если используются одновременно внутренние и внешние описания, то программой-анализатором

будут сначала рассматриваться внутренние, т.е. их приоритет выше. При проверке документа XML-процессор в первую очередь ищет DTD внутри документа. Если правила внутри документа не определены и не задан атрибут standalone yes , то программа загрузит указанный внешний файл и правила, находящиеся в нем, будут считаны оттуда. Если же атрибут standalone имеет значение yes, то использование внешних

DTD описаний будет запрещено. Определение элемента Элемент в DTD определяется с помощью дескриптора ELEMENT, в котором указывается название элемента и структура его содержимого. Например, для элемента coach можно определить следующее правило ELEMENT coach PCDATA Ключевое слово ELEMENT указывает, что данной инструкцией будет описываться элемент XML. Внутри этой инструкции задается название элементаcoach и тип его содержимого.

В определении элемента мы указываем сначала название элементаcoach, а затем его модель содержимого - определяем, какие другие элементы или типы данных могут встречаться внутри него. В данном случае содержимое элемента name будет определяться при помощи специального маркера PCDATA что означает parseable character data - любая информация, с которой может работать программа-анализатор. Существует еще две инструкции, определяющие тип содержимого

EMPTY,ANY. Первая указывает на то, что элемент должен быть пустымнапример, red , вторая - на то, что содержимое элемента специально не описывается. Последовательность дочерних для текущего элемента объектов задается в виде списка разделенных запятыми названий элементов. При этом для того, чтобы указать количество повторений включений этих элементов могут использоваться символы ELEMENT teamcoach, player, assistant В этом примере указывается, что внутри элемента team должны

быть определены элементы coach, player и assistant, причем элемент title является обязательным элементом и может встречаться лишь однажды, элемент player может встречаться несколько раз, а элемент assistant является опциональным, т.е. может отсутствовать. В том случае, если существует несколько возможных вариантов содержимого определяемого элемента, их следует разделять при помощи символа ELEMENT flower PCDATA title Символ в этом примере указывает на то, что определяемая последовательность

внутренних элементов может быть повторена несколько раз или же совсем не использоваться. Если в определении элемента указывается смешанное содержимое, т.е. текстовые данные или набор элементов, то необходимо сначала указать PCDATA, а затем разделенный символом список элементов. Пример корректного XML- документа xml version1.0 DOCTYPE team ELEMENT team title,coach, player, assistant ELEMENT coach namePCDATA

ELEMENT name PCDATA ELEMENT player name, nationality ELEMENT nationality PCDATA ELEMENT lname PCDATA team coach fname John fname lname Dixon lname coach player number1 fname Jorge fname lname Woods lname nationality English nationality player team Определение атрибутов Списки атрибутов элемента определяются с помощью ключевого слова

ATTLIST. Внутри него задаются названия атрибутов, типы их значений и дополнительные параметры. Например, для элемента player могут быть определены следующие атрибуты ATTLIST player number ID REQUIRED type goalkeeper back halfback forward IMPLIED В данном примере для элемента player определяются три атрибута number и type, которые имеют типы IDидентификатор и список возможных значений соответственно.

Всего существует шесть возможных типов значений атрибута CDATA - содержимым документа могут быть любые символьные данные ID - определяет уникальный идентификатор элемента в документе IDREFIDREFS - указывает, что значением атрибута должно выступать названиеили несколько таких названий, разделенных пробелами во втором случае уникального идентификатора определенного в этом документе элемента

ENTITYENTITIES - значение атрибута должно быть названиемили списком названий, если используется ENTITIES компонента макроопределения, определенного в документе NMTOKEN NMTOKENS - содержимым элемента может быть только одно отдельное словот.е. этот параметр является ограниченным вариантом CDATA Список допустимых значений - определяется список значений, которые может иметь данный атрибут. Также в определении атрибута можно использовать следующие параметры

REQUIRED - определяет обязательный атрибут, который должен быть задан во всех элементах данного типа IMPLIED - атрибут не является обязательным FIXED значение - указывает, что атрибут должен иметь только указанное значение, однако само определение атрибута не является обязательным, но в процессе разбора его значение в любом случае будет передано программе-анализатору Значение - задает значение атрибута по умолчанию Определение компонентовмакроопределений

Компонент entity представляет собой определения, содержимое которых может быть повторно использовано в документе. В других языках программирования подобные элементы называются макроопределениями. Создаются DTD-компоненты при помощи инструкции ENTITY ENTITY hello Мы рады приветствовать Вас Программа-анализатор, просматривая в первую очередь содержимое области DTD- определений, обработает эту инструкцию и при дальнейшем разборе документа будет использовать

содержимое DTD-компонента в том месте, где будет встречаться его название. Т.е. теперь в документе мы можем использовать выражение , которое будет заменено на строчку Мы рады приветствовать Вас В общем случае, внутри DTD можно задать три типа макроопределений Внутренние макроопределения - предназначены для определения строковой константы, с их помощью можно организовывать ссылки на часто изменяемую информацию, делая документ более читабельным.

Внутренние компоненты включаются в документ при помощи амперсанта В XML существует пять предустановленных внутренних символьных констант - символ - символ - символ - символ апострофа - символ двойной кавычки Внешние макроопределения - указывают на содержимое внешнего файла, причем этим содержимым могут быть как текстовые, так и двоичные данные. В первом случае в месте использования макроса будут вставлены текстовые строки, во втором - бинарные

данные, которые анализатором не рассматриваются и используются внешними программами ENTITY logotype SYSTEM image.gif NDATA GIF87A Макроопределения правил - макроопределения параметров могут использоваться только внутри области DTD и обозначаются специальным символом , вставляемым перед названием макроса. При этом содержимое компонента будет помещено непосредственно в текст DTD-правила Например, для следующего фрагмента документа

ELEMENT title PCDATA ELEMENT name PCDATA ELEMENT nationality PCDATA ELEMENT coach PCDATA name ELEMENT player PCDATA name, nationality ELEMENT team title,coach, player можно использовать более короткую форму записи ELEMENT name PCDATA ENTITY names PCDATA name ELEMENT coach names ELEMENT player names, nationality ENTITY content coach player

ELEMENT team title,content Макроопределения часто используются для описания параметров в правилах атрибутов. В этом случае появляется возможность использовать одинаковые определения атрибутов для различных элементов ENTITY teamattr country REQUIRED CDATA ENTITY playerattr number ID IMPLIED type CDATA, type goalkeeper back halfback forward IMPLIED CDATA ELEMENT team title,coach, player,assistant

ATTLIST team teamattr ELEMENT player name, nationality ATTLIST player playerattr Типизация данных Довольно часто при создании XML-элемента разработчику требуется определить, данные какого типа могут использоваться в качестве его содержимого. Т.е. если мы определяем элемент last-modified 10.10.98 last-modified , то хотим быть уверенными, что в документе в этом месте будет находиться строка, представляющая собой дату, а не число или произвольную

последовательность символов. Используя типизацию данных, можно создавать элементы, значения которых могут использоваться, например, в качестве параметров SQL-запросов. Программа клиент в этом случае должна знать, к какому типу данных относится текущее значение элемента и в случае соответствия формирует SQL-запрос. Если в качестве программы на стороне клиента используется верифицирующий

XML-процессор, то информацию о типе можно передавать при помощи специально созданного для этого атрибута элемента, имеющего соответствующее DTD-определение. В процессе разбора программа-анализатор передаст значение этого атрибута клиентскому приложению, которое сможет использовать эту информацию должным образом. Например, чтобы указать, что содержимое элемента должно быть длинным целым, можно использовать следующее

DTD- определение ELEMENT counter PCDATA ATTLIST counter datalong CDATA FIXED LONG Задав атрибуту значение по умолчанию LONG и определив его как FIXED, мы позволили тем самым программе-клиенту получить необходимую информацию о типе содержимого данного элемента, и теперь она может самостоятельно определить соответствие типа этого содержимого указанному в DTD-определении. Пример

XML-документа, в котором определяются и используются несколько элементов с различными типами данных ELEMENT price PCDATA ATTLIST price datacurrency CDATA FIXED CURRENCY ELEMENT roomsnum PCDATA ATTLIST roomsnum databyte CDATA FIXED BYTE ELEMENT floor PCDATA ATTLIST floor databyte CDATA FIXED INTEGER ELEMENT livingspace PCDATA ATTLIST livingspace datafloat

CDATA FIXED FLOAT ELEMENT counter PCDATA ATTLIST counter datalong CDATA FIXED LONG ELEMENT istel PCDATA ATTLIST istel databool CDATA FIXED BOOL ELEMENT house roomsnum, floor,livingspace, istel, counter, price ATTLIST house id ID REQUIED house id0 roomsnum 5 roomsnum floor 2 floor livingspace 32.5 livingspace istel true istel counter 18346 counter price 100 р.

00 к. price house Как видно из примера, механизм создания элементов документа при этом нисколько не изменился. Все необходимая для проверки типов данных информация заложена в определения элементов внутри блока DTD. DTD весьма удобный механизм осуществления контроля за содержимым документа. На сегодняшний день, практически все программы просмотра документов Интернет используют DTD-правила. Однако это не единственный способ проверки корректности документа.

В настоящий момент в W3 консорциуме находится на рассмотрении новый стандарт языка описания структуры документов, называемый схемами данных. 5. Схемы данных Схемы данных Schemas являются альтернативным способом создания правил построения XML-документов. По сравнению с DTD, схемы обладают более мощными средствами для определения сложных структур данных, обеспечивают более понятный способ описания грамматики языка, способны легко модернизироваться

и расширяться. Безусловным достоинством схем является также то, что они позволяют описывать правила для XML-документа средствами самого же XML. Однако это не означает, что схемы могут полностью заменить DTD-описания - этот способ определения грамматики языка используется сейчас практическими всеми верифицирующими анализаторами XML и, более того, сами схемы, как обычные XML-элементы, тоже описываются DTD. Но серьезные возможности нового языка и его относительная простота,

безусловно, дают основания утверждать, что будущий стандарт найдет широкое применение в качестве удобного и эффективного средства проверки корректности составления документов. В настоящее время в W3 консорциуме идет работа над первой спецификацией схем данных. Рассмотрим основные возможности схем данных, попытаемся использовать их для контроля корректности ранее описываемых XML-документов. Внешне документы схем не отличаются от обычных документов

XML. Документ размечается при помощи специальных элементов, выполняющих в схемах роль инструкций. Эти инструкции составляют набор правил, используя которые, программа-клиент будет делать вывод о том, корректен документ или нет. Схема данных, например, может выглядеть следующем образом schema idTeamSchema elementType idnamee string elementType elementType idplayer element typename attribute namenumber attribute nametype elementType elementType idteam element typeplayer attribute nametitle elementType schema

Если мы включим приведенные правила внутрь XML-документа, программа-клиент сможет использовать их для проверки. Т.е. она теперь сможет определить, что правильным будет являться следующий фрагмент team titleCeltics player number1 typegoalkeeper name John Ree name player player number2 typeback name Peter Loyd name player player number2 typeforward name Emil McGeer name player team Все конструкции языка схем описываются правилами

XML DTD for XML-Data-Schema. Область схемы данных Создавая схемы данных, мы определяем в документе специальный элемент, schema внутри которого содержатся описания правил schema idOurSchema последовательность инструкций schema Если использовать отдельное пространство имен, то полный XML-документ, содержащий в себе схему данных, будет выглядеть следующим образом XML version1.0 xmlnamespace hrefhttpwww.mrcpk.nstu.ruschemas ass sschema idOurSchema последовательность

инструкций sschema Описание элементов Для определения класса элемента, к которому в дальнейшем будут применяться инструкции, описывающие его содержимое и структуру, предназначен специальный элемент схемы elementType. Название элемента задается атрибутом id . Все дальнейшие инструкции, которые относятся к описываемому классу, определяют его внутреннюю структуру и набор допустимых данных, содержатся внутри блока, заданного тэгами elementType и elementType .

При определении класса элемента, можно также использовать комментарии к нему, которые заключаются в тэги descript descript Атрибуты элемента Для того, чтобы в описании элемента определить его атрибуты и описать свойства этих атрибутов нужно использовать элемент attribute elementType idplayer attribute namenumber elementType В данном примере элементу player определяется атрибут number, значением которого может быть любая последовательность разрешенных символов player number0 player numbersome text

Подобно DTD, схемы данных позволяют устанавливать ограничения на значения и способ использования атрибутов. Для этого в дескрипторе attribute необходимо использовать параметр atttype. Например, если мы хотим указать, что значение атрибута должно использоваться программой-анализатором как уникальный идентификатор, то нам необходимо создать следующее правило elementType idplayer attribute namenumber atttypeID elementType Если же требуется задать список возможных значений атрибута, то пример

будет выглядеть следующим образом attribute nametype atttypeENUMERATION valuesgoalkeeper back halfback forward Модель содержимого элемента Под моделью содержимого в схеме данных понимают описание всех допустимых объектов XML-документа, использование которых внутри данного элемента является корректным. Модель содержимого определяется инструкциями, расположенными внутри блока elementType . Вложенные элементы описываются при помощи инструкции element, в которой параметром type указывается

класс объекта - ссылка на его определение elementType idplayer element typename element typenationality elementType Если требуется указать режим использования вложенного элемента, то надо определить параметр occurs elementType idplayer element typename occursREQUIRED element typenationality occursOPTIONAL element typeclubs occursONEORMORE elementType Возможные значения этого параметра таковы REQUIRED - элемент должен быть обязательно определен

OPTIONAL - использование элемента не является обязательным ZEROORMORE - вложенный элемент может встречаться несколько раз или ни разу ONEORMORE - элемент должен встречаться хотя бы один раз Примеры правильных XML-документов, использующих приведенную выше схему player name John Ree name nationality English nationality clubs

Celtics clubs clubs Portsmut clubs article или player name John Ree name clubs Celtics clubs clubs Portsmut clubs article Кроме элементов, содержимым XML-документа могут также является обычный текст и области CDATA. Для обозначения типов содержимого текущего элемента в схемах используются следующие инструкции string - указывает на то, что содержимым элемента является только свободная текстовая информациясекция

PCDATA elementType idname string elementType any - указывает на то, что содержимым элемента должны являться только элементы, без текста, незаключенного ни в один элемент elementType idcoach any elementType mixed - любое сочетание элементов и текста elementType idplayer mixed elementType empty - пустой элемент. Группировка элементов Элемент group используется для того, чтобы задать некоторую последовательность вложенных объектов elementType idteam element typetitle occursREQUIRED group occursOPTIONAL element

typeplayer element typeassistant group elementType Группировка объектов позволяет определять сразу группу объектов различных типов, которые могут находится внутри данного объекта. В приведенном примере мы указали, что внутри объекта типа conteam могут быть включены элементы title, player, и assistant, причем атрибутом occurs мы указали, что элементы в группе являются необязательными. Корректным для таких схем будут являться следующие фрагменты документов team

title Celtics tel player player assistant assistant team team title Celtics tel team team title Celtics tel player player team При помощи атрибута groupOrder можно также задавать режим использования группированных элементов При установленном значении OR возможно использование не всех элементов группы, а лишь некоторых из них. Если задано значение AND, то оба элемента должны быть включены в обязательном порядке.

Например, для следующей группы правил elementType idteam element typetitle occursREQUIRED group groupOrderAND occursOPTIONAL element typeplayer element typeassistant group elementType будут считаться правильными только следующие варианты team title Celtics tel player player assistant assistant team или team title Celtics tel player player team Закрытая и открытая модели описания содержимого элемента Когда мы определяем модель содержимого текущего элемента, список дополнительных допустимых элементов

правилами не ограничивается - он может свободно расширяться. Например, для приведенного выше правила, кроме обозначенных элементов title , player и assistant вполне могут использоваться дополнительные элементы, неописанные правилами, например, coach team title Celtics tel coach coach player player assistant assistant team Однако в том случае, если мы хотим ограничить создаваемые нами правила от включения дополнительных элементов,

мы должны использовать атрибут content и установить для него специальное значение CLOSED elementType idteam contentCLOSED element typetitle element typeplayer element typeassistant elementType Теперь приведенный фрагмент XML-документа будет считаться некорректным, т.к. параметром content запрещено использование внутри элемента team других объектов, кроме указанных в правиле. Иерархия классов Для того, чтобы при описании класса ограничить список объектов, которые могут являться

родительскими для данного элемента, необходимо использовать элемент схемы domain. Инструкция domain указывает, что текущий объект должен определяться строго внутри элемента, заданного этим тэгом. Например, в следующем фрагменте указывается, что элемент player может быть определен строго внутри тэга team elementType idplayer element typename domain typearticle elementType Ограничения на значения Значения элементов могут быть ограничены при помощи тэгов min и max elementType

idteam element typeplayer min 11 min max 25 max elementType Использование правил из внешних схем Схема может использовать элементы и атрибуты из других схем. Для этого надо использовать атрибут href, в котором указывается название внешней схемы. Например XML version1.0 xmlnamespace nameurnuuidBDC6E3F0-6DA3-11d1- A2A3-00AA00C14882 ass sschema elementType idplayer any elementType elementType idtitle string elementType

elementType idteam element typetitle occursREQUIRED element typeplayer occursONEORMORE element hrefhttpmrcpk.org elementType sschema elementType sschema Компоненты схем Компоненты, или макроопределении, используются в схемах точно также, как и в DTD. Для их определения предназначены тэги intEntityDcl и extEntityDcl intEntityDcl namegk goalkeeper intEntityDcl extEntityDcl namelogo notationgif systemIdlogo.gif

Типы данных В схемах существует возможность задавать тот или иной тип данных, используя при определении элемента директиву datatype с указанием конкретного типа elementType idcounter datatype dtint elementType В DTD мы должны были создать атрибут с конкретным названием, определяющим операцию назначения формата данных, и значением, определенным как fixed. Использование элемента datatype позволяет указывать это автоматически, но для обеспечения программной независимости необходимо сначала договориться об обозначениях

типов данныхзначения, которые должны передаваться параметру dt элемента datatype, для чего могут использоваться, например, универсальные идентификаторы ресурсов URI. В любом случае, как и прежде, все необходимые действия, связанные с конкретной интерпретацией данных, содержащихся в документе, осуществляются программой-клиентом и определяются логикой его работы. В разделе, посвященном DTD, мы уже рассматривали пример

XML-документа, реализующего описанные нами возможности. Вот как выглядел бы этот пример при использовании схем данных schema idsomeschema elementType idroomsnum string datatype dtint schema elementType idfloor string datatype dtint schema elementType idlivingspace string datatype dtfloat schema elementType idistel string datatype dtboolean schema elementType idcounter string datatype dtfloat schema elementType idprice string datatype dtfloat schema elementType idcomments

string datatype dtstring schema elementType idhouse element typeroomsnum occursONEORMORE element typefloor occursONEORMORE element typelivingspace occursONEORMORE element typeistel occursOPTIONAL element typecounter occursONEORMORE element typeprice occursONEORMORE element typecomments occursOPTIONAL elementType schema house id0 roomsnum 5 roomsnum floor 2 floor livingspace 32.5 livingspace istel true istel counter 18346 counter price 34.28 price comments comments house Подводя итог всему сказанному, необходимо отметить,

что процесс развития современных информационных систем настолько динамичен, что временной промежуток между появлением новой технологии и ее практическим использованием в реально действующих приложениях сегодня слишком мал. На смену устаревающему стандарту HTML в самое ближайшее время должен будет прийти новый, более гибкий и универсальный язык описания данных. И тот факт, что XML как язык еще не стандартизирован и некоторые его составляющие до сих пор находятся

в стадии разработки, видимо, не является причиной невозможности его использования уже сегодня, для решения конкретных задач в реальных системах. Иллюстрационный пример Файл Clients.dtd parameter entities ENTITY basic.content PCDATA main elements ELEMENT clients client visitor ELEMENT client name, password, fullname, address, mail, age, e-mail, registerIP, lastlogin, money

ATTLIST client id ID REQUIRED type active passive IMPLIED ELEMENT visitor registerIP ATTLIST visitor id ID REQUIRED basic elements ELEMENT name basic.content ELEMENT password basic.content ELEMENT fullname basic.content ELEMENT address basic.content ELEMENT mail basic.content ELEMENT age basic.content

ELEMENT e-mail basic.content ELEMENT registerIP basic.content ELEMENT lastlogin basic.content ELEMENT money basic.content ATTLIST money type current int int XML документ действительный для этого DTD xml version1.0 encodingUTF-8 DOCTYPE clients SYSTEM Clients.dtd clients client idclient-20334-0001 typeactive name

John Silver name password password fullname John Fitzerald Silver fullname address London, Piccadilli st. 467 address mail 3458739 p.c. 3487 mail age 41 age e-mail Silverhotmail.com e-mail registerIP 172.36.01.12 registerIP lastlogin 12.01.03 lastlogin money 1290 money client client idclient-20334-0012 typepassive name Arthur Swift name password password fullname Arthur

J. Swift fullname address Dublin. Solar st. 463 address mail 65863483 p.c 2342 mail age 61 age lastlogin 12.02.02 lastlogin money typecurrent 1000.0 money client visitor idclient-20334-0023 registerIP 192.23.41.03 registerIP visitor clients W3C схема эквивалентная предыдущему DTD xml version1.0 encodingUTF-8 W3C Schema generated by XML Spy v3.5 xsdschema xmlnsxsdhttpwww.w3.org200010XMLSchema xsdelement nameclients xsdcomplexType xsdchoice

minOccurs0 maxOccursunbounded xsdelement nameclient xsdcomplexType xsdsequence xsdelement namename xsdcomplexType mixedtrue xsdsequence minOccurs0 maxOccursunbounded xsdcomplexType xsdelement xsdelement namepassword xsdcomplexType mixedtrue xsdsequence minOccurs0 maxOccursunbounded xsdcomplexType xsdelement xsdelement namefullname xsdcomplexType mixedtrue xsdsequence minOccurs0 maxOccursunbounded xsdcomplexType xsdelement xsdelement nameaddress xsdcomplexType mixedtrue xsdsequence minOccurs0 maxOccursunbounded xsdcomplexType

xsdelement xsdelement namemail xsdcomplexType mixedtrue xsdsequence minOccurs0 maxOccursunbounded xsdcomplexType xsdelement xsdelement nameage xsdcomplexType mixedtrue xsdsequence minOccurs0 maxOccursunbounded xsdcomplexType xsdelement xsdelement namee-mail minOccurs0 xsdcomplexType mixedtrue xsdsequence minOccurs0 maxOccursunbounded xsdcomplexType xsdelement xsdelement nameregisterIP typeregisterIPType minOccurs0 xsdelement namelastlogin xsdcomplexType mixedtrue xsdsequence minOccurs0 maxOccursunbounded xsdcomplexType xsdelement xsdelement

namemoney xsdcomplexType mixedtrue xsdsequence minOccurs0 maxOccursunbounded xsdattribute nametype usedefault valueint xsdsimpleType xsdrestriction basexsdNMTOKEN xsdenumeration valuecurrent xsdenumeration valueint xsdrestriction xsdsimpleType xsdattribute xsdcomplexType xsdelement xsdsequence xsdattribute nameid typexsdID userequired xsdattribute nametype xsdsimpleType xsdrestriction basexsdNMTOKEN xsdenumeration valueactive xsdenumeration valuepassive xsdrestriction xsdsimpleType xsdattribute xsdcomplexType xsdelement

xsdelement namevisitor xsdcomplexType xsdsequence xsdelement nameregisterIP typeregisterIPType minOccurs0 xsdsequence xsdattribute nameid typexsdID userequired xsdcomplexType xsdelement xsdchoice xsdcomplexType xsdelement xsdcomplexType nameregisterIPType mixedtrue xsdsequence minOccurs0 maxOccursunbounded xsdcomplexType xsdschema Литература 1. Изучаем XML Э. Рей Спб Символ-Плюс, 2001. 2. Мифы и реальности XML Сергей Кузнецов -

ИСП РАН, Центр информационных технологий. 3. Semantic Web роли XML и RDF С. Деккер журнал Открытые системы сентябрь 2001 4. Материалы с CIT-forum a Конец формы



Не сдавайте скачаную работу преподавателю!
Данный реферат Вы можете использовать для подготовки курсовых проектов.

Поделись с друзьями, за репост + 100 мильонов к студенческой карме :

Пишем реферат самостоятельно:
! Как писать рефераты
Практические рекомендации по написанию студенческих рефератов.
! План реферата Краткий список разделов, отражающий структура и порядок работы над будующим рефератом.
! Введение реферата Вводная часть работы, в которой отражается цель и обозначается список задач.
! Заключение реферата В заключении подводятся итоги, описывается была ли достигнута поставленная цель, каковы результаты.
! Оформление рефератов Методические рекомендации по грамотному оформлению работы по ГОСТ.

Читайте также:
Виды рефератов Какими бывают рефераты по своему назначению и структуре.

Сейчас смотрят :