Конспект лекций по предмету "Информатика"


Классификация данных. Проблемы представления данных

После обсуждения особенностей кодирования и передачи информации вполне естественным представляется рассмотреть вопросы, связанные с хранением информации. Ранее было дано определение формальной информации как результата последовательности бинарных выборов (см. п.2.2.). Однако на практике (и на бытовом уровне) информация понимается как сведения о чем-либо. Эти определения не противоречат друг другу, если не будем отслеживать смысловую сторону сведений и пытаться оценивать их важность (значимость), т.е. сохраним формальность подхода.
Наряду и параллельно с термином «информация» при описании информационных процессов часто используется термин «данные». Определим его следующим образом:
Данные - это сведения, характеризующие какую-то систему, явление, процесс или объект, представленные в определенной форме и предназначенные для дальнейшего использования.

К данному определению необходимо сделать следующие замечания, разъясняющие соотношение между понятиями информация и данные:
· данные - это конкретная форма представления содержания информации (например, информацию о результатах наблюдения за температурой окружающей среды можно представить в виде числового массива (таблицы), но можно и в виде графика, и в виде текстового описания посредством некоторого языка);
· в отличие от ненаправленной (неадресной, рассеянной) информации, существующей в природе независимо от нас и наших потребностей в ней, данными называется только такая информация, которая имеет значение для потребителя и, следовательно, предусматривается ее использование для решения каких-либо задач; другими словами, практический статус и важность данных выше, нежели у природной информации.
Безусловно, при решении практических задач с помощью технических устройств формы представления информации всегда конкретны и в информации кто-то заинтересован, поэтому употребление термина «данные» вполне оправдано.
Содержание понятия «данные» весьма обширно. Оно охватывает как какую-то отдельную величину, например год рождения человека или его имя, так и показания какого-либо датчика или производственные сведения фирмы. На бытовом уровне данные отождествляются со сведениями, и поэтому не любой информационный массив считается данными. Например, текст литературного произведения или учебника, картина художника, фильм не рассматриваются как данные, однако, данными признаются сведения, в них содержащиеся. В компьютерных системах такого различия нет и любая информация, представленная в допустимой для компьютера форме - тексты, рисунки, музыка и др. - считаются данными. В информатике к данным относятся также тексты программ, хранящиеся на внешних носителях или загруженные для исполнения в память компьютера. Именно такое расширенное по содержанию толкование термина данные будет подразумеваться далее.
Данным приписываются несколько классификационных признаков. Важнейшим из них является тип данных. Тип данных определяет:
· набор их допустимых значений;
· правила их обработки (преобразования);
· порядок их размещения в ОЗУ и ВЗУ при хранении;
· порядок доступа к ним (т.е. обращение и извлечение при необходимости с места хранения).
Допустимый набор типов данных и их особенности определяются программной системой или языком программирования, на котором система написана. При этом возможности языков по разнообразию допустимых типов данных, а также построению новых типов различаются весьма сильно. Ясно, что чем более широкой и гибкой оказывается типизация данных в программной системе или языке, тем больше возможностей предоставляется пользователю в решении задачи оптимального представления, хранения и применения данных. Типизация данных влияет и на компактность самой исполняемой программы. Например, в языке BASIC отсутствует тип данных «записи»; в результате для создания и использования базы данных пришлось бы организовывать параллельную обработку нескольких массивов.
Следующим признаком является деление данных на элементарные (одиночные, простые) и структурированные (сложные).
К элементарным данным относятся символы, числа (целые и вещественные) и логические данные. Общей и обязательной особенностью одиночных данных является то, каждое из них имеет одно значение и собственное имя. Значение - это содержимое тех ячеек памяти, где данное располагается. Имя (его называют также идентификатор) - это обозначение данного в тексте программы. Правила построения идентификаторов элементарных данных определяются языком программирования написанной программы.
Элементарные данные являются «кирпичиками», путем объединения которых строятся сложные данные. Вариантов объединения существует много - это приводит к появлению множества типов структур данных.

Информационный массив, объединяющий данные и связи (отношения) между ними называется структурированными данными.
Перечень объединяемых одиночных данных, их характеристики, а также особенности связей между ними образуют структуру данных.

Примерами структурированных данных является страница из классного журнала с фамилиями учеников, датами занятий и отметками, телефонный справочник, организационная структура учреждения и т.п.
Перечень допустимых структур данных, как уже было сказано, определяется языком программирования или прикладной программой. Он может быть фиксированным (нерасширяемым), как в языке BASIC или прикладных программах без встроенных возможностей программирования. В развитых языках программирования (PASCAL, С и др.) и ряде прикладных систем наряду с зарезервированными типами структур данных допускается создание новых типов, причем, элементами структуры могут быть сложные данные, например, массив записей.
Сложные данные, как и элементарные, имеют значения и идентификаторы. Значения размещаются в ячейках ОЗУ по определенным схемам (см. п.6.3.3.). Правила построения идентификаторов устанавливаются языком программирования или программной системой. Исключение составляют правила формирования имен файлов - они задаются операционной системой и должны соблюдаться всеми работающими в ней программами и языками. Например, в MS-DOS в качестве имен файлов допустимы комбинации из латинских букв, цифр и некоторых спецсимволов общей длиной не более 8 знаков; в Windows 95 (98), имеющую 32-х разрядную файловую систему, разрешены имена длиной до 255 знаков без ограничений применяемого набора символов.
По возможности изменения значений данных (как простых, так и структурированных) в ходе общей обработки их подразделяют на переменные и постоянные (константы). Из названия очевидно, что переменные могут изменять свое значение по ходу исполнения программы, а константы - нет. На уровне операционной системы различие между переменными и постоянными величинами отсутствует, поэтому у них одинаковый порядок размещения в ОЗУ и доступа к ним. Разделение может производиться в языке программирования и, соответственно, в созданной с его помощью прикладной программе; такое разделение служит дополнительной мерой синтаксического контроля корректности программы.
В зависимости от того, на каком этапе обработки данные используются, они подразделяются на исходные (входные), промежуточные и выходные. К исходным относятся данные, необходимые для исполнения программы и вводимые в нее до или в процессе работы. Исходные данные могут быть предварительно записаны на некотором носителе и вводиться с него, поступать по линиям связи от каких-то датчиков или с других компьютеров, вводиться пользователем программы посредством устройств ввода. Промежуточные данные формируются в ходе исполнения программы и, чаще всего, пользователю недоступны; они не отображаются на устройствах вывода, но существуют в ОЗУ или на ВЗУ. Идентификаторы промежуточным данным присваивает разработчик программы или задает сама программа по заложенным в нее правилам. Выходные данные являются результатом работы программы - ради них и производится обработка входных. Выходные данные, предназначенные для человека, представляются в требуемой для него форме (тексты, рисунки, звуки); при хранении выходных данных на носителях или передаче по сетям сохраняется двоичный компьютерный формат их представления. Таким образом, работу программы можно рассматривать как действия по преобразованию входных данных в выходные через необходимые для этого промежуточные. С точки зрения самой программы все эти виды равноправны, т.е. обрабатываются только в соответствии с их типом, а не функциональным назначением или этапом.
Представление данных при их хранении и обработке требует решения трех основных задач:
· определить способы представления элементарных (простых) данных;
· определить способы объединения данных в структуры;
· установить способы размещения информации на материальном носителе.
Выделяют три уровня представления данных - концептуальный, логический и физический. На концептуальном уровне определяется общая структура информационного массива - она называется моделью данных. Известны и используются несколько моделей данных: иерархическая, сетевая, реляционная, объектно-ориентированная. В соответствии с выбранной моделью данных строится информационная система, в которой данные будут храниться, а также программы, ведущие их обработку (манипулирование данными). Логический уровень определяет способы представления элементарных данных, их перечень при объединении в структуру, а также характер связей между ними в рамках выбранной модели данных. Физический уровень определяет форматы размещения созданной логической структуры данных на внешних носителях информации (магнитных или оптических дисках, бумаге, в памяти компьютера). Представление данных является важным фактором, обеспечивающим компактный (т.е. экономный с точки зрения расходования носителя) способ записи информации при хранении и быстрый доступ к нужным данным при их использовании. Далее будут рассмотрены варианты решения перечисленных задач в компьютерных системах.


Не сдавайте скачаную работу преподавателю!
Данный конспект лекций Вы можете использовать для создания шпаргалок и подготовки к экзаменам.

Поделись с друзьями, за репост + 100 мильонов к студенческой карме :

Пишем конспект самостоятельно:
! Как написать конспект Как правильно подойти к написанию чтобы быстро и информативно все зафиксировать.