Web - серверы, базы данных в Интернет. Поиск информации в Интернет. Основные
системы и средства.
Сегодня Internet становится общедоступным и зачастую кратчайшим путем в мир
информации. Начало же этой в полном смысле революции было положено в 1993г.,
когда в недрах Internet "соткалась" своего рода электронная паутина - подсеть
World Wide Web, или сокращенно WWW. Фактически WWW - это просто набор остроумных
программ, позволяющих упорядочить разнородную информацию, содержащуюся в
разбросанных по сети компьютерах - WWW - серверах, и вместе со всеми указателями
организовать эту информацию таким образом, чтобы она могла быть представлена на
экране компьютера в виде легкочитаемых информационных страниц.
Технология гиперпоссылок, содержащихся в WWW - документах и отрабатываемых
программами доступа к WWW - серверам составляет основное отличие WWW,
позволяющее пользователям быстро ориентироваться в Internet.
У каждого сервера есть свое имя. При создании сервера это имя покупают за
небольшую сумму (около 100 долларов в год). Организация, установившая у себя
сервер и получившая имя может теперь подключать к своему серверу всех желающих.
Она становится сервис - провайдером. К одному сервис - провайдеру может быть
подключено от нескольких клиентов до нескольких миллионов. Миллионы постоянных
серверов Интернета служат как бы "розеткой", к которым и подключаются
пользователи. Но эти "розетки" могут выполнять еще две важные функции - хранение
и передача информации .
С точки зрения хранения информации сервер мало чем отличается от обычного
компьютера. Мощный домашний компьютер тоже может служить сервером. Для этого он
лишь должен иметь высокую производительность и очень большой объем жесткого
диска. Если объем жесткого диска действительно велик, то сервис - провайдер
может разбить его на каталоги и передать эти каталоги в аренду своим клиентам за
отдельную плату. Если вы договоритесь со своим сервис - провайдером, то он
выделит каталог, чтобы вы моглиразместить там все, что хотите опубликовать для
всеобщего обозрения. Так становятся владельцами Web - серверов.
На одном физическом сервере могут быть размещены десятки и сотни Web - серверов.
Свою информацию на Web - сервер отправляют во время кратковременных сеансов
связи с сервис - провайдером. Все остальное время можно заниматься своими
делами, а Web - сервер как бы обеспечивает постоянное представительство в
Internet.
Пользователи со всего мира могут его посещать, читать, смотреть, оставлять свои
сообщения или соображения по тому или иному поводу. Достаточно лишь один раз в
день уделять несколько часов (или минут) обновлению информации на сервере.
Со стороны это выглядит, как будто находишься на постоянной связи со всем миром.
Каждый Web - сервер, в свою очередь содержит Web - страницы. Например, если это
информация об институте, то будут выставлены следующие Web - страницы: история
института, наши преподаватели, лучшие выпускники, спонсоры, что сегодня нового
на сервере и т.д. Титульной страницей Web - сервера является домашняя страница.
На ней обычно содержится приветствие посетителю, и от сюда открывается доступ ко
всем прочим страницам сервера.
База данных WAIS в Интернете.
Взаимодействие пользователя с сервером WAIS при проведении поиска в базах данных
может описана следующим образом: - определяется набор баз данных, в которых
нужно производить поиск, если это неизвестно то, пользователь формирует запрос
для проведения поиска информации в базах данных; затем WAIS формирует список баз
данных, в которых содержится интересующая информация; для просмотра документа
пользователю достаточно просто выбирать его из выводимого списка.
Назовем лишь несколько имен баз данных, ведущихся в сети RELCOM: consultant
(законодательные и правовые акты), relcom/currency (курсы валют),
adv-audio-video (аудио, видеотехника), adv-cons2 (косметика, одежда),
adv-orgtsch (компьютеры - оргтехника), adv-bransort (автомобили) и т.д.
База данных Archie - доступна практически всем пользователям - распределенная
система, включающая десятки серверов, которые регулярно обмениваются информацией
и объединяют свои локальные базы данных в единую базу сведений о содержимом FTP
- архивов всего мира.
Один раз в месяц, каждый из Archie - серверов запускает специальную программу
просмотра каталогов и имен файлов, содержащихся на приписанных к ним FTP -
серверов.
По окончанию данной процедуры Archie - серверы обмениваются информацией,
составляя единую индексированную базу файловых архивов и каталогов, доступ к
которым возможен с любого из Archie - серверов.
В настоящее время системой Archie охвачено свыше тысячи анонимных FTP -
серверов. Содержимое объединенной базы данных Archie составляет свыше 20
Гигабайт (2,5 млн. имен файлов и их описания).
Veronika - подруга Archie - очень постое, ориентированное на систему Copher
индексное описание распределенных по сети компьютерных архивов. Veronika -
индексная база данных.
На настоящее время суммарная индексная база системы Veronika содержит
приблизительно 15 млн. записей, описывающих ресурсы на более чем 5000 Copher -
серверах, а также отдельные ресурсы приблизительно 5000 серверов, в т.ч. 3900
ресурсов WWW - серверов и около 1000 ресурсов, доступных в telnet - сеансе.
Актуализация записей в базе Veronika производится приблизительно раз в месяц.
Veronika производит поиск ресурсов, просматривая только заголовки документов.
Как правило, для доступа к услугам Veronika используется программа Gopher -
клиента. Доступ к любому из серверов Veronika можно получить:
используя программу Gopher - клиента;
используя систему шлюзов Gopher - mail;
используя программу WWW - клиента.
Поиск информации в Интернет. Основные системы и средства.
"Всемирная паутина" в Интернет - это миллионы документов с неструктурированной
текстовой информацией (а также с графикой, аудио, видео). Чтобы найти нужную
информацию, клиенту сети зачастую приходиться перебирать сотни страниц Web
(иногда без особого успеха), тратить много сил и нервов (а также денежных
средств).
С начала 90-х годов интенсивно развиваются справочные службы Интернет,
помогающие пользователям найти нужную информацию, и эти службы можно разделить
на две категории: универсальные и специализированные.
В универсальных службах используется обычный принцип поиска в
неструктурированных документах - по ключевым словам.
Ключевым словом (Keyword) документа называется отдельное слово или
словосочетание, которое каким-то образом отражает содержание данного документа.
Во многих текстовых процессорах ключевым словом является текст, по которому
осуществляется поиск нужной информации (С помощью команд Найти и Заменить).
Например, для литературы по программированию характерны ключевые слова "Условный
переход", "Макрокоманда", "Отработка прерываний" и т.д.
Универсальная служба поиска (поисковая система) - это комплекс программ и мощных
компьютеров, выполняющих следующие функции.
Специальная программа (поисковый робот) непрерывно просматривает страницы
"Всемирной паутины", выбирает ключевые слова и адреса документов, в которых эти
слова обнаружены. Здесь уместно упомянуть об индексированном файле. Отдельный
файл, содержащий информацию о физическом расположении записей в каком-либо файле
базы данных. Вместо этого, чтобы просматривать фактический файл базы данных,
программы базы данных пользуются индексами, что позволяет существенно ускорить
поиск нужной информации.
Web - сервер принимает от пользователя запрос на поиск, преобразует его и
передает специальной программе - поисковой машине.
Поисковая машина просматривает базу данных индексов, составляет список страниц,
удовлетворяющим условиям запроса (точнее список ссылок на эти страницы) и
возвращает его Web - серверу.
Web - сервер оформляет результаты выполнения запроса в удобном для пользователя
виде и передает их на машину клиента.
Среди наиболее известных и мощных поисковых систем:
Alta Wista
Infoseek
Lycos,
российская система "Рэмблер".
Поиск графической информации (в том числе и видео информации) - пока
принципиально неразрешимый вопрос в компьютерной технологии.
Специализированные справочные службы - это тематические каталоги (subject
catalogs), в которых собраны более или менее структурированные сведения об
адресах серверов по той или иной тематике. В отличие от универсальных баз
индексов, тематические каталоги составляются специалистами и обеспечивают
клиента более строгой, достоверной систематизированной информацией о Сети.
Кроме того, многие сайты Интернет располагают собственными механизмами поиска (в
пределах данного сайта). В первую очередь это механизм контекстного поиска, а
также специализированный поиск по фамилиям (например, персоны компьютерного
бизнеса), товарам (рекламные сайты), фирмам и т.д. Контекстный поиск на текущей
странице предусмотрен и в Internet Explorer.
Некоторые страницы в Internet (например, страницы поисковых систем) специально
предназначены для приема и обработки запросов на поиск. Microsoft в Internet
Explorer 3.0 предлагает собственную страницу поиска.
Internet Explorer не занимается поиском: он принимает от пользователя запрос,
обрабатывает его и передает соответствующей поисковой системе.
Например, если нужно вести поиск средствами Alfa Vista, надо набрать текст
запроса в поле ввода Alfa Vista и нажать кнопку "Поиск". Как сформировать
запрос? В основе запросов на поиск и выборку информации лежит аппарат алгебры
логики. Однако поиск в Интернет гораздо менее формализован, чем в
структурированных базах данных.
В качестве примера рассмотрим некоторые запросы в Alfa Vista. Простейший запрос
- отобрать страницы в Интернет, который содержит заданное слово, например
"Информатика". Если запрос состоит из нескольких слов, то в Alfa Vista
предусмотрены следующие соглашения.
Несколько слов, выбранных через пробел, обозначают запрос, соответствующий
логической операции ОК (ИЛИ). Например, по запросу школьная информатика будут
оформлены страницы, на которых имеется или "Школьная" или "Информатика" (или
сразу оба слова). Число таких документов очень велико: в них могут попасть
страницы, не имеющие никакого отношения к информатике.
Несколько слов, заключенных в кавычки, воспринимаются системой как единое целое.
Например, по запросу "Школьная информатика" будут отобраны документы, в которых
имеется эта символьная строка.
Слова, соединенные знаком "+" (плюс), соответствуют логической операции AKD (И).
Например, по запросу Школьная + Информатика будут отобраны документы, в которых
содержаться оба этих слова. Ясно, что число таких документов будет не меньше
числа документов, отобранных по второму запросу.