Реферат по предмету "Программирование, программное обеспечение, СУБД"


Организация поисковой системы на WWW-сервере

Содержание Введение. 3 Глава 1. Постановка задачи. 5
Глава 2. Общие принципы использования компьютеров в управлении работой коммерческой компании. 6 2. 1. Информационное обеспечение управления предприятием на современном этапе. 6 2. 2. Содержание и требования, предъявляемые к информации. 6 2. 3. Значение внутрифирменной системы информации. 7
2. 4. Основные принципы, цели, задачи и функции внутрифирменной системы информации. 8 2. 5. Технические средства, используемые во внутрифирменной системе информации. 9 2. 6. Система ведения записей. 9 2. 7. Формы как носители информации. 10 2. 8. Информационные базы данных. 10 Глава 3. Анализ деятельности Интернет-салона "Pilot". 12 3. 1. Стоимость услуг в салоне и провайдерских услуг. 12 3. 2. Оценка рынка сбыта. 12 3. 3. Конкуренция 13 3. 4. Маркетинг 14 3. 5. Техническое оснащение. 14 3. 6. Оценка риска и страхование. 15 Глава 4. Интернет - СЕТЬ СЕТЕЙ 16 4. 1. INTERNET. НЕМНОГО ИСТОРИИ. 16 4. 2. КОМПЬЮТЕРНЫЕ СЕТИ: ТИПЫ, НАЗНАЧЕНИЕ, ИЕРАРХИЯ. 17 E-mail (Electronic mail - Электронная почта). 19
FTP (Tile Transfer Protocol - Средство передачи файлов). 19 Usenet (Рассылка новостей). 19 Telnet (Дистанционное подключение к компьютеру). 20 Talk/Chat. 20 IntemetPhone. 21 VideoConference (Видеоконференции). 22 4. 4. INTERNET ДЛЯ ДОСУГА. 22 Real Audio. 22 Web ТУ. 22 Игровые сервера. 23 4. 5. АДРЕСАЦИЯ В INTERNET. 23 4. 6. ОСНОВНЫЕ ПРАВИЛА ИСПОЛЬЗОВАНИЯ INTERNET. 24 Глава 5. Доступ в Internet 25 Введение 25 5. 1. Виды доступа в Internet 26 5. 2. Непосредственный доступ 26 SLIP и PPP 27 Доступ ``по вызову'' (Dial-up Access) 28 Доступ UUCP 29 5. 3. Доступ через другие сети 29
Глава 6. Методы и средства автоматизации учрежденческой деятельности 30 6. 1. Методы автоматизации учреждений 30 6. 2. Обзор средств автоматизации учреждений 34
Средства офисной автоматизации и коллективной работы в сети 34 Пакет Microsoft Office for Windows 95 34 Система Lotus Notes 34 6. 3. Средства управления электронными документами 35 Система управления документами DOCS OPEN 35 Система управления документами Excalibur EFS 36 6. 4. Средства автоматизации документооборота 36 Пакет управления документооборотом Action Workflow 36 Пакет электронного документооборота Staffware 37 Глава 7. Руководство по системе Protos 39 7. 1. Описание системы. 39 Назначение системы 39 Технические характеристики 39 7. 2. Установка системы 39 Состав архива. 39 Организация работы. 40 7. 3. Настройка системы 40 Конфигурация 40 Запуск индексатора и поискового сервера 40 --- Программа Protos. exe 41 --- Управляющие приложения системы Protos 41 ---. Настройки поисковой странички 42 --- Конфигурационные файлы Protos 42 Секции, описывающие конфигурацию поисковой машины. 42 7. 4. Язык запросов Protos 45 Как трактуются слова 45 Естественно-языковый запрос 45 Основные операторы 46 Поиск с расстоянием 46 Круглые скобки 47 Поиск в определенных элементах 47 Поиск в найденном 47 Поддерево 47 Ранжирование результата поиска 47 7. 5. Краткое описание операторов запроса 48 7. 6. Стоп-слова 49 7. 7. Разметка документа 49 7. 8. Программные сообщения 50 Информационные сообщения 50 Сообщения ядра Protos 51
Глава 8. Сравнительные характеристики российских поисковых систем 51 I. Основные характеристики поисковых систем 51
II. Факторы, влияющие на определение релевантности страницы 52 III. Факторы, влияющие на отображение страниц в результатах поиска 52 Пояснения к таблице 53 I. Основные характеристики поисковых систем 53
II. Факторы, влияющие на определение релевантности страницы 55 III. Факторы влияющие на отображение страниц в результатах поиска 56 Глава 9. Сравнительная таблица зарубежных поисковых машин 58 Список используемой литературы и материалов 60 Приложение --- Листинги системы PROTOS. 61 Введение.
Управленческая деятельность выступает в современных условиях как один из важнейших факторов функционирования и развития промышленных фирм. Эта деятельность постоянно совершенствуется в соответствии с объективными требованиями производства и реализации товаров, усложнением хозяйственных связей, повышением роли потребителя в формировании технико-экономических и иных параметров продукции. Большую роль играют, также, изменения в организационных формах и характере деятельности фирм, повышение значения транснациональных корпораций в международных хозяйственных связях. Изменения условий производственной деятельности, необходимость адекватного приспособления к ней системы управления, сказываются не только на совершенствовании его организации, но и на перераспределении функций управления по уровням ответственности, формам их взаимодействия и т. д... Речь, прежде всего, идет о такой системе управления (принципах, функциях, методах, организационной структуре), которая порождена организационной необходимостью и закономерностью хозяйствования, связанными с удовлетворением, в первую очередь, индивидуальных потребностей, обеспечением заинтересованности работников в наивысших конечных результатах, растущими доходами населения, регулированием товарно-денежных отношений, широким использованием новейших достижений научно-технической революции. Все это требует от фирм адаптации к новым условиям, преодоления возникающих противоречий в экономическом и научно-техническом процессах. Новейшие достижения в области микроэлектроники привели к новым концепциям в организации информационных служб. Благодаря высокопроизводительным и экономичным микропроцессорам информационно-вычислительные ресурсы приближаются к рабочим местам менеджеров, бухгалтеров, плановиков, администраторов, инженеров и других категорий работников. Совершенствуются персональные системы обработки данных, автоматизированные рабочие места на базе персональных компьютеров (ПК), которые по стоимости приближаются к терминалам, а по возможностям -- к ЭВМ третьего поколения. На этой основе в 80-х годах наметилась тенденция развития информационно-вычислительной техники -- создание локальных вычислительных сетей (ЛВС) различного назначения. Однако, в ближайшее время, в силу сложившихся экономических условий, самыми распространенными станут ЛВС коммерческого назначения. В условиях рыночной экономики информация выступает как один из основных товаров. Успех коммерческой и предпринимательской деятельности связан с муниципальными, банковскими, биржевыми информационными системами, информатизации оптовой и розничной торговли, торговых домов, служб управления трудом и занятостью, созданием банка данных рынка товаров и услуг, развитием центров справочной и аналитико-прогнозной котировочной информации, электронной почты, электронного обмена данными и др. Как правило, работа этих систем базируется на локальных вычислительных сетях различной архитектуры ли их объединениях, получивших название корпоративных сетей. В это время проявилась и другая сторона применения персональной вычислительной техники. Являясь существенным подспорьем в автоматизации ряда рутинных работ, широко распространенные персональные ЭВМ в ряде случаев не обеспечивали создание достаточно мощных автоматизированных информационных систем (АИС) на базе ЛВС. Для таких АИС потребовалось использование в ЛВС компьютеров, рассчитанных на эффективную работу в сети. В локальные сети стали объединять ПК, мини-ЭВМ, большие ЭВМ, рабочие станции и специальные ЭВМ, концентрирующие сетевые ресурсы, -- серверы. Наличие в офисе, конторе, учреждении (предприятии, цехе и т. д. ) ЛВС создает для пользователей принципиально новые возможности интегрального характера, благодаря прикладным системам ПК и другому оборудованию сети. Организуется автоматизированный документооборот (электронная почта), создаются различные массивы управленческой, коммерческой и другой информации общего назначения и персонально используются вычислительные ресурсы всей сети, а не только отдельного ПК. Появляются возможности использования различных средств или инструментов решения определенных профессиональных задач (например, средств машинной графики, подготовки отчетов, ведомостей, докладов, публикаций и других документов). Кроме организации внутренних служб, ЛВС позволяют организовать внешние по отношению к обслуживаемому учреждению службы, такие, как телексная (телетайпная) связь, почтовая корреспонденция, электронные доски объявлений, газеты и пр. , а также выход в глобальные (региональные) сети ЭВМ и использование их услуг. Широкая и постоянно увеличивающаяся номенклатура ЛВС, сетевые программные продукты и технологии, возлагают на потенциального пользователя сложную задачу выбора нужной системы из массы существующих. В данном проекте предлагается один из вариантов решения задачи конкретной программной реализации системы управления работой коммерческой компании в условиях современного офиса, в частности поиск и классификация данных. Также подробно рассмотрены существующие на сегодняшний день локальные и глобальные поисковые системы и системы по обработке документооборота. Рассматриваются оптимальные варианты оснащения офиса коммерческой компании программным обеспечением, достаточным для решения поставленной задачи Глава 1. Постановка задачи.
Целью данной дипломной работы является разработка системы автоматизации поиска необходимых документов на WEB-сервере, а также использование данной системы для управления документаобототом коммерческой компании. Исходя из современных требований, предъявляемых к качеству работы управленческого звена коммерческой компании, нельзя не отметить, что эффективная работа его всецело зависит от уровня оснащения офиса компании электронным оборудованием, таким, как компьютеры, средства связи, копировальные устройства. В этом ряду особое место занимают компьютеры и другое электронное оборудование, связанное с их использованием в качестве инструмента для делопроизводства и рационализации управленческого труда. Их использование в качестве информационных машин, что, хотя и не соответствует их названию, но в последнее время становится основным видом их применения, позволяет сократить время, требуемое на подготовку конкретных маркетинговых и производственных проектов, уменьшить непроизводительные затраты при их реализации, исключить возможность появления ошибок в подготовке бухгалтерской, технологической и других видов документации, что дает коммерческой компании прямой экономический эффект, который не возможен без сответствующих программых систем управления. Разумеется, для раскрытия всех потенциальных возможностей, которые несет в себе использование компьютеров, необходимо применять в работе на них комплекс программных и аппаратных средств, максимально соответствующий поставленным задачам. Поэтому в настоящее время велика потребность коммерческих компаний в компьютерных программах, поддерживающих работу управленческого звена компании, а также в информации о способах оптимального использования имеющегося у компании компьютерного оборудования. Данный проект состоит из следующих трех этапов разработки:
разработки программы для индексирования необходимых документов с целью их послейдущего использования для внутреннего и внешнего использования, а именно на WEB? сервере. Данная программа может быть использована в качестве основного программного продукта в похожих системах предоставления "виртуальных" услуг поиска; разработка программы, которая по индексированным документам осуществляла бы поиск документов по ключевым словам с учетом морфологии русского языка. При проектировании принимались во внимание следующие требования: система должна нормально функционировать на стандартных персональных компьютерах клона IBM с процессором Intel386SX (минимальные требования), подсоединенных к офисной локальной вычислительной сети в режиме невыделенных серверов; система не должна иметь привязки к аппаратной части для возможности переноса ее на новую платформу из-за неизбежного морального старения компьютерной техники; архитектура системы должна быть выбрана таким образом, чтобы минимизировать вероятность нарушения штатного режима работы системы (выход системы из строя, разрушение информационной базы данных, потери или искажение информации) при случайных или сознательных некорректных действиях пользователей; система должна обеспечивать защиту информационной базы данных от несанкционированного доступа; основная программная оболочка системы должна устанавливаться на рабочие места системного администратора с любого компьютера, подсоединенного к локальной офисной вычислительной сети; установка программной оболочки должна производиться в режиме диалога Пользователь-ЭВМ специальной программой инсталляции; основная программная оболочка должна иметь интуитивно ясный дружественный интерфейс и не должна требовать от пользователей специальной подготовки, не связанной с их профессиональными обязанностями; основная программная оболочка должна иметь возможность изменять по желанию заказчика генерируемые формы отчетов и порядок заполнения исходных форм для запросов; система должна иметь возможность наращивания как программной, так и аппаратной части. Глава 2. Общие принципы использования компьютеров в управлении работой коммерческой компании.
2. 1. Информационное обеспечение управления предприятием на современном этапе. Коренной особенностью современной экономической мысли явилась направленность ее на обеспечение рационального ведения хозяйства в условиях дефицитности ресурсов, необходимость достижения высоких конечных результатов с минимальными затратами, преодоления малой эффективности регулирования производства административными методами, ускорения перехода к интенсивному характеру развития производства на основе развития научно-технического прогресса и т. д. Система управления хозяйством, отвечающая таким требованиям, логике и закономерностям социально-экономического процесса, должна быть гибкой и эффективной. В современных условиях одним из приоритетных направлений перестройки управления российской экономикой, особенно на уровне предприятий, объединений, концернов и других хозяйственных организаций, явилась выработка основных теоретических и методологических позиций по применению менеджмента в нашей практике. Это не мехенический процесс перенесения опыта промышленных фирм Запада, а творческий поиск новых решений. Тем самым, вместо декларации о необходимости широко использовать товарно-денежные, рыночные отношения, активно проводится работа по изысканию активных и реальных путей, форм и методов их органического сочетания в единой, целостной системе хозяйства. Потребуются радикальные и решительные шаги, известная смелость в практическом применении менеджмента на российских предприятиях. Можно с достаточной обоснованностью утверждать, что с переходом на новые условия хозяйствования в России будут нарастать позитивные процессы, позволяющие вопрос об эффективном управлении предприятиями ставить как практическую задачу. Усилится и роль менеджмента во внешнеэкономической деятельности. Понятно, что управление предприятиями будет иметь много специфических особенностей в зависимости от отраслевой принадлежности предприятий, степени вовлечения их во внешнеэкономическую деятельность, обеспеченности современной электронно-вычислительной техникой, характера выпускаемой продукции — предметов народного потребления или средств производства. 2. 2. Содержание и требования, предъявляемые к информации.
В современных условиях важной областью стало информационное обеспечение, которое состоит в сборе и переработке информации, необходимой для принятия обоснованных управленческих решений. Передача информации о положении и деятельности предприятия на высший уровень управления и взаимный обмен информацией между всеми взаимными подразделениями фирмы осуществляются на базе современной электронно-вычислительной техники и других технических средствах связи. В деятельности коммерческих структур, представляющих собой комплексы большого числа повседневно связанных и взаимодействующих предприятий, передача информации является первостепенным и непременным фактором нормального функционирования данной структуры. При этом особое значение приобретает обеспечение оперативности и достоверности информации. Для многих фирм внутрифирменная система информации решает задачи организации технологического процесса и носит производственный характер. Это касается прежде всего процессов обеспечения предприятий кооперированной продукцией, поступающей со специализированных предприятий по внутрифирменным каналам. Здесь информация играет важную роль в предоставлении сведений для принятия управленческих решений и является одним из факторов, обеспечивающих снижение издержек производства и повышение его эффективности. Важное значение имеет информация о возникновении в ходе производства отклонений от плановых показателей, требующих принятия оперативных решений. Соответственную роль в принятии решений играет научно-техническая информация, содержащая новые научные знания, сведения об изобретениях, технических новинках своей фирмы, а также, фирм-конкурентов. Это непрерывно пополняемый общий фонд и потенциал знаний и технических решений, практическое и своевременное использование которого обеспечивает фирме высокий уровень конкурентоспособности. Информация служит основой для подготовки соответствующих докладов, отчетов, предложений для выработки и принятия соответствующих решений. Содержание каждой конкретной информации определяется потребностями управленческих звеньев и вырабатываемых управленческих решений. К информации предъявляются определенные требования: по объекту и качеству — краткость и четкость формулировок, своевременность поступления; по целенаправленности — удовлетворение конкретных потребностей; по точности и достоверности — правильный отбор первичных сведений, оптимальность систематизации и непрерывность сбора и обработки сведений. 2. 3. Значение внутрифирменной системы информации.
Для современных условий характерно применение высокоэффективной внутрифирменной системы информации, основанной на использовании новейших технических средств автоматизированной обработки цифровой и текстовой информации на базе компьютеров с процессорами Intel 486, объединенных в единую внутрифирменную локальную вычислительную сеть Управленческая внутрифирменная информационная система представляет собой совокупность информационных процессов, для удовлетворения потребности в информации разных уровней принятия решений. Информационная система состоит из компонентов обработки информации, внутренних и внешних каналов передачи. Управленческие информационные системы последовательно реализуют принципы единства информационного процесса, информации и организации путем применения технических средств сбора, накопления, обработки и передачи информации в сочетании с использованием аналитических методов математической статистики и моделей прогнозно-аналитических расчетов. В производственно-хозяйственном подразделении предприятия обеспечивается обобщение информации “снизу вверх”, а также, конкретизация информации “сверху вниз”. Информационный процесс, направленный на получение научно-технической, плановой, контрольной, учетной и аналитической информации, в информационных системах унифицирован и базируется на электронно-вычислительной технике. Повышение эффективности использования информационных систем достигается путем сквозного построения и совместимости информационных систем, что позволяет устранить дублирование и обеспечить многократное использование информации, установить определенные интеграционные связи, ограничить количество показателей, уменьшить объем информационных потоков, повысить степень использования информации. Информационное обеспечение предполагает: распространение информации, т. е. предоставление пользователям информации, необходимой для решения научно-производственных задач; создание наиболее благоприятных условий для распространения информации, т. е. проведение административно-организационных, научно-исследовательских и производственных мероприятий, обеспечивающих ее эффективное распространение. Информация, и, особенно, ее автоматизированная обработка, является важным фактором повышения эффективности производства. Важную роль в исполнении информации играют способы ее регистрации, обработки, накопления и передачи; систематизированное хранение информации и выдача ее в требуемой форме; производство новой числовой, графической и иной информации. В 80-е годы произошел переход от отдельных управленческих информационных систем к созданию единой внутрифирменной системы сбора, обработки, хранения и представления информации. Произошла переориентация всей деятельности в сфере обработки информации на обеспечение ее конечной цели: удовлетворение потребности в информации руководителей на всех уровнях внутрифирменного управления. В связи с этим главное внимание уделяется точному формулированию вопросов, возникающих в сфере оперативного управления, и получению информациии в кратчайшие сроки для принятия необходимых решений. В зависимости от характера и содержания требуемой информации определяются соответствующие технические средства и методы обработки информации. В современных условиях в крупных организациях созданы и эффективно действуют информационные системы, обслуживающие процесс подготовки и принятия управленческих решений и решающие следующие задачи: обработка данных, обработка информации, реализация интеллектуальной деятельности. Для определения эффективности внутрифирменной системы управления на многих предприятиях в учете и отчетности стал использоваться показатель — отношение получаемой прибыли к затратам на технические средства и обеспечение функционирования внутрифирменной системы информации.
2. 4. Основные принципы, цели, задачи и функции внутрифирменной системы информации. Основными принципами и целями внутрифирменных систем информации являются: Определение требований к содержанию информации и ее характеру в зависимости от целенаправленности; Выработка системы хранения, использования и предоставления информации в централизованном и децентрализованном управлении; Определение потребеностей в технических средствах (в том числе, в компьютерной технике) на предприятии в целом и в каждом хозяйственном подразделении; Разработка программного обеспечения, создание и использование банков данных; Проведение многовариантных расчетов в процессе разработки программ маркетинга, планировании, контроле, сборе и обработки цифровой информации; Автоматизированная обработка и выдача текстовой информации; Обеспечение копировальными устройствами, телексами, всеми средствами связи и коммуникации в рамках предприятия и его отдельных подразделений; Автоматизация административно-управленческого труда на основе использования компьютерной техники. Важными задачами внутрифирменной системы управления являются: определение основных направлений системы сбора, обработки и хранения первичных данных; определение основных направлений развития технологии обработки информации. Определение потребностей каждого руководителя в необходимой ему конкретной информации — чрезвычайно сложная задача, и ее решение зависит от опыта и функций руководителя, а также, от его полномочий в принятии управленческих решений. Автоматизированные управленческие информационные системы призваны на основе быстрой обработки информации выдавать информацию об отклонениях от запланированных показателей. Наиболее эффективное применение ЭВМ зависит от следующих условий: создание самих вычислительных машин, создание для них программного обеспечения, подготовленность среды применения. Оснащение современным программыми продуктами позволяет экономить управленческие и накладные расходы, значительно повышает эффективность проектно-конструкторских работ, обеспечивает эффективное внутрифирменное планирование. Для современных условий наиболее характерно использование электронной техники в двух основных направлениях: в конторском деле — для замены секретарей-машинисток и делопроизводителей; в бухгалтерском деле — для составления письменных финансовых документов, осуществления безкассовых связей с банками и финансовыми учреждениями; в услових быстрого развити Интернета — для более качественного предоставления информации пользователям глобальной сети.
2. 5. Технические средства, используемые во внутрифирменной системе информации. Во внутрифирменной системе информации используются, прежде всего, такие виды вычислительной техники, как компьютеры, оснащенные необходимым набором периферии, электронные пишущие машинки, терминальные устройства со встроенной микро-ЭВМ, средства телекоммуникаций, средства автоматизированной обработки текстовой информации и, прежде всего ЭВМ — как крупногабаритные, так и персональные. ЭВМ используются, прежде всего, для обработки данных и решения расчетных задач. В современных условиях ЭВМ стали все чаще применять для обработки нечисловой информации (текстовой, графической) и термин “вычислительная техника” перестал соответствовать характеру задач, решаемых с помощью компьютера. Современные ЭВМ способны одновременно обрабатывать цифровую, текстовую и графическую информацию. В процессе автоматизации управления мини-ЭВМ используются, преимущественно, для: разработки оперативных планов производства и контроля за их выполнением; контроля движения запасов материалов, необходимых для процесса производства; расчета заработной платы; контроля за поступлением заказов; анализа данных о сбыте продукции; регистрации поступления платежей; ведения учета и отчетности.
Важную роль играет использование ЭВМ в системе производственного контроля. Установленные на контрольных участках ЭВМ проверяют качество поступающих на сборку частей и деталей (сверка веса, размеров допусков применительно к существующим стандартам). Развитие систем телекоммуникаций и, в частности, технологий локальных вычислительных сетей, позволило объединить все технические средства обработки цифровой и текстовой информации в единую внутрифирменную информационную систему. Наиболее эффективной системой информации считается система, основанная на одновременном использовании вычислительной техники и средств автоматизированной обработки текстовой информации, объединенных в одну систему. 2. 6. Система ведения записей.
На основе специальных программ, направленных на облегчение доступа и использования требуемой информации разрабатываются системы введения записей. К важнейшим видам записей относятся: технологическая документация, чертежи, инженерно-конструкторские расчеты; научная документация, опытно-конструкторские разработки, патенты и другая промышленная собственность; данные учета и финансовой отчетности, финансовая документация; расчеты заработной платы рабочих и служащих; тексты контрактов и сопроводительная документация; тектсы годовых отчетов и протоколы собраний акционеров;
данные для осуществления многовариантных расчетов в рамках программ маркетинга по продукту и по хозяйственному подразделению; данные для разработки планов и показатели самих планов. Обычно записи первичных данных делят на две группы:
Статистические (финансовые) отчетные показатели, а также, текстовая информация — доклады, сообщения, отчеты о текущей хозяйственной деятельности фирмы и перспективах развития; Составленные на основе информации первой группы предложения и рекомендации по вопросам совершенствования управления предприятием в целом и по отдельным подразделениям. 2. 7. Формы как носители информации.
Обычно необходимая информация заносится на определенные формы-носители информации. Формы могут содержать информацию по предприятию в целом и по каждому подразделению в отдельности. Каждая форма имеет свой перечень статистических данных и фактологической информации, позволяющих произвести оптимально детальный экономический анализ состояния и развития хозяйственной деятельности предприятия, разработать и принять необходимые управленческие решения. Так, например, существуют формы, в которые заносятся данные, о выпуске и продаже продукции за установленный период времени; о материально-производственных ресурсах (запасах); о численности персонала и наличии свободных рабочих мест. Различают следующие виды бланков форм: формы для хранения информации, формы регистрации данных, формы статистической (финансовой) отчетности, формы обследований. Заполненные формы хранятся в памяти ЭВМ и при необходимости могут быть выведены на экран дисплея или получены путем распечатки на принтере. В случае необходимости размножения заполненной и хранящейся в ЭВМ формы это делается с помощью копирующего устройства той же ЭВМ. Поскольку потребности в получаемой информации и ее содержание у управленческого персонала фирмы постоянно меняются в зависимости от изменяющихся внутренних условий, возникает необходимость в постоянном уточнении и переработке форм, содержащих первичные данные. 2. 8. Информационные базы данных.
Информационные базы данных включают весь комплекс статистических показателей, характеризующих хозяйственную деятельность предприятия в целом и его производственно-сбытовых подразделений, а также, фактологический материал относительно всех факторов, оказывающих влияние на состояние и тенденции развития предприятия. Обычно, при формировании базы данных, решается вопрос и о системе хранения и обновления данных, а также, обоснованная увязка данных, их взаимная согласованность, возможность проведения сравнений и сопоставления оценок, хранимых в банке данных. Это имеет существенное значение при объединении первичных данных в укрупненные группы (файлы) со своими реквизитами. Базы данных непрерывно обновляются на определенной систематической основе у учетом требований управляющих — основных пользователей базой данных. Во многих организациях и предприятиях созданы базы данных, в которых хранится информация о кадровом составе работников, постоянно обновляемая и максимально подробная, систематизированная по самым разнообразным признакам. Выбор информации делается с выводом на печатающее устройство, что позволяет следить за укомплектованностью штатов, перемещением кадров внутри предприятия, набором и увольнением работников, повышением их квалификации. Пользование банками данных, введенных в ЭВМ, резко ускоряет процесс получения информации из круга источников первичной информации и обеспечивает возможность выбора правильного и точного метода исследований для решения современных научных и технических проблем. Комплексная автоматизированная обработка информации предполагает объединение в единый комплекс всех технических средств обработки информации с использованием новейшей технологии, методологии и различных процедур по обработке информации. Создание комплексной автоматизированной системы предполагает использование всего комплекса технических средств обработки информации, переход к единой системе обработки всех видов информации. В последние годы устройства автоматизированной обработки текстовой информации стали широко использоваться руководителями всех уровней, которые на выведенном на экран документе делают свои замечания, ставят резолюции, что упрощает процесс согласования их действий, ускоряет процесс подготовки управленческих решений. Всей внутрифирменной системой информации управляет, как правило, специализированный аппарат управления. В общем случае он включает в себя: Вычислительный центр для обслуживания фирмы в целом; Центральную службу информации;
Информационную систему в производственных подразделениях, включающую отделы: обработки и анализа информации, обработки входящей и выходящей документации, хранения и выдачи информационных материалов, вычислительной техники. Могут создаваться, также, и центры хранения записей, где информация хранится на оптических носителях и может быть в кратчайший срок выдана по запросу через локальную вычислительную сеть. В настоящее время на крупных предприятиях создается центральная служба ведения записей и формирования банка данных, в функции которой входит унификация всех видов записей как основы создания эффективной внутрифирменной системы информации. Эта служба разрабатывает единую внутрифирменную программу совершенствования системы записей и оказывает в этом помощь всем производственным подразделениям. Внедрение ЭВМ в информационно - управленческую деятельность фирм повлекло за собой возникновение и развитие новых видов профессиональной деятельности, связанных с обслуживанием ЭВМ, а именно программистов, операторов, обработчиков информации Глава 3. Анализ деятельности Интернет-салона "Pilot". 3. 1. Стоимость услуг в салоне и провайдерских услуг.
Интернет на сегодняшний момент является оперативнейшим источником информации и средством общения между людьми. Для этой глобальной сети не существует границ, посредством Интернета почта доходит от нескольких минут до нескольких часов в любую точку земного шара, люди получают возможность визуально общаться друг с другом не выходя из дома. Новости в Интернете на несколько часов опережают телевидение, радиовещание и газеты. Доступ к Интернету представлен в различных формах, которые зависят от потребностей потребителя: это может быть коммутируемый доступ по телефонным линиям или постоянный доступ 24 часа в сутки. Оплата варьируется от состояния рынка, так как на данный момент на рынке присутствует около 10 компаний предоставляющих доступ к Интернету, соответственно цены не могут сильно завышены или занижены. Примерная оценка стоимости доступа составляет примерно 30-45 $ США в месяц за неограниченный доступ и при повременной оплате, зависящей от времени дня составляет 0. 9$/час днем и 0. 7-0. 8$/ночью. Дневное время определятся с 9. 00 утра до 18. 00 вечера, ночное время соответственно с 19. 00 ночи до 9. 00 утра. За предоставление электронного почтового ящика салон берет слейдущую плату: 20 руб. регистрация и 30 руб. абонентская плата. При этом нашим клиентам сообщается о том, есть ли на их ящике электронные сообщения. Также бесплатно предоставлено 2Мб дискового пространства для нужд пользователя. Использование места на диске свыше 2 Мб оплачивается отдельно. Также параллельно предоставлению доступа в Интернет создаются сайты для коммерческих организаций и частных лиц. Оплата данной услуги не имеет фиксированного прейскуранта и устанавливается индивидуально для каждого заказчика в зависимости от сложности работы. Для пользователей организована круглосуточная телефонная служба технической поддержки. Учитывая состояние телефонных линий в Казани, не все желающие смогут получить ту скорость соединения, которую они хотели бы, но в целом это не отражается на общем числе пользователей. Сам салон предоставляет следущие услуги:
работа за компьютером - 20 руб. /час. В это понятие входят слейдущие пункты: поиск в Интернете, компьютерные игры по сети и локально, работа с офисными программами типа Word, Excel, информационно-правовой базой Референт и т. д. ; изготовление рефератов и курсовых на заказ;
подбор нужной информации в Интернете. Расценки зависят от сложности поиска и от потраченного времени; консультирование пользователей по разным вопросам из расчета 40руб. /час. Краткосрочные консультации - бесплатно; кроме этих услуг, существует услуга ксерокопирования, а также продажа CD? ROM-в, технической литературы. 3. 2. Оценка рынка сбыта.
Рынком сбыта доступа в Интернет (в дальнейшем назовем его аккаунт) является Казань и возможно некоторые пригорода Казани типа Зеленодольска при условии наличия казанского номера и устойчивой связи с приемлемой скоростью соединения. Учитывая большое количество конкурентов и не ослабевающий интерес к Интернету, можно сказать, что в ближайшие несколько лет рынок вырастет в несколько раз. Фирмы, предоставляющие аккаунты для пользователей, дают в своей основе, идентичный пакет услуг, который незначительно изменяется в зависимости от каждой фирмы. Цены на рынке незначительно колеблются в зависимости от спроса. Несмотря на обилие фирм предлагающих данную услугу спрос на аккаунты держится примерно на одном уровне. На рынке можно выделить 2-3 крупнейших компании предоставляющих аккаунты, такие как Мелт-Интернет, Татинком-БИТ, НТЦ Восход, в которых цены несколько выше, чем в среднем по Казани. Но в данных компаниях несколько шире спектр предоставляемых услуг и качество сервиса. Спросом у частных лиц пользуются аккаунты более мелких фирм, у которых также существует ежемесячная оплата (так называемый unlimited), без учета времени. Качество связи напрямую зависит от качества АТС пользователя и провайдера, так что у каждого провайдера постепенно формируется свой круг постоянных пользователей. В частности наш салон пользуется выделенной линией у АТС №36. Исследование мнения потребителей производится, учитывая звонки в службу технической поддержки. Услуги, предоставляемые нашей компанией, ориентированы как на частного пользователя, так и на организации. Наш аккаунт довольно популярен, так как мы предоставляем возможность выбора между ежемесячной и почасовой оплатой, в некоторых провайдерах такого выбора нет. Регистрация пользователей в нашей базе данных бесплатна, в то время как некоторые провайдеры взимают за это единовременную плату в размере 5-10 $ США. Для организаций мы можем предоставить выделенный канал ISDN, при ежемесячной плате 300-400$ США. Данный вид доступа необходим компаниям, которым необходима оперативный доступ к информации и оперативная связь со своими партнерами по всему миру. Также есть спрос на сайты различных компаний, так как при всех прочих условиях реклама в Интернете намного дешевле и к тому же на своем сайте можно разместить несоизмеримо больше информации, чем в любом печатном издании. 3. 3. Конкуренция
Сейчас на рынке находится несколько основных провайдеров, у которых сложился определенный круг пользователей и которые будут составлять основную конкуренцию. Ниже приведены цены на предоставляемые ими аккаунты [1 Журнал "Hi-Tech". №1 декабрь 1998. Стр 16. ]. Название компании провайдера Цена на unlimited (неограниченный доступ) Повременная оплата 1. Мелт-Интернет 175 $ (круглосуточно) от 1. 2 до 1. 5 $ днем. 2. БанКорп нет 1, 0 $ в час с 9 до 18 вечера 0, 9 $ в час с 18 до 0 ночи 0, 8 $ в час с 0 до 6 утра 3. Татинком-БИТ нет 1, 4 $ в час с 6 до 22 ночи 0, 9 $ в час с 22 до 6 ночи 4. Лайнет Входящий трафик не более 60 Мб 1, 5 $ в час с 8 до 23 ночи 0, 9 $ в час с 23 до 8 утра
В данной таблице находятся представители всех ценовых категорий. Учитывая, что данные компании находятся на рынке достаточно давно, то о них сложилось уже довольно устойчивое мнение потребителей. Поскольку наша компания ориентируется на потребителя со средним достатком, то компании типа Мелт-Интернет не будут составлять нам конкуренцию, так как мы изначально не можем выйти на их уровень предоставления услуг. Основную конкуренцию мы наблюдаем со стороны небольших провайдерских фирм, предоставляющих доступ по системе неограниченного доступа. На данный момент на рынке по такой системе реально работают достаточно небольшое количество фирм. Из них 2-3 находятся на рынке больше года, остальные достаточно недавно были созданы и мы находимся с ними почти в одинаковых условиях. У новых компаний нет еще сложившегося круга пользователей, также как и единого мнения пользователей о качестве предоставляемых услуг. Рекламу своих услуг фирмы провайдеры размещают в основном в специализированных изданиях [2 Журналы “Hi-Tech”, “Komputer World Казань”, газета “Компьютерная Казань” и другие. ], что связано с тем, что Интернет не получил еще всестороннего применения в России. Но реклама размещается в компьютерной прессе достаточно регулярно, что свидетельствует о регулярном спросе на аккаунты в Казани. В мире коммуникаций на данный момент есть технологии позволяющие повысить скорость передачи данных по телефонным линиям. Некоторые компании для привлечения пользователей начинают вводить на своих модемных пулах (телефонный номер на котором установлены модемы) эти технологии, но в некоторых случаях это себя не оправдывает, так как для получения высокой скорости соединения 57600 бит/сек. (средняя скорость соединения 28800-33600) необходимо иметь высококачественные кабели (оптоволокно) и цифровую АТС. Наша компания располагает и оптоволокном, и спутниковой тарелкой, и выделенной линией. Большинство же пользователей не имеют ни того, ни другого и наличие или отсутствие у фирмы данного оборудования никак не затрагивает их интересы. Следующий аспект в выборе провайдера лежит в области оплаты услуг. Для удобства пользователей некоторые провайдеры предоставляют своим клиентам возможность оплаты своих услуг через банк или при помощи кредитной карточки. Это существенно упрощает взаимоотношение провайдера с клиентом и позволяет снять дополнительную нагрузку с офиса. 3. 4. Маркетинг
Распространение аккаунтов предполагается не только через напрямую фирма и клиент, а еще через магазины и фирмы торгующие компьютерной техникой. По предварительному договору с магазином (компанией) наш аккаунт может прилагаться в комплекте с модемом или вместе с компьютером оснащенным модемом. Также для рекламы можно будет распространять аккаунты в виде небольших бесплатных пакетов содержащих 2-3 часа работы в Интернет. Такой вид рекламы приобретает в последнее время все большую популярность, распространяются данные аккаунты через компьютерные журналы или на компьютерных выставках. Для новых пользователей предоставлена возможность проверки связи, так называемый тестовый логин на 0. 5-1 час работы, перед заключением договора на подключение. Организованная для клиентов служба технической поддержки работает круглосуточно и без выходных, это делается для оперативного устранения неполадок и, чтобы клиент всегда мог получить квалифицированную помощь при возникновении проблем. Мнение о качестве связи и работе узла подключения получаются напрямую от наших клиентов. 3. 5. Техническое оснащение.
Для создания Интернет узла у нас имеется небольшое помещение для размещения компьютеров и коммуникационного оборудования, также есть в наличии телефонные линии. Для нормальной работы существует 2-3 компьютера объединенные в локальную сеть, 20-30 модемов объединенные в одну стойку и подключенные к телефонной линии через специальный разветвитель. Все оборудование: компьютеры, модемы и прочее закуплено на внутреннем рынке, так как при прямом заказе у производителей были возможны задержки при получении товара на таможне. Телефонные линии закуплены у ГТС, вероятно скоро будет закуплена еще сразу целая серия из 10-15 номеров для обеспечения полного функционирования офиса. Оборудование в самом салоне состоит из слейдущего технически-аппаратного состава: 10 машин с процессорами Intel Pentium 166 MXX, 32 Мб ОЗУ, HDD с среднем 1. 5 Гб; один выделенный сервер со следущей конфигурацией: процессор Intel Pentium 200 MXX, 64 Мб ОЗУ, HDD 4. 5 Гб; все машины и сервер объединены в локальную сеть с помощью Хаба; питание подается только через сетевые фильтры. 3. 6. Оценка риска и страхование.
При нынешнем состоянии телефонных линий в Казани одной из главных проблем является проблема качества связи, которая может ухудшаться по разным причинам, например из-за изменения погодных условий. Но это по большому счету кардинально не влияет на количество наших клиентов. Другая проблема, с которой могут столкнуться не только пользователи Интернета, это введение ГТС повременной оплаты за телефон. ГТС в данном случае является монополистом в этой области и вероятно поэтому не особо прислушивается к мнениям окружающих. Поскольку оплата будет производиться поминутно и не будет существовать какой-либо ежемесячной платы, то это сильно может отразиться на количестве пользователей. Глава 4. Интернет - СЕТЬ СЕТЕЙ 4. 1. INTERNET. НЕМНОГО ИСТОРИИ.
В 1969 году Управление перспективных исследований (Advanced Research Projects Agency - ARPA) Министерства обороны США выдало заказ на разработку компьютерной сети, которая должна была, с одной стороны, обеспечить сохранение коммуникации в случае ядерной атаки противника, а с другой стороны - облегчить сотрудничество различных исследовательских учреждений. Появившаяся в результате этого сеть ARPANET сначала обеспечивала связь между университетами, военными учреждениями и предприятиями оборонной промышленности, причем подсоединяться к компьютерам этой сети могли только исследователи. Спустя некоторое время в систему были встроены программы перемещения файлов и электронная почта. Для того чтобы сеть продолжала функционировать в случае разрушения одной или нескольких линий связи, система должна была уметь переключаться на другие линии и, таким образом, самостоятельно устанавливать связь между двумя пунктами. Этот процесс называется динамической маршрутизацией. На первых порах обмен данными мог осуществляться только между компьютерными системами одного типа. Появление различных операционных систем вскоре вызвало необходимость соединения различных систем таким образом, чтобы они могли сообщаться друг с другом без всяких ограничений. Управление DARPA (переименование ARPA) выдало заказ под названием “Internetting Project” на разработку соответствующей системы. Решение поставленной задачи заключалось в создании независящего от аппаратного обеспечения протокола передачи данных, который использовался бы всеми компьютерами-корреспондентами для обмена данными. Эта задача была так же успешно решена, вследствие чего система стала значительно привлекательней для пользователей, а следовательно, ею заинтересовались кроме академических и правительственных организаций уже и коммерческие фирмы. Так как новая система предоставляла новые обширные и простые коммуникационные возможности, число ее приверженцев постоянно росло. В 1981-1983 годах зарождающийся Internet (в сегодняшнем понимании этого явления) насчитывал несколько сот “хост-компьютеров, т. е. компьютеров, которые обеспечивают доступ к глобальной сети. К началу 1987 года их было уже более 5 тыс. , к 1992 - около 1 млн. , а к январю 1998 - около 30 млн. В последнее время число “хост” [3 От англ. host - компьютер, который обеспечивает доступ пользователю в internet и через который происходит взаимодействие ПК и Internet. ]-компьютеров ежегодно примерно удваивается. Темпы роста и соdременные размеры Internet иллюстрируют данные опубликованные на WWW-сервере “Network Wizards” [4 URL адрес - http: //www. nw. com] и приведенные ниже в виде графика.
Это огромное количество компьютеров хранит невероятные объемы информации, воспользоваться которой, не зная некоторых правил, весьма затруднительно. Для облегчения ориентации в “океане” информации существуют разнообразные поисковые системы как общего назначения, например Yahoo! [5 URL адрес - http: //www. yahoo. com/] и AltaVista [6 URL адрес - http: //www. altavisla. com/] или отечественные Ау! [7 URL адрес - http: //www. au. ru/] и Апорт! [8 URL адрес - http: //www. aport. ru/], так и специализированные типа LOCIS [9 URL адрес - http: //lcweb. loc. gov/calalog/] (Library Of Congress Information System - Информационная система Библиотеки конгресса США). Но получение информации из Internet, как было сказано выше, далеко не единственное доступное средство информационного обмена. Мне хотелось бо остановиться на этом вопросе поподробнее и провести обзор средств информационного обмена или, как их называют, сервисов Internet. 4. 2. КОМПЬЮТЕРНЫЕ СЕТИ: ТИПЫ, НАЗНАЧЕНИЕ, ИЕРАРХИЯ. По ряду технических признаков выделяют три группы сетей: - локальные сети (LAN); - региональные (корпоративные) сети (MAN); - глобальные сети (WAN).
А так же Internet - совокупность всех трех видов сетей, объединенным тем или иным способом. Локальная вычислительная сеть (ЛВС - LAN) - совокупность компьютеров (организации, подразделения), объединенные между собой с помощью специального (сетевого) оборудования. Виды сетевого оборудования: - кабельные системы
- электронные компоненты (net card, repeater, hub etc. ) В большинстве случаев ЛВС - это технически однородные системы. Назначение ЛВС: а) обмен данными; б) коллективное использование ресурсов. Региональные (корпоративные) сети. Их назначение - то же, что и локальных сетей. Но от ЛВС данный класс сетей отличает как величина, так и типы используемого оборудования. Фактически можно сказать, что корпоративные сети - это объединение локальных вычислительных сетей. Этот тип сетей технически неоднороден и может базироваться на разных типах оборудования. Глобальные сети - совокупность специализированных коммуникационных каналов. По своей структуре являются многоуровневыми иерархическими системами. Базируются на использовании разных типов оборудования и протоколах [10 Протокол - “язык” общения различных компонент вычислительных систем друг с другом. ]. Их основное назначение - передача данных и связь сетей более низкого уровня между собой. Эксплуатация и развитие глобальных сетей осуществляется специализированными (телекоммуникационными) компаниями (AT&T, ВТ, DT и др. ). Для построения сетей используются телекоммуникационные каналы трех типов: - магистральные (высокоскоростные каналы, базирующиеся на спутниковых или оптоволоконных каналах связи). Служат для связи региональных узлов сети. - среднего уровня (высокоскоростные проводные или наземные беспроводные). Служат для передачи данных на уровне региональных сетей. - оконечные (обычные телефонные каналы связи - выделенные и коммутируемые). Служат для подключения конечных пользователей (локальных сетей и организации удаленного доступа). Internet - больше логическое понятие, чем физическое явление. Физически базируется на всех трех вышеназванных каналах связи и является, как уже было сказано, совокупностью (объединением) сетей разных классов. Если и можно говорить об Internet, то как об информационной, а не физической сети. Можно сказать и так, что Internet - это совокупность компьютеров, имеющих возможность связаться друг с другом с помощью определенных протоколов. Таким образом, человек, садясь за компьютер подключенный к Internet, получает в свое распоряжение огромное количество информации и данных, присутствующих в Internet (т. е. на компьютерах, имеющих доступ в Internet). Причем получает бесплатно - он не платит за пользование ресурсами Internet, потому что эта сеть некоммерческая. Следует обратить внимание на разницу - оплата за работу в сети и использование ее ресурсов и оплата за доступ (подключение) к сети и оплата каналов связи (в частном случае телефонной компании). По другому обстоят дела в коммерческих сетях (America-on-Line, CompuServe и др. ) - здесь за работу в сети и за доступ к ее ресурсам приходится платить. 4. 3. СЕРВИСЫ (СРЕДСТВА ИНФОРМАЦИОННОГО ОБМЕНА) INTERNET.
Количество услуг, доступных в Internet, постоянно увеличивается. На сегодняшний день основными являются: E-mail, WWW, FTP. Реже, в основном техническими специалистами, используются такие средства как Telnet и Usenet. “Набирают очки” такие молодые, базирующиеся на мультимедиа технологиях, средства общения как Talk/Chat, InternetPhone, VideoConference. Ну и, конечно же, нельзя не отметить средства предоставляемые Internet для досуга: радиовещание в Internet, телеканалы, игровые сервера. Эти возможности Internet я сейчас и рассмотрю. E-mail (Electronic mail - Электронная почта).
Электронная почта является самым старым, и вместе с тем самым доступным и дешевым средством информационного обмена. Электронную почту вполне можно сравнить с обычной почтой. Она также служит для передачи письменных сообщений из одного пункта в другой. При этом электронная почта обладает тем преимуществом. что позволяет отправлять и принимать сообщения в любое время. Электронное письмо приходит практически сразу после его отправки (время доставки колеблется от нескольких минут до нескольких часов в зависимости от того, куда оно доставляется - на соседнюю улицу или на другой континент). Впрочем, электронная почта предлагает более широкий спектр услуг, чем просто быструю передачу сообщений. Электронное письмо, кроме текста, может содержать звуковые и графические файлы, а также другую двоичную информацию, например программы. Разумеется, электронное письмо можно отправить не только по одному адресу, а сразу в несколько различных пунктов. Кроме того, многие пользователи, которые имеют выход в Internet только через электронную почту, научились пользоваться большей частью всех предлагаемых сетью услуг только с помощью этого средства. Таким образом, эта система является гораздо более гибкой и мощной, чем обычная почта. Сфера использования e-mail в бизнесе на данный момент широка. Это и обычная переписка, и пересылка файлов, содержащих необходимые данные (например финансовый отчет в виде электронных таблиц, графиков, сопроводительного текста), и запросы к библиотекам данных. До недавних пор e-mail являлось основным наиболее широко используемым и общедоступным средством коммуникации в internet. И сейчас она не утратила свое значение, и наряду с WWW является лидером по частоте использования. Неоспоримым плюсом e-mail является дешевизна. Этот самый экономичный сервис (оплата за пользование e-mail самая низкая) поможет вам оперативно решать многие стоящие перед вами задачи, тем более, что для этого не нужно никакой дополнительной аппаратуры. Необходима лишь специальная программа, которая будет обеспечивать вашу переписку. FTP (Tile Transfer Protocol - Средство передачи файлов).
Этот сервис, так же как и e-mail, был первым средством разработанным для широкого использования в Internet. Он позволяет получить в свое распоряжение бесчисленное множество файлов (документов, программ, информационных сообщений, таблиц и графиков) находящихся на всех доступных компьютерах земного шара. Примечательно, что для того чтобы воспользоваться этой возможностью не нужно никаких дополнительных средств (ни аппаратных, ни программных). На данный момент это средство стало, вообще, “прозрачным” для пользователя. Оно встроено в программы просмотра WWW страниц и запускается на выполнение автоматически, так что большинство пользователей даже и не догадываются о его существовании. Но, тем не менее, еще существуют достаточно много задач, которые требуют использования этого средства “вручную”, что и вызвало необходимость упомянуть его в этом обзоре. Usenet (Рассылка новостей).
Usenet представляет собой не столько техническое средство, сколько комплекс мероприятий, направленных на поддержание тематически однородных дискуссионных групп, объединения разрозненных сообщений в общие темы и рассылку конкретных групп новостей заинтересованным пользователям. Сегодня существует уже более 15000 групп новостей [11 По состоянию на начало 1999 г. ] (newsgroups). Таким образом Usenet позволяет обмениваться мнениями и быть в курсе событий практически по любой теме, которую можно только придумать. Вы можете, например, обсуждать новые методы социологических исследований или текущие тенденции в развитии экономики экваториальных стран. А можете поделиться впечатлениями о только что прошедшей премьере нового фильма или обменяться кулинарными рецептами с гурманами всего мира. Технически этот полезный и удобный сервис базируется на средствах E-mail и FTP. В последнее время бурное развитие получила новая разновидность рассылки новостей - так называемая широковещательная рассылка (broadcasting news). Это не что иное как электронный аналог доставки готовых обедов на дом. Стандартный способ получение новостей, вкратце, выглядит следующим образом. Вы подключаетесь к специальному серверу новостей, ищите там - в иерархически организованной структуре - интересующую вас тему и, наконец, ставите специальную “метку”, которая дает знать вашей программе (которую вы используете для просмотра новостей) что вас интересует. В дальнейшем, для получения новостей, вам нужно вручную подключиться к выбранному серверу, и программа автоматически перепишет на ваш компьютер все новые сообщения которые появились по интересующим вас темам с тех пор как вы последний раз обращались сюда. Частота обновлений новостей зависит, в общем случае, от вашей лени - чем чаще вы заглядываете на сервер новостей, тем более свежие новости получаете. Причем не на всех серверах информация обновляется с постоянной периодичностью (так, в основном, бывает у специализированных агентств новостей - CNN и др. ). Достаточно часто бывает так, что вы подключились, а “новостей на сегодня нет” [12 Фраза постоянно произносимая Иваном Демидовым в программе “Музобоз”]. А время и деньги на подключение потрачены - жалко! Новый вариант потребления новостей таков. Вы устанавливаете у себя на компьютере специальную программу и, не подключаясь к Internet, выбираете интересующие вас темы. Дополнительно, вы можете указать с каких серверов вы хотите получать данные. Список серверов так же присутствует в программе. Все* Дальше программа сделает все за вас сама. Она будет периодически, незаметно для вас и не задерживая вашу работу, посылать очень короткие запросы на выбранные вами сервера с целью выяснить: нет ли новостей? Если обнаружилось что-то “новенькое” - программа подключиться к серверу и перепишет необходимую информацию сразу из нужного места на ваш ПК. Вам же она каким-либо образом ненавязчиво даст понять, что неплохо бы обновить свои знания о том, что происходит в мире. Причем ознакомится с новостями вы можете в любое удобное для вас время и в удобной форме. Обычно используются три варианта: а) в определенном месте экрана бежит строка с сообщениями о новостях (котировки, курсы, погода и т. д. ); б) информация сохраняется и показывается в виде экранной заставки (screen saver), когда вы делаете перерыв в работе с компьютером; с) новости сохраняются в виде файлов и вы в любой момент можете их просмотреть. Таким образом, с помощью специальных программ вы можете всегда находиться в курсе событий, а - как известно - “кто предупрежден - тот вооружен”. Telnet (Дистанционное подключение к компьютеру).
Telnet обеспечивает интерактивный доступ к удаленному компьютеру. При установлении связи с другим компьютером посредством Telnet у вас появляется ощущение, что вы сидите непосредственно перед тем компьютером. Практически это предоставляет вам все возможности удаленной системы, если, конечно вам разрешен доступ ко всем ее ресурсам. На сегодняшний день это средство широко не используется, хотя не требует для себя никаких дополнительных ресурсов. Это объясняется технической сложностью осуществления связи и дистанционного управления другим компьютером. Активно этим средством пользуются лишь администраторы вычислительных сетей для дистанционного управления и настройки компьютеров и технические специалисты для запуска сложных расчетных задач на более мощных компьютерах, находящихся в специализированных ВЦ. Talk/Chat.
Если e-mail позволяет людям общаться по переписке, то Talk/Chat -“вживую”. В отличие от электронной почты система Talk дает возможность “беседовать” в режиме реального времени с пользователем Internet, который находится в любом уголке земного шара. Это означает, что “беседа” проходит таким образом, как будто оба собеседника сидят друг напротив друга. В действительности, каждый из них на экране своего компьютера видит информацию, вводимую его собеседником, и тут же отвечает на нее, набирая свою. Это принцип действия Talk. Более мощные и современные программы, группируемые обычно термином Chat [13 От анг. chat – болтовня, разговоры. ], позволяют вести диалог одновременно нескольким пользователям (обычно до 8). Таким образом организуются виртуальные конференции, позволяющие людям, не собираясь в одном месте, оперативно решать многие вопросы. Но чаще это средство используется не для деловых совещаний, а для того, чтобы “отвести душу” - “потрепаться” со своими друзьями и коллегами. Отличие Talk/Chat от e-mail обусловливает как его преимущества, так и недостатки. Преимуществом является оперативность контакта, недостатком - необходимость всем заинтересованным лицам находиться одновременно в строго определенное время за своими компьютерами, что, как вы сами понимаете, не всегда возможно Обычно время связи оговаривают заранее. Причем если вы связываетесь с коллегами в разных частях света не стоит забывать о разнице во времени. В принципе задача вызова на связь сильно упрощается, если вызываемый в данный момент работает за компьютером или, в крайнем случае, его компьютер просто включен. Тогда вызывающий просто сообщает программе электронный адрес вызываемого, а программа сама определяет доступен ли он или нет. Если связь установить невозможно - программа сообщает об этом, если искомый компьютер включен - программа посылает ему сигнал, а Тот. в свою очередь, сигнализирует пользователю о том, что такой-то человек хочет с ним связаться. IntemetPhone. [14 "Не строгое определение термина. В данной работе для определения явления. ввиду отсутствия общепринятого термина, используется название одной из программ, обеспечивающей объясняемый вид связи. ] Следующим логичным шагом развития средств общения посредством Internet стало внедрение обычной голосовой телефонии. Это средство является одним из последних технических достижений в развитии коммуникационного сервиса Internet. Фактически это не что иное, как обычный телефон, разговоры по которому обходятся значительно дешевле, чем обычные международные разговоры. Принцип действия, адресации и вызова абонента аналогичен применяемому в Chat. Отличие лишь в том, что нет необходимости набирать ваши слова на клавиатуре и читать ответ с монитора - вы просто говорите как по обычному телефону. Здесь отметим, что в дополнение к недостаткам Chat, в случае с IntemetPhone добавляются следующие. Для того чтобы воспользоваться этим средством, как тому, кто звонит, так и тому. кто отвечает на звонок необходимо иметь компьютер, оснащенный средствами Multimedia (звуковой платой; микрофоном, колонками или наушниками) и соответствующей программой. Кроме того, каналы по которым будет осуществлена связь должны обладать достаточной пропускной способностью, чтобы успевать передавать оцифрованную речь. В любом случае передача вашего диалога будет происходить с некоторой задержкой. Это связанной с тем, что в отличие от обычной телефонной связи, когда во время разговора устанавливается прямое соединение от одного говорящего к другому и линия выделяется только для них одних, при передачи речи в цифровом виде по Internet она идет по тем же каналам по которым одновременно с этим передается еще куча другой информации (файлы, WWW страницы, почта и т. д. ). Таким образом на некоторых участках пути неизбежно возникают заторы, что вызывает появление задержек во фразах. Тем не менее уже сейчас в некоторых случаях экономически оправдано применение такого способа телефонных разговоров [15 См. Деньги” №39 за 1997 г. , с. 48-50. ], а вскоре, с улучшением каналов связи, этот метод может даже существенно потеснить традиционный. Неспроста уже сейчас ведется жесткая конкурентная борьба между телефонными компаниями “старой закалки” и молодыми, предоставляющими услуги Internet [16 См. “Эксперт” №39 за 1998г. с54, 55. № 44 за 1998г. с. 68]. И все больше компаний с традиционными телефонными услугами смотрят в сторону новых технологий. VideoConference (Видеоконференции).
Видеоконференции через Internet представляют собой симбиоз обычных видеоконференций и InternetPhone. Фактически внешне это обычная видеоконференция, но только с передачей сигналов не по специальным дорогостоящим спутниковым каналам связи, а по более дешевым Internet-каналам. Но в отличие от IntemetPhone, передается не только оцифрованный звук, но и оцифрованное видеоизображение. Это накладывает очень жесткие требования на скорость работы каналов связи. Обычные каналы в данном случае уже не справляются и приходится использовать более дорогие каналы сетей ISDN, которые в данный момент доступны не многим. Кроме того, очевидно, для данного типа связи необходимо дополнительное достаточно дорогостоящее оборудование (к тому. что необходимо для IntemetPhone добавляется специальные видеокамеры и устройства для вывода видеоинформации на дисплей компьютера). Все это делает видеоконференции доступными пока в основном корпоративным пользователям, крупным научным и правительственным центрам. На сегодняшний день многие корпорации имеющие региональные отделения, плановые заседания советов директоров проводят используя видеоконференции. Кроме экономии очевидных расходов на перемещения топ-менеджеров (которые составляют значительные суммы) и экономии времени, достигается еще один эффект: повышается эффективность их работы. Им не надо тратить силы на адаптацию при перелетах, меньше вредных воздействий на организм, а значит лучше здоровье и меньше потерь у фирмы от болезни руководителя (который чаше всего является человеком зрелого возраста). Наконец, в случае необходимости, у него под рукой всегда необходимые документы и информация, сотрудники подразделений. Но быстрое развитие технологии и, как следствие, снижение цен делает все более привлекательным такое средство общения и обмена информацией. 4. 4. INTERNET ДЛЯ ДОСУГА. Real Audio.
Пионером в этой области была ITR - радиостанция которая ведет регулярные передачи в Internet и охватывает более 30 стран мира. Радиостанция записывает, например, различные интервью, которые затем можно получить в виде цифровых аудио-файлов и прослушать на своем компьютере. На сегодняшний день такой тип распространения аудио информации практически вытеснен другим стандартом, получившим название Real Audio. В данном случае мы имеем полный аналог обычного радиовещания, но речь и музыка преобразовываются не в радиосигналы идущие в радиоэфир, а в цифровые данные передаваемые по Internet. Точно так же как и в случае с обычными радиостанциями вы можете настроиться на вашу любимую и слушать музыку с качеством сравнимым по звучанию с CD. Фактически, это односторонний аналог InternetPhone, следовательно вам потребуется тот же набор дополнительной аппаратуры, за исключением микрофона и специальная программа, способная “ловить” радиостанции. На сегодняшний день уже несколько сотен радиостанций ведут свое вещание в данном формате. Из отечественных можно привести в пример “Серебряный дождь” и “Русское радио”. Web ТУ.
Система, аналогичная Real Audio, но транслирующая видеоролики и видеопрограммы. Это очень молодое направление, появившееся в 1997 году настолько перспективно, что позволяет предположить в ближайшем будущем настоящую революцию в телевещании. Уже сейчас телевизионные компании беспокоятся, что компьютерные фирмы отберут у них прибыли. По этой причине они отказались от сотрудничества с Microsoft и Intel в области цифрового телевидения [17 См. “Эксперт” №4 за 1998г. с79]. На данный момент пока больше распространены так называемые Web Camera. Это сервер, на который поступает информация с видеокамеры. Такие сервера разбросаны по всему миру и вы, подключаясь к ним можете наблюдать на экране своего компьютера, что же сейчас происходит там, где установлена камера. Обычно ил устанавливают в известных местах. Например одна из таких камер установлена на Василевском спуске в Москве. Игровые сервера.
Это специальные компьютеры в Internet служащие местом для игр. Подключаясь к такому компьютеру вы можете принять участие в коллективной игре, участником которой может оказаться человек из любой точки планеты. Вы, например; можете поучаствовать в морском сражении в составе целой эскадры, идущем на сервере в Англии, или включиться в мировой (в прямом смысле! ) турнир шахматистов. А можете заглянуть в виртуальное казино в Лас-Вегасе и даже стать обладателем реального выигрыша. Новую эру в использования Internet для игр открыли новые компьютерные игры. Теперь, несколько человек запуская одновременно одну игру на своих компьютерах могут сражаться друг с другом. При этом действия, влияющие на ход игры передаются по Internet. Технически используется тот же принцип что и в Chat, но передаются не слова, а команды. Сегодня уже практически все игры обладают возможностью игры через Internet. Для примера можно привести Doom, Quake, Age of Empire. 4. 5. АДРЕСАЦИЯ В INTERNET.
Все компьютеры, имеющие доступ в Internet, имеют свой уникальный адрес, представляющий собой 32-разрядное двоичное число, т. е. состоящий из последовательности 32 “0” и “1”. Для более удобного восприятия и создания иерархической системы адресов этот адрес представляется в виде последовательности 4 байт следующего вида: 194. 26. 54. 201. Такой вид адреса называется IP-адресом. Хотя в техническом плане такой тип адресации имеет много преимуществ перед вторым вариантом, он является неудобным для восприятия и запоминания человеком. Для устранения этих недостатков используется другая система адресации, называемая DNS-адресацией. DNS-адрес использует не цифровую, а словарную систему обозначений. Логика адресации базируется на, так называемой. системе доменных имен (domain name system). Что такое домен? Домен представляет собой группу компьютеров, логически объединенных по некоторому признаку. Для доменов верхнего уровня это может быть географическое расположение или тематическая направленность. Для доменов более низкого уровня это - чаще всего - принадлежность фирме или организации, либо их подразделению. Особо следует обратить внимание на то, что компьютеры, входящие в один домен вовсе не обязательно связаны между собой. Для того, чтобы была понятна суть DNS-адресации, вспомним принцип адресации обычной почты. В общем виде она имеет форму “Город - Улица - Дом”, и если почтовое отправление предназначается не организации, а частному лицу, то и “Квартира”. То есть используется иерархическая система адресации. Подобным образом дело обстоит и в Internet. Теперь посмотрим, что из себя представляет DNS-адрес. Например, для издания “The Wall Street Journal Interactive Edition” он записывается в следующем виде: npdate. wsj. com Как видим, он состоит из трех (или четырех) групп латинских букв, разделенных точкой. Русские буквы использовать не допускается. В качестве буквенных обозначений стараются использовать понятные по смыслу слова или аббревиатуры (для более легкого запоминания). Эти названия и являются именами доменов разного уровня. Первым всегда идет имя компьютера. В данном случае это update. Далее идет имя сети организации - wsj. (Если адрес состоит из четырех групп, то сначала указывается имя подсети, т. е. части большой корпоративной сети, а потом - сети. ) Последним указывается имя домена верхнего уровня. Здесь - corn. Имена доменов верхнего уровня в подавляющем большинстве случаев представляют собой трехбуквенное сокращение тематической направленности или двухбуквенное сокращение названия страны (региона). Вот наиболее часто встречающиеся: com - коммерческие предприятия
edu - учебные заведения (например, университеты или институты) net - сетевые организации gov - правительственные учреждения org - прочие организации ru, su - Россия de - Германия uk - Великобритания jp – Япония.
Причем исторически сложилось так, что тематическими именами в основном пользуются в США, в то время как в остальных странах предпочитают указывать сокращение названия государства. Имя сети задают, как правило, по названию фирмы или организации (часто используя аббревиатуры). А имя компьютера (первая часть DNS-адреса) чаще всего выбирают в соответствии с выполняемой функцией (www - для www-сервера, ftp - для ftp-сервера), тематикой находящейся на нем информации (например anekdot, auto) или именем пользователя или выполняемой им работой (igor, alex, referent). В принципе, DNS-адрес может состоять и из двух частей [18 Например – piva. net], но эти исключения лишь подтверждают правило. Такое не строгое определение формата DNS-адреса объясняется тем, что реально, при адресации в Internet используется IP-адрес. А DNS-адрес является, своего рода псевдонимом - названием понятным для человека. При указании такого адреса ваш компьютер связывается сначала со специализированным сервером, называемым DNS-сервером, который производит преобразование DNS-адреса в IP-адрес, и лишь затем используя IP-адрес ищется требуемый компьютер и устанавливается с ним связь. Наблюдение из практического опыта. Использование IP-адреса не только уменьшает время установки связи, но и позволяет работать в Internet в том случае, если связь с сервером имен по каким-либо причинам нарушена. Это преимущество очень существенно, так как позволяет работать автономно. Хотя, надо признать, такие адреса трудно запомнить и имеет смысл пользоваться ими для обращения к часто используемым ресурсам (например на почтовый сервер и избранные WWW' страницы). Таким образом определяется адрес компьютера в Internet. Наряду с адресами компьютеров очень широко используются расширенные адреса, которые позволяют “обратиться” к конкретному человеку. Это адреса электронной почты. В общем виде такой адрес выглядит следующим образом: username@computername. netname. domainname Как видим большая часть такого адреса (та, что находиться правее знака “@”) совпадает по виду с адресом отдельного компьютера в Internet. Так оно и есть. Ведь это ни что иное, как адрес почтового сервера, куда поступает ваша корреспонденция. А левая часть - это имя пользователя, или по другому имя почтового ящика на почтовом сервере, где находится ваша корреспонденция. Иногда можно встретить расширенное написание адреса компьютера. В этом случае к DNS-адресу слева дописывается условное обозначение протокола, который используется для доступа к данным на этой машине. В подавляющем большинстве случаев используются два протокола - для передачи WWW страниц и передачи файлов по FTP. И адрес, в таком случае, выглядит, соответственно: http: //computename. netname. domainname и ftp: //computername. netname. domainname. Такое написание адреса называют универсальным идентификатором ресурсов (Universal Resource Location) или URL-адресом. 4. 6. ОСНОВНЫЕ ПРАВИЛА ИСПОЛЬЗОВАНИЯ INTERNET.
Как и в любой сфере человеческой деятельности, при работе в Internet следует придерживаться некоторых правил. Их не много, и направлены они не только на регулирование работы Internet в целом, но и на повышение эффективности вашей работы в частности. Основных правил три: 1) Использовать ближайший компьютер в его не рабочее время; 2) Соблюдать условия, накладываемые вашим провайдером;
3) Вести себя корректно - не хамить и не жульничать. Остановимся на них чуть подробнее и посмотрим чем же вызвано их возникновение. Первое. Так как количество компьютеров подключенных к Internet стремительно растет, а количество пользователей вообще трудно поддается учету, то возникает ситуация, когда физических возможностей каналов связи уже не хватает для того чтобы перегнать огромный поток информации. Причем максимальная нагрузка ложиться на магистральные каналы. А они задействуются всегда, когда происходит соединение с компьютером, находящимся в другом регионе. Если же вы имеете возможность получить информацию с компьютера, находящегося рядом с вами, то отпадает необходимость использовать загруженные каналы более высокого иерархического уровня, и следовательно вы гораздо быстрее и с большей надежностью поручите необходимые вам данные. Вследствие этой же причины рекомендуется использовать Internet в не рабочее время, когда нагрузка на сеть наименьшая. При определении не рабочего времени вы можете столкнуться с дилеммой: в нашем регионе время не рабочее, а в том с которым вы связываетесь рабочее, или наоборот. В этом случае загруженность канала определяется многими факторами, рассмотрение которых выходит за рамки данной работы, а на практике можно посоветовать в каждом конкретном случае выбирать наилучшее время связи экспериментальным путем. При подключении к компьютеру, расположенному географически относительно недалеко, такой двусмысленности, разумеется, не возникает. Второе. Так как существует два различных типа провайдеров, так называемые коммерческие и гражданские, то и правила предоставления ими услуг так же отличаются. Оговорюсь сразу, что коммерческие провайдеры, оплата услуг которых осуществляется по сложившимся рыночным ценам, практически не ограничивают количество и методы работы в Internet. Те немногие ограничения, которые они накладывают, связаны, в основном, с необходимостью соблюдения действующего законодательства. Гражданские или общественные провайдеры менее демократичны, что объясняется необходимостью как-то ограничивать количество желающих воспользоваться их услугами. Так как провайдеры данной группы предоставляют услуги по доступу в Internet на льготных условиях или же вообще бесплатно, то они вынуждены ограничивать сферу использования Internet своими клиентами. Чаще всего это ограничение связано с запретом коммерческого использования сети. с запретом на подключение к определенным компьютерам, с ограничением скорости подключения к сети. В разных случаях конкретные ограничения могут отличаться, поэтому рекомендуется узнать точно все правила использования Internet, которые устанавливает ваш провайдер. В случае не соблюдения этих правил вы, скорее всего, будете отключены от сети, или подвергнуты штрафу. Более того: при повторном подключении с вас потребуют повышенную оплату или вовсе откажутся подключать. Третье. Это правило обусловливается элементарными правилами приличия так же как и при обычном общении. Так же как и в обычной жизни, в виртуальной жизни в Internet не стоит совершать противозаконные действия, так как за ними последуют вполне реальные (а отнюдь не виртуальные) наказания. А наказания могут быть самыми различными: от того, что от вас просто отвернутся, до возбуждения уголовного дела. А в том, что наказание последует, сомневаться не стоит. Ведь вся работа любого компьютера протоколируется, и не составляет большого труда (в отличие от реальной жизни) определить кто, когда и что сделал. Глава 5. Доступ в Internet Введение
Доступ в Internet, обычно, получают через поставщиков услуг (service provider). Поставщики эти продают различные виды услуг, каждый из них имеет свои преимущества и недостатки. Так же как и при покупке садовой тачки (в оригинале - автомобиля) вы решаете, какими качествами должна она обладать, сколько вы за нее можете себе позволить заплатить, и, исходя из этого, выбираете подходящий вариант из предлагаемого множества. Но перед тем, как начать действовать в этом направлении, т. е. добывать список поставщиков Internet, читать и выбирать, связываться с ними, выясните, а не имеете ли вы ужґе доступа в Internet, сами того не ведая. Такое вполне может иметь место - в России не так часто, в США не так уж и редко. Если ваша организация или учреждение (институт, компания) уже имеет доступ в Internet, то вряд ли вы сможете получить персональный доступ в сеть лучший, нежели ваша организация. Другими словами, если вы уже имеете доступ в Internet, вам не надо будет платить денег из своего кармана, не надо будет суетиться вокруг поставщиков услуг и т. д. , вам просто надо будет научиться пользоваться тем, что вы уже имеете. Если ваша организация пока не имеет доступа в Internet, или вообще-то имеет, но, вот беда, не ваше подразделение (лаборатория, отдел, факультет), вам просто следует понаблюдать и прикинуть, сколько еще потенциальных пользователей имеется среди ваших сослуживцев, возможно, поговорить с ними и заручиться поддержкой, составить предложение и/или подать требование вышестоящему руководству. Имеются (хотя это встречается, увы, пока очень редко) еще возможности получить доступ в Internet не через ее прямых распространителей, без лишних затрат. Первый - поищите в публичных библиотеках: некоторые (центральные) имеют службу, называемую Freenet - свободная (бесплатная) сеть. Это информационная система, основанная соответствующим сообществом, обычно имеющая модемный доступ к Internet по телефону. Второй путь полезен для молодых людей, проживающих в странах Запада, или в центральных городах у нас. Станьте студентом, поступите в западный или организованный у нас же в России совместно с Западом университет или колледж. И выберите соответствующую специальность или запишитесь на курсы, которые позволят вам добраться до заветного компьютера, имеющего доступ в Internet. Например, научитесь плести лапти - уже потом вам будет чем развлечься, когда у вас от непрерывной работы в сети поедет крыша. И когда вы научитесь, у вас будет еще один довод начальству в пользу предоставления вам доступа в Internet: сети как воздух необходима база данных с инструкциями по плетению лаптей, без них они как без рук. Такой вклад руководство не сможет не оценить по достоинству. 5. 1. Виды доступа в Internet
В Internet имеется несколько видов доступа. Чем больше возможностей предоставляет вид доступа и чем более он быстр, тем он более дорог. Рассмотрим их в порядке убывания стоимости. 5. 2. Непосредственный доступ
Корпорациям и большим учреждениям, которым желательно иметь доступ в Internet, следует обратиться к виду доступа, называемому ``непосредственный'' или прямой. Он дает вам полный доступ ко всем возможностям сети. Поставщик услуг арендует выделенную телефонную линию с выбранной вами пропускной способностью (чем быстрее, тем дороже; виды линий связи см. в таблице 1) и размещает узловой компьютер (сетевой сервер) непосредственно у вас. Этот узел ответственен за связь вашего сообщества с другими узлами и пересылку данных в обе стороны. Это очень дорого, от примерно $2000 первоначального взноса и до нескольких тысяч долларов ежемесячно. Но, однажды установив такое соединение, вы сможете подключать к этому узлу столько компьютеров, сколько вам заблагорассудится. Чтобы сделать это, вам надо просто связать их в локальную вычислительную сеть вместе с узлом Internet (например, в Ethernet). Вид услуг Скорость Примечания Стандартная звуковая линия 0-19. 2 Kbps Никакой дополнительной оплаты Доступ по SLIP или "по вызову" Выделенная линия 56-64 Kbps Небольшое прямое подключение к поставщику Т1 1. 544 Mbps Прямое подключение для напряженного использования Т2 6 Mbps Обычно в сетях не используется Т3 45 Mbps
Основная сетевая артерия для большой корпорации или университета Таблица 1: Виды телефонных связей.
Непосредственный доступ предлагает наиболее гибкое подключение. Каждый из компьютеров является полноправным членом Internet и может воспользоваться любой из функций сети. Если у вас появилось какое-либо новое программное обеспечение, и вы хотите его опробовать, то вам нужно лишь установить его и запустить. Однако, так как прямое соединение дорого, оно более подходит для группового использования и совершенно непрактично для ``домашних пользователей''. Непосредственный Internet-доступ обычно требует наличия некоторой базовой структуры вашей локальной сети. Поставщик поможет вам на начальном этапе, но как только все заработает, он станет ответственен только за узел сети и за телефонную линию. Что там случается с локальной сетью, это уже ваши проблемы, вам потребуется соответствующий персонал и документация, что тоже повышает эксплуатационные затраты. Однако, вы в данном случае способны предоставлять платные услуги различным частным лицам, отбирая, в некотором смысле, хлеб у поставщиков услуг, тем самым уменьшая свои общие затраты. SLIP и PPP
Существуют также и менее дорогие методики ``почти прямого доступа''. Они называются SLIP и PPP и являются версиями программного обеспечения Internet, которое работает на обычных телефонных линиях, используя стандартные высокоскоростные модемы . Итак, вы находите сетевого поставщика, который предоставляет такой вид услуг, договариваетесь о таком доступе, устанавливаете на своем компьютере программное обеспечение, поддерживающее работу по этому протоколу, и работаете, когда вам нужно. Вам даже не нужно использовать выделенную линию (телефонную, например): ваша работа по SLIP или PPP происходит на обычной линии, которую вы освобождаете по окончании сеанса работы и этой же линией могут воспользоваться другие аналогичные пользователи. Преимущество SLIP и PPP состоит в том, что они позволяют работать в режиме полноправного входа в Internet. Вы именно сами входите в Internet, а не используете чью-нибудь еще систему как точку входа в сеть. Что такое SLIP ? Это Internet-протокол, позволяющий в качестве линий связи использовать последовательные линии, например, вкупе с модемом - обычные телефонные линии. Программное обеспечение, реализующее работу с протоколом SLIP, принимает символы, приходящие с устройства последовательной передачи данных (модема, последовательного порта и т. д. ). Рассматривает и толкует их как составляющие IP-пакета. Укладывает полученные данные в полнокровный нормальный IP-пакет и передает этот пакет далее - соответствующей программе, которая обрабатывает IP-пакеты, например, модулю TCP. На обратном пути SLIP получает от программы (сетевого уровня), посылающей IP-пакеты, IP-пакет, вычленяет его содержимое, соответствующим образом переформатирует, потом делит на символы и отправляет его через устройство последовательной передачи по последовательной линии в сеть, - соседнему узлу Internet. Для корректности укажем: SLIP и PPP - это протоколы канального уровня (см. раздел ). PPP - это более поздний протокол, занимающийся тем же самым, что и SLIP. PPP совершеннее и мощнее своего предшественника, поэтому он быстро вытесняет SLIP. SLIP и PPP очень удобны для подключения домашнего компьютера к локальной сети, которая, в свою очередь, входит в Internet. Например, вы можете воспользоваться SLIP, чтобы подключить ваш домашний компьютер к сети вашей компании или института. И тогда ваш компьютер будет иметь полный доступ в Internet, как любой компьютер вашей компании, подключенный через Ethernet к Internet. Ваш домашний компьютер в такой схеме будет иметь такие же возможности, как и все сетевые подключения вашей фирмы. SLIP и PPP также подходят для подключения домашнего компьютера (или очень маленькой локальной сети) к поставщику услуг, который может предоставить непосредственный доступ в Internet. Эти протоколы совсем не предназначены для подключения к Internet сетей средней величины или больших сетей: они не могут общаться достаточно быстро, чтобы обслуживать одновременно большое количество пользователей. Так что, если вы имеете среднюю или большую сеть (или она у вас скоро станет таковой), вам лучше всего обратить свой взор к действительно непосредственному доступу. SLIP - это выбор ``умеренной цены'': он предоставляет хорошее обслуживание и, вместе с тем, не очень дорог. Поставщики услуг такие, как например, UUNET или PSI, скорее всего запросят что-то около $250 в месяц за неограниченное SLIP или PPP обслуживание; возможно также, что они предложат вам вариант с меньшим ежемесячным взносом, но с дополнительной почасовой оплатой. Вам также следует побеспокоиться о счетах за телефон. С целью уменьшить, насколько это возможно, расходы пользователя на телефонные разговоры многие поставщики содержат множество бесплатных телефонных номеров или же номеров в местных телефонных сетях основных густонаселенных регионов. В США под такие бесплатные телефонные номера отведены номера, начинающиеся с 800,   - так называемые восемьсотые номера. Обычно, различные фирмы резервируют восемьсотые номера для своих отделов, занимающихся сопровождением товара этой фирмы, например, помогающих пользователям справиться с проблемами, возникающими у них при работе с фирменным программным обеспечением. Звонящий по такому номеру за разговор не платит ни копейки, - за все платит тот, кто этот номер зарезервировал и владеет им. Существует версия протокола SLIP, приспособленная для работы на медленных линиях - CSLIP. Это SLIP со сжатыми заголовками. Этот протокол был создан в Lawrence Berkeley Labs (LBL) Ван Якобсоном, как способ повысить эффективность последовательной передачи и повысить уровень сервиса прикладных программ, использующих TCP/IP на медленных линиях. Протокол CSLIP использует в шесть раз меньше избыточной информации (в виде заголовков), нежели протокол SLIP. На низких скоростях передачи данных эта разница заметна только при работе с пакетами, несущими малые обемы информации, такие пакеты порождаются, например, при работе telnet или rlogin. На больших же скоростях CSLIP дает меньший выигрыш и совсем почти ничего не дает для пакетов с большими объемами данных, например, ftp-пакетов . CSLIP для сжатия-разжатия и проверки правильности пересылки пакета (и заголовка) использует информацию из предыдущего пакета, т. е. передача имеет структуру цепочки. Первый пакет в цепочке - несжатый. Если какой-либо пакет теряется, то цепочка рвется, нельзя этот же пакет запросить в самом конце передачи, его нужно пересылать заново тут же, т. е. прекращать процесс передачи и начинать новую цепочку. Таким образом, эта технология при пропаже или искажении пакетов приводит к бґольшим потерям времени, чем обычный SLIP. Это происходит из-за задержек на останов и передачу нового несжатого пакета). О протоколах SLIP и PPP подробнее можно прочитать в документах RFC 1055, 1134, 1171, 1172. Доступ ``по вызову'' (Dial-up Access)
Что же делать, если вы не можете себе позволить непосредственный доступ и не хотите экспериментировать с PPP или SLIP? Есть способ полегче получить доступ к сети: вам нужно стать пользователем какой-нибудь большой машины (получить логическое имя, получить доступ к системе и права пользователя на работу), которая имеет прямой доступ в сеть и допускает возможность удаленной работы. Теперь вы просто используете свой домашний компьютер (+модем) для входа в эту машину и уже на ней работаете в сети. Доступ по вызову почти так же хорош, как и ваше собственное подключение, и он существенно проще по установке. Ваш компьютер на самом деле не становится частью сети, он просто имеет доступ к услугам компьютера, который подсоединен к сети постоянно. Многие организации предоставляют этот вид услуг. Так как вы пользуетесь соединением совместно с другими, такая услуга намного дешевле (обычно около $20-40 в месяц + , иногда, почасовая оплата). Наиболее дешево получается, если вы заключаете контракт на доступ только вне часов пик (т. е. в ночное время и выходные). Если же вы сможете найти доступ к местной Freenet, это будет еще дешевле, фактически бесплатно, как подразумевает название сети. Этот вид подключения имеет свои за и против. С одной, приятной, стороны, вы уже скорее всего имеете все нужное оборудование и программное обеспечение (т. е. модем и пакет программ эмуляции терминала). Даже если вам их придется докупать, это выйдет не дороже $200. С другой, не очень приятной, стороны, вы можете делать только то, что вам позволит поставщик этой услуги. Возможно, вы не сможете воспользоваться всеми сервисными возможностями Internet. Скорее всего вы не сможете сразу же загрузить и использовать новейшее программное обеспечение, которое появилось у вас, вам для этого придется связаться с поставщиком. Некоторые поставщики могут ограничивать доступное вам дисковое пространство. И опять же вам надо будет беспокоиться о счетах за телефон, хотя некоторые поставщики (как уже упоминалось) предоставляют широкую сеть номеров, чтобы минимизировать ваши затраты. Кстати, стоит упомянуть еще один новый вид услуг ``по вызову''. Фирма PSI (один из основных поставщиков) распространяет бесплатное программное обеспечение - пакет программ PSIlink. Он позволяет персональному компьютеру с системой MS DOS связываться с их системой и пользоваться электронной почтой Internet - e-mail, доской объявлений и службой пересылки файлов. Им удалось скрыть от пользователя большинство проблем, которые влечет за собой доступ по вызову: например, файлы, которые вы хотите, автоматически пересылаются к вам домой. Цена такой услуги около $30 в месяц. Недостатки такого сервиса: вы ограничены тем, что вам дает поставщик; пакет этот не желает работать с их конкурентами. Доступ UUCP
Все системы UNIX поддерживают сервис, называемый UUCP, который позволяет пересылать данные по стандартным телефонным линиям. UUCP - это, также как и SLIP и PPP, протокол канального уровня, но он не обладает полным спектром возможностей, которые можно было бы реализовать на этом уровне, как, например, в протоколе SLIP. UUCP позволяет лишь пересылать файлы из одной системы в другую. Если вы найдете поставщика UUNET (непосредственно или же, например в лице своего работодателя или друга), то вы можете воспользоваться UUCP для того чтобы заиметь у себя почту Internet и новости USENET. Ваша система может использовать UUCP, чтобы связываться с удаленной системой, входить в нее и регулярно пересылать новости и почту обратно к вам. Вы не сможете получить чего-то больше, чем просто пользоваться почтой и новостями, т. к. на самом деле, вы к Internet не подсоединены. Просто ваш компьютер названивает другому, который подключен к Internet, и обменивается с ним файлами. UUCP широко распространен (требуется лишь программа поддержки протокола UUCP и модем, даже UNIX необязателен), так что, скорее всего, вам не придется тратиться ни на оборудование, ни на программное обеспечение. Любая система UNIX включает в себя все программы, какие вам для этого могут понадобиться. Существует множество программ эмуляции команды uucp для не-UNIX-систем, например, для MS-DOS - это UUPC. И достаточно легко найти кого-нибудь, кто подарит вам UUCP-подключение или предоставит за разумно низкую плату. Если все, что вы хотите, - это иметь e-mail у себя на дому, это вам поможет. Установка UUCP, конечно, не тривиальна, но и не очень трудна. 5. 3. Доступ через другие сети
Разные сети, подключенные к Internet, в разной степени интегрированы в нее. Большинство сетевых служб, таких как Bitnet или CompuServe, устанавливают сетевые средства (шлюзы), позволяющие обмениваться электронной почтой между этими системами и Internet. Некоторые шлюзы позволяют пользователям подключенных сетей читать доски объявлений Internet (новости USENET). И есть несколько серверов, разбросанных по всему миру, которые позволяют затребовать файлы по электронной почте; такие службы автоматически добывают нужный файл и отсылают его по e-mail обратно к запросившему пользователю. Это, конечно, не так прекрасно, как получение файла непосредственно, но на безрыбье Возможно, это все, что вам нужно. Но это - не подключение к Internet, просто вы имеете доступ к паре услуг. Ваши возможности довольно ограничены, великое множество возможностей остается вне вашей досягаемости.
Глава 6. Методы и средства автоматизации учрежденческой деятельности [19 ЦБ РФ "Cистемы безопасности связи и телекоммуникаций", #6/96]
Долгое время автоматизация учреждений в России основывалась на различного рода подсистемах АСУ на базах данных (кадры, канцелярия, бухгалтерия, зарплата, контроль исполнения и др. ) Не умоляя значимости этих подсистем, заметим, что они охватывали лишь 15-20% общего объема информации, циркулирующей в учреждении. Необходимость в электронной обработке документов удовлетворялась применением функциональных пакетов (редакторов текста и электронных таблиц) и интегрированных пакетов программ Microsoft Office, Perfect Office, Lotus Smart Suite. Эти средства не справлялись с управлением огромными потоками бумажных и электронных документов, циркулирующих как внутри одного предприятия, так и между ними. Развитие информационных технологий привело к появлению методов и средств, обеспечивающих интегрированные решения по оснащению офиса, позволяющих автоматизировать ручные операции, поиск, передачу документов и контроль исполнения. 6. 1. Методы автоматизации учреждений
Рассмотрим основные методы автоматизации учрежденческой деятельности. Современные организации представляют собой совокупность подразделений, филиалов, отделов и офисов, обменивающихся между собой информацией и выполняющих отдельные части общей работы. Основными фазами жизни неструктурированной информации в офисе являются (Рис. 1): ввод информации в систему, хранение, навигация, поиск и фильтрация документов, коллективного работа с документами, вывод информации из системы.
Рис. 1. Функциональная схема управления электронными документами.
Существуют различные способы ввода данных в систему. Это, прежде всего, сканирование документов и сохранение их в виде графических образов. В системах первого поколения они идентифицируются с помощью ключевых слов для последующего поиска необходимой информации (например: система SoftSolutions). Позднее стала применяться технология оптического распознавания символов OCR (Optical Character Recognition). После сканирования и ввода документа его графический образ "переводится" в текст с последующим исправлением ошибок распознавания. При массовом наборе однотипных документов используются электронные формы, которые обеспечивают структуризацию документа путем выделения частей текста и добавления полей (атрибутов), что позволяет упростить заполнение документов и выполнить необходимые вычисления. Информация в офис поступает и путем импорта файлов с магнитных носителей или по внешним телекоммуникациям (факсы, сообщения электронной почты и т. п. ). Внесение данных сопровождается классификацией документов путем задания атрибутов и ключевых слов, аннотированием их содержания. При этом для ускорения последующего контекстного поиска производится полнотекстовое индексирование документов. Важное значение для организации эффективного управления неструктурированными документами имеют методы хранения информации, навигации, поиска и фильтрации документов. (Табл. 1) Методы хранения информации, навигации, поиска и фильтрации документов Схема хранения Навигация Поиск и фильтрация Файловая система Каталоги и папки По именам и параметрам файлов Почтовые ящики Личные и коллективные папки По атрибутам и тексту сообщения База документов (Lotus Notes) Страницы, базы документов и категории По атрибутам и тексту сообщения Библиотеки документов Проекты(папки) По атрибутам, ключевым словам и тексту Гипертекст Гиперссылки По гипертексту Текстовая база данных Таблицы и представления По атрибутам и тексту Универсальная база данных Таблицы и представления По атрибутам и бинарным объектам
Документы могут храниться просто в файловой системе, и при этом система каталогов служит средством группирования и навигации в хранилище документов. В современных ОС типа Windows 95 реализованы функции задания длинных имен каталогов и файлов в качестве названий папок и документов. Ряд систем, основанных на электронной почте, хранят документы в почтовых ящиках в виде сообщений с присоединенными файлами. Навигация упрощается с помощью папок личного и коллективного пользования. Однако их поиск и фильтрация ограничены лишь отбором и сортировкой по атрибутам и тексту . Специфический метод хранения реализован в пакете Lotus Notes в виде так называемой базы документов, в состав которой входит как однотипная, так и разнотипная информация, сохраняемая в одном файле. Документы допускают внутреннюю структуризацию на основе формуляров путем выделения и добавления в них полей. Навигацию в базе упрощает наличие страниц и категорий. Многие современные системы в дополнение к файловой системе используют библиотеки документов, содержащие в БД их карточки с атрибутами и ключевыми словами.
Поиск и фильтрация производится по запросам на основе контекстного поиска: по атрибутам, по ключевым словам и по полному содержанию текста на основе индекса(Рис. 2). Рис. 2. Классификация методов информационного поиска.
При использовании механизма четкого поиска (например, DOCS OPEN) в запросе не должно быть орфографических ошибок, а в тексте документа - неточностей распознавания. Морфологический разбор позволяет упростить формирование запросов и улучшить отбор информации. Реализация на основе нейронных сетей и искусственного интеллекта технологии нечеткого поиска по полному содержанию документа (например, технология адаптивного распознавания образов APRP в пакете Excalibur EFS) не требует идентичности искомых фраз содержимому файла и, кроме того, исключает потребность в исправлении ошибок после распознавания текста. Результаты выборки при этом наилучшим образом согласованы с терминами или фразами запроса пользователя. Фирмы-производители реляционных СУБД (в частности ORACLE) проповедуют другие схемы хранения - текстовые и универсальные базы данных (БД). При этом тексты документов располагаются в символьных полях переменной длины, а расширенные средства SQL-поиска формируют смешанные запросы. Для хранения произвольной информации, в том числе мультимедиа, используются поля бинарных объектов большой длины BLOB и/или гипертекст. Феномен распределенного гипертекста составляет основу широко внедряемой Web- технологии. Хранилище информации представляет собой совокупность гипертекстовых страниц, распределенных по узлам сети Internet или корпоративной сети (Intranet). Каждая страница размещается в отдельном файле и представляет собой текст, размеченный с помощью языка HTML. Структуризация документа проводится путем форматирования, выделения полей, создания форм для диалогового заполнения документа и гипермедиа (включением любой мультимедиа-информации : растровая графика, аудио, видео), а также путем организации внутренних ссылок. Навигация по хранилищу гипертекста осуществляется с помощью внешних гипертекстовых ссылок URL на документы, расположенные на различных узлах сети (Web-серверах). Для контекстного поиска. в "паутине" задействованы специальные программы-роботы, сканирующие Web- сервера и строящие некое подобие индекса. Использование гипертекста позволяет создать информационную инфраструктуру территориально распределенного учреждения и упростить диалоговый интерфейс пользователя. Организация и автоматизация в офисе коллективной работы с документами строятся на технологиях groupware и workflow. Методика groupware ориентирована на небольшие рабочие группы для поддержки выполнения одной коллективной задачи при отсутствии дополнительной организационной структуризации, которая ограничивается обеспечением коллективного входа с помощью различных методов доступа: сетевой доступ к файлам и базе данных;
локальная и глобальная электронная почта (включая конференции и дискуссии); терминальный доступ, пересылка файлов и электронная доска объявлений; просмотр и интерпретация гипертекста (гипермедиа).
В процессе коллективной работе важно наличие блокировок для разрешения конфликтов при совместном использовании ресурсов, санкционирование входа по идентификаторам и паролям, защита информации с помощью прав доступа. Дополнительный уровень безопасности поддерживается методами и средствами шифрации и электронной подписи. Технологии класса workflow служат для автоматизации документооборота в средних и крупных офисах и для них характерно: поддержка многопользовательской работы с несколькими задачами одновременно; четкая структуризация выполнения работ по ролям и документам с контролем исполнения. Деловой процесс формализуется как совокупность состояний и переходов, необходимых для описания взаимодействия, как минимум двух субъектов (в частном случае сотрудников предприятия), для выполнения заранее заданного условия. Например, простая пересылка документа из точки в точку. Одним из вариантов реализации технологии workflow является так называемая "система графов"(Рис. 3), где каждый шаг представляет собой вектор и отражает движение задания, связанного с конкретным файлом, или просто передвижения документа от одного субъекта к другому.
Рис. 3. Векторный способ описания документооборота в Staffware.
При этом на сотрудника, отвечающего за правильность функционирования схемы, ложится ответственность учета всевозможных непредвиденных (или отказных) ситуаций, которые могут возникнуть в процессе исполнения задания. Другая модель основана на понятии "цикл" ("loop") или "стол" (Рис. 4).
Рис. 4. Способ описания документооборота на основе циклов в Action Worflow.
В этом случае наименьшим элементом схемы является цикл, учитывающий всю гамму взаимодействия двух произвольных субъектов. Система сама отслеживает замкнутость и корректность этого процесса. Регламентация взаимоотношений субъектов информациооного обмена дополняется заданием безусловной и условной маршрутизации файлов (по электронной почте) и времени их обработки. Обработка информации базируется на методах и средствах офисной автоматизации: редактирование текста, электронные таблицы, деловая и презентационная графика, планирование работ и совещаний, генерация отчетов из базы данных, мультимедиа.
Вывод информации производится путем печати документов, публикации их на Web- серверах, в общих почтовых папках и электронных досках объявлений или рассылки по телекоммуникационным линиям связи. 6. 2. Обзор средств автоматизации учреждений
Информационно-программные средства автоматизации учреждений делятся на следующие категории: функциональные и интегрированные пакеты офисной автоматизации; системы для организации групповой работы; системы управления электронными документами; средства управления документооборотом. Рассмотрим типичных представителей данных категорий.
Средства офисной автоматизации и коллективной работы в сети Пакет Microsoft Office for Windows 95
Microsoft Office for Windows 95 представляет собой единый набор прикладных программ для автоматизации работы современного офиса и поставляется в двух различных вариантах. В состав Microsoft Office Standard входит Microsoft Excel для создания электронных таблиц, текстовый процессор Microsoft Word, система подготовки презентаций Microsoft PowerPoint и планировщик Microsoft Schedule+. Microsoft Office Professional, помимо вышеперечисленных приложений, включает в себя также СУБД Microsoft Access. Приложения для Windows 95 поддерживают длинные имена файлов, "горячие клавиши" и многозадачность. Пользователь получает доступ к почтовой станции Microsoft Exchange для обмена факсами и электронными письмами. Microsoft Office for Windows 95 - это не только набор дополнительных возможностей, но и платформа для разработки офисных приложений с использованием языка Visual Basic for Applications и механизма OLE. Система Lotus Notes
Lotus Notes представляет собой платформу типа "клиент-сервер"(Рис. 5), служащую для разработки и размещения приложений класса groupware на основе электронной почты. Рис. 5. Организация коллективной работы в системе Lotus Notes.
Она позволяет пользователям получать, отслеживать, совместно использовать и создавать документальную информацию (текст, изображение, видео и звук), получаемую из различных источников, таких как прикладные и оперативные системы, сканеры или факс-аппараты. Пользователям система Lotus Notes предоставляет доступ к сети через любой применяемый ими графический пользовательский интерфейс (Windows, Mac, OS/2, Unix). Lotus Notes обеспечивает:
единый постоянный пользовательский интерфейс для обращения ко всем другим абонентам, сетевым ресурсам и информации; гибкость при обработке сложных документов, содержащих данные из компьютерных приложений, новостных каналов (newsfeeds), сканированных изображений и структурированных реляционных систем; быструю разработку прикладных программ для рабочих групп;
систему защиты доступа к информации на всех уровнях, вплоть до уровня отдельного документа; тиражирование информации, располагающейся в любом подразделении предприятия, в его филиалах, у удаленных пользователей, а также у заказчиков и поставщиков; открытость (поддержка разных сетевых операционных систем и приложений, внешних источников данных, систем электронной почты и прикладных программных интерфейсов API); масштабируемость (реализация системы любого размера: от рабочей группы из двух пользователей до корпоративной сети с десятками тысяч сотрудников организации); интеграцию набора разнообразных элементов клиентских и серверных программных модулей (среда пользователя, распределенная обработка документов, передача сообщений, защита и среда разработки), для создания технологии бизнес-процесса заказчика. Рабочее пространство пользователя (Workspace) системы Lotus Notes основано на графическом пользовательском интерфейсе и включает шесть фиксированных экранных окон, в которых размещаются пиктограммы баз документов. База документов Notes - это средство хранения документов, при помощи которого пользователи могут вызывать, отслеживать, хранить и преобразовывать информацию. Сложные документы создаются и обновляются при помощи бланков Notes Forms и встроенного редактора. 6. 3. Средства управления электронными документами
Основой любой системы управления электронными документами является архив, где файлы размещаются в процессе их обработки и в период архивного хранения. Под электронным архивом понимается совокупность аппаратно-программных средств и технологий для создания хранилища электронных документов ( текстовых или графических файлов) и обеспечения доступа к ним из офисных приложений. Система управления документами DOCS OPEN
Программный продукт DOCS OPEN (компания PC DOCS Inc. ) позволяет в распределенной гетерогенной среде организовать электронный архив предприятия для хранения, поиска и обработки информации. Система построена по архитектуре "клиент-сервер" с установкой библиотечного (для картотеки документов) и документального (для файлов)серверов с дополнительной реализацией сервера полнотекстового индекса. Для хранения библиотеки используется любая модификация промышленного SQL-сервера. Система управления базами данных должна отвечать двум требованиям: поддерживать ANSI SQL и иметь ODBC-драйвер. Документы размещаются в сетевых файловых системах NetWare и Windows NT с возможностью полуавтоматического удаления редко используемых файлов. Классификация документов строится на основе атрибутов учетной карточки, полнотекстовых индексов и объединением их в папки. Для отбора используются интерфейс запроса по образцу и механизмы атрибутивного и контекстного поиска. Система DOCS Open позволяет вести распределенные и удаленные электронные архивы. Она сопрягается с Lotus Notes через дополнительный модуль (Interchange for Lotus Notes) и с системой управления документооборотом Action WorkFlow или более простыми программами Action DocRoute и WorkRoute. К недостаткам DOCS Open относится чувствительность индексации индексации и четкого четного поиска к ошибкам при вводе, распознавании текста и при формировании поискового запроса. Система управления документами Excalibur EFS
Другим примером системы управления электронными документами является продукт Excalibur EFS фирмы Excalibur Technologies Corp. Его серверное программное обеспечение функционирует в среде операционной системы Unix, а клиентские рабочие места могут работать под MS Windows и Windows 95. Ведение базы учетных карточек выполняют СУБД Oracle, Informix, Sybase и Ingres. Система построена на основе нейронных сетей и искусственного интеллекта с введением метода нечеткого  поиска  - адаптивного распознавания образов АРRР - по полному содержанию документа (что до минимума сокращает влияние ошибок распознавания, набора и правописания в запросах) и "компактного" способа индексирования (30% исходного текста против 70- 100% обычного индекса). Эта технология обеспечивает автоматическую   индексацию  всего содержания документа и нечеткий   поиск   любого слова в текстовом файле. Пакет Excalibur EFS предоставляет пользователю возможность использовать и другие режимы выборки информации: нечеткий поиск по названиям документов; ассоциативный поиск с заданными синонимами; прямой доступ к файлам по пиктограммам; запросы в стиле обычной базы данных; поиск по ключевым словам; логический поиск по всему тексту.
Система имеет русский интерфейс и работу с русским текстом, интегрируется с системой документооборота Staffware. В системе применяется централизованное управление размещением документов в архиве. При этом необходимо учитывать, что она ориентированна на внедрение в крупных корпорациях с большим документопотоком. 6. 4. Средства автоматизации документооборота
В последнее время в зарубежных странах пользуются особой популярностью автоматизированные системы построения и управления деловыми процессами применительно к отдельным фирмам и компаниям, построенные по типу workflow. С их помощью можно организовать комплекс электронного документооборота на предприятии, а также контроля за выполнением заданий и загрузкой сотрудников. Следует отметить, что они ставят целью не полный отказ от бумажных документов (что невозможно по ряду причин, главными из которых являются причины юридического характера), а сведение к минимуму перемещение бумаг внутри предприятия. Пакет управления документооборотом Action Workflow
Зачастую, помимо грамотного хранения информации, возникает потребность в планировании определенных маршрутов работы над документами (маршрутизация) и контроле исполнительской дисциплины. В случае, если нет устоявшегося порядка обработки текста и желательно осуществить последовательную или параллельную рассылку необходимой документации, в ваше распоряжение предоставляется "свободный маршрутизатор", созданный и интегрированный в систему DOCS Open. Посредством его из списка пользователей системы или групп абонентов выбрается адресат, просматривается статус мероприятия (получена/прочитана/выполнена и т. д. ), прослеживаются этапы обработки той или иной информации. При наличии относительно стабильных маршрутов прохождения документов предпочтительнее использовать возможности продукта Action Workflow компании Action Technologies. При этом необходимо определится с выбором инструментария для переноса существующих в организации процессов на язык, понятный машинам. Все это определяется той методологией, которая закладывается в инструментарий системы и призвана взять на себя тяжелое бремя по описанию процессов. Поэтому выбор методологии может непосредственно влиять не только на скорость проектирования комплекса, но и на конечный результат. Методология Action Workflow в элементарном звене (цикле) включает все многообразие ситуаций, которые могут возникнуть при общении двух субъектов, и тем самым привнести элемент творчества в работу сотрудников. Для того, чтобы запустить процесс по нужному сценарию, его необходимо воплотить в карте бизнес-процесса. Основные особенности Action Workflow: методология учитывает "человеческий фактор";
в качестве адресата используются не имена конкретных сотрудников, а их должности (роли); созданная карта процесса статически проверяет себя на замкнутость: документ не может быть отправлен в "никуда" или остановиться непонятно почему; четкая система контроля исполнения, когда на выполнение определенной операции отводится определенное количество времени, и система сама по вашему выбору определяет штрафные санкции к провинившемуся сотруднику и реакцию системы на подобное нарушение; на рабочих местах конечный пользователь оперирует привычными для своей отрасли производства терминами; санкционированный доступ к информации, администратор системы видит только состояние процесса ("запущен", "ожидает активации", "завершен"); поэтапность внедрения - автоматизацию можно начать с какого-нибудь отдела или подразделения, а в случае необходимости добавить в карту новых сотрудников, и заново создать процесс; система имеет открытый интерфейс для поддержки существующих приложений. Ядро системы AWS Manager непосредственно отвечает за выполнение работ согласно данным из карт, а также за контроль исполнения и назначение штрафных санкций в случае нарушения сотрудниками временных интервалов, отведенных на определенный этап работ. В дополнение к AWS Manager поставляется открытый интерфейс, посредством которого можно получить всю необходимую информацию об интересующих процессах. С помощью AWS Builder строятся карты процессов и выполняется их реинжиниринг с введением новых сотрудников (долей), их назначением, определением временных интервалов и штрафных санкций, а также статическая проверка карты на замкнутость при генерации схемы. Модуль AWS Analist предназначен для моделирования деловых процессов, существующих на предприятии, с оптимизацией по времени, либо по затратам. Пакет электронного документооборота Staffware
Интересными представляются технологии организации электронного документооборота и автоматизации деловых процедур на основе инструментальной среды StaffWare, работающей по технологии "клиент-сервер". Эта среда относится к классу workflow и характеризуется следующими особенностями: поддержка коллективной работы с регламентацией всего множества заданий для большого числа исполнителей; динамическое управление и контроль исполнения работ; интегрируемость с разными приложениями под Windows и Unix;
StaffWare позволяет простым способом маршрутизировать документопоток и контролировать выполнение запросов по заданным времени и дате. Будучи открытой системой, StaffWare способна интегрироваться с другими продуктами, поддерживающими автоматизированный ввод входящих документов, ведение архива документов, криптографическую защиту информации и проч. Связь с внешними процедурами проводится средствами DDE и OLE. Для мощных систем документооборота имеются версии StaffWare on Oracle и StaffWare on Infirmix. Используя строгий алгоритм прохождения файлов, система электронного документооборота оперативно адаптируется к измененной структуре организации при помощи разделения работ по группам и ролевым отношениям и развивается за счет разработки новых процедур маршрутизации. Структура программирования этого процесса в StaffWare чрезвычайно проста: процедура: := {шаг-1, ...., шаг-i, ...., шаг-k} шаг: :=адресат+форма+действие адресат - пользователь (группа)/роль/переменная
форма - совокупность полей для заполнения + сопроводительный текст + помощь + выполнение внешних процедур действие - направление по маршруту + проверка условий (время, событии, сценарии) + выполнение внешних процедур
В StaffWare встроен удобный графический построитель процедур, наглядно отражающий маршрут прохождения документов и алгоритм их обработки. Система электронного документооборота с использованием инструментальной среды StaffWare представляет собой множество процедур, которые связывают всю совокупность документов (одни из которых являются родителями, другие - потомками). Отдельный документ определяется как родитель одних текстовых файлов и потомок других. Отношения между ними, с одной стороны, их связь с процедурами и внутреннее описание каждого - с другой, однозначно идентифицируют информацию в общем потоке. Документы-потомки порождаются при исполнении шагов процедур StaffWare в любых доступных приложениях MS Windows, включая текстовые процессоры, электронные таблицы, мультимедиа и т. п. Для организации и ведения архива документов разработана информационная модель базы данных, удовлетворяющая следующим требованиям: поддержка иерархического построения, включая распределенное разграничение прав доступа на различных серверах; классификация документов по их типам (входящие, исходящие, внутренние); ведение истории жизни документа в регистрационном журнале по всем реквизитам видов работ (кто, когда и что делал с данным документом); возможность получения информации о других файлах, связанных с конкретным - о предшествующих (родителях) и/или порожденных (потомках), санкционирование получения доступа; объединение документов во временные иерархические группы с различным уровнем доступа (аналог папок, шкафов и т. п. ) без изменения их местонахождения в архиве. В заключении можно сказать, что комбинация методов и средств офисной автоматизации, систем управления базами данных (ввод, хранение и поиск структурированной информации), систем workflow (управление, маршрутизация и координация передвижения документов, контроль за своевременностью их обработки) и систем управления электронными документами (ввод, хранение, поиск), а также интеграция программных продуктов, реализующих эти методы, обеспечивает комплексную автоматизацию учрежденческой деятельности. Глава 7. Руководство по системе Protos 7. 1. Описание системы. Назначение системы
Protos - средство полнотекстового поиска информации на Вашем WEB-сервере с учетом морфологии русского языкf. Учет морфологии русского языка означает что, если задан запрос "идти", то в результате поиска будут найдены ссылки на документы, содержащие слова "идти", "идет", "шел", "шла" и т. д. Развитый поисковый интерфейс позволяет помимо стандартных логических операторов задавать поиск по близости, то есть указывать расстояние между словами в запросе. (Подробнее см. главу "Язык запросов Protos"). По умолчанию индексируются все слова текстов (см. главу "Стоп-слова"). Система легко настраивается на конкретные условия сервера - можно указать, какие директории и типы файлов индексировать, а какие исключить, выбрать кодировку русского языка, указать способ получения документов (прямо из директории или через Web-сервер), способ перестраивания индекса (строить заново или организовать обновление и слияние). Предполагается, что индексатор запускается регулярно, например каждой ночью, чтобы индекс всегда отражал текущее состояние Web-сервера. Для ведения диалога с пользователем и управления самой системой Protos используется WEB-сервер. Protos имеет возможность управлять работой нескольких поисковых машин, обслуживающих WEB-серверы, расположенные на одном компьютере. Технические характеристики
Protos - средство полнотекстового поиска информации на Вашем WEB-сервере с учетом морфологии русского и английского языков. Несмотря на подробную адресацию информации (до положения слова в документе) создается компактный индекс - 30-40% от объема текстов. Индексация происходит со скоростью около 2 Мб/мин. Время обработки поискового запроса практически не зависит от размера индекса и составляет несколько секунд. Собственно для установки система требует около 3Мб места на диске. Кроме этого, свободное место понадобится, естественно, для файлов индекса, а также для временных файлов. При индексации нужно иметь свободным от одного до двух объемов имеющихся файлов индекса, при поиске - в зависимости от интенсивности поиска. Система работает на следующих платформах: Windows 95 и Windows NT Protos представляет собой один из серии продуктов, объединенных общим названием Protos. file и предназначенных для работы с текстами как в локальной так и в глобальной сети а также для подключения в качестве модуля к другим системам. 7. 2. Установка системы Состав архива.
Система поставляется в виде одного самораспаковывающегося архива Для установки системы создайте каталог, в котором Вы хотите установить систему, скопируйте в этот каталог архив и распакуйте его, выполнив команду YNT . Содержимое архива: Корневой каталог Protos. exe - поисковый сервер системы Zal3. byk - морфологический модуль системы
Protos. ini - пример главного конфигурационного файла системы Default. ini - пример конфигурационного файла поисковой машины Search. htm - пример поисковой страницы системы Stopword. lst - список стоп-слов Каталог Docs: документация по системе Protos
Каталог Images: Картинки, используемые системой в выходных формах. Каталог Scripts: Приложения для управления системой (описаны ниже) Организация работы.
После распаковки архива Вам нужно создать на локальном диске следующие каталоги: Каталоги базы данных системы Protos для каждой поисковой машины. Эти каталоги будут содержать индекс документов Вашего сервера. Каждой поисковой машине должен быть выделен отдельный каталог. Каталоги временных файлов системы Protos. Эти каталоги будут содержать результаты поиска и сформированные выходные формы. Каталог картинок системы Protos. В этот каталог нужно скопировать картинки из каталога Images дистрибутива. Созданный каталог должен быть доступен для чтения пользователям Вашего сервера. Если это удобно, то для всех поисковых машин может быть использован один и тот же каталог. Каталоги интерфейсных программ системы Protos. В эти каталоги нужно скопировать файлы из каталога Scripts дистрибутива. Если это удобно, то для всех поисковых машин может быть использован один и тот же каталог. Естественно, что, если Вы не хотите, чтобы произвольный пользователь имел возможность управлять Protos, то каталоги, содержащие административные приложения, должны быть защищены от несанкционированного доступа средствами WEB-сервера. Каталог(и), содержащий поисковое приложение, должен быть доступен для выполнения программ пользователям Вашего сервера. 7. 3. Настройка системы
Для настройки системы надо дать ответ на следующие вопросы: Индексируемый хост (URL) Индексируемые документы: От какого корня индексируются деревья? Какие типы файлов (суффиксы) индексируются? Какие каталоги надо исключить? Какие типы файлов (суффиксы) надо исключить?
В какой кодировке выдаются документы (при индексации и при поиске)? Как проиводится переиндексация (все заново, только новые и измененные документы, отдельные деревья)? Конфигурация
Данная версия Protos может работать под управлением операционных систем MS Windows 95 и MS Windows NT и любого WEB-сервера, корректно реализующего CGI протокол. Для управления системой Protos используется DCE RPC ncalrpc протокол (MS Windows 95) и DCE RPC ncacn_np протокол (MS Windows NT). Запуск индексатора и поискового сервера
Конфигурационный файл Protos. ini описывает все существующие в Protos поисковые машины. Каждая отдельная поисковая машина описана в своем конфигурационном файле, что позволяет настраивать каждую поисковую машину независимо. Protos является сервисным приложением, то есть запускается при загрузке операционной системы и до входа в систему первого пользователя. При смене пользователя, работающего в системе, Protos не выгружается. Для проверки корректности конфигурационных файлов предусмотрена возможность запуска системы Protos как обычного консольного приложения. После запуска Protos проверяет корректность конфигурационных файлов и выводит сообщения о возможных ошибках в протокол событий (для MS Windows NT), файл Protos. err (для MS Windows 95) или консоль (отладочный режим). При обнаружении фатальных ошибок в конфигурационном файле Protos выгружается. После анализа главного конфигурационного файла Protos запускает поисковые машины, для которых установлен флаг автоматического запуска. Сообщения о возможных ошибках при запуске поисковых машин выводится в протокол этих поисковых машин или, если протокол поисковой машины не может быть открыт (например, если в конфигурационном файле машины не указан файл протокола, или если конфигурационный файл вообще не найден), в протокол Protos. В дальнейшем работа Protos (в том числе и поиск документов) управляется входящими в состав поставки приложениями с применением RPC-протокола (удаленный запуск процедур). Эти приложения можно использовать и как обычные консольные приложения и как CGI-приложения. --- Программа Protos. exe
В состав системы входит программа Protos. exe, являющаяся сервером поисковых машин, и ряд приложений, предназначенных для управления поисковыми машинами. Программа Protos. exe имеет три ключа:
1. Ключ -i устанавливает Protos. exe как сервисное приложение операционной системы. После установки Protos. exe завершается. Запуск Protos. exe производится после перезагрузки операционной системы и до входа в систему первого пользователя. Для MS Windows NT запуск и остановка Protos. exe может быть осуществлена посредством приложения Service панели управления. 2. Ключ -r отменяет установку Protos. exe как сервисного приложения операционной системы. После отмены Protos. exe завершается. 3. Ключ -d запускает Protos. exe как обычное консольное приложение. Полезен при отладке конфигурации. При запуске Protos. exe без ключей
под MS Windows NT программа выводит сообщение об ошибке и завершается под MS Windows 95 работает как сервисное приложение --- Управляющие приложения системы Protos
Все управляющие приложения могут быть использованы как обычные консольные приложения и как CGI-приложения. 1. Status. exe
Приложение предназначено для печати состояния поисковых машин. Для каждой машины, определенной в конфигурационном файле, указывается ее имя и один или несколько из следующих флагов состояния: Idle - поисковая машина не запущена; Searching - поисковая машина запущена для поиска; Indexing - поисковая машина запущена для индексирования. 2. Shutdown. exe
Приложение предназначено для остановки сервера поисковых машин. Для MS Windows 95 это единственный способ корректного завершения работы без выключения машины. Для MS Windows NT аналогичное действие может быть выполнено посредством приложения Service панели управления. Описанные ниже приложения управляют работой конкретной поисковой машины. Для задания имени поисковой машины может быть использован один из следующих способов: если приложение запускается как консольное, то имя машины задается параметром приложения; если приложение запускается как CGI-приложение, то имя машины может быть задано в компоненте "дополнительный путь" (PATH_INFO) URL; если приложение запускается как CGI-приложение, то имя машины может быть задано в компоненте "поисковая строка" (QUERY_STRING) URL в формате server= . 3. Indexon. exe
Приложение запускает индексатор поисковой машины. Успешное завершение приложения свидетельствует только об успешном начале индексирования. Если в процессе индексирования или при запуске индексатора появляются ошибки, то запись о них помещается в протокол индексирования поисковой машины. 4. Indexoff. exe
Приложение предназначено для аварийного завершения индексирования. Аналогичное действие оказывает и перезагрузка компьютера. 5. Srchon. exe
Приложение предназначено для запуска поиска на поисковой машине. При возникновении ошибок запись о них помещается в протокол поиска поисковой машины. Если в конфигурационном файле поискового сервера для машины указан флажок auto, то поиск запускается автоматически. 6. Srchoff. exe
Приложение предназначено для остановки поиска на поисковой машине. 7. QueryCGI. exe и QueryISA. dll
Приложения являются соответствено CGI и ISAPI приложениями, непосредственно осуществляющими поиск посредством поисковой машины. Порядок использования приложений приведен в поисковой странице Search. htm, входящей в состав поставки. ---. Настройки поисковой странички
Поисковую страничку (Search. htm) надо скопировать в любой каталог сервера, доступный для пользователей. После этого любым текстовым редактором нужно заменить в ее теле ссылки на каталог картинок и каталог интерфейсных программ. В страничке, входящей в состав дистрибутива, эти ссылки равны соответственно: для картинок - http: //localhost/Images
для программ - http: //localhost/Scripts/QueryCGI. exe/Default. --- Конфигурационные файлы Protos
Для настройки параметров системы необходимо отредактировать входящие в состав дистрибутива файлы Protos. ini и Default. ini . Формат конфигурационных файлов Protos является стандартным для MS Windows форматом конфигурационных файлов. 1. Работа Protos управляется конфигурационным файлом PROTOS. INI, который должен находиться в корневом каталоге Protos (в каталоге, в котором находится программа PROTOS. EXE). Если этот файл отсутствует, то программа PROTOS. EXE после запуска выдает соответствующее сообщение и завершает свою работу. Файл содержит одну секцию - [Servers], в которой находится один или несколько ключей вида: = [, auto] где - произвольное имя, которое присваивается поисковой машине. Это имя в дальнейшем будет использоваться для управления этой поисковой машиной, в том числе для поиска с ее помощью. Имя может состоять из латинских букв и цифр. Если используется только одна поисковая машина, рекомендуется имя Default. - полное имя (включая имя устроиства и полный путь) конфигурационного файла описываемой поисковой машины. Если используется только одна поисковая машина, то удобно описать ее конфигурацию в файле PROTOS. INI. В этом случае должно совпадать с полным именем PROTOS. INI. auto - необязательный флажок, при наличии которого поисковая машина автоматически запускается при запуске Protos. Секции, описывающие конфигурацию поисковой машины.
Файл(ы), описывающий конфигурацию поисковых машин, состоит из следующих секций: [Main], [Parsers], [Virtual Robots], [Special Folders], [Protocol] . Секция [Special Folders] является необязательной. 1. Секция [Main]
Эта секция содержит основные параметры настройки Protos и должна присутствовать обязательно. Некоторые ключи секции имеют значение по умолчанию и могут отсутствовать, все остальные - обязательны. Обязательные ключи: 1. Имя сервера: Host
Ключ определяет имя хоста, который обслуживает поисковая машина. Пример: Host = www. comptek. ru 2. Имя поискового приложения: Script
Ключ задает полное имя на WEB-сервере поискового приложения, ссылки на которое поисковая машина помещает в выходные формы. Дополнительный путь определяет имя поисковой машины. Пример: Script=/Scripts/QueryCGI. exe/Default
В этом примере /Scripts/QueryCGI. exe - имя приложения, а Default - имя поисковой машины. 3. Каталог хранения результатов: CacheFolder
Ключ задает каталог, в котором поисковая машина будет хранить результаты запросов и выходные формы. Указанный каталог должен существовать. Нельзя назначать один и тот же каталог для разных поисковых машин. Пример: CacheFolder = c: /Protos/cache 4. Каталог хранения индекса: DBaseFolder
Ключ задает каталог, в котором поисковая машина создает индекс документов. Указанный каталог должен существовать. Нельзя назначать один и тот же каталог для разных поисковых машин. Пример: DBaseFolder = c: /Protos/dbase 5. Каталог картинок: Images
Ключ задает имя каталога на WEB-сервере, в котором находятся картинки, используемые поисковой машиной при генерации выходных форм. Пример: Images = Images
6. Если в качестве WEB-сервера используется Baikonur Web App Server(r) компании Epsylon Technologies, то дополнительно должен быть определен ключ Baikonur. Section
Ключ задает имя секции Baikonur, обслуживаемой поисковой машиной. Остальные ключи: 7. Пропуск файлов: FileFilter
Ключ предназначен для борьбы с некоторыми HTML-редакторами, оставляющими после себя мусор в рабочем каталоге. Файлы, удовлетворяющие (значению ключа), не будут индексироваться. Пример: FileFilter = _. *|. *tmp. *[. ]htm
Приведенный в примере фильтр исключает из процесса индексирования файлы, имена которых начинаются с подчеркивания, и файлы с расширением . HTM, содержащие в имени строку "TMP". 8. Пропуск каталогов: FolderFilter
Ключ исключает из процесса индексирования каталоги (со всеми их подкаталогами), имя которых удовлетворяет поисковому выражению. Пример: FolderFilter = _. *|temp
Приведенный в примере фильтр исключает из процесса индексирования каталоги, имена которых начинаются с подчеркивания, и каталоги с именем TEMP. 9. Стоп-Слова: StopList
Ключ задает полное имя файла, содержащего список стоп-слов. Параметр может отсутствовать. Пример: StopList = c: /Protos/stopword. lst 10. Порт: Port Значение по умолчанию: 80
Ключ определяет номер порта, который используется WEB-сервером. Пример: Port = 80 11. Время существования запроса: UserTimeout Значение по умолчанию: 30
Ключ указывает, через сколько минут после последнего обращения удаляется запрос пользователя. Если запрос удален, то пользователю вместо выходной формы посылается соответствующее сообщение("Результат предыдущего запроса уже удален"). Пример: UserTimeout = 10 Секция [Parsers]
Секция определяет типы документов, которые должны быть проиндексированы, и имена интерпретаторов для каждого типа документов. Ключами секции являются имена интерпретаторов, значением ключей - список соответствующих им расширений файлов документов, разделенных запятыми. С текущей версией Protos поставляются интерпретаторы HTML и текстовых документов. Их имена - PRSHTML и PRSTEXT соответственно. Пример: PRSHTML = . htm, . html Секция [Virtual Roots]
Если в качестве WEB-сервера используется Baikonur Web App Server(r) компании Epsylon Technologies, то данная секция игнорируется. Для остальных WEB-серверов секция является обязательной и описывает структуру каталогов WEB-site'а. Ключами секции являются имена каталогов site'а, а значениями ключей - соответствующие им каталоги файловой системы. Таким образом, записи секции имеют вид: = Пример: / = c: /webshare/wwwroot /OurCompany/products = u: /doc/current/products
В приведенном примере корневым каталогом site'а является каталог c: /webshare/wwwroot, а каталогом /OurCompany/products является каталог u: /doc/current/products. При заполнении этой секции нужно быть предельно внимательным, поскольку неправильное определение ключей может привести к тому, что не все документы site'а будут находиться поисковой машиной и наоборот, документы, доступ к которым через WEB-сервер запрещен, могут стать доступными через поисковую машину. Секция [Special Folders]
Секция является необязательной. В ней описываются каталоги, алгоритм индексирования которых отличается от стандартного. Стандартный алгоритм индексирования обходит все каталоги site'а (описанные в секции [Virtual Roots] ), удаляет из индекса документы, удаленные со времени последнего индексирования, и индексирует измененные и вновь появившиеся документы. При этом для чтения документов используется файловая система и предполагается, что кодировкой документов является WIN 1251. Чтобы изменить этот алгоритм для некоторых каталогов в секцию включаются записи, ключом которых является имя каталога site'а, а значением - список описанных далее флажков. Такая запись действует как на сам каталог, так и на все его подкаталоги, для которых явно не указаны другие значения флажков. Флажки в списке разделяются запятыми. Имя флажка может быть сокращено до минимального числа букв, по которым его однозначно можно отличить от других флажков (одной буквы). При описании флажков такое сокращенное имя выделяется квадратными скобками. Все флажки делятся на три группы, каждая состоит из взаимоисключающих флажков. Если в записи, соответствующей каталогу, встречается более одного флажка из группы, то все кроме последнего игнорируются. В описании в каждой группе флажок по умолчанию выделен значком *. Группа 1. Флажки, определяющие доступ к документам [h]ttp - использовать для чтения документов WEB-сервер.
Флажок применяется для каталогов, содержащих документы, которые изменяются при передаче WEB-сервером (например, активные (ASP) документы). [f]ile* - использовать для чтения документов файловую систему. Группа 2. Флажки, определяющие алгоритм обновления индекса Действие флажков группы приведено в следующем списке:
[r]eindex - убирать из индекса удаленные документы и индексировать все существующие документы, даже если дата изменения осталась прежней. Обычно флажок используется совместно с флажком http (группа 1) для индексации активных документов. Если вся активность документов заключается только в использовании операторов типа include, то для каталогов, содержащих такие документы, устанавливается флажок update (см. ниже), и только для индексации после изменения включаемых документов устанавливается флажок reindex . [e]xclude - исключить каталог из пути индексирования. Флажком помечаются каталоги, документы которых Вы не хотите индексировать. [u]pdate* - удалять из индекса отсутствующие документы и переиндексировать документы с измененной датой. [s]kip - пропускать каталоги при индексировании, не удаляя из индекса лежащие в них документы. Флажок применяется для каталогов, документы в которых не меняются (например, архивов), и для временно недоступных каталогов. Группа 3. Флажки, определяющие кодировку документов
[w]in* - стандартная кодировка; [a]lt - альтернативная кодировка; [k]oi - код КОИ-8 Группа 4. Флажки задания раздела
[t]opic: - включить каталог (и все подчиненные)в раздел ( -[t]opic: - исключить каталог из раздела) Синтаксис: t: [имя_атрибута]=[значение_атрибута]
Пример: /our_company=skip, koi, t: subtree=ourcompany, t-: subtree=news При изменении конфигурации разделов необходимо переиндексировать базу. Секция [Protocol]
Секция определяет имена файлов, в которые поисковая машина записывает протокол работы и сообщения об ошибках. Секция содержит следующие ключи: 1. Протокол индексирования: Index
Ключ определяет полное имя файла, в котором ведется протокол индексирования. Пример: Index = c: /Protos/default_i. txt 2. Протокол поиска: Search
Ключ определяет полное имя файла, в котором ведется протокол поиска. Пример: Search = c: /protos/default_s. txt 7. 4. Язык запросов Protos Как трактуются слова
Независимо от того, какая форма слова стоит в запросе, поиск учитывает все формы по правилам русского языка. Например, если задан запрос 'идти', то в результате поиска будут найдены ссылки на документы, содержащие слова 'идти', 'идет', 'шел', 'шла' и т. д. На запрос 'окно' будет выдана информация, содержащая и слово 'окон', а на запрос 'отзывали' - документы, содержащие слово 'отозвали'. Если в запросе слово набрано с большой буквы, будут найдены только слова с большой буквы, в противном случае будут найдены как слова с большой, так и с маленькой буквы. Например, запрос 'лебедь' найдет и птицу, и генерала. Запрос 'Лебедь' - генерала и те случаи упоминания птицы, когда она написана с большой буквы. Естественно-языковый запрос
Самый простой способ задать запрос - просто написать в строке запроса то, что нужно найти. Язык запросов и понятие релевантности в Protos'е настолько развиты, что позволяют успешно работать с неформальными запросами. Для этого запрос надо заключить в фигурные скобки. Например, запрос {компьютеры типа башня или tower}, выдаст список документов, относящихся к данной теме, часть которых в свою очередь даст дальнейшие ссылки. В начале списка окажутся документы, где слова запроса встречаются наибольшее количество раз и стоят как можно ближе друг другу. Итак, если можно продумать запрос, выделить ключевые слова, определить возможные синонимы, имеет смысл использовать язык запросов. Если же проще описать словами область интересов в общем виде, удобно задавать естественно-языковый зарос. Этот запрос всегда будет обработан, как бы они ни был задан, какие бы символы в нем не использовались. Основные операторы
Несколько набранных в запросе слов, разделенных пробелами, означают, что все они должны входить в один абзац искомого документа. Тот же самый эффект произведет употребление символа '&'. Например, при запросе 'холодная вода' (или 'холодная & вода'), результатом поиска будет список документов, в которых в одном абзаце содержатся и слово 'холодный', и слово 'вода'. Между словами можно поставить знак '|' (или запятую ', '), чтобы найти документы, содержащие любое из этих слов. Запрос вида 'вода | огонь' или 'вода, огонь' задает поиск документов, содержащих в одном абзаце хотя бы одно из слов 'вода' или 'огонь'. Еще один знак, тильда '~', позволит найти документы с абзацем, содержащим первое слово, но не содержащим второе. По запросу 'холодный ~ горячий' будут найдены все документы, содержащие слово 'холодный', рядом с которым (в пределах абзаца) нет слова 'горячий'. Чтобы подняться на ступеньку выше, от уровня абзаца до уровня документа, надо удвоить соответствующий знак. Одинарный оператор (&, ~) ищет в пределах абзаца, двойной (&&, ~~) - в пределах документа. Например, по запросу 'холодная && вода' будут найдены документы, содержащие где бы то ни было оба эти слова. А запрос 'квас ~~ теплый' выдаст все документы со словом 'квас', но без слова 'теплый' Поиск с расстоянием
Как Protos адресует слова? Если все слова в тексте перенумеровать по порядку их следования, то расстояние между словами a и b - это разница между номерами слов a и b. Таким образом, расстояние между соседними словами равно 1 (а не 0), а расстояние между соседними словами, стоящими "не в том порядке", равно -1. То же самое относится и к абзацам. Если между двумя словами поставлен знак '/', за которым сразу напечатано число, значит, требуется, чтобы расстояние между ними не превышало этого числа слов. Например, по запросу 'холодная /2 вода' должны быть найдены документы, в которых содержатся и слово 'холодный' и слово 'вода', причем расстояние между ними должно быть не более двух слов и они должны находиться в одном абзаце. Если порядок слов и расстояние точно известны, можно воспользоваться пунктуацией /+n. Так, например, задается поиск слов, стоящих подряд. Запрос 'холодная /+1 вода' означает, что слово 'вода' должно следовать непосредственно за словом 'холодный'. (Кстати, к тому же результату приведет запрос "холодная вода") В общем виде ограничение по расстоянию задается при помощи пунктуации вида '/(n m)', где 'n' минимальное, а 'm' максимально допустимое расстояние. Отсюда следует, что запись '/n' эквивалентна '/(-n +n)', а запись '/+n' эквивалентна '/(+n +n)'. Запрос 'холодная /(-2 4) вода' означает, что 'вода' должна находиться от 'холодный' в интервале расстояний от 2 слов слева до 4 слов справа. Знаки можно комбинировать с ограничением расстояния.
Например, результатом поиска по запросу 'холодный ~ /+1 вода' будут документы, содержащие слово 'холодный', причем в этих документах слово 'вода' не следует непосредственно за словом 'холодный'. Когда знаки ограничения по расстоянию стоят после двойных операторов, то употребленные там числа - это расстояние не в словах, а в абзацах. Расстояние в абзацах определяется аналогично расстоянию в словах. Запрос 'холодная && /1 вода' означает, что слово 'вода' должно находиться в том же самом, либо в соседнем со словом 'холодный' абзаце. Круглые скобки
Вместо одного слова в запросе можно подставить целое выражение. Для этого его надо взять в скобки. Например, запрос '(холодный, горячий) /+1 (вода|огонь)' задает поиск документов, которые содержат любую из фраз 'холодная вода', 'холодный огонь', 'горячая вода', 'горячий огонь'. Поиск в определенных элементах
Можно искать информацию в двух "зонах" - заголовках (имя "зоны": Title) и ссылках (имя "зоны": A). Синтаксис: $имя_зоны логический_множитель
Запрос '$Title КомпТек' ищет в заголовках документов слово 'КомпТек'. Запрос ' $A (КомпТек | Dialogic)' находит документы, в cсылках внутри которых есть одно из слов 'КомпТек' или 'Dialogic'. Поиск в найденном
Поставив в поисковой строке '$$' можно ограничить область поиска - осуществлять его не по всем документам, а только по тем, которые были найдены в предыдущем поиске. Оператор позволяет последовательно суживать область поиска (при очень узком поиске есть опасность не найти ни одного релевантного документа). Запрос '$Title КомпТек $$ ' найдет те документы из последнего результата поиска, у которых в заголовке есть слово “КомпТек”. Поддерево
Для поиска в поддеревьях необходимо задать при индексировании нужные каталоги и названия разделов, к которым они будут относиться. При поиске по разделу можно указывать оператор 'subtree' (хотя удобнее организовать выбор в меню на поисковой странице). Запрос вода#subtree=hot задает поиск документов в разделе hot, содержащих слово вода. Ранжирование результата поиска
При поиске для каждого найденного документа Яндекс вычисляет величину релевантности (соответствия) содержания этого документа поисковому запросу. Список найденных документов перед выдачей пользователю сортируется по этой величине в порядке убывания. Релевантность документа зависит от ряда факторов, в том числе от частотных характеристик искомых слов, веса слова или выражения, близости искомых слов в тексте документа друг к другу и т. д. Пользователь может повлиять на порядок сортировки, используя операторы веса и уточнения запроса. Задание веса слова или выражения применяется для того, чтобы увеличить релевантность документов, cодержащих "взвешенное" выражение. Синтаксис: слово: число или (поисковое_выражение): число
По запросу 'поисковые механизмы: 5' будут найдены те же документы, что и по запросу 'поисковые механизмы'. Разница состоит в том, что наверху списка найденного окажутся документы, где чаще встречается именно слово 'механизмы'. Запрос 'поисковые (механизмы|машины|аппараты): 5 ' равнозначен запросу 'поисковые (механизмы: 5|машины: 5|аппараты: 5) '. Задание уточняющего слова или выражения применяется для того, чтобы увеличить релеватность документов, cодержащих уточняющее выражение. Синтаксис:
По запросу 'компьютер 7. 5. Краткое описание операторов запроса
Пробел или & логическое И (краткое в пределах одного абзаца) && логическое И (в пределах документа) , или | логическое ИЛИ () группирование слов {} естественно-языковый запрос
~ бинарный оператор И НЕ (в пределах одного абзаца) ~~ бинарный оператор И НЕ (в пределах документа) /(n m) расстояние в словах (-назад +вперед) &&/(n m) расстояние в абзацах (-назад +вперед) $Title поиск в заголовках документов $A поиск в ссылках
$$ поиск в последнем результате поиска #subtree= название раздела поиск в поддереве слово слово : число задание веса слова или выражения. 7. 6. Стоп-слова
Если во время работы индексатора в текущей директории находится файл stopword. lst, индекс будет строиться с учетом стоп-слов. Это значит, что слова, указанные в этом файле (их их формы) не будут заноситься в индекс. Если во время работы поискового сервера в текущей директории находится файл stopword. lst , сервер не будет искать указанные слова в индексе. Применение стоп-слов может значительно уменьшить размер индексного файла (inv). В состав поставки включен файл stopword. lst, в котором приведены 55 самых частотных русских слов (соответствующих 33% словоупотреблений). Файл можно редактировать. 7. 7. Разметка документа
При индексации Protos запоминает подробный адрес слова - не только документ, но и номер абзаца, в котором находится слово, и номер слова в этом абзаце. Кроме поиска с расстоянием, это дает возможность выделить искомые слова в найденном тексте. Для каждого документа в списке найденного указан его заголовок, ссылающийся на размеченный документ, начало текста документа, дата и URL документа, ссылающийся на оригинальный документ. Protos-Web при индексации запоминает положение слова в документе, что дает возможность выделить (подсветить) слова, найденные в тексте. При этом подсвечиваются не все слова, входящие в запрос, а только те, которые удовлетворяют поисковому выражению. Слова выделены угловыми стрелочками. Каждая стрелочка ссылается на следующее или предыдущее "найденное" слово. В начале размеченного документа помещается табличка с ссылками на первое и последнее найденное слово и на оригинальный документ. В конце документа - аналогичная табличка, где приводится статистика, то есть - сколько слов найдено (подсвечено) в данном документе. Если запрошенное слово было найдено в заголовке, то оно выделяется там угловыми скобками, а внизу выдается сообщение "Найденные в заголовке слова выделены угловыми скобками". Если файлы были изменены, а индекс по ним не обновлен, об этом выдается соответствующее предупреждение. 7. 8. Программные сообщения Сообщения системы.
Протокол сервера PROTOS. INI (для Windows 95 записывается в Protos. log, для Windows NT - в системный протокол (event log)) "Maximum Server number exceeded. " - превышено разрешенное количество виртуальных серверов "Nothing to do. " - в файле PROTOS. INI не найдено корректного конфигурационного файла ни для одной поисковой машины "Program is corrupted. " - дистрибутив испорчен
"Memory exceeded. " - нехватает памяти для выполнения программы "Dictionary is not found. " - дистрибутив неполон
". INI file for server [имя_поискового_сервера] is not found. " - не найден файл, описывающий конфигурацию данной поисковой машины "Protocol file(s) for server [имя_поискового_сервера] can not be opened. " - невозможно открыть протокол данной поисковой машины Сообщения об ошибках, которые каждая поисковая машина пишет в свой протокол индексирования или поиска соответственно: " Host parameter is not defined. " - не определено имя хоста для поисковой машины ( параметр Host) " Script parameter is not defined. " - не определено имя поискового приложения ( параметр Script) " CacheFolder parameter is not defined. " - не определен каталог хранения результатов ( параметр CacheFolder) "Cache folder [путь] is not found. " - не существует каталог хранения результатов ( CacheFolder) "DBaseFolder parameter is not defined. " - не определен каталог хранения индекса ( параметр DBaseFolder) "Data base folder [путь] is not found. " - не существует каталог хранения индекса ( DBaseFolder) "Images parameter is not defined. " - не указан каталог картинок машины ( параметр Images) "StopWords file [имя_поискового_сервера] is not found. " - не найден файл стоп-слов ( StopWords) "Can't start indexator. System is busy. " - нехватает системных ресурсов Сообщения, которые каждая поисковая машина пишет в свой протокол индекса : "Can't create data base [имя_файла]. " , "Can't create index file [имя_файла] . " , "Can't create temprorary file. May be disk is full. " - система не может создать соответствующие файлы, возможные причины: отсутствие места на диске, отсутствие доступа на запись, системная ошибка диска "Close index: Memory exceded. " - нехватает памяти
"Data base is catched by another program. " - база данных занята другой программой Сообщения, которые каждая поисковая машина пишет в свой протокол поиска: "Index file [имя_файла] is not found. " , "Data base file [имя_файла] is not found. " - не найдены файлы индекса, возможно, документы не проиндексированы. "Ошибка создания временного файла. " - система не может создать файл, возможные причины: отсутствие места на диске, отсутствие доступа на запись, системная ошибка диска Информационные сообщения
Сообщения, которые каждая поисковая машина пишет в свой протокол индекса: "Maximum licensed data base capacity exceded. " - превышен объем текстов, указанные в лицензии на программу, обратитесь в CompTek за следующей версией "[количество_документов] documents have been updated. " , "[количество_документов] documents have been deleted. " , "[количество_документов] documents have been added. " , " Total [количество_документов] documents ([объем]Kb) have been indexed. " , "[количество_документов] documents have been left unchanged. " - статистика индексирования "Data base capacity: [количество_документов] documents. " - размер базы данных "Indexator aborted due to user request. " - индексатор снят по запросу пользователя (это не ошибка, но индекс не обновился) "U [имя_файла] ) , "D [имя_файла]) , "A [имя_файла]) - сообщения о каждом изменненном в индексе файле (U - обновление, D - удаление, A - добавление) Сообщения, которые каждая поисковая машина пишет в свой протокол поиска: "Program expired. " - время действия программы окончилось, это была демо-версия, для приобретения неограниченной по времени версии обратитесь в CompTek Сообщения, выдаваемые при запросе с поисковой страницы (в формате HTML): "Извините, но результат Вашего запроса уже удален. "
"Неправильная конфигурация страницы. " , "Извините, но Ваш запрос не правильно сформирован. " - ошибка в вызове и формировании поискового приложения "Извините, но запрошенный документ изменился после индексироавния. " Сообщения ядра Protos
"Синтаксическая ошибка Syntax error" - неправильно сформулирован запрос "Для требуемой операции не хватает памяти Not enough memory for the operation" "Ошибка при чтении файла File reading error" - не читается файл индекса "Неизвестная зона Unknown zone" - используется не описанный таг зоны "Внутренняя ошибка: дисбаланс зон Internal error: zone disbalance" - в документе есть таг открытия зоны, но нет тага закрытия "Результат предыдушего запроса уже удален Previous search result is already deleted"
Глава 8. Сравнительные характеристики российских поисковых систем Рассматриваемые в данной таблице Rambler, Yandex и Апорт являются основными полнотекстовыми поисковыми системами, представленными в русскоязычном секторе Интернет. Системы проводят автоматическое сканирование документов только с доменов ru, su, ua и других доменов, принадлежащих странам ближнего зарубежья. При регистрации страницы, располагающейся в зоне . com, робот проверит корневую страницу ресурса. При отсутствии русского текста индексация не произойдет.... I. Основные характеристики поисковых систем Rambler Yandex Апорт Адрес www. rambler. ru yandex. ru www. aport. ru
Кол-во уникальных пользователей поисковой системы в день (среднее за неделю с 25 по 31 января) 19 344 13 323 6 714
Кол-во уникальных пользователей поисковой системы в месяц (январь 99) 137 300 94 775 55 200
Кол-во запросов к поисковой системе в день (среднее за неделю с 25 по 31 января) 138 983* 50 235 24 057 Размер поисковой системы (на 31. 01. 99) 3 815 679 (DOC) 5 143 907 (URLs) 24 897 (SERV) 4 512 231 (DOC) 24 772 (SERV) 1 757 208 (DOC) 2 999 585 (URL) 13 264 (SERV) **
Кол-во индексируемых в день страниц (среднее за неделю с 25 по 31 января) 130 000 URLs 40 000 NEW 900 000 URLs ? ?? Период обновления страницы в индексах от недели до месяца 7 дней от недели до месяца Появление в индексах после регистрации ближайший выходной 10 мин для доменов 'ru', 'su', 7 дней для остальных 7 дней Появление в индексах незарегистрированных страниц от недели до месяца около 7 дней от недели до месяца Глубина индексирования не ограничена не ограничена не ограничена Поддержка фреймов + + + Поддержка ImageMaps + + + Индексация закрытых разделов + + + Популярность веб-сайта планируется Определение частоты обновления + + Robots. txt + + + Meta Robots + + + Возможность проверки страницы на наличие в индексах + + + Возможность проверки на наличие ссылок с других страниц планируется + * - включая поиск по TOP100 ** - данные на 02. 12. 98 II. Факторы, влияющие на определение релевантности страницы Rambler Yandex Апорт Адрес www. rambler. ru yandex. ru www. aport. ru Популярность страниц Мета-теги планируется + Индексация в поле ALT + планируется + Индексация текста в комментариях + + Стоп слова встречаются в более 600 тыс. документов список список Морфологический поиск + + + Учет регистра + Meta-refresh ОК (робот переходит) OK (робот не переходит) OK (робот переходит) Невидимый текст SPAM SPAM SPAM Излишняя повторяемость ключевых слов SPAM SPAM SPAM Мелкий текст SPAM SPAM SPAM
III. Факторы, влияющие на отображение страниц в результатах поиска Rambler Yandex Апорт Адрес www. rambler. ru yandex. ru www. aport. ru Длина заголовка (title) не более 512 символов не более 203 символов не более 256 символов Если нет заголовка URL выдается "Без заголовка" выдается "Документ без названия" Вид описания (мета-тег, первый текст на странице и т. д. ) первые 513 символов из основного текста документа первые 203 символов из основного текста документа
отрывки предложений (до 10), где встречаются ключевые слова Длина описания
три опции: отсутствует, не более 513 символов, не ограничена не более 203 символов цитата до 500 слов Дата обновления документа + + + Дата индексации документа + + Размер документа + + Кодировка документа + + + Кол-во результатов на странице 15 - 30 - 50 10 - 20 - 50 10 Варианты отображения стандартный, короткий, полный простой и академический поиск сжатая , обычная, подробная Пояснения к таблице I. Основные характеристики поисковых систем Размер поисковой системы
Параметр, характеризующий объем информации, проиндексированной системой: (URL) - кол-во хранящихся в индексах адресов страниц;
(DOC) - кол-во проиндексированных документов. Их, как правило, меньше чем (URL), т. к. по нескольким URL может находиться один и тот же документ; (SERV) - кол-во проиндексированных серверов. На одном сервере может располагаться от одной до нескольких тысяч страниц, поэтому данная цифра больше свидетельствует о широте охвата системы, чем об ее информационном объеме. От размера поисковой системы зависит, будет ли Ваш веб-сайт представлен в ее индексах, сколько страниц веб-сайта будет проиндексировано и т. д. Кол-во индексируемых в день страниц
Кол-во страниц, которые индексируются роботами поисковых систем за одни сутки. Чем выше данный параметр, тем чаще происходит переидексация страниц, тем актуальнее информация в системе. Период обновления страницы в индексах
Среднее и максимальное время, через которое происходит повторная индексация страницы. Содержимое многих веб-страниц часто меняется, некоторые страницы попросту исчезают, поэтому для поисковой системы немаловажно поддерживать актуальную информацию в своих индексах. Однако ссылки в поисковой системе могут быть как однодневной давности, так и не обновлявшимися несколько месяцев. Причина в том, что робот не возвращается на все страницы через одинаковый промежуток времени. На скорость обновления могут влиять следующие факторы: - регистрация по запросу пользователя, при этом указанная страница заносится в индекс "вне очереди"; - зависимость скорости обновления от популярности страницы; - зависимости скорости обновления от динамичности страницы. Появление в индексах после регистрации
Время, через которое зарегистрированная пользователем страница появится в индексах системы. По идее робот поисковой системы рано или поздно найдет Вашу страницу, если на нее указывают другие веб-ресурсы. Но на практике гораздо быстрее это произойдет при их непосредственной регистрации (обычно ADD URL). Появление в индексах незарегистрированных страниц
При регистрации (add url) пользователи, как правило, указывают URL главной страницы сайта. При этом поисковые системы обычно оперативно помещают в индексы указанную страницу и ставят весь остальной сайт в очередь на индексацию. Данный пункт указывает период, через который остальные страницы сайта появятся в индексах. Глубина индексирования
Данный пункт показывает, сколько страниц помимо указанной будет индексировать поисковая система. Как правило, у крупных поисковых машин нет ограничения на глубину, и их роботы пытаются проиндексировать все страницы веб-сайта. Это не всегда получается, т. к. на их пути могут возникнуть преграды, например, такие как фреймы, Image maps, динамически созданные страницы и т. д. (см. ниже). Ряд поисковых систем (например, Infoseek, Lycos) при индексации ограничиваются лишь некоторым кол-вом страниц веб-сайта. Кол-во страниц зависит как от самой системы, так и от популярности индексируемого ресурса. Поддержка фреймов
Некоторые поисковые системы не понимают фреймовой структуры сайта. Вследствие этого практически все страницы Вашего сайта могут быть не проиндексированы. Поддержка ImageMaps
Не все поисковые системы могут следовать по ссылкам, указанным посредством image maps. Вследствие этого некоторые страницы Вашего сайта могут быть не проиндексированы Индексация закрытых разделов
Ряд поисковых машин могут индексировать защищенные разделы на серверах, если им указать login и пароль. Пользователь не сможет сразу перейти на защищенную страницу и изучить всю информацию, но благодаря поисковой системе он будет знать, что такая информация существует и, возможно, примет решение заплатить и получить к ней доступ. Популярность веб-сайта
Поисковая система может определить "популярность" веб-сайта по количеству ссылок на него с других веб-ресурсов. "Популярность" может быть одним из факторов в принятии системой решения о том, индексировать данный веб-сайт или нет. Определение частоты обновления
Некоторые поисковые машины определяют, насколько часто обновляются те или иные страницы. Данная информация помогает соответствующим образом спланировать график повторных визитов роботов для переиндексации страниц. Часто обновляемые ресурсы посещаются чаще, статичные страницы - реже. Robots. txt, Meta Robots
В силу некоторых обстоятельств администратор сайта может не желать индексации всех или определенных страниц своего веб-ресурса. Избежать индексации можно двумя путями: - c помощью файла Robots. txt, размещенного на веб-сервере. Его спецификации Вы можете изучить по адресу http: //info. webcrawler. com/mak/projects/robots/exclusion. html - при помощи специального мета-тега, который помещается на конкретную страницу веб-сайта и предписывает роботам не заносить ее в индексы системы. Выглядит следующим образом: Возможность проверки страницы на наличие в индексах
Очень полезная опция, которой обладают далеко не все поисковые машины. Позволяет определить наличие в индексах системы той или иной страницы и посмотреть, как она выглядит в системе. Синтаксис запроса для Rambler - $URL: host/url_name
Синтаксис запроса для Yandex - попробовать добавить страницу на http: //yandex. ru/addurl. html, если страница уже есть в индексах, система выдаст соответствующее сообщение. Синтаксис запроса для Апорта - url=www. promotion. aha. ru. Возможность проверки наличия ссылок с других страниц
Для человека, занимающегося продвижением сервера, немаловажно знать, какие ресурсы сети содержат на него ссылку, в каком контексте эта ссылка используется и т. д. Поэтому возможность вывода сайтов, содержащих подобные ссылки, придает поисковой системе дополнительную ценность. Синтаксис запроса для Апорта - link=www. promotion. aha. ru (пока можно указывать только имя сервера).
II. Факторы, влияющие на определение релевантности страницы Популярность страниц
Для каждой страницы поисковая система может определить, какое количество веб-ресурсов имеют на нее ссылку. Некоторые системы учитывают данный параметр "популярности" и считают подобные страницы более релевантными запросу. В этом действительно есть логика, т. к. наличие большого кол-ва ссылок, как правило, свидетельствует о полезности и информативности страницы. Мета-теги
Не все системы поддерживают мета-теги: description и keywords, т. е. учитывают ключевые слова, содержащиеся в этих тегах, при определении релевантности страницы. Индексация в поле ALT
Не все системы учитывают ключевые слова, содержащиеся в поле ALT тега IMG, при определении релевантности страницы. Для справки: в поле ALT заносится альтернативная текстовая подпись к картинкам на странице. Индексация текста в комментариях
Не все системы учитывают ключевые слова, содержащиеся в комментариях, при определении релевантности страницы. Для справки: комментарии не отображаются в браузере и посетители сайта их обычно не видят. В основном, используются для служебной разметки html-страницы и содержат информацию, не предназначенную для широкого круга пользователей. Стоп-слова
Для экономии места и увеличения производительности некоторые поисковые системы не включают в индексы слова, встречающиеся на веб-страницах очень большое кол-во раз. Например, "www", артикли "а", "the" и т. д. Морфологический поиск
Если поисковая система поддерживает морфологию, то поиск будет осуществляться не только по указанному слову, но и по всем его морфологическим формам. Т. е. , например, при запросе "баннер" такая поисковая машина найдет также страницы, содержащие "баннера", "баннеров", "баннере" и т. д. Учет регистра
Некоторые поисковые системы чувствительны к запросам с учетом регистра, другие - нет. Например, поисковая система AltaVista при запросе "banner" выдаст Вам все страницы, содержащие слово "banner", где буквы могут быть в любом регистре, но при запросе "Banner" - только страницы, содержащие это слово с заглавной первой буквой. Meta-refresh
В сети существуют страницы, которые автоматически переносят пользователя на другие веб-ресурсы. Причин, по которым они создаются, может быть много: сайт переехал на новое место и находится по другому адресу; страницы с редиректом созданы специально для поисковой системы, т. к. основные страницы сайта генерятся автоматически и не могут быть проиндексированы и т. д. Обычно такой автоматический редирект реализуется с помощью мета-тега refresh. Его синтаксис: Поисковые системы ведут себя в этом случае по-разному:
- одни считают такие страницы спамом поисковых систем и не индексируют их; - другие не индексируют данную страницу, но переходят по ссылке редиректа и производят индексацию на странице назначения; - третьи не понимают данного мета-тега, индексируют саму страницу, но по редиректу не переходят.... Спам поисковых систем
Вполне понятно стремление каждого веб-мастера добиться того, чтобы при запросе по определенным ключевым словам его страница выдавалась как можно ближе к началу списка. Иногда желание добиться успеха на этом поприще толкает некоторых использовать неприглядные приемы искусственного увеличения релевантности свой страницы - спамить поисковые системы. В основном, спам заключается в использовании неоправданно большого кол-ва ключевых слов на странице. Причем их стараются использовать там, где они имеют наибольший "вес" для поисковой системы, - в заголовке страницы (теге title), названиях разделов и т. д. Часто для того, чтобы подобные дополнительные слова не портили посетителям впечатление от страницы, их пишут текстом, совпадающим по цвету с фоном страницы, пишут их мелким шрифтом и т. д. Разумеется, администрация поисковиков не одобряет подобные действия. Системы поиска призваны находить и отображать документы в соответствии с тем, что содержит текст, предназначенный для посетителей, а не по "обогащенной смеси" ключевых слов. Крупные международные поисковики применяют ряд мер по борьбе со спамом. Если таким системам попадется страница, которая содержит в мета-теге keywords одно и то же слово более 5 раз, или, например, невидимый для посетителей текст, она не будет проиндексирована системой. Наши поисковые системы, к сожалению, пока не поддерживают автоматических средств борьбы со спамом, и в таблице просто представлены те действия, которые расцениваются администрацией как спам. Несмотря на отсутствие автоматического контроля, я рекомендую не использовать описанные выше приемы, т. к. : - спам поисковых систем сильно затрудняет поиск информации в Интернет; - подобную страницу при обнаружении могут выкинуть из индексов вручную; - не за горами время ввода автоматических средств слежения за спаммерами в русских поисковых системах.
III. Факторы влияющие на отображение страниц в результатах поиска Длина заголовка (title)
Максимальное кол-во сиволов из заголовка документа, которое отображает система. Если нет заголовка
В сети встречаются страницы с пустым или отсутствующим тегом title (заголовком документа). Этот пункт показывает, что система выводит в этом случае. Вид описания (мета-тег, первый текст на странице и т. д. )
Найденные документы каждая из систем отображает посвоему. Это могут быть первые N-символов текста со страницы, описание из мета-тега description, отрывки текста страницы, содержащие слова поиска и т. д. Длина описания Максимальное кол-во символов в описании страницы. Дата обновления документа
При отображении веб-документов в результатах поиска некоторые системы указывают время создания или обновления данной страницы. Дата индексации документа
При отображении веб-документов в результатах поиска некоторые системы указывают время последней индексации данной страницы. Размер документа
При отображении веб-документов в результатах поиска некоторые системы указывают размер данной страницы в килобайтах. Кодировка документа
При отображении веб-документов в результатах поиска некоторые системы указывают, в какой кодировке создана данная страница. Кол-во результатов на странице
Найденные веб-документы отображаются в системе определенными порциями, обычно по 10 -20 документов. Варианты отображения
Некоторые поисковые системы предусматривают несколько вариантов отображения найденых веб-документов. Глава 9. Сравнительная таблица зарубежных поисковых машин Altavista Excite HotBot InfoSeek Lycos OpenText WebCrawler Тип Полнотекстовая Полнотекстовая Полнотекстовая Полнотекстовая Абстрактная Полнотекстовая Полнотекстовая Размер 30 миллионов 55 миллионов 54 миллиона 20-50 миллионов 20-25 миллионов 5 миллионов 2 миллиона Период обновления от 1 дня до 3 месяцев 1 - 3 недели не позднее 3 недель от минут до месяца ещемесячное обновление 1 - 4 недели еженедельное обновление Дата индексирования документа Да Нет Да Нет Нет Нет Нет Указанные (submitted) страницы 1 день 1 неделя 3 недели 1 месяц 1 месяц 2 - 4 недели 2 - 4 недели Неуказанные (non-submitted) страницы 1 - 3 месяца 3 недели 3 недели 1 месяц 1 месяц 2 4 недели 2 4 недели Глубина индексирования Неограничена Неограничена Неограничена Неограничена Неограничена Ограничена популярностью того или иного сервера Поддержка фреймов Нет Да Нет Да Да Нет Нет Поддержка ImageMap Да Нет Нет Да Да Нет Да Защищенные паролями директории и сервера Нет Да Нет Да Да Нет Нет Частота появления ссылок Нет Нет Да Нет Да Нет Да "Обучаемость" Да Нет Да Да Нет Нет Нет Контроль индексации robots. txt robots. txt (в будущем и метаданные) И то, и другое robots. txt robots. txt robots. txt И то, и другое Перенаправление (redirect) Поддерживает Поддерживает Поддерживает Стоп-слова Да Да Да Нет Да Нет Нет Влияние на алгоритм определения релевантности Нет Ключевые слова в метаданных Нет Нет Нет Частота появления ссылок Spam-штрафы Да Да Да Да Да Да Да Поддержка META-тагов Да Нет Да Да Да Нет Только NOINDEX таг Title Заголовок страницы или No Title Заголовок страницы или Untitled Заголовок страницы или URL Заголовок страницы или первая строка документа Заголовок страницы или первая строка документа Первые 100 символов из документа Заголовок страницы или URL Description Метатаг или первые несколько строк из документа
Формируется из наиболее релевантных к запросу фраз документа Метатаг или первые несколько строк документа Метатаг или первые 200 символов после тага Метатаг или экстакт из содержимого страницы Первые 100 символов документа

Создается из содержания; обещается поддержка метатагов в будущем Проверка статуса URL Да Нет Нет Нет Да Нет Да Удаление старых данных Удалить содержимое и указать новый адрес Удалить содержимое или переписать robots. txt Переписать robots. txt
Удалить содержимое и указать новый адрес или переписать robots. txt Имя поискового робота (Spider User Agent) Scooter Architext Spider Slurp the Web Hound Side winder T-rex Spidey Список используемой литературы и материалов Компьютер. Октябрь 1991, часть24, номер. 10
Сеть Relcom. Адресный справочник, изд. МЦНТИ, Москва, 1992 г. Газета “Компьютерная Казань” 1998-1999гг. Журнал “Komputer World Казань” 1999г. Журнал “HiTech” №1-6. 1999г.
“Секреты INERNET” Джон Р. Левин и Кэрол Бароди. Издательство “Диалектика” г. М. URL: http: //www. citforum. ru – сервер аналитической информации. URL: http: //www. promo. ru - сборник полезной информации
Были исползованы поисковые системы Rambler, Yandex и Апорт. http: //m2. hq. cti. ru: 8080/arcadia/articles/art00023. html - Articles: Как улучшить поиск на Web-узлах http: //www. webber. net. ua/softoboz/searchsite. htm - Поиск на сайте http: //m2. hq. cti. ru: 8080/arcadia/general. html - Полнотекстовые поисковые системы : программные продукты http: //www. promotion. aha. ru/search/stips. htm – Что понимается под успешной индексацией в поисковых системах http: //www. tunis. tver. su/internet/search/intersr. html - Global search systems http: //www. usmga. ru/Koi-8/Search. htm - Поиск в INTERNET
http: //m2. hq. cti. ru: 8080/arcadia/general. html - Полнотекстовые поисковые системы : программные продукты http: //www. cor. neva. ru/pch/russian/index. html - MEDLINE via PaperChase Приложение --- Листинги системы PROTOS. MIDL_FILE_HEADING( ) #include "rpc. h" #include "rpcndr. h" #ifndef __protos_h__ #define __protos_h__ #ifdef __cplusplus extern "C"{ #endif /* Forward Declarations */ void __RPC_FAR * __RPC_USER MIDL_user_allocate(size_t); void __RPC_USER MIDL_user_free( void __RPC_FAR * ); #ifndef __ProtosSearchEngine_INTERFACE_DEFINED__ #define __ProtosSearchEngine_INTERFACE_DEFINED__ /**************************************** * Generated header for interface: ProtosSearchEngine ****************************************/ /* [implicit_handle][unique][version][uuid] */
/* [fault_status][comm_status] */ error_status_t Ping( void); /* [fault_status][comm_status] */ error_status_t Shutdown( void); /* [fault_status][comm_status] */ error_status_t QueryStatus( /* [string][out] */ unsigned char __RPC_FAR *__RPC_FAR *Report); /* [fault_status][comm_status] */ error_status_t IndexOpen( /* [string][in] */ unsigned char __RPC_FAR *IndexName);
/* [fault_status][comm_status] */ error_status_t IndexClose( /* [string][in] */ unsigned char __RPC_FAR *IndexName);
/* [fault_status][comm_status] */ error_status_t SearchOpen( /* [string][in] */ unsigned char __RPC_FAR *IndexName);
/* [fault_status][comm_status] */ error_status_t SearchClose( /* [string][in] */ unsigned char __RPC_FAR *IndexName);
/* [fault_status][comm_status] */ error_status_t SearchWork( /* [string][in] */ unsigned char __RPC_FAR *IndexName, /* [string][in] */ unsigned char __RPC_FAR *QueryString,
/* [string][out] */ unsigned char __RPC_FAR *__RPC_FAR *ReportFile); extern handle_t hProtos; extern RPC_IF_HANDLE ProtosSearchEngine_v1_0_c_ifspec; extern RPC_IF_HANDLE ProtosSearchEngine_v1_0_s_ifspec; #endif /* __ProtosSearchEngine_INTERFACE_DEFINED__ */ /* Additional Prototypes for ALL interfaces */ /* end of Additional Prototypes */ #ifdef __cplusplus } #endif #endif #define WIN32_LEAN_AND_MEAN #include #include #include #include "protos. h" unsigned long BindProtos() { RPC_STATUS status; unsigned char * pszStringBinding = NULL; BOOL bWin95; OSVERSIONINFO osVer; osVer. dwOSVersionInfoSize = sizeof(OSVERSIONINFO); GetVersionEx(&osVer); switch(osVer. dwPlatformId) { case VER_PLATFORM_WIN32_WINDOWS: bWin95 = TRUE; break; case VER_PLATFORM_WIN32_NT: bWin95 = FALSE; break; default: return 1; // Unsupported operating system. }

------------------------------------------------------------------------------- /* Use a convenience function to concatenate the elements of */ /* the string binding into the proper sequence. */ status = RpcStringBindingCompose(NULL, bWin95 ? "ncalrpc" : "ncacn_np", NULL, NULL, NULL, &pszStringBinding); if (status) return status;
/* Set the binding handle that will be used to bind to the server. */ status = RpcBindingFromStringBinding(pszStringBinding, &hProtos); RpcStringFree(&pszStringBinding); return status; } unsigned long UnbindProtos() { RPC_STATUS status; /* The calls to the remote procedures are complete. */ /* Free the binding handle */ status = RpcBindingFree(&hProtos); return status; } #define SERVER_PARM "server=" int IsScript() { return getenv("GATEWAY_INTERFACE") ! = NULL; } char *GetServerNameCGI() { char *ptrb, *ptre, *server; char *query = getenv("QUERY_STRING"); if (! query) return NULL; query = strlwr(strdup(query)); if (! query) return NULL; ptrb = strstr(query, SERVER_PARM); if (! ptrb) return NULL; ptrb += strlen(SERVER_PARM); ptre = strchr(ptrb, '&'); if (! ptre) server = strdup(ptrb); else { server = (char*) malloc(ptre - ptrb); if (server) { *server = 0; strncat(server, ptrb, ptre - ptrb); } } free(query); return server; } char *GetServerNamePathInfo() { char *ptre, *server; char *ptrb = getenv("PATH_INFO"); if (! ptrb) return NULL; while(*ptrb == '/') ptrb++; ptre = strchr(ptrb, '/'); if (! ptre) server = strdup(ptrb); else { server = (char*) malloc(ptre - ptrb); if (server) { *server = 0; strncat(server, ptrb, ptre - ptrb); } } return server; } char *GetServerNameArgv() { if (__argc return strdup(__argv[1]); } char *GetServerNameModuleName() { char fname[MAX_PATH]; char *ptrb, *ptre, *server; GetModuleFileName(0, fname, MAX_PATH); if ((ptrb = strrchr(fname, '\\')) == NULL) return NULL; if ((ptrb = strchr(++ptrb, '. ')) == NULL) return NULL; if ((ptre = strchr(++ptrb, '. ')) == NULL) return NULL; server = (char*) malloc(ptre-ptrb); if (! server) return NULL; *server = 0; return strncat(server, ptrb, ptre-ptrb); } char *GetServerName() { char *server; if ( (server = GetServerNameCGI()) || (server = GetServerNamePathInfo()) || (server = GetServerNameArgv()) ) return server; else return NULL; } void MakeMessage(char *mes, .... ) { char buffer[1024]; va_list argptr; puts("Content-type: text/plain\n"); va_start(argptr, mes); _vsnprintf(buffer, 1024, mes, argptr); va_end(argptr); puts(buffer); } void __RPC_FAR * __RPC_API midl_user_allocate(size_t nLen) { return malloc(nLen); } void __RPC_API midl_user_free(void __RPC_FAR * lpvPointer) { if (NULL ! = lpvPointer) free (lpvPointer); }
------------------------------------------------------------------------------- #include "protos. h" #include "protutl. h" int main() { RPC_STATUS status; char *str; if (BindProtos()) { MakeMessage(MES_BIND_ERROR); return 1; } str = GetServerName(); if (! str) { MakeMessage(MES_NAME_ERROR); return 1; } status = IndexOpen(str); UnbindProtos(); free(str); if (status) { char *str = GetErrorText(status); if (str) { MakeMessage(str); free(str); } else MakeMessage("System is busy. "); } else MakeMessage(MES_INDEX_OK); return 0; }
------------------------------------------------------------------------------- #include #include "protos. h" #include "protutl. h" int main() { RPC_STATUS status; char *server, *command, *report = NULL; if (BindProtos()) { MakeMessage(MES_BIND_ERROR); return 1; } server = GetServerName(); if (! server) { MakeMessage(MES_NAME_ERROR); return 1; } command = getenv("QUERY_STRING"); if (! command || ! *command) { free(server); MakeMessage(MES_QUERY_ERROR); return 1; } status = SearchWork(server, command, &report); UnbindProtos(); free(server); if (status) { char *str = GetErrorText(status); if (str) { MakeMessage(str); free(str); } else MakeMessage(MES_UNKNOWN); } else { FILE *fd = fopen(report, "rt"); char buf[BUFSIZ]; if (fd) { puts("Content-type: text/html\n"); while(! feof(fd) && ! ferror(fd)) fwrite(buf, 1, fread(buf, 1, BUFSIZ, fd), stdout); fclose(fd); } else MakeMessage(MES_FILE_ERROR); } midl_user_free(report); return 0; }

------------------------------------------------------------------------------- #include "protos. h" #include "protutl. h" int main() { RPC_STATUS status; if (BindProtos()) { MakeMessage(MES_BIND_ERROR); return 1; } status = Shutdown(); UnbindProtos(); if (status) { char *str = GetErrorText(status); if (str) { MakeMessage(str); free(str); } else MakeMessage(MES_UNKNOWN); } else MakeMessage(MES_SHUTDOWN_OK); return 0; }
------------------------------------------------------------------------------- #include "protos. h" #include "protutl. h" int main() { RPC_STATUS status; char *str; if (BindProtos()) { MakeMessage(MES_BIND_ERROR); return 1; } str = GetServerName(); if (! str) { MakeMessage(MES_NAME_ERROR); return 1; } status = SearchClose(str); UnbindProtos(); free(str); if (status) { char *str = GetErrorText(status); if (str) { MakeMessage(str); free(str); } else MakeMessage(MES_UNKNOWN); } else MakeMessage(MES_SEARCHOFF_OK); return 0; }
------------------------------------------------------------------------------- #include "protos. h" #include "protutl. h" int main() { RPC_STATUS status; char *str; if (BindProtos()) { MakeMessage(MES_BIND_ERROR); return 1; } str = GetServerName(); if (! str) { MakeMessage(MES_NAME_ERROR); return 1; } status = SearchOpen(str); UnbindProtos(); free(str); if (status) { char *str = GetErrorText(status); if (str) { MakeMessage(str); free(str); } else MakeMessage(MES_UNKNOWN); } else MakeMessage(MES_SEARCH_OK); return 0; }
------------------------------------------------------------------------------- #include "protos. h" #include "protutl. h" int main() { RPC_STATUS status; char *str = NULL; if (BindProtos()) { MakeMessage(MES_BIND_ERROR); return 1; } status = QueryStatus(&str); UnbindProtos(); if (status) { char *str = GetErrorText(status); if (str) { MakeMessage(str); free(str); } else MakeMessage(MES_UNKNOWN); } else MakeMessage(str); midl_user_free(str); return 0; }


Не сдавайте скачаную работу преподавателю!
Данный реферат Вы можете использовать для подготовки курсовых проектов.

Поделись с друзьями, за репост + 100 мильонов к студенческой карме :

Пишем реферат самостоятельно:
! Как писать рефераты
Практические рекомендации по написанию студенческих рефератов.
! План реферата Краткий список разделов, отражающий структура и порядок работы над будующим рефератом.
! Введение реферата Вводная часть работы, в которой отражается цель и обозначается список задач.
! Заключение реферата В заключении подводятся итоги, описывается была ли достигнута поставленная цель, каковы результаты.
! Оформление рефератов Методические рекомендации по грамотному оформлению работы по ГОСТ.

Читайте также:
Виды рефератов Какими бывают рефераты по своему назначению и структуре.