Нацональний унверситет Киво-Могилянська АкадемяДепартамент комп ютерних технологй Кафедра нформатики Проблеми використання роботв в нтернетРеферат з курсуПрограмне забезпечення нтелектуальних системстудента ДКТ-5Пдгорного СвтославаВикладачГороховський С. С. Кив2002Вступ 3 Використання роботв 3 Статистичний аналз 4 Пдтримка 4 Дзеркала 5 Пошук ресурсв 6 Комбноване використання 7
Цна використання та застереження 7 Ресурси мереж та завантаження серверв 7 Оновлення 8 Поган реалзац 10 Ведення каталогу 11 Забагато матералу, що забагато динамчним. 11 Визначення що ндексувати, а що н. 11 Статистичний аналз 13 Етика 13 Альтернативи для пошуку ресурсв 15 Висновок 16 Лтература 18 Вступ Всесвтня павутина стала дуже популярною за останн деклька рокв, зараз основним засобом
розмщення нформац в нтернет. Коли розмр WWW збльшився вд деклькох десяткв сайтв, стало зрозумло, що людина не в змоз самостйно переглянути таку кльксть сайтв, тим паче знайти нов. Тому почалися розробки програм, що автоматично переглядають WWW. Така програма-робот передивляться нтернет сторнка за сторнкою, йдучи за посиланнями на нш сторнки. Роботв також називають павуками spiders або черв яками worms, але ц назви дають хибне враження, що
роботи пересуваються сам, або, що вони копюють себе, як вдом нтернет-черви. Насправд, робот це одна програмна система, що отриму нформацю з нтернет сайтв використовуючи стандартн протоколи WWW. Використання роботв Переглядаючи нтернет, роботи можуть виконувати так функц Статистичний аналз Найперш роботи були створен для пдрахунку клькост WWW-серверв. Сучасн роботи можуть також пдраховувати ншу статистичну нформацю, як то, середню кльксть
документв на один сервер, пропорцю заданих типв файлв, середнй розмр веб-сайту, ступень мжсполучення мж сайтами. Пдтримка Одна з основних проблем пдтримки нтернет виника, коли перестають працювати посилання на нш сторнки. Це вдбуваться тод, коли сторнка, на яку посилаються, перемстилася на ншу адресу або взагал перестала снувати. Нажаль, натепер не сну автоматичного механзму, що повдомляв би веб-мастерв про так змни. Деяк сервери, наприклад CERN HTTPD, записують у файл журналу, запити до сторнки, що не сну, з
адресою сторнки, звдки йшло посилання, що дозволя виправити ситуацю пзнше. Але це не практично насправд, автори дзнаються, про неправильн посилання на свох сторнках, коли помтять сам, або коли користувач повдомлять х по пошт. Робот, що перевря посилання, такий як MOMspider, допомага автору знайти так неправильн посилання, тому допомага пдтримувати сайт. Роботи можуть допомагати пдтримувати змст так само, як структуру, первряючи правильнсть
HTML коду, регулярнсть оновлення нформац, але це використовуться не дуже часто. Цей вид функцональност часто вбудованою частиною HTML редакторв, але, роботи можуть повторювати ц переврки при кожнй модифкац сайту, будь-як проблеми можуть бути виршен негайно. Дзеркала Дзеркальнсть популярна технка для пдтримки FTP архвв. Дзеркало мстить копю усього дерева каталогв
FTP сайту регулярно оновлю т документи, що додаються до оригнального сайту. Це дозволя зменшити трафк до кожного з вузлв, х завантаженсть, працювати з архвом, якщо оригнальний сервер не працю, мати швидкий та дешевий локальний доступ та доступ без пдключення до нтернет. Дзеркальнсть може бути легко забезпечена роботом. Вже снують роботи, що отримують дерево каталогв веб-вузлу та записують його локально, але вони не мають
можливост оновлювати тльки ту нформацю, що змнилася. Необхднсть таких засобв зменшилася з появою складних кеш-серверв, як можуть робити вибркове оновлення, та гарантувати, що документ з кешу оновленим. Пошук ресурсв Мабуть, найбльш захоплюючим використанням роботв пошук нових ресурсв. Там, де люди не можуть впоратись з величезною клькстю нформац, комп ютер зробить цю задачу швидко й
яксно. сну багато роботв, що оглядають велик частини WWW та дають доступ до збрано нформац за допомогою пошуково системи. Це значить, що користувач може одночасно використовувати перегляд та пошук для знаходження потрбно нформац. Навть, якщо база даних не мстить саме ту нформацю, що вам потрбна, ймоврно вона мстить сторнки на яких посилання на потрбну. Другою перевагою те, що ц бази даних можуть оновлюватися перодично, посилання
на сторнки, що не снують, можуть бути знайден та видален. Це добра альтернатива ручнй пдтримц документв, де переврки бувають рдк та не глибок. Комбноване використання Один робот може виконувати деклька задач. Наприклад RBSE Spider робить статистичний аналз отриманих документв та вида базу даних знайдених ресурсв. Цна використання та застереження В цьому роздл ми побачимо, як роботи можуть завдавати шкоди, та як
цю шкоду можна мнмзувати. Ресурси мереж та завантаження серверв Роботи потребують чималого трафку. Перш роботи працювали протягом тривалого часу, нколи мсяцями. Щоб прискорити виконання завдання, деяк роботи працюють у паралельному режим, чимало завантажуючи трафк. Навть вддален сервери можуть вдчути заповльнення роботи, якщо робот отриму велику кльксть документв за короткий час. Це призводить до зменшення швидкост роботи нших користувачв, особливо на повльних лнях.
Деяк корпоративн користувач можуть вбачати пряму залежнсть мж видатками на нтернет та завантаженстю мереж. Ц видатки окуплять себе для потенцйних користувачв, але не окупить використання мереж роботами. Крм ставлення високих вимог до мереж, роботи можуть ставити висок вимоги серверам. У залежност вд частоти отримування документв з серверу, одночасне завантаження багатьох документв може призвести до вдчутно завантаженост серверу, що призведе, у свою чергу, до зниження рвню сервсу для нших
користувачв, цього ж серверу. У випадку, коли сервер використовуться також з ншими цлями, це може бути взагал не допустимо. Тому, робот не може часто отримувати документи з одного серверу. Навть сучасний браузер Netscape стражда на цю проблему, отримуючи вбудован у сторнку малюнки одночасово. HTTP протокол не пристосований до паралельного отримування документв, тому ведуться розробки нових протоколв. Оновлення Було сказано, що бази даних про документи нтернет мусять оновлюватися регулярно,
але ж не сну механзмв контролю за змнами у WWW. Не сну диного запиту, що визначав би як з заданих URL в знищен, модифкован або перемщен. Але, HTTP протокол разом з запитом даних дозволя задати дату цього ж документу з кеша. Сервер передасть документ тльки тод, коли документ було змнено з часу коли вн був записаний у кеш. Ця можливсть може бути використана роботом лише тод, коли вн зберга зв язок мж даними, як вн отриму з документу, його URL та часом отримування.
Це ставить додатков вимоги до розмру та складност бази даних, застосовуться не часто. Завантаженсть мереж гра особливу роль, коли роботи використовуються кнцевими користувачами, що працюють на повльних лнях. нший небезпечний аспект клнтських роботв коли робот розповсюджений няк помилки не можуть бути виправлен, няк нш дан не можуть бути додан нов можливост не можуть бути реалзован тому, що не вс оновлять верс свох роботв. Але найбльш небезпечним те, що хоча деяк люди будуть використовувати
роботв розумно, тобто не перевищувати який-небудь максимум, будуть люди, що зловживатимуть своми можливостями, через незнання чи самонадйнсть. Розумн агенти або персональн асистенти користувача, зараз популярною темою для дослдження. Очевидно, що автоматизаця безцнна для пошуку ресурсв, потрбно ще багато дослджень, щоб пошук став бльш ефективним. Прост роботи користувача ще дуже далек вд розумних мережних агентв. Поган реалзац Навантаження на мережу та сервери нод збльшуться за рахунок погано написаних нових роботв.
Навть якщо вхдн та вихдн дан правильн, багато менш очевидних проблем. Наприклад, нод один робот звертаться деклька раз до одного й того ж ресурсу. нод робота просто тестують на цьому ресурс, а у нших випадках помилки у програм робота. Повторн звертання трапляються, коли не записуються сторя завантажених ресурсв що обов язково потрбно робити, або коли робот не розпзна випадки коли використовуються рзн
DNS-назви для одн IP адреси. Деяк роботи отримують файли таких типв, як вони не можуть обробити GIF, PS, гнорують, хоча х можна було б не завантажувати. Ведення каталогу Бази даних ресурсв, що знайден роботом, безумовно, популярн. Однак, деклька проблем, що обмежують використання роботв для пошуку ресурсв. Забагато матералу, що забагато динамчним. Вимром ефективност заданого пдходу отримання нформац вдсоток
релевантних документв серед усх знайдених. Пошук нформац вдбуваться не у самому нтернет а у локальнй баз даних конкретного робота, що може не мстити нформац, яка насправд сну у нтернет, тому що розмр нтернет велетенський змни дуже част. Визначення що ндексувати, а що н. Робот не може автоматично визначити, чи потрбно дану веб-сторнку включати до свого списку чи н. Веб-сервери можуть мстити документи, як використовуються тльки локально, наприклад, список внутршньо
бблотеки, або т, як снують тимчасово. До деяко мри, ршення про те, що необхдно, а що н, залежить вд уподобань користувачв, але вони можуть бути невдомими для робота. Практично роботи збергають майже все, що вони знаходять. Помтьте, що навть, якщо робот зможе визначити, що дану сторнку не треба включати у базу даних, вн уже отримав цей непотрбний файл з нтернет. Навпаки, робот, що гнору великий вдсоток документв не дуже корисним.
Robot Community спробувало змнити цю ситуацю, створивши спецальний стандарт A standard for robot exclusion. Цей стандарт опису використання простого структурованого текстового файлу, щоб задати, як частини даного серверу не потрбно оглядати роботам. Цю можливсть можна також використовувати, аби повдомити робота про чорн дрки, коли заглиблюючись у все глибш сторнки робот не може з них повернутися.
Кожному роботу можна давати особлив нструкц, бо кожен з них спецалзуться в певнй окремй галуз. Цей стандарт не загальноприйнятий, але вважаться, що кожен робот повинен його дотримуватися. Визначити порядок обходу сайтв це велика проблема. Бльшсть сайтв органзован рархчно, тому обхд в ширину, з вершини до задано глибини, да бльший набр документв, нж обхд в глибину. Проте обхд в глибину швидше вднайде сторнки користувачв, в яких посилання на нш
сторнки, тому швидше знайде нов сайти для обходу. robots.txt for httpwww.site.com User-agent attention all robots Disallow cyberworldmap infinite URL space Disallow tmp temporary files Приклад файлу robots.txt Статистичний аналз Дуже складно прондексувати звичайний веб-документ. Перш роботи просто збергали назви документв та тексти посилань, але сучасн роботи використовують бльш
складн механзми, як правило аналзують весь змст документу. Ц методи можна автоматично застосовувати для всх документв, але вони не можуть бути настльки ефективн, як ручне ндексування автором. HTML да можливсть додати метанформацю до документв, яка спрощу роботу пошук по документу. Етика Зрозумло, що роботи дуже корисн, але вони накладають висок вимоги на трафк спричинюють багато проблем. Тому автори роботв мусять обирати золоту середину мж користю та шкодою,
коли створюють та випускають робота. тут етична проблема Чи шкоду вд роботв можна виправдати х кориснстю. Люди мають рзн думки щодо цього. Деяк з проблем стали очевидними лише тод, коли роботи збльшили вдвч завантаження серверв. Мартин Костер виробив набр правил для авторв роботв, дотримуючись яких, можна мнмзувати шкоду вд роботв подумайте, чи насправд вам потрбен новий робот зробть так, щоб адмнстратори серверв могли легко дентифкувати
робота та при необхдност зв язатися з автором ретельно протестуйте робота локально керуйте використанням ресурсв, не допускайте клькох послдовних скачувань з одного серверу та не допускайте непотрбних скачувань дотримуйтесь стандарту for Robot Exclusion регулярно переглядайте log файли робота длться результатами сво роботи з ншими. Девд Ейхмант роздля роботв, як створюють загальнодоступн нформацйн бази, та роботв для користувачв, результат роботи яких, використовуться лише одню людиною.
Той факт, що бльшсть авторв роботв використовують поради Мартина Костера показу, що вони свдомо ставляться до можливих проблем, та намагаються мнмзувати будь-який негативний вплив. Альтернативи для пошуку ресурсв сну альтернативний пдхд до пошуку ресурсв, коли сумарна ндексна нформаця про сервер вже збрана на ньому. Це нформаця лише про локальн ресурси. Вона може бути створена вручну, а може автоматично з заголовкв,
або тегв META. Ця нформаця додаться до пошуково бази даних за допомогою звичайних WWW протоколв. Це не робот, тому що вн не отриму рекурсивно документи як в цьому ндекс. У цього способу переваги. Яксть ндексу, створеного людьми, поднуться з ефективнстю автоматичного оновлення. Цлснсть нформац у цього способу вище, нж у звичайних ндексв, тому, що пдтримувати потрбно тльки локальну ндексну нформацю. Дуже низьк вимоги до мереж, ндексна нформаця менша нж весь сайт отримуться тльки один
раз. також деклька недолкв. Ручна пдтримка ндексно нформац може дати додатков проблеми провайдеру нформац, але практично, ндексна нформаця для основних документв змнються не часто. ншим обмеженням те, що нформацйн провайдери мусять записувати нформацю у заданому ндексному формат, що обмежу використання додаткових можливостей. На кнець, оновлення ндексу не дуже ефективними, бо увесь ндексний файл треба прочитати заново, навть якщо змнився лише один запис. Така система, як описано вище
ALIWEB вже працю з жовтня 1993 да не поган результати. Але подальший розвиток йде повльно, тому що це персональний проект, над яким працюють у вльний час, який не отриму капталовкладень. Harvest це нша система пошуку нформац, що була недавно випущена IRTF-RD, що пропону програмн системи для автоматичного ндексування змсту документв, ефективно реплкац та кешування тако ндексно нформац на вддалених хостах, на кнець пошук ц нформац через нтерфейс у
WWW. Реакц на цю систему були дуже позитивними. Висновок Роботи дуже корисними та перспективними програмами для нтернет, але при х написанн потрбно враховувати, що вони можуть суттво зменшити трафк для нших користувачв. Щоб цього не сталося, при написанн роботв потрбно користуватися методологю Мартна Костера та пдтримувати Standard for Robot Exclusion.
Лтература 1. Martijn Koster, A Standard for Robot Exclusion, Nexor Corp httpweb.nexor.co.ukmakdocrobotsnorobots. html. 2. Martijn Koster, Robots in the Web threat or treat, NEXOR 3. David Eichmann, Ethical Web Agents
! |
Как писать рефераты Практические рекомендации по написанию студенческих рефератов. |
! | План реферата Краткий список разделов, отражающий структура и порядок работы над будующим рефератом. |
! | Введение реферата Вводная часть работы, в которой отражается цель и обозначается список задач. |
! | Заключение реферата В заключении подводятся итоги, описывается была ли достигнута поставленная цель, каковы результаты. |
! | Оформление рефератов Методические рекомендации по грамотному оформлению работы по ГОСТ. |
→ | Виды рефератов Какими бывают рефераты по своему назначению и структуре. |