Мнстерство освти науки Украни Уманський державний педагогчний унверситет мен Павла Тичини Кафедра нформатики Принцип роботи та використання формату DjVu Реферат Автор студент 5 к. гр. Кривенко О. Г. Умань 2005План Вступление 2 Описание формата DjVu 3 Инструкция по созданию книг в формате DjVu 7 Сравнение
DjVu-кодеров 10 Список программ для работы с форматом DjVu 13 Вступление Более 90 процентов информации в мире по прежнему остаются на бумаге. Многие из этих документов содержат цветные иллюстрации иили фотографии, которые имеют большую ценность. И почти ничего из этого богатого материала нет в интернете. Электронные газеты и журналы стали столь же обычными как и традиционные.
Многие издания выходят в электронном виде раньше, чем на бумаге. Этому способствует повсеместное внедрение верстки на компьютере и использование формата PDF фирмы Adobe, ставшего стандартом де факто для распространения электронных публикаций. К сожалению, этого недостаточно для создания полноценных электронных Интернет-библиотек. С одной стороны, огромное количество печатной продукции не доступно в электронном
виде либо из-за выпуска в докомпьютерные времена, либо из-за политики издателя. С другой стороны, существуют рукописные труды, исторические книги с пометками владельцев и другие документы, которые в принципе не могут быть представлены в виде текста. Графический формат DJVUпроизносится Дежавю разработан фирмой ATT в первую очередь для размещения в Интернет отсканированных изображений.
Это могут быть книги, рукописи, географические карты, художественно оформленные меню ресторанов и многое многое другое. Его уникальной особенностью является черезвычайная компактность при хранении изображений в высоком разрешении 300 DPI и выше. На одной дискете можно разместить до двадцати страниц пригодных для распечатывания на лазерном принтере. Кроме того, этот формат оптимизирован для передачи по сети таким образом, что страницу можно просматривать еще до завершения скачивания.
Таким образом DJVU является уникальным инструментом для открытия Интернет-доступа к фондам обычных, бумажных библиотек. Продвижением DjVu занимается расположенная в Сиэтле LizardTech Inc. совместно с ATT Labs. Отдельно следует упомянуть законность публикации библиотекой отсканированного текста. Многие издательства протестуют против публикации отсканированных и преобразованных в текстовый
формат книг, но, в тоже время, согласны с ксерокопированием или микрофильмированием по заказу читателей библотек. Скорее всего, юридическое решение проблемы еще является делом будущего Описание формата DjVu Формат DjVu открытый формат, предназначенный для того же, для чего раньше использовались микрофильмы, то есть для переноса информации с бумажных носителей в более компактный вид. Внешне это напоминает формат Acrobat Reader изображение предназначено только для просмотра, присутствуют
различные средства навигации, текст соседствует с иллюстрациями и т.д. Кардинальное отличие направление движения информации. Если формат Acrobat это попытка с помощью компьютера воссоздать формат традиционной книги так сказать электронная бумага, то DjVu это именно отсканированные страницы обычной книги, очень компактно и на вечные века с помощью полудюжины алгоритмов и эвристик упакованные в формат электронной книги.
Технически это напоминает формат MP3 так же как MP3, DjVu является комбинацией разрушающих и неразрушающих методов упаковки. Например, упаковка цветов в палитры преобразование цветовых координат, в том числе преобразование цветного изображения в черно-белое или схема аппроксимации по опорным точкам относятся к типичным разрушающим преобразованиям, в результате которых информация теряется безвозвратно.
В качестве неразрушающего преобразования обычно используются различные вариации на тему алгоритма Лемпеля-Зива. Слово разрушающий не зря взято в кавычки на самом деле информация не разрушается с точки зрения читателя. Более того, с этой точки зрения графическое изображение букв и картинок просто переполнено информацией, то есть документ после сканирования характеризуется огромной избыточностью для обычного читателя распознавателя образов. Для библиофилов, напротив, имеют значение, в основном, дефекты, особенности
и начертания символов, изображений, а также поля и фактура бумаги. Однако библиофилы не читатели. Они воспринимают книгу не как набор символов, а как бумажную скульптуру, поэтому данная программа никак не подходит этому типу пользователей. Проблема Итак, есть масса печатных источников, включая книги, журналы, патентные заявки вообще, чему только мы не обязаны патентным бюро включая тот же
Unix, а также другие бумаги, вроде страховых полисов и банковских документов эти сферы тоже являются традиционными катализаторами для многих IT-технологий. Некоторые фрагменты печатного материала представляют собой текст, другие графики и документы, рукописные символы подписи, комментарии и фотографические фрагменты. Большинство этого материала не доходит до интернета и электронных носителей.
Если что и переносится то это текст. Простое сканирование не может дать хорошего результата при любом разрешении в высоком разрешении и широком цветовом диапазоне текст будет представлен избыточно и к тому же будет хуже читаться. При низком разрешении или выключенной цветности пострадают изображения и особенно векторная графика, то есть чертежи и графики из тонких линий. Не существует графических преобразований фильтров, одинаково хорошо подходящих для всех типов печатных
материалов. Такие форматы, как GIF, JPEG или PNG, описывают изображение как целое, не проникаясь иерархической структурой документа. В результате они работают только для изображений, но не для документов, различные части которого требуют различного подхода для упаковки. Характеристики Уплотнение для цветных изображений в пять-десять раз лучше, чем обеспечивают GIF и JPEG. Для черно-белых в три-восемь раз лучше, чем
TIFF. Например, отсканированная страница A4 в разрешении 300 dpi размером около 25 Мб в цвете превращается в 30-100 Кб. А если это просто черный текст на белом фоне, то размер результирующего .DjVu-файла составит вообще 530 Кб. Иными словами, значительно лучше, чем в обычных форматах графики. Почувствуйте разницу в оригинале DjVu эта страница занимала 18 Кб. Скриншот 23 в формате PNG занимает 270 Кб и это не считая заметной потери качества.
Технология В основе нового формата шесть основных новых технологий, которые, подобно MP3, делят сигнал отсканированного изображения на праведный и неправедный, то есть значимый и незначимый для читателя, и применяют к ним различные политики уплотнения. Основной алгоритм расслоение изображения. То есть при упаковке программа пытается выделить фон изображения, для которого применяются более строгие методы упаковки.
Для текста и векторной графики применяются методы без графических деформаций, то есть сокращение палитр. При этом текст становится контрастнее, сохраняются четкие линии и углы, границы не расплываются. Для фона и изображений применяются алгоритмы с опорными точками, вроде тех что используются в формате JPEG. Фон и изображения отделяются и упаковываются как независимые фрагменты, с маскировкой эффективно установкой в 0 коэффициентов интерференции тех пикселей, которые будут накрыты текстом точки переднего
плана не принимают участия в вычислении и не обмениваются информацией с точками фона. В результате символы не расплываются и не интерферируют с окружением. Описание технических деталей находится здесь www.djvuzone.orgdjvutechpapersmaskindex. djvu. Даже при 1000 увеличением границы текста остаются предельно четкими, муара а-ля JPEG нет и в помине. Учтите также, что скриншот в формате
PNG не способен передать качества DjVu Второй акселератор многопоточная двухпроходная фоновая распаковка. Технически изображение представлено массой кластеров, для того чтобы просмотрщик мог независимо декодировать только видимые части изображения на лету. В отличие от обычных программ, которые распаковывают все изображение, что занимает те же 25 Мб памяти для одной страницы A4 при 300 dpi, плагин DjVu использует для тех же задач оверлейную область в 2
Мб. При этом экономится как оперативная память, так и такты процессора. В результате пользователь не наблюдает эффекта отсутствия, характерного при просмотре больших отсканированных изображений. Еще одна важная особенность возможность использовать DjVu на очень тонких платформах, таких как смарт-фоны и PDA. Под увеличением видно явное различие между качеством упаковки объектов переднего плана и заливкой
фона. Результат напоминает реальную литографию XVIII-XIX веков Также применяется уже известная техника двухпроходного уплотнения сначала передается информация низкого разрешения для быстрого отображения на экране. Более высокое разрешение формируется, по мере того как пользователь читает уже полученную информацию. Это имеет значение при просмотре документов по слабым соединениям пользователь может даже сориентироваться
в документе и отказаться от просмотра раньше, чем загрузится чистовой документ, при поиске информации именно так зачастую и происходит. Создатели и продукты Формат DjVu для переноса печатных библиотек, архивов и документов в электронную форму долгое время разрабатывался в недрах лаборатории ATT Labs изначально для внутреннего использования, а экспортом технологии и коммерческой реализацией проекта занимается компания LizardTech вместе с той же
ATT. Основной формой жизни формата является плагин для различных браузеров оно и понятно, формат разработан для работы в интернете и интранете. Кроме того, существуют и бесплатные конверторы в DjVu из различных графических форматов, а также независимые OpenSource-просмотрщики. При подготовке материала часть информации была заимствована с сайтов LizzardTech и папского сайта httpwww.djvuzone.org.
Отметим, что значительная часть данных на этом сайте представлена как раз в формате DjVu. Так что, посетив этот ресурс, вы заодно сможете проверить и только что установленный плагин, а также убедиться, что этот формат то, что надо обратите внимание на разницу в представлениях DjVu и архивированный PostScript. На всякий случай подскажу панель управления просмотром вы найдете всплывающей внизу окна браузера. Инструкция по созданию книг в формате
DjVu Перед тем, как сканировать какую-либо книгу, надо сначала понять, не сделано ли это до Вас кем-либо ещ. Для этого рекомендуется поискать по разным электронным библиотекам по фамилии автора, например это творение. Если книги и правда нигде не найдено, то можно приступать к работе. При создании книги нужно исходить из следующих соображений. Во-первых, получаемый файл должен быть разумного размера.
Так, книга объмом 300-400 страниц не должна занимать больше 10 мегабайт. Во-вторых, получаемый DjVu-файл должен быть таким, чтобы его потом можно было напечатать, и при этом текст можно будет прочесть. Хорошо, если при этом на страницах не будет содержаться ничего лишнего, то есть чрных крав. В этом случае при печати тонер или чернила расходуются только на текст. Далее мы расскажем, как делать книги, удовлетворяющие этим критериям.
Следует иметь в виду, что предлагаемый способ не претендует на скоростьоптимальностьуниверсальностьидеа льноекачествочтолибоещ Это просто один из методов, дающий в целом неплохой результат. Итак, приступим Шаг 1 Сканирование Существует несколько методов изготовления книги. Страницы можно фотографировать или сканировать. Последний метод является наиболее качественным, поэтому мы будем описывать именно его. Пусть пока для простоты наша книга не содержит цветных или полутоновых
иллюстраций и цветного текста. Тогда лучше всего для сканирования использовать программу FineReader 7.0 далее - FR для краткости. Еще ссылка в помощь. п. 1. Настройки сканера в FR Некоторые производители сканеров предоставляют некоторый набор ПО для сканирования. Оно часто работает медленно и не так, как нужно. В FR имеется возможность использовать его собственный интерфейс для работы со сканером, и это обычно
удобнее и быстрее. Чтобы использовать этот интерфейс, нужно в настройках сканера выбрать пункт Use FR Interface Использовать интерфейс FR. Важными параметрами сканирования являются разрешение resolution и яркость brightness. В FR эти настройки имеются в диалоговом окне Scanner Settings Настройки сканера. Скажем про них пару слов. Оптическое разрешение - это то количество точек на дюйм, которое будет содержать получаемое изображение.
Чем оно больше, тем больше получается файл и тем качественнее получается само изображение. Для книг приемлемым является разрешение 300 DPI dots per inch - точек на дюйм, но лучше использовать 600 DPI хотя процесс сканирования при этом занимает больше времени. Что касается яркости, то очень часто хватает автоматической настройки, но иногда, если бумага слишком тмная, или шрифт слишком жирный, е приходится регулировать вручную.
Для этого в диалоге настроек яркости нужно выбрать пункт Manual Вручную и установить ползунок в нужное положение. Какое оно должно быть - определяется опытным путм выберите типичную страницу, отсканируйте с разной яркостью и посмотрите, какое положение ползунка дат наиболее качественное изображение. При этом нужно помнить, что установленная вручную яркость может перестать быть приемлемой, если изменить
разрешение. п. 2. Сканирование Кладите книгу на сканер как можно более ровно Главное - прижать е посильнее на сгибе, чтобы страница поплотнее прилегала к стеклу. Если не лень - сканируйте не разворот целиком, а по одной странице, так получается качественнее. п. 3 Очистка от мусора Чистить края страниц от мусора нужно не только для того, чтобы не тратить чернила. Его наличие отрицательно сказывается на размере выходного файла.
В FineReader есть инструмент типа ластика, которым можно убирать с отсканированных страниц прямоугольные фрагменты мусора. Как правило, если при сканировании достаточно плотно прижимать книгу к стеклу сканера, то мусор бывает только по краям, и проблем с его уничтожением не возникает правда, это долгий процесс сам по себе. п. 4 Сохранение страниц FR сохраняет все страницы в формате TIFF чрно-белом. Когда все страницы отсканированы, нужно сохранить так называемый пакет batch.
При сохранении FR создает папку с кучей файлов отдельных страниц, к каждой из них прилагается .frf-файл. Но нам нужны только TIFF-ы. Складываем их для простоты в отдельную папку, а далее работа с FR закончена, и мы переходим к шагу 2. Шаг 2 Подготовка страниц Чтобы обработка велась быстрее, можно отконвертировать все файлы в bmp-формат. Сделать это можно с помощью утилиты IrfanView е и некоторые plug-inы, которые лучше сразу поставить
вместе с программой, можно скачать по ссылкам Viewer, plug-ins. В меню File есть пункт batch conversionrename, в котором можно обработать сразу много однотипных файлов. С помощью той же программы можно порезать сканированные развороты на отдельные страницы. Там есть операция crop, которая вырезает из картинки прямоугольный кусок, задаваемый координатой левого верхнего угла, а также шириной и длиной. Так можно вырезать отдельно чтные и нечтные страницы пользуясь
тем, что утилита позволяет увеличивать номер выходных файлов на 2. Таким образом, мы имеем набор отдельных страниц. Можно также повернуть опция Fine rotation в Irfan view криво положенные страницы и убрать остатки мусора. А когда эта кропотливая работа будет завершена, переводим дух и приступаем к шагу 3. Шаг 3 Кодирование в DjVu Для этого сначала запаситесь компьютером помощнее и воткните в него 512 метров
памяти, если Вам дорого время. Запускаем DjVu Editor Pro 5.0, открываем в нм ПЕРВУЮ страницу книги, а далее говорим ему Insert pages after в меню edit, и открываем сразу штук 50-60 файлов-страниц, потом ещ столько же, и так далее. Вы спросите почему не все сразу. А потому, что будете ждать до скончания века, пока он их прожут. Причм при добавлении файлов надо не перепутать порядок в файлере их нужно выделять так, чтобы
в строке они шли в правильном порядке, начиная со второго. Можно выделить все разом CtrlA, и потом, зажав Ctrl, убрать первый файл, который уже есть. Нажимаем OK и идм пить кофе. Признаком завершения операции открытия является появление изображений страниц, начиная со второй, в левой части окна там, где отображаются страницы в колонку. А теперь говорим Save As выбираем тип документа bundled, качество ставим quasilossless, разрешение
- какое было при сканировании, другое бессмысленно. Снова давим OK и второй раз идм пить кофе. Лучше поставить галочку OCR, только нужно проверить, что язык книги соответствует настройкам Editora edit- preferences. Тогда в книге можно будет потом делать контекстный поиск. Но в этом случае кофе придтся пить дважды когда кодирование завершится, начнтся процесс распознавания,
столь же долгий и мучительный. Ну, вот, кажется, и вс. Отметим также, что для распознавания текста можно использовать информацию из FRF-файлов, предоставляемых FR. Для этого нужно перед сохранением пакета сделать распознавание текста в FR, а уже к готовому DjVu файлу применить программу FRFGrab. Мы е пока не используем, но возможно, что это неплохая вещь.
Сравнение DjVu-кодеров Целью тестирования является сравнение бесплатных djvu-кодеров DjVuLibre 3.5.10 - набор утилит для просмотра, создания и обработки DjVu-файлов. Создан для NIX систем и распространяется по лицензии GNU GPL. Any2DjVu - web-сервис, позволяющий преобразовать документы различных форматов в DjVu. DjVu Solo 3.1 - программа для создания документов
DjVu из графических файлов. Freeware, работает под Windows. Выбор исходных документов В тестировании использовались только черно-белые документы. Это позволило объективно сравнивать все программы, т.к. кодеры, входящие в состав DjVuLibre могут обрабатывать только монохромные или только цветные изображения. Автоматически разбивать изображения на участки, сжимаемые по разным алгоритмам, они пока не умеют.
Если бы документы, содержащие цветные фрагменты обрабатывались кодером из состава DjVuLibre, созданном исключительно для цветных изображений, то он бы оказался в невыгодных условиях. При сохранении в виде черно-белого документа фору уже получил бы кодер DjVuLibre, т.к. информация о цвете была бы отброшена. Большинство книг содержит только черно-белый текст и иллюстрации, поэтому такое ограничение вполне
оправдано. Если PDF документ не мог быть корректно преобразован в DjVu хотя бы одним из используемых кодеров, то он не учавствовал в тестировании. Подробнее об этом в следующем пункте. В тестировании участвовали два типа документов отсканированные и чистые, сделанные непосредственно из текстового оригинала. Последние также могут содержать изображения, но в большинстве случаев они изначально созданы компьютерными
методами, а не были получены в результате сканирования. Параметры используемого ПО Для всех программ использовалось разрешение 300 dpi. В пакете DjVuLibre за сжатие черно-белых изображений отвечает программа cjb2. При запуске без ключей осуществляется сжатие без потерь. Ключ -clean служит для очистки изображения от шумов и мелких дефектов, -loose позволяет одинакого кодировать
символы, отличающиеся менее, чем на 6. Результат работы сравнивался при различных параметрах запуска. Для автоматизации преобразования был написан скрипт pdf2djvu.pl. Сервер Any2DjVu использует аналогичные способ работы, только входных форматов там больше, скрипты сложнее, а главное - используется коммерческая программа сжатия. Для преобразования PDF в графический формат также применяется
Ghostscript, поэтому и проблемы возникали при обработке в основном тех же файлов. Незначительные отличия являются следствием использования различных версий Ghostscript. Я пробывал версии 6.52, 7.07 и 8.11. Остановился на использовании версии 7.07, т.к. 8.11 значительно чаще выдавала ошибки Segmentation fault. DjVu Solo работал в паре с Adobe Acrobat 5.0. Полученные в
Acrobat изображения открывались в Solo и сохранялись в режиме Bitonal. Полученные результаты Книги с диска РХД содержат изображения, полученные из текстовых оригиналов, поэтому их объем близок к отсканированным книгам. Выводы Для отсканированых книг компрессор cjb2 из состава DjVuLibre уменьшает объем PDF приблизительно в 2 раза без потерь качества.
Опции сохранения с потерями существенного увеличения в степени сжатия не дают. В целом cjb2 уступает в два раза DjVu Solo и Any2DjVu. Что интересно, этот разрыв сохраняется и на чистых изображениях, на которых сжатия с потерями, реализованное в DjVu Solo и Any2DjVu, не должно было бы принести значительное преимущество. Использование cjb2 может быть оправдано в случае, если требуется пакетная обработка множества документов,
содержащих чистое изображение без текстового оригинала. Коэффициент сжатия для всех отсканированных книг Any2DjVu 109340 26751 4,09 DjVu Solo 109340 22480 4,86. Степень сжатия DjVu Solo больше, но нужно учитывать, что это сжатие с потерями и полученные документы не идентичны. Хотя оба выглядят весьма качественно. На мой субъективный взгляд на Any2DjVu изображения получаются более четкими.
Для чистых изображений, полученных непосредственно из текста коэффициент сжатия значительно меньше и перевод их в DjVu вряд ли имеет смысл. При таком переводе текст будет преобразован к изображению, хотя и возможно добавление отдельного текстового слоя. Совершенно другие результаты будут в случае, если у вас нет оригинального текста, а есть только его изображение. В этом случает достигается коэффициент сжатия 31735 1595 19,9.
При сохранении в DjVu Solo чистых черно-белых изображений опции Bitonal и Clean дают одинаковые результаты. Список программ для работы с форматом DjVu Просмотр любых файлов djvu - плагин к IE, DjVu Solo - angel.cs.msu.suifedelibrarydjvuDjVuBrows erPlugin50.exeПросмотр одностраничных файлов- IrfanView, DjVuerFeith - хорошее качество - XN View,
ACDSee - неважное качество - SlowView - свои огромные djvu медленно, остальные - плохо.Распаковка многостраничных файлов- плагин к IE, DjVu Solo.Создание одностраничных файлов djvu - DjVuer Feith, DjVu Solo, кодер от AT - SlowView - пока пародия на создание, djvu файл больше исходника.Создание многостраничных файлов - DjVu Solo с гиперссылками - www.cqham.ruftp2dw.phpDjVuSolo3.1.exe-
многостраничник от ATT , только конвертация, без гиперссылокКонвертация djvu в другие форматы - плагин к IE только bmp - angel.cs.msu.suifedelibrarydjvuDjVuBrows erPlugin50.exe- виртуальные принтеры FinePrintрекомендуется, SuperPrint, ePrint, pdfFactory и другие - dl.filekicker.comsenddir143860-2RB1fp529 .exe IrfanView- DjVuer от Feith bmp, jpg, pnm- DjVu Solo только bmpВосстановление текста для перевода после конвертации djvu в bmp, tif etc -
FineReader - httpwww.abbyy.ru - CuneiForm - httpwww.cuneiform.ru и другие.Распечатка в большом масштабе после конвертации djvu - Teulat, поддерживаются файлы ps, tif, jpg - httpwww.femfum.com - плагин к Акробату 5 полному CrackerJack 4.1, поддерживается pdf - httpwww.lantanarips.com
! |
Как писать рефераты Практические рекомендации по написанию студенческих рефератов. |
! | План реферата Краткий список разделов, отражающий структура и порядок работы над будующим рефератом. |
! | Введение реферата Вводная часть работы, в которой отражается цель и обозначается список задач. |
! | Заключение реферата В заключении подводятся итоги, описывается была ли достигнута поставленная цель, каковы результаты. |
! | Оформление рефератов Методические рекомендации по грамотному оформлению работы по ГОСТ. |
→ | Виды рефератов Какими бывают рефераты по своему назначению и структуре. |