Главная
К библиотеке

Military.com Free Screensavers!
 
Электронные архивы или Web-дизайн не для Интернета

 

Со времени появления в нашей жизни Интернета, а точнее Всемирной паутины, любой человек при слове HTML или Web-дизайн сразу представляет только их приложения к ней. То есть - говорим Интернет, подразумеваем HTML и наоборот. Но ведь сама идея гипертекста жизнеспособна не только в сетевых приложениях, она допускает и локальные применения.

Первыми это поняли разработчики программного обеспечения, и в настоящее время все больше программ выходит с файлами помощи в формате HTML. Более того, каждому человеку под силу применить технологию HTML для собственных целей, не связанных с публикацией в Интернете. Говоря иначе, Web-дизайн не для Интернета.

У любого человека всегда имеется печатная продукция, занимающая место в доме. Когда ее становится негде хранить, она либо выбрасывается, либо перевозится в другое место. Но есть способ хранения ее дома так, чтобы она не занимала места. Речь идет о создании электронных архивов - будь то книги, журналы, статьи по определенной тематике, фотографии или что-нибудь другое.

Данная тематика заинтересовала меня по очень простой причине - стало не хватать места под журналы. Выкинуть жалко, а хранить негде. Поскольку мои интересы лежат в компьютерной области, пришла идея каким-либо образом перевести журналы в электронный вид. Но просто сосканированные страницы журналов представляют собой лишь набор картинок, в котором без соответсвующей структуризации запутаться легче легкого, поэтому возникла идея сделать архив на основе HTML. Теоретически это позволяло сделать структуру архива удобной для использования, а возможность создания гиперссылок позволяла прочитывать статьи, разбросанные в разных номерах, как в одном. Более того, нет необходимости хранить его на винчестере. Можно записать CD. Это позволит обрести архиву мобильность, долговечность, надежность и компактность. О переносимости и говорить не стоит - в наше время Web-браузер есть на любом компьютере под Windows, даже не подключенном к сети.

Идея была понятна, но оставался вопрос - как организовать архив так, чтобы им было удобно пользоваться и как сделать его разумного размера? То есть разработать структуру архива и технологию его создания.

Любая печатная продукция по своей сути есть комбинация изображений и текста, тем или иным образом сверстанная. Следовательно, для начала необходимо было решить, как лучше представить и то и другое в электронном виде. Именно это определяет как структуру, так и технологию.

С картинками все просто - они сохраняются в одном из графических форматов. Исходя из того, что подавляющее большинство браузеров поддерживает только формат GIF и JPEG, имело смысл использовать только их (причем эти форматы имеют свои границы применимости, о чем мы поговорим позже).

С текстом ситуация сложнее - его можно либо распозновать и тогда он будет текстом и для компьютера, что даст существенный выигрыш в размерах файла, либо делать куски текста графическими файлами. На первый взляд мысль совершенно несуразная -   даже из названия "графические файлы" следует, что в них хранятся изображения, но никак не текст. Но если поразмыслить, идея имеет свои преимущества. Во-первых, распознавание текста занимает довольно много времени, поскольку необходимо сначала сосканировать страницу как картинку, а потом уж ее распознавать. Во-вторых, после разпознавания текста придется делать неизбежную проверку на ошибки - программы пока не так совершенны, как мозг человека. В третьих, не надо забывать, что полученый таким образом текст надо комбинировать с изображениями из статьи - то есть заниматься версткой. Наконец, программы распознавания дороги, а пиратские версии того же FineReader'а, как известно, надежно "стухают" после некольких десятков сосканированных страниц - честь и хвала его создателям, надежно противостоящим лучшим хакерам мира - российским.

Для текста же, сохраненного как графический файл, не нужно ни тратить время на распознавание, ни проверять его на ошибки. К тому же гораздо легче комбировать графические файлы между собой - для этого нужен лишь хороший графический редактор. Единственный недостаток - текст, сохраненный как графический файл, занимает существенно больше места, чем тот же текст, сохраненный как текст (каламбур). Но достоинства текста как графического файла, на мой взляд, перевешивают именно в области архивов.

Следующий шаг - определение структуры архива. Книга или журнал состоят из отдельных страниц, поэтому вполне естественно сохранить страничную организацию и в архиве, сделав на каждой странице ссылки на предыдущую и последующую страницы, чтобы можно было 'перелистывать' страницы, а также ссылку на содержание. Страница  с содержанием имеет ссылки на все сделанные статьи ( редко, когда журнал нужен от корки до корки, обычно хочется иметь только ряд статей из каждого номера) и ссылку на годовую подборку или годовое содержание. Содержание же за год  имеет прямые ссылки на статьи. Таким образом, до любой статьи можно добраться 'в два клика'- сначала выйти на годовое содержание журнала, а оттуда сразу в статью. Представьте, сколько понадобится времени, чтобы найти ту же статью при наличии обычного журнала за несколько лет или стопки статей!

На рисунке проиллюстрирована типичная организация архива журнала за несколько лет, где стрелочки - гипертекстовые ссылки.

По мере работы над архивом была разработана и технология, которая опирается на свойства разных графических форматов, сканирование текста и картинок различным образом, своеобразие представления информации на экране монитора компьютера, применения методик Web-дизайна для верстки страниц и многое другое. В результате архив журнала за 18 (восемнадцать) лет потребовал только половину из 650 мегабайт стандартного компакт диска. Впрочем, подробный рассказ о технологии создания электронных архивов впереди...

продолжение следует

П.Тупицын.

Hosted by uCoz