Заготовки для статьи в журнал "Электронные библиотеки" Maxim, see attached files, pls. In doc file there is a message for you. С уважением, Арнаутов Сергей Анатольевич, зам.главного редактора ж-ла "Электронные библиотеки" http://www.iis.ru/el-bib/ тел: 939-7226 Date: 01 Jul 2001 --------------------------------------------------------------- Максим, Мне кажется, на основе этого материала можно сделатьнормальную статью. Полагаю, есть смысл попытаться более четко структурировать (ввести подразделы, например, вроде такого: общий взгляд на ЭБ; концептуальны замысел проекта; выбор технических средств) ту единую картину, которую вы пытаетесь нарисовать.Причем подчеркнуть, что это ваша личная точка зрения. Вы имеете на нее полное право. Уделить больше внимания техническим аспектам, не стесняясь, а наоборот, подчеркивая предельную простоту предлагаемого вами решения. И побольше конкретных деталей, вашего опыта. Например, описать не только то, что вы используете - но что вы предполагали использовать, анализировали, но отказались. Вот ответ на вопрос "Почему отказались?" очень интересен и важен. Если найдете возможным поделиться идеями, возникающими в связи с Ленинской библиотекой (можно и без упоминания, ессно), было бы здорово. Отдельно важно было бы подчеркнуть, выделить тот момент, что реализовывать такие проекты может практичкески любой желающий. И чем больше будет таких проектов, тем лучше. Если, конечно, вы с этим согласны. Отдельно посылаю вам файл книги В.Армса "Электронные библиотеки", которая была издана в прошлом году в США. Возможно, вам будет интересно просмотреть. Пожалуйста, подвердите получение этого файла и сообщите приблизительный срок подготовки статьи, ладно? Сергей.

Народная библиотека

М.Машков Вопрос: Что вы для себя называете электронной библиотекой. Ответ: Есть две вещи: есть место, где лежат книжки в какой-то форме и есть люди, которые должны их читать. Главная проблема обычной библиотеки в том, что люди должны приходить сюда. Нужно платить библиотекарю, платить гардеробщику, платить всем остальным - только за то, чтобы было место, где собраться. А книжки нужны на рабочем месте или дома. Поэтому электронная библиотека для меня - в первую очередь некое хранилище книг, доступ к ним и люди, которые добираются до этих книжек по сети. Для такой библиотеки вообще не нужно помещения, у каждого свой собственный терминал. В. Вы расматриваете ЭБ как аналог обычной библиотеки с определеннымидостоинствами, которыми делают ее более конкурентоспособными? О. В определенном смысле да. Если библиотека - это место откуда берутся любые книжки, то ЭБ есть место, откуда берутся любые книжки с доставкой на дом. Это главное. В. Т.е. ЭБ - это компьютер в сети, на котором хранятся файлы оцифрованных книг и к которому организован свободный доступ всех желающих? О. У Стругацких был описан Большой Всемирный Информаторий. Вот его уже никода не будет, потому что есть Интернет. Так получилось, что Интернет - это среда доставки информации, причем возникла она даже раньше, чем информация. ЭБ может быть и локальной, в одном здании с доступом по локальной сети - но даже в этом случае стандартное решение такой задачи с помощью Интернета вполне подходит. Ничего не надо придумывать. Есть среда, есть место доставки и у всех уже есть Интернет. В. В таком подходе получается, что собственных технологических решений, собственных технлогий в ЭБ нет? О. Собственная технология должна быть безусловно, но она должна быть внутри хранилища. Главная проблема - как загружать информацию. И вторая ключевая технология - откуда мы возьмем книжку. Библиотека состоит из двух частей - система хранения и система импорта новых данных. Как данные конвертировать из хранилища в Интернет - эта задача на порядок проще и неоднократно решалась программистами. Я столкнулся с ней в 93 году и решил примерно за 2 дня. Сердства конвертации хранившихся в моей машине книжек (конвертер) были написаны за этот срок. Оказалось что сам по себе текстовый файл не слишком удобен для чтения. Пришлось заняться русификацией, поддержкой кодировок, составлением оглавлений и список. Интернет - это средство доставки. Для того, чтобы в него что-то "загрузить", нужен еще один слой. Отдающая среда, система хранения (программно-аппаратный комплекс) и система пополнения - вот три составных части. Самая трудоемкая - последняя, система заполнения. В. Для чего людям нужны ЭБ? Каково их место? О. Необходимо читать художественную и научную литературу. Поэтому любому человеку для повседневной работы нужен доступ к массиву информации. Держать всю информацию на своем компьютере невозможно. Поэтому ЭБ - это место оцифрованных хранения текстовых документов. Не просто информации - а именно книг. Некий массив, который нужно прочитать сверху вниз с первой страницы до последней. И необходимы 2 вещи - чтобы ее было удобно прочесть насквозь. Второе - возможность найти нужный кусочек. Это все же не песня с музыками, не видеофильмы, не энциклопедия. В библиотеке должны лежать книги и журналы. Сайт с музыкальными записями - это музыкальное хранилище, а не библиотека. Любой компьютер с любым набором файлов не есть библиотека. В. Какие неотъемлемые черты ЭБ? О. Это компьютер, в котором лежат электронные представления книжек. Это могут быть текстовые файлы, пда файлы. Это законченные литературные или научные произведения. Граница между книжкой и файлом с этой книжкой еще весьма условна. Все идет к тому, чтобы эта система хранения должна быть более универсальной. Уже в б-ке Ленина уже трудно провести эти грани. В Информрегистре, который хранит компакт-диски, базы данных и пр. - это уже некая система хранения. В. С какого года началась коллекция, возникла идея? О. Году в 90, как я пришел на работу. В. Вы можете припомнить важные моменты в вашем движении к нынешнему пониманию? О. Задним числом я могу отметить, что начиналось все с полностью индивидуалистического и полностью ненаучного подхода, с изобретения велосипеда - но оказалось, что все уже сделано, все придумано. Обычные библиотеки существуют уже сотни лет. У меня все шло обычным путем накопления, библиотека структуризировалась и ветвилась по тому, как прибывали новые книжки. Начинало все с фантастики, поэтому для фантастики был отдельный подкаталог. До этого был отдельный подкаталог для Стругацкий, который сейчас лежит на том же уровне, что и вся фантастика целиком. Мои проблемы со структурой библиотеки возникли из-за того, что я имел постоянно пополняемую коллекцию, которая двигалась от 1 к 10000 книг. В. Как менялась технология по мере роста? О. Библиотека представляет собой дерево, к которому пристраиваются очередный новые ветки. Прибывают новые книжки - мы либо привешиваем их в имеющийся катало или строим для нее новый. Научная часть (систем хранения) с 90 года не изменилась. У нас на работе использовался текстовый редактор РК, который имел внутри систему построения каталогов, в которой можно было присвоить названиефайлу с определенным именем. Заметьте, был 90 год, не было ни Интернета, ни веба. Сейчас мы осознаем, что эта возможность присвоить название текстовому файлу - это и был прообраз Интернета. В редакторе РК была команда "встать курсором на какое-то слово, к которому приписан файл - и попасть в этот файл. Вот эта система и была у меня в 90 году. В каждой директории лежал файл, в котором были перечислены файлы или директории, а справа стояли имена. Систем хранения состоит из директории, файлов с подписями и сами текстовые файлы книг. С тех пор эта система осталась прежней. Сменился текстовый редактор, но система не менялась. Это иерархическая структура с подписным каталогом. В 94 году включился Интернет и я понял, что гиперссылки и моя система хранения - их легко друг в друга отобразить. Я написал CGI скрипт, который внизу имел систему хранения моей коллекции (10 Мб информации) и отображал ее в простую HTML структуру. Эта структура была менее богата, чем мог предоставить этот язык разметки. У меня была очень строгая система - строчка линкуется на имя файла. Поэтому у меня структура библиотеки до сих пор весьма простая и строгая. Но в ней нет аннотаций, описывающих содержание книги. Тем не менее проект продержался 6 лет на этих простейших средствах. Я оставался с одной среде с 92 года. Среда эта была изобретена на мехмате МГУ. Это очень удобный и идейно простой инструмент. Двух команд - перейти к файлу и вернуться обратно оказалось достаточно для поддержания и пополнения хранилища. Пользователи видят третий слой, который мою систему хранения отображает в Интернет. В 94 году я написал конвертер, за 95-96 гг. несколько раз его переписывал и совершенствовал. В 97 году я переписал его на языке Перл и с тех пор конвертер остается неизменным до сих пор. Эти же простые средства (скрипт) я использовал и в других независимых проектах (газета.ру, лента.ру и пр.) Там уже были аннотации. Главная проблема моей библиотеки в том, что управлять и модифицировать ее может только один человек, я. Это делается только сквозь этот текстовый редактор на моем домашнем комьпютере. Сейчас есть новый проект, в котором авторы сами вносят свои книги в библиотеку. Получается алфавитный каталог, в нем авторы и аннотации. От них можно уйти к тексту. В. Это база данных с возможностью хранения полных текстов? О. Базой данных это назвать трудно, там файловое хранение. База данных используется как индексатор. Проект "Самиздат". В. Можно ли сказать, что ваша философия заключается в том, что вы предельно простыми средствами реализуете предельно простую структуру, предельно простой проект. О. Да, можно. Это еще и способ выживания. Преимущество такого подхода в том, что в любом проекте возникает момент, когда нужно его расширять. Я же до сих пор поддерживаю проект, библиотеку один, без помещения, библиотеки и пр. проблем. И это принципиально важно. Проект, в котором 2-3 человека, неустойчив, требуются 15 человек. При этом они будут делать всего лишь в 3 раза больше, чем делаю я один. Мне же придется ими руководить. Моя жизнь проще от этого не станет. К сожалению, сейчас я исчерпал свой резерв свободного времени. У меня сейчас 3000 файлов, которые нужно поместить в библиотеку. Мне присылают в 1,5 раза больше текстов, чем я могу разместить. За 7 лет накопилось 10 000 наименований произведений. Я не считаю, что делал что-то неправильно. Другие проекты, которые избрали другой путь, не выжили. Я полагаю, что я раньше бы разорился, если бы пошел по экстенсивному пути, чем достиг той степени известности, что есть сейчас. В. Фактически вы базируетесь на файловой системе ЮНИКСА? О. Да, для моей библиотеки больше ничего не нужно. А в ней уже свыше 10000 наименоваинй. Других программных или машинных ресурсов не требуется. С 2-3 помощниками я бы смог разместить до 50000 текстов. В. Какова перспектива? Для чего он нужен? О. Моя библиотека стала национальным культурным проектом. В такой библиотеке есть очевидная общественная потребность. В. В чем техническая перспектива? О. В моей библиотеке используется 1 комьпютер и программа размером в 100К (можно написать за 3-7 дней). Никаких дорогостоящих программных продуктов, ЮНИКС и свободно распространяемый софт Перл. Компьютер стоит 2,5 тыс. долларов, услуги программиста максимум 1000 долларов. И вот такая система хранения позволяет обслуживать 250 000 человек ежемесячно. В чем я вижу проблемы? Поддерживать в одиночку уже невозможно. Нет аннотаций, значит необходимы переделки. Наконец, этой библиотекой нельзя пользоваться как серьезным научным аппаратом, в ней нет рубрикатора. На имеющейся системе хранения сделать нормальный рубрикатор невозможно, хотя и для него не требуется дорогостоящего софта. Его можно сделать на простой базе данных, в т.ч. свободнораспространяемой. В. А нужно это все делать? Ведь это "народный" ресурс. О. Да, в нынешнем виде она вполне адекватна запросам публики. Я хотел кое-что доделать. Там должен бытьтематический рубрикатор. К любому файлу необходимо "организовать" как минимум 2 возможных пути - через автора и через рубрику тематического каталога. Это нужно сделать обязательно. В. Как сделан поиск? О. Очень просто. Это полнотекстовый поиск по оглавлениям, лежащим в файлах с описаниями файлов. Я воспользовался индексатором Glimpsy, есть и другие свободные программы такого рода. Это было в 96 году. Причем в то время я мог проиндексировать все тексты полностью, тогда она занимала 60-100 Мб. Сейчас это пока невозможно. Сейчас есть поиск по всем оглавлениям и поиск по всем текстам данного автора. Можно воспользоваться поисковиком Яндекса и получить поверх существующего полный индекс библиотеки. В. Как обеспечивается качество файлов? Качество оцифровки? Неизменность текстов? О. Библиотека - это народный проект для народа. Все пополнения присылаются читателями. Поэтому качество такое, какое обеспечили читатели. В ответ они получают книги такого же качества. Забраться на мой сервер достаточно сложно. Проще прислать дефектный файл - но я отношусь к этому так, что как народ сделал, так оно и будет. Испорченный файл достаточно быстро будет обнаружен читателями. Система достаточно устойчива и обеспечивает удовлетворительный уровень качества. Это самоподдерживающаяся и самоочищающаяся система. Пробема искажения текстов есть, но она не слишком серьезна. Проблема архивирования решается весьма просто. Все живет у меня на винчестере. Есть такой же комплект на работе. После этого пополнения в виде архивных файлов рассылаются на "боевой" сервер у провайдера. Он синхронизируется автоматически с помощью скриптов. Плюс еще около 40 зеркал (Украина, Франция, Прибалтика). Т.к. свыше 40 копий. Пополнения можно забрать вручную, получить по электронной почте или воспользоваться технологией push-каналов. Последнюю технологию я реализовал сам на примере пересылки из дома на работу. Архивные файлы зашифровываются с помощью системы открытого ключа (PGP), хотя можно получать и не закрытые файлы. Реализовано 3 режима защиты. В. Есть ли еще подобные проекты в России? О. Немного, 3 человека с подобными и 10 человек с более маленькими. Я боюсь, что существование моей библиотеки подавляет и затеняет остальных. Кто-то опускает руки, понимая невозможность конкурировать с Машковым. И это угнетает, потому что получается, что фактически невозможно оторваться от этого проекта. А я, к сожалению, не справляюсь. Есть еще многоузкоспециализированных библиотек. Их уже сотни. Любительские узкоспециализированные библиотеки будут развиваться. К сожалению, какая-либо активность со стороны государства отсутствует. В. Расскажите о проблемах авторского права. О. Сам компьютер мой. А проблемы копирайта решаются самотеком. Часть авторов не возражает потому, что одобряет, часть - потому что все равно. Третья часть просто не знает. Но мне несколько раз приходилось убирать тексты. За все время было всего 6 или 7 случаев. Одновременно около 200 авторов либо подвердили, что тексты могут быть выставлены в Интернете, либо сами прислали тексты своих произведений. Были случаи, когда у меня книга появлялась даже раньше, чем в продаже. Многие авторы понимают, что материального урона они практически не несут, в то время как есть определенная выгода от рекламы. У нас, к сожелению, пока слишком мало пользователей Интернета, это проценты от общей аудитории потенциальных читателей. Потенциально проблемы есть, я думаю, они проявятся через 5-7 лет. Основная аудитория моей библиотеки - это люди, проживающие за границей, которые физически не могут купить книгу, их до 60%. Поэтому коммерческого урона нет. Фактически это пример общественного согласия. Я делаю полезную вещь - и люди, понимая это, проявляют понимание. В. Нужны ли универсальные библиотеки? Есть ли смысл собирать все? О. Вначале я хотел собрать все. Несколько лет мне это удавалось, поскольку книг было мало. Сейчас мне ответить трудно. Сейчас моя библиотека есть "точка встречи", я собираю то, что мне присылают читатели. Причем я размещаю все, что мне присылают, поскольку оцифровка книги весьма трудоемка. Человек как-бы вознаграждается тем, что в моей библиотеке будет представлен любимый им писатель. Это система с обратной связью. В. Можно ли объединить ресурсы, собранные в узкоспециализированных частных библиотеках? О. Да, мне бы хотелось, чтобы было хотя бы одно место, где хранились вы все ресурсы. И я всегда прописываю ссылки на исходное место хранения. По этим ссылкам можно найти эти узкоспециализированные библиотеки. Вставить (если хотите) ваши технические идеи по Ленинской библиотеке. В. Есть ли смысл пытаться создавать сводный каталог метаданных с единым интерфейсом, в которых концентрировать разрозренные ресурсы сети? О. Это было бы замечательно, но это невозможно, по моему опыту. Кто будет этим заниматься? И поверят ли ему, начнут ли давать ему данные? Я был свидетелем по меньшей мере 3 попыток всех собрать. В общем случае задача не решается. Как-то решается проблема с помощью поисковых систем и роботов. Никого не спрашивать, просто запускать робота. Других альтернатив нет. Здесь можно развернуть мысль о простых компьютерных алгоритмах, основанных на вычислительной мощности современных компьютеров и позволяющих "обойти" сложные интеллектуальные технологии. Проблема представления текстов (мы об этом говорили уже на улице) 27 июня 2001 г.
> А по поводу цитаты - то там и спорить не о чем и не с кем. > Трепаться и лозунги выдвигать - много кто горазд, > а надо результат показать, а не ссылаться на отсутствие > финансирования, научные практики большевиков и > прочие вздорные причины.