Проекты

Оцифровка огромных архивов: как наши технологии помогли библиотеке Хартли

83045623_640px

Недавние печальные события в научной библиотеке ИНИОН в Москве подняли волну обсуждений о значимости оцифровки библиотечных фондов. Ведь в век цифровых технологий мы можем не только сохранять редкие издания, но еще и делать их доступными каждому для чтения – ни для кого не секрет, что в интернете можно найти не только отдельные книги (или собрания сочинений), но и целые библиотеки. Например, одна из лучших научных библиотек Великобритании, библиотека Хартли Саутгемптонского университета, начала оцифровку своих архивов в 2010 году. А помогло ей в этом наше решение для автоматического распознавания документов ABBYY Recognition Server. Если хотите узнать больше подробностей, добро пожаловать под кат.

Технические детали

Проектами по оцифровке данных в Хартли занимается отдельное подразделение – LDU (Library Digitisation Unit). В его распоряжении 7 сканеров (6 книжных и 1 строчный) и ABBYY Recognition Server для обработки текстов и изображений. Управляет процессом веб-приложение Goobi Production Workflow – опен-сорсный программный пакет, взятый на вооружение крупнейшими европейскими библиотеками для оцифровки культурного наследия в «промышленных» масштабах.

Благодаря открытому программному интерфейсу Recognition Server’а удалось легко интегрировать решение с Goobi, и процесс оцифровки стал выглядеть так:

  • За каждым сканером LDU работает специально обученный человек – оператор. Как только он полностью отсканирует книгу или документ, к процессу подключается Goobi. Программа ставит Recognition Server’у задачу обработать готовую стопочку файлов. Несколько операторов плюс много документов, и получается своеобразный конвейер, а Goobi наблюдает за всеми, как большой брат.
  • Recognition Server автоматически обрабатывает указанные файлы: распознает, конвертирует, индексирует. Goobi проверяет выполнение задачи, и результат отправляется в интернет.

Благодаря такой комбинации библиотека Хартли обработала более двух миллионов изображений, а пользователи всемирной паутины получили доступ к довольно необычным PDF-коллекциям.

А что оцифровали?

Хартли выложила в интернет букинистические раритеты: от памфлетов на злобу дня и парламентских биллей 19 века до докторских диссертаций и антикварных книг по вязанию. Всё доступно в PDF с возможностью поиска и живёт на нескольких веб-ресурсах.

southampton

Например, любую диссертационную работу (а в архиве их 20 тысяч) можно скачать через ePrints Soton – электронную библиотеку университета. Помимо диссертаций, тут ещё много интересного, и большинство работ доступны полностью. От читателя ожидают элементарной человеческой вежливости: соблюдения закона об авторском праве.

А по этому адресу доступна коллекция памфлетов, которую в буквальном смысле собирали по всей Англии. Научные библиотеки страны прислали на оцифровку в Хартли более 23 тысяч шедевров литературно-сатирической мысли, повествующих о социально-политическом и экономическом климате Британии 19 века. Каталог и описание проекта прилагаются.

4dde16d5

Но и это ещё не всё. Библиотека Хартли активно поддерживает те гуманитарные и технические курсы университета, где физически необходимо много читать, чтобы много знать. Учебный материал оцифровывают и выкладывают в сеть в виде PDF с возможностью поиска, но доступны эти файлы только тем, кто записан на какой-либо курс.

  • http://vk.com/id90965244 Дмитрий Завершинский

    дж

  • http://facebook.com/profile.php?id=100000005717294 Константин Платонов

    Как же так: библиотеке Хартли помогли, а ИНИОНу нет.

    • http://facebook.com/profile.php?id=100001150025839 Arthur Bolshakov

      В этом посте мы привели пример того, как с помощью наших технологий можно не только сохранять редкие издания, но еще и делать их доступными каждому для чтения. Подробнее о ситуации вокруг ИНИОНа и в целом о специфике оцифровки библиотек мы написали в другом посте: http://blog.abbyy.ru/2015/04/kniga-v-tsifre-nuzhna-li-rossii-edinaya-elektronnaya-biblioteka/