Проекты

ABBYY на службе ботаников Её Величества

Решения для потокового ввода данных можно использовать не только для обработки бухгалтерских документов, анкет в банках или бюллетеней на выборах. К процессу можно подойти творчески, например, распознать и сложить в электронный архив целый гербарий. Примерно так поступил Королевский ботанический сад Эдинбурга: с помощью ABBYY Recognition Server удалось оцифровать и выложить в интернет данные о 3 миллионах растений.

Рисунок гербария

Королевский ботанический сад Эдинбурга (КБСЭ) основан в 1670 году. Больше трёхсот лет сотрудники сада выращивают и изучают растения со всего мира. К настоящему моменту им известно более двух третей мировой флоры. Коллекция КБСЭ поистине уникальна, а некоторые образцы гербария являются ровесниками самого сада.

Минус один: доступна коллекция была только в самом Эдинбурге, поэтому учёные и ботаники-энтузиасты могли изучить нужные образцы только на месте — в Шотландии.  Именно эту проблему и удалось решить с помощью нашего решения.

К началу нашей работы сотрудники КБСЭ уже отсканировали несколько миллионов карточек растений и сохранили их в собственную систему хранения изображений. Нам нужно было, во-первых, подружить с ней ABBYY Recognition Server, и, во-вторых, распознать  текст с карточек.

Это оказалось не так-то просто. Некоторые карточки датируются аж 1690 годом, а подписи на них выполнены вручную на устаревших вариантах языков. В печатных шрифтах тоже нет единства — используется несколько сотен разных. Плюс штрихкоды, появившиеся на некоторых карточках в последние годы. Плюс цифры, имена, фамилии, сокращения…

Но мы справились.

Схема работы была примерно такой. Recognition Server получал доступ ко всем отсканированным картинкам и обрабатывал их. После этого программа создавала два файла – PDF с возможностью поиска и простой текстовый файл. Текстовый файл отправлялся на сервер КБСЭ в специальную папку, откуда собственная программа КБСЭ добавляла его в базу данных. И — вуаля, данные о каком-нибудь лютике доступны в интернете любому желающему.

Вот как выглядит уже распознанная карточка:

Catalogue

Чтобы посмотреть на королевский гербарий, зайдите на сайт КБСЭ в разделе «Herbarium Catalogue». Можно полюбоваться, к примеру, засушенными экземплярами гортензии, а также узнать о ней всё, что известно ботаникам Эдинбурга (возможно, в несколько сокращённом варианте).

Искать нужное растение можно по нескольким параметрам: семейству, к которому оно принадлежит, названию вида, стране, в которой был собран образец, и так далее.

Давайте потренируемся на тюльпанах. Словарь Lingvo подсказывает, что искать нам нужно не просто tulip, а Tulipa (значение из ботанического словаря). Указываем это в поле Genus, и получаем следующее:

Tulipa

12 страниц карточек с образцами тюльпанов, собранных с начала XIXвека в разных странах света. Фото засушенных цветов прилагаются.

Все картинки можно увеличить и рассмотреть прямо на сайте или скачать на свой компьютер (с огромным разрешением, чтобы  увидеть мельчайшие детали).

Так что если вы ботаник-энтузиаст или просто изучаете флору, пользуйтесь:)