12+
Электронная библиотека

Как начать работу?


Ваши отзывы и предложения направлять по адресу: elib@istu.edu
Нам важно ваше мнение!

Зарубежные БД
ЭБС

Переход на страницу выбора ЭБС

Мы ВКонтакте

Поиск по каталогу

Инструкция по поиску в ЭК

Библиотека диссертаций

Приглашаем вас посетить виртуальный читальный зал ЭБД РГБ в Центре научной информации


NEICON

Запрещенные материалы

С Федеральным списком экстремистских материалов можно ознакомиться на сайте Минюста России

Пульс библиотеки

Рубрики
Флаги

free counters

Праздники России

Праздники России

Библиотека Хартли выходит в Сеть

От памфлетов до биллей: библиотека Хартли выходит в Сеть

Уже не первый год в Великобритании проходит грандиозная программа по оцифровке архивов университетов и крупных библиотек с помощью современных технологий. Ее цель – перевести информацию в удобный для пользователя электронный вид и сделать доступной для всех желающих. На подобный подвиг образовательные институты вдохновляет (в том числе и финансово) неправительственная общественная организация «Комитет объединенных информационных систем» (Joint Information Systems Committee, JISC).

И весьма удачно: в прошлом году к этой программе присоединилась библиотека Хартли Саутгемптонского университета, одна из лучших научных библиотек страны. Она и задачу себе поставила грандиозную: оцифровать все, что можно, в темпе presto-скоро (полмиллиона страниц в год) – и дать это людям. Чтобы presto получилось именно presto, а не каким-нибудь adagio, Хартли воспользовалась ABBYY Recognition Server’ом, решением для автоматического распознавания документов в больших объемах. Под катом – технические подробности и немного плюшек.

7 сканеров, 2 программы и 1 открытый API

Большими и маленькими проектами по оцифровке данных в Хартли занимается отдельное подразделение – LDU (Library Digitisation Unit). В его распоряжении 7 сканеров (6 книжных и 1 строчный) и ABBYY Recognition Server – для обработки текстов и изображений. Управляет процессом веб-приложение Goobi Production Workflow – опен-сорсный программный пакет, взятый на вооружение крупнейшими европейскими библиотеками для оцифровки культурного наследия в «промышленных» масштабах (подробно о нем на английском и на немецком).

Открытый программный интерфейс Recognition Server’а обеспечил лёгкую интеграцию с Goobi, и «производственный алгоритм» стал выглядеть так:

  • к сканерам LDU приставлено по оператору. Как только оператор справится со своим заданием (полностью отсканирует книгу или многостраничный документ), к процессу подключается Goobi. Программа ставит Recognition Server’у задачу обработать готовую стопочку файлов. Несколько операторов плюс много документов – получается своеобразный конвейер, а Goobi наблюдает за всеми, как большой брат.
  • Recognition Server автоматически обрабатывает указанные файлы: распознает, конвертирует, индексирует. Goobi проверяет выполнение задачи, и результат отправляется в Сеть.

Благодаря комбинации «7+2+1», библиотека Хартли обработала более двух миллионов изображений, а пользователи всемирной паутины получили доступ к довольно необычным PDF-коллекциям.

Какой PDF изволите, сэр?

Хартли не побоялась выложить в Интернет букинистические раритеты: от памфлетов на злобу дня и парламентских биллей 19 века до докторских диссертаций и антикварных книг по вязанию – на десерт. Всё доступно в PDF с возможностью поиска и живет на нескольких веб-ресурсах.

Например, любую диссертационную работу (а в архиве их 20 тысяч) можно скачать через ePrints Soton – электронную библиотеку университета. Помимо диссертаций, тут ещё много интересного; пользоваться разрешают почти всем – большинство работ доступны полностью. От читателя (коллеги-исследователя) ожидают элементарной человеческой вежливости: соблюдения закона об авторском праве.

Собрание документов английского парламента с 1700 по 1834 год лежит здесь. Это сборники официальных отчётов о заседаниях палаты Лордов и палаты Общин, парламентские реестры, доклады с сессий палаты Общин и нормативно-правовые акты.

По этому адресу доступна коллекция памфлетов, которую в буквальном смысле собирали по всей Англии. Научные библиотеки страны прислали на оцифровку в Хартли более 23 тысяч шедевров литературно-сатирической мысли, повествующих о социально-политическом и экономическом климате Британии 19 века. Каталог и описание проекта прилагаются.

Прикоснуться к прекрасному (и практичному) можно тут. Коллекция книг по вязанию Ричарда Ратта, епископа и ученого, прибыла в Саутгемптон из библиотеки Винчестерской школы искусств. Самый древний экземпляр коллекции датируется 1800 годом, а самый юный — 1911.

Но и это ещё не все (с). Библиотека Хартли активно поддерживает те гуманитарные и технические курсы университета, где физически необходимо много читать, чтобы много знать. Учебный материал оцифровывается и выкладывается в сеть в виде PDF с возможностью поиска, но доступны эти файлы – как вы уже поняли – только тем, кто записан на какой-либо курс.

Теперь все :)

Заимствовано с ХабраХабра