В последние годы искусственный интеллект (ИИ) активно внедряется в цифровые библиотеки, и исследователи из Вирджиния Тек решили использовать его для улучшения доступа к историческим коллекциям. Их цель — преобразовать сложные материалы, такие как рукописные письма, газеты и топографические карты, в машинно-читаемые форматы. Это позволит значительно упростить взаимодействие пользователей с этими ценными ресурсами.
Вирджиния Тек разработала облачное решение для управления огромными коллекциями, достигающими 40 терабайт. Однако, процесс оцифровки архивных материалов сталкивается с множеством трудностей, включая неразборчивый почерк и сложные макеты. Для решения этих проблем команда использовала технологии оптического распознавания символов (OCR) и продвинутые ИИ-инструменты, такие как Pytesseract и AWS Textract, для улучшения качества извлечения текста.
Исследование охватывало три уникальные коллекции: письма Силаса Степпа, газеты из Музея Монтгомери и цифровые топографические карты. Каждый из этих наборов данных требовал индивидуального подхода для эффективного извлечения текста и создания кратких аннотаций.
Результаты показали, что интеграция ИИ значительно улучшила читаемость рукописных писем и повысила точность извлечения текста. Например, для писем Силаса Степпа были внедрены пороговые значения уверенности для исправления ошибок, что позволило значительно повысить надежность извлеченного текста.
Эти достижения открывают новые горизонты для цифровизации библиотек и разработки инструментов учета, что может значительно улучшить доступность исторических документов по всему миру. В будущем исследователи планируют продолжить работу над улучшением процессов извлечения текста и генерации метаданных, что сделает цифровые библиотеки еще более удобными для пользователей.