RTSI1 121,76+1,01%RGBI119,69+0,18%CNY Бирж.10,945+0,31%IMOEX2 666,43+1,01%RGBITR780,65+0,21%

Научить машину читать прошлое: на ФГН создают нейросеть для расшифровки рукописей

Дневники и письма — бесценный источник для гуманитария-исследователя. Но что делать, если текст невозможно прочитать? На факультете гуманитарных наук (ФГН) ВШЭ эту проблему решили перевести на язык математики: команда филологов, историков и специалистов по машинному обучению создала информационную систему, которая не только распознает неразборчивый почерк, но и помогает анализировать содержание архивов.

История вопроса

Работа с рукописными источниками на факультете имеет давнюю традицию. Ее новый технологический этап начался в 2019 году, когда Высшая школа экономики подключилась к проекту «Автограф» под руководством Елены Пенской (сейчас — руководитель Центра цифровых архивных исследований ФГН). Проект появился в 2014 году благодаря группе исследователей Российского государственного архива литературы и искусства. Практически сразу проект, позволяющий студентам, ученым и просто любителям литературы со всего мира изучать электронные копии рукописей, поддержал Пушкинский Дом и Российский научный фонд (РНФ).

В 2022 году группа участников «Автографа» решила идти дальше. Они подали новую заявку в РНФ и выиграли грант на междисциплинарный и межуниверситетский проект «Культурное наследие России: интеллектуальный анализ и тематическое моделирование корпуса рукописных текстов». К работе подключились историки, математики и филологи из ВШЭ и их давние партнеры из Томского госуниверситета.

Цель была амбициозной: разработать цифровые инструменты, которые превращают хаотичные массивы рукописей (дневники, письма, эго-документы XIX — начала XX века) в структурированные данные с помощью алгоритмов машинного обучения. Речь шла не просто об оцифровке, а об автоматическом выявлении скрытых тем, сюжетов и смыслов, каталогизации и интеллектуальном анализе архивов.

Проект формально завершился в 2025 году, но исследования продолжаются. Елена Пенская и кандидат физико-математических наук Никита Ломов создали работающую информационную систему. Ее главная задача — научить машину читать нечитаемое.

Как это работает: строки, сущности и нейросеть YOLO-HTR

Традиционная систематизация рукописей в архивах и библиотеках основана на распределении документов по фондам, листам, единицам хранения и нумерации страниц. Оцифровка добавляет навигацию по картинкам — это полезно, но не решает главной проблемы: текст остается нераспознанным.

Система, разработанная на ФГН, идет на два шага вперед. Она использует оригинальную архитектуру нейросети YOLO-HTR (You Only Look Once + Handwritten Text Recognition), которая одновременно решает две задачи: находит строки текста на изображении и расшифровывает их. В результате каждая строка рукописи оказывается связанной не только с номером страницы, но и с тем, что на ней написано.

Но это только полдела. Главное — семантическая навигация. С помощью больших языковых моделей система выделяет в тексте так называемые сущности: не только традиционные «персоны», «локации» или «организации», но и более сложные категории — «состояние здоровья», «политическое событие», «размышление». Пользователь может кликнуть на любую сущность и мгновенно получить все строки и страницы, где она упоминается. Это превращает архив из стопки картинок в связную базу знаний с двунаправленными перекрестными ссылками.

«Мы получаем организацию архива по содержанию, — объясняет Никита Ломов. — От предметов интереса можно переходить к конкретным строкам и страницам, а для страницы и ее строк мы имеем построчный список упоминаемых сущностей».

Дневники Сухово-Кобылина: вызов, который длился 40 лет

Один из самых ярких кейсов — дневники драматурга Александра Васильевича Сухово-Кобылина (1817–1903). Личность загадочная: подозревался в убийстве своей возлюбленной-француженки, написал три пьесы, вошедшие в русский литературный канон, и почти не публиковал дневники при жизни.

Сами дневники при их внушительном объеме опубликованы лишь частично. Расшифровка опубликованной части заняла около 40 лет, и даже в ней остались пропуски и неточности. Почерк Сухово-Кобылина настолько неразборчив, что может сбить с толку неподготовленного человека.

Команда ФГН загрузила в систему 380 страниц дневников — это более 10 тысяч строк текста, из которых около 5 тысяч имели опубликованную расшифровку (она использовалась для обучения нейросети). Для сравнения: почерки Федора Литке и Модеста Корфа система распознает с ошибкой 3–5% в буквах. Для Сухово-Кобылина ошибка достигает 10% в буквах и 28% в словах.

Но даже этот результат, подчеркивают разработчики, является огромным подспорьем для исследователя. Большинство ошибок исправляются очевидным образом, а сам текст становится легкочитаемым там, где раньше приходилось гадать по несколько минут на каждое слово.

Диалог с машиной: как задавать вопросы архиву

Современные большие языковые модели (ChatGPT, DeepSeek, Gemini, Claude) позволяют общаться с ними почти как с живым собеседником. Разработчики ФГН пошли дальше: они адаптировали этот формат для работы с архивом.

Исследователь может сформулировать запрос на естественном языке («покажи все упоминания болезней в 1850-е годы» или «выдели поездки с указанием маршрута и спутников»), а система вернет не связный текст, а структурированный список — с полями, пригодными для дальнейшего анализа. Это позволяет отслеживать временную динамику упоминаний, выявлять совместные появления сущностей, реконструировать социальные связи, конфликты и перемещения.

«Здесь многое зависит от пожеланий и устремлений коллег-филологов, — говорит Никита Ломов. — Именно их исследовательские интересы определят новые типы поддерживаемых запросов и приведут к расширению возможностей нашей системы».

Масштабирование и научное сообщество

Разработчики видят два параллельных пути развития системы.

Экстенсивный — наращивание объемов данных. Создание аналогичных систем для других коллекций эго-документов, особенно тех, для которых уже есть текстовая расшифровка.

Интенсивный — улучшение алгоритмов. Меньше ошибок распознавания, меньше потребность в размеченных данных, более точное выделение сущностей даже при неточной расшифровке.

Но главное условие успеха — появление сообщества заинтересованных пользователей. Пока система работает в исследовательском режиме. Чтобы всерьез говорить о масштабировании, нужны сотни активных исследователей, историков, филологов, студентов, которые будут не просто смотреть, а формулировать запросы, предлагать новые типы сущностей и проверять гипотезы.

«Хотелось бы, чтобы вокруг подобных систем сложилось определенное сообщество, — говорит Никита Ломов. — Только когда число по-настоящему заинтересованных пользователей станет исчисляться сотнями, можно будет всерьез поставить вопрос о масштабировании».

Проект продолжается в рамках Программы фундаментальных исследований НИУ ВШЭ 2026 года («Язык, литература и культура в историческом и социальном измерении»). Присоединиться к тестированию и сотрудничеству можно через Центр цифровых архивных исследований ФГН.

Другие пресс-релизы