RTSI1 121,76+1,01%↑RGBI119,69+0,18%↑CNY Бирж.10,945+0,31%↑IMOEX2 666,43+1,01%↑RGBITR780,65+0,21%↑

Дневники и письма — бесценный источник для гуманитария-исследователя. Но что делать, если текст невозможно прочитать? На факультете гуманитарных наук (ФГН) ВШЭ эту проблему решили перевести на язык математики: команда филологов, историков и специалистов по машинному обучению создала информационную систему, которая не только распознает неразборчивый почерк, но и помогает анализировать содержание архивов.

История вопроса

Работа с рукописными источниками на факультете имеет давнюю традицию. Ее новый технологический этап начался в 2019 году, когда Высшая школа экономики подключилась к проекту «Автограф» под руководством Елены Пенской (сейчас — руководитель Центра цифровых архивных исследований ФГН). Проект появился в 2014 году благодаря группе исследователей Российского государственного архива литературы и искусства. Практически сразу проект, позволяющий студентам, ученым и просто любителям литературы со всего мира изучать электронные копии рукописей, поддержал Пушкинский Дом и Российский научный фонд (РНФ).

В 2022 году группа участников «Автографа» решила идти дальше. Они подали новую заявку в РНФ и выиграли грант на междисциплинарный и межуниверситетский проект «Культурное наследие России: интеллектуальный анализ и тематическое моделирование корпуса рукописных текстов». К работе подключились историки, математики и филологи из ВШЭ и их давние партнеры из Томского госуниверситета.

Цель была амбициозной: разработать цифровые инструменты, которые превращают хаотичные массивы рукописей (дневники, письма, эго-документы XIX — начала XX века) в структурированные данные с помощью алгоритмов машинного обучения. Речь шла не просто об оцифровке, а об автоматическом выявлении скрытых тем, сюжетов и смыслов, каталогизации и интеллектуальном анализе архивов.

Проект формально завершился в 2025 году, но исследования продолжаются. Елена Пенская и кандидат физико-математических наук Никита Ломов создали работающую информационную систему. Ее главная задача — научить машину читать нечитаемое.

Как это работает: строки, сущности и нейросеть YOLO-HTR

Традиционная систематизация рукописей в архивах и библиотеках основана на распределении документов по фондам, листам, единицам хранения и нумерации страниц. Оцифровка добавляет навигацию по картинкам — это полезно, но не решает главной проблемы: текст остается нераспознанным.

Система, разработанная на ФГН, идет на два шага вперед. Она использует оригинальную архитектуру нейросети YOLO-HTR (You Only Look Once + Handwritten Text Recognition), которая одновременно решает две задачи: находит строки текста на изображении и расшифровывает их. В результате каждая строка рукописи оказывается связанной не только с номером страницы, но и с тем, что на ней написано.

Но это только полдела. Главное — семантическая навигация. С помощью больших языковых моделей система выделяет в тексте так называемые сущности: не только традиционные «персоны», «локации» или «организации», но и более сложные категории — «состояние здоровья», «политическое событие», «размышление». Пользователь может кликнуть на любую сущность и мгновенно получить все строки и страницы, где она упоминается. Это превращает архив из стопки картинок в связную базу знаний с двунаправленными перекрестными ссылками.

«Мы получаем организацию архива по содержанию, — объясняет Никита Ломов. — От предметов интереса можно переходить к конкретным строкам и страницам, а для страницы и ее строк мы имеем построчный список упоминаемых сущностей».

Дневники Сухово-Кобылина: вызов, который длился 40 лет

Один из самых ярких кейсов — дневники драматурга Александра Васильевича Сухово-Кобылина (1817–1903). Личность загадочная: подозревался в убийстве своей возлюбленной-француженки, написал три пьесы, вошедшие в русский литературный канон, и почти не публиковал дневники при жизни.

Сами дневники при их внушительном объеме опубликованы лишь частично. Расшифровка опубликованной части заняла около 40 лет, и даже в ней остались пропуски и неточности. Почерк Сухово-Кобылина настолько неразборчив, что может сбить с толку неподготовленного человека.

Команда ФГН загрузила в систему 380 страниц дневников — это более 10 тысяч строк текста, из которых около 5 тысяч имели опубликованную расшифровку (она использовалась для обучения нейросети). Для сравнения: почерки Федора Литке и Модеста Корфа система распознает с ошибкой 3–5% в буквах. Для Сухово-Кобылина ошибка достигает 10% в буквах и 28% в словах.

Но даже этот результат, подчеркивают разработчики, является огромным подспорьем для исследователя. Большинство ошибок исправляются очевидным образом, а сам текст становится легкочитаемым там, где раньше приходилось гадать по несколько минут на каждое слово.

Диалог с машиной: как задавать вопросы архиву

Современные большие языковые модели (ChatGPT, DeepSeek, Gemini, Claude) позволяют общаться с ними почти как с живым собеседником. Разработчики ФГН пошли дальше: они адаптировали этот формат для работы с архивом.

Исследователь может сформулировать запрос на естественном языке («покажи все упоминания болезней в 1850-е годы» или «выдели поездки с указанием маршрута и спутников»), а система вернет не связный текст, а структурированный список — с полями, пригодными для дальнейшего анализа. Это позволяет отслеживать временную динамику упоминаний, выявлять совместные появления сущностей, реконструировать социальные связи, конфликты и перемещения.

«Здесь многое зависит от пожеланий и устремлений коллег-филологов, — говорит Никита Ломов. — Именно их исследовательские интересы определят новые типы поддерживаемых запросов и приведут к расширению возможностей нашей системы».

Масштабирование и научное сообщество

Разработчики видят два параллельных пути развития системы.

Экстенсивный — наращивание объемов данных. Создание аналогичных систем для других коллекций эго-документов, особенно тех, для которых уже есть текстовая расшифровка.

Интенсивный — улучшение алгоритмов. Меньше ошибок распознавания, меньше потребность в размеченных данных, более точное выделение сущностей даже при неточной расшифровке.

Но главное условие успеха — появление сообщества заинтересованных пользователей. Пока система работает в исследовательском режиме. Чтобы всерьез говорить о масштабировании, нужны сотни активных исследователей, историков, филологов, студентов, которые будут не просто смотреть, а формулировать запросы, предлагать новые типы сущностей и проверять гипотезы.

«Хотелось бы, чтобы вокруг подобных систем сложилось определенное сообщество, — говорит Никита Ломов. — Только когда число по-настоящему заинтересованных пользователей станет исчисляться сотнями, можно будет всерьез поставить вопрос о масштабировании».

Проект продолжается в рамках Программы фундаментальных исследований НИУ ВШЭ 2026 года («Язык, литература и культура в историческом и социальном измерении»). Присоединиться к тестированию и сотрудничеству можно через Центр цифровых архивных исследований ФГН.

Научить машину читать прошлое: на ФГН создают нейросеть для расшифровки рукописей

Другие пресс-релизы

НИУ ВШЭ запускает магистратуру при поддержке Банка России и лидеров финансовой отрасли

Студенты и аспиранты ФКН ВШЭ получили стипендию «Яндекса»

Вышка организовала экскурсии для участников «Я — профи» на предприятия партнеров

Состоялась первая очная встреча Индустриального хаба Вышки Онлайн

Как финал ВсОШ по ИБ формирует кадровое ядро будущего кибербеза России

Студенты питерской Вышки стали победителями турнира Центрального банка

Почему слабые участники соревнований сдаются — и как это изменить

«Нужно помнить, чего стоила Победа»

Исследователи НИУ ВШЭ собрали научную базу данных для изучения пищевых привычек у детей

Студенты Вышки разработали цифровой маршрутизатор для выставки Музея Москвы и ВДНХ

«Уезжаешь с чемоданом новых идей и гипотез»

НИУ ВШЭ и Назарбаев Университет: научно-образовательная кооперация

AI AWARDS 2026: аналитическую основу премии формирует iFORA НИУ ВШЭ

Будущее кардиогенетики — с искусственным интеллектом

«Там, где невозможно точно предсказать результат, возникает стохастика»

«Познакомиться с профессорами, получить опыт»: лицеисты Узбекистана на стажировке в ВШЭ

Нижегородская Вышка и Сбер запускают образовательную программу по AI и рекомендательным системам

Прогресс в сфере лингвистики и педагогики обсудили на V конференции «Языки. Образование. Развитие»

НИУ ВШЭ и Альфа-Банк запускают исследовательские проекты в сфере искусственного интеллекта