Нейросетям «Яндекса» не хватает текстов на языках народов СНГ

Это ухудшает качество работы ИИ, но русские и английские модели это не затронет
Максим Стулов / Ведомости

Разработчики моделей машинного обучения (LLM) сталкиваются с дефицитом текстов на различных языках для их обучения, заявил директор по развитию технологий ИИ «Яндекса» Александр Крайнов 18 апреля во время выступления на форуме Data Fusion.

«Для обучения языковых моделей нужно много хороших текстов, и выясняется, что их просто нет физически, – сетует Крайнов. – На английском языке их много, возможно даже избыточно. На русском языке мы собираем все, до чего можно дотянуться, и как-то более-менее хватает для создания качественных языковых моделей, но избытка нет. А если мы возьмем множество других языков, которые менее распространены в интернете, например данные для узбекского, таджикского или казахского языков, то выясняется, что их не просто недостаточно – их нет».

С языками, для которых доступно ограниченное количество текстов и ресурсов для обучения моделей, действительно возникают трудности, подтверждает менеджер ИИ-продуктов Just AI Алексей Борщов. Это могут быть диалекты, редкие языки и языки с ограниченным объемом текстовых данных, уточняет он. «Например, сегодня очень востребованы языки Средней Азии. Известно также, что некоторые технические компании работают с Республикой Татарстан для сбора данных по татарскому языку. А значит, и языки меньшинств тоже будут постепенно покрываться данными для дообучения моделей», – поясняет Борщов.

Кроме того, культурный уровень, разнообразие тематик общения, а также качество владения языком авторов позволяет меньшему количеству текстов быть более полезными для обучения, добавляет менеджер продуктов Innostage Евгений Сурков.

По словам Крайнова, может сложиться ситуация, когда уровень и качество работы языковых моделей будет снижаться из-за нехватки количества обучающих данных. Их недостаток напрямую влияет на качество и точность ответов языковой модели, добавляет Борщов. Впоследствии это может отразиться на количестве пользователей продукта, уточняет он, ведь выбор LLM-систем носителем языка будет напрямую связан с тем, насколько хорошо сеть умеет работать с языком.

Дефицит текстов влияет прежде всего на то, что большие языковые модели плохо работают с этими языками и будут допускать гораздо больше ошибок, говорит руководитель направления цифровых продуктов образовательной экосистемы «Самолетум» (входит в группу «Самолет»), представитель Альянса искусственного интеллекта Андрей Комиссаров. Те же проблемы возникают с сервисами для распознавания или генерации речи, добавляет он.

«При этом генерация текстов для обучения самими моделями может только усугубить проблемы, – добавляет Сурков. – Попытка поступить по аналогии с успешными шахматными программами здесь может привести к катастрофе».

Проблему с нехваткой текста отчасти может решить перевод, говорит Крайнов. Например, у «Яндекса» есть OCR-сервис (Optical Character Recognition) распознавания текста. Помимо перевода можно «где-то добывать и оцифровывать тексты, которые не оцифрованы», добавляет он.

«В любом случае если мы говорим про задачу, которую не только один «Яндекс» может решить, а какая-то страна для себя, то нужно изыскать любые способы, чтобы было больше данных для самообучения», – считает Крайнов. «Например, для общения педагогов с учащимися-инофонами (учащиеся, чьи семьи недавно иммигрировали) и их родителями мы в первую очередь пытаемся парсить из источников типа YouTube, но по ряду языков на видеохостинге нет достаточного количества текстов, и приходится взаимодействовать с национальными вузами», – говорит Комиссаров.

По словам Борщова, для избежания проблем с нехваткой данных для обучения LLM-систем помимо сбора данных и создания большого количества текстов на разных языках необходимо сотрудничать с языковыми сообществами и носителями редких языков. Также можно использовать метод «обратного перевода», добавляет эксперт: «Текст на одном языке автоматически переводится на другой, даже если модель еще недообучена. Полученные плохие переводы используются в качестве обучающих данных для улучшения качества перевода. Затем модель обучается переводить такие слегка искаженные тексты обратно на исходный язык». Такой способ помогает улучшить качество перевода даже на языках с ограниченным количеством данных, добавляет Борщов.