Нейросетям «Яндекса» не хватает текстов на языках народов СНГ
Это ухудшает качество работы ИИ, но русские и английские модели это не затронетРазработчики моделей машинного обучения (LLM) сталкиваются с дефицитом текстов на различных языках для их обучения, заявил директор по развитию технологий ИИ «Яндекса» Александр Крайнов 18 апреля во время выступления на форуме Data Fusion.
«Для обучения языковых моделей нужно много хороших текстов, и выясняется, что их просто нет физически, – сетует Крайнов. – На английском языке их много, возможно даже избыточно. На русском языке мы собираем все, до чего можно дотянуться, и как-то более-менее хватает для создания качественных языковых моделей, но избытка нет. А если мы возьмем множество других языков, которые менее распространены в интернете, например данные для узбекского, таджикского или казахского языков, то выясняется, что их не просто недостаточно – их нет».