Т-банк выложил большую языковую модель на 32 млрд параметров в открытый доступ

Модель разработана на базе китайской Qwen-2.5 от Alibaba Group
Создать собственную языковую модель стоит десятки миллионов долларов
Создать собственную языковую модель стоит десятки миллионов долларов / Ярослав Чингаев / ТАСС

Т-банк (группа «Т-технологии») открыла доступ к двум большим языковым моделям (LLM): T-Pro на 32 млрд параметров (переменных) и обновленной T-Lite на 7 млрд параметров. Об этом «Ведомостям» рассказал представитель банка. Инвестиции в проект компания не раскрывает.

В июле 2024 г. «Т-банк» открыл доступ к первой версии T-Lite. Как объясняют в банке, большее число параметров позволяет модели учитывать больше контекста и особенностей языка, лучше запоминать информацию, делать более точные и сложные выводы.

По словам представителя компании, открытый доступ позволит бизнесу любых размеров полностью бесплатно использовать модели для решения внутренних бизнес-задач и создания новых продуктов на базе LLM вместо создания собственных моделей. Например, с помощью LLM можно создавать умные чат-боты в поддержке или ассистентов для своих сотрудников: инструменты для автоматического написания кода, составления отчетов, написания исследований и проч.

Представленные модели входят в Gen-T – семейство собственных языковых моделей компании, предназначенных для решения конкретных узкоспециализированных задач. В этом заключается основное отличие от универсальных решений, таких как ChatGPT, пояснил представитель компании.

Модели T-Lite и T-Pro основаны на базе моделей семейства Qwen-2.5 от китайской Alibaba Group, но дообучены и адаптированы под русский язык, добавил представитель банка. «Такой подход позволяет «Т-технологиям» существенно сократить затраты на создание больших языковых моделей – на 80–90% по сравнению с компаниями, которые обучают их с нуля. При этом качество решений LLM-продуктов на русском языке превосходит решения, базирующиеся на открытых и проприетарных моделях от OpenAI, Google и Anthropic», – объясняет собеседник.

Qwen – одна из наиболее современных моделей, отмечает директор по AI Сберуниверситета, автор ТГ-канала «Дизайн образования» Андрей Комиссаров. «Эта модель сделана китайцами, и она достаточно неплоха в целом ряде показателей, особенно в математической логике», – рассказывает он.

Аналогичным путем пошла, например, МТС: в конце ноября компания представила модель Cotype Nano на 1,5 млрд параметров, также созданную на базе Qwen 2.5 Alibaba Cloud. Тогда представитель «Яндекса» сообщил, что компания также раздумывает над возможностью выложить исходный код своей модели в открытый доступ. Представитель «Сбера» отмечал, что банк предоставляет открытый доступ к моделям линеек Kandinsky (используются для генерации изображений) и GigaAM (для обработки речи).

«Мы рады, что нашу инициативу выпускать открытые большие языковые модели поддерживают другие компании в сфере ИИ, и призываем остальных игроков рынка также выпустить открытые версии своих моделей, – прокомментировал представитель МТS AI. – В данном случае речь идет не о конкуренции, а об обмене знаниями, который на текущем этапе развития этой технологии может привести к развитию в России собственного сообщества, появлению неожиданных и эффективных решений». В ближайшее время MTS AI выпустит новую открытую модель, которая сможет создавать компьютерный код по текстовому описанию, добавил он.

В пресс-службе «Яндекса» ответили, что компания «регулярно» делится оперсорс решениями с рынком. Сейчас в «Яндексе» также «думают» над возможностью выложить открытый код большой языковой модели YandexGPT.

«Ведомости» направили запрос в «Сбер».

Создать собственную языковую модель стоит десятки миллионов долларов, рассказывает гендиректор Dbrain, автор Telegram-канала AI Happens Алексей Хахунов. «Это как писать каждой компании свою платежную систему для интернет-магазина», – приводит аналогию эксперт. По словам Хахунова, лучшие в мире модели сейчас предоставляют компании OpenAI и Google – они доступны только в виде API, т. е. как готовый сервис, а дообучить под свои задачи их нельзя.

Кроме того, есть достаточно большой набор опенсорс-моделей на иностранных языках. Самые прогрессивные – это модели от компании Meta (организация признана экстремистской и запрещена в РФ) (признана экстремистской и запрещена на территории РФ), которые работают близко по качеству к лучшим, продолжает Хахунов. По его словам, обновление моделей на русском языке происходит чуть медленнее и в нем конкурируют три компании: «Яндекс», «Сбер» и Т-банк.

Хахунов объясняет, что релиз модели Т-банка позволит компаниям, которые «переживают за свои данные», запустить модель на своих серверах. Подход банка позволяет дообучить модели на свой конкретно узкий кейс, продолжает эксперт.

«Как показывает практика, именно развитие решений с открытым исходным кодом дает наибольшее развитие ИИ, – объясняет Комиссаров. – Лицензия Т-банка подразумевает, что пользователи не просто под себя ее дообучают, но и добавляют свой код в общий репозиторий. Таким образом модель развивается, а держатели корневой модели получают все время новые решения». Эксперт также привел пример GigaChat от «Сбера» как «очень неплохое многофункциональное API».

Согласно исследованию Банка России, в 2023 г. объем мирового рынка ИИ-решений составил $196,6 млрд. Ожидается, что к 2030 г. он вырастет до $1,8 трлн со среднегодовым темпом роста 37%. Объем российского рынка ИИ в 2023 г. составил 650 млрд руб., что на 18% больше показателей 2022 г.