Денис Филиппов: «Россия находится на переднем крае развития генеративного ИИ»

CEO SberDevices Денис Филиппов о практическом применении ИИ сейчас и в будущем
Денис Филиппов / Пресс-служба SberDevices
Денис Филиппов / Пресс-служба SberDevices

Генеративный ИИ стал главной технологией 2023 г., и многие уверены, что в ближайшем будущем она кардинально изменит не только бизнес, но и жизнь обычных людей. Россия наравне с США и Китаем стала ключевым игроком в этом сегменте. Здесь возникло сразу несколько отечественных нейросетевых моделей, например, GigaChat. О конкуренции между разными большими языковыми моделями (large language model, LLM – нейросети, которые обучаются на больших объемах текстовых данных) и о сильных сторонах российских разработчиков изданию «Ведомости. Инновации и технологии» рассказал CEO SberDevices Денис Филиппов.

– Какие направления являются приоритетными для компании?

– Компания на рынке уже пять лет, свое развитие мы начинали как внутрикорпоративный стартап «Сбера», который со временем превратился в большой самостоятельный бизнес. Два года назад нами было принято совместное решение о разделении. При этом со «Сбером» у нас партнёрские отношения, мы тесно сотрудничаем.

Сегодня бизнес компании делится на три основных направления: программное обеспечение для бизнеса, R&D и производство электроники (умные телевизоры, приставки, колонки, а также устройства умного дома, такие как розетки, лампочки и датчики). За прошлый год SberDevices удвоила продажи умных устройств в штуках — до 1,7 млн. Мы видим, что у людей в России растет интерес к умной электронике, и уже точно можно сказать, что в данной области страна находится на переднем крае развития. Только США и Китай так же активно и успешно развивают это направление.

Во всей продуктовой линейке применяются возможности LLM, особенно это касается B2B-направления. Нейросетевая модель GigaChat, которая разрабатывается с нашим участием, стала «мозгом» и «сердцем» большинства решений, и ее внедрение в еще большее количество продуктов является приоритетом бизнеса SberDevices. Например, есть множество сценариев применения LLM с платформой речевых сервисов SaluteSpeech и платформой для создания чат-ботов SaluteBot. В первую очередь все они направлены на повышение автоматизации процессов и рост качества клиентского сервиса.

– А что можно ответить приверженцам мнения, что российские LLM ‒ это доработка того, что было сделано глобальными игроками, поэтому говорить о конкуренции вашей компании или других российских разработчиков и Open AI в глобальном контексте рано?

‒ Если отвечать коротко, то это не так. Для создания LLM, таких как ChatGPT или GigaChat, нужно сразу несколько вещей, которые есть не только у американцев.

Во-первых, это большие вычислительные мощности и компетенции в построении суперкомпьютеров. Во-вторых, нужно огромное количество данных. В-третьих, необходимо много квалифицированных специалистов в достаточно узкой области знаний. Кадровый потенциал России тоже является конкурентоспособным.

Благодаря всем этим факторам мы разработали свою языковую модель, обученную на наших мощностях и данных и оптимизированную для работы с русским языком. При этом мы не игнорируем опыт мирового сообщества, следим за ним и продолжаем исследовать новые архитектуры LLM.

‒ А существуют ли признанные всеми тесты, позволяющие сравнить вашу LLM с решениями Open AI или другими аналогами?

– Существует методика сравнения side by side («бок о бок» – изначально термин использовался для сравнения бытовой техники. – Прим. «Ведомости. Инновации и технологии»), когда вы выбираете определенный набор вопросов, задаете их двум моделям, а затем разметчики определяют хорошие и плохие ответы, сравнивая их между собой. В 2023 г. мы догнали Chat GPT 3.5 Turbo (предыдущая версия LLM модели, последняя – Chat GPT 4. – Прим. «Ведомости. Инновации и технологии») по side-by-side-сравнению, а в этом году в тестировании, которое велось на русском языке, мы Chat GPT 3.5 Turbo обогнали.

Есть также методика тестирования MMLU (Massive Multitask Language Understanding, «массовое многозадачное понимание языка»). Она включает большое количество знаний из разных областей: математики, истории, медицины, физики, информацию о мире и способности решать проблемы. То есть, по сути, это экзамен для ИИ. LLM тестируется на процент правильных ответов по каждой из тематик. Здесь GigaChat достаточно конкурентен, по крайней мере, по сравнению с открытыми LLM. Но существующий на данный момент тест MMLU – на английском языке, и, хотя все модели являются мультиязыковыми, все же ChatGPT сильнее в английском варианте теста, а GigaChat показывает лучший результат, отвечая на те же вопросы, но на русском языке. 

Также никто не отменял и традиционных экзаменов. Это не совсем подходит для сравнения двух конкурирующих моделей LLM, но позволяет оценить возможности ИИ в целом. В прошлом году, к примеру, GigaChat выполнил все задания единого государственного экзамена по обществознанию и набрал 67 баллов, что превышает минимальный балл для подачи в вуз и средний балл по предмету в 2023 г. Ну и совсем недавно GigaChat сдал экзамен на врача общей практики.

– Недавно генеральный директор Nvidia Дженсен Хуанг заявил, что ИИ сможет пройти абсолютно любой человеческий экзамен уже через пять лет. А вы верите, что это возможно?

– Когда мы готовили GigaChat к сдаче экзамена на врача, даже внутри команды было достаточно много скептиков, так как это очень серьезное испытание для профессионалов, от которых будут зависеть жизни и здоровье людей. И для нас самих было приятным сюрпризом, насколько хорошо модель справилась. Так что я соглашусь с коллегой из Nvidia, что в течение нескольких лет обучить ИИ прохождению любого человеческого экзамена – вполне реальная задача.

– Использование LLM бизнесом в 2023 г. было достаточно массовым, в том числе за счет желания компаний воспользоваться «хайпом» и получить дополнительное внимание медиа. Есть ли реальные кейсы внедрения LLM с доказанной эффективностью, возможно, примеры внедрения в ваши собственные продукты?

– На данный момент стало очевидно, что LLM широко применимы в очень разных бизнесах, и многие из них они изменят почти до неузнаваемости. Это коснется эффективности, качества продуктов и т. д. Я бы не сказал, что бизнес в 2023 г. руководствовался каким-то «хайпом», скорее, это осторожное изучение новых инструментов, проведение пилотов и размышления, как той или иной корпорации применить новые возможности. Я думаю, что 2024 г. пройдёт в таком же режиме: компании будут выбирать кейсы, которые доказали свою работоспособность.

Мы активно используем генеративный ИИ как инструмент, помогающий нашим программистам. По данным SberDevices, по итогам прошлого года эффективность сотрудников, которые активно использовали в своей работе GigaChat, выросла на 20% и более.

Генеративный ИИ также хорошо показал себя при использовании в контакт-центрах: мы видим кратный рост качества ответов и скорости обслуживания клиентов.

Благодаря интеграции SaluteBot с нейросетевой моделью сервис приобрел способность создавать более эффективные чат-боты для бизнеса. Если во время общения с клиентами у такого чат-бота не будет готового ответа, предусмотренного сценарием, бот обратится за помощью к GigaChat и сможет продолжить разговор без переключения на оператора. Это уже позволило добиться автоматизации в текстовых каналах более чем на 80% и до 20 раз сократить время на создание сценария чат-бота и его вывода в канал общения с клиентами, показывают исследования SberDevices.

Или другой пример. В этом году в сервисе для видеоконференций Jazz появилась функция создания краткого резюме встреч на базе GigaChat. Сервис автоматически формирует информативную выжимку с ключевыми темами, задачами и заметками. Все мы знаем, какое количество встреч проходит в среднем в течение дня в компаниях. По их итогу готовится масса отчетов и поручений, и в этом процессе может быть задействовано сразу несколько сотрудников ‒ очевидно, что такое использование ресурса нерационально для бизнеса. Встроенная cуммаризация в сервисе позволяет пользователям отдать эту рутинную часть работы ИИ. Также функция очень полезна, когда ты пропустил встречу и надо быстро понять, что обсуждали и о чем договорились.

– Могут ли другие компании воспользоваться вашей LLM для создания собственных решений?

– Да, у нас есть GigaChat API – программный интерфейс доступа к GigaChat. Благодаря ему бизнес может использовать все возможности нашей нейросети для создания новых сервисов или обогащения уже готовых решений. Для упрощения работы с GigaChat мы подготовили GigaChain – адаптированную версию библиотеки LangChain для русского языка с поддержкой GigaChat API.

Сейчас нашим API уже пользуется более двух тысяч компаний из разных индустрий, в том числе ИТ-компании и телеком, крупный промышленный сектор, госструктуры, ретейл и другие. Развивается  направление по внедрению GigaChat в корпоративную среду. «МойОфис» создал редакторы документов и средств коммуникаций, интегрировал GigaChat в свою экосистему и представил разработки в области технологий ИИ, ускоряющие выполнение задач совместной работы с документами.

Немаловажным является использование GigaChat для финансового сектора. Например, Альфа-Банк один из первых начал применять нейросети нового поколения для улучшения пользовательского опыта в своих ботах.

‒ Существуют ли направления использования LLM в бизнесе, которые, на ваш взгляд, имеют большой потенциал, но пока не реализованы?

– Одна из пока не закрытых потребностей бизнеса – это поиск и структурирование знаний, накопленных компанией. Чем крупнее организация, тем большие объемы информации она накапливает, но сейчас нет необходимых инструментов, позволяющих быстро получать доступ к этим знаниям. И генеративный ИИ может стать тем помощником сотрудника, который способен на естественном языке быстро получить и выполнить запрос на поиск необходимой информации. Самый простой пример: в производственной компании есть некий сложный агрегат, к нему прилагается инструкция по обслуживанию на 500 страниц, содержащая все необходимые команды и действия, которые нужно предпринять в той или иной ситуации. И если происходит какая-то нештатная ситуация, человек берет эту инструкцию и ищет в ней ответ. Далее все зависит от квалификации специалиста, но в любом случае процедура займет у него десятки минут или даже часов в сложном случае. А каждая минута простоя установки может обходиться бизнесу в миллионы рублей. C помощью генеративного ИИ практически любой сотрудник получит необходимый ответ за секунды.

Что касается перспектив развития GigaChat, то тут мы исходим из задач бизнеса и создания комплексного решения, которое объединит все наши наработки в сфере ИИ, экспертизу и решения наших партнеров, чтобы закрыть потребность каждой конкретной компании. 

Также мы идем в сторону мультимодальности, когда пользователь на входе может в удобном ему формате отправить запрос и получить на него ответ. Объясню на примере с неисправным агрегатом на предприятии: человек может не описывать проблему текстом, а сфотографировать неработающее устройство и отправить фото. По этому снимку решение на базе GigaChat будет способно установить проблему и выработать решение. Это новый подход и опыт работы с нейросетями, который мы планируем обеспечить в самом ближайшем будущем.