Как обучить модели машинного обучения быстро и просто

И какие инструменты помогут компаниям преодолеть кадровый дефицит

Сегодня искусственный интеллект (ИИ) стал привычным цифровым инструментом компаний. Модели машинного обучения применяют для выполнения рутинных задач и повышения эффективности операционных процессов, а также для получения конкурентных преимуществ.

Бизнес подстроился под новые тренды и требования рынка и инвестирует в продукты на основе технологии ИИ. Такие инструменты используются во многих отраслях: ритейле, медицине, промышленности и т. д. Системы обрабатывают огромные объемы данных, например банковские транзакции, или управляют складскими запасами. С одной стороны, это улучшает взаимодействие клиентов с продуктами и сервисами компаний, в том числе благодаря развитию цифровых каналов самообслуживания, например чат-боты или интерактивное голосовое меню. С другой ‒ это выгодно самим компаниям. Исследования McKinsey показывают, что ИИ может обеспечить рост производительности труда в среднем на 25% в год до 2040 г. в зависимости от темпов внедрения технологий.

Как следует из федерального проекта «Искусственный интеллект», около 95% отечественных компаний к 2030 г. будут использовать в своей работе ИИ на основе различных типов моделей: от классических на основе статистических моделей до нейронных сетей. Экономика России от внедрения искусственного интеллекта получит дополнительно 11,2 трлн руб. к 2030 г.

Искусственный интеллект зачастую «развивают» с помощью методов машинного обучения (machine learning, ML), алгоритмов, на которые сможет впоследствии опираться «машина» при принятии решений. Например, специалисты по работе с данными могут обучить медицинское приложение диагностировать рак по миллиону рентгеновских изображений и соответствующих им диагнозов. Беспилотный автомобиль «запоминает» знаки дорожного движения.

С какими вызовами сталкиваются компании

Сферы применения искусственного интеллекта и машинного обучения стремительно расширяются, но есть ряд вызовов, с которыми неизбежно сталкиваются все участники рынка.

Широкое распространение искусственного интеллекта сдерживают следующие факторы:

  • высокие операционные затраты на создание, внедрение и эксплуатацию ML-моделей;

  • нехватку ресурсов IT-инфраструктуры;

  • снижение эффекта от внедренных ML-моделей в организации из-за их устаревания и снижения качества прогнозов;

  • дефицит кадров, чтобы поддержать темпы внедрения и обслуживания новых ML-моделей.

Компании формируют отдельные подразделения или команды для внедрения и поддержки решений на основе ИИ. С ростом количества сценариев использования ML-моделей (программ, которые могут находить закономерности или принимать решения на основе данных) бизнесу нужно все больше сотрудников. По экспертным прогнозам IT-холдинга Т1, к 2028 г. количество используемых ML-моделей в организациях увеличится втрое. Не каждая компания может содержать нужный для этого штат специалистов.

Один из вариантов решения этих вопросов ‒ внедрение платформ машинного обучения. Они стали популярны в последние несколько лет, их предлагают ряд российских и зарубежных игроков. Cвои платформенные решения есть у российских Cloud.ru, Yandex и VK, среди зарубежных можно назвать Google Vertex AI и Amazon SageMaker.

Т1 также разработал платформу машинного обучения, добавив в нее функции на основе ИИ (копилот – помощник для разработчиков) и интеграцию с ведущим модельным репозиторием Hugging Face. Это позволяет запускать «в два клика» модели других разработчиков и обучать на собственных данных, что в разы ускоряет создание новых ИИ-решений. Кроме этого, платформа дает возможность внедрить управление жизненным циклом ML-моделей ‒ от сбора и подготовки данных, тестирования в лаборатории до ее развертывания в реальной среде и дальнейшим переобучением ‒ в единой системе и получить все популярные инструменты поддержки для них. Для этого необязательно внедрять платформу физически, ее функциями можно воспользоваться через «облако».

Быстрее и дешевле

По данным исследования IT-холдинга Т1, компании, которые применяют в своей деятельности платформы машинного обучения, могут создать и внедрить ML-модели в четыре раза быстрее, чем если бы они это делали с нуля самостоятельно. Платформы позволяют бизнесу снизить себестоимость создания и поддержки моделей машинного обучения более чем в пять раз; в три раза повысить скорость предоставления обратной связи от ИИ-команд бизнесу и вдвое увеличить количество проводимых экспериментов, что уменьшает время на тестирование бизнес-гипотез.

Рост и развитие бизнеса невозможны без генерации идей, формирования на их основе гипотез и проведения маркетинговых исследований. А перевод гипотез в разряд экспериментов снижает риск неопределенности на пути к цели. Эти данные Т1 получил, проанализировав результаты проектов по внедрению платформенных решений разных игроков за последние семь лет. В зависимости от масштаба компании и внедряемых ей решений абсолютные цифры могут варьироваться.

Например, разработчик решений в сфере генеративного ИИ AI21 с помощью платформы разработал предварительно обученную генеративную модель с 17 млрд параметрами менее чем за два месяца, сэкономив, по собственным данным, несколько недель.

Ивар Равн, исполнительный директор по цифровым технологиям датского сельскохозяйственного центра знаний SEGES Innovation, так описывал эффект от использования платформенного решения: в течение жизненного цикла модели машинного обучения расходы на обслуживание сократились более чем на 95%, нетрудовые затраты на развертывание, запуск и мониторинг ML-моделей в производстве снизились более чем на 80%. Но главный эффект, по его словам, заключался в сокращении рабочего времени: раньше все модели переобучались и развертывались вручную, теперь это происходит автоматически. В результате среднее время между переобучениями моделей сократилось с шести месяцев до одного дня, говорил он.

С внедрением платформ компании могут сэкономить сотни миллионов ежегодно. Достигается это за счет кумулятивного эффекта нескольких факторов. В первую очередь сокращается время на создание и интеграцию ИИ-моделей в бизнес-процессы – до 70%. Примерно вполовину уменьшаются затраты на поддержку инструментов для моделирования. Кроме того, снижается время на восстановление качества прогнозов уже внедренных ИИ-моделей, а также – на интеграцию ML-моделей в прикладные приложения. При этом растет качество прогнозов и производительность ИИ-моделей под пиковые нагрузки.

Как это работает

Компания, которая внедряет ИИ-решения, нанимает отдельный штат сотрудников, занимающихся обучением и поддержкой ML-моделей, или заключает соглашение с партнерами о создании продуктов на основе ИИ. Одновременно для эффективного обучения, внедрения и поддержки моделей компании создают решения для автоматизации машинного обучения. В случае с «Сайбокс» – платформой, для разработки и управления моделями машинного обучения, применяют локальное программное обеспечение или облачную ее версию, где выстраивают процесс производства, сборки и поставки ML-моделей для ИИ-решений.

Платформы позволяют создавать, обучать и контролировать модели машинного обучения в единой рабочей среде, полностью контролируемой со стороны клиента. Пользователи могут разрабатывать и обучать модель без написания кода и, соответственно, без привлечения для этого IT-специалистов. Или автоматизировать создание промышленного сервиса на основе ML-модели, эффективно работающего под большой нагрузкой в промышленной среде. Также доступен репозиторий для управления наборами данных с функциями версионирования ‒ механизма хранения истории изменения объектов.

Платформенные решения снижают риски компаний от применения ML-моделей. Они помогают понять происхождение, назначение и критичность модели, экспериментировать с ней, отслеживать изменения и их автора, видеть метрики работы модели и сервиса на ее основе в промышленном окружении, а также автоматизировать сборку, поставку, применение сервисов на основе обученных ML-моделей, их запуск в реальном времени или по расписанию.

Как правило, «развернуть» такие решения можно за несколько часов. Например, для установки платформы «Сайбокс» требуется один рабочий день, на следующий ‒ можно предоставить доступ к ней командам разработки для создания и внедрения ИИ-моделей.

Данные IT-холдинга Т1 показывают: внедрение и поддержка готовой платформы минимум в три раза дешевле, чем самостоятельное создание подобного сервиса или использование отдельных инструментов с открытым кодом.

Пользователи и эффекты

Платформенные решения подходят для компаний разного масштаба из любых отраслей. Алленовский институт создает с помощью такого решения карту головного мозга. Ученые собирают данные из ведущих институтов мира и готовят крупнейшую в мире базу данных с открытым исходным кодом данных о клетках мозга. Это новое слово в науке.

Ритейлеры могут использовать платформы для персонализации предложений. Они получат данные о покупках и поведении клиентов для создания индивидуальных рекомендаций, увеличения продаж и лояльности. По нашим данным, за счtт применения ИИ-моделей, которые выявляют предпочтения клиентов и предлагают индивидуальные акции, можно увеличить конверсию на 15‒20%.

Компаниям из сферы логистики платформы помогают оптимизировать маршруты доставки. Они разрабатывают оптимальные пути для транспорта с учетом дорожных условий и времени, что снижает затраты на топливо, сокращает время доставки на 20%, расходы на логистику ‒ на 15%. Решения актуальны для банковского сектора, промышленных компаний, а также любых отраслей, где искусственный интеллект только внедряется. Например, один крупный банк, который внедряет платформу «Сайбокс», отметил, что может удвоить производительность DS-подразделения на 52%.

Безопасность платформ

Безопасность ‒ одно из главных требований компаний, которые они предъявляют к платформенным решениям. Поэтому их разработчики уделяют этому вопросу огромное внимание. Например, Microsoft в 2021 г. обещала инвестировать в кибербезопасность $20 млрд в течение пяти лет. Для разработчиков платформы «Сайбокс» безопасность тоже ключевой вопрос. У платформы есть несколько уровней защиты данных, включая те, что уже встроены в ее функциональность. Их можно доработать и под требования конкретной компании. Например, разграничить права доступа для отдельных команд или их членов к наборам данных, моделям, экспериментам и пр., настроить модули и сервисы под требования регламентов служб безопасности, предусмотреть развертывание платформы в нескольких контурах отдельности для безопасной разработки и обучения моделей на обезличенных наборах данных.

Диапазон доступных на платформах алгоритмов и методов постоянно расширяется. Эти решения совершенствуются каждый день и каждую минуту. Включают в себя все больше функций, становятся удобнее для бизнеса и делают сложные технологии доступными все большему числу компаний.