Как ускорить разработку промышленного искусственного интеллекта

Опыт компании «Русал» по использованию облачных сервисов
iStock

Эффект от внедрения решений на базе искусственного интеллекта (ИИ), в том числе машинного обучения, в России может достичь 4,2–6,9 трлн руб. к 2028 г. – такую оценку приводят аналитики «Яков и партнеры» в исследовании «Искусственный интеллект в России – 2023». Около 75% потенциала приходится на шесть ключевых для российской экономики отраслей, в числе которых – добывающая промышленность. Опрос показал, что в 68% компаний внедрение решений на основе ИИ за последний год в среднем оказало влияние на 1–5% от EBITDA (прибыль до вычета процентов, налогов, износа и амортизации). О том, как компании создают такие технологии и как эти разработки можно ускорить с помощью облачных сервисов, «Ведомости&» узнали у производителя алюминия – компании «Русал».

Компания «Русал» применяет различные системы на основе ИИ с 2018 г. В прошлом году компанию признали первым номинантом национальной премии «Лидеры в сфере искусственного интеллекта» за проект по мониторингу выбросов загрязняющих веществ.

Для работы над новыми проектами IТ-команде нужно наращивать вычислительные мощности, однако закупка и доставка серверов, развертывание инфраструктуры, в том числе строительство собственных центров обработки данных, – долгий, трудозатратный и недостаточно гибкий процесс.

Если для эксплуатации цифровых продуктов с ИИ используется только собственная инфраструктура (on-premise), то для ускорения темпов разработки «Русал» выбрал гибридную модель IТ-инфраструктуры: часть проектов машинного обучения компании разрабатывается на собственных мощностях, другая – с использованием облачной платформы, предоставленной Yandex Cloud.

Интеллект для промышленности

Сейчас у «Русала» в работе более трех десятков проектов с использованием ИИ. Несколько проектов уже внедрено в промышленное производство, один вышел на стадию масштабного тиражирования. Обеспечивать качество разработки и скорость внедрения, а также снижать стоимость эксплуатации цифровых продуктов с ИИ «Русалу» помогает использование решений в области операций машинного обучения – MLOps. Это подход к машинному обучению, в котором применяются практики непрерывной разработки. Модели машинного обучения тестируются и разрабатываются в изолированных экспериментальных системах, а затем готовые и проверенные алгоритмы запускаются в производственной среде.

Три контура безопасности «Русала»

Разработка информационных систем исключительно на физических серверах компании – on-premise – ограничивает динамичность масштабирования доступных вычислительных ресурсов, отмечают в «Русале». Поэтому компания выбрала гибридный трехконтурный вариант разработки новых ИИ-решений.

Первый контур – внутренний. MLOps-платформа «Русала» реализована на базе технологий с открытым кодом (open source framework) SinaraML. Платформа используется как для собственной разработки и обучения ИИ-моделей, так и для их последующей эксплуатации – мониторинга, переобучения и пр.

Второй контур – промежуточный. На мощностях Yandex Cloud развернут экземпляр MLOps-платформы «Русала» с возможностью динамического управления ресурсами. Они нужны как для обучения ИИ-моделей, так и для тестирования решений, которые разрабатывают внешние подрядчики.

Как создают технологии машинного обучения

«Вначале формулируются бизнес-требования – прикладная задача, которую компании необходимо решить с помощью методов машинного обучения. Когда задача определена, начинается сбор данных, разметка и очистка. В отличие от классического программирования, где специалист прописывает алгоритм действий, в машинном обучении алгоритм формируется на основе данных. Данные необходимо подготовить специальным образом: проверить, насколько они полны, актуальны и обладают ли необходимым качеством для реализации проекта.
Данные можно условно разделить на два вида: структурированные данные представлены в виде таблиц, неструктурированные – в виде изображений, видео, звука или текстовой информации. В классическом машинном обучении работают со структурированными данными. Например, это могут быть данные о доходах компании.
Следующий шаг – отладка модели. Данные разделяют на две или три выборки в зависимости от подхода: обучающую, валидационную и тестовую.
Если компания проводит эксперименты, обучается много разных моделей и применяется много разных подходов. Лучшую модель выбирают с помощью валидационной выборки. На базе валидационной выборки выбирают лучшую модель. Затем еще раз проводят ее обучение на обучающей и валидационной выборках одновременно. Тестовая выборка используется, когда модель полностью готова, решение построено и компании нужно рассчитать конечные метрики качества. Финальный замер происходит на тестовой выборке, чтобы удостовериться, что выбранная модель оптимальна», – рассказывает Дмитрий Рыбалко, продуктовый архитектор ML-сервисов

Третий контур – внешний. Подрядчики компании, разрабатывающие цифровые продукты с ИИ, самостоятельно разворачивают на своих мощностях open source framework SinaraML, разрабатывают, обучают и упаковывают в микросервисы ИИ-модели для «Русала».

Такая структура позволяет гибко и динамично масштабировать задействованные вычислительные мощности для ресурсоемкого обучения больших моделей ИИ. Кроме того, провести проверку безопасности решений возможно вне технологического контура компании, что существенно снижает риски.

Чем полезно облако при работе с машинным обучением

«Для специалистов Data Science важны отказоустойчивость инфраструктуры и возможности масштабирования, которые дает облачная платформа. Некоторые команды работают над проектами удаленно, и это тоже удобнее делать в облаке. Но есть и специфичные для машинного обучения преимущества. Во-первых, облачные платформы предоставляют широкий выбор «железа», в том числе наиболее мощных конфигураций. Покупка такой физической инфраструктуры потребовала бы больших вложений, при этом физические серверы используются не всегда оптимально, простаивая часть времени. Во-вторых, оборудование нужно разместить в подготовленном месте и постоянно обслуживать, а облачная платформа берет работу с оборудованием на себя и гарантирует высокий уровень доступности сервисов. Также облачная инфраструктура позволяет отказываться от ресурсов, когда они не нужны. Это особенно важно для проектов, в которых сложно заранее рассчитать необходимое количество мощностей», – поясняет Дмитрий Рыбалко, продуктовый архитектор ML-сервисов Yandex Cloud.

«Уникальными характеристиками такого подхода является значительное снижение затрат и времени как на разработку, так и на передачу результатов работ, их тестирование и внедрение в продуктовую и последующую промышленную эксплуатацию. Все пайплайны (регламентированный и документированный процесс выполнения типовых задач. – «Ведомости&») разработки и тестирования архитектур инфраструктурных решений бесшовно переносятся между любыми экземплярами платформы», – отмечает Михаил Граденко, директор департамента технологий ИИ «Русала».

На повышенной скорости

Ускорение разработок и тестирования – главный результат интеграции с облаком. К примеру, процесс адаптации подрядчиков к разработке в корпоративном стеке – наборе технологий «Русала» стал многократно быстрее, приводит пример Граденко. Облачные сервисы позволяют IТ-команде «Русала» справляться с большим объемом работы. Такой подход обеспечивает защиту данных во всех сегментах инфраструктуры и контроль над процессом разработки.

Еще один фактор экономии времени заключается в том, что цикл закупки и разворачивания инфраструктуры on-premise значительно дольше, чем цикл согласования и выделения облачных мощностей. С помощью облака можно очень быстро начинать эксперименты по разработке новых решений, пока согласовываются и осуществляются закупки необходимого оборудования, говорит Граденко.

По его словам, инструментарий платформы позволяет при разработке сохранять историю изменений кодов отдельных компонентов и пайплайна целиком. В итоге при передаче результатов работ отдается не только обученная модель, но и готовый пайплайн для обучения модели (конвейер по производству моделей для конкретного цифрового продукта. – «Ведомости&»), а также вся история версий всех компонентов, данных и экспериментов по обучению.

Таким образом, использование облачных технологий для разработки, тестирования и внедрения новых ИИ-решений позволяет ускорить процесс на всех этапах, поддерживая при этом высокий уровень информационной безопасности. В будущем «Русал» планирует рассмотреть и другие возможности применения сервисов Yandex Cloud, например облачный доступ к высокопроизводительным графическим процессорам (GPU), что позволит динамично масштабировать вычислительные ресурсы, говорит Граденко. &