Новый тренд, по разработке систем машинного обучения для целых индустрий, когда идёт объединение множества, весьма разнородных данных, но присущих одному специальному домену, ставит своей целью вопросы понимания: кто будет оказывать наибольшее влияние на качество такой модели и кто будет драйвером из полученного состава данных ? Именно, на такую проблему и обращает внимание старший преподаватель кафедры “Искусственного интеллекта” Финансового университета при Правительстве РФ Миронов Владимир Олегович.
Здесь, на первый план выходит, принципиально иной пласт сознания и осмысления самого понятия “Данные”. Уже сейчас можно говорить о наследовании данных и их множественном переиспользовании в рамках полученных моделей. Теперь они формируются и переходят друг в друга не в рамках замкнутого датасета или потоковых/рутинных, а начинают образовывать иерархические структуры весьма сложного порядка следования. Эти структуры отражают трансформацию процессов для получения финального продукта и вскрывают его многовариационную составляющую в рамках целой индустрии.
Формирование такой иерархии/дерева позволяет понять всю производственную ветку: от получения исходного сырья до финального продукта, с представлением структуры/стиля мышления группы оперирующего персонала. Примечательно, что масштаб работ здесь, только набирает обороты и видоизменения, накладываемые данным подходом, идут достаточно сильно. Они, кардинальным образом влияют как на внешние, так и на внутренние процессы, затрагивая уже устоявшуюся архитектуру типовых технологических решений. В такие модели закладываются не просто потоковые данные, а технологические протоколы, регламенты, НИОКР, строй- и проектная документация и т. д. То есть форматы не совсем, чтобы, популярные для обучения моделей, но сумевшие найти своё неожиданное приложение и многократно переиспользуемые в реальном продакшене.
Такой подход показал и Норникель в своей первой модели MetalGPT-1. В неё были заложены не только сами данные, как таковые, но и фрагменты производственного мира: язык процессов, цепочек, ограничения и риски. Понятие данные многократно расширилось и сформировалось уже в парадигме не только вычисления в блоке, но и связей между блоками. Появляется новый подход: не “адаптируем GPT под домен”, а строим ИИ вокруг индустриального мира, как первичного источника данных. Как сообщается, дальше пойдут модели для химтеха, логистики, энергетики, строительства. У каждой отрасли – собственный язык, датасет и реальность: domain-first LLM перестают быть экспериментом, они становятся инфраструктурой для целых индустрий.
Примерно подобный подход применил и Китай в рамках проектов Нанкинского университета, создав первую в своём роде открытую, большую языковую модель для агросектора Sinong. Модель, так же как и в рамках проекта Норникель, была обучена с нуля на гигантском структурированном массиве отраслевых данных: 9 тыс. книг о сельском хозяйстве, 240 тыс. научных статей и 20 тыс. нормативных документов от генетики растений и ветеринарии до аграрной экономики и умных ферм. Эта модель, помимо всего прочего, оценивает не только “техническую” но и “экономическую” части для создания новой высококонкурентной математической модели влияния на глобальные рынки.
Отсюда встаёт вопрос: можно ли сформировать датасет трансформации данных? То есть, раз мы можем переиспользовать данные, можно ли построить производный набор, который будет оперировать уже не потоковыми данными, а начальными и правилами трансформации. Такой подход позволит повысить качество моделей, снизить операционную нагрузку, понять, как формировать “правильные” синтетические данные, а также автоматизировать процессы и сформировать новые пайплайны по передаче.
Примерные кейсы уже широко используются в реальном секторе, например, выполняется аугментация изображений, токенизация, лемматизация и т. д., но это всё на базовом уровне, теперь настал черёд новой ветки в иерархии трансформации данных: получать несколько датасетов, причём разнородных, находить аналогии в их формировании и строить стратегии “перетекания” данных в данные. Здесь на первый план и выходят маломерные данные, вероятно, что они и будут генерировать “поворотные” точки в морфинге исходных структур, а также будут служить источником новых решений.
Такой подход позволит более плавно и точечно продвигаться по пути совершенствования систем в более “реальном” ключе, и не столько в модельном, сколько больше в физическом плане. Так, кейсы о стабилизации систем высокоскоростных поездов в Японии - Синкансэн и Китае – Gaotie, Dongche и Маглев поставили проблему: о достижении высоких скоростей составов в устойчивом режиме. Было замечено, что уже нельзя обойтись только человеческим фактором и требуется решение многокритериальной задачи об обеспечении стабилизации состава на всём пути следования. Использование систем ИИ позволило решить поставленную задачу в очень широком интервале скоростей, при этом, учитывая следующие параметры: 1. Нелинейность и сложность маглев-систем; 2. Методы идентификации параметров; 3. Адаптация контроллеров; 4. Результаты моделирования.
Исходя из этого, можно предположить, что системы стабилизации параметров для более сложных и продвинутых систем все больше будут требовать применения систем ИИ с выработкой специфического языка по каждой отрасли в отдельности. При этом мы будем идти к минимизации вносимой, на стадии моделирования, технологической и инструментальных ошибок, а следовательно, влияние маломерных данных будет только усиливаться.
Из этого, на мой взгляд следует принять во внимание несколько важных факторов:
- Во-первых: “самостоятельные” данные уже рассматриваются, как неполная картина при построении систем машинного обучения в рамках индустрии и требуется более глубокое погружение во внутренние процессы и связи, для всестороннего охвата решаемой проблемы. Как я писал в своём блоге: “произошёл важный сдвиг в философии самого программирования, отныне программист не только тот, кто пишет код на программном языке, но и тот, кто пишет документацию, то есть документация официально вошла в один ряд с машинным кодом. Что из этого следует, а то, что мы получили новый инструмент для анализа сетей. Теперь по структуре документации можно решить обратную задачу: не код написать по документам, а по документам понять архитектуру построения кода… . Если знаем философию написанного кода, можем понять, как он будет эволюционировать и спрогнозировать его ветки. Код уже не так важен, важна эволюция кода.”;
- Во-вторых: идёт становление стилей работы по разным правлениям уже в рамках целых индустрий и для оценки кросс-пересечений между ними, с позиции более полного взаимодействия и получения инновационных выигрышных решений. Из этого следует, что время на создание и проведение экспериментов для многих отраслей сократиться ещё больше: в десятки или сотни раз, а эффекты будут куда значительнее. На мой взгляд, сильнее всего пойдёт прогресс в био-, фарм-, и хим-технологиях. Например, архитектуры для построения теплиц, структуры грамотного задействования сельхозтехники и технологий повышения урожайности. Подобные кейсы уже активно рассматривались, например, в рамках вот этой работы: A TinyML Reinforcement Learning Approach for Energy-Efficient Light Control in Low-Cost Greenhouse Systems. В этой работе рассматривались возможности применения агентных систем для повышения урожайности плодовых культур с позиции наличия освещённости. Мы же, в свою очередь, также рассматривали подобные кейсы, отражённые в работе “Цифровые культиваторы, теплицы и мотоблоки или мультиагентная трансформация АПК“, опубликованной на Хабр.ру. Там мы порассуждали на предмет цифровизации сельскохозяйственных процессов, посмотрели, какие инициативы уже реализуются, со стороны России уже в рамках целых стартапов, так и опыта других стран. При этом, мы оценили возможные экономические выигрыши в рамках разработанных программ и инициатив. Резюмируя рассмотренные технологические подходы, могу сказать, что ИИ-системы позволяют более точечно и таргетированно подойти к процессу работы по АПК-сектору и снизить риски как с экологической, так и ресурсной составляющих. При этом мы также уделяем внимание малым данным, как вопросу оптимизации среды;
- В-третьих: перекладывания стилей мышления и цепочек взаимосвязей с одной индустрии на другую, для извлечения новых паттернов в формирования, принципиально иной, структуры мысли и получения нового взгляда на устоявшиеся процессы и вещи. Такое уже не раз наблюдали и мы: в рамках хакатона нашей командой Финансового университета при Правительстве РФ было предложено использовать алгоритмы для высочастной торговли (HFT Trading) для анализа появления приступов эпилепсии у пациентов. Идея была такая: чем более чувствительные алгоритмы мы задействуем, тем раньше мы сможем предсказывать наступление приступа по малейшим отклонениям от нормы. Разработка велась на данных ЭЭГ, и мы получили точность по нашей модели в 94%. Опять же здесь не первый план вышли микрофлуктцации колебаний ЭЭГ, то есть маломерные данные, как ключевая точка в формировании физиологических процессов. По сумме таких поворотных точек можно судить о поведении всей системы в целом;
- В-четвёртых: оценка управления затратами и ресурсами для выявления проблемных областей по различным направлениям с позиции обоснованности применения и энергоэффективности. Данные кейсы также рассматривались нами для получения предиктивной оценки в рамках хакатона EKF AI Challenge на платформе CodenRock. Нам довелось с командой разбирать задачу о создании автоматизированной системы по формированию коммерческого предложения на основе электрических схем, созданных инженерами-электриками. Решение должно было уметь подбирать необходимые элементы (проводники, переключатели, защитные устройства, датчики и т. д.) из предоставленной номенклатурной базы. Решение полученной задачи было ориентировано для EKF (отечественный производитель электрооборудования и лидер цифровых решений). Также этот подход очень широко сейчас стал применяться и в инженерной практике для создания энергоэффективных устройств: платы, двигатели, крылья и фюзеляжей пассажирских лайнеров.;
Таким образом, мы видим отчётливый тренд на компоновку более плотноупакованных систем машинного обучения и сильного влияния маломерных данных, рассматривающих, не только решения в рамках своей индустрии, но и влияющих на смежные отрасли, с получением более сложного концептуального подхода.