Тонкая специализация или проблема малых данных

Новый тренд, по разработке систем машинного обучения для целых индустрий, когда идёт объединение множества, весьма разнородных данных, но присущих одному специальному домену, ставит своей целью вопросы понимания: кто будет оказывать наибольшее влияние на качество такой модели и кто будет драйвером из полученного состава данных ? Именно, на такую проблему и обращает внимание старший преподаватель кафедры “Искусственного интеллекта” Финансового университета при Правительстве РФ Миронов Владимир Олегович.

Здесь, на первый план выходит, принципиально иной пласт сознания и осмысления самого понятия “Данные”. Уже сейчас можно говорить о наследовании данных и их множественном переиспользовании в рамках полученных моделей. Теперь они формируются и переходят друг в друга не в рамках замкнутого датасета или потоковых/рутинных, а начинают образовывать иерархические структуры весьма сложного порядка следования. Эти структуры отражают трансформацию процессов для получения финального продукта и вскрывают его многовариационную составляющую в рамках целой индустрии.

Формирование такой иерархии/дерева позволяет понять всю производственную ветку: от получения исходного сырья до финального продукта, с представлением структуры/стиля мышления группы оперирующего персонала. Примечательно, что масштаб работ здесь, только набирает обороты и видоизменения, накладываемые данным подходом, идут достаточно сильно. Они, кардинальным образом влияют как на внешние, так и на внутренние процессы, затрагивая уже устоявшуюся архитектуру типовых технологических решений. В такие модели закладываются не просто потоковые данные, а технологические протоколы, регламенты, НИОКР, строй- и проектная документация и т. д. То есть форматы не совсем, чтобы, популярные для обучения моделей, но сумевшие найти своё неожиданное приложение и многократно переиспользуемые в реальном продакшене.

Такой подход показал и Норникель в своей первой модели MetalGPT-1. В неё были заложены не только сами данные, как таковые, но и фрагменты производственного мира: язык процессов, цепочек, ограничения и риски. Понятие данные многократно расширилось и сформировалось уже в парадигме не только вычисления в блоке, но и связей между блоками. Появляется новый подход: не “адаптируем GPT под домен”, а строим ИИ вокруг индустриального мира, как первичного источника данных. Как сообщается, дальше пойдут модели для химтеха, логистики, энергетики, строительства. У каждой отрасли – собственный язык, датасет и реальность: domain-first LLM перестают быть экспериментом, они становятся инфраструктурой для целых индустрий.

Примерно подобный подход применил и Китай в рамках проектов Нанкинского университета, создав первую в своём роде открытую, большую языковую модель для агросектора Sinong. Модель, так же как и в рамках проекта Норникель, была обучена с нуля на гигантском структурированном массиве отраслевых данных: 9 тыс. книг о сельском хозяйстве, 240 тыс. научных статей и 20 тыс. нормативных документов от генетики растений и ветеринарии до аграрной экономики и умных ферм. Эта модель, помимо всего прочего, оценивает не только “техническую” но и “экономическую” части для создания новой высококонкурентной математической модели влияния на глобальные рынки.

Отсюда встаёт вопрос: можно ли сформировать датасет трансформации данных? То есть, раз мы можем переиспользовать данные, можно ли построить производный набор, который будет оперировать уже не потоковыми данными, а начальными и правилами трансформации. Такой подход позволит повысить качество моделей, снизить операционную нагрузку, понять, как формировать “правильные” синтетические данные, а также автоматизировать процессы и сформировать новые пайплайны по передаче.

Примерные кейсы уже широко используются в реальном секторе, например, выполняется аугментация изображений, токенизация, лемматизация и т. д., но это всё на базовом уровне, теперь настал черёд новой ветки в иерархии трансформации данных: получать несколько датасетов, причём разнородных, находить аналогии в их формировании и строить стратегии “перетекания” данных в данные. Здесь на первый план и выходят маломерные данные, вероятно, что они и будут генерировать “поворотные” точки в морфинге исходных структур, а также будут служить источником новых решений.

Такой подход позволит более плавно и точечно продвигаться по пути совершенствования систем в более “реальном” ключе, и не столько в модельном, сколько больше в физическом плане. Так, кейсы о стабилизации систем высокоскоростных поездов в Японии - Синкансэн и Китае – Gaotie, Dongche и Маглев поставили проблему: о достижении высоких скоростей составов в устойчивом режиме. Было замечено, что уже нельзя обойтись только человеческим фактором и требуется решение многокритериальной задачи об обеспечении стабилизации состава на всём пути следования. Использование систем ИИ позволило решить поставленную задачу в очень широком интервале скоростей, при этом, учитывая следующие параметры: 1. Нелинейность и сложность маглев-систем; 2. Методы идентификации параметров; 3. Адаптация контроллеров; 4. Результаты моделирования.

Исходя из этого, можно предположить, что системы стабилизации параметров для более сложных и продвинутых систем все больше будут требовать применения систем ИИ с выработкой специфического языка по каждой отрасли в отдельности. При этом мы будем идти к минимизации вносимой, на стадии моделирования, технологической и инструментальных ошибок, а следовательно, влияние маломерных данных будет только усиливаться.

Из этого, на мой взгляд следует принять во внимание несколько важных факторов:

- Во-первых: “самостоятельные” данные уже рассматриваются, как неполная картина при построении систем машинного обучения в рамках индустрии и требуется более глубокое погружение во внутренние процессы и связи, для всестороннего охвата решаемой проблемы. Как я писал в своём блоге: “произошёл важный сдвиг в философии самого программирования, отныне программист не только тот, кто пишет код на программном языке, но и тот, кто пишет документацию, то есть документация официально вошла в один ряд с машинным кодом. Что из этого следует, а то, что мы получили новый инструмент для анализа сетей. Теперь по структуре документации можно решить обратную задачу: не код написать по документам, а по документам понять архитектуру построения кода… . Если знаем философию написанного кода, можем понять, как он будет эволюционировать и спрогнозировать его ветки. Код уже не так важен, важна эволюция кода.”;

- Во-вторых: идёт становление стилей работы по разным правлениям уже в рамках целых индустрий и для оценки кросс-пересечений между ними, с позиции более полного взаимодействия и получения инновационных выигрышных решений. Из этого следует, что время на создание и проведение экспериментов для многих отраслей сократиться ещё больше: в десятки или сотни раз, а эффекты будут куда значительнее. На мой взгляд, сильнее всего пойдёт прогресс в био-, фарм-, и хим-технологиях. Например, архитектуры для построения теплиц, структуры грамотного задействования сельхозтехники и технологий повышения урожайности. Подобные кейсы уже активно рассматривались, например, в рамках вот этой работы: A TinyML Reinforcement Learning Approach for Energy-Efficient Light Control in Low-Cost Greenhouse Systems. В этой работе рассматривались возможности применения агентных систем для повышения урожайности плодовых культур с позиции наличия освещённости. Мы же, в свою очередь, также рассматривали подобные кейсы, отражённые в работе “Цифровые культиваторы, теплицы и мотоблоки или мультиагентная трансформация АПК“, опубликованной на Хабр.ру. Там мы порассуждали на предмет цифровизации сельскохозяйственных процессов, посмотрели, какие инициативы уже реализуются, со стороны России уже в рамках целых стартапов, так и опыта других стран. При этом, мы оценили возможные экономические выигрыши в рамках разработанных программ и инициатив. Резюмируя рассмотренные технологические подходы, могу сказать, что ИИ-системы позволяют более точечно и таргетированно подойти к процессу работы по АПК-сектору и снизить риски как с экологической, так и ресурсной составляющих. При этом мы также уделяем внимание малым данным, как вопросу оптимизации среды;

- В-третьих: перекладывания стилей мышления и цепочек взаимосвязей с одной индустрии на другую, для извлечения новых паттернов в формирования, принципиально иной, структуры мысли и получения нового взгляда на устоявшиеся процессы и вещи. Такое уже не раз наблюдали и мы: в рамках хакатона нашей командой Финансового университета при Правительстве РФ было предложено использовать алгоритмы для высочастной торговли (HFT Trading) для анализа появления приступов эпилепсии у пациентов. Идея была такая: чем более чувствительные алгоритмы мы задействуем, тем раньше мы сможем предсказывать наступление приступа по малейшим отклонениям от нормы. Разработка велась на данных ЭЭГ, и мы получили точность по нашей модели в 94%. Опять же здесь не первый план вышли микрофлуктцации колебаний ЭЭГ, то есть маломерные данные, как ключевая точка в формировании физиологических процессов. По сумме таких поворотных точек можно судить о поведении всей системы в целом;

- В-четвёртых: оценка управления затратами и ресурсами для выявления проблемных областей по различным направлениям с позиции обоснованности применения и энергоэффективности. Данные кейсы также рассматривались нами для получения предиктивной оценки в рамках хакатона EKF AI Challenge на платформе CodenRock. Нам довелось с командой разбирать задачу о создании автоматизированной системы по формированию коммерческого предложения на основе электрических схем, созданных инженерами-электриками. Решение должно было уметь подбирать необходимые элементы (проводники, переключатели, защитные устройства, датчики и т. д.) из предоставленной номенклатурной базы. Решение полученной задачи было ориентировано для EKF (отечественный производитель электрооборудования и лидер цифровых решений). Также этот подход очень широко сейчас стал применяться и в инженерной практике для создания энергоэффективных устройств: платы, двигатели, крылья и фюзеляжей пассажирских лайнеров.;

Таким образом, мы видим отчётливый тренд на компоновку более плотноупакованных систем машинного обучения и сильного влияния маломерных данных, рассматривающих, не только решения в рамках своей индустрии, но и влияющих на смежные отрасли, с получением более сложного концептуального подхода.

Другие пресс-релизы