Минцифры предлагает создать госоператора больших данных
Его услуги будут платными для коммерческих пользователейГосударство будет предоставлять большие данные, накопленные министерствами и ведомствами, коммерческим разработчикам искусственного интеллекта (ИИ). Такое предложение содержится в предварительном варианте концепции доступа к государственным дата-сетам, представленной Минцифры на заседании рабочей группы АНО «Цифровая экономика» (копия документа есть у «Ведомостей»).
Предоставлять доступ к государственным большим данным будет специализированная госорганизация – в проекте концепции ее называют оператором государственных наборов данных. Она станет формировать дата-сеты на основании запросов разработчиков ИИ, осуществлять их анонимизацию и обезличивание, а также обеспечит создание и эксплуатацию инфраструктуры доступа к государственным наборам данных. Также госоператор будет решать, какие данные можно предоставлять тому или иному заказчику. Например, большими данными, имеющими ту или иную степень секретности, делиться будут с организациями, аккредитованными профильными ведомствами (например, ФСБ), следует из материалов Минцифры. Услуги оператора госнаборов данных будут платными для коммерческих пользователей, подчеркивается в них.
«Возможность создать единую фабрику данных делает государство уникальным оператором, который имеет в своем распоряжении практически неограниченное количество дата-сетов и их комбинаций. Такие базы представляют интерес для бизнеса, который выстраивает маркетинговые коммуникации и планы развития, опираясь на аналитику дата-сетов», – передал «Ведомостям» слова вице-премьера Дмитрий Чернышенко его представитель. «В концепции регулирования доступа разработчиков к наборам госданных фигурирует несколько типов дата-сетов. Они разделены по признаку конфиденциальности (дата-сеты ограниченного доступа и общедоступные), по принадлежности оператору, ведомственные, межведомственные, – объясняет замминистра цифрового развития, связи и массовых коммуникаций Олег Качанов. – Стоимость будет определяться исходя из их сложности и объема – это позволит избежать неэффективных расходов государства». Доступ к дата-сетам, содержащим общедоступную информацию, будет осуществляться на безвозмездной основе, обещает Качанов.
По состоянию на конец 2019 г. Boston Consulting Group оценивала объем российского рынка больших данных в 45 млрд руб. с темпом прироста 12% в течение последних пяти лет. Согласно подсчетам Ассоциации больших данных (АБД), объем рынка больших данных в России составляет 10–30 млрд руб. При этом, в соответствии с усредненными прогнозами российских и иностранных экспертов, к 2024 г. ожидается рост этого показателя в 10 раз до 300 млрд руб.
В большинстве опрошенных «Ведомостями» компаний, работающих с большими данными, включая «Сбер» и «Яндекс», комментировать инициативу Минцифры не стали. В МТС знакомы с ней, но будут готовы комментировать ее, когда в проекте появится конкретика, отмечает представитель компании Алексей Меркутов. «Идея организации доступа к государственным наборам данных для развития технологий ИИ и реализации проектов в области цифровой экономики правильная, – считает президент АБД Анна Серебряникова. – В связи со значительной сложностью формирования запросов на необходимые для разработок данные, трудностями с решением вопросов контроля доступа, имеющимися ограничениями режима охраны различных дата-сетов все более важную роль играют цифровые консорциумы или посредники. Во всем мире такие организации выступают доверенной стороной для всех участников процесса и берут на себя реализацию организационных и технических вопросов предоставления доступа к дата-сетам».
По словам председателя совета директоров Института развития информационного общества Юрия Хохлова, в мире есть несколько подходов к предоставлению доступа к государственным массивам данных: «США придерживаются децентрализованного доступа к таким данным, в том числе путем привлечения негосударственных операторов для обеспечения функционирования государственных систем, в Китае доступ, наоборот, жестко централизован, в ЕС же планируется развитие рынка в первую очередь промышленных данных путем создания компаний-посредников, которые будут обеспечивать безопасный доступ в том числе и к государственным большим данным. России нужно что-то из этого выбрать или сформировать свою национальную модель обеспечения доступа к государственным наборам данных». Одного оператора государственных наборов данных в России явно недостаточно – он самостоятельно не сможет гарантировать качество дата-сетов, формируемых из информационных систем многочисленных ведомств, считает Хохлов: «За качество данных должны отвечать те органы власти и местного самоуправления, где эти данные порождаются при выполнении государственных функций или предоставлении услуг».
С тем, что оператор, продающий большие данные госструктур, не должен быть государственным монополистом, согласен и руководитель проекта Content-Review Сергей Половников: «Помимо низкого качества работы это грозит утечками персональных данных и недостаточным уровнем их обезличивания – известно, что в госструктурах к вопросам сохранности данных граждан подходят, мягко скажем, формально».
«Предложенная Минцифры модель предусматривает наряду с государственным оператором возможность создания коммерческих операторов, что, по сути, формирует новый рынок обмена и разметки данных», – в свою очередь считает директор по направлению «Искусственный интеллект» АНО «Цифровая экономика» Алексей Сидорюк.
Пока схема создания оператора государственных дата-сетов выглядит следующим образом: государство создает супермассив данных, содержащий всю информацию обо всех, рассуждает управляющий партнер юридической компании «Иккерт и партнеры» Павел Иккерт: «Но заплатить за его создание или хотя бы поучаствовать финансово предлагается тем, чьими руками будет этот массив пополняться. Не очевидно, что у участников рынка будет желание платить за данные, которые, скорее всего, окажутся достаточно скудными – ведь, судя по предварительному описанию, доступ к данным для коммерческих структур будет существенно ограничен даже на платной основе».