Видеосервис Megogo запустит робота-антиматерщинника
Он будет выявлять в сериалах и фильмах мат, сцены курения, распития алкоголя, а также секса и насилияMegogo нашел способ для быстрого распознавания запрещенного законом контента, рассказал «Ведомостям» гендиректор этого видеосервиса Виктор Чеканов. В течение месяца компания запустит программу-робота. В основе робота – многозадачная нейронная сеть. Она, как уточнил Чеканов, будет распознавать четыре группы нецензурных слов из списка Роскомнадзора и производные от них, а также сцены курения, употребления алкоголя, секс, а в перспективе – сцены насилия.
Задача робота – проанализировать библиотеку Megogo, которая сегодня состоит из 35 000 тайтлов и более чем 700 000 единиц контента (учитываются в том числе все эпизоды сериалов, доступных на видеосервисе), говорит Чеканов: «Запуск робота – превентивная мера, цель – выявить контент с матом и указанными сценами, чтобы устранить возможные нарушения: запикать или проставить маркировку «18+».
11 ноября Роскомнадзор составил в отношении Megogo административный протокол за несвоевременное устранение нарушений – мат и секс в фильме «Никто не знает про секс», который имел на видеосервисе маркировку «16+» вместо «18+». Этот фильм вышел в прокат в 2006 г., и тогда ему была присвоена возрастная маркировка «16+».
Но, как позже разъяснило ведомство, с 1 сентября 2012 г. вступил в силу федеральный закон «О защите детей от информации, причиняющей вред их здоровью и развитию». И согласно ему, классификация информационной продукции должна осуществляться ее производителями и распространителями самостоятельно. Соответственно, видеосервисы должны самостоятельно определять и при необходимости менять маркировку, если контент не соответствует предусмотренной действующим законодательством возрастной маркировке, отмечали в ведомстве (цитата по ТАСС).
К четырем запрещенным Роскомнадзором группам слов, в частности, относятся нецензурное обозначение мужского полового органа (слово на букву «х»), нецензурное обозначение женского полового органа (слово на букву «п»), нецензурное обозначение процесса совокупления (слово на букву «е») и нецензурное обозначение женщины распутного поведения (слово на букву «б»). К этому списку Megogo добавил еще два слова, оба они начинаются с буквы «м». Первое – чудак на букву «м», второе тоже начинается с этой буквы и является вульгарным обозначением женского полового органа. За использование последнего слова в апреле 2018 г. Роскомнадзор, ссылаясь на мнение доктора филологических наук, заслуженного деятеля науки РФ Иосифа Стернина, составил в отношении интернет-издания Znak.com протокол об административном нарушении, сообщало тогда само издание.
Многозадачная нейронная сеть базируется на двух существующих решениях. Первое – Vosk, автономный инструмент для распознавания речи с открытым исходным кодом. С применением принципов машинного обучения этот инструмент дорабатывается, уже и сейчас распознает нецензурную брань, но иногда идентифицирует как мат и части слов, говорит Чеканов. К примеру, к таковым, по его словам, робот пока может отнести словосочетание «не психуй». Второе решение – система визуального распознавания на основе нейросети. Здесь одна из самых сложных задач, как отмечает гендиректор Megogo, обучить робота распознавать сцены насилия: «Даже человеку иногда сложно определить степень допустимой на экране жестокости».
Через год робот сможет самостоятельно идентифицировать запрещенный к распространению контент, но пока участие человека в процессе необходимо, резюмирует Чеканов: «Нейросеть сейчас обучают тестировщики. Кроме того, в процессе участвуют и редакторы. Робот находит в аудиовизуальном контенте сцены, к примеру, с матом и проставляет таймкоды, а они проверяют, правильно ли робот идентифицировал слова, и, если это действительно мат, запикивают. Либо проставляют маркировку «18+», если это сцены, к примеру, с сексом. Если технология успешно себя покажет, мы предложим робота рынку».
С идентификацией мата у робота проблем возникнуть не должно: Vosk и другие аналогичные инструменты сейчас успешно справляются с задачей перевода устной речи в письменную и прописать, усовершенствовать программу на распознавание нецензурной брани – вопрос времени, говорит гендиректор Института исследований интернета Карен Казарян.
А вот со сценами секса и насилия, по мнению эксперта, могут возникнуть проблемы: «Технологические компании, Google (владелец YouTube) и Meta (владелец соцсети Facebook) и другие, сейчас модерируют на своих площадках такой контент. Но их роботы, как правило, обучены на распознавание картинки или видео по наличию в них обнаженных тел и половых органов. А в художественных фильмах в сценах секса половых органов, как правило, не показывают и актеры не всегда снимаются в них полностью обнаженными».
Со сценами насилия еще сложнее, действительно допустимую степень жестокости таких сцен не всегда может определить и сам человек, соглашается с Чекановым и Казарян, добавляя при этом, что для модерирования такого контента все равно понадобятся люди.