Чем питается искусственный интеллект
Он не способен работать без больших данныхВ конце января традиционный деловой завтрак Сбербанка в Давосе посетил необычный гость – человекоподобный робот София. Она активно поддерживала разговор: темой завтрака Сбербанк назвал искусственный интеллект и его влияние на компании и экономику. «Вы доказали, что человек и робот могут вести значимый и продуктивный диалог», – отвечала София президенту Сбербанка Герману Грефу. На другую технологическую новинку – большие данные – Греф обратил внимание уже несколько лет назад, а в июле прошлого года пообещал не брать в банк юристов, которые не умеют работать с нейронными сетями. «В прошлом году 450 юристов, которые у нас готовили иски, были сокращены. У нас нейронная сетка готовит исковые заявления значительно лучше», – говорил глава Сбербанка. На первый взгляд может показаться, что речь идет о принципиально разных технологиях, но это впечатление обманчиво, равно как и большинство представлений о всемогуществе искусственного интеллекта. Опрошенные «Ведомостями» эксперты рассказали, как устроены эти технологии и почему нейросети пока решают только точечные задачи, хотя и очень популярны в прессе.
Шахматы и супермаркеты
«Некоторые думают, что можно буквально в подвале выращивать искусственный интеллект и чем дольше он растет, тем лучше работает», – разводит руками руководитель службы компьютерного зрения и технологий искусственного интеллекта «Яндекса» Александр Крайнов. Но на самом деле это набор методов машинного обучения и инструментов, позволяющих компьютеру решать задачи похожим образом на то, как это делает человек.
Ранний искусственный интеллект (ИИ) представлял собой набор правил, которые компьютер мог перебирать в поисках решения. В условиях нехватки данных такие системы применяются и поныне. Например, если ритейлер не обладает детальными данными о клиентах, он может формировать цены, отталкиваясь от правил – сезонности товара, цен конкурентов, расстояния между магазинами: это будет примером ИИ, рассказывает директор по разработке и внедрению ПО компании «Инфосистемы джет» Владимир Молодых. Но возможности такой системы будут ограничены заложенными правилами, и сбор дополнительных данных способен существенно повысить ее точность.
Так появились алгоритмы машинного обучения – подвид искусственного интеллекта. Компьютеры работают по алгоритмам, которые пишет человек, но если их писать слишком сложно, то можно дать компьютеру правильные и неправильные ответы, чтобы он сам написал алгоритм, который и решит задачу, объясняет руководитель лаборатории больших данных Фонда развития интернет-инициатив (ФРИИ) Анатолий Орлов.
В самом простом смысле это подбор параметров формулы, дающей правильный ответ на заданный вопрос, объясняет Крайнов из «Яндекса». Допустим, риэлтор хочет знать цену квартиры. Если отталкиваться лишь от площади и расстояния до метро, то вероятность ошибки велика, поскольку на самом деле факторов гораздо больше: этаж, наличие лифта, ремонт, парк поблизости. Рассчитать влияние каждого из них риэлтору не под силу, и тут возникает программист, вооруженный методами машинного обучения. Он задает алгоритму интересующие его признаки и примеры объявлений о продаже квартир. Алгоритм сам подбирает «вес» каждого из заданных параметров так, чтобы итоговая формула расчета учитывала их и с минимальной ошибкой определяла цену квартиры, объясняет Крайнов. А точность важна. Хотя отдельный человек вполне может ее не чувствовать, повышение даже на 1% существенно для низкомаржинального бизнеса, где прибыль не превышает нескольких процентов, указывает он.
Это самый популярный метод машинного обучения в мире и он применяется намного чаще раскрученных в прессе нейросетей, говорит Орлов. Его применяют и в поисковых алгоритмах «Яндекса», и в кредитном скоринге в банках, и, например, для создания решений целевого маркетинга. Так, X5 Retail Group осенью 2017 г. начала массово применять машинное обучение для создания индивидуальных предложений для участников программы лояльности «Перекрестка» и отметила, что подход сокращает затраты на коммуникацию с клиентом на 40%, а количество и ассортимент товаров в корзине покупателя повышает на 10–20%, рассказывает представитель ритейлера. Этот показатель может увеличиться в 1,5–2 раза, если отправлять маркетинговые сообщения в момент выбора товаров в магазине, добавляет он.
Что такое нейросеть
Хорошо, когда данные можно описать понятными для алгоритма параметрами, но это не всегда возможно. Например, как в случае с голосом, изображением и текстом. К ним применяют иные методы, которые называются искусственными нейронными сетями, указывает Крайнов. Обучившись на массиве предварительных данных, они обретают способность самостоятельно подбирать для себя признаки правильного ответа. Например, «посмотрев» на десятки тысяч картинок зданий, людей, природные ландшафты, нейросеть учится опознавать их на изображениях.
Происходит это так. Математические функции, получившие название нейронов, принимают информацию на вход, обрабатывают ее и передают дальше – другим нейронам или группам нейронов. Первые нейроны «смотрят» на фотоизображение и распознают лишь примитивные фигуры – наклоненные прямые, углы, рассказывает Орлов. Затем обработанная информация о примитивах поступает на вход следующего слоя нейронов, а затем еще одного, и еще одного, и так нейронная сеть делает последовательность выводов о том, что было ей показано на входе. Наклоненные прямые и углы на одном из следующих слоев превращаются в глаз, потом в лицо и в финале – в человека. Но нейронная сеть, будучи компьютерной программой, очевидно, не имеет никакого понятия о глазах, лицах и людях, для нее значительная часть признаков будет чем-то, что, в свою очередь, человек не сможет интерпретировать, объясняет Орлов.
Разработчикам предстоит объяснять ей их с помощью заранее известных пар изображений и правильных ответов. Изначально все нейроны заполняются случайными коэффициентами, и им поступает на вход первая картинка. Итог сперва неверный. Но за счет того, что у нейросети есть правильный ответ и алгоритм обучения умеет варьировать коэффициенты в нейронах (которые, как мы помним, являются не более чем математическими функциями), за счет многократной обратной связи на каждом из слоев нейросеть учится распознаванию, объясняет Орлов.
Видеть, слышать и читать
Сегодня существует несколько десятков нейросетей различной архитектуры. Они различаются по количеству и порядку слоев и взаимодействию нейронов, которые используются для разных задач. При анализе изображений используются так называемые сверточные нейросети: на каждом слое изображение уменьшается и в итоге последние слои видят его целиком, объясняет ведущий исследователь VisionLabs (распознавание образов) Сергей Миляев. В процессе обучения нейронная сеть с помощью подбора значений своих параметров пытается сформировать уникальное представление лица каждого человека, на которое не должны влиять ориентация его головы в пространстве, наличие или отсутствие бороды или макияжа, факторы освещения, возрастные изменения, указывает Миляев.
Для распознавания текста используются рекуррентные сети, способные возвращаться на предыдущий слой. Значение слова зависит от контекста, поясняет директор научно-исследовательского департамента «Центра речевых технологий» Кирилл Левин. Такие же сети преобразовывают речь в текст – они должны запоминать, какие звуки были распознаны раньше, чтобы сложить их в слова. Для распознавания речи нейросеть должна обучиться на сотне часов разных дикторов, чтобы учитывать варианты произнесения одних и тех же звуков разными людьми и в разных условиях. Звук разбивается на кусочки по 10–20 миллисекунд, для каждого из которых составляется гипотеза, что это может быть за звук. Чем дольше фрагмент распознаваемой записи, тем больше вероятность учесть не только связи между звуками в слове, но и грамматические связи в предложении, тематику и стиль речи.
А вот синтез речи проще, поскольку на вход подаются «идеальные» данные без помех. Хотя задача в целом похожа – нейросеть должна подобрать лучшие сочетания звуков (фонем) между собой, чтобы речь была плавной, рассказывает Левин. Похожим образом работает синтез музыкальных произведений: нейросеть обучается на примерах гармоничного звучания и различных стилях музыки, после чего может синтезировать мелодии в стиле Баха или Чайковского.
Для текстовой аналитики может использоваться несколько нейросетей, указывает заместитель директора по разработке технологий ABBYY Татьяна Даниэлян. Например, в огромном количестве документов нужно выявить контракты, которые могут повлечь риски для компании. Одна сеть будет извлекать из текстов сущности, другая – связи между ними, третья – находить взаимосвязи, которые будут определять, какие из них несут риски для компании. Эти нейросети могут работать последовательно или параллельно, результаты работы одной сети могут становиться входными данными для другой, чтобы улучшать результат обучения.
Практика распознавания
Нейросети могут применяться как для решения бизнес-задач, так и для развлекательных целей, и ярким примером тому служит популярное приложение для обработки фотографий с помощью художественных стилей Prisma. Сейчас разработчик Prisma – стартап Prisma Labs – предлагает свои наработки в области нейросетей и компьютерного зрения корпоративным клиентам, рассказывает его генеральный директор Алексей Моисеенков. Средняя стоимость годовой лицензии на использование технологий составляет $100 000. Например, технологию портретной сегментации, которая отделяет изображение человека от фона в режиме реального времени, использует бразильская компания, производящая оборудование биометрической идентификации для правительственных структур и банков. Компания планирует продавать по 10 000 устройств в год, и технология должна затронуть миллионы человек в Бразилии, предвкушает Моисеенков будущий спрос.
Идентификация пользователей с помощью нейросетей сегодня активно используется в банковской сфере – например, банк «Открытие» в декабре прошлого года запустил переводы через приложение с идентификацией по фотографии и ежемесячный оборот переводов увеличился примерно на четверть, рассказывает представитель банка. Хотя таким образом клиенты переводят небольшие суммы в пределах 5000 руб. А распознавание клиентов по фотографии при обращении за кредитами позволило рынку за два года предотвратить выдачу более 4,5 млрд руб. потенциально мошеннических кредитов, рассказывает генеральный директор бюро кредитных историй «Эквифакс» Олег Лагуткин. К сервису «Эквифакс FPS.Bio» на базе решения VisionLabs подключены несколько десятков банков, говорит представитель VisionLabs. Для выявления мошенников сервис использует фотографии из баз всех банков-участников, подчеркивает представитель банка «Хоум кредит», пользующийся решением VisionLabs.
Распознавание лиц применяется и в области безопасности. Благодаря решению Vocord (разработчик систем распознавания) на выставке Expo-2017 в Астане удалось за неделю поймать 12 человек, разыскивавшихся полицией, гордится техдиректор Vocord Алексей Кадейшвили. Совместное решение Vocord и стартапа Timebook (сервис учета рабочего времени) используется для контроля сотрудников в супермаркетах «Лента» и «М.видео», рассказывает основатель стартапа Павел Конозаков. Система сочетает идентификацию по магнитной карточке и по привязанному к ней изображению сотрудника. Специальное оборудование фотографирует его в начале и в конце смены и подтверждает, что карточку приложил именно тот сотрудник. По словам Конозакова, решение позволяет бороться с опозданиями, прогулами, преждевременным уходом сотрудников и тем самым экономить до 3% от фонда оплаты труда (ФОТ) ритейлеров. Внедрение системы стоит около 0,2% ФОТа. В случае с клининговыми и охранными службами экономия может составлять до 8%, добавляет он. По словам представителя «М.видео», система тестировалась в 50 магазинах сети с июля по декабрь прошлого года и позволила сократить расходы на оплату труда на 2%. В декабре прошлого года компания решила внедрить систему во всех 400 магазинах, рассказывает она. Представитель «Ленты» также отмечает эффект, но конкретных показателей не раскрывает.
Топливо для алгоритма
Одной из причин бурного развития нейросетей и машинного обучения Крайнов из «Яндекса» называет появление в свободном доступе огромного количества цифровых данных, доступных для обработки. Большие данные необходимы для обучения нейронных сетей – эту взаимосвязь можно сравнить с двигателем и топливом, предлагает аналогию представитель Сбербанка. Ежедневно банк обрабатывает более 15 млн транзакций, платежи и расчеты 30 млн активных пользователей «Сбербанк.Онлайн», многочасовые записи обращений в колл-центры, записи (логи) более 90 000 банкоматов по всей стране. Такие объемы не поддаются обработке традиционными методами, поэтому здесь и нужны технологии искусственного интеллекта и нейросетей, указывает представитель банка.
Рынок данных начал развиваться именно в интернете, где все данные изначально были цифровыми, но сейчас реальный взлет этого сектора завершился: интернет-данные собраны, и никто не собирается ими делиться, говорит Орлов из ФРИИ. Но в других отраслях (промышленность, предсказательное техобслуживание, медицина, налоговая и бухгалтерская сфера) данные еще оцифровываются, и именно в них Орлов прогнозирует прорывы. Например, 6 марта авиакомпания S7 сообщила, что разработала пилотную систему предиктивного техобслуживания для самолетов Airbus A319 и до конца года подключит к ней значительную часть парка. Система анализирует исторические данные по техобслуживанию и позволяет прогнозировать возможные дефекты каждого самолета заранее. Это должно снизить количество задержек вылетов по техническим причинам, отмечается в сообщении перевозчика.
Основной эффект от применения этих технологий состоит в том, что процессы становятся быстрее, качественнее и дешевле и клиент сразу замечает эти улучшения, резюмирует представитель Сбербанка.