В чем опасность предиктивной аналитики

Алгоритмы машинного обучения могут многое о нас узнать – в том числе самые важные и сокровенные вещи, которые мы бы предпочли никому не рассказывать
Варвара Гранкова
Варвара Гранкова

Алгоритмы могут, например, угадать вашу сексуальную ориентацию или предсказать, беременны ли вы, собираетесь ли увольняться и рискуете ли умереть в ближайшее время. Ученые могут установить расу человека по лайкам в Facebook, а власти Китая используют технологии распознавания лиц, чтобы вычислять и отслеживать представителей уйгурского этнического меньшинства.

Знают ли алгоритмы все это на самом деле или лишь выдвигают обоснованные предположения? И если они просто делают выводы, как мог бы их делать любой человек, то что плохого в том, что они такие сообразительные? Рассмотрим несколько примеров.

Состояние здоровья

Пожалуй, самый известный случай излишней догадливости алгоритма в США – это история о том, как сеть супермаркетов Target предсказывала беременность своих покупательниц. В 2012 г. в The New York Times написали о том, как компании работают с данными. В статью вошла в том числе история о том, как отец узнал о беременности своей дочери-подростка благодаря тому, что Target присылала ей купоны на товары для младенцев, как будто предугадав события. Вполне вероятно, что эта история выдумана, и, даже если такое действительно произошло, это, судя по описанию методов Target, приведенному в той же статье, было простым совпадением, а не результатом сложной предиктивной аналитики. Но так или иначе история все равно показывает пример угрозы приватности, ведь, если маркетинговое отделение компании догадывается о беременности клиента, значит, оно без согласия пользователя выяснило значимую медицинскую информацию, с которой обычно имеют право работать только специально обученные медицинские сотрудники.

Доступ к такой информации без должного контроля может иметь очень серьезные последствия в жизни человека. Например, как написал один из комментаторов в сети, представьте себе беременную женщину, «у которой сложная ситуация на работе и которая еще не получила государственную страховку по нетрудоспособности. Если о ее беременности станет известно, она рискует оплачивать из своего кармана роды и не получить выплаты по нетрудоспособности во время перерыва. Вдобавок она может потерять работу».

Заметьте, что в этом примере нет неправильной обработки, кражи или утечки данных – только создание новых данных: установление по косвенным показателям информации, которую люди не стали бы раскрывать добровольно. Эти конфиденциальные сведения можно получить из открытых, куда более безобидных данных – как будто из ниоткуда.

Вероятность увольнения

Неужели странным образом получается так, что проблемой может оказаться как раз слишком хорошая работа предиктивных моделей? Очевидно, что плохие модели – это плохо. Но неужели правильные прогнозы – это тоже плохо?

Даже если модель не слишком точна в целом, для определенной группы беременных ее предсказания все равно могут быть довольно точны. Например, предположим, что в любой момент беременны 2% женщин от 18 до 40 лет. Таким образом, если модель покажет, какие женщины беременны, с вероятностью втрое выше среднего, только 6% из них будут действительно беременны. Но если взять более узкую группу – например, верхние 0,1% по вероятности беременности, – эффективность поднимется уже значительно больше – скажем, в 46 раз, и в этой группе беременность будет вычисляться с вероятностью 92%. Система сможет определять беременность с очень высокой степенью точности.

То же касается определения ориентации, расы, состояния здоровья, места жительства или намерения уволиться. Даже с помощью не слишком точной модели можно делать уверенные предсказания об определенной ограниченной группе, потому что о некоторых людях сделать такие предсказания действительно легче. И как бы мала ни была их доля – например, 0,1%, – если в выборку входит 1 млн человек, 1000 из них можно будет уверенно вычислить.

Легко представить, почему люди не хотели бы, чтобы другие узнали о них определенные факты. Например, в 2013 г. компания Hewlett-Packard оценивала более 300 000 своих сотрудников по вероятности увольнения, а результаты оценки отправляла менеджерам. Если бы вы собирались увольняться, то ваш начальник был бы последним человеком, которому бы вы стали об этом сообщать, пока не получите новое предложение.

Смертность

Наконец, одна консалтинговая фирма разрабатывала модель текучести персонала для департамента персонала одной компании и обнаружила, что может в том числе предсказывать вероятность смерти сотрудников, ведь это один из вариантов текучести. HR-менеджеры попросили не показывать им эту часть модели: они не хотели брать на себя ответственность за информацию о том, какие сотрудники рискуют скоро умереть.

Исследования показали, что предиктивные модели умеют также выделять индивидуальные данные – например, расу и национальность – на основе, в частности, лайков в Facebook. Опасность заключается в том, как маркетологи будут использовать эту информацию. Профессор управления и технологий в Гарвардском университете Латания Суини описывает проблему так: «Онлайн-реклама – это всегда дискриминация, разделение людей на группы. Мы не хотим показывать молодым мамам рекламу удочек, а рыболовам – рекламу подгузников. Но в какой-то момент эта дискриминация перестает быть простым таргетированием и начинает приносить вред большой группе людей». Исследование, проведенное Суини, показало, что при поиске в Google имен, часто встречающихся у темнокожих, на 25% чаще появлялась реклама, из которой следовало, что у человека есть досье арестов, даже если в базе данных рекламодателя на самом деле вообще не было человека с таким именем.

«Если создать технологию, которая может разделять людей по расам, кто-нибудь обязательно использует ее для дискриминации», – говорит Клэр Гарви, старший научный сотрудник Центра приватности и технологий при факультете права Университета Джорджтауна.

Слежка

Еще один пример – технологии распознавания лиц, с помощью которых можно отслеживать местоположение человека. Это нарушает наше фундаментальное право на свободу передвижения и неприкосновенность частной жизни. Например, расположенные в общественных местах камеры безопасности всегда могут определить, где и когда мог находиться тот или иной человек. Я не хочу огульно ругать распознавание лиц, но эту технологию критикуют, например, CEO Microsoft и Google.

Власти Китая используют технологии распознавания лиц для поиска и слежения за уйгурами – этнической группой, которую правительство систематически притесняет. Это первый известный случай, когда правительство страны использует технологии машинного обучения для определения национальности людей. И делается это для того, чтобы учитывать полученную информацию как фактор в принятии дискриминирующих решений, т. е. решений, ориентированных в первую очередь на защищенный класс. В этом случае в зависимости от этнической принадлежности – после того как она выяснена – отношение и подход к представителям установленной группы меняются. Один китайский стартап, оцененный более чем в $1 млрд, заявил, что его программа может определять «группы людей, требующие особого отношения». Если в районе живет один уйгур, а в течение 20 дней там появляется еще шесть уйгуров, система немедленно оповестит об этом власти, говорится на сайте компании.

Дискриминация этнических групп с помощью предиктивных технологий – это новый уровень риска. Джонатан Фрэнкл, специалист по глубокому обучению из MIT, предупреждает, что такая перспектива существует не только в Китае: «Мне кажется, не будет преувеличением сказать, что это действительно угрожает самому существованию демократии. Если страна применяет какую-то модель в таком жестком авторитарном режиме, она начинает использовать данные для намного более глубокого контроля за мыслями и соблюдением правил. Мы вступаем в серьезнейший кризис и сами этого не замечаем».

Очень сложно провести грань, за которой цели предсказаний машинного обучения становятся неэтичными, и тем более грань, за которой их нужно законодательно ограничивать. Но по крайней мере нужно замечать, когда машинное обучение используется для подкрепления уже известной неэтичной практики или для получения данных, к которым нужно относиться с аккуратностью.

Об авторе: Эрик Сигель – ведущий консультант и бывший профессор Колумбийского университета. Занимается популяризацией технологий машинного обучения. Преподаватель по специальности «Машинное образование для всех» на Coursera, автор книг

Статья впервые опубликована в «Harvard Business Review Россия». Оригинал статьи здесь