Большие данные обезличиваются не до конца

Поставщики данных при их продаже часто оставляют там чувствительную информацию
Личности не стереть
Личности не стереть / PIXABAY

Быстро растущий рынок больших массивов данных (big data) предлагает весьма привлекательный ресурс для компаний, управляющих активами. Накапливаемые компаниями сведения о загрузках пользователем приложений, покупках по кредитным картам, участии в социальных сетях и получении рецептов по электронной почте могут стать для инвестора полезным инструментом. Однако аналитики ряда хедж-фондов утверждают, что поставщики, продающие такие массивы данных, далеко не всегда очищают данные от всевозможных конфиденциальных деталей, по которым можно идентифицировать личность пользователя.

«Продавцы уверяют, что персональная информация удаляется из массивов данных, но мы неоднократно находили там телефонные номера, почтовые индексы и т. п., – говорит Мэттью Гранейд, директор по маркетингу фонда Point72 Asset Management. – Это настолько распространенное явление, что нам приходится нанимать на полную ставку двух сотрудников, которые очищают данные от таких деталей».

Руководитель другого фонда отмечает, что даже в случае удаления персональных деталей из массивов данных иногда бывает совсем несложно восстановить эти детали. «Мы поразились, насколько просто было раскрыть анонимность данных, – говорит руководитель. – Мой аналитик справился с подобной задачей всего за полчаса».

Сложные алгоритмы, основанные на методе машинного обучения, позволяют инвестиционным менеджерам находить в огромных информационных массивах полезные для бизнеса сведения. По оценкам консалтинговой компании Tabb Group, в США суммарные годовые расходы на покупку информационных массивов в ближайшие пять лет удвоятся и достигнут $400 млн. Компания CB Insights зафиксировала в последнее время порядка 30 стартапов, работающих в этой области.

Рост массивов информации, выставляемой на продажу, в сочетании с наличием в ней конфиденциальных деталей вызывает в сообществе озабоченность. Роберт Шошински, заместитель директора подразделения защиты частной жизни в Федеральной торговой комиссии США, заявил, что эта проблема находится в поле зрения его ведомства. Он отказался уточнить, ведется ли какое-то конкретное расследование случаев злоупотребления конфиденциальной информацией, сославшись на политику комиссии. Представители Федеральной комиссии по ценным бумагам и биржам (SEC) отказались комментировать проблему.

Хедж-фонды, обращая внимание на проблему, подчеркивают, что в большинстве случаев поставщики массивов данных действуют добросовестно. Таммер Кэмел, генеральный директор компании Quandl, продающей данные, утверждает, что его компания с максимальной ответственностью подходит к задаче очистки агрегируемых данных от любых персональных деталей. «В этом вопросе никому не хочется допустить промашку», – уверяет Кэмел.

Менеджер одного из хедж-фондов говорит, что при возникновении юридического конфликта в связи с утечкой персональных данных судебная ответственность с большей вероятностью легла бы на его фонд, а не на поставщика данных. «Мы с невероятной осторожностью относимся к вопросам лицензирования и защиты частной информации, потому что при возникновении проблем истцы стараются получить компенсацию от тех, у кого есть деньги», – поясняет менеджер.

В США нет всеобъемлющего закона о защите частной информации пользователей. По словам Альберта Джидари, директора подразделения приватности Стэнфордского центра интернета и общества, в разных штатах, отраслях и даже отдельных компаниях могут существовать свои подходы к проблеме. В обществе же пока особой обеспокоенности не наблюдается. «Люди готовы пожертвовать частью своей приватности ради удобства», – констатирует Джидари.

Перевел Александр Силонов