Охота за данными: почему бизнес хочет знать все про своих клиентов

Как прогноз погоды может повлиять на продажи супермаркета, а рельеф местности ‒ на доходы страховщика
iStock
iStock

Чем больше компания знает о своем покупателе, тем лучше может выполнить его запросы. Бизнесы тщательно собирают всю информацию, которую могут получить о клиентах, предлагают им заполнять анкеты, проводят опросы, запускают программы лояльности.

Принято выделять собственные данные бизнеса (First Party Data) и данные партнеров (Second party data), которые компания получает от других организаций при наличии договоренности о передаче такой информации. Например, сеть отелей может сотрудничать с авиакомпанией. Third party data ‒ данные сторонних сервисов, специализирующихся на сборе и продаже информации о пользователях, например исследователей, проводящих опросы потребителей.

Цена всезнания

Бизнес всегда стремится узнать о клиентах как можно больше, но процесс сбора и особенности использования информации могут привести к проблемам. Например, Uber в 2017 г. угодил в скандал после того, как была обнародована информация, что компания продолжает отслеживать перемещение пользователя какое-то время после завершения поездки. Uber отрицал этот факт, но работы лишились несколько менеджеров сервиса. Годом позже разразился еще более громкий скандал с британским стартапом Cambridge Analytica, который якобы собирал данные пользователей Facebook (принадлежит компании Meta, признанной экстремистской и запрещенной в России) при помощи развлекательных приложений и тестов, а затем использовал их для доставки контента, влияющего на решения людей, в том числе во время выборов президента США. Судебные разбирательства продолжались долго, и в декабре 2024 г. владеющая соцсетью компания согласилась выплатить австралийскому регулятору штраф в $31 млн за закрытие дела. 

Большинство правительств запрещают передавать третьим лицам какую-либо информацию о поведении клиентов, указывающую на конкретного человека. То есть передача информации вроде «Иван Иванов в три часа дня купил в магазине булочку с корицей» считается во многих странах серьезным преступлением. Но можно делиться данными вида «в день около ста мужчин в возрасте от 20 до 40 лет покупают булочки с корицей в определенном магазине». Процесс, при котором разные базы обезличенной информации накладываются друг на друга, называется обогащением данных.

По данным Grand View Research, объем мирового рынка решений для обогащения данных в 2023 г. оценивался в $2,37 млрд, и ожидается, что с 2024 по 2030 г. он будет увеличиваться в среднем на 10,1% в год. «Растущая зависимость бизнеса от принятия решений, основанных на данных, требует наличия высококачественных данных, что повышает спрос на решения для их обогащения», ‒ говорится в отчете компании.

По информации Grand View Research, в 2023 г. самую большую долю на мировом рынке обогащения данных занимали облачные решения ‒ около 56%. Популярность таких решений обусловлена тем, что они предлагают масштабируемые и эффективные средства управления постоянно растущим объемом данных. Кроме того, их использование облегчает соблюдение требований законов по работе с персональными данными и ускоряет доступ к ним, отмечают в Grand View Research.

В ходе исследования, проведенного Google и BCG, обнаружилось, что некоторые бренды, использующие сторонние данные для разработки маркетинговых стратегий, добились увеличения выручки в 2,9 раза и экономии средств в 1,5 раза. Правда, в исследованиях речь шла о комплексном эффекте от грамотного применения данных, а не об их обогащении как отдельном инструменте. Например, Netflix использует обогащенные данные для улучшения пользовательского опыта и разработки бизнес-стратегий. Компания сотрудничала с независимым поставщиком решений DataHub для создания платформы самообслуживания, которая оптимизирует управление данными.

Британская компания Precisely, специализирующаяся на решениях в области аналитики больших данных, приводит информацию о том, как используют эту технологию ее клиенты из страховой индустрии. Благодаря обогащению геопространственных данных страховщики имеют возможность намного лучше предсказать страховые случаи, которые могут произойти с конкретным объектом недвижимости. Например, дома, расположенные вблизи горючей растительности, подвергаются большему риску лесных пожаров, как и объекты недвижимости, расположенные вдоль естественных ветровых воронок. Расстояние между строениями, тип кровельного материала и расположение горючих материалов по отношению к строению могут существенно влиять на риск.

Обогащая существующие данные о недвижимости контекстуальными деталями, такими как материалы и качество изготовления, погодные условия, дорожное движение, статистика преступности и многое другое, страховщики могут составить подробную картину каждого объекта недвижимости и получить максимально точный профиль риска, утверждают в компании.

Разложить по полочкам

Ритейлеры относятся к числу наиболее активных пользователей решений по обогащению данных, так как от умения предсказывать поведение покупателей зависит их прибыльность. По словам Тиграна Саркисова, директора по управлению данными X5 Retail Group, компания использует все известные виды данных: структурированные, неструктурированные, синтетические, внешние и пр. ‒ для повышения качества принимаемых решений. Список новых источников данных пополняется каждый день. «Мы активно используем большое количество внешних данных, которые закупаем легально. Основные их поставщики: банкинг, исследовательские агентства, телеком и т. д.», ‒ говорит эксперт. В ритейле уже есть сложившиеся типы задач, где обогащение данных обычно приносит хорошие результаты, например выбор места для магазина, определение оптимального ассортимента, прогнозирование спроса на товар с учетом погоды и календаря событий, оптимизация часов работы магазина, рассуждает Саркисов.

Решения по обогащению данных применимы и в промышленности. Крупной российской компании в цветной металлургии было необходимо интегрировать собственные IT-решения в единую цифровую систему для оптимизации технологических процессов. С этой задачей компания обратилась к Softline Digital, входящую в группу компаний Softline.

Ранее все ИТ-решения использовались на предприятии разрозненно и ситуативно. Из-за этого замедлялся обмен актуальными данными и снижалась эффективность техпроцессов, доверие к решениям падало. Чтобы оптимизировать производство, все IT-решения перенесли в единый цифровой контур – на ИИ-платформу AiLine Softline Digital.

Это позволило отслеживать все показатели в одной программе, своевременно обновлять данные, повысить качество принимаемых решений и оптимизировать технологические процессы. В результате удалось увеличить объемы производства и снизить затраты на электроэнергию, утверждают в Softline.

В одном из российских банков на основе платформы ROBIN были автоматизированы процедуры ежегодной актуализации данных клиентов ‒юридических лиц. «Ежедневно наши программные роботы актуализировали данные по списку клиентов: искали по ним информацию на государственных ресурсах, проверяли ее в системе банка и в случае необходимости вносили корректировки», ‒ рассказал Иван Мельников, директор по развитию продуктов ROBIN компании SL Soft.

В том числе роботы проверяли информацию на ЕГРЮЛ: скачивали выписку и извлекали из нее данные (реквизиты, уставной капитал, цепочки бенефициаров), в вестнике государственной регистрации уточняли информацию о статусе ликвидации юридического лица. В едином государственном источнике банкротства роботы сверяли информацию о наличии процесса банкротства в отношении юридического лица. Также автоматически проверялась на валидность электронная подпись найденных документов.

«Другими способами (интеграциями, доработками систем и др.) банк не смог бы решить задачу: слишком много внешних ресурсов, на которых нужно было производить поиск, и все они не имеют внешнего API», ‒ говорит Мельников.

Одна из сложностей при работе с данными ‒ поиск информации в неструктурированных источниках. «Для нашего клиента мы решили задачу проверки контрагентов, с которыми заключаются договора. Необходимо было извлечь из договора реквизиты контрагента и подписантов и проверить информацию в открытых источниках», ‒ говорит Мельников. Эта задача была реализована при помощи модулей искусственного интеллекта. Вторая сложность ‒ при парсинге интернет-ресурсов компания может столкнуться с защитой от роботов и капчами, но эта проблема также решаема при помощи инструментов ИИ, рассуждает Мельников.

Озеро с данными

Классический подход к сбору и аналитике данных, предполагающий построение структурированных хранилищ и применяемый большинством компаний, не слишком эффективен в текущих реалиях, уверен Николай Иванов, руководитель по развитию бизнеса департамента базовых технологий «Т-Банка». Первоисточники данных, будь то датчики на производственном оборудовании, в зданиях и городской среде или IT-системы, могут давать самую подробную информацию о происходящем, но все эти данные имеют разное наполнение и плохо интегрируемы.

«Мы принципиально работаем по-другому: мы создали решение Sage Observability, являющееся озером операционных данных (большой репозиторий «сырых» данных, которые затем используются для задач бизнеса. ‒ «Ведомости. Инновации и технологии») с мощным движком поиска и преобразования информации», ‒ рассказывает Мельников. Информация хранится длительное время, чтобы иметь возможность найти ответ на любые, даже внезапно возникшие вопросы. Система позволяет объединять данные, поступившие из самых разных систем, и анализировать их, выявлять закономерности и корреляции.

«Т Банк», в частности, мониторит социальные сети, профильные форумы, сервисы, сообщающие об инфраструктурных сбоях, например Downdetector для выявления отзывов о работе сервисов банка. При этом в большинстве случаев получается восстановить всю цепочку событий ‒ от действий клиента в сервисах банка до написания отзыва. Это позволяет максимально быстро отреагировать и решить проблему. В итоге число обращений в контактный центр уменьшается, растут метрики лояльности клиентов.

«Также мы обмениваемся обезличенными данными, например, с нашими партнерами-ретейлерами о покупках клиентов в магазинах. На их основе в дальнейшем строятся прогнозные модели», ‒ добавляет Мельников.

«Самые ценные внутренние данные ‒ транзакции и история взаимодействия с клиентом. Внешние данные ‒ это, конечно, бюро кредитных историй, также ценными являются данные операторов сотовой связи или геоданные», ‒ говорит Алексей Каширин, директор центра продвинутой аналитики «Альфа-Банка»

Чем больше данных об окружающем мире и своих клиентах собирает бизнес, тем больше возможностей открывается. Как показал опрос, проведенный американской бизнес-школой Drexel LeBow, 76% специалистов по работе с информацией называют своей целью в 2025 г. внедрение подхода, основанного на данных.