Провайдер решений в сфере управления данными CleverDATA (входит в группу компаний ЛАНИТ) реализовал проект обработки данных об интернет-покупках из онлайн-чеков ведущего российского оператора фискальных данных. Комплекс моделей машинного обучения, натренированных определять смысл текстовой информации в онлайн-чеке, позволили сформировать широкий пул выводов об аудитории интернет-пользователей.
С помощью математической обработки исходных данных извлекаются такие знания о потребителях, как наличие домашних животных, автомобиля определённой марки, детей определенного возраста, планов на отпуск и т.д. Впоследствии эта информация используется для улучшения сервисов онлайн-рекламы, коммуникаций с потребителями и клиентской аналитики.
Денис Афанасьев, генеральный директор CleverDATA: «Информация в онлайн-чеках очень вариативна и требует применения технологий Natural Language Processing – обработки естественного языка, области на стыке искусственного интеллекта и лингвистики. Для применения полученных знаний о потребителях в рекламе машине важно уметь не только находить семантически схожие фразы, но и научиться определять близкие или противоположные по смыслу тексты. Разработанный комплекс моделей машинного обучения позволяет анализировать большой поток онлайн-чеков и приводить полученные знания об аудитории в подходящий для рекламодателей формат. Реализованный подход применим для обработки различных текстовых данных, не только из онлайн-чеков, но и других информационных систем и сервисов, подключенных к нашей платформе 1DMC».
Для определения смысловой нагрузки содержания чека система моделей была предварительно натренирована на большом количестве текстов. Это позволило более точно понимать общий контекст для каждой категории покупок. Например, анализируя текст из двух чеков «автомобильный масляный насос Mazda» и «тетрадь в клетку с автомобилем Mazda», система определит, кто является владельцем автомобиля.
Обработка реализована на базе программного продукта CleverDATA – платформы 1DMC, предназначенной для организации работы с обезличенными аудиторными данными и применения их в онлайн-рекламе и клиентской аналитике.