Как навести порядок в больших данных
И не допустить, чтобы озера данных превращались в болотаНедавно KPMG провела исследование, как крупнейшие мировые компании воспринимают технологии. Результаты оказались интересными: 67% руководителей признались, что последние три года игнорировали некоторые выводы, полученные на основе компьютерных моделей, потому что эти выводы противоречили их интуиции или опыту. Получается, что умом руководители компаний понимают ценность технологий, но сердцем боятся использовать полученные результаты.
Одно из ключевых препятствий – недоверие к данным, собранным в компании. Ведь руководитель не может полностью доверять выводам, сделанным на основе информации, в которой он не уверен. В проектах мы нередко сталкиваемся с тем, что компании более тщательно относятся к инвентаризации офисной мебели, чем к управлению информационными активами. Компаниям во всех отраслях не хватает метаданных о данных, т. е. сведений о том, какие полезные факты бизнеса содержатся в этих данных, каково качество данных, где они хранятся, как можно их использовать, какими открытыми данными их можно дополнить, чтобы повысить их ценность, как их объединить.
По оценкам Gartner, к 2022 г. 90% корпораций будут называть большие данные важнейшим активом предприятия. Мы сформулировали несколько основных принципов, которые помогут организациям привести этот важнейший актив в порядок.
1. Избавьтесь от неточных данных. На предприятии может стоять самое современное оборудование, данные с которого каждые 5 минут поступают в дорогостоящее информационное хранилище (озеро). Но для построения модели не хватает записей, которые сотрудники раз в неделю вносят в бумажный журнал учета. Это еще не самое страшное, потому что введенные вручную данные часто оказываются неточными или даже вовсе недостоверными. Возможное решение – там, где нельзя поставить датчик или автоматизировать процесс, нужно избавиться от человеческого фактора. Например, сотрудник делает фотографию данных на мобильном устройстве, а потом алгоритм анализирует эту фотографию и добавляет в базу.
Другая частая проблема – невозможность использования данных, собираемых оборудованием. Некоторые производители шифруют и накапливают информацию с проданных устройств самостоятельно, чтобы потом зарабатывать на дополнительных услугах анализа данных. Лучше всего при модернизации производства заранее поинтересоваться, кто будет владельцем данных, полученных с нового оборудования.
2. Не превращайте озеро данных в болото. Озеро данных предназначено для агрегирования больших объемов информации из множества источников. Но озера не должны превращаться в болота – завалы неоднородной и разрозненной информации. Имеет смысл изначально распределять данные по категориям, следить, чтобы информация об одном и том же процессе из разных источников была непротиворечивой. Также следует критически оценить набор категорий данных, которые вы собираетесь хранить. Нужно с самого начала систематизировать данные так, чтобы потом можно было разобраться в накопленной информации.
Известно много поучительных историй о бесполезных болотах данных. Например, компания захотела реализовать функции аналитики на основе имевшегося хранилища данных и начала искать исполнителя, который помог бы построить математические модели. Но никто не взялся это сделать на имеющихся данных. И компании пришлось заказывать аудит возможности использования накопленной информации как таковой.
3. Следите за объективностью данных. Модели, построенные на больших данных, всегда чувствительны к качеству и актуальности входящей информации. Всегда могут появляться внешние факторы или дополнительные данные, из-за которых модель перестает отражать реальность.
Пример – проект создания системы управления городскими службами в Амстердаме, в котором участвовали наши коллеги из KPMG. Искусственный интеллект должен был анализировать жалобы жителей (на мусор, плохое дорожное покрытие и т. п.), автоматически распределять их по важности и перенаправлять в ответственные ведомства. На этапе тестирования модели оказалось, что жалобы на мусор и грязь чаще поступали из благополучных, а не бедных районов. Причина была в том, что алгоритмы назначали более высокую важность жалобам, написанным более грамотным языком. То есть модель работала предвзято.
4. Ищите новые способы использования данных. Для моделей, которые позволят оптимизировать отдельные участки производства, компаниям может быть достаточно внутренних данных. Для охвата всего бизнеса потребуется больше информации. Имеет смысл дополнять собственные данные сведениями из открытых источников или привлекать партнеров для обмена данными. Такая проактивная стратегия дает самый впечатляющий экономический эффект – и часто неожиданный. Например, один из ведущих мировых производителей красок и эксплуатационных покрытий – Akzo Nobel собрала данные о перемещении судов, чтобы определить, как вода с различными биологическими характеристиками влияет на устойчивость окраски кораблей. На основе этой информации компания разработала модель, которая предупреждает о необходимости обновления покрытия. Но Akzo Nobel смогла дополнительно монетизировать собранные данные, так как ими заинтересовались порты, ищущие способы защитить акваторию от чужеродной флоры и фауны.