Много данных — это сколько?

Ежедневно в мире появляется гигантское количество новых данных, но насколько все они важны и как компании определяют, что именно необходимо сохранить?

Объем данных растет в геометрической прогрессии. По оценкам компании Cisco, к 2020 году в мире будет накоплено до 40 секстибайт информации. Некоторая часть этих данных — неструктурированная голая телеметрия, которая только частично используется для анализа и имеет ограниченную ценность для использующих ее компаний. Но как определить, какая именно часть данных еще пригодится в будущем, а для какой срок хранения уже истек? Ведь суровый опыт показывает, что сбор и хранение данных — процесс дорогостоящий и не всегда эффективный.

Умный анализ

Раз за разом нам твердят, что данные являются ценным товаром, но сфера big data только выглядит доходной: без эффективного анализа информация не стоит ничего. Этот факт становится все более очевидным для технологии интернета вещей, которая охватывает все больше устройств, генерируя все больше новых данных.

Отбор данных для анализа подчас выглядит как работа на золотых приисках, где тяжелый рутинный труд может принести крупицы прибыли, а может не принести ничего. По большому счету тут главное — правильно понять, какие данные нужно собирать и хранить, а какие — отбрасывать и уничтожать. То есть у вас в штате должен быть инженер по обработке данных, а в его распоряжении должен быть соответствующий набор инструментов. Однако в мире остается достаточно много компаний, которые тратят больше денег на сбор информации, чем на ее анализ.

Бизнес понимает, что сбор и обработка big data имеет стратегическую ценность, но проблем от этого меньше не становится. Так, согласно исследованию Global Data and Analytics от PwC, 31% руководителей знают, что собираемая их компанией информация имеет низкую степень актуальности, а еще 25% признаются, что их командам не хватает навыков и опыта для полноценного использования получаемых данных.

Более того, 61% опрошенных руководителей согласились с тем, что им бы стоило в большей степени полагаться на результаты анализа данных, а не интуицию. Однако очевидно, что они не считают технологию big data особо важной для развития компании, что заметно снижает их конкурентоспособность на рынке.

В PwC отмечают, что во многих компаниях просто не понимают степени полезности получаемых ими данных, а в некоторых руководство не испытывает достаточной уверенности в необходимости переходить к более продвинутым принципам анализа. Согласно исследованию, в половине опрошенных компаний в процессе обработки данных используется описательный или диагностический подход. В более продвинутых компаниях используют алгоритмы опережающего анализа — например, это характерно для участников рынка электронной торговли биржевыми финансовыми инструментами.

Виртуальная среда

Все большую важность для извлечения максимальной пользы из полученных данных приобретает виртуальная среда — она позволяет объединить и визуализировать данные, полученные в разных форматах, по разным протоколам и от разных источников. Пользователи получают возможность быстро и эффективно обработать большой объем информации в рамках одного документа. Подобный подход помогает, например, быстро анализировать данные, выявлять тренды и корреляции.

Согласно отчету аналитической компании Gartner, к 2020 году порядка 35% компаний будут в той или иной мере использовать технологию виртуальной среды для обработки получаемых данных. «Виртуализация получаемых данных стала критически важной для компаний в условиях необходимости решать проблему с накоплением информации. Виртуализация позволяет упростить и сделать более гибким доступ специалистов к связанным данным, что стимулирует появление новых идей и инициатив», — отмечает Ноэль Юханна, старший аналитик компании Forrester.

Однако стоит помнить, что качество создаваемой виртуальной среды напрямую зависит от качества данных, которые она содержит. Это означает, что в распоряжении компании должны быть специалисты и инструменты, которые позволят отобрать необходимые данные и своевременно удалить бесполезные.

Умные данные

Возвращаясь к главному вопросу: много данных — это сколько? Суровая правда заключается в том, что в глобализованном мире новые данные поступают беспрерывно. И существует мнение, что чем больше данных получит компания, тем больше пользы она из нее извлечет. Однако, чтобы эту пользу получить, надо данные правильно проанализировать, то есть в компании должна постоянно идти работа по отбору и анализу данных; полезные данные нужно использовать при принятии дальнейших решений, а от бесполезных — своевременно избавляться.

Интернет вещей становится все более значимой частью экономики, так что полезно знать, как именно его развитие повлияет на вашу компанию. Подробности можно прочитать тут.

Jan Howells

Jan has been writing about technology for over 22 years for magazines and web sites, including ComputerActive, IQ magazine and Signum. She has been a business correspondent on ComputerWorld in Sydney and covered the channel for Ziff-Davis in New York.