Большие данные и облачные вычисления

В прошлый раз я написал о том, что мир людей необратимо изменился. Началась информационная эра человечества. В этот раз я хочу чуть подробнее остановиться на последствиях информационного взрыва — на самом феномене «больших данных» (“big data”) и  как с ним можно работать.

 

Что такое «большие данные»?

Проще всего начать объяснение с факта, приведённого в статье «Рост объема информации — реалии цифровой вселенной» из журнала «Технологии и средства связи». В ней говорится о том, что по прогнозам компании IDC к 2020 году совокупный объём данных, собранных человечеством, будет равен примерно 40 зеттабайтам.

«Чему равны 40 зеттабайт данных? Количество песчинок на всех пляжах Земли составляет 700 500 000 000 000 000 000 (или семь квинтильонов пять квадриллионов). 40 зеттабайт – это в 57 раз больше, чем количество песчинок на всех пляжах планеты. Если записать 40 зеттабайт данных на современные диски Blu-ray, общий вес дисков (без бумажной и пластиковой упаковки) будет равен весу 424 авианосцев».

Вот с такими объёмами нам придётся иметь дело в скором будущем. Для сравнения — в 2012 году данных было 2,8 зеттабайта.

В примере говорится именно о «больших данных», то есть этим термином в первую очередь называют огромные объёмы цифровой информации. Также зачастую можно столкнуться с тем, что под «большими данными» понимают технологии, алгоритмы и (или) технические решения для обработки большого объёма цифровой информации.

И как же отличить «большие данные» от обычного массива информации? Смотрите на 5 признаков:

Большой объём — то есть такое количество информации, которое невозможно хранить и обрабатывать классическими методами. С такими данными невозможно отделаться малой выборкой и экстраполяцией результатов на весь объём. Результаты прогноза будут заведомо сильно неточные ввиду сильной неоднородности данных.

Высокая скорость — как накопления информации, так и обработки. Сейчас все стремятся к обработке информации налету, а количество этой информации растёт, как по экспоненте.

Многообразие — наличие одновременно структурированной и неструктурированной разноформатной информации, в том числе принципиально не классифицируемой информации – «инфопомойки».

Достоверность — разделение данных на достоверные и недостоверные, машинные и произведённые человеком.

Ценность — «большие данные» должны приносить пользу компании и иметь определённую ценность.

 

Другой подход к работе с информацией

Данные, характеризуемые этими пятью признаками можно относить к «большим». Есть и ещё одно принципиальное отличие в работе с «большими данными» по сравнению с традиционным анализом. Необходимо поменять подход от понимания причинности того или иного явления на основе анализа в пользу корреляций и, в каком-то смысле, феноменологии. То есть, больше не стремиться при помощи данных найти ответ на вопрос «почему», но сфокусироваться на «что именно».

Таким образом, «большие данные» можно использовать для высокоточного прогнозирования чего-либо, основываясь на гигантской статистике и не вникая в глубинные причины явлений. Более того, при таких объёмах становятся не страшны ошибочные данные, их просто оказывается пренебрежимо мало. Например, переводчик Google был создан не вручную, а при помощи «больших данных». Разработчики взяли и просканировали весь интернет, собрали все тексты с их переводами, которые были в открытом доступе, и на основе накопленных миллиардов вариантов переводов слов, фраз и выражений получили лучший, на данный момент, машинный переводчик текстов. Конечно, при таком подходе попадались и ошибочные переводы, но вся сила подхода в объёме. Да, переводчик не совершенен, но это лучшее, что у нас есть в настоящее время.

 

Что нам нужно?

Для работы с такими объёмами данных нужны новые технологии. Это очевидно. Если у компании возникает необходимость обработать «большие данные», то с одной стороны можно просто нарастить имеющиеся мощности (вертикальный подход), то есть заменить существующее оборудование или доумощнить его. Однако, это тупиковый подход ввиду быстрого роста объёма данных. С другой стороны можно докупить ещё серверов и компьютеров и распределить нагрузку между ними (горизонтальный подход). Так можно создать высоконадёжную распределённую сеть с суммарной мощностью, превосходящей суперкомпьютеры. Хотя этот подход не универсален. Не у каждого, кто работает с «большими данными» есть возможность завести парк из десятков, сотен или даже более серверов.

Что же делать? Стоит посмотреть на облачные технологии, которые позволяют одновременно применить оба подхода. На самом деле, в настоящее время именно облачные решения наиболее полно соответствуют требованиям технологий обработки «больших данных». Облака легко масштабируются, могут управлять огромными системами хранения данных, могут перераспределять нагрузку географически и передавать данные на максимально доступных сейчас скоростях. В них можно создавать виртуальные суперкомпьютеры, которые при необходимости увеличивают свою мощность без перерыва в работе. Компании могут делать свои частные облака, могут покупать публичные ресурсы или строить гибриды.

 

Что такое «облако»?

Теперь давайте попробуем разобраться с тем, что же такое «облако» и «облачные вычисления».

По определению «Национального института стандартов и технологий» США облачные вычисления – это модель обеспечения повсеместного, удобного сетевого доступа «по запросу» к общему набору настраиваемых вычислительных ресурсов (это, например, сети, серверы, системы хранения данных, приложения и услуги), которые могут быть быстро предоставлены с минимальными усилиями или взаимодействием с поставщиком.

Если говорить совсем просто, то облако – это набор серверов и системы хранения данных, соединённых между собой специальной сетью связи и объединённых в единый «виртуальный сервер» при помощи специального программного обеспечения, так называемого, гипервизора. Несколько таких виртуальных «серверов» можно соединить между собой, и это тоже будет облако. И весь этот набор обладает следующими пятью характеристиками:

  • самообслуживание по требованию,
  • всевозможный доступ к комплексу по сети,
  • единая система управления и выделения ресурсов комплекса,
  • быстрота и гибкость в управлении,
  • учёт потребления ресурсов.

Базовая инфраструктура облака задаётся моделью IaaS (Инфраструктура как услуга). В этом случае клиенту предоставляются в пользование вычислительные мощности, оперативная память, дисковое хранилище и сетевые ресурсы. На этой основе можно построить облако по модели PaaS (Платформа как услуга). В таком случае клиенту предоставляются, как правило, услуги вплоть до установки, настройки и поддержки операционных систем на инфраструктуре клиента. И верхний уровень – модель SaaS (Программное обеспечение как услуга). Клиент покупает поддержку до уровня конкретных программных приложений.

Облака классифицируются как публичные, частные, корпоративные и гибридные («смесь» первых трёх вариантов).

 

В каких отраслях применяются?

По данным «Аналитического обзора рынка Big Data», подготовленного Московской Биржей совместно с аналитиками «IPOboard» в России технологии «больших данных» чаще всего применяются в банковском и телекоммуникационном бизнесе. Например, операторы сотовой связи при помощи этих технологий управляют лояльностью клиентов. Для этого они используют весь гигантский объём информации от десятков и сотен миллионов абонентов. Банки, в свою очередь, используют свою обширную клиентскую базу и информацию из социальных сетей, для формирования линейки продуктов, проведения маркетинговых акций, сегментации клиентов и предотвращения мошеннических действий.

Стоит сказать, что этими двумя отраслями бизнеса дело не ограничивается. Работники розничной торговли как онлайн, так и офлайн используют «большие данные» для увеличения продаж на основе анализа профилей клиентов и для оптимизации логистики. Очевидно, что и логистическим и транспортным компаниям, как таковым, это тоже очень интересно, особенно в России с её огромными просторами. «Большие данные» активно используются в нефтегазовой сфере и госсекторе.

Если обобщить, то в первую очередь технологии «больших данных» с применением облачных вычислений нужны крупный компаниям общероссийского масштаба с большим количеством офисов и клиентов, то есть десятками и сотнями миллионов источников данных.

 

Aleksey Krechetov

Aleksey is a Senior Product Manager at Orange Russia. He is focused on the Flexible Computing portfolio which is a core Cloud services pack. His background is built up with engineering, telecommunications and information technology and includes more than 11 years’ experience in the Telco industry. Aleksey has worked in management and delivery teams with Fortune 500 corporations on global multimillion-dollar projects to design and implement Telecom and IT services and portfolio aligned with business goals. Aleksey is a PhD in Physics and likes history and linguistics.