Большие данные без иллюзий

Каких чудес не стоит ждать

У больших данных есть потенциал — это правда. Ошибка в том, что от них ждут слишком многого: золотых гор, быстрого результата, решения всех проблем. Достаточно собрать или купить данные, и бизнес наладится. Скептики напротив считают, что все проблемы решаются экселем, а вся эта шумиха скоро утихнет, надо только переждать.

Thumbnail

 

Правда как всегда где-то посередине. Сама по себе информация бесполезна, ее еще нужно структурировать, проанализировать и применить. Чудес не бывает, придется поработать. Постараемся разобраться, что могут большие данные, а что — нет.

Больше, чем просто данные

Начнем с определения: большие данные — это какие? Вопреки названию от традиционных систем они отличаются не размером, а способом организации информации.

Традиционные базы хранят данные по таблицам: персональные — в одном месте, платежные операции — в другом, годовые отчеты — еще где-то. Такая организация работает в угоду скорости, поэтому легко справляется с типовыми запросами.

Большие данные не структурированы, и они составляют по различным оценкам 80%. Фактически компании никак не используют свой потенциал. Даже если помнить о том, что не все данные представляют ценность, — и об этом желательно помнить еще на этапе сбора, — одна расшифровка записей из колл-центра может рассказать о репутации и лояльности.

Традиционная база Большие данные
Упорядочена Не структурированы
Отчеты, таблицы, транзакции, персональные данные Тексты, видео, аудио, изображения, интернет вещей, датчики
Решает простые, регулярные задачи с короткими запросами Решают сложные задачи с тяжелыми запросами
Для масштабирования придется переписывать базу Масштабируется заменой железа или переходом в облако

    
    
    
    
    

 

 

Успех с большими данными — за пределами вашей зоны комфорта

Развитие больших данных происходит на наших глазах. Если в 2013 году заголовки вроде «Big Data: Big Hype?» были актуальны, то сейчас вопрос только в том, насколько конкретная компания научится эффективно использовать большие данные и как быстро.

Когда говорят о больших данных, подразумевают сбор и обработку информации, аналитику и алгоритмы. На уровне бизнес-процессов компании сталкиваются с тремя проблемами: технической, управленческой и структурной. Это подтверждает «Оракл», который относит плохую инфраструктуру и пассивность руководителей при работе с большими данными к главным ошибкам.

Техническая проблема. Мы специально в прошлом разделе уделили такое внимание различной архитектуре двух подходов. Традиционная база хорошо работает даже на устаревшем железе, зато плохо масштабируется.

У больших данных горизонтальный порог масштабирования не ограничен, и ресурсов для решения математически сложных задач требуется больше. Каждый раз менять оборудование — неудобно и дорого. Оптимальный вариант для этого — облачные сервисы. В случае нехватки мощностей или свободного места, вы сможете увеличить его ползунком в интерфейсе, не дожидаясь двух недель, пока вам под заказ соберут новый сервер.

Управленческая проблема. Внедрение больших данных — вызов руководителю. В компании нужно организовать специальный отдел, найти толковых специалистов и научиться принимать решения на основе данных. Хоть все и говорят про дата-ориентированный подход, опрос 720 топ-менеджеров говорит о другом.

Чем сложнее решения, тем более важную роль играют эмоциональные факторы. Так 60% руководителей опираются на собственную интуицию вместо цифр и статистики.

Структурная проблема. В погоне за трендами компании забывают, для чего все это. Мало просто собрать «очень много данных», нужно еще знать, как их использовать для решения проблем бизнеса — а значит, прежде всего нужно эти проблемы выявить.

В Orange работу с большими данными начинают не с программ и железа, а с планирования. Наш консультант изучает бизнес клиента, помогает определиться с целями и только потом начинается работа с аналитикой. Прочтите об этом подробнее в нашем практическом руководстве по использованию больших данных.

Специалисты извлекают и экстраполируют данные, получая значимые результаты на основе статистического анализа. Задача руководителя — довериться специалистам и подобрать лучшее для бизнеса решение.

Ошибки при анализе данных

Допустим, у вас — свой университет в США. Вы справедливо озабочены растущим кредитным пузырем на образование: общий долг составляет 1,3 трлн долларов, четверть должников опаздывает с платежами, а заканчивают учебу только 60%.

Большие данные могут повысить эффективность обучения. Вам не нужно знать, что нравится конкретному студенту, система просто ищет закономерности. Она анализирует, насколько хаотично студент выбирает курсы и сигнализирует преподавателям, когда стоит вмешаться.

Прогнозы работают отлично: можно получить тройку по профильному предмету, но плохая оценка по математике с 80% вероятностью говорит о будущих проблемах. Но что если правильного подбора курсов и успеха по базовым предметам не достаточно? Как оценивать влияние социального взаимодействия, лидерских качеств, количества вечеринок и симпатичных сверстников или сверстниц?

Кажется, что большие данные наконец-то дадут объективную картину, но нет. Неправильная методика сбора любых данных может исказить результат.

Thumbnail

Раньше было непонятно, кому и как сообщать о ямах на дороге. Власти Бостона сделали приложение «Стрит бамп», совмещающее технологии интернета вещей и больших данных. Включаете его перед поездкой, и оно само отправляет информацию о ямах.

В Бостоне власти запустили приложение «Стрит бамп», которое собирало информацию о ямах с помощью акселерометра. Оказалось, что в более богатых районах дороги стали делать чаще, потому что там чаще устанавливали приложение. Люди из бедных районов не видели смысла жаловаться на дороги.

Такой перекос происходит в 70-80% случаев, потому что данные интерпретируют в угоду своим желаниям. Способов много: подбор «удобного» интервала, «ошибка меткого стрелка», «ошибка выжившего».

Например, при освоении нового рынка руководствоваться опытом успешного стартапа и игнорировать десяток провалившихся. Если вы продаете автомобили, у вас есть статистика тех, кто приезжает к вам на ТО, но нет информации о тех, кто больше не приезжает или никогда не приезжал.

Чем больше данные — тем выше цена ошибки.

«Сделайте, чтобы можно было вести любой анализ, быстро, надежно и дешево»

Без экспериментов и затрат не обойтись. Например, «Хедхантер» недавно запустил систему рекомендаций, основанную на машинном обучении. Система обошлась им в два миллиона рублей без затрат на серверную инфраструктуру. За время тестового периода интерес к подобранным алгоритмом вакансиям вырос на 25%.

Более глобальные задачи потребуют еще больше вложений. Всероссийский союз страховщиков хочет управлять социальными и экономическими рисками страны. Сейчас государство хранит, но не систематизирует данные, что ведет к незапланированным расходам: только на крупные убытки от природных ЧС тратится более 100 млрд ₽. На проект страховщики потратят 1 млрд ₽.

Государство в обмен на данные получит рекомендации. Такие проекты — не редкость в мире: в Южной Корее система выявляет коррупцию, в Японии управляет автомобильным трафиком, в США предсказывает преступления в районах крупных городов.

Не всегда легко посчитать выгоду от внедрения больших данных. Со скоринговыми системами все понятно — снизились риски, прибыль выросла. Также с логистикой: быстрее отправляешь посылки и не допускаешь простоев — больше денег зарабатываешь.

А как просчитать выгоду от поисковых алгоритмов и последующих инноваций? Чтобы монетизировать поиск, «Яндекс» и «Гугл» потратили не один год, а «Яху» так и не удалось этого сделать, несмотря на фору.

Как зарабатывать на больших данных?

Для работы с большими данными требуется их сбор и хранение. После этого с неструктурированными данными начинается поэтапная работа:

  • выдвижение гипотезы,
  • разработка алгоритмов под каждую конкретную задачу,
  • проверка верности гипотезы на основании указанных моделей,
  • выдвижение следующей гипотезы.

Теперь на примере. У нас есть проблема «холодного старта». Зарегистрировавшийся в системе пользователь не знает, что ему нужно. Мы о нем тоже ничего не знаем. Решение: запуск рекомендаций на основе внешних данных из соцсетей и DMP (истории кликов, поисковых запросов в интернете и других данных о поведении пользователей). В результате такого подхода «Букмейту» удалось увеличить конверсию в платных пользователей в 1,7 раза.

Похожие товары, индивидуальные рекомендации по истории покупок, подбор спальни по фотографии — примеры работы больших данных по увеличению среднего чека. Американский ритейлер велосипедов и байков BikeBerry.com, предсказывая поведение пользователей, увеличил продажи на 133% при помощи индивидуальных предложений, активность на 200% и средний чек на 30%.

Вы можете предлагать свою экспертизу по подготовке детализированных отчетов, как это делает «Сбербанк». Кроме того, компания использует данные для внутренней оптимизации и улучшения кредитного скоринга для компаний. Сбербанк анализирует новости с упоминанием этих компаний и их тональность.

Прогнозы погоды — классический пример больших данных: спутники на орбите и станции на Земле обмениваются сигналами и в реальном времени обрабатываются ИИ. «Яндекс» проанализировал ошибки предыдущих прогнозов, по их словам, это позволило увеличить точность на 15-40%. Любая компания может воспользоваться их АПИ, если расскажет, зачем ей прогноз погоды.

Так, например, при росте температуры на несколько градусов, «Волмарт» поднимает цены на кондиционеры, а «Хофф» — цены на садовую мебель.

Гостиницы Red Roof Inn столкнулись со снижением потока туристов из-за погодных условий. Когда самолеты задерживались, компания посылала персонализированные предложения с данными ближайшей гостиницы.

***

Не нужно гнаться за трендами и необдуманно внедрять большие данные. Вот, что нужно, чтобы данные работали:

  • поставьте цель,
  • спланируйте реализацию,
  • интегрируйте данные в бизнес-модель,
  • подберите специалистов,
  • контролируйте процесс.
Orange logo
Команда Orange

We are a bunch of people sharing the latest news with our customers and users. We love to write about technologies that are changing our daily life for better. Have a question? Feel free to drop a line to one of us — yuliya.bibisheva@orange.com