Big data et cloud : ils s'aiment !

On dit que les hommes viennent de Mars et les femmes de Venus. Le cloud et le big data sont un peu pareils. Complètement dissemblables et pourtant difficilement dissociables.

Big data et cloud : ennemis jurés...

Le big data vient du monde scientifique qui confronté à un volume de données de plus en plus important et de plus en plus distribué a dû trouver des solutions optimisées de systèmes de fichier, de bases de données, d'ETL, de statistiques...et même d'infrastructures basées sur des clusters de machines physiques bien maîtrisées.
Pourtant à côté de ces problématiques de performance, la vraie finalité du big data est d'apporter de la valeur à l'entreprise que ce soit en connaissance client, en ciblage marketing ou en performance opérationnelle (détection d'intrusion...).
Le cloud s'appuie au contraire sur la virtualisation progressive de tout l'IT, des machines jusqu'aux applications, afin d'en faciliter le management, la flexibilité ou l'externalisation. Même si beaucoup s'en défendent, la finalité du cloud est quand même principalement économique et axée sur la réduction des coûts.
Bref, deux approches, l'une orientée performance et valeur, l'autre orientée standardisation et maitrise des coût, diamétralement opposées....mais pas forcément irréconciliables.

Big data et cloud : même combat...

Il paraît que les problèmes rassemblent. Ca tombe bien, car le big data et le cloud en partagent quelques uns....

Tout d'abord, la répartition et l'hétérogénéité des données qui comme les traitements informatiques du cloud ont largement quitté le strict giron des bases de données de l'entreprise : dans les frontaux web, chez les prestataires de service, dans des apis, sur les forums d'Internet, chez des éditeurs saas...

Deuxièmement les compétences : avoir un outil de construction d'une infrastructure virtuelle, ou avoir un outil de datamining, c'est bien. Mais encore faut il avoir les compétences pour les configurer, les tuner, les déployer et interpréter les résultats. Pour le cloud le challenge est grand. Pour le big data, le challenge est immense.

Enfin, la flexibilité : hormis pour certains acteurs spécialisés dans l'analyse de données, l'utilisation du big data pour une entreprise est très irrégulière dans le temps. Concentrée sur les phases d'analyse de données, ou lors de requêtes complexes sur des bases de données immenses. Mais sous utilisée par ailleurs.

Big data et cloud : c'est quand même mieux à 2 !

Avec le cloud, les données stratégiques de l'entreprise vont progressivement migrer dans le cloud, qu'il soit privé, privé virtuel raccordé au LAN de l'entreprise, ou complètement public. Pour être efficaces, les traitements big data liés à ces données vont donc devoir naturellement basculer dans le cloud.

Réciproquement, le big data peut apporter une valeur supplémentaire à  un projet de migration dans le cloud, ou à tout le moins, lever un frein : ce n'est pas parce que mes données sont dans le cloud que je dois abandonner l'idée de les valoriser. C'est même le contraire!

Aussi, même en l'absence de stratégie big data de votre entreprise, il est à mon avis intéressant de s'y préparer dès maintenant, par exemple en concentrant vos logs ou en stockant des données dont vous n'avez pas un besoin immédiat. Ensuite, créer une VM avec une distribution hadoop peut vous aider à faire vos premières armes...

les choses bougent

Un peu comme des phéromones semées pour attirer un partenaire, les technologies big data et cloud se rapprochent progressivement et gèrent leurs incompatibilités. Ainsi, le projet Serengeti de Vmware optimise la stack de virtualisation aux traitements big data. Réciproquement des distributions de hadoop optimisées pour Vsphere sortent .

Certains providers de cloud, comme Amazon ou Joyent, ont anticipé sur la technologie en proposant des premières offres de big data dans le cloud. Sûrement pas optimales en terme d'utilisation machine et d'architecture technique, mais qui leur permettent de valoriser encore plus leur infrastructure en faisant tourner des batchs big data pendant les périodes creuses. Pas bête...

Olivier Perrault

crédit photo : laurent hamels - Fotolia.com

Olivier Perrault
Véritable globe trotter au sein de Orange, je me suis tour à tour occupé d'équipes d'ingénieurs geek, de marketeurs et même de mathématiciens émérites sur des sujets aussi divers que la business intelligence, les services TV et musique, la Voix sur IP et même la télématique automobile (oui ça existe). C'est ça qui est cool chez Orange.
Ce que j'aime bien avec le cloud, c'est que tout est ouvert et disponible. Les frontières entre le savoir-faire des experts et la disponibilité pour tous, grands groupes ou simples individus, tombent rapidement. Avec cette participation au blog, j'espère accélérer le mouvement à ma façon.