[Expert] DIAS : quand la science est propulsée par le cloud computing

Pour le commun des mortels, le Big Data fait référence à des services grand public. Toutefois, en dehors des acteurs habituels du Web, d’autres moins médiatiques, réalisent de véritables prouesses sur le cloud. En premier lieu, la communauté scientifique qui collecte des masses considérables de données à traiter et analyser. L’objectif est d’en tirer des informations utiles aux entreprises, aux citoyens ou pour les propres besoins de la science. C’est précisément le rôle de la mission Copernicus et de la plateforme DIAS (Data and Information Access Services), qui traitent chaque année 10 Pétaoctets, soit 10 millions de Gigaoctets, de données. Comment donc héberger efficacement une telle masse de données ? Comment la sécuriser et la rendre disponible ?

Je vous explique dans cet article nos choix techniques pour la plateforme DIAS, mise en place dans le cadre du consortium Orange - Airbus Defence and Space. Vous pouvez revoir le webinaire du mardi 13 mars 2018 qui a eu lieu de 11h30 à 12h15 et que j’ai animé avec Anne Chanié, Business Developer pour la solution DIAS chez Airbus : « Data Intelligence : transformer les données en avantage concurrentiel ».

La sécurité des données : une tâche complexe et indispensable

DIAS est une plateforme développée dans un environnement cloud public. Son niveau de sécurité n’en est donc que plus important. Nous nous appuyons, bien entendu, sur les standards existants comme la norme de sécurité ISO 27001, que nous avons décidé de compléter par d’autres mécanismes, afin de renforcer notre dispositif.

En premier lieu, l’automatisation complète du provisionnement des machines, des middlewares et des softwares a pour but d’éviter les erreurs humaines. Des audits de configuration automatiques viennent vérifier qu’aucune faille n’a été involontairement générée par l’intervention d’un opérateur.
Nous avons également déployé des dispositifs de sécurité complémentaires, et notamment le durcissement. Pour des raisons de confidentialité, je ne pourrai pas décrire ce dispositif, pour lequel de nombreuses techniques existent. Je vais néanmoins le définir : il s’agit de règles d’ingénierie qui retraitent l’ensemble des briques logicielles afin d’augmenter leur niveau de sécurité. Concrètement, un maximum de fonctions inutiles sont désactivées, afin de limiter l’étendue possible de failles de sécurité et ainsi diminuer la surface d’attaque possible. Chacune de ces fonctions pouvant être source de faille, en réduire leur nombre permet en toute logique de minimiser les risques d’attaque. Enfin, la gestion des accès à la plateforme est également le sujet de toutes les attentions de nos ingénieurs : la mise en place d’un bastion permet de garder une trace de chaque opération, en conservant ainsi l’historique des opérations effectuées, et en alertant les gestionnaires de la plateforme de toute intrusion.

Héberger un flux de données de 10 Pétaoctets par an : le choix du CaaS et du Devops

Notre choix d’architecture s’est porté sur le CaaS. Par CaaS, il faut entendre « Container as a Service ». Cette solution a pour avantage de contenir les coûts tout en minimisant la complexité d’une plateforme gérant un tel volume de données. Parmi les solutions existantes, notre consortium a choisi Kubernetes. C’est un système Open Source dédié à l’automatisation du déploiement, à la montée en charge et à la gestion des applications conteneurisées. Kubernetes a été initié en 2014 dans le cadre d’un partenariat entre Google et la Linux Foundation.

Cette solution permet d’assurer l’élasticité et la résilience des applications (fonctions natives dans un environnement conteneurisé et orchestré par Kubernetes). Elle apporte également un net bénéfice pour le back-end, et notamment les bases de données.

Il y a quelque temps, Stéphan Acquatella avait détaillé l’avantage de DevOps dans le développement, hébergement et déploiement de containers, dans le cadre du projet Sosh, chez Orange. Nous avons suivi le même chemin et observé des bénéfices similaires, notamment dans le rapprochement des équipes de développement d’application et des équipes d’infrastructure. Autre avantage de DevOps, l’automatisation des déploiements (de l’infrastructure comme des applicatifs), que l’on appelle « continuous integration ». Ainsi nous automatisons les configurations logicielles et d’infrastructure qui sont ainsi centralisées, maîtrisées et « versionnées ».

Infrastructure as a Service : une solution ouverte et standard

Sur le plan du IaaS également, la plateforme DIAS est dotée de mécanismes très sophistiqués de stockage à priorisation de données : une donnée fraîche se verra dotée d'un temps d'accès inférieur à une autre donnée qui est peu consultée. Cela se réalise au travers d'une politique de gestion de la donnée de la plateforme DIAS.

Quant à la volumétrie, elle est impressionnante. La solution de stockage et réseau de DIAS pourra, en effet, dès 2018, ingérer 10 Pétaoctets de données. Il s'agit d'une volumétrie rare dans le domaine du cloud et qui est sans aucun doute amenée encore à croître significativement au fil des années.

Sur le plan technique, nous avons opté pour une solution de cloud OpenStack dans une logique automatisation / intégration et DevOps via l’usage d’API. Il était, en effet, important de choisir une solution basée sur des standards ouverts qui permette de faciliter la portabilité des applications métier du consortium Orange - Airbus Defence and Space.

L’ensemble de ces choix permet de mettre les données de Copernicus à disposition du plus grand nombre, au travers d’un dispositif cloud performant et sécurisé.

Pour aller plus loin

La valorisation des données, moteur de nouveaux business pour l’Europe

DIAS : croiser les données pour créer la valeur

Webinaire
Data Intelligence : transformer les données en avantage concurrentiel
Mardi 13 mars 2018 de 11h30 à 12h15

 
 Guillaume Nevicato
Guillaume Nevicato

Cloud Transformation Manager et Consultant senior au sein d’Orange Cloud for Business, j’anime une équipe d’experts qui accompagnent les entreprises dans leur migration vers le cloud. Cet accompagnement se fait au travers de Professional Services allant du conseil à la mise en place de la stratégie de migration vers le cloud.