big data : du rififi dans les métadonnées

renseignement, détection de fraude et surveillance

Pour parler du nouveau buzzword big data (voir l’excellent billet d’Henri Verdier sur le sujet), je n’ai pu m’empêcher de commencer ce texte en mentionnant les classes d’application les plus inquiétantes présentes dans ce domaine.

Les techniques en question sont utiles pour les experts du renseignement, les forces de l’ordre ou profilers divers de Las Vegas ou d'ailleurs, la détection de fraude et même … les fraudeurs.

Un monde que l’on croirait issu des scenarii de cinéma hollywoodien.

du datamining au big data

Mais ce n’est que la facette trop souvent exposée du phénomène, après les besoins en stockage immenses nécessaires à la prolifération et à la rétention de toutes ces données.

Celles-ci sont créées à un rythme toujours croissant au sein du Cloud, dans des formats tellement divers que les vieilles techniques de datamining (déjà parallèle à 100% dans les années 90), ne fonctionnent pas sans adaptation (le « data cleansing » représentait déjà l'étape indispensable avant tout calcul efficace, et constituait la partie la plus coûteuse de l’opération).

Aujourd’hui les données à accéder en temps-réel par les algorithmes sont distribuées, multi-formats ou sans format, et quelquefois dynamiques. Le problème est effectivement de taille.

vers l’utilisation efficace de ces données ?

Pour le consommateur lambda, toutefois utilisateur de ces techniques à son heure (bien que surtout objet de la sollicitude toujours plus présente des marketers) l’important est d’obtenir une réponse claire et exacte à sa requête, et ce quasi instantanément.

C’est sans doute là que réside le véritable défi, car nous sommes encore bien loin d’une interopérabilité totale et d'une approche sémantique et complète du Web, permettant aux algorithmes de comprendre n’importe quelle question, de trouver et de restituer la réponse en clair, si elle existe.

un espoir

Pour finir sur une note optimiste (et en pensant à l’apport de la notion d’analogie au monde de la physique) il est également possible, sinon probable, que ces technologies, appliquées à des données trop nombreuses et complexes pour être appréhendées par le seul esprit humain, génèrent quelques avancées dans des domaines tels que la neurologie en médecine et bien d’autres disciplines.

Cet aspect, sans être le plus simple, n’est il pas le plus motivant ?

Gilles

Gilles Deghilage

Passionné de physique, et spécialisé en simulation numérique, j’ai démarré mon expérience par des simulations de fluide turbulent 3D et de trajectographie spatiale. Pour comprendre les architectures nécessaires au calcul scientifique, toujours plus parallèles, j’ai rejoint des constructeurs aux Etats Unis et en Europe, et ai suivi les évolutions vers le Grid Computing puis le Cloud Computing. Expert technique et commercial des solutions du domaine, je me concentre aujourd’hui au « Business Development » Cloud en m’appuyant sur mon réseau dans l’écosystème IT.