Sorry, you need to enable JavaScript to visit this website.

Image CAPTCHA
Saisir les caractères affichés dans l'image.

Big data : du rififi dans les métadonnées

Big data : du rififi dans les métadonnées
2012-05-312013-02-11réflexionsfr
Les données sont créées à un rythme toujours croissant au sein du Cloud, dans des formats tellement divers que les vieilles techniques de datamining ne fonctionnent pas sans adaptation (le « data cleansing » représentait déjà dans les années 90 l'étape indispensable avant tout calcul...
Publié le 31 Mai 2012 par Gilles Deghilage dans réflexions
big data : du rififi dans les métadonnées

renseignement, détection de fraude et surveillance

Pour parler du nouveau buzzword big data (voir l’excellent billet d’Henri Verdier sur le sujet), je n’ai pu m’empêcher de commencer ce texte en mentionnant les classes d’application les plus inquiétantes présentes dans ce domaine.

Les techniques en question sont utiles pour les experts du renseignement, les forces de l’ordre ou profilers divers de Las Vegas ou d'ailleurs, la détection de fraude et même … les fraudeurs.

Un monde que l’on croirait issu des scenarii de cinéma hollywoodien.

du datamining au big data

Mais ce n’est que la facette trop souvent exposée du phénomène, après les besoins en stockage immenses nécessaires à la prolifération et à la rétention de toutes ces données.

Celles-ci sont créées à un rythme toujours croissant au sein du Cloud, dans des formats tellement divers que les vieilles techniques de datamining (déjà parallèle à 100% dans les années 90), ne fonctionnent pas sans adaptation (le « data cleansing » représentait déjà l'étape indispensable avant tout calcul efficace, et constituait la partie la plus coûteuse de l’opération).

Aujourd’hui les données à accéder en temps-réel par les algorithmes sont distribuées, multi-formats ou sans format, et quelquefois dynamiques. Le problème est effectivement de taille.

vers l’utilisation efficace de ces données ?

Pour le consommateur lambda, toutefois utilisateur de ces techniques à son heure (bien que surtout objet de la sollicitude toujours plus présente des marketers) l’important est d’obtenir une réponse claire et exacte à sa requête, et ce quasi instantanément.

C’est sans doute là que réside le véritable défi, car nous sommes encore bien loin d’une interopérabilité totale et d'une approche sémantique et complète du Web, permettant aux algorithmes de comprendre n’importe quelle question, de trouver et de restituer la réponse en clair, si elle existe.

un espoir

Pour finir sur une note optimiste (et en pensant à l’apport de la notion d’analogie au monde de la physique) il est également possible, sinon probable, que ces technologies, appliquées à des données trop nombreuses et complexes pour être appréhendées par le seul esprit humain, génèrent quelques avancées dans des domaines tels que la neurologie en médecine et bien d’autres disciplines.

Cet aspect, sans être le plus simple, n’est il pas le plus motivant ?

Gilles

crédit photo : © Henry Schmitt - Fotolia.com

Ajouter un commentaire

comments

  • Les adresses de pages web et de courriels sont transformées en liens automatiquement.
  • Les lignes et les paragraphes vont à la ligne automatiquement.
  • Tags HTML autorisés : <a> <em> <strong> <cite> <blockquote> <code> <ul> <ol> <li> <dl> <dt> <dd> <br>

Plain text

  • Aucune balise HTML autorisée.
  • Les adresses de pages web et de courriels sont transformées en liens automatiquement.
  • Les lignes et les paragraphes vont à la ligne automatiquement.

Email HTML

  • Les lignes et les paragraphes vont à la ligne automatiquement.
  • Les adresses de pages web et de courriels sont transformées en liens automatiquement.
Image CAPTCHA
Saisir les caractères affichés dans l'image.
Changer d'affichage