Sorry, you need to enable JavaScript to visit this website.

Image CAPTCHA
Saisir les caractères affichés dans l'image.

Big Data : clustering versus modeling

Big Data : clustering versus modeling
2014-09-302014-09-30transformation digitalefr
Dans le post sur la médicine comme art corrélatif, j’ai parlé de l’intérêt de chercher plus que des corrélations, pour débusquer des causalités. Dans la pratique le Big Data est un outil assez inadapté à cette démarche, voyons pourquoi !
Publié le 30 Septembre 2014 par Benjamin Sarda dans transformation digitale
Big Data : clustering versus modeling

Dans le post sur la médicine comme art corrélatif, j’ai parlé de l’intérêt de chercher plus que des corrélations, pour débusquer des causalités. Dans la pratique le Big Data est un outil assez inadapté à cette démarche, voyons pourquoi !

les machines ne rêvent pas (encore)


Pour trouver une causalité il faut se donner une mécanique interne, un modèle de fonctionnement. Evidement avoir beaucoup de données peut permettre d’avoir des intuitions. Mais pour passer d’une intuition à la capacité de modéliser, de prévoir, il faut prendre des hypothèses judicieuses sur la nature des phénomènes sur leur fonctionnement.

Big Data ou pas, il faut à ce stade de la pensée quelque chose comme du génie, qui à mon sens va défier l’intelligence artificielle encore quelques siècles. Et avec le génie : de la sympathie, de la proximité avec son sujet. A nouveau cela me semble une caractéristique humaine assez difficile à singer.

le clustering ou comment constituer des groupes homogène suivant un critère


Moins satisfaisant intellectuellement, mais plus adapté au Big Data : le clustering, c’est-à-dire la capacité de constituer des groupes homogène suivant un critère. Dans ce domaine, la promesse du Big Data en santé me semble remarquable.

Plutôt que de la théoriser prenons l’exemple d’une startup récemment primée au Concours Mondial de l’Innovation : CardioLogs.

CardioLogs travaille dans l’interprétation des ECG (électrocardiogramme), et l’originalité de leur démarche tient à la technologie utilisée :

  • L’algorithme de CardioLogs apprend à partir d’une énorme quantité d’ECG dont on connaît l’analyse, préalablement effectuée et numérisée par des équipes de cardiologues.
  • Il va fabriquer, sur la base de l’analyse de l’intégralité du signal de tous ces ECG et du diagnostic associé, des groupes (ou clusters) : les ECG 'normaux’, ceux qui présentent telle pathologie, etc.'.
  • Lorsqu’on lui présente un nouvel ECG, il sait dire à quelle classe il appartient ou s'il n'appartient à aucune classe.
  • Ensuite, l'algorithme est capable de livrer son interprétation à partir de la classe, c'est-à-dire émettre un diagnostic voire formuler des hypothèses sur l'état du patient qui devront être levées par examen complémentaire (prise de sang, échographie, etc).

Cet algorithme est particulièrement efficace car de plus en plus d'ECG sont numérisés et l'ECG est une technologie très mature, on ne découvre presque plus de nouvelles classes, les classes existantes font relativement consensus dans le milieu de la cardiologie et beaucoup de pathologies sont entièrement détectables à l'ECG.

Le clustering, la vraie promesse du Big Data en santé ?


Evidemment le dispositif précédemment cité ne marche que parce que CardioLogs a pu mobiliser d’énormes quantités d’ECG, et en réaliser le traitement.

C’est un bel exemple de Big Data puisqu’ils affichent 99% de spécificité sur plus d'une soixantaine de troubles de l'activité cardiovasculaire et visent la centaine pour leur étude clinique, en octobre prochain. Qui dit mieux ?

Benjamin.

 

crédit photo : © sudok1 - Fotolia.com
 

1 Commentaire

  • 8 Octobre 2014
    2014-10-08
    par
    Sécurité informatique
    Le big data a fait un grand pas vers la révolution actuellement. Mais à force de vulgariser l'utilisation du big data dans toutes les filières, les failles dans les systèmes d'informations deviennent de plus en plus présentes, et nombreuses. C'est pourquoi, tout le monde qui serait mener à adopter cette pratique, devrait en effet prendre compte que la question sécurité avant tout.

Ajouter un commentaire

comments

  • Les adresses de pages web et de courriels sont transformées en liens automatiquement.
  • Les lignes et les paragraphes vont à la ligne automatiquement.
  • Tags HTML autorisés : <a> <em> <strong> <cite> <blockquote> <code> <ul> <ol> <li> <dl> <dt> <dd> <br>

Plain text

  • Aucune balise HTML autorisée.
  • Les adresses de pages web et de courriels sont transformées en liens automatiquement.
  • Les lignes et les paragraphes vont à la ligne automatiquement.

Email HTML

  • Les lignes et les paragraphes vont à la ligne automatiquement.
  • Les adresses de pages web et de courriels sont transformées en liens automatiquement.
Image CAPTCHA
Saisir les caractères affichés dans l'image.
Changer d'affichage