Sorry, you need to enable JavaScript to visit this website.

Image CAPTCHA
Saisir les caractères affichés dans l'image.

Big Data et sondages : un projet pour analyser la société

Big Data et sondages : un projet pour analyser la société
2017-02-202017-03-06actualitésfr
En cette période électorale, l’attention des médias et des électeurs se porte particulièrement sur les sondages d’opinion. Pourtant, ce type d’étude n’est que la partie émergée d’un travail bien plus vaste réalisé par les entreprises de sondages. Décryptage d'un tel projet par OpinionWay
Publié le 20 Février 2017 par Yann Gourvennec dans actualités
Big Data et sondages : un projet pour analyser la société

En cette période électorale, l’attention des médias et des électeurs se porte particulièrement sur les sondages d’opinion. Donnant les dernières tendances de l’opinion publique sur les politiques, ils occupent une place centrale dans la stratégie des candidats, le traitement de l’information par les médias et même le choix de vote des électeurs. Pourtant, ce type d’étude n’est que la partie émergée d’un travail bien plus vaste réalisé par les entreprises de sondages.

La plupart réalisent, en effet, plusieurs centaines d’études chaque année, sur d’autres sujets de société : nos usages d’Internet, nos achats en période de soldes, nos habitudes de consommation, etc. Et s’il était possible, avec les Big Data, de collecter toutes ces données et d’en analyser les corrélations ? Pourrions-nous voir, au travers de toutes ces études, des tendances de fond et des signaux faibles qui nous avaient jusqu’ici échappé ? C’est ce qu’a tenté de faire OpinionWay : un projet qui relève du challenge, et que nous allons décortiquer avec Anna Oualid, Directrice du Social Media Research, Bruno Jeanbart, Directeur Général Adjoint chez OpinionWay et Olivier Madelin du Groupe Cyrès, partenaire Orange Cloud for Business.

Pour aller plus loin, un webinaire sera également organisé le mardi 28 février à 10 h sur le sujet.

Du pixel à la photographie : genèse et objectifs du projet Big Data 

« Nous avons dans un premier temps récolté toutes les données de nos études publiées depuis 2012, c’est-à-dire au début du quinquennat de François Hollande. Cela nous permettait d’avoir une unité de temps cohérente et un point de départ précis », explique Anna Oualid. Les données et les thématiques abordées sont diverses : allant du sondage d’opinion ou politique, au coût de la rentrée scolaire, à la mobilité bancaire ou encore aux achats de noël, etc. L’objectif était ainsi d’étudier les scenarii possibles de mises en corrélation des données et en tirer des éventuelles tendances, profils de consommation… Le croisement de toutes ces données provenant de plus de 1 500 études permet, en effet, de répondre à des questions plus complexes : à titre d’exemple, on peut chercher à connaître le profil d'un électeur d'un parti, non pas au travers du point de vue politique, mais par le prisme de sa consommation.

Réaliser ce travail n’est cependant pas une mince affaire : on parle ici de trier une masse conséquente de données. Elle est constituée de plus de 40 000 questions et 45 millions de réponses provenant de 50 000 personnes. Traiter autant de données nécessite un savoir-faire complexe et des compétences de data scientist : Cyrès s’est donc chargé d’effectuer cette mission. Grâce à un environnement Cloud développé par Orange Business Services, Cyrès a pu construire un écosystème Big Data et gérer toutes les données récoltées par OpinionWay.

De la récolte à la compréhension des données

Le projet a commencé dans les locaux d’OpinionWay, avec un travail de collecte de la donnée : « nous avons récupéré toutes les bases : un énorme travail de rationalisation de la donnée a été réalisé, pour pouvoir les exploiter », explique Anna Oualid. Ce travail de rationalisation, qui a nécessité plusieurs mois, est crucial et se retrouve à la base de tout projet Big Data. Il consiste à rendre la donnée homogène dans tous les fichiers afin de pouvoir effectuer des croisements. Par exemple, si les chiffres sont exprimés en millions d’euros dans un fichier et en milliers dans un autre, le croisement de ces deux fichiers fournira des données erronées.

Une fois les données transmises, le travail de préparation de la donnée effectué en amont n’était pas pour autant terminé. Olivier Madelin de Cyrès témoigne : « une fois les données collectées, il est nécessaire de savoir comment elles sont constituées, afin de les rationnaliser, les structurer et les intégrer dans le nouvel environnement pour produire les résultats attendus ».

Une donnée mal comprise peut entraîner des erreurs : prenons l’exemple des départements géographiques. Il existe plusieurs indicateurs de localisation des individus : le code Insee est généralement la norme utilisée par les entreprises de sondages. Celui-ci n’est pourtant pas compris de tous (en particulier des personnes interrogées), et les instituts de sondages doivent donc recourir au code postal. En compilant les données, on retrouve alors deux codes différents pour indiquer une localisation, provoquant des erreurs dans certains croisements, d’où l’intérêt auparavant de trier la donnée et l’uniformiser.

Utiliser les Big Data pour faire parler la donnée

Une fois la donnée préparée, vient le traitement par les outils Big Data. « Les technologies Big Data vont permettre de traiter cette masse de données dans des temps très courts », explique Olivier Madelin. En effet, si une compilation de données s’effectue en quelques secondes seulement, elle pourrait prendre plusieurs heures avec des outils traditionnels.

« Nous disposons d’un écosystème Big Data avec un ensemble de solutions logicielles qui s’agrègent les unes aux autres », précise Olivier Madelin. « Ces solutions applicatives vont ensuite traiter la donnée et effectuer des requêtes pour obtenir des résultats et les présenter à l’utilisateur final de façon structurée et organisée ».

Un projet Big Data, contrairement aux idées reçues, est donc un travail long et minutieux, souvent manuel, qui se travaille essentiellement en amont et qui nécessite une rigueur sans failles. Pour en savoir plus sur le fonctionnement d’un projet Big Data de A à Z et prendre connaissance des premiers résultats de ce projet, nous vous invitons à vous inscrire à notre webinaire qui aura lieu le 28 février à 10 h, en présence d’Anna Oualid, Bruno Jeanbart et Olivier Madelin

Yann

A suivre lors du 13éme Webinathon organisé par Orange Business Services

Les usages des Big Data fait partie du 13ème Webinathon organisé par Orange Business Services.
Inscrivez-vous au webinaire du 28 février 2017 de 10h00 à 10h45.
«
Big Data : radiographie approfondie des Français de 2012 à 2017 » animé par OpinionWay

et aussi : 5 cas d'usage pour mieux tirer partie des Big Data fait partie du 13éme Webinathon organisé par Orange Business Services. Inscrivez-vous au webinaire du 28 février 2017 de 11h15 à 12h00

Changer d'affichage