[Idées] Le Big Data remplacera-t-il un jour les sondages ?

Temps de lecture estimé : 21 minutes

*Attention, ce contenu a été publié il y a 1 année. Il n'est peut-être plus d'actualité.*

Le Big Data serait capable d’aider la police de Los Angeles à réduire la criminalité. On le dit en mesure de rendre les villes plus intelligentes, et certains voient même en lui une alternative crédible aux politiques contraignantes pour lutter contre les dérèglements climatiques (1). Pourquoi le Big Data, en apparence tout puissant, n’a-t-il pas encore « uberisé » l’industrie du sondage ? Leonardo Noleto, Data Scientist, Guillaume Pataut, mathématicien, et Guilhem Fouetillou, cofondateur de la startup Linkfluence (spécialisée dans l’écoute du web social pour les marques) et professeur associé à Science Po Paris, livrent leur avis sur la question.

Le Big Data est-il capable de ringardiser les sondages tels qu’on les connaît, soit une panoplie de méthodes mathématiques qui permettent de connaître l’opinion d’un groupe de personnes en généralisant à partir d’un sous-ensemble ? « C’est une question complexe », prévient Leonardo, suggérant que la réponse pourrait bien se trouver quelque part entre Angers, la tranquille capitale de l’Anjou, et les États-Unis.

Sondage et Big Data : des méthodes complémentaires ?

Si les habitants d’Angers n’avaient pas validé les concepts des canettes de 15 cl de Coca-Cola, celui des Kinder Pingui ou encore le débarquement du fromage Philadelphia dans l’Hexagone, ces produits n’auraient probablement jamais été commercialisés en France. Avec une population de 400 000 habitants, la préfecture du Maine-et-Loire est connue par les marques du monde entier pour être très représentative de la France moyenne et, donc, des attentes des consommateurs (2). Le phénomène, qui dure depuis plus de 20 ans, est savamment exploité par deux sociétés : MarketingScan (du groupe GfK-Médiamétrie) et Scannel (Kantar Worldpanel). Une startup, CityPanel, s’est même créée dans la ville en 2013, avec pour ambition d’étendre aux services numériques (applications mobiles, sites web, objets connectés…) les tests soumis au prophétique panel angevin.
De l’autre côté de l’Atlantique vit Nate Silver, un statisticien spécialisé dans les calculs de statistiques sportives. La prévision des résultats des matches et des possibles évolutions de carrière des joueurs de la Ligue majeure de baseball a été son gagne-pain au début des années 2000. Mais ce sont des analyses politiques sur les élections présidentielles américaines de 2008 qui l’ont fait connaitre. Publiées sur FiveThirtyEight.com (blog ensuite affilié au New York Times), ses prévisions ont frappé par leur exactitude : Nate Silver avait prédit le vainqueur dans 49 des 50 états, et anticipé la victoire de Barack Obama plusieurs mois avant qu’elle n’advienne. Son secret ? Avoir utilisé le Big Data… pour pondérer les prévisions des instituts de sondage traditionnels (3).
« Comme le suggère Nate Silver, sondages et Big Data peuvent être complémentaires, analyse Leonardo. » Le cas de de la ville d’Angers, devenue la Pythie de l’industrie agroalimentaire, montre quant à lui que les méthodes statistiques, affinées par des dizaines d’années de pratique, sont encore pertinentes. « En fonction du budget disponible, de la taille de la population à étudier, du taux de réponse moyen constaté et de la marge d’erreur acceptée par le commanditaire, des modèles mathématiques permettent de déterminer avec précision la taille et la composition de l’échantillon à sonder pour obtenir des résultats représentatifs », complète Guillaume. « Et n’oublions pas que les sondages ne sont qu’une méthode d’observation de la société, parmi beaucoup d’autres : la sociologie, l’ethnographie… ou encore la statistique nationale, basée sur le recensement exhaustif de la population. Un domaine dans lequel la France était très en pointe, avec la création de l’INSEE en 1946 (4) », rappelle Guilhem.

Le Big Data intéressant pour capter les signaux faibles et passer d’une catégorisation socio-professionnelle à une catégorisation socio-affinitaire

L’intérêt du Big Data réside dans sa capacité à capter les tendances émergentes. À produire des hypothèses inédites. À répondre à des questions que l’on ne se serait jamais posées. « Plus de données ont été collectées en 2011 qu’entre l’invention de l’écriture et cette année-là, rapporte Guilhem, citant le projet Global Pulse de l’ONU . Et la quantité s’est largement accrue ces dernières années. Entendons-nous d’abord sur ce que recouvre le terme Big Data. Pour Linkfluence, c’est la possibilité de capter et analyser ce que les utilisateurs expriment, commentent ou « likent » volontairement sur Internet (données déclaratives), mais aussi ce qu’ils font (observation des usages). Le Big data constitue un nouveau prisme à travers lequel observer la société, qui possède l’avantage de ne rien présupposer. » À l’inverse du sondage, dont la méthodologie peut introduire un biais. Comme le soulevait Pierre Bourdieu dans son exposé L’opinion publique n’existe pas (1972), « Dans le simple fait de poser la même question à tout le monde se trouve impliquée l’hypothèse qu’il y a un consensus sur les problèmes, autrement dit qu’il y a un accord sur les questions qui méritent d’être posées. » (5) Dans quelle mesure, en effet, le sondage contribue-t-il à forger l’opinion qu’il prétend sonder ?
« Le Big Data permet de recueillir les données sans dispositif voyant, et sans l’influence de l’observateur, rapporte Guilhem. Les sondeurs ont tous en tête ces fameuses expériences montrant combien le sexe, l’âge, ou encore la beauté d’un enquêteur peut altérer la sincérité des réponses, notamment celles des hommes à propos de leur niveau de vie face à une enquêtrice. » « Les sondages travaillent à partir de données « provoquées », abonde Leonardo. Le Big Data constitue un changement de paradigme, en permettant d’explorer des données collectées sans but prédéfini, et des traces laissées par les internautes sans qu’ils en aient toujours conscience – ce qui soulève d’évidentes questions éthiques sur le consentement des internautes, la propriété des données, leur croisement, leur revente. » (6) « Chez Linkfluence, qui propose des outils de monitoring et d’analyse du web social pour les marques, on a coutume de dire que l’on n’écoute que ceux qui veulent être entendus. C’est-à-dire ceux qui s’expriment sur les espaces publics du web. Mais les interactions sur les réseaux sociaux, le fait de liker un contenu sur Facebook ou de suivre tel compte sur Twitter donne des informations précieuses sur vos centres d’intérêt : click is the message . L’époque où 1 % des internautes produisait 99 % du contenu est révolue. Nous avons accès à une conversation globalisée, en temps réel, dans des volumes inédits. Le Big Data permet de passer d’une catégorisation par CSP – qui postule que les catégories socio-professionnelles ont des comportements homogènes – à une classification par affinité, plus proche de la réalité. C’est pourquoi l’étude du web social est devenue pertinente, à la condition de prendre en considération le fait que les internautes se mettent en scène. Rappelez-vous l’adage : “On the Internet, nobody knows you’re a dog”. La posture que l’on peut adopter sur le web altère le niveau de confiance dans les données recueillies sur certains sujets, par exemple dans le cadre d’une étude à propos d’une marque employeur. Mais l’absence de dispositif permet de gagner en spontanéité. »

L’écueil des corrélations fantaisistes

Le Big Data, pour qui en connaît les limites, est un outil révolutionnaire. Il n’est pas pour autant un procédé magique, qui permettrait de supprimer l’intermédiation humaine et les biais que l’analyste introduit à son corps défendant. « Le mythe du Big Data, c’est que les données, une fois collectées, vont parler toutes seules ! s’amuse Leonardo. Évidemment, c’est faux. Il est aujourd’hui facile – et de moins en moins coûteux – de démarrer des algorithmes qui vont malaxer les données jusqu’à révéler des corrélations. Le piège, c’est que corrélation ne signifie pas lien de cause à effet. » Ce que démontre par l’absurde la facétieuse contribution reçue par la SNCF sur la plateforme datascience.net (7). Fin 2014, l’entreprise publique proposait d’élaborer un modèle permettant d’estimer le nombre de voyageurs présents dans une gare un jour de semaine, à partir des données rendues publiques sur le transport ferroviaire (opendata). « Quelqu’un a mis en évidence la relation entre la fréquentation des gares et le nombre de salons de coiffure installés dans leur enceinte. Une corrélation mathématiquement valable, mais peu pertinente pour prévoir la fréquentation d’une gare. Ces corrélations “absurdes” peuvent éventuellement résulter du hasard, mais elles s’expliquent le plus souvent par des variables cachées. Il est ainsi très probable que plus une gare est fréquentée, plus elle comptera de commerces. » Les machines posséderont-elles un jour l’intelligence nécessaire pour estimer la pertinence d’une corrélation ? Certains travaillent sur le sujet, mais le Master Algorithm s’apparente encore à un Graal.

Les méthodes statistiques : utiles pour trouver les indicateurs pertinents, dépassées ou nécessaires pour vérifier les hypothèses produites par le Big Data ?

Aujourd’hui, le Big Data n’a pas « ubérisé » l’industrie du sondage. On constate plutôt un rapprochement des acteurs traditionnels avec les startups qui se sont lancées dans le Big Data (8). « Je crois, pour ma part, que les protocoles statistiques demeureront », confie Guillaume, dont le métier consiste chez OVH à imaginer les algorithmes qui permettent d’explorer la data. « Le Big Data nous met face à un volume et une variété de données qui dépassent très largement les capacités d’analyse d’un humain. Avant de commencer à explorer ces données à l’aide d’algorithmes, il est souvent nécessaire – pour employer les termes mathématiques – de réduire la dimensionnalité de l’espace de travail. Les méthodes statistiques sont d’un grand secours pour repérer les indicateurs pertinents, qui sont autant de bouées auxquelles se raccrocher au milieu du déluge de données. Cela permet de simplifier le problème. Lorsque les neurosciences, par exemple, cherchent à identifier le rôle de chaque partie du cerveau, le nombre de données rendues disponibles par l’imagerie cérébrale est invraisemblable. Il faut progresser en utilisant des méthodes de régression et des algorithmes proximaux pour éliminer les données inutiles, ou pondérer leur influence dans une corrélation. Les principes mathématiques des algorithmes de base du Big Data, tels que l’analyse en composantes principales (PCA), ou ceux du machine learning, sont relativement triviaux. Quand on parle de Big Data, on imagine des équations compliquées, d’énormes machines qui mangent les données et les recrachent sous forme de dashboards. Il y a un aspect beaucoup moins spectaculaire à notre activité : les heures passées à comprendre les données, à les structurer, à trier celles qui sont intéressantes de celles qui ne le sont pas… » Leonardo est plus sceptique sur l’avenir des méthodes statistiques : « La matière première du Big Data ne se prête pas toujours aux méthodes statistiques. Les jeux de données peuvent être hétérogènes : textes, images, vidéos… Qui plus est, la data science vise à apprendre des données (extraire des patterns). Les statistiques offrent un catalogue limité de modèles. On peut y trouver le modèle adéquat pour donner du sens aux données, mais ce n’est pas toujours le cas. » (9) Guilhem, quant à lui, voit parfois dans les statistiques un moyen de vérifier les hypothèses produites par le Big Data : « L’un de nos clients a vécu une crise sur le web social. L’analyse des conversations en ligne montrait que le bad buzz s’était répandu massivement sur le web. Pour savoir quel pourcentage de la population avait eu vent de cette crise, confinée sur le web, l’annonceur a réalisé un sondage traditionnel. Qui, pour la petite histoire, révélait que 25 % de la population était au courant. Ce n’est pas négligeable ! »

L’analyste, un garde-fou nécessaire

Leonardo et Guillaume sont d’accord sur la responsabilité qui leur incombe : « Tout comme on peut tordre les statistiques pour leur faire dire n’importe quoi, on peut raconter des histoires très différentes à partir d’un même jeu de données issues du Big Data, préviennent-ils. Dans un monde où les chiffres font de plus en souvent autorité, il est indispensable de rester méfiant – voire de résister, en se réappropriant les chiffres comme le préconise le Stat-activisme , du nom de l’ouvrage collectif paru en 2014 (10). » L’intervention humaine, avec sa subjectivité, certes, mais aussi sa réflexion critique, est non seulement indispensable, mais également salutaire. Comme l’explique le chercheur russe Evgeny Morozov et auteur d’un livre sur le « solutionnisme technologique » (11) : « Pensez à l’engouement actuel pour les Big Data, avec sa capacité à donner des aperçus puissants basés sur de seules corrélations. Selon un livre récent (celui de Viktor Mayer-Schonberger et Kenneth Cukier : Big Data, une révolution qui va transformer comment on vit, travaille et pense), une fois que nous embrasserons pleinement les Big Data, la société devra payer une partie de son obsession pour la causalité en échange de corrélations simples : sans savoir pourquoi, mais seulement quoi. » Un véritable problème, si l’on imagine par exemple le Big Data appliqué à des politiques publiques, lesquelles se baseraient alors sur des séries de corrélations pour agir, sans chercher à corriger les injustices ou discriminations dont elles pourraient être le signe (12).

Le cas particulier des sondages politiques

Les sondages politiques constituent un cas à part entière. Capter les mouvements d’opinion et les sensibilités politiques à la veille d’une élection semble être devenu compliqué. Comme le souligne le professeur de Science Politique Alain Garrigou dans un article du Monde Diplomatique (13), la dernière erreur record des sondages s’est produite sur le référendum grec, alors que « les consultations référendaires avec leur choix binaires oui/non sont pourtant la plus facile des épreuves pour les prédictions ». On peut donc penser, à l’aune des expérimentations de Nate Silver, que le Big Data et l’écoute du web social pourraient être mis à contribution pour réduire le risque d’erreur induit par les corrections « au doigt mouillé » appliquées par les sondeurs pour pondérer ce qu’ils estiment être des sur-déclarations ou sous-déclarations.
Alors chercheur au sein de l’Université de technologie de Compiègne, Guilhem s’était intéressé au rôle d’Internet dans la victoire du non au référendum portant sur la constitution européenne en 2005 . Envoyant des robots parcourir la toile, pour étudier le contenus des sites et les liens entre eux, il avait constaté un net déséquilibre quantitatif entre les sites partisans du oui et ceux partisans du non, deux fois plus nombreux. Et avait remarqué que la communauté du non était plus dense et plus active. Que pense-t-il aujourd’hui du web comme terrain de sondage, à travers des méthodes Big Data ?
« Le premier écueil d’Internet est qu’il échappe à toute logique de représentativité. » Certaines tranches d’âge ne sont pas connectées. D’autres sont hyperconnectées. Les catégories de population ne sont pas toutes représentées. « Or, il n’existe pas de méthode de redressement qui permettrait d’exploiter les données issues du web pour en tirer des résultats représentatifs à l’échelle d’une population. Cela n’est pas gênant pour les marques pour lesquelles nous travaillons, car soit nous recherchons des signaux faibles annonciateurs d’une tendance à venir, soit nous étudions le comportement de leurs communautés en ligne et nous avons pour cela un terrain consistant et exhaustif. » Pour des sondages politiques, c’est problématique. Par ailleurs, en 2005, le web n’était pas encore considéré par ses utilisateurs comme un média. « Nous étions en plein dans le mythe de la tribu originelle, dont l’observation par l’ethnologue ne modifie pas les comportements. Aujourd’hui, les militants politiques se savent observés sur le web et ils ont compris la puissance d’Internet. » Les campagnes se déroulent aussi en ligne, avec la production de contenus, commentaires, statuts sur les réseaux sociaux qui visent à influencer l’opinion. Résultat : « Une partie du bruit que pourrait capter le Big Data serait en quelque sorte factice. Dans le cas des campagnes politiques, une analyse quantitative du web révélerait moins l’opinion publique que le travail des activistes et militants, qui sont les plus bruyants en ligne. » Une des solutions consiste à ne plus tout écouter : « Étudier sur Internet le poids donné à des sujets au sein de l’offre médiatique est un bon moyen de se faire une idée de l’opinion, des sujets qui peuvent faire basculer une campagne. Il faut réintroduire, pour ce type d’étude, une logique méritocratique. Dans l’économie de l’attention, qui est celle du web, tous les contenus n’ont pas la même valeur. On ne doit pas accorder la même influence à un robot qui tweete des messages politiques et article du Monde.fr, qui aura plusieurs centaines de milliers de lecteurs. » Si le web n’est pas un terrain envisageable pour les sondages politiques, il n’en est pas moins un terrain fertile pour le marketing politique, une activité à laquelle se prête, de temps à autre, Linkfluence. L’écoute du web, et l’établissement de corrélations prédictives en fonction de l’historique des résultats électifs précédents sont ainsi des méthodes déjà utilisées durant les campagnes pour réaliser du « micro-ciblage électoral » (14).
Grands consommateurs de sondages, les Français ne sont donc, a priori, pas près de voir le nom de leur prochain Président révélé plusieurs mois avant l’élection par les données issues du Big Data. Quand bien même cela serait possible, il subsisterait un doute sur la capacité de la prédiction elle-même à déplacer les électeurs jusqu’aux bureaux de vote… pour la contredire. En témoigne le sursaut de participation au second tour des élections régionales de décembre 2015. Stéphane Rozès, conseiller politique cité par le Monde.fr dans un article à propos de Nate Silver (15), expliquait ne pas être étonné que le livre du statisticien américain n’ait pas été traduit en Français : « L’idée même qu’un statisticien puisse annoncer en amont le résultat de l’élection est baroque et attentatoire à l’imaginaire politique français ».

Les défis posés par le Big Data

En dehors du cas très spécifique des sondages politiques, le Big Data s’impose comme une méthode d’observation des individus extrêmement efficace, en particulier pour appréhender les consommateurs qui sommeillent en eux. En témoigne le cas de la société Aldebaran Robotics qui exploite le logiciel Radarly de Linkfluence pour capter les conversations autour de sa marque, par exemple au sujet de la présence de son robot humanoïde dans l’émission Salut les terriens diffusée sur Canal+. Aidés par l’outil de Linkfluence, Aldebaran a pu s’éloigner du modèle traditionnel de communication descendante, pour mettre en place une approche centrée sur les centres d’intérêt de chaque internaute. En même temps qu’il ouvre d’infinies possibilités, le Big Data nous place devant de nouveaux défis. Des défis techniques, liés au stockage des données et à la puissance de calcul nécessaire pour analyser les données – c’est le métier d’OVH. Des défis intellectuels, avec la naissance d’une discipline : la data science. Et des défis éthiques, avec l’indispensable prise de conscience des utilisateurs quant aux traces qu’ils laissent derrière eux. « Le web social, celui que Linkfluence analyse, représente une partie seulement des données du web, rapporte Guilhem. Demain, avec les objets connectés, l’utilisation massive des réseaux sociaux, les traces que nous laissons sur Internet vont continuer à exploser, et documenter une partie de plus en plus importante de notre vécu. Ces données, nous en sommes aujourd’hui dépossédés, au motif que nous avons signé des CGU pour accéder à tout un tas de services. Il est logique que les sociétés, qui dépensent des fortunes pour les héberger, cherchent à les commercialiser. » (16) Sommes-nous tous devenus des Digital Workers, au sens où le sociologue Antonio Casilli décrit le Digital Labour (17) ? Les internautes devraient-ils être rétribués lorsqu’on utilise leurs données pour créer de la valeur ? Qu’en pensent les habitants d’Angers ? Avouez que le simple fait de poser la question peut contribuer à créer une opinion qui n’existait pas jusque-là…

À propos de Linkfluence

Linkfluence, startup leader du Social Media Intelligence, propose des solutions uniques de monitoring, d’analyse et d’activation des médias sociaux. Au travers de sa suite logicielle Radarly et de ses services associés, Linkfluence capte et analyse plus de 130 millions de publications par jour pour aider les marques à prendre de meilleures décisions. Entreprise française fondée en 2006, elle compte plus de 180 collaborateurs en France, en Allemagne, au Royaume-Uni, à Singapour et en Chine et affiche une très forte croissance. Linkfluence compte plus de 300 références dans le monde dont Danone, Sanofi, Orange, Accor, McDonald’s ou encore Groupama. www.linkfluence.com | @linkfluence

Notes

(1) La police de Los Angeles utilise depuis 2011 le logiciel Predpol (www.predpol.com) et a déclaré avoir fait baisser grâce à lui de 33 % les agressions et de 21 % les crimes violents entre novembre 2011 et mai 2012. Source : Le logiciel qui prédit les délits, M le magazine du Monde, par Louise Couvelaire le 04.01.2013
Lire également cet article qui nuance l’enthousiasme qui accompagne le déploiement de Predpol dans le monde : Predpol : la prédiction des banalités, internetactu.net, par Hubert Guillaud le 23.06.2015
À propos de l’utilisation du Big Data pour lutter contre le dérèglement climatique : Big data et algorithmes, l’enjeu caché du COP21, journaldunet.com, par Charles Abner Dadi le 26.08.2015

(2) Si un produit marche à Angers, il marchera partout !, capital.fr, le 12.05.2011 (mis à jour le 23.01.14)

(3) Nate Silver et les limites du Big Data, Le Monde.fr, par Ludovic Vinogradoff le 15.07.2013 et Et Nate Silver, saint patron des « nerds », créa le data , M le magazine du Monde, par Louise Couvelaire le 24.05.2013

(4) Histoire de la statistique française, Wikipédia.org

(5) L’opinion publique n’existe pas, Pierre Bourdieu. Exposé fait à Noroit (Arras) en janvier 1972 et paru dans Les temps modernes, 318, janvier 1973, pp. 1292-1309. Repris in Questions de sociologie, Paris, Les Éditions de Minuit, 1984, pp. 222-235.

(6) Au sujet des questions éthiques engendrées par le Big Data, lire cet article de ParisTech Review à propos de l’éthical data mining : Big Data et données personnelles : vers une gouvernance éthique des algorithmes, par Jérôme Béranger le 22.12.2014

(7) Prédiction de la fréquentation des gares SNCF en Île-de-France, un challenge lancé sur la plateforme datascience.net

(8) Instituts d’études et sondage, l’effet big data, lenouveleconomiste.fr, par Anne-Laurence Gollion le 17.09.2014

(9) Why Do We Need Data Science when We’ve Had Statistics for Centuries?, annenberglab.com, par Irving Wladawsky-Berger le 30.04.2014 et An executive’s guide to machine learning, mckinsey.com, par Dorian Pyle and Cristina San Jose, juin 2015

(10) Statactivisme, comment lutter avec les nombres, data.blog.lemonde.fr, par Alexandre Léchenet le 25.06.2014

(11) Pour tout résoudre, cliquez ici, d’Evgeny Morozov, aux éditions Fyp

(12) La technologie est-elle toujours la solution ? (2/2) : le risque du solutionnisme, internetactu.net, par Hubert Guillaud le 28.03.2013

(13) L’erreur record des sondages sur le référendum grec, blog.mondediplo.net, par Alain Garrigou le 13.07.2015

(14) La victoire d’Obama : cas d’étude concret d’utilisation des Big Data, journaldunet.com, par Henri Ruet le 23.03.2013

(15) Et Nate Silver, saint patron des « nerds », créa le data, M le magazine du Monde, par Louise Couvelaire le 24.05.2013

(16) Facebook : de la nécessité de protéger ses données « relationnelles », Le Monde.fr, par Guilhem Fouetillou le 22.04.2010

(17) Digital Labor : comment répondre à l’exploitation croissante du moindre de nos comportements ?, internetactu.blog.lemonde.fr, par Hubert Guillaud le 20.12.2014

Copywriter at OVH.