Pour prédire l'issue de l'élection française, il y a les intuitions, les sondages et, depuis quelque temps, le Big Data. Véritable mine d'informations, ces grandes masses de données sont analysées grâce à des algorithmes pour en extraire des tendances et peut être le futur. Zoom.
Madame Irma peut se targuer d'être désormais une entité binaire. Grâce à quoi? Au Big Data et son analyse, appelée data analysis. Avec les milliards de données qui s'entassent quotidiennement sur internet, les data scientists développent des algorithmes permettant de les analyser et d'en tirer des prédictions.
Et quoi de mieux que les prochaines élections présidentielles françaises pour vendre ces prédictions? Nombreuses sont les sociétés qui ont flairé la bonne affaire. Ne serait-ce que pour en citer une: Filteris, entreprise canadienne, considérée comme la boule de cristal de cette course à la présidence.
L'utilisateur profane et sans argent peut, malgré tout, jouer à Nostradamus. Des outils gratuits et faciles d'accès peuvent évaluer la popularité d'un des candidats à l'élection 2017, sans prétendre connaître l'issue du scrutin. Il suffit de s'essayer à Google Trends en comparant le taux de recherches de chacun des candidats. Mais aussi, l'algorithme Page Rank développé par Google. Présent sur plusieurs plateformes, cet algorithme permet de voir quels sites des candidats à la présidentielle sont les plus populaires. Mais la création d'algorithmes de prédiction relève avant tout de la professionnalisation. Rares sont les instruments de ce genre gratuits et accessibles à tous. Développés par des universités et des entreprises, ces algorithmes se vendent à prix d'or et ont, avant tout, des ambitions commerciales.
Top 7 : Des outils pour évaluer la popularité des gens
Data mining: des algorithmes prédictifs et incitatifs
Véritables instruments à double tranchant, les outils de data mining ou analyse de données (ou forage de données), peuvent offrir une estimation plutôt fine des intentions de vote et prédire les résultats. Longtemps utilisé à des fins commerciales, le forage des données peut prédire l'achat d'un consommateur en se fondant sur ses caractéristiques (femme, de 37 ans, mariée et fan de yoga). Dans la guerre électorale actuelle, le consommateur devient alors électeur. Outils de prévision, le data mining joue aussi un rôle marketing en produisant des communications ciblées à des électeurs hésitants.
Selon Science et Avenir, Donald Trump aurait investi 5 millions de dollars dans cette technologie de Data Management Plateform (DMP). Un dispositif initialement conçu pour les entreprises privées qui a séduit l'actuel président des États-Unis. La méthode consistait à produire des tests sur les réseaux sociaux et, après résultats, à cibler les potentiels indécis.
Tout comme l'a fait Barack Obama en 2008 en embauchant toute une équipe de data scientist.
Ce qui rend le data mining décisif dans une campagne électorale réside dans son application aux réseaux sociaux. Ces réservoirs d'opinions apportent des données si précises qu'ils affinent les prédictions à une échelle considérable. Twitter est une des bases de données les plus rentables en forage de données. Grâce à des algorithmes d'analyse sémantique et lexicale, les datas sont passées aux cribles et triées en fonction des mots utilisés (text mining) et de la teneur de l'opinion (opinion mining).
L'erreur est humaine mais aussi numérique
Mais ces outils de data mining ont un revers: les bots. Ces robots, mandatés par des sociétés et dans ce contexte, par des partis politiques, sont chargés d'alimenter les médias sociaux par des publications polarisées. Une conséquence grave qui peut fausser les analyses de données.
Lire aussi : Quand les robots nous manipulent
Articles connexes
Clinton vs Trump: l'ère de la fausse prédiction
Donald Trump accède au pouvoir. Une douche froide pour les data scientists. Notamment pour Nate Silver, fondateur du site de data-journalisme FiveThirstyEight: pour lui, la gagnante était Hillary Clinton. Après avoir prédit à 99% l'élection de Barack Obama en 2008 et en 2012, tous les espoirs étaient fondés sur lui. Raté.
Mais s'il ne fallait retenir qu'une chose: l'erreur est humaine mais aussi numérique. Jouer à Madame Irma n'est tout simplement pas possible. Et pour cause, des centaines d'autres facteurs ne sont pas pris en compte lors de la collecte de données. Ne serait-ce que se poser la question: les gens qui commentent sur Twitter ou Facebook, vont-ils réellement aller voter?
À noter que Google Trends avait, à sa manière, prédit la victoire de Donald Trump...