Une modeste proposition aux sondeurs anglais

La déroute des sondeurs anglais lors des récentes élections législatives n’est pas seulement embarrassante pour les instituts concernés. Elle participe plus globalement du discrédit des sondages politiques, susceptible de rejaillir sur l’ensemble du travail des sociétés d’études de marché. Les clients de ces sociétés pourraient légitimement s’interroger sur la précision des prévisions de parts de marché, ou d’autres analyses, produites par des équipes travaillant quotidiennement dans les mêmes bureaux que les sondeurs politiques. De façon plus large, le grand public serait tenté de discréditer le rôle des sondeurs et questionner plus encore leur utilité à une époque où la  data  serait reine.

D’où l’importance que revêt la compréhension des raisons du désastre. On ne peut qu’espérer que l’enquête en cours sera totalement transparente. Force est de constater que les explications données à ce stade sont un peu courtes.

Pour l’analyse des causes possibles du problème, je suis reparti de l’article publié sur le blog du SIG. Synthèse un peu confuse et qui m’a laissé perplexe.

Commençons par le commencement et par les données. Le tableau ci-dessous donne la différence entre les résultats et la moyenne des derniers sondages, juste avant l’élection, pour les six dernières élections générales au Royaume-Uni.

 

2015 2010 2005 2001 1997 1992
Conservateurs -4,2 -1,4 -1,4 -2,2 -1,0 -4,7
Travaillistes 2,9 -1,8 1,7 3,9 3,0 4,5
Libéraux Démocrates 1,1 4,4 0,6 -0,9 -0,4 1,2
UKIP 0,4
Autres -0,3 -1,2 -0,9 -0,8 -1,6 -1,0

Source : BBC, Wikipedia, UK Political info et commission électorale. Les scores des unionistes irlandais ont été additionnés à ceux des conservateurs et ceux du SDLP à ceux des travaillistes.

 

Trois constats à ce stade :

  • Si l’élection de 1992 reste la référence absolue en termes d’échec sondagier, 2015 n’est en fait pas si différent de 2001, voire de 2010. Dans 5 cas sur 6, un des trois grands partis est à plus de 3 points de la prévision des sondages. 2015 frappe plus les esprits car le résultat politique est très différent de ce qui était attendu.
  • Dans 5 cas sur 6, il y a sur estimation des travaillistes et sous-estimation des conservateurs.
  • La part de voix globale des petits partis ne semble pas plus mal estimée en fin qu’en début de période.

Quelles raisons au désastre, donc ?

Première explication, rejetée fort justement par le SIG : l’idée que les sondages sont une photographie à l’instant t, et non une prédiction du vote. L’insistance de sondeurs de toutes nationalités à défendre cette idée m’a toujours laissé songeur. Un bel exemple de sciage consciencieux de la branche sur laquelle on est assis. Si les sondages du lundi ne servent pas à prédire le résultat de l’élection du jeudi, à quoi servent-ils donc ? Mais suivons tout de même cette ligne de raisonnement. La différence entre les derniers sondages et le résultat de l’élection serait alors due (i) soit à ceux qui se décident à la dernière minute (ii) soit à un changement d’avis des électeurs.

Sur le premier point, on dispose de résultats de sondages du jour de vote. On peut leur faire plus confiance qu’à ceux qui ont précédé le vote : ils ont bien vu la victoire des conservateurs, même s’ils l’ont un peu sous-estimée. Le verdict est sans appel : moins de 10% de ceux qui se sont décidés au dernier moment ont choisi les conservateurs. Sur le second point, comme le fait le remarquer le SIG, les courbes d’intentions de vote antérieures à l’élection sont parfaitement plates. Il faudrait que 1,5 million de personnes ait changé d’avis dans la nuit du mercredi au jeudi….

Deuxième explication, qui semble avoir la faveur du SIG : des « transformations électorales qui complexifient le travail des instituts de sondage ». Sont cités, pêle-mêle : la fragmentation de l’électorat, la montée de nouveaux partis, le fait que certains partis soient purement régionaux. Tout cela rendrait le souvenir de vote incertain. Voire impossible à utiliser car du coup, nous dit le SIG, les sondeurs « ne disposent d’aucune élection précédente [pour] calibrer leurs données ».

Rappelons que le souvenir de vote est une variable cruciale d‘un sondage d’intention de vote. Les données brutes sont souvent biaisées : par exemple, le Front National est toujours bien en-dessous de son niveau réel dans les intentions de vote brutes. La comparaison entre ce que disent les interviewés sur leur vote passé et les résultats réels permet de débiaiser l’échantillon.

Mettons tout de suite de côté l’idée que la fragmentation de l’électorat ou la régionalisation des partis soit un réel obstacle.

La fragmentation est d’ailleurs toute relative : travaillistes et conservateurs représentent 68,5% des voix en 2015, 66,4% en 2010, 69,5% en 2005, et, c’est vrai, autour de 75% aux scrutins précédents : il y a pire en termes de fragmentation… L’erreur magistrale de 1992 concerne le scrutin où les voix sont les plus concentrées. Si on regarde les scrutins présidentiels français, la plus grosse erreur sur les partis de gouvernement dans les scrutins récents concerne 2007 (Nicolas Sarkozy sous-estimé de 3%), scrutin le moins fragmenté : les deux principaux candidats recueillent 57% des voix, contre 56% en 2012 et 37% en 2002.

Quant à la présence de partis régionaux, le raisonnement m’échappe : le score des partis irlandais et gallois est parfaitement stable depuis 1992. Le SNP écossais fait effectivement une percée, à 4,7% contre 1,5% à 2% aux scrutins depuis 1997. Percée parfaitement anticipée par les sondeurs, qui disposaient d’un scrutin récent en or massif (le référendum sur l’indépendance) pour vérifier leur redressement.

L’argument sur le nouveau parti est plus sérieux. Le UKIP réalise un score de 12,6%, contre 3,1% et 2,2% aux deux scrutins précédents. L’apparition de nouveaux partis contestataires, dont les partisans sont moins enclins à répondre aux enquêtes, est effectivement un redoutable problème pour les sondeurs. En France, les sondages sous-estiment le score du candidat du Front National en 2012 (-1,8%), le surestiment en 2007 (+3,4%) et le sous-estiment en 2002 (-3,9%). Oui, mais voilà. L’erreur sur le UKIP est la plus faible des quatre principaux partis….Remarquable performance des sondeurs, qu’il convient de saluer par ailleurs.

Troisième explication, le « shy Tory factor » et l’abstention différenciée selon les électorats. L’électorat conservateur oserait moins avouer son vote à un enquêteur, et indiquerait qu’il vote pour un autre parti, ou qu’il va s’abstenir, dans de plus grandes proportions que les autres électorats. Explication en fait similaire à la discussion précédente sur les nouveaux partis. Nul besoin d’ailleurs d’inventer de nouveaux concepts comme le « shy Tory factor ». Il s’agit d’un très classique biais d’endogénéité. La non réponse est corrélée à la variable mesurée, et l’échantillon obtenu est endogène. Le prix Nobel d’économie James Heckman discutait déjà de cette problématique dans son papier paru dans Econometrica en 1979.

C’est certainement une piste à creuser. A ce stade, on ne voit pas bien pourquoi les redressements sur les votes passés ne permettent pas de résoudre le problème : l’électeur conservateur n’oserait pas avouer son vote actuel, mais donnerait sans problème celui du passé ? Seul un examen des données brutes et redressées permettrait d’avancer.

Enfin, le SIG termine son article en donnant sa bénédiction à l’institut Survation, qui a prétendu après le scrutin s’être auto-censuré sur son dernier sondage. Celui-ci donnait comme par hasard le bon résultat. Grotesque opération marketing : le score des conservateurs dans le sondage Survation publié par le Daily Mirror la veille de l’élection était le plus éloigné du résultat final parmi les sondages du jour. En termes de prévisions comme de mariage, celui qui ne parle pas avant doit se taire à jamais.

Pour synthétiser l’ensemble, que l’on me permette de suivre les illustres traces de Jonathan Swift et de faire une modeste proposition. Pas la peine d’inventer des concepts nouveaux et compliqués : le cadre théorique de l’échantillonnage endogène est largement documenté et convient tout à fait à la problématique. Ne faisons pas croire que le problème est dû à de nouvelles configurations politiques et qu’il se résoudra quand le paysage politique sera stabilisé comme le suggère le SIG. La remise en perspective sur les 6 dernières élections montre que le problème est constant depuis 1992. Sauf en 2010 : c’est aussi cela qu’il faut comprendre. La transparence sur les méthodes de redressement utilisées pour les scrutins passés est clé pour la restauration de la crédibilité des instituts de sondage britanniques et lever ainsi le doute sur une profession par ailleurs fort utile à notre société démocratique.

Antoine Moreau

29/05/2015