Biais

pdf Biaisprint Biais

La qualité d’un résultat statistique est toujours mesurée sur deux dimensions : le biais et la précision. Ces deux dimensions sont indépendantes. On peut avoir des estimations sans biais et précises, sans biais et imprécises, biaisées et précises, biaisées et imprécises.

 

Définition du biais

Le biais se définit par rapport à une vraie valeur que l’on cherche à mesurer.

L’élection d’un homme politique, le nombre de clients qui vont acheter le nouveau modèle d’iPhone, le nombre de lecteurs d’un journal, le nombre de clients qui vont mettre la note 10 quand on les interroge sur la satisfaction vis-à-vis d’un service : si on faisait un recensement, c’est-à-dire si on interrogeait toute la population concernée, on pourrait mesurer exactement ces quantités et calculer leur vraie valeur.

Avec un sondage, on calcule une estimation de ces quantités.

Le sondage, et l’estimation, sont sans biais si l’estimation réalisée à partir d’un échantillon se rapproche de la vraie valeur au fur et à mesure que la taille de l’échantillon croît.

Le biais est la différence entre la vraie valeur et la valeur limite des estimations quand la taille de l’échantillon croît.

Le biais d’une estimation va dépendre de la manière dont sont collectées les données : tirage de l’échantillon, questionnaire, mode de collecte,…

 

Définition de la précision

Avec un seul sondage, on calcule une seule estimation de la vraie valeur.

Si on faisait plusieurs sondages, dans les mêmes conditions, mais en tirant des échantillons différents, on obtiendrait plusieurs estimations. Evidemment, c’est quelque chose qu’un institut d’études ne ferait jamais, car il obtiendrait des estimations différentes à chaque tirage d’échantillon. Ce qui est très difficile à communiquer. Le grand public est cependant assez souvent confronté à deux estimations différentes pour la même quantité :

–       Sondages d’intentions de vote, réalisés par des instituts différents au même moment,

–       Estimations du taux de croissance du PIB.

La précision mesure la dispersion des différentes estimations obtenues. L’inverse de la précision est mesuré par la variance. Plus la variance est faible, plus la précision est forte.

La précision d’une estimation va dépendre, pour l’essentiel, de la taille de de l’échantillon.

Biais et précision

Dans le graphique ci-dessous, le | représente la vraie valeur que l’on cherche à calculer. Par exemple le score d’un candidat à l’élection présidentielle. Chaque point représente une estimation, réalisée à partir d’un échantillon de 100 interviewés. Il y a 40 estimations différentes :

biais1 Biais

Voici les deux mêmes graphiques, toujours avec estimations, mais avec respectivement 500 et 1000 interviewés :

biais2 Biais

Les estimations sont sans biais : plus on a d’interviewés, plus on se rapproche de la vraie valeur. Et elles sont de plus en plus précises au fur et à mesure qu’on augmente la taille de l’échantillon : les 40 estimations sont plus proches les unes des autres.

Un résultat fondamental de la statistique est qu’on ne peut pas avoir le beurre et l’argent du beurre, c’est-à-dire une estimation de biais minimal et de précision maximale. Il y a un trade off à faire entre les deux. Un résultat classique est que, parmi les estimateurs sans biais, il y en a une de précision maximale. Mais on pourra avoir des estimateurs biaisés plus précis.

C’est à vous

Voici deux types d’estimation : la première est sans biais, la seconde biaisée. Mais la seconde est plus précise que la première. Laquelle préférez-vous ?

biais poll Biais

 

 

Article reliés

Intervalles de confiance
Multicolinéarité
Shapley value
Régression linéaire
Sondages politiques
Variance

Références

  1. S. Kullback (1959): Information Theory and Statistics – Wiley
  2. T.S. Ferguson (1967) : Mathematical Statistics – Academic Press
  3. J.P. Lecoutre (2012) : Statistique et probabilités – Dunod
  4. A. Monfort  (1982) : Cours de statistique mathématique –- Economica
  5. S.D. Silvey (1975) : Statistical inference – Chapman and Hall