Tests statistiques

pdf Tests statistiquesprint Tests statistiques

Les tests statistiques transforment la matière brute statistique en enseignements opérationnels: ils sont à la base de la prise de décision à partir des données.

Le principe

Test statistique et intervalle de confiance sont les deux faces d’une même idée: pour faire un test, il faut calculer un intervalle de confiance. Il est toujours utile de ramener un problème de test à un problème d’intervalle de confiance, car c’est un concept plus facile à manier (il ainsi est préférable de lire l’article sur les intervalles de confiance avant celui-ci).

Deux exemples

Reprenons l’exemple de l’augmentation supposée de la confiance des ménages en mars 2014, présenté dans l’article sur les intervalles de confiance. On a vu comment calculer un intervalle de confiance autour de l’augmentation mesurée. La question se pose de savoir s’il y a bien une augmentation, ou si l’aléa d’échantillonnage ne permet pas de trancher.

Pour répondre à cette question, on calcule un intervalle de confiance autour de la variation mesurée (3 points, en l’occurrence). L’idée du test est alors très simple: si 0 est dans l’intervalle de confiance, on ne pourra pas rejeter l’hypothèse que la confiance des ménages est restée stable. Si l’intervalle de confiance est [-0,92 ; 6,92], comme nous le suggérons, alors on ne peut pas dire que la confiance des ménages a augmenté en mars 2014.

Un autre exemple: si un sondage donne un score de 52% à un candidat, contre 48% à son concurrent, à la veille d’une élection, peut-on dire que la différence entre les deux candidats est significative? Chacun des deux pourcentages est une estimation et chacun est associé à un intervalle de confiance. On a alors deux manières de procéder :

–       Regarder si la valeur 50 est dans l’intervalle de confiance autour de 52%. Ce qui est équivalent à regarder si la valeur 50 est dans l’intervalle de confiance autour de 48%: les deux intervalles de confiance ont la même taille,

–       Faire la différence entre les deux pourcentages (52%-48%), calculer l’intervalle de confiance autour de cette différence et regarder si 0 est dans l’intervalle de confiance. Si oui, on ne pourra pas rejeter l’hypothèse que les deux candidats aient des scores égaux, et donc que le sondage ne soit porteur d’aucune information.

Les deux solutions amèneront à la même conclusion. La seconde (faire la différence entre les deux pourcentages) semble plus complexe de mise en œuvre, mais elle se prête plus à généralisation. C’est ce que l’on fera dès que l’on voudra savoir si deux pourcentages estimés sont égaux : égalité de deux scores entre des vagues d’un baromètre, égalité d’intentions d’achat de deux produits, égalité des souvenirs publicitaires entre deux campagnes de publicité,….

Avec 1000 interviews, ce qui est la taille standard des échantillons pour un sondage électoral, l’intervalle de confiance autour de la différence 52%-48%=4% est [-0,6% ; +8,4%]. Donc, 0 est dans l’intervalle de confiance et il n’est pas possible de rejeter l’hypothèse que les deux candidats sont en fait à égalité. Le sondage semble donc n’apporter aucune information. Comme discuté dans l’article sur les sondages électoraux, nous pensons que ce calcul n’est pas le bon pour ce type de sondages et qu’il en sous-estime la précision.

Statistique de test

Le résultat d’un test peut être résumé dans une statistique de test.  De la même manière qu’un intervalle de confiance sera toujours de la forme :

estimation ponctuelle +/- 1,96 écart-type

une statistique de test sera toujours égale à

estimation ponctuelle/écart-type

Et on rejettera l’hypothèse testée à 95% si la statistique de test est supérieure à 1,96.

Les deux risques d’un test

Conservons l’exemple du score de 52% dans un sondage électoral. On peut construire un intervalle de confiance à 95% autour de ce 52%, l’intervalle [48,9% ; 55,1%].

Supposons que l’on cherche à tester si le vrai score du candidat est en fait égal à 50% (donc que le sondage n’apporte pas d’information). Par construction, sous l’hypothèse que le vrai score du candidat est bien 50%, l’intervalle de confiance a une probabilité 95% de contenir la valeur 50%. Inversement, si le vrai score du candidat est bien 50%, il y a une probabilité 5% que l’intervalle de confiance ne recouvre pas cette valeur. Parmi tous les échantillons que l’on peut tirer, l’aléa d’échantillonnage fera que 5% d’entre eux aboutiront à un intervalle de confiance qui ne recouvre pas la vraie valeur, alors même que le score du candidat est effectivement de 50%.

C’est là le premier risque d’erreur d’un test statistique: l’intervalle de confiance ne recouvre pas la vraie valeur, et on conclut à tort que cette vraie valeur est à rejeter. Par construction du test, on maîtrise ce risque: ici, il est égal à 5%.

Mais il y a un autre risque d’erreur. Supposons que la vraie valeur ne soit pas 50%, et que pourtant l’intervalle de confiance recouvre la valeur 50%. On va conclure, à tort, que les scores des deux candidats sont égaux. Quelle est la probabilité de ce risque? La seule chose que l’on puisse dire, avec la procédure retenue, est qu’elle est inférieure à 95%…. Il est tout à fait possible, selon la taille de l’échantillon et la vraie valeur, que la probabilité de dire à tort que les scores des candidats sont égaux, alors qu’ils ne le sont pas, soit de 50%, 60%, 70%….Ce second risque n’est pas maîtrisé dans la procédure retenue.

Niveau et puissance

A chaque test, on peut associer  deux indicateurs, qui mesurent la qualité du test:

–       Le niveau, qui est la probabilité de rejeter l’hypothèse testée, alors qu’elle est exacte (ce qu’on ne souhaite pas faire). On cherche à minimiser le niveau.

–       La puissance, qui est la probabilité de rejeter l’hypothèse testée, alors qu’elle est fausse (ce qu’on souhaite faire). On cherche à maximiser la puissance.

Dans la procédure de test décrite précédemment, on maîtrise le niveau, mais on n’a pas d’idée de la puissance. Et celle-ci peut être très faible, éventuellement à peine supérieure au niveau.

Un résultat de base de la statistique est qu’il n’est pas possible de simultanément minimiser le niveau et maximiser la puissance d’un test: c’est exactement la même chose que pour le biais et la précision, qui ne peuvent être optimisés simultanément.

D’où l’idée de la procédure ci-dessus, qui consiste à fixer le niveau du test (à 5% par exemple), et à chercher un test dont la puissance est maximale parmi tous les tests de niveau 5%.

Importance de la taille

Comment faire pour augmenter la puissance d’un test? Une seule solution: augmenter la taille de l’échantillon. Sur des échantillons de taille faible, la puissance des tests sera faible. Comme d’habitude, avec peu d’observations, la statistique n’a pas grand-chose à dire.

Le graphique ci-dessous donne la puissance du test sur le sondage électoral, en fonction de la vraie valeur du score du candidat.

Sans titre Tests statistiques

 

Par construction, si la vraie valeur du score du candidat est 50%, la puissance est égale au niveau (et égale à 5%), quelle que soit la taille de l’échantillon. Plus la taille de l’échantillon augmente, et plus la vraie valeur est éloignée de la valeur testée (50%), plus la puissance augmente.

Supposons que l’on ait 1000 répondants. Alors,

–       Si la vraie valeur du score des candidats est de 50% (c’est-à-dire si l’élection est encore indécise), la probabilité de se tromper, et de dire que l’élection est décidée, avec la procédure de test ci-dessus, est de 5%.

–       Si la vraie valeur du score d’un des candidats est de 51,5% (et donc que l’élection n’est pas indécise), la probabilité de se tromper, et de dire que l’élection est indécise, avec la procédure de test ci-dessus, est de 63% !

Comme cela a déjà été dit, nous pensons que les sondages électoraux sont en fait plus précis que ne l’indiquerait le calcul basé sur un sondage aléatoire. On peut penser que la puissance du test est en fait supérieure. Mais cela confirme l’intuition qui consiste à cumuler les chiffres des différents instituts pour rendre plus robuste les conclusions. Avoir plusieurs instituts mesurant le même chiffre est une bénédiction statistique…

Transposons cela au test d’un médicament. On cherche à tester que le médicament est efficace. En reprenant, de manière fictive, les chiffres ci-dessus :

–       Si le médicament est effectivement efficace, la probabilité de se tromper, et de dire qu’il est inefficace, est de 5%.

–       Si le médicament est inefficace, la probabilité de se tromper, et de dire qu’il est efficace, est de 63%…..

Nous ne prétendons pas que ces chiffres s’appliquent aux procédures de test des médicaments. Mais au moins sont-ils une incitation à regarder avec circonspection les essais cliniques réalisés sur de petits échantillons.

Faux positifs et faux négatifs

La procédure de test dont nous venons de parler introduit une dissymétrie entre les hypothèses testées. Reprenons les deux exemples que nous avons discutés :

–       On teste si l’augmentation de la confiance des ménages en mars  est significativement différente de 0. Cela revient à tester deux hypothèses l’une contre l’autre : augmentation égale à 0 contre augmentation différente de 0. Dans le jargon des statisticiens, la première est l’hypothèse nulle, la seconde est l’hypothèse alternative.

–       On teste si les scores de deux candidats à une élection sont significativement différents, au vu d’un sondage. Cela revient à tester deux hypothèses l’une contre l’autre : scores égaux (et donc égaux à 50%), contre scores différents. Là aussi, hypothèse nulle contre hypothèse alternative.

La dissymétrie entre les deux hypothèses testées vient de la manière dont on contrôle le risque de se tromper suivant que l’une ou l’autre est vraie :

–       On contrôle le niveau du test, c’est-à-dire la probabilité de se tromper si l’hypothèse nulle est vraie (donc, la probabilité de dire que la confiance augmente alors qu’elle n’augmente pas ou la probabilité de dire qu’il y a un vainqueur, alors que les scores ne sont en fait pas statistiquement différents). On peut placer la barre pour le niveau où on le souhaite : 5%, 1%, 0,1%….

–       On ne contrôle pas la puissance du test, et donc pas la probabilité de se tromper si l’hypothèse alternative est vraie : si la confiance des ménages augmente vraiment, la procédure de test retenue ne permet pas de contrôler la probabilité de dire qu’elle est stable ; si les scores des candidats sont différents, on ne contrôle pas la probabilité de dire qu’ils sont égaux. Et on a vu que, même avec un échantillon de 1000 personnes, cette probabilité peut être sensiblement plus élevée que le niveau.

Un faux positif survient quand on rejette l’hypothèse nulle à tort. Un faux négatif survient quand on rejette l’hypothèse alternative à tort. La procédure de test choisie permet de contrôler le nombre de faux positifs, mais pas le nombre de faux négatifs. Ce sont eux les vrais dangers qui guettent le statisticien dans son process de décision à partir des données.

Du coup, le choix de l’hypothèse nulle à tester ne sera pas innocent. Un laboratoire pharmaceutique préfèrera l’hypothèse nulle « le médicament est efficace ». Le patient, probablement l’inverse….

Symétrie de l’intervalle de confiance

On a vu dans l’article sur les intervalles de confiance que l’intervalle de confiance de longueur minimale est l’intervalle symétrique, ce qui justifiait le choix de la symétrie de l’intervalle.

Il y a une autre justification à ce choix, purement statistique celle-ci : Choisir un intervalle de confiance symétrique permet d’assurer que la puissance sera toujours supérieure au niveau, ce qui est une condition minimale….On parle alors de test sans biais.

Choix du niveau du test

Comme pour les intervalles de confiance, le résultat d’un test va dépendre de trois paramètres :

–       La dispersion intrinsèque des données (la variance),

–       La taille de l’échantillon,

–       Le niveau de confiance retenu pour le test.

L’usage universellement répandu est de retenir un niveau de 95% : si l’hypothèse que l’on teste est exacte, il y a 5% de chance de se tromper et de tirer un échantillon qui nous dira que l’hypothèse testée doit être rejetée.

Ce seuil est bien sûr arbitraire et n’a pas de justification théorique. La tentation est alors grande, pour le praticien, de choisir le niveau du test en fonction de l’histoire qu’il souhaite raconter. Tout logiciel de traitement de données permettra de sortir ce type de tableau :

Magasin 1 (A) Magasin 2 (B) Magasin 3 (C) Magasin 4 (D)
Satisfaction à l’égard du magasin 82%BCd 65%AcD 71%Abd 76%aBc

 

Ce tableau permet de tester si la satisfaction à l’égard d’un magasin est significativement différente de la  satisfaction à l’égard d’un autre magasin : la satisfaction à l’égard du magasin 1 est significativement différente de celle vis-à-vis des magasins 2 et 3 au niveau 95%. Et significativement différente de celle vis-à-vis du magasin 4 au niveau 90%. Ceci est matérialisé par des lettres en majuscules (pour le niveau 95%) et en minuscules (pour le niveau 90%), qui indiquent les colonnes testées. L’avantage de cette représentation est son caractère compact : on a immédiatement sous les yeux le résultat des tests pour différents niveaux. Mais elle a aussi un inconvénient: il est facile, et tentant, de ne pas utiliser le même niveau pour des tests concernant un même jeu de données.

Ainsi, dans l’exemple ci-dessus, les magasins B et C sont significativement au-dessous du magasin 1 à 95% et 90%. Puis, suivant le choix du niveau, on peut dire que A et D sont similaires, ou différents. Notre recommandation : choisir un et un seul niveau de test pour un jeu de données, et ne pas chercher à présenter différents résultats de tests avec différents niveaux pour un même jeu de données. Cela ne peut que rendre confus les résultats. Mais il est tout à fait raisonnable de choisir des niveaux de tests différents suivant la taille de l’échantillon. Les deux paragraphes suivants expliquent pourquoi. Au doigt mouillé : faites des tests à 90% quand vous avez moins de 300 répondants, des tests à 99% au-delà de 2000 interviews, et à 95% entre les deux.

p-value

L’information sur le niveau du test qu’il faudrait retenir pour ne pas rejeter une hypothèse que l’on teste est résumée par la p-value (p pour probabilité. La p-value est une probabilité). Cet indicateur indique la distance entre les données dont on dispose, et celles qui amèneraient à rejeter l’hypothèse testée. Il se calcule directement à partir de la statistique de test : la donnée de la p-value est équivalente à celle de la statistique de test et vice-versa.

Supposons que l’on teste l’égalité des scores des deux candidats à une élection, comme dans le paragraphe 1. Le tableau ci-dessous donne la valeur de la p-value pour quelques valeurs de la statistique de test, et le niveau du test de d’acceptation de l’hypothèse d’égalité des scores.

Tant que la p-value est au-dessus de 5%, on ne rejette pas l’hypothèse d’égalité des scores au niveau 5%.

Statistique de test p-value Commentaire
0,50 0,6171 Acceptation à 95%. Rejet à 38%…..
1,95 0,0512 Acceptation à 95%. Rejet à 94%
2,50 0,0124 Rejet à 95%. Acceptation à 99%.
6,00 <0,0001 Rejet à 95% et 99%.

 

Tests statistiques sur grands échantillons

Les praticiens de la statistique sont parfois confrontés à des problèmes à l’opposé de la faible puissance mentionnée au paragraphe 2.

Supposons que l’on fasse une modélisation multivariée, par exemple une régression linéaire. Dans ce genre de modélisation, on veut souvent tester que des variables explicatives sont non significatives, ou bien tester que les effets de deux variables sont identiques. Cela revient à tester que deux coefficients sont égaux. Le test statistique nous dira si les deux coefficients sont exactement égaux, alors que, bien souvent, le praticien cherche à savoir si on peut les considérer comme à peu près égaux.

 

Intéressons-nous, par exemple, à l’abstention lors du premier tour des élections législatives françaises de juin 2012. L’abstention est d’autant plus forte que la taille de la commune est grande. Le graphique ci-dessous donne le taux d’abstention par décile de nombre d’inscrits sur les listes électorales : plus il y a d’inscrits, plus il y a d’abstention.
Graph 2 Tests statistiques

 

Les chiffres ci-dessus sont calculés sur l’ensemble de l’univers de référence. Ils ne sont entachés d’aucun aléa. Par exemple, il y a effectivement une différence de taux d’abstention entre le décile 7 (37,5%) et le décile 8 (38,0%). Pour le praticien, cependant, cette différence est immatérielle si on la compare aux différences entre les autres catégories de communes. Dans un modèle qui prendrait en compte le taux d’abstention, et dans un principe de parcimonie, on considèrerait probablement que le taux d’abstention entre ces deux catégories de communes est égal.

Si on n’avait pas accès aux chiffres exhaustifs, mais à un échantillon, on réaliserait un test. Voici les résultats de différents tests, en fonction de la taille de l’échantillon de communes :

Nombre de communes Statistique de test p-value
1100 0,58 0,45
2150 1,34 0,25
11000 3,32 0,07
15000 6,14 0,01
33000 8,07 0,00

 

Tant que l’on fait le test sur moins de 11000 communes, on ne rejette pas l’hypothèse que les taux d’abstention sont égaux entre les deux catégories de commune, au niveau 5%.  Puis, quand la taille de l’échantillon augmente au-delà, on rejette l’hypothèse.

Ce tableau n’est rien d’autre qu’une illustration du graphique de la section 2 sur la puissance d’un test. L’hypothèse que l’on cherche à tester n’est pas exactement vérifiée, mais seulement approximativement. Quand la taille de l’échantillon augmente, la puissance du test tend vers 1 dès que l’on est un peu à côté de l’hypothèse que l’on teste.

Tout praticien de l’analyse des données a été confronté à cela : sur des grandes tailles d’échantillon, il est quasiment impossible d’accepter des hypothèses testées, au détriment de la parcimonie des modèles, et de la simplicité de communication de l’histoire que racontent les données.

Tests Bayésiens

La théorie des tests exposée dans cet article est largement utilisée car elle est simple à comprendre et à mettre en œuvre. Elle se heurte cependant à deux difficultés : faible puissance avec de petits échantillons, trop forte puissance pour les grands échantillons. Ces deux difficultés ont une seule et même origine : la dissymétrie que l’on a introduite entre les deux hypothèses testées.

La théorie bayésienne des tests permet de s’affranchir de cette dissymétrie.

La théorie bayésienne de l’estimation consiste à reconnaître qu’on a en général une idée a priori sur le modèle que l’on cherche à estimer et sur ses paramètres. Par exemple, supposons que l’on cherche à estimer un modèle de prévision de résultats de matchs de football. On cherche à estimer la probabilité p de gain d’une équipe donnée. Le modèle va prendre en compte le fait que cette probabilité n’est peut-être pas la même selon que l’équipe joue à domicile ou à l’extérieur : la probabilité de gain à l’extérieur sera notée p, et celle à domicile p+δ.  δ est a priori positif, peut-être nul, probablement pas négatif. Ceci va être modélisé par le fait que δ suit une loi de probabilité de moyenne strictement positive, avec une probabilité non nulle d’être égal à 0 (les détails mathématiques de la modélisation sont ici). Cette loi est un a priori, que l’on présuppose avant l’observation des données.

L’estimation bayésienne va consister à calculer comment se modifie cet a priori une fois que l’on a analysé les données. La loi a priori va être confrontée aux données, et on va en déduire une nouvelle loi pour δ, appelée loi a posteriori. Le nom de théorie Bayésienne vient d’un mathématicien anglais du 18ième siècle, le révérend Bayes, à l’origine de la formule qui porte son nom, et qui permet de calculer la probabilité conditionnelle d’un événement par rapport à un autre événement. Dans notre cas, la loi a posteriori de δ est la loi conditionnelle de δ, conditionnellement aux observations, et elle se calcule à partir de la loi a priori et de la loi des observations, conditionnellement à δ. Dit plus simplement, la loi a priori est mise à jour à partir de l’observation des données, comme le résume le schéma ci-dessous :

Avant la collecte des données Collecte des données Analyse des données
A priori sur δ Elles suivent une loi conditionnelle à δ Mise à jour de l’a priori sur δ, conditionnellement aux données observées.

Supposons que l’on cherche à tester que δ est égal à 0. Un test bayésien consistera à comparer la probabilité que δ soit égal à 0, conditionnellement aux données, et la probabilité que δ soit différent de 0, conditionnellement aux données. Si la première est supérieure à la seconde, on acceptera l’hypothèse que δ est égal à 0. Des versions plus élaborées de tests bayésiens consisteraient à donner un poids différent aux hypothèses testées, suivant le risque de se tromper, mais cela ne change pas le raisonnement.

Quelle serait la différence entre le test basé sur les intervalles de confiance et le test bayésien ? Tous les deux vont être basés sur l’observation de la différence entre les probabilités de gain à domicile et à l’extérieur. Dès que cette différence est trop grande, on rejettera l’hypothèse que δ est égal à 0. Mais le test bayésien apporte un coefficient correcteur, qui augmente avec la taille de l’échantillon : là où le test basé sur l’intervalle de confiance à 95% rejettera l’hypothèse δ=0, le test bayésien pourra encore l’accepter, résolvant ainsi le problème mentionné au paragraphe 5.

C’est à vous

On s’intéresse à deux concepts de nouveaux produits, A et B, que l’on a testés chacun auprès de 400 interviewés. On a donc 800 interviews, 400 sur le produit A et 400 sur le produit B. Les intentions d’achat ressortent à 30% pour A et 35% pour B. On cherche à savoir si ces scores d’intentions d’achat sont significativement différents.

 

Article reliés

Intervalles de confiance

Précision des sondages électoraux

Références

S. Kullback (1959): Information Theory and Statistics – Wiley

T.S. Ferguson (1967) : Mathematical Statistics – Academic Press

J.P. Lecoutre (2012) : Statistique et probabilités – Dunod

A. Monfort  (1982) : Cours de statistique mathématique –- Economica

S.D. Silvey (1975) : Statistical inference – Chapman and Hall

Démonstration – Test bayésien sur δ

La loi a priori sur δ est:

–       δ = 0 avec probabilité P

–       δ suit une loi normale de moyenne m et de variance 1 avec une probabilité 1-P.

On va supposer, pour simplifier, qu’il y a autant de matchs à domicile que de matchs à l’extérieur. δ peut être estimé par la différence entre les pourcentages de matchs gagnés à domicile et de maths gagnés à l’extérieur, que l’on va noter Z.

La loi conditionnelle de Z sachant δ est une loi normale de moyenne δ et de variance σ/N, où N est le nombre de matchs à domicile. Il s’agit là d’une approximation qui n’est valide que si N est grand.

Il s’agit donc de calculer la loi de probabilité de δ conditionnellement à Z.

La probabilité que δ soit égal à 0, conditionnellement à Z, s’écrit :

P * racine(N/(2πσ))*exp(-N/(2σ)*Z²)/l(Z)

Où l(Z) est la loi non conditionnelle de Z.

La probabilité que δ soit différent de 0, conditionnellement à Z, se calcule en intégrant sur δ le produit de la loi de δ avec la loi conditionnelle de Z sachant δ. Elle s’écrit :

(1 – P)/racine(2π)*racine(N/σ/(N/σ+1))*exp(-N/(2σ)*(Z-m)²/(N/σ+1))/l(Z)

Le test basé sur les intervalles de confiance consistera à rejeter l’hypothèse δ = 0 si Z est supérieur à c/racine(N), où c dépend du niveau du test et de la loi de Z.

Le test bayésien consistera à rejeter l’hypothèse δ = 0 si la probabilité que δ soit égal à 0, conditionnellement à Z, est inférieure à la probabilité que δ soit différent de 0, conditionnement à Z. Tout calcul fait, on voit que cela consiste à rejeter l’hypothèse δ = 0 si Z est supérieur à un coefficient qui évolue comme racine(ln(N)/N), donc moins rapidement – en fonction de la taille d’échantillon  – que pour le test basé sur les intervalles de confiance.