La muticolinéarité est une caractéristique intrinsèque, et probablement souhaitable, de données perceptuelles. Mais la présence de multicolinéarité dans les données, si elle n’est pas traitée correctement, peut être responsable d’intervalles de confiance trop larges autour des paramètres estimés par un modèle, et donc de résultats peu interprétables ou opérationnels.
Supposons que l’on cherche à déterminer l’influence de la distance entre le domicile de clients et la localisation d’un supermarché sur la fréquentation de ce supermarché. Une possibilité est de faire une régression logistique, modélisant la fréquentation (variable oui/non) en fonction des caractéristiques du client et de cette distance.
Que se passe-t-il si dans le modèle, on met à la fois la distance mesurée en mètres et la distance mesurée en kilomètres ?
Voici le tableau des variables explicatives du modèle, pour les 4 premières observations :
Taille foyer | Présence d’enfants | Revenu du foyer | Type d’agglomération | Distance en m | Distance en km | …… |
2 | Non | 2 | 5 | 150 | 0,150 | |
4 | Oui | 2 | 2 | 800 | 0,800 | |
1 | Non | 1 | 3 | 50 | 0,050 | |
3 | Oui | 4 | 5 | 450 | 0,450 |
Les deux colonnes distance en mètres et distance en kilomètres sont exactement proportionnelles. Or, le principe de la régression est de donner un poids à chacune des variables dans la décision de fréquentation. Impossible de donner des poids séparément à la distance en mètres et à la distance en kilomètres : il s’agit de la même variable.
Dans une régression, cela se traduira par le fait que la matrice des produits croisés des variables explicatives est non inversible. Il faut retirer l’une des deux variables de distance pour estimer le modèle.
Dès que l’on travaille sur les perceptions des consommateurs, les variables dont on dispose sont très souvent corrélées.
Supposons par exemple que l’on s’intéresse à la satisfaction de clients vis-à-vis de leur banque. Ces clients ont donné une note de satisfaction sur une échelle de 1 à 10. Voici les corrélations que l’on observe entre les différentes dimensions mesurées :
Satisfaction globale | Satisfaction vis-à-vis de l’agence | Satisfaction vis-à-vis du conseiller | Satisfaction vis-à-vis de l’offre produits | …… | |
Satisfaction globale | 1 | 0,72 | 0,79 | 0,47 | |
Satisfaction vis-à-vis de l’agence | 0,72 | 1 | 0,75 | 0,42 | |
Satisfaction vis-à-vis du conseiller | 0,79 | 0,75 | 1 | 0,38 | |
Satisfaction vis-à-vis de l’offre produits | 0,47 | 0,42 | 0,38 | 1 | |
…… |
La satisfaction globale est corrélée de manière importante avec la satisfaction à l’égard de l’agence ou du conseille commercial : ces deux dimensions vont être des leviers importants de la satisfaction globale.
Mais on voit aussi que la satisfaction à l’égard de l’agence est très corrélée avec la satisfaction à l’égard du conseiller commercial. Or, ces deux dimensions vont figurer parmi les variables explicatives de la satisfaction globale, dans un modèle cherchant à déterminer les leviers de la satisfaction globale.
Par exemple, un modèle simple pourrait être le suivant :
Satisfaction globale= a+ b*satisfaction vis-à-vis de l’agence+ c*satisfaction vis-à-vis du conseiller+ d* satisfaction vis-à-vis de l’offre produit+…
b et c sont les poids de l’agence et du conseiller dans la construction de la satisfaction globale. Ce type de modélisation – en général un peu plus sophistiquée – permet de comprendre les déterminants de la satisfaction des clients et donc de prioriser les actions à mener pour élever leur niveau de satisfaction.
Comme les satisfactions vis-à-vis et l’agence et vis-à-vis du conseiller sont corrélées de manière importante, les paramètres b et c risquent d’être estimés avec une faible précision. C’est ce qu’on appelle la multicolinéarité.
Si les deux dimensions étaient parfaitement corrélées, comme dans le paragraphe précédent, on ne pourrait estimer qu’un seul paramètre. On serait dans un cas de colinéarité exacte, avec une matrice des produits croisés des variables explicatives non inversible.
Quand deux variables sont très corrélées, la matrice des produits croisés des variables explicatives est proche de la non inversibilité. Donc, son inverse est très grande, un peu comme l’inverse d’un nombre proche de 0 est un grand nombre. Or, dans une régression, les intervalles de confiance autour des paramètres estimés sont proportionnels aux éléments de cette matrice inverse : d’où la possibilité d’avoir des intervalles de confiance larges quand les variables explicatives sont très corrélées.
Il s’agit d’un problème tout à fait opérationnel : savoir si l’agence est un levier de la satisfaction globale plus important, moins important ou équivalent, que le conseiller commercial, va amener à des investissements CRM différents. Et les intervalles de confiance autour des paramètres du modèle aident à répondre à cette question.
Il est donc important de bien traiter cette configuration des données.
La multicolinéarité est souvent traitée comme une maladie honteuse, dont il faudrait se débarrasser. Ce n’est pas comme cela que, chez SLPV analytics, nous voyons les choses. Pourquoi les données perceptuelles concernant une marque sont-elles corrélées entre elles ? Précisément parce qu’elles ont une dimension commune. Et bien souvent, cette dimension commune est la dimension marque. Sans effet marque, il n’y a pas – ou beaucoup moins – de multicolinéarité.
Si les données que nous collectons ne présentaient pas de multicolinéarité, de grands pans du marketing disparaîtraient. Encore heureux, donc, que nos données perceptuelles sont multicolinéaires. Il serait très étrange qu’elles ne le soient pas.
Mais bien sûr, il faut traiter le problème posé par l’éventuelle imprécision des coefficients estimés dans un modèle où les données sont très corrélées. Il est alors crucial de faire le bon diagnostic pour trouver le bon remède.
Quel est le problème posé par la multicolinéarité ? Ce n’est pas un problème de biais, mais un problème de précision (voir démonstration en annexe ou hyperlien). Les deux notions (on en parle ici) sont très différentes, mais un principe de base de la statistique est qu’il y a un trade off à faire entre les deux.
Que dit Wikipedia, la sagesse des foules, sur ce sujet ? 10 solutions sont proposées
– Cinq ne résolvent rien : (1) Vérifier qu’on n’a pas de la colinéarité exacte : cela se voit immédiatement sur l’output de la régression (2) Regarder comment varie les coefficients si on estime le modèle sur des sous échantillons. Inutile : les écart-types estimés des coefficients nous donne la réponse (3) Laisser les choses en l’état. (6) et (7) Centrer-réduire les variables indépendantes. Cela ne change rien au modèle.
– Trois autres proposent d’introduire un biais : (4) Enlever des variables du modèle (8) Utiliser la Shapley Value ou (9) la régression Ridge/l’ACP
– Deux proposent effectivement d’accroître la précision du modèle, sans nécessairement introduire de biais dans le modèle : (5) Obtenir plus de données (10) Dans le cas très particulier où on a un modèle sur données temporelles, avec valeurs passées des variables indépendantes, imposer une structure aux coefficients des variables retardées.
Cette liste de solutions, et sa hiérarchie, reflète malheureusement bien la confusion qui règne sur ce sujet parmi les praticiens de la modélisation.
Introduire un biais dans un modèle pour résoudre un problème de précision revient, à notre avis, à couper la tête du malade qui souffre de migraines. Autant on dispose d’outils statistiques pour mesurer la précision d’un modèle, autant, par définition, le biais est non mesurable. Si le biais est important, on aboutit à des conclusions non opérationnelles, voire dommageables. Il faut noter cependant que ce type de solution a de nombreux adeptes, avec la régression Ridge et, bien pire à nos yeux, la Shapley Value.
Nous suggérons deux autres solutions :
– Obtenir plus de données est la meilleure réponse au problème posé. Nous montrons ici que cela résout bien la question. Cette solution est plus opérationnelle qu’elle n’en a l’air. Les modélisations sur données perceptuelles se font souvent dans un contexte barométrique. Il est rare que les leviers de la préférence entre marques, de la satisfaction globale, de la brand equity,… varient significativement en quelques mois, voire en quelques années dans certains secteurs. Cumuler les vagues d’un baromètre pour avoir plus de données, et donc plus de précision dans la modélisation, est une excellente réponse aux challenges posés par la multicolinéarité
– Réduire le nombre de paramètres estimés dans le modèle, en testant l’égalité des coefficients. C’est une solution similaire à celle suggérée par Wikipedia dans le cas particulier d’un modèle sur données temporelles. En imposant des contraintes sur les coefficients, on diminue la dimensionnalité du modèle, et l’expérience prouve qu’on réduit les intervalles de confiance autour des paramètres estimés.
Vous souhaitez comprendre les déterminants de la préférence fournisseurs d’accès à internet. Pour cela, vous allez mesurer les perceptions de clients sur une trentaine de dimensions concernant l’offre produits, le service client, le support, les tarifs, la perception de la marque.
Vous allez ensuite estimer un modèle, reliant la préférence pour un FAI aux perceptions recueillies sur ce FAI et ses concurrents. Les perceptions sur toutes les dimensions sont évidemment très corrélées, et un premier modèle reliant les préférences à toutes les dimensions mises sur le même plan aboutit à des résultats non conclusifs, les coefficients estimés ayant des intervalles de confiance très larges. Parmi les étapes suivantes possibles, laquelle préférez-vous :
Biais
Effet de Halo
Régression
Shapley Value
Variance
Au grand étonnement de l’auteur de ces lignes, le sujet de la multicolinéarité a fasciné de nombreux auteurs et les papiers pratiques et théoriques à ce sujet sont innombrables, bien plus nombreux que sur des sujets plus fondamentaux tels que le traitement de l’endogénéité. Tout manuel d’économétrie qui se respecte traitera donc du sujet. Une référence classique est
A.S. Goldberger (1964) : Econometric theory – John Wiley & Sons.
Ou
A.S. Goldberger (1991) : A course in econometrics – Harvard University Press.
Sauf erreur, le premier article proposant l’usage de la Shapley Value est le suivant :
Conklin M., Powaga K., Lipovetsky S., Customer Satisfaction Analysis (2004) : Identification of Key Drivers – European Journal of Operational Research, 154/3, 819-827.
La multicolinéarité pose un problème de précision, pas de biais : démonstration mathématique
On considère le modèle linéaire classiquement écrit sous la forme :
Y= Xβ + U
L’estimateur des moindres carrés, et sa variance, s’écrivent :
Estimateur de beta = [X’X]-1X’Y Variance de l’estimateur de beta = σ²[X’X]-1
Avec V(U|X) = σ².
La condition nécessaire et suffisante pour que l’estimateur de beta soit sans biais est que l’espérance conditionnelle de U sachant X soit nulle. C’est la condition classique d’exogénéité : les variables explicatives du modèle ne doivent pas être corrélées avec les variables qui n’ont pas été mises dans le modèle.
En effet :
E([X’X]-1X’Y|X)= [X’X]-1X’ E(Y|X)= [X’X]-1X’Y (Xβ + E(U|X)= β + [X’X]-1XE(U|X).
Dès que le second terme est nul, l’estimateur est sans biais.
Cette condition n’a aucun rapport avec l’éventuelle corrélation des variables : la multicolinéarité n’est pas un problème de biais.
En revanche, la multicolinéarité affecte la précision des estimateurs. En présence de multicolinéarité, la matrice [X’X]-1 devient très grande, et la variance de beta aussi.
Augmenter la taille de l’échantillon est un remède possible. Supposons que les variables soient corrélées, mais pas exactement colinéaires. Alors, au fur et à mesure que la taille N de l’échantillon grandit, la matrice [X’X]/ N va tendre vers une matrice M inversible. Et donc, la variance de l’estimateur de beta va tendre vers 0 :
Variance de l’estimateur de beta = σ²[X’X]-1= (σ²/N)[X’X/N]-1 ~ (σ²/N) M → 0 quand N → ∞