statistiques multicolinéarité, logiciel statistique pour Excel
Qu'est-ce que multicolinéarité
Les variables sont dites multicollinear s'il existe une relation linéaire entre eux. Ceci est une extension du simple cas de colinéarité entre deux variables. Par exemple, pour trois variables X1, X2 et X3, nous disons qu'ils sont multicollinear si nous pouvons écrire:
où a et b sont des nombres réels.
Comment détecter multicolinéarité
Pour détecter les multicolinearities et identifier les variables impliquées, les régressions linéaires doivent être effectuées sur chacune des variables en fonction des autres. On calcule alors:
- Le R² de chacun des modèles Si le R² est 1, alors il existe une relation linéaire entre la variable dépendante du modèle (Y) et les variables explicatives (le Xs).
- La tolérance pour chacun des modèles. La tolérance est (1-R²). Il est utilisé dans plusieurs méthodes (régression linéaire, la régression logistique, l'analyse discriminante factorielle) en tant que critère pour les variables de filtrage. Si une variable a une tolérance inférieure à un seuil fixe (la tolérance est calculée en tenant compte des variables déjà utilisées dans le modèle), il est interdit d'entrer dans le modèle que sa contribution est négligeable et il risque de provoquer des problèmes numériques.
- Le VIF (Variance de facteur d'inflation) Le VIF est égale à l'inverse de la tolérance.
Utilisation des statistiques de multicolinéarité
Détection multicollinearities au sein d'un groupe de variables peut être particulièrement utile dans les cas suivants: