En divisant une variable continue dans les catégories
FAUTES COMMON MISTEAKS EN STATISTIQUES UTILISATION: Spotting et les éviter
Ceci est également connu sous d'autres noms tels que « discrétisation », « données de hachage » ou « binning ». 1 Des méthodes spécifiques parfois utilisées comprennent « split médiane » ou « queues troisième extrêmes ».
Quoi qu'il en soit appelé, il est généralement 2 une mauvaise idée. Au lieu de cela, utiliser une technique (comme la régression) qui peut fonctionner avec la raison fondamentale variable.Appareil continue est intuitive: Vous Jetant loin d'informations. Cela peut se produire de diverses manières avec des conséquences diverses. Voilà quelque:
1. Lorsque vous effectuez des tests d'hypothèses, la perte d'informations lors de la division des variables continues dans des catégories se traduit généralement par la perte de puissance. 3
2. La perte d'informations impliquées dans le choix des bacs pour faire un histogramme peut donner lieu à un histogramme trompeur.
Exemple. Les trois graphiques suivants sont tous histogrammes des mêmes données (les temps entre les éruptions successives du geyser Old Faithful à Yellowstone National Park). Le premier a cinq bacs, les bacs sept secondes, et les troisièmes 14 bacs.



Notez que cet histogramme avec seulement cinq bacs ne piquez pas la bimodalité des données; l'histogramme avec sept bacs allusion à ce; et l'histogramme avec 14 bacs montre plus clairement. 4