En comparant les distributions continues des groupes de taille inégale dans SPSS, Andrew Wheeler
L'autre jour, j'ai eu la tâche de comparer deux distributions d'une variable continue entre deux groupes. Une complication qui a surgi lors d'une tentative de faire des comparaisons graphiques est que les groupes avaient la taille inégale des échantillons. Je fais ce blog principalement parce que beaucoup des options que je vais montrer ne peut pas être fait dans SPSS directement via l'interface utilisateur graphique (GUI), mais la compréhension alittle peu sur la façon dont les options graphiques fonctionnent dans la GPL vous aidera à faire les cartes que vous voulez faire sans avoir à compter uniquement sur ce qui est disponible via l'interface graphique.





Parfois, vous pouvez pas toujours obtenir ce que vous voulez grâce à l'interface graphique de grapheur bien. Pour un exemple, je voulais d'abord faire un tableau de type pyramide de la population, et il ne vous permet pas de spécifier le pour cent de base comme par l'interface graphique. Donc, je l'origine fait un tableau de pyramide comme celui-ci;

Et voici ce que la sortie collé apparaît comme.

Vous pouvez effectivement modifier post-hoc de l'histogramme traditionnel pour faire une pyramide de la population (en miroir les panneaux), mais en examinant la GPL produit pour le tableau ci-dessus vous donne un aperçu des possibilités potentielles que vous pouvez faire pour produire une variété de graphiques en SPSS.


L'une des critiques de ce bien est que le choix d'un noyau et la bande passante est ad-hoc (je viens d'utiliser tous la valeur par défaut Kernal et la bande passante dans SPSS ici, et il diffère de manière inattendue entre les chiffres de fréquence et les estimations pondérées qui est indésirable ). vous pouvez aussi voir que certains de la densité est lissée sur les valeurs illogiques dans cet exemple (valeurs inférieures à 0). D'autres parcelles potentielles sont la distribution cumualitive et QQ-parcelles comparant les quantiles de chaque distribution à l'autre. Encore une fois ceux-ci sont difficiles à impossible d'obtenir par l'interface graphique. Voici le plus proche je pourrais venir à obtenir une distribution cumulative par des groupes à travers l'interface graphique.


Ces parcelles cumulatives ne sont pas aussi problématiques avec des bacs comme les histogrammes ou les estimations de kde, et en fait de nombreuses questions intéressantes sont beaucoup plus faciles traitées avec les parcelles cumulatives. Par exemple, si je voulais connaître la proportion d'événements qui se produisent dans les 10 jours (ou son complément, la proportion d'événements qui ne se produisent pas encore dans les 10 jours), c'est une tâche facile avec les parcelles cumulatives. Ce serait au mieux extrêmement difficile de déterminer avec les estimations de l'histogramme ou de densité. L'intrigue cumulative donne également une comparaison graphique de la distribution (mais peut-être pas aussi intuitif que l'histogramme ou les estimations de kde). Par exemple, il est facile de voir l'emplacement du groupe 2 est légèrement décalé vers la droite.
La dernière parcelle je présente est un complot de QQ. Ceux-ci sont généralement présentées comme traçant une distribution empirique contre une distribution théorique, mais vous pouvez tracer deux distributions empiriques les uns contre les autres. Encore une fois, vous ne pouvez pas tout à fait obtenir la QQ-parcelle d'intérêt si l'interface graphique régulière, et vous devez faire une manipulation de données pour être en mesure de construire les éléments du graphe. Vous pouvez le faire QQ-complots contre une distribution théorique dans la commande PPLOT, vous pouvez donc faire des parcelles QQ séparés pour chaque sous-groupe, mais cela est loin d'être idéal. Ci-dessous je coller un exemple de ma construction QQ-terrain, ainsi que la syntaxe montrant comment utiliser la commande PPLOT pour les sous-groupes séparés (en utilisant le fichier SPLIT) et d'obtenir les quantiles de intrest en utilisant la commande RANK.

Bien que j'ai commencé avec une question simple, il faut juste un peu de connaissances sur les comparant graphiquement les distributions et la gestion des données (à savoir comment former vos données) pour être en mesure de faire tous ces types de graphiques dans SPSS. J'ai délibérément fait les distributions de référence très similaire, et si vous venez coincé avec l'histogramme typique des légères différences dans l'emplacement et l'échelle entre les deux distributions ne serait pas aussi évidente qu'elle est avec la densité du noyau, la distribution cumulée ou les QQ-parcelles .