Les données manquantes, modules SPSS apprentissage - Statistiques Idre
1. Introduction
Ce module explorera les données manquantes dans SPSS, en se concentrant sur les données manquantes numériques. Nous allons décrire comment indiquer les données manquantes dans vos fichiers de données brutes, comment les données manquantes sont dans les procédures SPSS, et la façon de traiter les données manquantes dans une transformations de données SPSS. Il existe deux types de valeurs manquantes dans SPSS: 1) les valeurs manquantes par défaut, et 2) les valeurs manquantes définies par l'utilisateur. Nous démontrerons les données de lecture contenant chaque type de valeur manquante. Les deux ensembles de données sont identiques, sauf pour le codage des valeurs manquantes. Pour les deux ensembles de données, supposons que nous avons fait une étude de temps de réaction avec 6 sujets, et le temps de réaction des sujets a été mesurée trois fois.
2. Les valeurs manquantes par défaut
Les valeurs sont des valeurs reconnues automatiquement manquantes par SPSS. Vous remarquerez peut-être que quelques-uns des temps de réaction sont laissés en blanc dans les données ci-dessous. Telle est la façon acceptée du système indiquant les données manquantes dans l'ensemble de données. Par exemple, pour 2, le deuxième essai est vide. La seule façon de lire les données brutes avec des champs laissés en blanc est avec l'entrée de champ fixe. Les valeurs automatiquement laissées en blanc sont traitées comme des valeurs manquantes par défaut.
Il est possible de tenir la place manquant avec un seul point dans le domaine, mais si vous le faites, vous obtiendrez un message d'avertissement à chaque fois que SPSS rencontre une de ces valeurs. La variable résultante est codée avec des valeurs manquantes par défaut.
3. Les valeurs manquantes définies par l'utilisateur
Examinons maintenant comment gère SPSS les données manquantes dans les commandes d'analyse.
4. Comment gère SPSS les données manquantes dans les commandes d'analyse
En règle générale, les commandes d'analyse SPSS qui effectuent des calculs traiter les données manquantes en omettant les valeurs manquantes. (Nous disons analyse des commandes pour indiquer que nous ne réglons pas les commandes comme genre.) La façon dont les valeurs manquantes sont éliminées ne sont pas toujours les mêmes chez SPSS commandes, donc nous allons laisser etudier quelques exemples. Tout d'abord, utilisez la commande Descriptives sur notre fichier de données et voir comment cette commande gère les valeurs manquantes.
Comme vous le voyez dans la sortie ci-dessous, les moyens calculés Descriptive en utilisant quatre observations pour trial1 et trial2 et six observations pour trial3. En bref, Descriptive utilisé toutes les données valides et les calculs effectués sur l'ensemble des données disponibles. Ceci est également vrai pour les trois variables suivantes contenant des valeurs manquantes utilisateur.
Il est possible que vous voudrez peut-être les pourcentages valides à être calculés sur le nombre total de valeurs, et même indiquer le pourcentage manquant dans le tableau lui-même. Vous pouvez demander cela en utilisant les = manquants comprennent la commande sous-commande Freq. Ceci est illustré ci-dessous pour trial1 et trialr1.
Comme vous le voyez, maintenant les pourcentages valides sont calculés par rapport au nombre total d'observations, et le manque de pourcentage sont indiquées à droite dans le tableau et pour la trial1 variable qui contient les valeurs manquantes utilisateur. Pour trialr1. les valeurs manquantes par défaut ne sont pas utilisés pour calculer les pourcentages même = manquants comprennent spécifié.
La commande ne comprend les tableaux croisés valides (données non manquantes) dans ses tableaux. Cas contenant une valeur manquante même pour l'une des variables ne sont pas incluses dans le tableau. Notez que les pourcentages sont calculés sur la base uniquement sur les cas non manquants. Cela est vrai pour les deux types de valeurs manquantes.
Il est possible que vous pourriez vouloir les valeurs manquantes comprises dans les tables. Cela est particulièrement vrai lorsque vous utilisez des tableaux croisés pour vérifier vos transformations. Vous pouvez demander cela en utilisant les = manquants comprennent la commande sous-commande de tableaux croisés. Ceci est illustré ci-dessous pour trial1 et trialr1. Ici encore, vous ne réussirez pour les valeurs manquantes utilisateur.
Les valeurs manquantes utilisateur sont incluses dans le tableau pour la trial1 variable. Pour trialr1. les valeurs manquantes par défaut ne sont pas inclus dans le tableau même avec = manquants comprennent spécifié. Il n'y a pas que sous-commande permettra l'inclusion des valeurs manquantes par défaut dans le tableau de tableaux croisés.
Il n'y a pas moyen d'obtenir une valeur manquante du système d'apparaître dans un tableau de tableaux croisés. Le plus proche, vous arriverez est de changer la valeur manquante par défaut à une valeur manquante utilisateur. Ceci peut être accompli avec une commande Recode, comme il est indiqué ci-dessous. Les SYSMIS de mots-clés peuvent être utilisés sur la commande Recode, et il représente la valeur manquante par défaut.
Regardons comment gère corr les données manquantes. Nous nous attendons à ce qu'il ferait les calculs sur la base des données disponibles, et d'omettre les valeurs manquantes pour chaque paire de variables. Parce que deux variables sont nécessaires pour calculer chaque corrélation. Voici un exemple de programme.
Le résultat de cette commande est illustré ci-dessous. Notez que les valeurs manquantes ont été exclues. Pour chaque paire de variables, corr utilisé le nombre de paires qui ont des données valides. Pour la paire formée par trial1 et trial2. il y avait trois paires avec des données valides. Pour l'appariement des trial1 et trial3 il y avait quatre paires valides, et de même, il y avait quatre paires valides pour trial2 et trial3. Comme ce utilisé toutes les paires valides de données, ce qui est souvent appelé la suppression des données manquantes par paires.
Il est possible de spécifier que les corrélations ne fonctionnent que sur des observations qui ont des données complètes pour toutes les variables figurant sur le var sous-commande. Vous voudrez peut-être les corrélations des temps de réaction juste pour les observations qui ont des données non manquantes sur tous les essais. On appelle cela listwise suppression des données manquantes qui signifie que lorsque l'une des variables manquent, l'observation entière est omise de l'analyse. Vous pouvez demander la suppression de listwise dans les corr avec le mssing = listwise sous-commande, comme le montre l'exemple ci-dessous.
Comme vous le voyez dans les résultats ci-dessous, le N pour toutes les statistiques simples est le même, 3, ce qui correspond au nombre de cas avec des données complètes non manquantes pour trial1. trial2 et trial3. Étant donné que le N est la même pour toutes les corrélations (par exemple 3), le N ne soit pas affichée avec les corrélations dans SPSS 7,5 et plus.
Il est important de comprendre comment les commandes SPSS utilisées pour analyser les données traiter les données manquantes. Pour savoir comment une commande traite les données manquantes, vous devriez consulter le manuel SPSS. Voici un bref aperçu de la façon dont certaines procédures SPSS communes traiter les données manquantes.
6. Les valeurs manquantes dans les expressions d'affectation
La liste ci-dessous illustre les valeurs manquantes sont traitées dans les états d'affectation. La moyenne variable est basée sur les variables trial1trial2 et trial3. et la avgr variable est basée sur les variables trialr1trialr2 et trialr3. Si l'une des variables composantes ont été portés disparus, la valeur moyenne ou avgr a été manquant. Cela signifie que les deux ont été portés disparus pour les observations 2, 3 et 4.
Les deux valeurs manquantes définies par l'utilisateur manquantes par défaut et donnent les mêmes résultats.
En règle générale, les calculs impliquant des valeurs manquantes donnent des valeurs manquantes, comme indiqué ci-dessous.
2 + 2 4 rendements
2 +. les rendements.
2/2 1 rendements
. / 2 rendements.
2 * 3 6 rendements
2 *. les rendements.
Chaque fois que vous ajoutez, soustraction, multiplication, etc. diviser les valeurs qui impliquent des données manquantes, le résultat est généralement manquante par défaut. Une exception est une valeur qui est définie indépendamment de l'une des valeurs, par exemple divisé par zéro manquant est égal à zéro.
Dans notre expérience, temps de réaction, la moyenne de temps de réaction moyen est manquant pour toi sur six cas. Nous pourrions essayer juste la moyenne des données pour les essais non manquants en utilisant la fonction moyenne comme le montre l'exemple ci-dessous.
Les résultats ci-dessous montrent que avg contient maintenant la moyenne des essais non manquantes, même s'il n'y a qu'un seul.
Il y avait eu un grand nombre d'essais, disons 50 essais, il serait alors ennuyeux d'avoir à taper
moyenne = moyenne (trial1, trial2, trial3 .... trial50)
Voici un raccourci que vous pouvez utiliser dans ce genre de situation
avg = moyenne (trial1 à trial50)
à condition que les variables d'essai sont contiguës dans le fichier.
De plus, si nous voulions obtenir la somme des temps au lieu de la moyenne, alors nous pourrions simplement utiliser la fonction somme au lieu de la fonction moyenne. La syntaxe de la fonction somme est comme la fonction moyenne, mais il retourne la somme des valeurs non manquantes.
Enfin, vous pouvez utiliser la fonction NVALID pour déterminer le nombre de valeurs non manquantes dans une liste de variables, comme illustré ci-dessous.
Comme on voit ci-dessous, observations 1, 5 et 6 ont trois valeurs valides, observations 2 et 3 avaient deux valeurs valides, et l'observation 4 avait seulement une valeur valide. Ces résultats sont les mêmes quel que soit le type de valeur manquante.
Vous pourriez vous sentir mal à l'aise avec la moyenne variable pour l'observation 4 car il est pas vraiment une moyenne du tout. Nous pouvons utiliser le formulaire de mean.n de la fonction de contrôler le nombre de valeurs valides requises pour calculer une moyenne.
La fonction mean.2 nécessite au moins deux valeurs valides pour une moyenne à calculer. Dans la sortie ci-dessous, vous voyez que avg contient maintenant le temps de réaction moyen pour les valeurs non manquantes, à l'exception d'observation 4 où la valeur est assignée à manquer, car il avait qu'une seule observation valable.
7. Les valeurs manquantes dans les commandes de recodage
Supposons que vous vouliez créer une variable fictive de trial1 avec une césure de 2. Nous pouvons utiliser la commande if pour créer la hit1 variable. La même chose est vraie pour la création hirt1 de trialr1.
Les fréquences montre le résultat de ces transformations qui affectent les valeurs manquantes. Les deux valeurs manquantes manquantes par défaut et définies par l'utilisateur donnent lieu à une classification correcte.
Maintenant, supposons que vous vouliez créer une variable fictive de trial1 en combinaison avec trial2 avec une césure de deux pour chacun. Nous pouvons utiliser la commande if pour créer la hit12 variable. La même chose est vraie pour la création hirt12 de trialr1 et trialr2.
Les fréquences et la liste montre le résultat de ces transformations qui affectent les valeurs manquantes. Les deux manquantes par défaut et les valeurs manquantes définies par l'utilisateur le résultat de la même sortie, de sorte que la sortie des valeurs manquantes définies par l'utilisateur seront affichés.
Il n'y a qu'une valeur manquante dans la hit12 variable créée. mais nous savons qu'il ya au moins deux valeurs manquantes pour trial1 seul. Si SPSS peut résoudre la logique basée sur une seule variable, il sera. Depuis pas (trial1> 2 et trial2> 2) est vrai si l'une des conditions est fausse, cela peut être résolu. Ceci est le résultat que la plupart des gens préfèrent.
Si vous préférez avoir le résultat manquant si l'une des variables composant est manquant alors qui peut être accompli en ajoutant ce qui suit si la commande. Comme le montre les résultats des fréquences et des commandes de liste.
La commande Recode peut être utilisé pour accomplir la tâche de codage factice discuté au début de la section. Encore une fois, supposons que vous vouliez créer une variable fictive de trial1 avec une césure de 2. Nous pouvons utiliser la commande recodage pour créer la hit1 variable. La même chose est vraie pour la création hirt1 de trialr1. Toutefois, cette commande fonctionne différemment en ce qui concerne le système manquantes et les valeurs manquantes définies par l'utilisateur.
Les fréquences montre le résultat de ces transformations qui affectent les valeurs manquantes. La réponse est correcte par rapport aux valeurs manquantes par défaut et incorrecte en ce qui concerne les valeurs manquantes utilisateur. Les valeurs manquantes définies par l'utilisateur sont classés en fonction de leur valeur, comme si elles ne manquent pas.
Maintenant, nous pouvons examiner recodage avec le mot-clé else. Cela affecte les deux manquantes par défaut et les valeurs manquantes définies par l'utilisateur même, mais malheureusement ne sont corrects. Le mot-clé else comprendra les deux types de valeurs manquantes, et les classer mal.
Les fréquences résultat suit.
Si l'on ajoute les (manquants = SYSMIS) au recodage le problème est atténué pour le système manquante. mais pas pour les valeurs manquantes définies par l'utilisateur.
Les fréquences résultat suit.
Modification de l'ordre de (manquant = SYSMIS) et (lo à travers 2 = 0) Atténue le problème défini par l'utilisateur manque aussi.
Les fréquences résultat suit.
8. Les problèmes à surveiller
9. Pour plus d'informations
- Voir les données dans SPSS pour sous-ensembles de l'information sur les données avec des variables qui sous-ensembles de manquants.
- Pour plus d'informations sur les valeurs manquantes, consultez le manuel SPSS Command Syntax Guide de référence.