DSS - Comment utiliser un dictionnaire

Ces instructions expliquent les informations que vous devez rechercher lors de l'utilisation d'un dictionnaire, ainsi que la façon de traduire les informations contenues dans le livre de codes aux déclarations que vous devrez écrire SAS, SPSS ou programmes Stata pour lire et analyser les données.

Avant de chercher un livre de code, vous devez d'abord déterminer si vous avez besoin réellement les données, ou si vous avez juste besoin des résultats de l'étude, à savoir combien de personnes vivent à New York. Parfois, vous aurez pas besoin des données du tout, vous pouvez simplement utiliser l'un des nombreux rapports statistiques ou résumés disponibles dans la bibliothèque. Si, en fait, vous avez besoin des données pour effectuer des analyses, alors vous devez trouver une ou plusieurs études qui se sont penchées ce que vous regardez et lisez attentivement le livre de code pour vous assurer que l'étude a le type de données dont vous avez besoin.

Fichiers de données

Puisqu'un décrit les fichiers de codebook données, il serait utile à ce stade de discuter de ce que les fichiers de données sont et les nombreux formats dans lesquels ils viennent. Un fichier de données est simplement un fichier informatique qui contient des données en elle. La plupart des fichiers de données sont disposées comme des feuilles de calcul où vous avez des lignes d'information de chaque observation (une personne, un État ou d'une entreprise) et des colonnes d'informations représentant différentes variables. La principale différence entre une feuille de calcul et un fichier de données est que chaque colonne dans une feuille de calcul est égale à une variable dans un fichier de données. Chaque variable d'un fichier de données est composé d'une ou plusieurs colonnes. Parfois, le fichier de données aura des espaces entre les groupes de colonnes qui composent une variable, mais la plupart du temps il sera tout simplement courir tout ensemble. Voici une feuille de calcul de l'échantillon:

Voici ce que les mêmes informations pourrait ressembler dans un fichier de données:

La première ligne de numéros est ne fait pas partie des données, nous avons mis là pour que vous puissiez voir comment les colonnes dans un fichier de données se rapportent aux colonnes dans une feuille de calcul. Dans cet exemple, la colonne A dans le tableur est une colonne dans le fichier de données, la colonne B est colonnes 2-3, la colonne C est les colonnes 4-8, et la colonne D est colonnes 9-14. Si vous regardez attentivement, vous pouvez voir que les chiffres réels et les lettres sont les mêmes dans les deux fichiers. Étant donné que les informations contenues dans le fichier de données sont tous ensemble, vous avez besoin l'exécution d'une certaine façon de déterminer où l'une des extrémités variables et la suivante commence. Ceci, parmi beaucoup d'autres choses importantes, se trouve dans le livre de code. C'est le format le plus simple d'un fichier de données et la plupart viennent comme ça. Les deux exemples ci-dessus ont une « ligne », « enregistrement » ou « carte » de données pour chaque observation. Souvent, cependant, un fichier de données aura plus d'une ligne de données pour chaque observation. Ceci est une mise en réserve des débuts de l'informatique lorsque toutes les données ont été saisies sur des cartes perforées qui avaient seulement 80 colonnes. Si une enquête avait plus de questions que pourrait tenir sur une carte, puis les chercheurs ont dû continuer les données sur une autre carte. Cela est particulièrement vrai pour les fichiers qui ont des informations de la même observation pendant plusieurs années. Voici un exemple:

fichiers hiérarchiques peuvent être très difficiles à programmer. Si vous avez besoin d'analyser un fichier hiérarchique, vous devriez venir au laboratoire DSS et parler avec un conseiller sur la façon de le faire. Bien sûr, tous ces exemples ont seulement quelques variables, alors qu'un vrai fichier de données aura beaucoup, beaucoup plus.

Maintenant que nous savons ce qu'est un fichier de données est, nous pouvons faire plus de sens de ce qu'est un livre de code est. Un livre de code est une description technique des données qui ont été recueillies dans un but particulier. Il décrit comment les données sont dans le fichier informatique ou des fichiers, ce que les différents chiffres et lettres signifient, et des instructions spéciales sur la façon d'utiliser les données correctement. Comme tout autre type de « livre », certains sont meilleurs que codebooks autres. Les meilleurs ont codebooks:
  1. Description de l'étude: qui l'a fait, pourquoi ils l'ont fait, comment ils l'ont fait.
  2. information sur l'échantillonnage: ce qui a été la population étudiée, comment l'échantillon tiré, quel était le taux de réponse.
  3. Informations techniques sur les fichiers eux-mêmes: nombre d'observations, longueur d'enregistrement, le nombre d'enregistrements par observation, etc.
  4. Structure des données dans le fichier: cartes hiérarchiques, plusieurs, etc.
  5. Détails sur les données: colonnes dans lesquelles des variables spécifiques se trouvent, qu'ils soient de caractère ou numérique, et si numérique, quel format.
  6. Texte des questions et réponses: certains ont même combien de personnes ont répondu d'une manière particulière.

Même si un livre de code a (ou tout au moins, devrait avoir) toutes ces informations, tous les livres de code se chargera de la même manière. Plus tard dans ce document, nous allons vous montrer les informations que vous aurez besoin d'écrire le programme pour lire les données.

Une fois que vous avez déterminé qu'un fichier de données a ce que vous voulez, vous pouvez commencer la tâche d'écrire le programme qui va extraire ou sous-ensemble de ces variables qui vous intéressent. Le choix du package logiciel à utiliser est à vous. Vous devez être conscient, cependant, que la plupart de la collection de données de Princeton est accessible uniquement sur PUCC qui ne dispose que SAS et SPSS. Dans tous les cas, il est toujours une bonne idée de parler à un conseiller avant d'essayer d'extraire les données.

La rédaction du programme

Pour des exemples s'il vous plaît cliquez ici

Codage quand il y a une seule ligne de données pour chaque observation:

nomvar 124 (f5.2)

_column (124) nomvar% 5.2f

Codant pour plus d'une ligne de données pour chaque observation:

Vous devez accorder une attention particulière à combien de lignes il y a pour chaque observation, et sur quelle ligne la variable que vous êtes intéressé peut être trouvé. Chaque livre de code indique quelle ligne la variable se trouve différemment, vous devez regarder dans les pages d'introduction pour voir comment cela se fait. Le défaut de garder une trace de ce que la ligne est la variable sur résultera à la lecture de la mauvaise ligne et donc, la lecture des informations erronées pour cette variable.

Supposons que dans l'exemple 2 ci-dessus, il y a cinq lignes de données pour chaque observation. Supposons en outre que varname se trouve sur la première ligne pour une observation et que CHARNAME se trouve sur la troisième ligne. Voici les déclarations que vous avez besoin de lire ces variables:

SPSS:
fichier de liste de données = '' mesdonnées.dat records = 5.
/ 1 nomvar 124-128
/ 3 CHARNAME 155-166 (a).

Stata:
inFile _lines dictionnaire (5)
_ligne 1)
_column (124) nomvar% 5f
_line (3)
_column (155) chaîne CHARNAME% 12s
>

Comme vous pouvez le voir, dans chaque programme que vous devez dire au programme combien de lignes il y a pour chaque observation ( « n = 5 », « lignes = 5 » et « _lines (5)). Chaque programme dispose également d'une autre façon d'identifier quelle ligne que vous voulez lire ( « # 1 », / 1. « _line (1) »). Si vous voulez lire d'autres variables à partir des lignes 1 ou 3, vous pouvez simplement les énumérer ensemble sans répéter le pointeur de la ligne chaque variable. le programme continuera à lire de la même ligne de données jusqu'à ce que vous dites pour aller à la ligne suivante.

Pour plus d'infos sur la façon de lire les données en format ASCII en utilisant un clic de mise en page de données ici

Conclusion

Cela a été une brève introduction et très générale des fichiers de données et dictionnaires. Nous ne pouvions pas couvrir tout ce que vous pourriez rencontrer en utilisant un livre de code. Donc, si vous trouvez quelque chose que vous ne comprenez pas, demandez à un consultant!

Articles Liés