Conditions statistiques d'échantillonnage

Commençons par la définition des termes très simples qui sont ici pertinentes. Tout d'abord, regardons les résultats de nos efforts d'échantillonnage. Quand on échantillonne, les unités que nous échantillon - généralement des gens - nous fournissent une ou plusieurs réponses. En ce sens, une réponse est une valeur de mesure précise qu'un matériel de l'unité d'échantillonnage. Dans la figure, la personne répond à un instrument d'enquête et donne une réponse de « 4 ». Quand nous regardons à travers les réponses que nous obtenons pour notre ensemble de l'échantillon, nous utilisons une statistique. Il existe une grande variété de statistiques, nous pouvons utiliser - moyenne, la médiane, le mode, et ainsi de suite. Dans cet exemple, nous voyons que la moyenne ou moyenne de l'échantillon est de 3,75. Mais la raison pour laquelle nous l'échantillon est afin que nous puissions obtenir une estimation de la population que nous avons goûté à partir. Si nous pouvions, nous préférerions de mesurer l'ensemble de la population. Si vous mesurez l'ensemble de la population et de calculer une valeur comme une moyenne ou moyenne, nous ne se réfère pas à cela comme une statistique, nous l'appelons un paramètre de la population.

L'échantillonnage de distribution

Alors, comment pouvons-nous obtenir de notre statistique de l'échantillon à une estimation du paramètre de la population? Un concept à mi-chemin crucial que vous devez comprendre est la distribution d'échantillonnage. Pour le comprendre, vous devez être en mesure et désireux de faire une expérience de pensée. Imaginez qu'au lieu de simplement prendre un seul échantillon comme nous le faisons dans une étude typique, vous avez pris trois échantillons indépendants de la même population. Et d'ailleurs, imaginez que pour chacun de vos trois échantillons, vous avez recueilli une réponse unique et calculé une seule statistique, par exemple, la moyenne de la réponse. Même si les trois échantillons proviennent de la même population, vous ne soupçonniez pas obtenir la même statistique exacte de chacun. Ils diffèrent légèrement juste en raison de la « chance du tirage au sort » au hasard ou aux fluctuations naturelles ou aléas de prélèvement d'un échantillon. Mais vous attendre à ce que les trois échantillons produiraient une estimation statistique similaire parce qu'ils ont été tirés de la même population. Maintenant, pour le saut de l'imagination! Imaginez que vous avez un nombre infini d'échantillons de la même population et la moyenne calculée pour chacun. Si vous les tracés sur un histogramme ou graphique à barres, vous devriez trouver que la plupart d'entre eux convergent sur la même valeur centrale et que vous obtenez de moins en moins d'échantillons qui ont des moyennes plus loin vers le haut ou vers le bas de cette valeur centrale. En d'autres termes, le graphique à barres serait bien décrit par la forme de la courbe de cloche qui est une indication d'une distribution « normale » dans les statistiques. La distribution d'un nombre infini d'échantillons de la même taille que l'échantillon dans votre étude est connue comme la distribution d'échantillonnage. Nous ne construisons pas toujours en fait une distribution d'échantillonnage. Pourquoi pas? Vous ne faites pas attention! Parce que pour le construire, nous devrions prendre un nombre infini d'échantillons et au moins la dernière fois que j'ai vérifié, sur cette infinie planète n'est pas un nombre que nous savons comment atteindre. Alors, pourquoi on ne parle même d'une distribution d'échantillonnage? Maintenant, c'est une bonne question! Parce que nous devons réaliser que notre échantillon est juste un d'un nombre potentiellement infini d'échantillons que nous aurions pu prendre. Quand nous gardons la distribution d'échantillonnage à l'esprit, nous nous rendons compte que, bien que la statistique nous avons reçu de notre échantillon est probablement près du centre de la distribution d'échantillonnage (parce que la plupart des échantillons seraient là), nous aurions pu obtenir un des échantillons extrêmes que par la chance du tirage au sort. Si l'on prend la moyenne de la distribution d'échantillonnage - la moyenne des moyennes d'un nombre infini d'échantillons - nous serions beaucoup plus proche de la vraie moyenne de la population - le paramètre d'intérêt. Ainsi, la moyenne de la distribution d'échantillonnage est essentiellement équivalente au paramètre. Mais quel est l'écart-type de la distribution d'échantillonnage (OK, n'a jamais eu de statistiques? Il y a un certain nombre d'endroits sur le web où vous pouvez apprendre si vous avez obtenu rouillés à leur sujet ou même frôler le haut. Ce n'est pas l'un des eux. Je vais supposer que vous savez au moins ce que l'écart-type est, ou que vous êtes capable de trouver relativement rapidement). L'écart-type de la distribution d'échantillonnage nous dit quelque chose sur la façon dont différents échantillons seraient distribués. Dans les statistiques, il est appelé l'erreur-type (afin que nous puissions le séparer dans notre esprit des déviations standards. Se confondre? Allez chercher une tasse de café et de revenir en dix minutes. OK, nous allons essayer une fois de plus. Un écart-type est la diffusion des scores autour de la moyenne dans un seul échantillon. l'écart-type est la propagation des moyennes autour de la moyenne des moyennes dans une distribution d'échantillonnage. Got it?)

Erreur d'échantillonnage

Dans un contexte d'échantillonnage, l'erreur type est appelée erreur d'échantillonnage. L'erreur d'échantillonnage nous donne une idée de la précision de notre estimation statistique. Une erreur d'échantillonnage faible signifie que nous avons eu la variabilité relativement moins ou une plage dans la distribution d'échantillonnage. Mais on y va à nouveau - nous ne voyons jamais en fait la distribution d'échantillonnage! Alors, comment calcule-t-on l'erreur d'échantillonnage? Nous basons nos calculs sur l'écart-type de notre échantillon. Plus l'écart type d'échantillon est grande, plus l'erreur standard (et l'erreur d'échantillonnage). L'erreur standard est également liée à la taille de l'échantillon. Plus votre taille de l'échantillon, plus l'erreur standard. Pourquoi? Parce que plus la taille de l'échantillon, plus votre échantillon est de la population elle-même. Si vous prenez un échantillon qui se compose de toute la population vous avez fait aucune erreur d'échantillonnage parce que vous ne disposez pas d'un échantillon, vous avez l'ensemble de la population. Dans ce cas, la moyenne vous estimez est le paramètre.

Le 68, 95, 99 pour cent Rule

Maintenant, voici où tout devrait se réunir dans un grand aha! expérience si vous avez suivi. Si nous avions une distribution d'échantillonnage. nous serions en mesure de prédire les 68, 95 et 99% des intervalles de confiance pour où le paramètre de la population devrait être! Et est-ce pas la raison pour laquelle nous avons essayé en premier lieu? Alors que nous pourrions prédire où la population est sur cette variable? Il n'y a qu'un seul accroc. Nous n'avons pas fait la distribution d'échantillonnage (maintenant c'est la troisième fois que je l'ai déjà dit dans cet essai)! Mais nous avons la distribution de l'échantillon lui-même. Et nous pouvons estimer la distribution de cette l'erreur-type (l'erreur d'échantillonnage), car il est basé sur l'écart-type et nous l'avons. Et, bien sûr, nous ne savons pas réellement la valeur du paramètre de la population - nous essayons de constater que - mais nous pouvons utiliser notre meilleure estimation pour ce - la statistique de l'échantillon. Maintenant, si nous avons la moyenne de la distribution d'échantillonnage (ou le mettre à la moyenne de notre échantillon) et nous avons une estimation de l'erreur standard (nous calculons que de notre échantillon), nous avons les deux ingrédients clés dont nous avons besoin pour notre distribution d'échantillonnage afin d'estimer les intervalles de confiance pour le paramètre de la population.

Peut-être un exemple vous aidera. Supposons que nous avons fait une étude et a attiré un seul échantillon de la population. De plus, supposons que la moyenne de l'échantillon était de 3,75 et l'écart-type était .25. Ceci est la distribution des données brutes décrit ci-dessus. maintenant, ce que la distribution d'échantillonnage serait dans ce cas? Eh bien, nous ne construisons pas réellement (parce que nous aurions besoin de prendre un nombre infini d'échantillons), mais nous pouvons l'estimer. Pour commencer, nous supposons que la moyenne de la distribution d'échantillonnage est la moyenne de l'échantillon, ce qui est 3,75. , On calcule l'erreur standard. Pour ce faire, nous utilisons l'écart-type de notre échantillon et la taille de l'échantillon (dans ce cas N = 100) et nous venons avec une erreur standard de .025 (juste me faire confiance à ce sujet). Maintenant, nous avons tout ce que nous devons estimer un intervalle de confiance pour le paramètre de la population. On estime le que la probabilité est de 68% que la valeur réelle du paramètre est comprise entre 3,725 et 3,775 (à savoir 3,75 plus et moins 0,025); que l'intervalle de confiance de 95% est de 3,700 à 3,800; et que nous pouvons dire avec confiance de 99% que la valeur de la population se situe entre 3,675 et 3,825. La valeur réelle (dans cet exemple fictif) était 3,72 et nous avons donc estimé à juste titre que la valeur de notre échantillon.