Qu’est-ce qu’une distribution d’échantillons ?
Une distribution d’échantillonnage est une distribution de probabilité d’une statistique obtenue à partir d’un grand nombre d’échantillons tirés d’une population spécifique. La distribution d’échantillonnage d’une population donnée est la distribution des fréquences d’une série de résultats différents qui pourraient éventuellement se produire pour une statistique d’une population.
En statistique, une population est l’ensemble du bassin dans lequel un échantillon statistique est tiré. Une population peut se référer à un groupe entier de personnes, d’objets, d’événements, de visites à l’hôpital ou de mesures. On peut donc dire qu’une population est une observation agrégée de sujets regroupés par une caractéristique commune.
- Une distribution d’échantillonnage est une statistique obtenue par un échantillonnage répété d’une population plus large.
- Elle décrit une série de résultats possibles que d’une statistique, telle que la moyenne ou le mode d’une variable, comme il existe réellement une population.
- La majorité des données analysées par les chercheurs sont en fait tirées d’échantillons, et non de populations.
Comprendre la distribution des échantillons
Beaucoup de données tirées et utilisées par les universitaires, les statisticiens, les chercheurs, les spécialistes du marketing, les analystes, etc. sont en fait des échantillons, et non des populations. Un échantillon est un sous-ensemble d’une population. Par exemple, un chercheur en médecine qui voulait comparer le poids moyen de tous les bébés nés en Amérique du Nord entre 1995 et 2005 à celui des bébés nés en Amérique du Sud au cours de la même période ne peut pas, dans un délai raisonnable, tirer les données pour l’ensemble de la population de plus d’un million de naissances survenues au cours de la période de dix ans. Il n’utilisera que le poids de 100 bébés, par exemple, dans chaque continent pour tirer une conclusion. Le poids de 200 bébés utilisé est l’échantillon et le poids moyen calculé est la moyenne de l’échantillon.
Supposons maintenant qu’au lieu de prélever un seul échantillon de 100 poids de nouveau-nés sur chaque continent, le chercheur médical prélève des échantillons aléatoires répétés dans la population générale et calcule la moyenne de l’échantillon pour chaque groupe. Ainsi, pour l’Amérique du Nord, il extrait les données de 100 poids de nouveau-nés enregistrés aux États-Unis, au Canada et au Mexique comme suit : quatre 100 échantillons provenant de certains hôpitaux aux États-Unis, cinq 70 échantillons au Canada et trois 150 enregistrements au Mexique, pour un total de 1200 poids de nouveau-nés regroupés en 12 ensembles. Il recueille également un échantillon de 100 poids de naissance dans chacun des 12 pays d’Amérique du Sud.
Chaque échantillon a sa propre moyenne d’échantillon et la distribution des moyennes d’échantillon est connue sous le nom de distribution de l’échantillon.
Le poids moyen calculé pour chaque ensemble d’échantillons est la distribution d’échantillonnage de la moyenne. Il n’y a pas que la moyenne qui peut être calculée à partir d’un échantillon. D’autres statistiques, telles que l’écart-type, la variance, la proportion et la fourchette peuvent être calculées à partir des données de l’échantillon. L’écart-type et la variance mesurent la variabilité de la distribution d’échantillonnage.
Le nombre d’observations dans une population, le nombre d’observations dans un échantillon et la procédure utilisée pour tirer les ensembles d’échantillons déterminent la variabilité d’une distribution d’échantillonnage. L’écart-type d’une distribution d’échantillonnage est appelé l’erreur standard. Alors que la moyenne d’une distribution d’échantillonnage est égale à la moyenne de la population, l’erreur standard dépend de l’écart-type de la population, de la taille de la population et de la taille de l’échantillon.
Le fait de connaître l’écart entre la moyenne de chacun des ensembles d’échantillons et la moyenne de la population donnera une indication de la proximité de la moyenne de l’échantillon par rapport à la moyenne de la population. L’erreur type de la distribution de l’échantillon diminue à mesure que la taille de l’échantillon augmente.
Considérations particulières
Une population ou un échantillon de chiffres aura une distribution normale. Cependant, comme une distribution d’échantillonnage comprend plusieurs séries d’observations, elle n’aura pas nécessairement une forme en cloche.
Si l’on suit notre exemple, le poids moyen des bébés en Amérique du Nord et en Amérique du Sud a une distribution normale, car certains bébés ont un poids insuffisant (inférieur à la moyenne) ou un poids excessif (supérieur à la moyenne), la plupart des bébés se situant entre les deux (autour de la moyenne). Si le poids moyen des nouveau-nés en Amérique du Nord est de sept livres, le poids moyen de l’échantillon dans chacune des 12 séries d’observations enregistrées pour l’Amérique du Nord sera également proche de sept livres.
Toutefois, si vous tracez un graphique de chacune des moyennes calculées dans chacun des 1 200 groupes d’échantillons, la forme résultante peut donner lieu à une distribution uniforme, mais il est difficile de prévoir avec certitude quelle sera la forme réelle. Plus le chercheur utilise d’échantillons provenant d’une population de plus d’un million de chiffres de poids, plus le graphique commencera à former une distribution normale.