Qu’est-ce que l’échantillonnage aléatoire stratifié ?
L’échantillonnage aléatoire stratifié est une méthode d’échantillonnage qui implique la division d’une population en sous-groupes plus petits appelés strates. Dans l’échantillonnage aléatoire stratifié, ou stratification, les strates sont formées sur la base des attributs ou des caractéristiques communes des membres telles que le revenu ou le niveau d’éducation.
L’échantillonnage aléatoire stratifié est également appelé échantillonnage aléatoire proportionnel ou échantillonnage aléatoire par quotas.
Points clés à retenir
- L’échantillonnage aléatoire stratifié permet aux chercheurs d’obtenir un échantillon de population qui représente au mieux l’ensemble de la population étudiée.
- L’échantillonnage aléatoire stratifié consiste à diviser l’ensemble de la population en groupes homogènes appelés strates.
- L’échantillonnage aléatoire stratifié diffère de l’échantillonnage aléatoire simple, qui implique la sélection aléatoire de données provenant d’une population entière, de sorte que chaque échantillon possible a une probabilité égale de se produire.
1:40
Comment fonctionne l’échantillonnage aléatoire stratifié
Lorsqu’il effectue une analyse ou une recherche sur un groupe d’entités présentant des caractéristiques similaires, un chercheur peut constater que la taille de la population est trop importante pour qu’il puisse effectuer une recherche. Pour économiser du temps et de l’argent, un analyste peut adopter une approche plus réalisable en sélectionnant un petit groupe de la population. Le petit groupe est appelé taille de l’échantillon, qui est un sous-ensemble de la population utilisé pour représenter l’ensemble de la population. Un échantillon peut être sélectionné dans une population de plusieurs façons, dont l’une est la méthode d’échantillonnage aléatoire stratifié.
Un échantillonnage aléatoire stratifié consiste à diviser l’ensemble de la population en groupes homogènes appelés strates (au pluriel pour la strate)
. Des échantillons aléatoires sont ensuite sélectionnés dans chaque strate. Prenons l’exemple d’un chercheur universitaire qui aimerait connaître le nombre d’étudiants en MBA en 2007 qui ont reçu une offre d’emploi dans les trois mois suivant l’obtention de leur diplôme.
Il constatera bientôt qu’il y a eu près de 200 000 diplômés du MBA pour l’année. Il pourrait décider de prendre un simple échantillon aléatoire de 50 000 diplômés et de mener une enquête. Mieux encore, il pourrait diviser la population en strates et prendre un échantillon aléatoire dans ces strates. Pour ce faire, il créerait des groupes de population basés sur le sexe, la tranche d’âge, la race, le pays de nationalité et le parcours professionnel. Un échantillon aléatoire de chaque strate est prélevé selon un nombre proportionnel à la taille de la strate par rapport à la population. Ces sous-ensembles de strates sont ensuite regroupés pour former un échantillon aléatoire.
[Important : l’échantillonnage stratifié est utilisé pour mettre en évidence les différences entre les groupes d’une population, par opposition à l’échantillonnage aléatoire simple, qui traite tous les membres d’une population comme égaux, avec une probabilité égale d’être échantillonné].
Exemple d’échantillonnage aléatoire stratifié
Supposons qu’une équipe de recherche veuille déterminer la moyenne générale des étudiants universitaires aux États-Unis. L’équipe de recherche a des difficultés à recueillir des données auprès des 21 millions d’étudiants universitaires ; elle décide de prendre un échantillon aléatoire de la population en utilisant 4 000 étudiants.
Supposons maintenant que l’équipe examine les différents attributs des participants de l’échantillon et se demande s’il existe des différences entre les MPC et les majeures des étudiants. Supposons qu’elle constate que 560 étudiants sont en anglais, 1 135 en sciences, 800 en informatique, 1 090 en ingénierie et 415 en mathématiques. L’équipe veut utiliser un échantillon aléatoire stratifié proportionnel où la strate de l’échantillon est proportionnelle à l’échantillon aléatoire dans la population.
Supposons que l’équipe fasse des recherches sur la démographie des étudiants universitaires aux États-Unis et trouve le pourcentage de ce que les étudiants se spécialisent : 12 % en anglais, 28 % en sciences, 24 % en informatique, 21 % en ingénierie et 15 % en mathématiques. Ainsi, cinq strates sont créées à partir du processus d’échantillonnage aléatoire stratifié.
L’équipe doit ensuite confirmer que la strate de la population est proportionnelle à la strate de l’échantillon ; cependant, elle constate que les proportions ne sont pas égales. L’équipe doit ensuite ré-échantillonner 4 000 élèves de la population et sélectionner au hasard 480 élèves en anglais, 1 120 en sciences, 960 en informatique, 840 en ingénierie et 600 en mathématiques.
Les chercheurs peuvent alors mettre en évidence des strates spécifiques, observer les différentes études des étudiants américains et observer les différentes moyennes pondérées des notes.
Échantillons aléatoires simples contre échantillons aléatoires stratifiés
Les échantillons aléatoires simples et les échantillons aléatoires stratifiés sont tous deux des outils de mesure statistique. Un échantillon aléatoire simple est utilisé pour représenter l’ensemble de la population de données. Un échantillon aléatoire stratifié divise la population en plus petits groupes, ou strates, sur la base de caractéristiques communes.
L’échantillon aléatoire simple est souvent utilisé lorsqu’il y a très peu d’informations disponibles sur la population de données, lorsque la population de données présente beaucoup trop de différences pour être divisée en divers sous-ensembles, ou lorsqu’il n’y a qu’une seule caractéristique distincte parmi la population de données.
Par exemple, une entreprise de bonbons peut vouloir étudier les habitudes d’achat de ses clients afin de déterminer l’avenir de sa gamme de produits. S’il y a 10 000 clients, elle peut utiliser un échantillon aléatoire de 100 de ces clients. Elle peut ensuite appliquer ce qu’elle trouve sur ces 100 clients au reste de sa base. Contrairement à la stratification, elle procédera à un échantillonnage purement aléatoire de 100 membres sans tenir compte de leurs caractéristiques individuelles.
Stratification proportionnelle et disproportionnée
L’échantillonnage aléatoire stratifié garantit que chaque sous-groupe d’une population donnée est correctement représenté au sein de l’ensemble de la population de l’échantillon d’une étude de recherche. La stratification peut être proportionnelle ou disproportionnée. Dans une méthode de stratification proportionnelle, la taille de l’échantillon de chaque strate est proportionnelle à la taille de la population de la strate.
Par exemple, si le chercheur voulait un échantillon de 50 000 diplômés en utilisant la tranche d’âge, l’échantillon aléatoire stratifié proportionnel sera obtenu en utilisant cette formule : (taille de l’échantillon/taille de la population) x taille de la strate. Le tableau ci-dessous suppose une taille de population de 180.000 diplômés du MBA par an.
Groupe d’âge |
24-28 |
29-33 |
34-37 |
Total |
Nombre de personnes dans la strate |
90,000 |
60,000 |
30,000 |
180,000 |
Taille de l’échantillon de strates |
25,000 |
16,667 |
8,333 |
50,000 |
La taille de l’échantillon des strates pour les diplômés du MBA âgés de 24 à 28 ans est calculée comme suit : (50 000/180 000) x 90 000 = 25 000. La même méthode est utilisée pour les autres tranches d’âge. Maintenant que la taille de l’échantillon des strates est connue, le chercheur peut procéder à un échantillonnage aléatoire simple dans chaque strate pour sélectionner les participants à son enquête. En d’autres termes, 25 000 diplômés de la tranche d’âge 24-28 ans seront sélectionnés au hasard dans l’ensemble de la population, 16 667 diplômés de la tranche d’âge 29-33 ans seront sélectionnés au hasard dans la population, et ainsi de suite.
Dans un échantillon stratifié disproportionné, la taille de chaque strate n’est pas proportionnelle à sa taille dans la population. Le chercheur peut décider d’échantillonner la moitié des diplômés dans la tranche d’âge des 34-37 ans et un tiers des diplômés dans la tranche d’âge des 29-33 ans.
Il est important de noter qu’une personne ne peut pas s’intégrer dans plusieurs strates. Chaque entité ne doit s’insérer que dans une seule strate. Le fait d’avoir des sous-groupes qui se chevauchent signifie que certaines personnes auront plus de chances d’être sélectionnées pour l’enquête, ce qui annule complètement le concept d’échantillonnage stratifié comme type d’échantillonnage probabiliste.
Les gestionnaires de portefeuille peuvent utiliser l’échantillonnage aléatoire stratifié pour créer des portefeuilles en reproduisant un indice tel qu’un indice obligataire.
Avantages de l’échantillonnage aléatoire stratifié
Le principal avantage de l’échantillonnage aléatoire stratifié est qu’il permet de saisir les principales caractéristiques de la population dans l’échantillon. Semblable à une moyenne pondérée, cette méthode d’échantillonnage produit des caractéristiques dans l’échantillon qui sont proportionnelles à la population globale. L’échantillonnage aléatoire stratifié fonctionne bien pour les populations présentant une variété d’attributs, mais est autrement inefficace si des sous-groupes ne peuvent être formés.
La stratification donne une plus petite erreur d’estimation et une plus grande précision que la méthode d’échantillonnage aléatoire simple. Plus les différences entre les strates sont importantes, plus le gain de précision est important.
Inconvénients de l’échantillonnage aléatoire stratifié
Malheureusement, cette méthode de recherche ne peut pas être utilisée dans toutes les études. L’inconvénient de cette méthode est que plusieurs conditions doivent être remplies pour qu’elle soit utilisée correctement. Les chercheurs doivent identifier chaque membre d’une population étudiée et classer chacun d’entre eux dans une sous-population, et une seule. Par conséquent, l’échantillonnage aléatoire stratifié est désavantageux lorsque les chercheurs ne peuvent pas classer avec certitude chaque membre de la population dans un sous-groupe. De plus, il peut être difficile de trouver une liste exhaustive et définitive de toute une population.
Le chevauchement peut être un problème s’il y a des sujets qui tombent dans plusieurs sous-groupes. Lorsque l’on procède à un échantillonnage aléatoire simple, les sujets qui font partie de plusieurs sous-groupes ont plus de chances d’être choisis. Il peut en résulter une représentation erronée ou inexacte de la population.
Les exemples ci-dessus facilitent la tâche : les étudiants de premier cycle, les diplômés, les hommes et les femmes sont des groupes clairement définis. Dans d’autres situations, cependant, cela peut être beaucoup plus difficile. Imaginez que vous incorporiez des caractéristiques telles que la race, l’ethnicité ou la religion. Le processus de tri devient plus difficile, rendant l’échantillonnage aléatoire stratifié une méthode inefficace et loin d’être idéale.