Éducation nationale françaiseMathématiquesSeconde générale et technologique16 min de lecture

Echantillonnage

Une version article du chapitre pour comprendre l'essentiel rapidement, vérifier si le niveau correspond, puis basculer vers Wilo pour la pratique guidée et le suivi.

Lecture

5 chapitres

Un parcours éditorialisé et navigable.

Pratique

12 questions

Quiz et cartes mémoire à ouvrir après la lecture.

Objectif

Seconde générale et technologique

Format rapide pour vérifier si le chapitre correspond.

Chapitre 1

Introduction à l'Échantillonnage

Qu'est-ce qu'un échantillon ?

En statistiques, nous utilisons des termes précis :

  • Une population est l'ensemble de tous les individus ou objets que l'on souhaite étudier. C'est le groupe complet qui nous intéresse.
    • Exemple : Tous les élèves de Seconde de France.
    • Exemple : Toutes les ampoules produites par une usine en une journée.
  • Un échantillon est un sous-ensemble, une partie de cette population, sélectionné pour être étudié.
    • Exemple : 1000 élèves de Seconde choisis au hasard dans différents lycées.
    • Exemple : 50 ampoules prélevées au hasard de la production journalière.
  • La taille de l'échantillon est le nombre d'individus ou d'objets qui composent cet échantillon. On la note souvent nn.
    • Exemple : Pour les élèves, n=1000n = 1000. Pour les ampoules, n=50n = 50.
  • Le caractère étudié est la propriété ou la variable que l'on mesure ou observe sur chaque individu de l'échantillon (et que l'on souhaite connaître pour la population entière).
    • Exemple : La proportion d'élèves ayant un smartphone.
    • Exemple : La proportion d'ampoules défectueuses.

Un bon échantillon doit être représentatif de la population pour que les conclusions tirées soient valides.

Pourquoi échantillonner ?

Échantillonner n'est pas une fantaisie, c'est souvent une nécessité pour plusieurs raisons :

  • Coût : Étudier une population entière peut être extrêmement coûteux en termes d'argent et de ressources. Imaginer interroger des millions de personnes !
  • Temps : Cela prendrait énormément de temps de collecter des données sur chaque membre de la population. L'échantillonnage permet d'obtenir des résultats plus rapidement.
  • Impossibilité d'étudier toute la population : Dans certains cas, il est tout simplement impossible d'étudier chaque individu.
    • Exemple : Pour tester la durée de vie de toutes les ampoules, il faudrait les faire fonctionner jusqu'à ce qu'elles grillent, ce qui signifierait détruire toute la production !
    • Exemple : Si la population est infinie ou trop grande.
  • Représentativité : L'objectif est d'obtenir un échantillon qui "ressemble" à la population pour pouvoir généraliser les observations. Pour cela, il est crucial que l'échantillon soit construit par tirage aléatoire, c'est-à-dire que chaque individu de la population ait la même chance d'être choisi.

Notion de fréquence et de proportion

Ces deux termes sont centraux en échantillonnage :

  • La proportion théorique (ou vraie proportion) est la proportion d'individus possédant un certain caractère dans l'ensemble de la population. On la note souvent pp. C'est une valeur inconnue que l'on cherche à estimer.
    • Exemple : La vraie proportion pp d'électeurs qui voteront pour le candidat A lors d'une élection.
  • La fréquence observée est la proportion d'individus possédant ce même caractère dans un échantillon donné. On la note souvent ff. C'est une valeur que l'on calcule à partir de l'échantillon.
    • Exemple : Si sur un échantillon de 1000 électeurs, 520 déclarent voter pour le candidat A, alors la fréquence observée est f=5201000=0,52f = \frac{520}{1000} = 0,52.

Le calcul de fréquence est simple : f=nombre d’individus posseˊdant le caracteˋre dans l’eˊchantillontaille de l’eˊchantillon (n)f = \frac{\text{nombre d'individus possédant le caractère dans l'échantillon}}{\text{taille de l'échantillon (n)}}

Le lien entre fréquence et proportion est que la fréquence observée ff dans un échantillon est une estimation de la proportion théorique pp de la population. Plus l'échantillon est grand et bien choisi, plus on espère que ff sera proche de pp.

Chapitre 2

Fluctuations d'Échantillonnage

Expérimentation et observation

Imaginez une urne contenant 100 boules, dont 60 sont rouges et 40 sont bleues. La proportion théorique de boules rouges est p=0,6p = 0,6.

  • Si nous effectuons un tirage aléatoire de 10 boules (avec remise, pour que la proportion ne change pas), nous pourrions obtenir 6 rouges, 7 rouges, 5 rouges, etc.
  • Si nous répétons l'expérience plusieurs fois, en tirant à chaque fois un échantillon de 10 boules, et que nous calculons la fréquence de boules rouges pour chaque échantillon, nous observerons que ces fréquences varient.
  • Une série d'échantillons mettra en évidence la variabilité des fréquences. Chaque échantillon est unique et sa fréquence ff ne sera pas forcément égale à pp.

Cette variabilité est normale et s'appelle la fluctuation d'échantillonnage. Elle est due au hasard du tirage.

Mise en évidence des fluctuations

Pour bien comprendre les fluctuations, on utilise souvent la simulation :

  1. Avec un logiciel (tableur, Python) : On peut simuler des milliers de tirages d'échantillons.
    • Exemple de simulation avec un tableur :
      • On génère des nombres aléatoires entre 0 et 1.
      • Si le nombre est inférieur à pp (par exemple 0,6 pour 60% de boules rouges), on considère que c'est une boule rouge. Sinon, c'est une boule bleue.
      • On répète cette opération nn fois pour former un échantillon.
      • On compte le nombre de "rouges" et on calcule la fréquence ff.
      • On répète tout cela 1000 fois pour obtenir 1000 fréquences.
  2. On observe alors une distribution des fréquences. Si on représente ces fréquences sur un graphique (diagramme en barres ou histogramme), on verra qu'elles se regroupent autour de la proportion théorique pp, mais qu'elles s'étalent aussi plus ou moins.
  3. L'étendue des fréquences est l'écart entre la fréquence minimale et la fréquence maximale observée. Cette étendue nous donne une idée de l'amplitude des fluctuations.

Influence de la taille de l'échantillon

Un point crucial est l'impact de la taille de l'échantillon (nn) sur ces fluctuations :

  • Petit échantillon : Si nn est petit, les fréquences observées peuvent varier beaucoup d'un échantillon à l'autre. L'étendue des fréquences est grande. Un petit échantillon est moins fiable.
    • Exemple : Sur 10 boules (n=10), obtenir 3 rouges (f=0,3) ou 9 rouges (f=0,9) n'est pas si rare, même si p=0,6p=0,6.
  • Grand échantillon : Si nn est grand, les fréquences observées ont tendance à être plus proches de la proportion théorique pp. Les fluctuations sont moins importantes. L'étendue des fréquences est plus petite. Un grand échantillon est plus fiable.
    • Exemple : Sur 1000 boules (n=1000), obtenir 300 rouges (f=0,3) ou 900 rouges (f=0,9) serait extrêmement improbable si p=0,6p=0,6. Les fréquences se concentreraient autour de 0,6.

C'est l'idée intuitive derrière la Loi des grands nombres : plus la taille de l'échantillon augmente, plus la fréquence observée ff se rapproche de la proportion théorique pp. Un échantillon de grande taille réduit les fluctuations et augmente la précision de l'estimation.

Chapitre 3

Intervalle de Fluctuation (au seuil de 95%)

Définition et rôle de l'intervalle

  • L'intervalle de fluctuation (ou intervalle de confiance pour une proportion, selon le contexte, mais ici on parle bien de fluctuation) est un intervalle de valeurs qui, avec une certaine probabilité, contient la fréquence observée ff d'un échantillon aléatoire de taille nn, si la proportion théorique pp est connue.
  • Le seuil de 95% est le niveau de confiance le plus couramment utilisé. Cela signifie que si l'on tire un grand nombre d'échantillons de taille nn d'une population où la proportion est pp, environ 95% des fréquences observées ff tomberont dans cet intervalle.
  • La proportion pp est la proportion du caractère dans la population mère.
  • La fréquence observée ff est celle calculée à partir de l'échantillon.

Le rôle de cet intervalle est de nous donner une plage de valeurs "normales" pour la fréquence observée, compte tenu des fluctuations aléatoires.

Formule de l'intervalle de fluctuation

Pour un grand échantillon, l'intervalle de fluctuation au seuil de 95% est donné par la formule : If=[p1n;p+1n]I_f = \left[ p - \frac{1}{\sqrt{n}} ; p + \frac{1}{\sqrt{n}} \right]

Cette formule est une approximation, et elle est valide sous certaines conditions d'application :

  1. La taille de l'échantillon nn doit être suffisamment grande : n30n \ge 30.
  2. Les nombres npnp et n(1p)n(1-p) doivent être suffisamment grands, pour s'assurer que l'on n'est pas trop près des bornes 0 ou 1 : np5np \ge 5 et n(1p)5n(1-p) \ge 5.
  3. L'échantillon doit être obtenu par tirage aléatoire et les tirages doivent être indépendants (avec remise, ou sans remise si nn est petit par rapport à la population totale).

Calcul des bornes : Il suffit de remplacer pp et nn par leurs valeurs dans la formule.

  • Borne inférieure : p1np - \frac{1}{\sqrt{n}}
  • Borne supérieure : p+1np + \frac{1}{\sqrt{n}}

Arrondi : Les bornes de l'intervalle sont souvent arrondies à 3 ou 4 décimales pour plus de précision.

Exemple : Une pièce de monnaie est équilibrée, donc la proportion de "Pile" est p=0,5p=0,5. On la lance 100 fois (n=100n=100). Vérifions les conditions : n=10030n=100 \ge 30. np=100×0,5=505np = 100 \times 0,5 = 50 \ge 5. n(1p)=100×0,5=505n(1-p) = 100 \times 0,5 = 50 \ge 5. Les conditions sont remplies. L'intervalle de fluctuation est : If=[0,51100;0,5+1100]I_f = \left[ 0,5 - \frac{1}{\sqrt{100}} ; 0,5 + \frac{1}{\sqrt{100}} \right] If=[0,5110;0,5+110]I_f = \left[ 0,5 - \frac{1}{10} ; 0,5 + \frac{1}{10} \right] If=[0,50,1;0,5+0,1]I_f = \left[ 0,5 - 0,1 ; 0,5 + 0,1 \right] If=[0,4;0,6]I_f = [0,4 ; 0,6]

Interprétation de l'intervalle

L'interprétation de cet intervalle est cruciale :

  • Si la proportion réelle de la population est pp, alors on s'attend à ce que, dans environ 95% des échantillons de taille nn, la fréquence observée ff se situe à l'intérieur de cet intervalle.
  • Si la fréquence observée ff tombe dans l'intervalle, on considère qu'elle est "cohérente" avec l'hypothèse que la proportion réelle est pp. Les fluctuations d'échantillonnage seules peuvent expliquer cette fréquence.
  • Si la fréquence observée ff tombe en dehors de l'intervalle, c'est un événement "rare" (il n'y a que 5% de chances que cela arrive si pp est la vraie proportion). Dans ce cas, on peut douter de l'hypothèse que la proportion réelle de la population est bien pp.
  • Le risque d'erreur (5%) est la probabilité que notre ff tombe en dehors de l'intervalle alors que pp est bien la vraie proportion. On accepte ce petit risque.

Chapitre 4

Prise de Décision à partir d'un Échantillon

Test d'hypothèse

Un test d'hypothèse consiste à vérifier si une affirmation concernant une population (l'hypothèse) est plausible, à partir des données d'un échantillon.

  • L'hypothèse nulle (H0) est l'affirmation que l'on souhaite tester. C'est souvent l'hypothèse de "non-changement" ou de "conformité". On suppose que la proportion de la population est pp.
    • Exemple : H0 : La proportion de pièces défectueuses produites par la machine est toujours p=0,02p=0,02 (2%).
  • L'hypothèse alternative (H1) est ce que l'on conclurait si l'hypothèse nulle est rejetée.
    • Exemple : H1 : La proportion de pièces défectueuses a changé (elle est différente de 0,02).
  • La proportion de référence pp est la valeur de la proportion sous l'hypothèse nulle.
  • La décision est de savoir si l'on rejette ou non l'hypothèse nulle.

Méthodologie de la prise de décision

Voici les étapes pour prendre une décision :

  1. Formuler l'hypothèse nulle H0 : Identifier la proportion pp de référence pour la population.
  2. Calculer l'intervalle de fluctuation IfI_f au seuil de 95% en utilisant la formule [p1n;p+1n]\left[ p - \frac{1}{\sqrt{n}} ; p + \frac{1}{\sqrt{n}} \right]. N'oubliez pas de vérifier les conditions d'application (n30n \ge 30, np5np \ge 5, n(1p)5n(1-p) \ge 5).
  3. Observer la fréquence ff dans l'échantillon que vous avez prélevé.
  4. Comparer ff et l'intervalle IfI_f :
    • Si fIff \in I_f (la fréquence observée est dans l'intervalle), alors on ne rejette pas l'hypothèse nulle H0. La fréquence observée est compatible avec l'hypothèse que la proportion réelle est pp.
    • Si fIff \notin I_f (la fréquence observée est en dehors de l'intervalle), alors on rejette l'hypothèse nulle H0 au seuil de 95%. La fréquence observée est trop éloignée de pp pour être expliquée par le simple hasard des fluctuations. On peut alors considérer que la proportion réelle de la population est probablement différente de pp.
  5. Conclure contextuellement : Toujours replacer la décision dans le contexte du problème.

Exemples d'application

  • Contrôle qualité : Une usine fabrique des ampoules. Historiquement, 2% des ampoules sont défectueuses (p=0,02p=0,02). Un jour, on prélève un échantillon de 1000 ampoules (n=1000n=1000) et on en trouve 35 défectueuses (f=351000=0,035f = \frac{35}{1000} = 0,035).
    • Conditions : n=100030n=1000 \ge 30. np=1000×0,02=205np = 1000 \times 0,02 = 20 \ge 5. n(1p)=1000×0,98=9805n(1-p) = 1000 \times 0,98 = 980 \ge 5. OK.
    • If=[0,0211000;0,02+11000][0,020,0316;0,02+0,0316][0,0116;0,0516]I_f = \left[ 0,02 - \frac{1}{\sqrt{1000}} ; 0,02 + \frac{1}{\sqrt{1000}} \right] \approx [0,02 - 0,0316 ; 0,02 + 0,0316] \approx [-0,0116 ; 0,0516]. On ajuste à [0;0,0516][0; 0,0516] car une proportion ne peut être négative.
    • f=0,035f = 0,035. Est-ce que 0,035[0;0,0516]0,035 \in [0 ; 0,0516] ? Oui.
    • Conclusion : On ne rejette pas l'hypothèse que la proportion de défectueux est toujours de 2%. La légère augmentation observée (3,5%) peut être due aux fluctuations d'échantillonnage.
  • Sondages d'opinion : Un candidat affirme avoir le soutien de 55% de la population (p=0,55p=0,55). Un institut de sondage interroge 800 personnes (n=800n=800) et 400 d'entre elles soutiennent le candidat (f=400800=0,5f = \frac{400}{800} = 0,5).
    • Conditions : n=80030n=800 \ge 30. np=800×0,55=4405np = 800 \times 0,55 = 440 \ge 5. n(1p)=800×0,45=3605n(1-p) = 800 \times 0,45 = 360 \ge 5. OK.
    • If=[0,551800;0,55+1800][0,550,0354;0,55+0,0354][0,5146;0,5854]I_f = \left[ 0,55 - \frac{1}{\sqrt{800}} ; 0,55 + \frac{1}{\sqrt{800}} \right] \approx [0,55 - 0,0354 ; 0,55 + 0,0354] \approx [0,5146 ; 0,5854].
    • f=0,5f = 0,5. Est-ce que 0,5[0,5146;0,5854]0,5 \in [0,5146 ; 0,5854] ? Non.
    • Conclusion : On rejette l'affirmation du candidat. La fréquence de 50% observée dans l'échantillon est trop basse pour être compatible avec un soutien de 55% dans la population. Il y a moins de 5% de chances que cela arrive si le candidat avait réellement 55% de soutien.

Chapitre 5

Limites et Précautions

Conditions d'application des formules

La validité de l'intervalle de fluctuation repose sur le respect strict de ses conditions d'application :

  • Taille de l'échantillon (nn) : Doit être suffisamment grande (n30n \ge 30). Si nn est trop petit, l'approximation utilisée pour la formule n'est plus valable.
  • Proportions (np,n(1p)np, n(1-p)) : Les produits npnp et n(1p)n(1-p) doivent être supérieurs ou égaux à 5. Cela garantit que la distribution des fréquences est suffisamment "en cloche" (gaussienne) pour que l'approximation soit pertinente. Si pp est très proche de 0 ou de 1, il faut un nn beaucoup plus grand pour respecter cette condition.
  • Échantillon aléatoire : L'échantillon doit être obtenu par un processus de tirage aléatoire strict. Chaque individu de la population doit avoir une chance égale d'être sélectionné. C'est fondamental pour garantir la représentativité.
  • Indépendance des tirages : Chaque tirage doit être indépendant des précédents. En pratique, cela signifie que soit le tirage est avec remise, soit la taille de la population est très grande par rapport à la taille de l'échantillon (typiquement, nn doit être inférieur à 10% de la taille de la population).

Si ces conditions ne sont pas respectées, la formule de l'intervalle de fluctuation ne donne pas de résultats fiables.

Erreurs possibles

Lors d'un test d'hypothèse, il y a toujours un risque de prendre une mauvaise décision :

  • Erreur de première espèce (risque α\alpha) : C'est le risque de rejeter l'hypothèse nulle H0 alors qu'elle est en réalité vraie. Le seuil de 95% signifie que ce risque est de 5% (on dit α=0,05\alpha = 0,05). C'est le risque de conclure à un effet alors qu'il n'y en a pas, simplement par malchance avec l'échantillon.
    • Exemple : Conclure que la machine produit plus de défectueux alors que ce n'est pas le cas, juste parce que l'échantillon tiré par hasard ce jour-là contenait exceptionnellement beaucoup de défectueux.
  • Erreur de deuxième espèce (risque β\beta) : C'est le risque de ne pas rejeter l'hypothèse nulle H0 alors qu'elle est en réalité fausse. C'est le risque de ne pas détecter un effet réel.
    • Exemple : Conclure que la machine ne produit pas plus de défectueux alors qu'elle en produit, juste parce que l'échantillon tiré par hasard ce jour-là contenait exceptionnellement peu de défectueux.

On travaille généralement avec un risque α\alpha fixé à 5%. Il est important de comprendre que l'on accepte ce risque d'erreur de 5% quand on rejette H0. L'interprétation abusive des résultats peut survenir si l'on oublie ce risque ou si l'on généralise trop rapidement.

Importance de la représentativité

La qualité de l'échantillon est primordiale :

  • Un biais d'échantillonnage se produit lorsque l'échantillon n'est pas représentatif de la population. Cela peut arriver si les méthodes de tirage ne sont pas aléatoires ou si certaines parties de la population sont systématiquement exclues ou sous-représentées.
    • Exemple : Réaliser un sondage téléphonique uniquement pendant les heures de bureau exclurait les personnes qui travaillent.
    • Exemple : Interroger uniquement des volontaires peut introduire un biais, car les volontaires ne sont pas toujours représentatifs.
  • Un échantillon non représentatif conduit à des conclusions faussées, même si toutes les formules sont appliquées correctement. La validité des conclusions dépend directement de la qualité de l'échantillon.

En résumé, l'échantillonnage est un outil puissant pour explorer l'inconnu, mais il doit être utilisé avec rigueur et discernement. Comprendre les fluctuations, utiliser les intervalles de fluctuation à bon escient et être conscient des limites sont les clés d'une bonne analyse statistique.

Après la lecture

Passe à la pratique avec deux blocs bien visibles

Une fois le cours lu, ouvre soit le quiz pour vérifier la compréhension, soit les flashcards pour mémoriser les idées importantes. Les deux s'ouvrent dans une fenêtre dédiée.

Quiz + Flashcards

Suite naturelle

Tu veux aller plus loin que l'article ?

Retrouve le même chapitre dans Wilo avec la suite des questions, la répétition espacée, les corrigés complets et une progression suivie dans le temps.