Statistiques inférentielles
Une version article du chapitre pour comprendre l'essentiel rapidement, vérifier si le niveau correspond, puis basculer vers Wilo pour la pratique guidée et le suivi.
Lecture
6 chapitres
Un parcours éditorialisé et navigable.
Pratique
12 questions
Quiz et cartes mémoire à ouvrir après la lecture.
Objectif
Terminale générale
Format rapide pour vérifier si le chapitre correspond.
Chapitre 1
Introduction aux Statistiques Inférentielles
Qu'est-ce que l'inférence statistique ?
L'inférence statistique est une branche des statistiques qui permet de tirer des conclusions sur une population entière à partir de l'analyse d'un échantillon de cette population. C'est comme goûter une cuillerée de soupe pour savoir si elle est bien assaisonnée, plutôt que de devoir manger toute la marmite !
Key Concepts:
-
Population et échantillon :
- Une population est l'ensemble de tous les individus ou éléments d'intérêt (par exemple, tous les lycéens de France). Ses caractéristiques sont appelées paramètres (par exemple, la proportion de lycéens ayant un bac S).
- Un échantillon est un sous-ensemble de la population sélectionné pour l'étude (par exemple, 1000 lycéens choisis au hasard). Ses caractéristiques sont appelées statistiques (par exemple, la proportion de bac S dans l'échantillon).
- L'échantillon doit être représentatif de la population pour que l'inférence soit valide. On privilégie généralement les échantillons aléatoires.
-
Statistiques descriptives vs inférentielles :
- Les statistiques descriptives organisent, résument et présentent les données (calcul de moyennes, médianes, écarts-types, création de graphiques). Elles décrivent ce qui est observé dans l'échantillon.
- Les statistiques inférentielles vont plus loin : elles utilisent les données de l'échantillon pour faire des prédictions ou des généralisations sur la population dont est issu l'échantillon.
-
Objectifs de l'inférence :
- Estimer les paramètres inconnus de la population (par exemple, estimer la proportion réelle de bac S).
- Tester des hypothèses sur ces paramètres (par exemple, tester si la proportion de bac S est supérieure à 50%).
Variables aléatoires et lois de probabilité
Pour comprendre l'inférence, il est essentiel de maîtriser les concepts de variables aléatoires et de lois de probabilité.
Key Concepts:
-
Rappel sur les variables aléatoires :
- Une variable aléatoire (VA) est une fonction qui associe un nombre à chaque issue d'une expérience aléatoire.
- Elle peut être discrète (prend un nombre fini ou dénombrable de valeurs, comme le nombre de succès) ou continue (peut prendre n'importe quelle valeur dans un intervalle, comme une taille ou un poids).
- Chaque VA est associée à une loi de probabilité qui décrit la distribution des probabilités sur ses différentes valeurs possibles.
-
Loi binomiale :
- Décrit le nombre de succès dans une séquence de épreuves de Bernoulli indépendantes, où chaque épreuve a une probabilité de succès .
- .
- Espérance : .
- Variance : .
- Elle est fondamentale pour modéliser des proportions ou des dénombrements de succès.
-
Loi normale (centrée réduite ) :
- C'est la loi de probabilité continue la plus courante. Sa densité a une forme de "cloche".
- Caractérisée par sa moyenne et sa variance (ou son écart-type ).
- La loi normale centrée réduite est une loi normale avec et .
- Toute variable aléatoire peut être transformée en une variable centrée réduite .
- De nombreuses grandeurs naturelles suivent (approximativement) une loi normale.
Théorème Central Limite (TCL)
Le Théorème Central Limite est l'un des piliers de l'inférence statistique. Il explique pourquoi la loi normale est si importante.
Key Concepts:
-
Énoncé du TCL :
- Soient des variables aléatoires indépendantes et identiquement distribuées (i.i.d.) avec une espérance et une variance finies.
- Alors, pour suffisamment grand, la somme et la moyenne suivent approximativement une loi normale.
- Plus précisément, la variable aléatoire centrée réduite converge en loi vers une loi normale centrée réduite lorsque .
-
Conditions d'application :
- Les variables doivent être indépendantes.
- Elles doivent avoir la même distribution (identiquement distribuées).
- Leur variance doit être finie.
- La taille de l'échantillon doit être suffisamment grande (souvent est une règle empirique, mais cela dépend de la distribution sous-jacente des ).
-
Importance pour l'inférence :
- Le TCL nous permet d'utiliser la loi normale pour faire des inférences sur les moyennes d'échantillons, même si la distribution de la population d'origine n'est pas normale.
- C'est ce qui justifie l'utilisation de la loi normale pour construire des intervalles de confiance et effectuer des tests d'hypothèses sur des moyennes et des proportions, à condition que la taille de l'échantillon soit adéquate.
- Il est le fondement théorique de nombreuses méthodes statistiques.
Chapitre 2
Estimation Ponctuelle et par Intervalle
Estimateurs et propriétés
Key Concepts:
-
Définition d'un estimateur :
- Un estimateur est une statistique (une fonction des observations de l'échantillon) utilisée pour estimer un paramètre inconnu de la population. On le note souvent pour estimer .
- Par exemple, la moyenne de l'échantillon est un estimateur de la moyenne de la population . La proportion d'un échantillon est un estimateur de la proportion de la population .
-
Biais et variance :
- Le biais d'un estimateur est la différence entre son espérance et la vraie valeur du paramètre : . Un estimateur est sans biais si .
- La variance d'un estimateur mesure la dispersion des valeurs de l'estimateur autour de son espérance. On recherche des estimateurs avec une faible variance.
- Un bon estimateur est généralement sans biais et a une faible variance.
-
Estimateur sans biais :
- Un estimateur est dit sans biais si, en moyenne sur un grand nombre d'échantillons, il donne la vraie valeur du paramètre.
- Par exemple, la moyenne d'échantillon est un estimateur sans biais de la moyenne de la population .
- La proportion d'échantillon est un estimateur sans biais de la proportion de la population .
Intervalle de confiance d'une proportion
Plutôt qu'une estimation ponctuelle unique, on préfère souvent un intervalle de confiance qui donne une plage de valeurs plausibles pour le paramètre.
Key Concepts:
-
Construction de l'intervalle :
- Pour une proportion d'une population, estimée par une fréquence sur un échantillon de taille (avec grand, , ), l'intervalle de confiance (IC) au niveau de confiance est donné par :
- est le quantile d'ordre de la loi normale centrée réduite .
- Pour un niveau de confiance de 95% (), .
- Pour un niveau de confiance de 99% (), .
-
Niveau de confiance :
- Le niveau de confiance (par exemple, 95% ou 99%) est la probabilité que l'intervalle de confiance calculé contienne la vraie valeur du paramètre de la population.
- Un niveau de confiance de 95% signifie que si l'on répétait l'expérience un grand nombre de fois, 95% des intervalles construits contiendraient la vraie proportion .
-
Marge d'erreur :
- La marge d'erreur (ou précision) est la demi-largeur de l'intervalle : .
- Elle indique la précision de l'estimation. Pour la réduire, on peut augmenter la taille de l'échantillon ou diminuer le niveau de confiance (ce qui rend l'intervalle moins "sûr").
Intervalle de confiance d'une moyenne
Key Concepts:
-
Cas de la variance connue :
- Si l'écart-type de la population est connu (ce qui est rare en pratique), pour un échantillon de taille (grand, grâce au TCL), l'IC au niveau est :
- est la moyenne de l'échantillon.
-
Cas de la variance inconnue (grand échantillon) :
- En pratique, est souvent inconnu. Pour un grand échantillon (), on peut remplacer par l'écart-type de l'échantillon .
- L'intervalle devient :
- Pour des petits échantillons avec inconnu, on utilise la loi de Student (hors programme de Terminale, mais bonne à connaître).
-
Interprétation de l'intervalle :
- Un intervalle de confiance pour une moyenne est interprété de la même manière que pour une proportion : il fournit une plage de valeurs dans laquelle la vraie moyenne de la population est susceptible de se trouver, avec une certaine probabilité (le niveau de confiance).
- Il ne signifie pas que la moyenne de l'échantillon a 95% de chances d'être dans cet intervalle, mais que 95% des intervalles construits de cette manière contiendront la vraie moyenne de la population.
Chapitre 3
Tests d'Hypothèses : Principes Fondamentaux
Démarche générale d'un test statistique
Key Concepts:
-
Hypothèse nulle () et alternative () :
- L'hypothèse nulle () est l'hypothèse à tester. C'est généralement une affirmation d'absence d'effet, d'absence de différence, ou une valeur spécifique du paramètre. Ex: (la proportion est de 50%).
- L'hypothèse alternative () est l'opposé de . C'est ce que l'on cherche à prouver. Ex: (la proportion est différente de 50%), ou (la proportion est supérieure à 50%).
- On cherche à rejeter en faveur de si les données de l'échantillon sont trop "éloignées" de ce que prédit.
-
Statistique de test :
- C'est une variable aléatoire calculée à partir de l'échantillon, dont la distribution est connue sous l'hypothèse .
- Elle mesure à quel point les données de l'échantillon s'écartent de ce qui est attendu sous .
- Exemple : pour une proportion, on utilise souvent une statistique de test .
-
Région de rejet :
- C'est l'ensemble des valeurs de la statistique de test qui sont considérées comme trop extrêmes pour être compatibles avec .
- Si la statistique de test calculée tombe dans cette région, on rejette .
- La taille de la région de rejet est déterminée par le seuil de signification .
Erreurs de type I et de type II
Lors d'un test d'hypothèse, il y a toujours un risque de prendre une mauvaise décision.
Key Concepts:
-
Risque alpha () (seuil de signification) :
- Le risque de première espèce est la probabilité de rejeter alors qu'elle est vraie.
- On le note , et il est fixé a priori par le chercheur (souvent 0.05 ou 0.01).
- est la probabilité de faire une "fausse alarme" (dire qu'il y a un effet alors qu'il n'y en a pas).
-
Risque bêta () :
- Le risque de seconde espèce est la probabilité de ne pas rejeter alors qu'elle est fausse.
- C'est la probabilité de manquer un effet réel.
-
Puissance du test () :
- La puissance d'un test est la probabilité de rejeter quand elle est fausse (c'est-à-dire de détecter un effet quand il existe).
- On cherche à avoir des tests avec une puissance élevée.
- Il y a un compromis entre et : diminuer augmente (et diminue la puissance), à taille d'échantillon fixe.
Valeur p (p-value)
La p-value est une alternative moderne à la région de rejet pour prendre une décision.
Key Concepts:
-
Définition de la p-value :
- La p-value (ou valeur ) est la probabilité d'obtenir une statistique de test aussi extrême, voire plus extrême, que celle observée dans l'échantillon, en supposant que est vraie.
- C'est une mesure de la "force de l'évidence" contre fournie par les données. Une petite p-value signifie que les données observées sont très improbables sous .
-
Règle de décision avec la p-value :
- Si , on rejette .
- Si , on ne rejette pas .
- Attention : "ne pas rejeter " ne signifie pas que est vraie, mais simplement que les données ne sont pas suffisamment fortes pour la réfuter.
-
Interprétation :
- Une petite p-value (ex: 0.01) indique que les données sont peu compatibles avec . Il est donc raisonnable de rejeter .
- Une grande p-value (ex: 0.30) indique que les données sont compatibles avec . Il n'y a pas assez de preuves pour rejeter .
Chapitre 4
Tests de Conformité pour une Proportion
Test unilatéral d'une proportion
Un test unilatéral est utilisé lorsque l'on s'intéresse à une déviation dans une seule direction (par exemple, "supérieur à" ou "inférieur à").
Key Concepts:
-
Formulation des hypothèses :
- (la proportion est égale à une valeur de référence )
- (test unilatéral droit) OU (test unilatéral gauche)
- Exemple : (la proportion de réussite est de 50%) contre (la proportion de réussite est supérieure à 50%).
-
Calcul de la statistique de test :
- Pour un grand échantillon, la statistique de test suit approximativement une loi normale centrée réduite sous :
- Où est la proportion observée dans l'échantillon, est la proportion sous , et est la taille de l'échantillon.
-
Décision basée sur la p-value ou la région de rejet :
- Avec p-value : Calculer pour ou pour . Rejeter si .
- Avec région de rejet : Pour , rejeter si . Pour , rejeter si .
- est le quantile d'ordre de la loi .
Test bilatéral d'une proportion
Un test bilatéral est utilisé lorsque l'on s'intéresse à une déviation dans n'importe quelle direction (différent de).
Key Concepts:
-
Adaptation des hypothèses :
- (la proportion est différente de )
-
Calcul de la statistique de test :
- La statistique de test est la même que pour le test unilatéral :
-
Interprétation des résultats :
- Avec p-value : . Rejeter si .
- Avec région de rejet : Rejeter si (c'est-à-dire si ou ).
- Le seuil est partagé entre les deux "queues" de la distribution.
Conditions d'application et limites
Key Concepts:
-
Taille de l'échantillon :
- L'approximation par la loi normale est valide si la taille de l'échantillon est suffisamment grande.
- Règles empiriques : et . Certains utilisent et .
- Ces conditions garantissent que la distribution binomiale est bien approximée par une loi normale.
-
Approximation par la loi normale :
- Ces tests reposent sur le fait que, sous , la fréquence d'échantillon (ou la statistique ) suit approximativement une loi normale.
-
Exemples d'application :
- Vérifier si la proportion de pièces défectueuses fabriquées est conforme à une norme ().
- Tester si la proportion d'électeurs favorables à un candidat est différente de 50%.
- Évaluer si un nouveau traitement a un taux de succès significativement différent d'un traitement standard.
Chapitre 5
Tests de Conformité pour une Moyenne
Test unilatéral d'une moyenne (variance connue)
Key Concepts:
-
Hypothèses et statistique de test Z :
- (la moyenne de la population est égale à une valeur de référence )
- OU
- Si l'écart-type de la population est connu et est grand (ou la population est normale), la statistique de test est :
- Sous , suit une loi normale centrée réduite .
-
Calcul de la p-value :
- Pour , .
- Pour , .
-
Conclusion du test :
- Rejeter si .
Test bilatéral d'une moyenne (variance connue)
Key Concepts:
-
Formulation des hypothèses :
- (la moyenne est différente de )
-
Statistique de test et décision :
- La statistique de test est la même : .
- Avec p-value : . Rejeter si .
- Avec région de rejet : Rejeter si .
-
Exemples concrets :
- Vérifier si le poids moyen de paquets de céréales est bien de 500g ().
- Tester si la durée de vie moyenne d'un composant électronique est conforme aux spécifications.
Conditions d'application et robustesse
Key Concepts:
-
Normalité de la population :
- Si la population d'où est issu l'échantillon est normalement distribuée, le test est valide quelle que soit la taille de l'échantillon .
- Cependant, en pratique, la normalité est rarement connue avec certitude.
-
Taille de l'échantillon :
- Grâce au TCL, si est suffisamment grand (), le test est robuste même si la distribution de la population n'est pas normale. L'approximation par la loi normale est alors justifiée.
-
Utilisation de la loi de Student (mention) :
- Si l'écart-type de la population est inconnu (le cas le plus fréquent) ET que la taille de l'échantillon est petite (), on ne peut plus utiliser la loi normale.
- Dans ce cas, on utilise l'écart-type de l'échantillon et la loi de Student avec degrés de liberté. C'est un point important pour des études plus avancées.
Chapitre 6
Comparaison de Proportions et de Moyennes
Test de comparaison de deux proportions
On veut savoir si deux proportions et (issues de deux populations) sont différentes.
Key Concepts:
-
Hypothèses pour deux échantillons :
- (ou ) : les proportions sont égales.
- (test bilatéral) OU OU (tests unilatéraux).
- On a deux échantillons indépendants de tailles et , avec des fréquences observées et .
-
Statistique de test :
- Sous , on estime une proportion commune .
- La statistique de test (pour grands) est :
- Sous , suit approximativement une loi normale centrée réduite .
-
Interprétation :
- On calcule la p-value (ou on compare aux quantiles de ) et on rejette si .
- Si est rejetée, on conclut qu'il y a une différence significative entre les deux proportions.
Test de comparaison de deux moyennes (échantillons indépendants)
On veut savoir si deux moyennes et de deux populations sont différentes.
Key Concepts:
-
Hypothèses :
- (ou ) : les moyennes sont égales.
- (test bilatéral) OU OU (tests unilatéraux).
- On a deux échantillons indépendants de tailles et , avec des moyennes et et des écarts-types et .
-
Statistique de test (Z ou t) :
- Si les variances de population sont connues (rare) ou si sont grands (et sont remplacés par ): Sous , la formule se simplifie. .
- Si les variances sont inconnues et sont petits : On utilise un test de Student, souvent en supposant l'égalité des variances (ou non) et en calculant un avec des degrés de liberté ajustés (hors programme de Terminale).
-
Conditions d'application :
- Indépendance des échantillons.
- Les échantillons sont grands ( et ) pour l'approximation normale.
- Si les échantillons sont petits, il faut que les populations soient normales et on utilise la loi de Student.
Applications pratiques
Key Concepts:
- Sondages d'opinion : Comparer la proportion d'opinions favorables à un candidat entre deux régions.
- Efficacité de traitements : Comparer le taux de guérison de deux médicaments ou la moyenne d'une mesure (ex: tension artérielle) après deux traitements différents.
- Analyse de données expérimentales : Vérifier si un changement de processus de fabrication a un impact significatif sur la qualité moyenne d'un produit.
- Ces tests sont omniprésents dans la recherche scientifique, l'ingénierie, la médecine et les sciences sociales pour prendre des décisions basées sur des données.
Après la lecture
Passe à la pratique avec deux blocs bien visibles
Une fois le cours lu, ouvre soit le quiz pour vérifier la compréhension, soit les flashcards pour mémoriser les idées importantes. Les deux s'ouvrent dans une fenêtre dédiée.
Suite naturelle
Tu veux aller plus loin que l'article ?
Retrouve le même chapitre dans Wilo avec la suite des questions, la répétition espacée, les corrigés complets et une progression suivie dans le temps.