Comparer des distributions a l'aide de boites a moustaches
Une version article du chapitre pour comprendre l'essentiel rapidement, vérifier si le niveau correspond, puis basculer vers Wilo pour la pratique guidée et le suivi.
Lecture
5 chapitres
Un parcours éditorialisé et navigable.
Pratique
12 questions
Quiz et cartes mémoire à ouvrir après la lecture.
Objectif
Première générale
Format rapide pour vérifier si le chapitre correspond.
Chapitre 1
Introduction aux statistiques descriptives et aux indicateurs de position
Rappel sur les séries statistiques et les variables
En statistiques, nous étudions des séries statistiques, qui sont des collections de données collectées.
- Une population est l'ensemble complet des individus ou des objets que l'on souhaite étudier (ex: tous les élèves de Première générale en France).
- Un échantillon est un sous-ensemble de cette population, sélectionné pour être étudié (ex: 500 élèves de Première générale tirés au hasard).
Les données que nous recueillons sont appelées des variables.
- Une variable quantitative est mesurable et s'exprime avec des nombres (ex: taille, poids, note à un examen). Elle peut être discrète (valeurs isolées, ex: nombre d'enfants) ou continue (toutes les valeurs dans un intervalle, ex: taille).
- Une variable qualitative décrit une caractéristique ou une catégorie et ne s'exprime pas numériquement (ex: couleur des yeux, catégorie socio-professionnelle).
Une série statistique est simplement l'ensemble des valeurs prises par une variable pour un échantillon ou une population donnée.
Mesures de tendance centrale : moyenne et médiane
Les mesures de tendance centrale nous donnent une idée de la "valeur typique" ou du "centre" de notre série statistique.
-
La moyenne arithmétique () est la somme de toutes les valeurs divisée par le nombre de valeurs. C'est l'indicateur le plus courant. Pour une série de valeurs , la moyenne est : La moyenne est facile à calculer et à comprendre, mais elle est très sensible aux valeurs extrêmes (valeurs aberrantes).
-
La médiane () est la valeur qui partage la série statistique ordonnée en deux parties égales. 50% des observations sont inférieures ou égales à la médiane, et 50% sont supérieures ou égales. Pour la calculer :
- Trier les données par ordre croissant.
- Si le nombre de données est impair, la médiane est la valeur située à la position .
- Si le nombre de données est pair, la médiane est la moyenne des deux valeurs centrales, situées aux positions et . La médiane est une mesure de tendance centrale robuste, c'est-à-dire qu'elle est peu affectée par les valeurs extrêmes.
Mesures de position : les quartiles
Les quartiles sont des mesures de position qui, comme la médiane, divisent la série de données ordonnée en plusieurs parties.
- Le premier quartile () est la valeur telle qu'au moins 25% des données lui sont inférieures ou égales, et au moins 75% lui sont supérieures ou égales.
- Le deuxième quartile () est la médiane (), car au moins 50% des données lui sont inférieures ou égales, et au moins 50% lui sont supérieures ou égales.
- Le troisième quartile () est la valeur telle qu'au moins 75% des données lui sont inférieures ou égales, et au moins 25% lui sont supérieures ou égales.
Les quartiles divisent la série ordonnée en quatre parts égales.
Pour le calcul des quartiles (méthode de l'Éducation Nationale française) : Soit une série de valeurs ordonnées.
- Pour : Calculer .
- Si le résultat est un entier , alors est la -ème valeur.
- Si le résultat n'est pas un entier, l'arrondir à l'entier supérieur , alors est la -ème valeur.
- Pour : Calculer .
- Si le résultat est un entier , alors est la -ème valeur.
- Si le résultat n'est pas un entier, l'arrondir à l'entier supérieur , alors est la -ème valeur.
Exemple : Série ordonnée de 10 notes : .
- .
- Médiane : est pair, donc .
- : . On arrondit à 3. est la 3ème valeur, soit .
- : . On arrondit à 8. est la 8ème valeur, soit .
L'interprétation des quartiles est simple :
- Entre le minimum et , on trouve environ 25% des données.
- Entre et (médiane), on trouve environ 25% des données.
- Entre et , on trouve environ 25% des données.
- Entre et le maximum, on trouve environ 25% des données. Ils nous aident à comprendre la répartition des données.
Chapitre 2
Mesures de dispersion et l'étendue interquartile
Rappel sur l'étendue
- L'étendue () d'une série statistique est la différence entre la valeur maximale et la valeur minimale de la série. Exemple : Pour la série de notes , l'étendue est .
- L'étendue est très facile à calculer et donne une première idée de l'étalement des données.
- Cependant, l'étendue a des limites : elle est extrêmement sensible aux valeurs extrêmes. Une seule valeur aberrante peut fausser complètement l'indication de l'étendue, la rendant non représentative de la dispersion de la majorité des données.
L'écart interquartile (IQR)
Pour pallier la sensibilité de l'étendue aux valeurs extrêmes, nous utilisons l'écart interquartile (IQR, de l'anglais InterQuartile Range).
- L'IQR est la différence entre le troisième quartile () et le premier quartile (). Exemple : Pour notre série de notes avec et , l'IQR est .
- L'IQR représente l'étendue des 50% des données centrales, c'est-à-dire la partie centrale de la distribution, une fois les 25% les plus basses et les 25% les plus hautes retirées.
- L'IQR est une mesure de dispersion robuste, car elle n'est pas affectée par les valeurs extrêmes. Elle donne une meilleure idée de la dispersion "typique" des données. Plus l'IQR est petit, plus les 50% des données centrales sont regroupées.
Les cinq nombres résumés
Pour décrire une distribution de manière concise et efficace, on utilise les cinq nombres résumés. Ce sont les piliers de la construction des boîtes à moustaches.
Ces cinq nombres sont :
- Le minimum (valeur la plus petite de la série).
- Le premier quartile ().
- La médiane ( ou ).
- Le troisième quartile ().
- Le maximum (valeur la plus grande de la série).
Ces cinq valeurs nous donnent une vue d'ensemble rapide de la position et de la dispersion d'une série statistique.
Chapitre 3
Construction et interprétation des boîtes à moustaches
Principe de la boîte à moustaches
Une boîte à moustaches (ou boxplot) est un graphique qui représente visuellement les cinq nombres résumés d'une série statistique.
- Elle permet de visualiser rapidement la tendance centrale (grâce à la médiane), la dispersion (grâce à l'IQR et à l'étendue totale), et la symétrie de la distribution.
- Avantages :
- Compacte et permet de comparer plusieurs distributions sur un même graphique.
- Très utile pour identifier la présence de valeurs extrêmes.
- Robuste aux valeurs aberrantes grâce à l'utilisation des quartiles et de la médiane.
- Inconvénients :
- Ne montre pas la forme exacte de la distribution (par exemple, les modes).
- Ne donne pas d'information sur la taille de l'échantillon.
Étapes de construction d'une boîte à moustaches
Pour construire une boîte à moustaches, suivez ces étapes :
- Déterminer les cinq nombres résumés : Minimum, , Médiane, , Maximum. (C'est la première étape essentielle !)
- Tracer un axe gradué : Cet axe doit couvrir l'intervalle allant du minimum au maximum de vos données. Il peut être horizontal ou vertical.
- Tracer la boîte :
- Dessinez un rectangle dont les bords sont situés à et .
- La longueur de cette boîte représente l'IQR. Cette boîte contient les 50% des données centrales.
- Tracer la médiane :
- Dessinez un trait à l'intérieur de la boîte, à l'emplacement de la médiane.
- Tracer les moustaches :
- Les "moustaches" s'étendent de la boîte jusqu'aux valeurs minimale et maximale de la série.
- Une moustache part de jusqu'au minimum.
- L'autre moustache part de jusqu'au maximum.
- Parfois, les moustaches peuvent avoir une limite (souvent au-delà de et ) pour identifier les "valeurs atypiques" ou "outliers" qui sont alors représentées par des points isolés. Dans le cadre de la Première générale, on s'en tient généralement aux min et max.
Lecture et interprétation d'une boîte à moustaches
Une fois la boîte à moustaches construite, voici comment l'interpréter :
- Position de la médiane : Elle indique la valeur centrale de la distribution. Si la médiane est proche du centre de la boîte, la distribution est plus symétrique au centre.
- Étendue de la boîte (IQR) : La longueur de la boîte () montre la dispersion des 50% des données centrales. Une boîte courte indique une forte concentration des données autour de la médiane, tandis qu'une boîte longue suggère une plus grande dispersion.
- Longueur des moustaches :
- Les moustaches indiquent la dispersion des 25% de données les plus basses et des 25% les plus hautes.
- Si une moustache est beaucoup plus longue que l'autre, cela peut indiquer une asymétrie de la distribution.
- Une moustache droite ( au Max) plus longue qu'une moustache gauche ( à ) suggère un étalement vers les valeurs élevées (asymétrie à droite, ou étalement positif).
- Une moustache gauche plus longue suggère un étalement vers les valeurs basses (asymétrie à gauche, ou étalement négatif).
- Symétrie et asymétrie de la distribution :
- Une distribution est considérée comme symétrique si la médiane est à peu près au centre de la boîte et si les moustaches ont des longueurs similaires.
- Si la médiane est décalée vers et que la moustache supérieure est longue, la distribution est asymétrique à droite.
- Si la médiane est décalée vers et que la moustache inférieure est longue, la distribution est asymétrique à gauche.
Chapitre 4
Comparaison de distributions à l'aide de boîtes à moustaches
Méthodologie de comparaison visuelle
Pour comparer plusieurs distributions (par exemple, les notes de deux classes différentes, ou les résultats d'un même groupe à deux examens), on trace leurs boîtes à moustaches sur le même axe gradué.
- Superposition de boîtes à moustaches : Placer les boîtes les unes au-dessus des autres (ou côte à côte si l'axe est vertical) permet une comparaison directe.
- Comparaison des médianes :
- La position des traits de médiane indique la tendance centrale de chaque distribution.
- Si la médiane d'une distribution est significativement plus haute que celle d'une autre, cela suggère que cette première distribution a des valeurs généralement plus élevées. C'est un indicateur clé de la différence de performance ou de niveau.
- Comparaison des dispersions (IQR) :
- La longueur de la boîte (IQR) nous renseigne sur la dispersion des 50% des données centrales.
- Une boîte plus courte indique une plus grande homogénéité des données au centre, tandis qu'une boîte plus longue indique une plus grande variabilité.
- On peut aussi comparer l'étendue totale (longueur de la moustache à moustache).
Analyse de la position relative et de la variabilité
En comparant les boîtes, on peut tirer des conclusions sur :
- Le décalage des distributions : Une distribution est-elle globalement décalée vers le haut ou vers le bas par rapport à une autre ? Cela se voit par la position relative des médianes et des boîtes.
- L'homogénéité ou l'hétérogénéité : Une distribution avec un IQR plus petit est plus homogène (ses valeurs centrales sont plus regroupées). Une distribution avec un IQR plus grand est plus hétérogène (ses valeurs centrales sont plus dispersées).
- L'identification de valeurs atypiques : Bien que non inclus dans la définition stricte des moustaches pour le lycée, une observation lointaine du reste de la moustache pourrait indiquer une valeur aberrante.
Exemples pratiques de comparaison
-
Comparaison de performances (ex: deux classes) :
- Classe A : Notes (min, Q1, Med, Q3, max) = (5, 10, 12, 15, 18)
- Classe B : Notes (min, Q1, Med, Q3, max) = (3, 8, 10, 12, 20)
- Observation : La médiane de la Classe A (12) est plus élevée que celle de la Classe B (10), suggérant que la Classe A a globalement de meilleures notes.
- L'IQR de la Classe A est . L'IQR de la Classe B est . La Classe B semble légèrement plus homogène sur ses 50% centrales de notes.
- La Classe B a une note minimale plus basse (3) et une note maximale plus haute (20) que la Classe A, indiquant une plus grande étendue totale et potentiellement plus d'hétérogénéité globale.
-
Comparaison de données expérimentales : Deux traitements différents pour une maladie. On mesure le temps de guérison.
- Traitement 1 : (min, Q1, Med, Q3, max) = (3 jours, 5 jours, 7 jours, 9 jours, 12 jours)
- Traitement 2 : (min, Q1, Med, Q3, max) = (2 jours, 4 jours, 6 jours, 8 jours, 10 jours)
- Conclusion : Le Traitement 2 a une médiane plus faible (6 jours vs 7 jours), ce qui suggère qu'il est globalement plus rapide. De plus, l'IQR est similaire, indiquant une dispersion comparable des temps de guérison "typiques".
-
Interprétation des conclusions : La comparaison des boîtes à moustaches permet de formuler des hypothèses et des conclusions préliminaires sur les différences entre les distributions, qui pourront être confirmées par des tests statistiques plus avancés si nécessaire.
Chapitre 5
Limites et précautions d'emploi
Ce que la boîte à moustaches ne montre pas
- Absence de densité de la distribution : Une boîte à moustaches ne montre pas combien de données se trouvent à chaque point ou dans chaque petit intervalle. Deux distributions avec les mêmes cinq nombres résumés peuvent avoir des formes très différentes.
- Perte d'information sur les modes : Un mode est la valeur qui apparaît le plus souvent. Une boîte à moustaches ne révèle pas si une distribution est unimodale (un seul pic) ou multimodale (plusieurs pics).
- Sensibilité aux valeurs extrêmes pour l'étendue totale : Bien que l'IQR soit robuste, les moustaches peuvent être fortement influencées par une ou deux valeurs aberrantes, ce qui rend l'étendue totale moins informative.
Quand utiliser d'autres représentations
Les boîtes à moustaches sont excellentes pour la comparaison, mais d'autres graphiques sont parfois nécessaires pour une analyse plus approfondie :
- Les histogrammes : Ils sont idéaux pour visualiser la forme générale (symétrie, asymétrie, unimodalité, bimodalité) et la densité d'une distribution. Utiles pour comprendre la répartition des données.
- Les diagrammes en bâtons : Pour les variables discrètes ou qualitatives, ils montrent la fréquence de chaque modalité ou valeur.
- Les nuages de points : Indispensables pour explorer la relation entre deux variables quantitatives (corrélation).
Synthèse des bonnes pratiques
Pour une analyse statistique complète et pertinente :
- Utilisation complémentaire avec d'autres outils : Ne vous fiez pas uniquement aux boîtes à moustaches. Combinez-les avec des histogrammes, des calculs de moyenne et d'écart-type, et d'autres outils selon le contexte.
- Clarté des légendes et des échelles : Assurez-vous que vos graphiques sont toujours bien étiquetés, avec des titres clairs et des unités sur les axes, pour une interprétation sans ambiguïté.
- Contexte de l'étude : Toujours interpréter les résultats dans le contexte des données. Une différence "statistiquement significative" n'est pas toujours "pratiquement significative". Comprenez ce que les nombres représentent dans la réalité.
- Vérification des hypothèses : Si vous utilisez des tests statistiques après l'analyse graphique, assurez-vous que les conditions d'application de ces tests sont respectées.
En maîtrisant les boîtes à moustaches, vous disposez d'un outil puissant pour explorer et comparer des ensembles de données, mais n'oubliez jamais qu'elles ne sont qu'une pièce du puzzle de l'analyse statistique.
Après la lecture
Passe à la pratique avec deux blocs bien visibles
Une fois le cours lu, ouvre soit le quiz pour vérifier la compréhension, soit les flashcards pour mémoriser les idées importantes. Les deux s'ouvrent dans une fenêtre dédiée.
Suite naturelle
Tu veux aller plus loin que l'article ?
Retrouve le même chapitre dans Wilo avec la suite des questions, la répétition espacée, les corrigés complets et une progression suivie dans le temps.