Éducation nationale françaiseSpécialité MathématiquesPremière générale18 min de lecture

Calculer et interpreter des indicateurs statistiques

Une version article du chapitre pour comprendre l'essentiel rapidement, vérifier si le niveau correspond, puis basculer vers Wilo pour la pratique guidée et le suivi.

Lecture

4 chapitres

Un parcours éditorialisé et navigable.

Pratique

12 questions

Quiz et cartes mémoire à ouvrir après la lecture.

Objectif

Première générale

Format rapide pour vérifier si le chapitre correspond.

Chapitre 1

Introduction aux Séries Statistiques

Définition et Types de Variables

En statistique, nous étudions des ensembles de données. Pour cela, il est essentiel de comprendre le vocabulaire de base.

  • Population : C'est l'ensemble de tous les éléments ou individus sur lesquels porte l'étude statistique. Par exemple, tous les lycéens de France.
  • Individu (ou unité statistique) : C'est un élément de la population. Par exemple, un lycéen.
  • Échantillon : C'est une partie représentative de la population sur laquelle l'étude est réellement menée, lorsque la population est trop grande pour être étudiée dans son intégralité. Par exemple, un groupe de 1000 lycéens choisis pour représenter tous les lycéens.

Une variable statistique (ou caractère) est la propriété étudiée sur chaque individu de la population. Les variables peuvent être de différents types :

  • Variable qualitative : Elle décrit une qualité ou une caractéristique qui ne peut pas être mesurée numériquement.

    • Nominale : Les modalités (valeurs possibles) de la variable ne peuvent pas être ordonnées. Exemple : Couleur des yeux (bleu, vert, marron).
    • Ordinale : Les modalités peuvent être ordonnées. Exemple : Niveau d'appréciation (insuffisant, passable, bien, très bien).
  • Variable quantitative : Elle décrit une quantité qui peut être mesurée numériquement.

    • Discrète : La variable ne peut prendre que des valeurs isolées, souvent des nombres entiers. Exemple : Nombre d'enfants par famille (0, 1, 2, ...).
    • Continue : La variable peut prendre n'importe quelle valeur dans un intervalle donné. Elle est souvent issue d'une mesure. Exemple : Taille d'une personne (1,75 m, 1,82 m, ...). Pour les variables continues, les données sont souvent regroupées en classes.

Représentations Graphiques Courantes

Les représentations graphiques permettent de visualiser rapidement la distribution des données et d'en dégager les principales caractéristiques.

  • Diagramme en bâtons : Utilisé pour les variables qualitatives ou quantitatives discrètes. Chaque bâton représente l'effectif ou la fréquence d'une modalité. La hauteur du bâton est proportionnelle à l'effectif/fréquence.

    • Exemple : Nombre de voitures vendues par couleur.
  • Histogramme : Utilisé pour les variables quantitatives continues regroupées en classes. Les rectangles sont contigus. L'aire de chaque rectangle est proportionnelle à l'effectif ou la fréquence de la classe. Si les classes ont la même amplitude, la hauteur est proportionnelle à l'effectif. Si les amplitudes sont différentes, il faut calculer la hauteur hi=effectifiamplitudeih_i = \frac{\text{effectif}_i}{\text{amplitude}_i}.

    • Exemple : Répartition des salaires par tranches.
  • Diagramme circulaire (ou "camembert") : Utilisé pour toutes les variables, mais particulièrement efficace pour montrer la proportion de chaque modalité par rapport au total. Chaque secteur angulaire est proportionnel à l'effectif ou la fréquence. L'angle d'un secteur est donné par Freˊquence×360\text{Fréquence} \times 360^\circ.

    • Exemple : Répartition des types de transport utilisés par les élèves.

Tableaux de Fréquences et Effectifs

Les tableaux sont le premier pas pour organiser et synthétiser les données brutes.

  • Effectif (nin_i) : C'est le nombre d'individus qui présentent une certaine modalité ou qui appartiennent à une certaine classe. L'effectif total est N=niN = \sum n_i.
  • Effectif cumulé croissant (NCCiNCC_i) : C'est la somme des effectifs des modalités (ou classes) inférieures ou égales à la modalité (ou classe) actuelle.
    • Utile pour trouver la médiane ou les quartiles.
  • Fréquence (fif_i) : C'est la proportion d'individus présentant une certaine modalité. Elle est calculée par fi=niNf_i = \frac{n_i}{N}. La somme des fréquences est toujours égale à 1 (ou 100% si exprimée en pourcentage).
  • Fréquence cumulée croissante (FCCiFCC_i) : C'est la somme des fréquences des modalités (ou classes) inférieures ou égales à la modalité (ou classe) actuelle.
    • Elle peut aussi être calculée comme FCCi=NCCiNFCC_i = \frac{NCC_i}{N}.

Tableau exemple pour données discrètes :

Valeur (xix_i)Effectif (nin_i)Fréquence (fif_i)Effectif Cumulé (NCCiNCC_i)Fréquence Cumulée (FCCiFCC_i)
150,1050,10
2100,20150,30
3200,40350,70
4150,30501,00
Total501,00

Classes d'amplitude égale ou inégale : Pour les variables continues, les données sont regroupées en classes (intervalles).

  • Si les amplitudes sont égales, la hauteur des bâtons de l'histogramme est directement proportionnelle à l'effectif.
  • Si les amplitudes sont inégales, il faut calculer la hauteur = effectif / amplitude pour que l'aire soit proportionnelle à l'effectif.

Chapitre 2

Indicateurs de Position

La Moyenne Arithmétique

La moyenne est l'indicateur de position le plus connu et le plus utilisé.

  • Calcul pour données brutes (non groupées) : La moyenne xˉ\bar{x} est la somme de toutes les valeurs divisée par le nombre total de valeurs. xˉ=x1+x2++xNN=1Ni=1Nxi\bar{x} = \frac{x_1 + x_2 + \dots + x_N}{N} = \frac{1}{N} \sum_{i=1}^{N} x_i Exemple : Notes obtenues par 5 élèves : 12, 15, 10, 13, 18. xˉ=12+15+10+13+185=685=13,6\bar{x} = \frac{12+15+10+13+18}{5} = \frac{68}{5} = 13,6.

  • Calcul pour données groupées (pondérées) : Lorsque les données sont présentées sous forme de tableau d'effectifs ou de fréquences. Si xix_i est la valeur (ou le centre de classe) et nin_i son effectif : xˉ=i=1knixiN\bar{x} = \frac{\sum_{i=1}^{k} n_i x_i}{N} Si xix_i est la valeur (ou le centre de classe) et fif_i sa fréquence : xˉ=i=1kfixi\bar{x} = \sum_{i=1}^{k} f_i x_i Exemple (tableau ci-dessus) : xˉ=(5×1)+(10×2)+(20×3)+(15×4)50=5+20+60+6050=14550=2,9\bar{x} = \frac{(5 \times 1) + (10 \times 2) + (20 \times 3) + (15 \times 4)}{50} = \frac{5 + 20 + 60 + 60}{50} = \frac{145}{50} = 2,9.

  • Propriétés de la moyenne :

    • La moyenne est sensible aux valeurs extrêmes (aberrantes). Une seule valeur très grande ou très petite peut la modifier significativement.
    • Si on ajoute une constante kk à toutes les valeurs, la nouvelle moyenne est xˉ+k\bar{x} + k.
    • Si on multiplie toutes les valeurs par une constante cc, la nouvelle moyenne est cxˉc \bar{x}.
    • La somme des écarts à la moyenne est toujours nulle : i=1N(xixˉ)=0\sum_{i=1}^{N} (x_i - \bar{x}) = 0.

La Médiane

La médiane (MeMe) est la valeur qui partage la série statistique ordonnée en deux parties égales. Au moins 50% des observations sont inférieures ou égales à la médiane, et au moins 50% sont supérieures ou égales à la médiane.

  • Définition et rôle : Elle représente le "milieu" de la série. Elle est moins sensible aux valeurs extrêmes que la moyenne.

  • Calcul pour données discrètes (non groupées) :

    1. Trier la série par ordre croissant.
    2. Identifier le nombre total de valeurs NN.
    3. Si NN est impair, la médiane est la valeur située à la position N+12\frac{N+1}{2}. Exemple : 10, 12, 13, 15, 18 (N=5N=5). Position 5+12=3\frac{5+1}{2} = 3. La médiane est la 3ème valeur, soit 13.
    4. Si NN est pair, la médiane est la moyenne des deux valeurs centrales situées aux positions N2\frac{N}{2} et N2+1\frac{N}{2}+1. Exemple : 10, 12, 13, 15, 18, 20 (N=6N=6). Positions 62=3\frac{6}{2}=3 et 62+1=4\frac{6}{2}+1=4. La médiane est 13+152=14\frac{13+15}{2} = 14.
  • Calcul pour données groupées (en classes) :

    1. Calculer les effectifs cumulés croissants (NCCiNCC_i) ou les fréquences cumulées croissantes (FCCiFCC_i).
    2. Identifier la classe médiane : c'est la première classe dont l'effectif cumulé est supérieur ou égal à N2\frac{N}{2} (ou dont la fréquence cumulée est supérieure ou égale à 0,5).
    3. Utiliser l'interpolation linéaire pour estimer la médiane dans cette classe. Soit [Li,Li+1][L_i, L_{i+1}] la classe médiane, NCCi1NCC_{i-1} l'effectif cumulé de la classe précédente, et nin_i l'effectif de la classe médiane. Me=Li+(Li+1Li)×N2NCCi1niMe = L_i + (L_{i+1} - L_i) \times \frac{\frac{N}{2} - NCC_{i-1}}{n_i} C'est une formule à ne pas apprendre par cœur, mais à comprendre : on fait une proportionnalité dans la classe médiane.

Le Mode

  • Définition et identification : Le mode (MoMo) est la valeur (ou la modalité) qui apparaît le plus fréquemment dans une série statistique. C'est la valeur ayant le plus grand effectif.

    • Exemple (données brutes) : 10, 12, 13, 13, 15, 18. Le mode est 13.
    • Exemple (tableau ci-dessus) : La valeur 3 a l'effectif le plus élevé (20). Le mode est 3.
  • Série unimodale, multimodale :

    • Une série est unimodale si elle n'a qu'un seul mode.
    • Une série est multimodale si elle a plusieurs modes (plusieurs valeurs ont le même effectif maximal).
  • Intérêt et limites :

    • Le mode est facile à identifier, même pour les variables qualitatives.
    • Il n'est pas toujours unique et peut ne pas être représentatif si la distribution est très dispersée.
    • Pour les variables continues regroupées en classes, on parle de classe modale (la classe avec le plus grand effectif).

Comparaison des Indicateurs de Position

Le choix de l'indicateur de position dépend du type de variable et de la forme de la distribution.

  • Sensibilité aux valeurs extrêmes :

    • La moyenne est très sensible aux valeurs extrêmes.
    • La médiane est robuste aux valeurs extrêmes, car elle ne tient compte que de l'ordre des valeurs.
    • Le mode n'est pas affecté par les valeurs extrêmes tant qu'elles ne deviennent pas les plus fréquentes.
  • Choix de l'indicateur pertinent :

    • Pour les distributions symétriques sans valeurs aberrantes, la moyenne, la médiane et le mode sont souvent proches. La moyenne est généralement préférée car elle utilise toutes les données.
    • Pour les distributions asymétriques ou avec des valeurs aberrantes, la médiane est souvent plus représentative du "centre" des données. (Exemple : revenus, où quelques très hauts salaires tireraient la moyenne vers le haut).
    • Le mode est utile pour les variables qualitatives ou pour identifier la valeur la plus fréquente.
  • Interprétation contextuelle :

    • Si on parle du salaire moyen, cela peut être trompeur si quelques personnes gagnent énormément. Le salaire médian serait plus pertinent pour décrire le salaire "typique".
    • Si on étudie la taille des chaussures, le mode est très utile pour savoir quelle pointure est la plus demandée.

Chapitre 3

Indicateurs de Dispersion

L'Étendue

  • Définition et calcul : L'étendue (EE) est la différence entre la valeur maximale et la valeur minimale de la série. E=XmaxXminE = X_{max} - X_{min} Exemple : Notes 10, 12, 13, 15, 18. E=1810=8E = 18 - 10 = 8.

  • Simplicité et limites :

    • Facile à calculer et à comprendre.
    • Très sensible aux valeurs extrêmes. Une seule valeur aberrante peut fortement modifier l'étendue.
    • Ne donne aucune information sur la répartition des valeurs à l'intérieur de la série.
  • Interprétation : Une petite étendue indique que les valeurs sont peu dispersées, une grande étendue indique une forte dispersion.

Les Quartiles et l'Écart Interquartile

Les quartiles divisent la série ordonnée en quatre parties égales.

  • Définition des quartiles (Q1,Q2,Q3Q_1, Q_2, Q_3) :

    • Q1Q_1 (premier quartile) : Au moins 25% des valeurs sont inférieures ou égales à Q1Q_1, et au moins 75% sont supérieures ou égales à Q1Q_1.
    • Q2Q_2 (deuxième quartile) : C'est la médiane. Au moins 50% des valeurs sont inférieures ou égales à Q2Q_2, et au moins 50% sont supérieures ou égales à Q2Q_2.
    • Q3Q_3 (troisième quartile) : Au moins 75% des valeurs sont inférieures ou égales à Q3Q_3, et au moins 25% sont supérieures ou égales à Q3Q_3.
  • Calcul des quartiles (méthode de l'Éducation Nationale française) :

    1. Trier la série par ordre croissant.
    2. Calculer N×0,25N \times 0,25 pour Q1Q_1 et N×0,75N \times 0,75 pour Q3Q_3.
    3. Si le résultat est un entier kk, le quartile est la moyenne de la kk-ième et de la (k+1)(k+1)-ième valeur.
    4. Si le résultat n'est pas un entier, on l'arrondit à l'entier supérieur. Le quartile est la valeur de la série correspondant à cette position.

    Exemple : Série ordonnée de 10 valeurs : 1, 2, 3, 4, 5, 6, 7, 8, 9, 10. (N=10N=10)

    • Pour Q1Q_1 : 10×0,25=2,510 \times 0,25 = 2,5. On arrondit à 3. Q1Q_1 est la 3ème valeur, soit 3.
    • Pour Q3Q_3 : 10×0,75=7,510 \times 0,75 = 7,5. On arrondit à 8. Q3Q_3 est la 8ème valeur, soit 8.
    • Pour Q2Q_2 (médiane) : N=10N=10 est pair, donc 5+62=5,5\frac{5+6}{2} = 5,5.
  • Écart interquartile (IQR) : C'est la différence entre le troisième et le premier quartile. IQR=Q3Q1IQR = Q_3 - Q_1 L'IQR représente l'étendue des 50% des valeurs centrales de la série. Il est peu sensible aux valeurs extrêmes, ce qui en fait un indicateur de dispersion robuste.

La Variance et l'Écart-type

Ces indicateurs mesurent la dispersion des données autour de la moyenne.

  • Définition de la variance (σ2\sigma^2 ou VV) : La variance est la moyenne des carrés des écarts à la moyenne. Elle donne une idée de la dispersion "quadratique" des données.

    • Pour données brutes : σ2=1Ni=1N(xixˉ)2\sigma^2 = \frac{1}{N} \sum_{i=1}^{N} (x_i - \bar{x})^2
    • Pour données groupées (tableau) : σ2=1Ni=1kni(xixˉ)2\sigma^2 = \frac{1}{N} \sum_{i=1}^{k} n_i (x_i - \bar{x})^2
  • Calcul de la variance (formule de Koenig) : Une formule plus simple pour le calcul est : σ2=(1Ni=1Nxi2)xˉ2\sigma^2 = \left( \frac{1}{N} \sum_{i=1}^{N} x_i^2 \right) - \bar{x}^2 C'est la moyenne des carrés moins le carré de la moyenne. Cette formule est souvent plus facile à utiliser en pratique.

  • Définition et calcul de l'écart-type (σ\sigma) : L'écart-type est la racine carrée de la variance. Il est exprimé dans la même unité que les données, ce qui facilite son interprétation. σ=σ2\sigma = \sqrt{\sigma^2} Un petit écart-type signifie que les données sont proches de la moyenne, un grand écart-type signifie qu'elles sont très dispersées.

  • Interprétation de l'écart-type :

    • L'écart-type est très sensible aux valeurs extrêmes.
    • Il est utilisé pour comparer la dispersion de différentes séries statistiques ayant la même unité et des moyennes proches.
    • Dans le cas d'une distribution normale (courbe en cloche), environ 68% des valeurs se trouvent dans l'intervalle [xˉσ,xˉ+σ][\bar{x} - \sigma, \bar{x} + \sigma], et environ 95% dans [xˉ2σ,xˉ+2σ][\bar{x} - 2\sigma, \bar{x} + 2\sigma].

Le Diagramme en Boîte (Boîte à Moustaches)

Le diagramme en boîte est une représentation graphique qui résume les cinq nombres clés d'une série statistique : minimum, Q1Q_1, médiane, Q3Q_3, maximum.

  • Construction du diagramme :

    1. Tracer un axe gradué correspondant aux valeurs de la série.
    2. Tracer une boîte dont les bords sont Q1Q_1 et Q3Q_3.
    3. Tracer une ligne à l'intérieur de la boîte pour la médiane (Q2Q_2).
    4. Tracer des "moustaches" (lignes) s'étendant de la boîte jusqu'à la valeur minimale et la valeur maximale de la série (ou jusqu'à des limites spécifiques pour identifier les valeurs aberrantes).
  • Lecture des indicateurs :

    • Le bord gauche de la boîte est Q1Q_1.
    • La ligne centrale de la boîte est la médiane (Q2Q_2).
    • Le bord droit de la boîte est Q3Q_3.
    • La longueur de la boîte représente l'écart interquartile (IQR=Q3Q1IQR = Q_3 - Q_1).
    • Les extrémités des moustaches indiquent le minimum et le maximum (ou les bornes des données non aberrantes).
  • Comparaison de séries statistiques : Le diagramme en boîte est particulièrement utile pour comparer visuellement la position et la dispersion de plusieurs séries statistiques sur un même graphique.

    • On peut comparer les médianes (position des lignes centrales).
    • On peut comparer les IQR (longueur des boîtes).
    • On peut comparer les étendues (longueur totale des moustaches).
    • On peut identifier rapidement la présence de valeurs aberrantes.

Chapitre 4

Interprétation et Choix des Indicateurs

Synthèse des Indicateurs

  • Résumé numérique d'une série : Aucun indicateur seul ne peut décrire complètement une série statistique. Il est toujours préférable de présenter un ensemble d'indicateurs.

    • Les indicateurs de position (moyenne, médiane, mode) donnent une idée du centre des données.
    • Les indicateurs de dispersion (étendue, IQR, écart-type) donnent une idée de la variabilité des données.
  • Combinaison des indicateurs de position et de dispersion :

    • La combinaison (moyenne, écart-type) est pertinente pour les distributions symétriques et sans valeurs extrêmes.
    • La combinaison (médiane, IQR) est plus pertinente pour les distributions asymétriques ou avec des valeurs extrêmes, car ces indicateurs sont plus robustes.
  • Pertinence selon le type de variable :

    • Qualitative : Seul le mode est pertinent.
    • Quantitative discrète : Tous les indicateurs sont utilisables, mais la moyenne peut être trompeuse si la distribution est très asymétrique.
    • Quantitative continue : Tous les indicateurs sont utilisables, souvent en regroupant les données en classes.

Influence des Valeurs Aberrantes

  • Détection des valeurs extrêmes : Une valeur aberrante (ou extrême) est une observation qui s'écarte significativement des autres observations d'un ensemble de données. Elles peuvent être détectées visuellement (diagramme en boîte, nuage de points) ou par des critères statistiques (par exemple, valeurs en dehors de [Q11,5×IQR,Q3+1,5×IQR][Q_1 - 1,5 \times IQR, Q_3 + 1,5 \times IQR]).

  • Impact sur la moyenne et l'écart-type : La moyenne et l'écart-type sont très sensibles aux valeurs aberrantes. Une seule valeur extrême peut augmenter ou diminuer considérablement leur valeur, les rendant moins représentatifs de la majorité des données.

  • Robustesse de la médiane et de l'écart interquartile : La médiane et l'écart interquartile sont dits "robustes" car ils sont peu affectés par la présence de valeurs extrêmes. Ils se basent sur l'ordre des données plutôt que sur leurs valeurs exactes.

Comparaison de Séries Statistiques

Comparer des séries statistiques est une tâche courante en analyse de données.

  • Utilisation des indicateurs pour comparer :

    • Pour comparer la position centrale : Comparer les moyennes ou les médianes.
    • Pour comparer la dispersion : Comparer les étendues, les IQR, ou les écarts-types.
    • Pour comparer la forme de la distribution : Utiliser les histogrammes, les diagrammes en boîte, et la position relative de la moyenne et la médiane.
  • Analyse de la position et de la dispersion simultanément : Il est crucial de ne pas se limiter à un seul type d'indicateur. Deux séries peuvent avoir la même moyenne mais des dispersions très différentes, ou des dispersions similaires mais des moyennes très éloignées.

    • Exemple : deux classes ayant la même moyenne de notes, mais l'une avec des notes très homogènes (petit écart-type) et l'autre avec des notes très hétérogènes (grand écart-type).
  • Exemples concrets de comparaison :

    • Comparaison des performances de deux groupes d'élèves (notes, temps de résolution).
    • Comparaison de l'efficacité de deux traitements médicaux (temps de guérison).
    • Comparaison des prix de vente de produits similaires dans différentes régions.

Utilisation des Outils Numériques

Les outils numériques sont indispensables pour le calcul et la visualisation des indicateurs statistiques, surtout avec de grandes quantités de données.

  • Calculatrice graphique : La plupart des calculatrices graphiques (TI, Casio) disposent de fonctions statistiques intégrées qui permettent de calculer rapidement la moyenne, la médiane, les quartiles, l'écart-type, etc. Il suffit d'entrer les données dans une liste. Elles peuvent aussi générer des histogrammes et des boîtes à moustaches.

  • Tableur (Excel, LibreOffice Calc) : Les tableurs sont des outils très puissants pour la statistique.

    • Fonctions pour calculer les indicateurs : MOYENNE(), MEDIANE(), MODE(), QUARTILE.INC(), ECART.TYPE.STANDARD(), VAR.S(), MIN(), MAX(), etc.
    • Création de tableaux de fréquences et d'effectifs.
    • Génération de graphiques : histogrammes, diagrammes circulaires, diagrammes en bâtons, diagrammes en boîte (souvent via des compléments d'analyse de données).
  • Vérification et interprétation des résultats : L'utilisation d'outils numériques permet de gagner du temps de calcul et de réduire les erreurs. Cependant, il est essentiel de toujours vérifier que les résultats sont cohérents et surtout de savoir les interpréter correctement dans le contexte de l'étude. Un outil ne remplace pas la compréhension des concepts statistiques.

Après la lecture

Passe à la pratique avec deux blocs bien visibles

Une fois le cours lu, ouvre soit le quiz pour vérifier la compréhension, soit les flashcards pour mémoriser les idées importantes. Les deux s'ouvrent dans une fenêtre dédiée.

Quiz + Flashcards

Suite naturelle

Tu veux aller plus loin que l'article ?

Retrouve le même chapitre dans Wilo avec la suite des questions, la répétition espacée, les corrigés complets et une progression suivie dans le temps.