Éducation nationale françaiseOption Mathématiques complémentairesTerminale générale24 min de lecture

Analyse de données

Une version article du chapitre pour comprendre l'essentiel rapidement, vérifier si le niveau correspond, puis basculer vers Wilo pour la pratique guidée et le suivi.

Lecture

5 chapitres

Un parcours éditorialisé et navigable.

Pratique

12 questions

Quiz et cartes mémoire à ouvrir après la lecture.

Objectif

Terminale générale

Format rapide pour vérifier si le chapitre correspond.

Chapitre 1

Introduction à l'Analyse de Données

Qu'est-ce que l'analyse de données ?

L'analyse de données est un domaine qui implique l'examen, le nettoyage, la transformation et la modélisation de données dans le but de découvrir des informations utiles, de prendre des décisions éclairées et de soutenir la prise de décision. C'est un processus systématique qui permet de donner du sens à des ensembles de données brutes.

Objectifs principaux :

  • Comprendre les phénomènes : Identifier les causes et les effets, les relations et les tendances.
  • Prédire l'avenir : Estimer des valeurs futures ou des comportements.
  • Optimiser les processus : Améliorer l'efficacité et la performance.
  • Prendre des décisions éclairées : Fondées sur des preuves plutôt que sur l'intuition.

L'importance dans le monde actuel est considérable. Avec l'explosion des données numériques (Big Data), l'analyse de données est devenue essentielle dans presque tous les secteurs. Elle permet aux entreprises de mieux comprendre leurs clients, aux scientifiques de faire des découvertes, et aux gouvernements de prendre des décisions politiques plus efficaces.

Exemples d'applications :

  • Marketing : Cibler les publicités, prédire les comportements d'achat.
  • Santé : Découvrir de nouveaux traitements, surveiller les épidémies.
  • Finance : Détecter les fraudes, prédire les cours boursiers.
  • Météorologie : Prévoir le temps.
  • Sport : Optimiser les performances des athlètes.

Types de données

Comprendre les types de données est fondamental car cela détermine les méthodes d'analyse et les représentations graphiques appropriées.

  1. Données quantitatives : Ce sont des données numériques qui peuvent être mesurées ou comptées.

    • Données discrètes : Résultent d'un comptage et ne peuvent prendre qu'un nombre fini ou dénombrable de valeurs. Il n'y a pas de valeurs intermédiaires possibles.
      • Exemples : Nombre d'enfants dans une famille, nombre de voitures vendues, nombre de buts marqués.
    • Données continues : Résultent d'une mesure et peuvent prendre n'importe quelle valeur dans un intervalle donné.
      • Exemples : Taille d'une personne, poids d'un objet, température, temps de parcours.
  2. Données qualitatives : Ce sont des données qui décrivent une qualité ou une caractéristique, et ne sont pas numériques. Elles sont souvent catégorielles.

    • Données nominales : Catégories sans ordre inhérent. On ne peut pas les classer.
      • Exemples : Couleur des yeux (bleu, vert, marron), genre (homme, femme), pays de naissance.
    • Données ordinales : Catégories avec un ordre logique ou un classement.
      • Exemples : Niveau d'étude (primaire, collège, lycée, supérieur), degré de satisfaction (très satisfait, satisfait, neutre, insatisfait), classement d'une course (1er, 2ème, 3ème).

La collecte et les sources de données sont variées :

  • Sondages et enquêtes : Pour recueillir des opinions ou des caractéristiques.
  • Expériences : En laboratoire ou sur le terrain.
  • Bases de données existantes : Gouvernementales, commerciales, scientifiques.
  • Capteurs et objets connectés : Pour des mesures en temps réel.
  • Web scraping : Extraction de données du web.

Représentations graphiques de base

Les graphiques sont essentiels pour visualiser et communiquer les informations contenues dans les données. Ils permettent une compréhension rapide des tendances et des schémas.

  • Diagrammes en bâtons (ou diagrammes à barres) et circulaires (ou camemberts) :

    • Utilisés principalement pour les données qualitatives ou quantitatives discrètes.
    • Diagramme en bâtons : Chaque bâton représente une catégorie, sa hauteur (ou longueur) est proportionnelle à la fréquence ou à l'effectif de cette catégorie. Utile pour comparer des catégories.
    • Diagramme circulaire : Chaque secteur (part de "camembert") représente une catégorie, son angle est proportionnel à la fréquence relative de la catégorie. Utile pour montrer la proportion de chaque catégorie par rapport au total.
  • Histogrammes et boîtes à moustaches :

    • Utilisés principalement pour les données quantitatives continues.
    • Histogramme : Similaire au diagramme en bâtons mais les barres sont adjacentes et représentent des intervalles de valeurs (classes). L'aire de chaque barre est proportionnelle à la fréquence de la classe. Il donne une idée de la distribution des données.
    • Boîte à moustaches (ou diagramme en boîte) : Représentation graphique qui résume la distribution d'une série de données en utilisant cinq valeurs clés : le minimum, le premier quartile (Q1), la médiane (Q2), le troisième quartile (Q3) et le maximum. Elle est très utile pour comparer des distributions entre différents groupes et identifier les valeurs aberrantes.
  • Nuages de points :

    • Utilisés pour visualiser la relation entre deux variables quantitatives.
    • Chaque point sur le graphique représente une observation, avec sa coordonnée x correspondant à la valeur de la première variable et sa coordonnée y à la valeur de la seconde variable.
    • Permet de détecter visuellement des corrélations (positives, négatives, nulles) ou des modèles entre les variables.

Chapitre 2

Statistiques Descriptives Univariées

Mesures de tendance centrale

Ces mesures indiquent le "centre" ou la valeur typique d'un ensemble de données.

  • Moyenne arithmétique (xˉ\bar{x}) : C'est la somme de toutes les valeurs divisée par le nombre total de valeurs.

    • Formule : xˉ=1ni=1nxi\bar{x} = \frac{1}{n} \sum_{i=1}^{n} x_i
    • Sensible aux valeurs extrêmes (aberrantes).
    • Utile pour les données quantitatives symétriques.
  • Médiane (Me) : C'est la valeur centrale d'un ensemble de données ordonné. Elle divise l'ensemble des données en deux parties égales : 50% des valeurs sont inférieures ou égales à la médiane, et 50% sont supérieures ou égales.

    • Moins sensible aux valeurs extrêmes que la moyenne.
    • Utile pour les données quantitatives, surtout si la distribution est asymétrique.
    • Si nn est impair, la médiane est la valeur au rang n+12\frac{n+1}{2}.
    • Si nn est pair, la médiane est la moyenne des deux valeurs centrales aux rangs n2\frac{n}{2} et n2+1\frac{n}{2}+1.
  • Mode (Mo) : C'est la valeur (ou les valeurs) qui apparaît le plus fréquemment dans un ensemble de données.

    • Peut être utilisé pour tous les types de données (quantitatives et qualitatives).
    • Un ensemble de données peut avoir un mode (unimodal), plusieurs modes (multimodal) ou pas de mode du tout.

Mesures de dispersion

Ces mesures décrivent l'étalement ou la variabilité des données autour de la tendance centrale.

  • Étendue : C'est la différence entre la valeur maximale et la valeur minimale d'un ensemble de données.

    • Eˊtendue=MaxMinÉtendue = Max - Min
    • Très simple à calculer, mais très sensible aux valeurs extrêmes.
  • Écart interquartile (EIQ) : C'est la différence entre le troisième quartile (Q3) et le premier quartile (Q1).

    • EIQ=Q3Q1EIQ = Q3 - Q1
    • Le Q1 est la valeur en dessous de laquelle se trouvent 25% des données.
    • Le Q3 est la valeur en dessous de laquelle se trouvent 75% des données.
    • Il représente l'étendue des 50% des données centrales et est moins sensible aux valeurs extrêmes que l'étendue.
  • Variance (σ2\sigma^2 ou s2s^2) : Mesure la dispersion des données autour de la moyenne. C'est la moyenne des carrés des écarts à la moyenne.

    • Formule pour la population : σ2=1Ni=1N(xiμ)2\sigma^2 = \frac{1}{N} \sum_{i=1}^{N} (x_i - \mu)^2
    • Formule pour l'échantillon (non biaisée) : s2=1n1i=1n(xixˉ)2s^2 = \frac{1}{n-1} \sum_{i=1}^{n} (x_i - \bar{x})^2
    • L'unité de la variance est le carré de l'unité de la variable.
  • Écart-type (σ\sigma ou ss) : C'est la racine carrée positive de la variance. Il est exprimé dans la même unité que les données d'origine, ce qui le rend plus interprétable que la variance.

    • Formule : σ=σ2\sigma = \sqrt{\sigma^2} ou s=s2s = \sqrt{s^2}
    • Un écart-type élevé indique une grande dispersion des données, tandis qu'un écart-type faible indique que les données sont regroupées autour de la moyenne.
  • Coefficient de variation (CV) : C'est le rapport de l'écart-type à la moyenne. Il permet de comparer la dispersion de distributions ayant des moyennes différentes ou des unités de mesure différentes.

    • CV=σμCV = \frac{\sigma}{\mu} ou CV=sxˉCV = \frac{s}{\bar{x}}
    • Souvent exprimé en pourcentage.

Mesures de position

Ces mesures permettent de situer une valeur particulière au sein de l'ensemble des données.

  • Quartiles et déciles :

    • Quartiles : Divisent l'ensemble des données ordonnées en quatre parties égales.
      • Q1 (premier quartile) : 25% des données sont inférieures ou égales à Q1.
      • Q2 (deuxième quartile) : C'est la médiane, 50% des données sont inférieures ou égales à Q2.
      • Q3 (troisième quartile) : 75% des données sont inférieures ou égales à Q3.
    • Déciles : Divisent l'ensemble des données ordonnées en dix parties égales (D1, D2, ..., D9). Par exemple, D1 est la valeur en dessous de laquelle se trouvent 10% des données.
  • Centiles (ou percentiles) : Divisent l'ensemble des données ordonnées en cent parties égales. Le kieˋmek^{ième} centile est la valeur en dessous de laquelle se trouvent k%k\% des données.

    • Exemple : Le 90ème centile est la valeur qui sépare les 90% de valeurs les plus basses des 10% de valeurs les plus hautes.
  • Interprétation des boîtes à moustaches :

    • La ligne à l'intérieur de la boîte représente la médiane (Q2).
    • Les bords de la boîte représentent le premier quartile (Q1) et le troisième quartile (Q3). La longueur de la boîte est l'écart interquartile (Q3 - Q1).
    • Les "moustaches" s'étendent jusqu'aux valeurs minimales et maximales qui ne sont pas considérées comme des valeurs aberrantes. Généralement, les valeurs aberrantes sont celles qui se situent au-delà de Q11.5×EIQQ1 - 1.5 \times EIQ ou Q3+1.5×EIQQ3 + 1.5 \times EIQ.
    • La boîte à moustaches permet de visualiser la symétrie de la distribution, l'étendue des données centrales et la présence de valeurs extrêmes.

Formes de distribution

La forme d'une distribution décrit comment les données sont réparties.

  • Symétrie et asymétrie (skewness) :

    • Distribution symétrique : Les données sont réparties de manière égale de part et d'autre du centre. Pour une distribution parfaitement symétrique et unimodale, la moyenne, la médiane et le mode sont égaux. Ex: la distribution normale.
    • Distribution asymétrique à droite (positivement asymétrique) : La "queue" de la distribution est plus longue vers la droite. La moyenne est généralement supérieure à la médiane. Ex: revenus.
    • Distribution asymétrique à gauche (négativement asymétrique) : La "queue" de la distribution est plus longue vers la gauche. La moyenne est généralement inférieure à la médiane. Ex: résultats d'un examen facile.
  • Aplatissement (kurtosis) : Mesure le degré auquel une distribution est "pointue" ou "plate" par rapport à une distribution normale.

    • Mésokurtique : Similaire à la distribution normale en termes d'aplatissement.
    • Leptokurtique : Plus pointue que la normale, avec des queues plus épaisses (plus de valeurs extrêmes).
    • Platykurtique : Plus plate que la normale, avec des queues plus fines (moins de valeurs extrêmes).
  • Distribution normale (ou de Gauss) : C'est une distribution en forme de cloche, symétrique, avec la moyenne, la médiane et le mode égaux. Elle est fondamentale en statistique en raison de ses propriétés mathématiques et de sa présence fréquente dans de nombreux phénomènes naturels et sociaux.

Chapitre 3

Statistiques Descriptives Bivariées

Analyse de deux variables quantitatives

  • Nuage de points : C'est la première étape essentielle. Il permet de visualiser la forme, la direction et la force de la relation entre deux variables quantitatives.

    • Une tendance linéaire, une courbe, ou l'absence de relation peuvent être observées.
    • Permet aussi d'identifier des valeurs aberrantes.
  • Covariance (Cov(X,Y)Cov(X,Y)) : Mesure la direction de la relation linéaire entre deux variables.

    • Formule : Cov(X,Y)=1ni=1n(xixˉ)(yiyˉ)Cov(X,Y) = \frac{1}{n} \sum_{i=1}^{n} (x_i - \bar{x})(y_i - \bar{y})
    • Une covariance positive indique que les variables varient dans le même sens (quand l'une augmente, l'autre tend à augmenter).
    • Une covariance négative indique qu'elles varient en sens opposé.
    • Une covariance proche de zéro suggère l'absence de relation linéaire.
    • La covariance ne donne pas d'information sur la force de la relation, car sa valeur dépend des unités de mesure des variables.
  • Coefficient de corrélation linéaire de Pearson (rr) : C'est une mesure standardisée de la force et de la direction de la relation linéaire entre deux variables quantitatives.

    • Formule : r=Cov(X,Y)sxsyr = \frac{Cov(X,Y)}{s_x s_y}sxs_x et sys_y sont les écarts-types de X et Y.
    • La valeur de rr est toujours comprise entre -1 et +1.
    • r=+1r = +1 : corrélation linéaire positive parfaite.
    • r=1r = -1 : corrélation linéaire négative parfaite.
    • r=0r = 0 : absence de corrélation linéaire (attention, cela ne signifie pas absence de toute relation, seulement de relation linéaire).
    • Plus la valeur absolue de rr est proche de 1, plus la relation linéaire est forte.

Régression linéaire simple

La régression linéaire simple vise à modéliser la relation linéaire entre une variable dépendante (à expliquer, Y) et une variable indépendante (explicative, X).

  • Principe des moindres carrés : Cette méthode est utilisée pour trouver la droite qui "ajuste" le mieux les points du nuage de points. Elle minimise la somme des carrés des résidus (les différences verticales entre les points observés et la droite de régression).

    • On cherche à minimiser i=1n(yiy^i)2\sum_{i=1}^{n} (y_i - \hat{y}_i)^2, où y^i\hat{y}_i est la valeur prédite par le modèle.
  • Équation de la droite de régression : L'équation d'une droite de régression linéaire simple est :

    • y^=ax+b\hat{y} = a x + b
    • y^\hat{y} est la valeur prédite de la variable dépendante Y.
    • xx est la valeur de la variable indépendante X.
    • aa est la pente (coefficient de régression).
    • bb est l'ordonnée à l'origine.
  • Interprétation des coefficients :

    • Pente (aa) : Représente le changement moyen de y^\hat{y} pour une augmentation d'une unité de xx. Si a>0a > 0, Y tend à augmenter avec X. Si a<0a < 0, Y tend à diminuer avec X.
    • Ordonnée à l'origine (bb) : Représente la valeur prédite de y^\hat{y} lorsque x=0x = 0. Son interprétation est parfois dénuée de sens si x=0x=0 n'est pas une valeur réaliste ou observable.

Qualité de l'ajustement

Il est important d'évaluer la qualité du modèle de régression pour savoir à quel point il représente bien les données.

  • Coefficient de détermination (R2R^2) : Mesure la proportion de la variance totale de la variable dépendante (Y) qui est expliquée par la variable indépendante (X) dans le modèle de régression.

    • R2=r2R^2 = r^2 pour la régression linéaire simple.
    • La valeur de R2R^2 est comprise entre 0 et 1 (ou 0% et 100%).
    • Un R2R^2 proche de 1 indique que le modèle explique une grande partie de la variabilité de Y, donc un bon ajustement.
    • Un R2R^2 proche de 0 indique que le modèle explique peu de la variabilité de Y.
    • Attention, un R2R^2 élevé n'implique pas nécessairement une causalité, seulement une forte association linéaire.
  • Résidus et analyse des résidus :

    • Les résidus sont les différences entre les valeurs observées de Y et les valeurs prédites par le modèle (reˊsidui=yiy^i\text{résidu}_i = y_i - \hat{y}_i).
    • L'analyse des résidus est cruciale pour vérifier les hypothèses du modèle de régression (linéarité, homoscédasticité - variance constante des résidus, normalité des résidus, indépendance des résidus).
    • Un nuage de points des résidus contre les valeurs prédites (y^\hat{y}) ou contre X devrait montrer une distribution aléatoire sans motif particulier si les hypothèses sont respectées.
  • Limites de la régression linéaire :

    • Linéarité : Elle ne peut modéliser que les relations linéaires. Si la relation est courbe, le modèle linéaire sera inapproprié.
    • Extrapolation : Il est risqué d'utiliser le modèle pour prédire des valeurs de Y pour des valeurs de X en dehors de l'intervalle des données observées.
    • Causalité : La corrélation n'implique pas la causalité. Un fort coefficient de corrélation ou un R2R^2 élevé ne signifie pas que X cause Y. Il peut y avoir une variable tierce (variable cachée) qui influence les deux.

Analyse de deux variables qualitatives

Lorsque l'on étudie la relation entre deux variables qualitatives, on utilise des tableaux et des fréquences.

  • Tableaux de contingence (ou tableaux croisés) :

    • Un tableau de contingence présente la distribution conjointe de deux variables qualitatives. Les lignes représentent les catégories d'une variable et les colonnes, celles de l'autre.
    • Chaque cellule contient l'effectif (ou la fréquence) des observations qui appartiennent simultanément aux deux catégories correspondantes.
    • Les totaux marginaux (sommes des lignes et des colonnes) donnent les distributions univariées de chaque variable.
  • Fréquences conditionnelles :

    • Elles permettent de voir comment la distribution d'une variable change en fonction des catégories de l'autre variable.
    • On calcule les pourcentages par ligne ou par colonne.
    • Exemple : Pourcentage de personnes satisfaites parmi les hommes, et pourcentage de personnes satisfaites parmi les femmes.
  • Indépendance et dépendance :

    • Indépendance : Deux variables qualitatives sont indépendantes si la distribution conditionnelle de l'une est la même pour toutes les catégories de l'autre. Autrement dit, la connaissance de la catégorie d'une variable ne donne aucune information sur la catégorie de l'autre. Dans un tableau de contingence, cela se traduit par des fréquences conditionnelles similaires.
    • Dépendance : Si les distributions conditionnelles sont différentes, les variables sont dépendantes. Il existe une association entre elles.
    • Des tests statistiques comme le test du Khi-deux (χ2\chi^2) sont utilisés pour déterminer si l'association observée dans un échantillon est statistiquement significative, ou si elle pourrait être due au hasard.

Chapitre 4

Séries Chronologiques

Introduction aux séries chronologiques

  • Définition et exemples :

    • Une série chronologique est un ensemble d'observations d'une variable mesurées à des instants successifs et ordonnés dans le temps.
    • Exemples : Cours de la bourse, PIB annuel, températures mensuelles, ventes quotidiennes d'un produit.
  • Composantes d'une série (tendance, saisonnalité, résidu) : La plupart des séries chronologiques peuvent être décomposées en plusieurs composantes :

    • Tendance (T) : Le mouvement général à long terme de la série, qui indique une augmentation, une diminution ou une stabilité sur une longue période. Elle est souvent linéaire ou polynomiale.
    • Saisonnalité (S) : Des fluctuations régulières et prévisibles qui se répètent sur une période fixe (par exemple, annuelle, trimestrielle, mensuelle, hebdomadaire). Elle est due à des facteurs saisonniers (météo, fêtes, vacances).
    • Composante cyclique (C) : Des fluctuations à plus long terme que la saisonnalité, souvent irrégulières en durée et en amplitude, associées aux cycles économiques. Souvent difficile à distinguer de la tendance.
    • Résidu (R) ou composante irrégulière : Ce qui reste après avoir retiré la tendance, la saisonnalité et le cycle. C'est le bruit aléatoire, les fluctuations imprévisibles.
    • Modèle additif : Yt=Tt+St+RtY_t = T_t + S_t + R_t
    • Modèle multiplicatif : Yt=Tt×St×RtY_t = T_t \times S_t \times R_t (souvent utilisé pour des séries dont l'amplitude des fluctuations varie avec le niveau de la série).
  • Représentation graphique :

    • Un simple graphique en ligne où l'axe horizontal représente le temps et l'axe vertical les valeurs de la variable.
    • Essentiel pour identifier visuellement la tendance, la saisonnalité et les éventuelles ruptures ou valeurs aberrantes.

Lissage de séries chronologiques

Le lissage est une technique utilisée pour éliminer le bruit ou les fluctuations irrégulières d'une série chronologique afin de mieux percevoir la tendance ou le cycle sous-jacent.

  • Moyennes mobiles simples :

    • Une moyenne mobile simple d'ordre kk remplace chaque observation par la moyenne des kk observations précédentes (ou futures, ou centrées).
    • Formule pour une moyenne mobile d'ordre kk (non centrée) : MMt=1ki=0k1YtiMM_t = \frac{1}{k} \sum_{i=0}^{k-1} Y_{t-i}
    • Utile pour lisser les fluctuations à court terme et faire ressortir la tendance. Plus kk est grand, plus le lissage est important.
  • Moyennes mobiles centrées :

    • Si l'ordre kk est impair, la moyenne mobile est naturellement centrée sur l'observation du milieu.
    • Si l'ordre kk est pair (par exemple, pour une saisonnalité annuelle de 4 trimestres ou 12 mois), on calcule d'abord une moyenne mobile d'ordre kk, puis une moyenne mobile d'ordre 2 sur les résultats de la première moyenne mobile. Cela permet de centrer la moyenne mobile sur une période existante.
    • Exemple : Moyenne mobile centrée d'ordre 4 pour données trimestrielles : MMCt=12(Yt2+Yt1+Yt+Yt+14+Yt1+Yt+Yt+1+Yt+24)MMC_t = \frac{1}{2} (\frac{Y_{t-2} + Y_{t-1} + Y_t + Y_{t+1}}{4} + \frac{Y_{t-1} + Y_t + Y_{t+1} + Y_{t+2}}{4})
  • Choix de l'ordre de la moyenne mobile :

    • L'ordre kk est souvent choisi en fonction de la période de la saisonnalité que l'on souhaite lisser (par exemple, k=12k=12 pour des données mensuelles avec une saisonnalité annuelle).
    • Un ordre plus grand conduit à un lissage plus fort mais peut masquer des détails importants ou introduire un décalage.

Prévisions simples

La prévision consiste à estimer les valeurs futures d'une série chronologique.

  • Utilisation des moyennes mobiles pour la prévision :

    • Une méthode simple de prévision consiste à utiliser la dernière valeur de la moyenne mobile calculée comme prévision pour la période suivante.
    • Par exemple, si on a une moyenne mobile d'ordre kk jusqu'à la période tt, la prévision pour t+1t+1 est MMtMM_t.
    • Cette méthode est plus adaptée pour des séries stables sans forte tendance ou saisonnalité.
  • Limites des méthodes de lissage :

    • Retard : Les moyennes mobiles introduisent un décalage (lag) et ne réagissent pas immédiatement aux changements de tendance.
    • Perte de données : Pour calculer une moyenne mobile d'ordre kk, on perd des points de données au début et à la fin de la série.
    • Ne capturent pas la saisonnalité : Les moyennes mobiles simples lissent la saisonnalité sans la modéliser explicitement pour la prévision.
  • Erreurs de prévision :

    • Aucune prévision n'est parfaite. Il est crucial de mesurer l'erreur de prévision pour évaluer la performance du modèle.
    • Erreur (e) : et=YtY^te_t = Y_t - \hat{Y}_t (valeur observée - valeur prédite).
    • Erreur absolue moyenne (MAE - Mean Absolute Error) : 1net\frac{1}{n} \sum |e_t|
    • Erreur quadratique moyenne (MSE - Mean Squared Error) : 1net2\frac{1}{n} \sum e_t^2
    • Racine de l'erreur quadratique moyenne (RMSE - Root Mean Squared Error) : MSE\sqrt{MSE} (Dans la même unité que la série).
    • Ces mesures aident à comparer différents modèles de prévision.

Chapitre 5

Introduction à l'Inférence Statistique

Échantillonnage et estimation

  • Population et échantillon :

    • Population : L'ensemble complet de tous les individus ou objets d'intérêt pour une étude. Ses caractéristiques sont appelées paramètres.
    • Échantillon : Un sous-ensemble de la population sélectionné pour l'étude. Ses caractéristiques sont appelées statistiques.
    • L'objectif de l'inférence est d'utiliser les statistiques de l'échantillon pour faire des inférences sur les paramètres inconnus de la population.
  • Échantillonnage aléatoire simple :

    • C'est la méthode d'échantillonnage la plus fondamentale. Chaque individu de la population a la même probabilité d'être inclus dans l'échantillon, et chaque combinaison d'individus a la même probabilité d'être sélectionnée.
    • Il garantit que l'échantillon est représentatif de la population (en moyenne) et permet d'utiliser les méthodes de l'inférence statistique.
  • Estimation ponctuelle et par intervalle :

    • Estimation ponctuelle : Estimer un paramètre inconnu de la population par une seule valeur calculée à partir de l'échantillon.
      • Exemple : La moyenne de l'échantillon (xˉ\bar{x}) est une estimation ponctuelle de la moyenne de la population (μ\mu).
    • Estimation par intervalle : Estimer un paramètre de la population par un intervalle de valeurs, en donnant une mesure de la précision de l'estimation. Cet intervalle est appelé intervalle de confiance.

Intervalles de confiance

Un intervalle de confiance est une plage de valeurs, calculée à partir des données de l'échantillon, qui est susceptible de contenir le vrai paramètre de la population avec un certain niveau de confiance.

  • Intervalle de confiance pour une moyenne :

    • Pour une grande taille d'échantillon (n30n \geq 30) ou si l'écart-type de la population est connu, l'intervalle de confiance pour la moyenne μ\mu est :
      • [xˉzα/2σn;xˉ+zα/2σn][\bar{x} - z_{\alpha/2} \frac{\sigma}{\sqrt{n}} ; \bar{x} + z_{\alpha/2} \frac{\sigma}{\sqrt{n}}] (si σ\sigma est connu)
      • [xˉzα/2sn;xˉ+zα/2sn][\bar{x} - z_{\alpha/2} \frac{s}{\sqrt{n}} ; \bar{x} + z_{\alpha/2} \frac{s}{\sqrt{n}}] (si σ\sigma est inconnu et nn grand)
    • xˉ\bar{x} est la moyenne de l'échantillon, ss l'écart-type de l'échantillon, nn la taille de l'échantillon, et zα/2z_{\alpha/2} est le score Z correspondant au niveau de confiance.
    • Pour de petits échantillons et σ\sigma inconnu, on utilise la distribution de Student (valeur tα/2t_{\alpha/2}).
  • Intervalle de confiance pour une proportion :

    • Pour une grande taille d'échantillon, l'intervalle de confiance pour une proportion pp de la population est :
      • [p^zα/2p^(1p^)n;p^+zα/2p^(1p^)n][\hat{p} - z_{\alpha/2} \sqrt{\frac{\hat{p}(1-\hat{p})}{n}} ; \hat{p} + z_{\alpha/2} \sqrt{\frac{\hat{p}(1-\hat{p})}{n}}]
    • p^\hat{p} est la proportion de l'échantillon.
  • Niveau de confiance et marge d'erreur :

    • Niveau de confiance : La probabilité que l'intervalle de confiance contienne le vrai paramètre de la population. Les niveaux de confiance courants sont 90%, 95% et 99%. Un niveau de confiance de 95% signifie que si l'on répétait l'échantillonnage de nombreuses fois, 95% des intervalles construits contiendraient le vrai paramètre.
    • Marge d'erreur : La moitié de la largeur de l'intervalle de confiance. Elle représente la précision de l'estimation. Une marge d'erreur plus petite indique une estimation plus précise.
    • La marge d'erreur est inversement proportionnelle à la racine carrée de la taille de l'échantillon : pour réduire la marge d'erreur, il faut augmenter la taille de l'échantillon.

Tests d'hypothèses (introduction)

Les tests d'hypothèses sont une procédure formelle pour prendre une décision entre deux hypothèses mutuellement exclusives concernant un paramètre de population.

  • Hypothèse nulle (H0H_0) et alternative (H1H_1) :

    • Hypothèse nulle (H0H_0) : C'est l'hypothèse de "non-différence" ou "pas d'effet". Elle représente le statu quo ou l'absence de relation. C'est l'hypothèse que l'on essaie de réfuter.
      • Exemple : H0:μ=100H_0: \mu = 100 (la moyenne de la population est 100).
    • Hypothèse alternative (H1H_1) : C'est l'hypothèse que l'on cherche à prouver. Elle contredit l'hypothèse nulle.
      • Exemple : H1:μ100H_1: \mu \neq 100 (la moyenne de la population n'est pas 100) ou H1:μ>100H_1: \mu > 100 ou H1:μ<100H_1: \mu < 100.
  • Principe général d'un test :

    1. Formuler H0H_0 et H1H_1.
    2. Choisir un niveau de signification (α\alpha).
    3. Calculer une statistique de test à partir de l'échantillon.
    4. Comparer la statistique de test à une valeur critique (ou calculer une p-value).
    5. Prendre une décision : rejeter H0H_0 ou ne pas rejeter H0H_0. Si on rejette H0H_0, on accepte H1H_1.
  • Risque d'erreur de première espèce (α\alpha) :

    • C'est la probabilité de rejeter l'hypothèse nulle (H0H_0) alors qu'elle est en réalité vraie. C'est une "fausse alarme".
    • Ce risque est fixé par le chercheur avant le test et est appelé le niveau de signification du test (souvent 0.05 ou 5%).
    • Un niveau de signification de 5% signifie qu'il y a 5% de chances de conclure à un effet ou une différence alors qu'il n'y en a pas réellement.

Après la lecture

Passe à la pratique avec deux blocs bien visibles

Une fois le cours lu, ouvre soit le quiz pour vérifier la compréhension, soit les flashcards pour mémoriser les idées importantes. Les deux s'ouvrent dans une fenêtre dédiée.

Quiz + Flashcards

Suite naturelle

Tu veux aller plus loin que l'article ?

Retrouve le même chapitre dans Wilo avec la suite des questions, la répétition espacée, les corrigés complets et une progression suivie dans le temps.