Statistiques a deux variables quantitatives
Une version article du chapitre pour comprendre l'essentiel rapidement, vérifier si le niveau correspond, puis basculer vers Wilo pour la pratique guidée et le suivi.
Lecture
4 chapitres
Un parcours éditorialisé et navigable.
Pratique
12 questions
Quiz et cartes mémoire à ouvrir après la lecture.
Objectif
Terminale générale
Format rapide pour vérifier si le chapitre correspond.
Chapitre 1
Introduction aux séries statistiques doubles
Définition et représentation d'une série statistique double
Une série statistique double est un ensemble de données où l'on observe simultanément deux caractéristiques (variables) pour chaque individu ou unité statistique. On s'intéresse souvent à la manière dont l'une de ces variables peut influencer ou être liée à l'autre.
- Variable explicative (X) : C'est la variable que l'on suppose être la cause ou l'influence. On la place généralement sur l'axe des abscisses (horizontal).
- Variable expliquée (Y) : C'est la variable que l'on suppose être la conséquence ou l'effet. On la place généralement sur l'axe des ordonnées (vertical).
Par exemple, si nous étudions le lien entre le nombre d'heures de révision (X) et la note à un examen (Y), les heures de révision sont la variable explicative et la note est la variable expliquée.
La représentation la plus courante d'une série statistique double est le nuage de points. Chaque point du nuage a pour coordonnées , où est la valeur de la variable X pour l'individu et est la valeur de la variable Y pour le même individu.
Un tableau de données est la première étape pour organiser ces informations :
| Individu | Variable X () | Variable Y () |
|---|---|---|
| 1 | ||
| 2 | ||
| ... | ... | ... |
| n |
Types de corrélations
La corrélation décrit la nature de la relation entre deux variables. En observant le nuage de points, on peut identifier différents types de corrélations :
- Corrélation positive : Lorsque les valeurs de X augmentent, les valeurs de Y ont tendance à augmenter aussi. Le nuage de points monte de gauche à droite.
- Exemple : Plus on étudie, plus la note est haute.
- Corrélation négative : Lorsque les valeurs de X augmentent, les valeurs de Y ont tendance à diminuer. Le nuage de points descend de gauche à droite.
- Exemple : Plus on passe de temps à jouer aux jeux vidéo, moins on dort.
- Absence de corrélation : Il n'y a pas de lien apparent entre les deux variables. Le nuage de points ressemble à un "nuage" diffus sans direction claire.
- Exemple : Il n'y a pas de lien évident entre la pointure et le QI.
- Corrélation linéaire : C'est un cas particulier où les points du nuage semblent s'aligner le long d'une droite. C'est ce type de corrélation que nous allons étudier en détail.
Une corrélation ne signifie pas nécessairement une relation de cause à effet.
Interprétation visuelle d'un nuage de points
L'examen visuel du nuage de points est la première étape cruciale pour comprendre la relation entre X et Y.
- Forme du nuage :
- S'il ressemble à une ligne droite, on peut envisager une corrélation linéaire.
- S'il ressemble à une courbe (parabole, exponentielle, etc.), la relation est non linéaire.
- S'il est diffus et sans forme particulière, il n'y a probablement pas de corrélation forte.
- Direction du nuage : Indique si la corrélation est positive (monte) ou négative (descend).
- Force de la liaison : C'est la "serrure" des points autour d'une ligne imaginaire.
- Si les points sont très proches d'une droite, la liaison est forte.
- Si les points sont dispersés, la liaison est faible.
- Points aberrants (ou outliers) : Ce sont des points qui s'éloignent significativement du reste du nuage. Ils peuvent être dus à des erreurs de mesure ou à des cas exceptionnels. Les points aberrants peuvent fausser l'analyse et doivent être étudiés avec attention.
Chapitre 2
Mesure de la liaison linéaire
Covariance
La covariance mesure comment deux variables varient ensemble par rapport à leurs moyennes respectives.
-
Définition de la covariance : Pour une série de couples , la covariance est donnée par : où est la moyenne de X et est la moyenne de Y.
-
Calcul de la covariance : Une formule de calcul plus pratique est :
-
Signe de la covariance :
- Si , il y a une tendance à une corrélation positive.
- Si , il y a une tendance à une corrélation négative.
- Si , il n'y a pas de corrélation linéaire forte.
-
Limites de la covariance : La valeur numérique de la covariance dépend des unités de mesure des variables X et Y. Par exemple, si X est en mètres et Y en kilogrammes, la covariance aura une unité "mètres-kilogrammes". On ne peut pas comparer des covariances calculées sur des séries avec des unités différentes. Elle ne donne pas une mesure normalisée de la force de la relation.
Coefficient de corrélation linéaire
Le coefficient de corrélation linéaire, noté , est une mesure standardisée de la force et de la direction de la relation linéaire entre deux variables.
-
Définition du coefficient r : Il est obtenu en normalisant la covariance par le produit des écarts types des deux variables. où est l'écart type de X et est l'écart type de Y.
-
Calcul de r : Une fois que vous avez calculé la covariance et les écarts types, il suffit d'appliquer la formule.
-
Interprétation de r (-1 à 1) :
- Le coefficient est toujours compris entre -1 et 1 ().
- Si , il y a une corrélation linéaire positive parfaite (tous les points sont sur une droite montante).
- Si , il y a une corrélation linéaire négative parfaite (tous les points sont sur une droite descendante).
- Si , il n'y a aucune corrélation linéaire. Attention, cela ne signifie pas qu'il n'y a aucune relation, juste qu'elle n'est pas linéaire.
-
Force de la corrélation (règle générale, à adapter au contexte) :
- : Très forte
- : Forte
- : Modérée
- : Faible
- : Très faible ou négligeable
Propriétés du coefficient de corrélation
- Indépendance aux unités : Contrairement à la covariance, le coefficient est une grandeur sans unité. Cela signifie que sa valeur ne change pas si vous changez les unités de mesure de X ou Y (par exemple, de mètres à centimètres). C'est pourquoi il est préféré à la covariance pour évaluer la force de la corrélation.
- Invariance par transformation affine : Si vous appliquez une transformation linéaire et (avec et ), le signe de peut changer si et sont de signes opposés, mais sa valeur absolue reste la même.
- Relation avec la covariance : est directement dérivé de la covariance et des écarts types. Il est une version "normalisée" de la covariance.
- Corrélation n'implique pas causalité : C'est une propriété fondamentale et une mise en garde très importante. Même un proche de 1 ou -1 ne prouve pas que X cause Y. Il peut y avoir une variable cachée qui influence les deux, ou la relation peut être purement fortuite.
- Exemple : Le nombre de ventes de glaces et le nombre de noyades augmentent tous les deux en été. Il y a une forte corrélation positive, mais ce n'est pas la vente de glaces qui cause les noyades ; c'est la chaleur estivale qui influence les deux.
Chapitre 3
Ajustement affine par la méthode des moindres carrés
Principe de l'ajustement affine
L'ajustement affine consiste à trouver la droite qui "colle" le mieux au nuage de points.
- Modélisation d'une tendance : L'idée est de représenter la tendance générale des données par une équation de droite : .
- Droite de régression : C'est la droite qui minimise la somme des carrés des distances verticales entre chaque point observé et le point correspondant sur la droite . C'est pourquoi on parle de "moindres carrés".
- Minimisation des erreurs : Chaque distance verticale est appelée un résidu ou une erreur. La méthode des moindres carrés cherche à minimiser .
- Prédiction : Une fois la droite déterminée, elle peut être utilisée pour prédire la valeur de Y pour une valeur donnée de X.
Détermination de la droite de régression (y en fonction de x)
La droite de régression de Y en fonction de X a pour équation . Les coefficients et sont calculés comme suit :
-
Formules des coefficients a et b : Le coefficient directeur est donné par : où est la variance de X.
Le coefficient (ordonnée à l'origine) est donné par :
-
Point moyen G(, ) : La droite de régression passe toujours par le point moyen du nuage de points, dont les coordonnées sont les moyennes des variables : . C'est une propriété très utile pour vérifier vos calculs.
-
Calcul des coefficients :
- Calculez les moyennes et .
- Calculez la variance (ou ).
- Calculez la covariance .
- Utilisez ces valeurs pour trouver et ensuite .
-
Équation de la droite : Une fois et trouvés, vous avez l'équation de la droite de régression .
- est la valeur prédite de Y pour une valeur .
Utilisation de la calculatrice ou d'un logiciel
En pratique, vous utiliserez souvent une calculatrice graphique ou un logiciel (comme un tableur) pour effectuer ces calculs.
- Saisie des données : Entrez les paires dans les listes ou colonnes appropriées de votre outil.
- Affichage du nuage de points : La plupart des calculatrices et logiciels peuvent générer le nuage de points à partir de vos données.
- Calcul de la droite de régression : Cherchez la fonction "régression linéaire" ou "ajustement linéaire" (souvent notée "LinReg" ou "ax+b"). L'outil vous donnera directement les valeurs de , et souvent le coefficient de corrélation .
- Lecture des coefficients : Identifiez et pour écrire l'équation de la droite.
Maîtrisez l'utilisation de votre calculatrice pour gagner du temps et éviter les erreurs de calcul.
Chapitre 4
Utilisation et limites de l'ajustement affine
Interpolation et extrapolation
Une fois la droite de régression établie, on peut l'utiliser pour faire des prédictions.
-
Prédiction à l'intérieur de l'intervalle (Interpolation) : Il s'agit de prédire une valeur de Y pour une valeur de X qui se trouve entre les valeurs minimales et maximales observées dans votre échantillon.
- Exemple : Prédire la note d'un élève ayant étudié 5 heures, si vos données vont de 1 à 10 heures.
- Fiabilité des prédictions : L'interpolation est généralement fiable, surtout si la corrélation est forte et le modèle pertinent.
-
Prédiction à l'extérieur de l'intervalle (Extrapolation) : Il s'agit de prédire une valeur de Y pour une valeur de X qui se trouve en dehors de l'intervalle des valeurs observées.
- Exemple : Prédire la note d'un élève ayant étudié 20 heures, si vos données vont de 1 à 10 heures.
- Risques de l'extrapolation : L'extrapolation est très risquée et doit être faite avec une grande prudence. La relation linéaire observée dans l'intervalle de vos données pourrait ne plus être vraie en dehors de cet intervalle. Il n'y a aucune garantie que la tendance se poursuive. Évitez l'extrapolation sauf si vous avez de solides raisons théoriques de penser que la relation linéaire persiste.
Validité du modèle
Il ne suffit pas de calculer une droite de régression ; il faut aussi évaluer si elle est un bon modèle pour les données.
- Pertinence de l'ajustement : La première chose à faire est d'examiner le nuage de points. Si les points ne semblent pas s'aligner, un ajustement linéaire est probablement inapproprié.
- Coefficient de corrélation élevé : Un proche de 1 ou -1 indique que les points sont bien alignés autour d'une droite, ce qui renforce la pertinence de l'ajustement linéaire. Cependant, un élevé ne garantit pas que la relation est linéaire (voir le cas des nuages de points en forme de "U" où r peut être proche de 0 malgré une forte relation).
- Analyse du nuage de points : Recherchez des motifs non linéaires ou des points aberrants.
- Résidus : Les résidus sont les différences . Si le modèle linéaire est bon, les résidus devraient être répartis aléatoirement autour de 0, sans structure particulière. Si vous observez une forme dans le nuage de points des résidus (par exemple, une courbe), cela indique que le modèle linéaire n'est pas le plus adapté.
Cas où l'ajustement affine n'est pas pertinent
L'ajustement affine n'est pas une solution universelle.
- Nuage non linéaire : Si le nuage de points a clairement une forme courbe (parabolique, exponentielle, etc.), un ajustement linéaire serait une mauvaise représentation des données. D'autres types de modélisation (polynomiale, exponentielle, etc.) seraient plus appropriés.
- Points aberrants influents : Un ou quelques points aberrants peuvent tirer la droite de régression et fausser le modèle, même si le reste des points suit une tendance linéaire. Il faut les identifier et décider si on les inclut ou non, en justifiant sa décision.
- Corrélation faible : Si le coefficient de corrélation est proche de 0 (faible corrélation), cela signifie que les points sont très dispersés. La droite de régression, même si elle est calculée, n'aura aucune valeur prédictive ou explicative significative.
- Autres types de modélisation : Pour les cas où l'ajustement affine n'est pas pertinent, il existe d'autres méthodes de régression (régression polynomiale, régression exponentielle, etc.) qui peuvent mieux s'adapter à la forme du nuage de points.
En résumé, l'ajustement affine est un outil puissant pour analyser les relations linéaires, mais il doit toujours être utilisé avec un esprit critique, en examinant visuellement le nuage de points et en interprétant les indicateurs statistiques.
Après la lecture
Passe à la pratique avec deux blocs bien visibles
Une fois le cours lu, ouvre soit le quiz pour vérifier la compréhension, soit les flashcards pour mémoriser les idées importantes. Les deux s'ouvrent dans une fenêtre dédiée.
Suite naturelle
Tu veux aller plus loin que l'article ?
Retrouve le même chapitre dans Wilo avec la suite des questions, la répétition espacée, les corrigés complets et une progression suivie dans le temps.