Probabilités et statistiques

Chapitre 1

Rappels et approfondissements sur les probabilités

Événements et probabilités conditionnelles

En probabilité, un événement est un ensemble de résultats possibles d'une expérience aléatoire. Par exemple, si vous lancez un dé, l'événement "obtenir un nombre pair" correspond aux résultats {2, 4, 6}.

La probabilité conditionnelle d'un événement $A$ sachant qu'un événement $B$ est réalisé (on note $P(A|B)$ ) est la probabilité que $A$ se produise, étant donné que $B$ s'est déjà produit. Elle se calcule par la formule : $P(A|B) = \frac{P(A \cap B)}{P(B)}$ où $P(B) \neq 0$ .

Deux événements $A$ et $B$ sont dits indépendants si la réalisation de l'un n'influence pas la réalisation de l'autre. Mathématiquement, cela se traduit par : $P(A \cap B) = P(A) \times P(B)$ Une autre façon de le dire est $P(A|B) = P(A)$ (si $P(B) \neq 0$ ) ou $P(B|A) = P(B)$ (si $P(A) \neq 0$ ).

La formule des probabilités totales est très utile pour calculer la probabilité d'un événement $A$ lorsqu'on connaît les probabilités conditionnelles de $A$ par rapport à un système complet d'événements. Un système complet d'événements est une partition de l'univers $\Omega$ , c'est-à-dire un ensemble d'événements $B_1, B_2, ..., B_n$ tels qu'ils sont deux à deux disjoints et leur union est égale à $\Omega$ . Alors, la probabilité de $A$ est donnée par : $P(A) = P(A|B_1)P(B_1) + P(A|B_2)P(B_2) + ... + P(A|B_n)P(B_n)$

Les arbres pondérés sont des outils graphiques excellents pour visualiser et calculer des probabilités, en particulier avec les probabilités conditionnelles. Chaque branche est associée à une probabilité.

La somme des probabilités des branches issues d'un même nœud est égale à 1.
La probabilité d'un chemin est le produit des probabilités des branches qui le composent.
La probabilité d'un événement est la somme des probabilités des chemins qui mènent à cet événement.

Exemple : Dans une usine, 60% des pièces sont produites par la machine A et 40% par la machine B. La machine A produit 2% de pièces défectueuses, la machine B en produit 3%. On peut construire un arbre pondéré :

1ère branche : Machine A (0.6) ou Machine B (0.4)
2ème branche (après Machine A) : Défectueuse (0.02) ou Non défectueuse (0.98)
2ème branche (après Machine B) : Défectueuse (0.03) ou Non défectueuse (0.97) La probabilité qu'une pièce soit défectueuse est $P(D) = P(D|A)P(A) + P(D|B)P(B) = (0.02 \times 0.6) + (0.03 \times 0.4) = 0.012 + 0.012 = 0.024$ .

Variables aléatoires discrètes

Une variable aléatoire discrète est une fonction qui associe un nombre réel à chaque issue d'une expérience aléatoire, et dont l'ensemble des valeurs possibles est fini ou dénombrable (on peut les "compter" : 0, 1, 2, ...).

La loi de probabilité d'une variable aléatoire discrète $X$ est la donnée de toutes les valeurs $x_i$ que $X$ peut prendre et de leurs probabilités associées $P(X=x_i)$ . La somme de toutes ces probabilités doit être égale à 1 : $\sum P(X=x_i) = 1$ .

L'espérance $E(X)$ d'une variable aléatoire discrète est la valeur moyenne que l'on peut s'attendre à obtenir si l'on répète l'expérience un grand nombre de fois. C'est une mesure de la tendance centrale. $E(X) = \sum_{i=1}^{n} x_i P(X=x_i)$

La variance $Var(X)$ mesure la dispersion des valeurs de la variable aléatoire autour de son espérance. $Var(X) = \sum_{i=1}^{n} (x_i - E(X))^2 P(X=x_i)$ Une formule de calcul souvent plus pratique est : $Var(X) = E(X^2) - (E(X))^2$ où $E(X^2) = \sum_{i=1}^{n} x_i^2 P(X=x_i)$ .

L'écart-type $\sigma(X)$ est la racine carrée de la variance. Il s'exprime dans la même unité que la variable aléatoire, ce qui le rend plus interprétable que la variance. $\sigma(X) = \sqrt{Var(X)}$

La fonction de répartition $F(x)$ d'une variable aléatoire discrète $X$ donne la probabilité que $X$ prenne une valeur inférieure ou égale à $x$ . $F(x) = P(X \leq x) = \sum_{x_i \leq x} P(X=x_i)$ C'est une fonction en escalier, croissante, qui tend vers 0 pour $x \to -\infty$ et vers 1 pour $x \to +\infty$ .

Loi binomiale

La loi binomiale est une loi de probabilité discrète fondamentale qui décrit le nombre de succès dans une séquence de $n$ expériences de Bernoulli indépendantes.

Une épreuve de Bernoulli est une expérience aléatoire qui n'a que deux issues possibles :

"Succès", avec une probabilité $p$ .
"Échec", avec une probabilité $1-p$ .

Un schéma de Bernoulli est la répétition $n$ fois de manière identique et indépendante d'une même épreuve de Bernoulli. Si $X$ est la variable aléatoire qui compte le nombre de succès dans un schéma de Bernoulli de $n$ répétitions avec une probabilité de succès $p$ , alors $X$ suit une loi binomiale, notée $B(n, p)$ .

Les calculs de probabilités binomiales sont donnés par la formule suivante : $P(X=k) = \binom{n}{k} p^k (1-p)^{n-k}$ où $k$ est le nombre de succès souhaité ( $0 \leq k \leq n$ ), et $\binom{n}{k}$ (lu "k parmi n") est le coefficient binomial, qui représente le nombre de façons de choisir $k$ succès parmi $n$ épreuves. $\binom{n}{k} = \frac{n!}{k!(n-k)!}$

L'espérance et la variance d'une loi binomiale $B(n,p)$ sont :

$E(X) = np$
$Var(X) = np(1-p)$

Exemple : On lance 10 fois une pièce de monnaie équilibrée. Soit $X$ le nombre de faces obtenues. $X$ suit une loi $B(10, 0.5)$ . La probabilité d'obtenir exactement 7 faces est $P(X=7) = \binom{10}{7} (0.5)^7 (0.5)^{10-7} = 120 \times (0.5)^{10} \approx 0.117$ . L'espérance est $E(X) = 10 \times 0.5 = 5$ . On s'attend à obtenir 5 faces.

Chapitre 2

Variables aléatoires continues et lois de probabilité

Introduction aux variables aléatoires continues

Une variable aléatoire continue peut prendre n'importe quelle valeur dans un intervalle donné de nombres réels. Contrairement aux variables discrètes, la probabilité qu'une variable continue prenne une valeur précise est toujours nulle. On parle plutôt de probabilité qu'elle appartienne à un intervalle.

La densité de probabilité (ou fonction de densité) $f(x)$ d'une variable aléatoire continue $X$ est une fonction telle que :

$f(x) \geq 0$ pour tout $x$ .
L'aire totale sous la courbe de $f(x)$ est égale à 1 : $\int_{-\infty}^{+\infty} f(x) dx = 1$ .
La probabilité que $X$ prenne une valeur dans un intervalle $[a, b]$ est donnée par l'aire sous la courbe de $f(x)$ entre $a$ et $b$ : $P(a \leq X \leq b) = \int_{a}^{b} f(x) dx$ .

La fonction de répartition continue $F(x)$ d'une variable aléatoire continue $X$ est définie de la même manière que pour une variable discrète, mais elle est calculée avec une intégrale : $F(x) = P(X \leq x) = \int_{-\infty}^{x} f(t) dt$ Ses propriétés sont :

$F(x)$ est croissante.
$\lim_{x \to -\infty} F(x) = 0$ .
$\lim_{x \to +\infty} F(x) = 1$ .
$P(a \leq X \leq b) = F(b) - F(a)$ .

Le calcul d'aires sous la courbe est donc essentiel pour déterminer les probabilités avec les variables aléatoires continues. Dans de nombreux cas, ces calculs se feront à l'aide de la calculatrice ou de tables, car les intégrales peuvent être complexes.

Loi uniforme

Une variable aléatoire continue $X$ suit une loi uniforme sur un intervalle $[a, b]$ (où $a < b$ ) si sa densité de probabilité est constante sur cet intervalle et nulle ailleurs. On la note $U([a,b])$ .

La densité constante est donnée par : $f(x) = \begin{cases} \frac{1}{b-a} & \text{si } x \in [a,b] \\ 0 & \text{sinon} \end{cases}$ L'aire sous cette fonction sur $[a,b]$ est bien $\frac{1}{b-a} \times (b-a) = 1$ .

L'espérance d'une loi uniforme sur $[a,b]$ est le milieu de l'intervalle : $E(X) = \frac{a+b}{2}$

La variance d'une loi uniforme sur $[a,b]$ est : $Var(X) = \frac{(b-a)^2}{12}$

Exemple : Le temps d'attente d'un bus est uniformément réparti entre 0 et 15 minutes. Soit $X$ ce temps d'attente. $X \sim U([0,15])$ . La densité est $f(x) = \frac{1}{15}$ pour $x \in [0,15]$ . L'espérance est $E(X) = \frac{0+15}{2} = 7.5$ minutes. La probabilité d'attendre entre 5 et 10 minutes est $P(5 \leq X \leq 10) = \int_{5}^{10} \frac{1}{15} dx = \frac{1}{15} \times (10-5) = \frac{5}{15} = \frac{1}{3}$ .

Loi exponentielle

La loi exponentielle est une loi de probabilité continue qui est souvent utilisée pour modéliser des durées de vie, des temps d'attente, ou des intervalles entre des événements dans un processus de Poisson. Elle est caractérisée par la propriété de "durée de vie sans vieillissement" (ou absence de mémoire). Cela signifie que la probabilité qu'un événement se produise dans un intervalle de temps futur ne dépend pas du temps déjà écoulé. $P(X > t+s | X > t) = P(X > s)$ pour $t, s > 0$ .

La loi exponentielle dépend d'un paramètre $\lambda > 0$ (lambda). Plus $\lambda$ est grand, plus la durée de vie moyenne est courte.

La densité de probabilité est : $f(x) = \begin{cases} \lambda e^{-\lambda x} & \text{si } x \geq 0 \\ 0 & \text{si } x < 0 \end{cases}$

La fonction de répartition est : $F(x) = P(X \leq x) = \begin{cases} 1 - e^{-\lambda x} & \text{si } x \geq 0 \\ 0 & \text{si } x < 0 \end{cases}$

Le calcul de probabilités avec la loi exponentielle se fait grâce à la fonction de répartition :

$P(X \leq a) = 1 - e^{-\lambda a}$
$P(X > a) = e^{-\lambda a}$
$P(a \leq X \leq b) = F(b) - F(a) = (1 - e^{-\lambda b}) - (1 - e^{-\lambda a}) = e^{-\lambda a} - e^{-\lambda b}$

L'espérance et la variance d'une loi exponentielle sont :

$E(X) = \frac{1}{\lambda}$
$Var(X) = \frac{1}{\lambda^2}$

Exemple : La durée de vie (en heures) d'un composant électronique suit une loi exponentielle de paramètre $\lambda = 0.0005$ . La durée de vie moyenne est $E(X) = 1/0.0005 = 2000$ heures. La probabilité que le composant fonctionne pendant plus de 1000 heures est $P(X > 1000) = e^{-0.0005 \times 1000} = e^{-0.5} \approx 0.6065$ .

Chapitre 3

Loi normale et approximation

Loi normale centrée réduite N(0,1)

La loi normale est la loi de probabilité continue la plus importante en statistiques. Elle est souvent appelée "loi de Gauss". Sa densité de probabilité est caractérisée par une forme de courbe en cloche, symétrique autour de sa moyenne.

La loi normale centrée réduite N(0,1) est un cas particulier de loi normale, avec une moyenne $\mu = 0$ et un écart-type $\sigma = 1$ . Sa densité de probabilité est notée $\phi(t)$ : $\phi(t) = \frac{1}{\sqrt{2\pi}} e^{-\frac{t^2}{2}}$ La fonction de répartition de la loi normale centrée réduite est notée $\Phi(t) = P(Z \leq t)$ , où $Z$ est une variable aléatoire suivant $N(0,1)$ .

L'utilisation de la calculatrice est indispensable pour calculer les probabilités associées à la loi normale centrée réduite (et générale). Les fonctions "normalcdf" (ou "FracNormale" / "normalFRep" selon les modèles) permettent de calculer $P(a \leq Z \leq b)$ .

Historiquement, on utilisait des tables de la loi normale pour trouver les valeurs de $\Phi(t)$ . Ces tables donnent $P(Z \leq t)$ pour des valeurs positives de $t$ . Pour des valeurs négatives ou pour $P(Z > t)$ , on utilise les propriétés de symétrie :

$P(Z > t) = 1 - P(Z \leq t) = 1 - \Phi(t)$
$P(Z \leq -t) = P(Z \geq t) = 1 - \Phi(t)$

Loi normale générale N(μ,σ²)

Une variable aléatoire $X$ suit une loi normale générale $N(\mu, \sigma^2)$ si son espérance est $\mu$ et sa variance est $\sigma^2$ (donc son écart-type est $\sigma$ ). La densité de probabilité est : $f(x) = \frac{1}{\sigma\sqrt{2\pi}} e^{-\frac{1}{2}\left(\frac{x-\mu}{\sigma}\right)^2}$ La courbe est toujours en cloche, centrée sur $\mu$ , et d'autant plus "aplatie" que $\sigma$ est grand.

Pour calculer des probabilités avec une loi normale générale, on utilise un changement de variable pour se ramener à la loi normale centrée réduite. Si $X \sim N(\mu, \sigma^2)$ , alors la variable $Z = \frac{X-\mu}{\sigma}$ suit une loi $N(0,1)$ . Ainsi, $P(a \leq X \leq b) = P\left(\frac{a-\mu}{\sigma} \leq \frac{X-\mu}{\sigma} \leq \frac{b-\mu}{\sigma}\right) = P\left(\frac{a-\mu}{\sigma} \leq Z \leq \frac{b-\mu}{\sigma}\right)$ . Ceci permet d'utiliser les fonctions de la calculatrice ou les tables de la loi $N(0,1)$ .

Les intervalles de fluctuation sont particulièrement importants pour la loi normale. On retient souvent les règles suivantes, dites "règles des $3\sigma$ " :

$P(\mu - \sigma \leq X \leq \mu + \sigma) \approx 0.683$ (environ 68% des valeurs sont à moins d'un écart-type de la moyenne)
$P(\mu - 2\sigma \leq X \leq \mu + 2\sigma) \approx 0.954$ (environ 95% des valeurs sont à moins de deux écarts-types de la moyenne)
$P(\mu - 3\sigma \leq X \leq \mu + 3\sigma) \approx 0.997$ (environ 99.7% des valeurs sont à moins de trois écarts-types de la moyenne) Ces intervalles sont cruciaux pour l'inférence statistique.

Approximation d'une loi binomiale par une loi normale

Dans certaines conditions d'application, une loi binomiale $B(n,p)$ peut être approchée par une loi normale. Cette approximation est justifiée par le théorème central limite. Les conditions sont généralement :

$n \geq 30$ (le nombre d'épreuves est grand)
$np \geq 5$ (le nombre attendu de succès est suffisant)
$n(1-p) \geq 5$ (le nombre attendu d'échecs est suffisant)

Lorsque ces conditions sont remplies, si $X \sim B(n,p)$ , alors $X$ peut être approchée par une variable aléatoire $Y \sim N(np, np(1-p))$ . C'est-à-dire, la loi binomiale est approchée par une loi normale ayant la même espérance et la même variance.

Puisque la loi binomiale est discrète et la loi normale est continue, une correction de continuité est souvent appliquée pour améliorer la précision de l'approximation. Pour calculer $P(X=k)$ avec la loi binomiale, on l'approxime par $P(k-0.5 \leq Y \leq k+0.5)$ avec la loi normale. De même, pour $P(X \leq k)$ , on utilise $P(Y \leq k+0.5)$ . Pour $P(X \geq k)$ , on utilise $P(Y \geq k-0.5)$ .

L'intérêt de l'approximation réside dans la simplification des calculs. Avant l'ère des calculatrices puissantes, calculer $\binom{n}{k}$ pour de grands $n$ était très fastidieux. L'approximation normale permettait d'obtenir des probabilités rapidement, même si elle introduit une légère erreur. Aujourd'hui, elle est toujours utile pour comprendre le lien entre les lois et pour des démonstrations théoriques.

Chapitre 4

Statistique inférentielle : Échantillonnage et estimation

Fluctuation d'échantillonnage

La fluctuation d'échantillonnage est le phénomène selon lequel les caractéristiques (comme la fréquence d'un événement) d'un échantillon varient d'un échantillon à l'autre, même si tous les échantillons sont tirés de la même population et de la même manière. On ne s'attend pas à ce que la fréquence observée dans un échantillon soit exactement égale à la proportion réelle dans la population.

Un échantillon aléatoire de taille $n$ est un ensemble de $n$ individus (ou observations) choisis au hasard dans une population. Chaque individu de la population a la même chance d'être inclus dans l'échantillon.

La fréquence observée $f$ d'une certaine caractéristique dans un échantillon de taille $n$ est le nombre d'individus présentant cette caractéristique divisé par $n$ . Par exemple, si on tire $n$ vis d'une production et que $k$ sont défectueuses, la fréquence de défectueuses est $f=k/n$ .

L'intervalle de fluctuation asymptotique (IFA) au seuil de 95% est un intervalle centré sur la proportion $p$ de la population, tel que, si l'hypothèse que la proportion est $p$ est vraie, la fréquence observée $f$ d'un échantillon de taille $n$ a 95% de chances de tomber dans cet intervalle. Pour des grands échantillons ( $n \ge 30$ , $np \ge 5$ , $n(1-p) \ge 5$ ), l'IFA au seuil de 95% est donné par : $I_{95\%} = \left[p - 1.96 \sqrt{\frac{p(1-p)}{n}}; p + 1.96 \sqrt{\frac{p(1-p)}{n}}\right]$ Le coefficient 1.96 provient de la loi normale centrée réduite : $P(-1.96 \leq Z \leq 1.96) \approx 0.95$ .

Cet intervalle permet de déterminer si une fréquence observée est "normale" ou "exceptionnelle" par rapport à une proportion théorique $p$ .

Prise de décision et test d'hypothèse

La prise de décision statistique, basée sur un test d'hypothèse, consiste à utiliser les données d'un échantillon pour décider si l'on doit rejeter ou non une affirmation concernant la population (l'hypothèse nulle).

L'hypothèse nulle ( $H_0$ ) est l'affirmation que l'on souhaite tester (souvent, une absence d'effet ou une valeur spécifique d'un paramètre). L'hypothèse alternative ( $H_1$ ) est ce que l'on accepte si l'on rejette $H_0$ . Exemple : $H_0$ : "La proportion de pièces défectueuses est $p=0.02$ ". $H_1$ : "La proportion de pièces défectueuses est différente de $0.02$ ".

Le seuil de signification $\alpha$ (souvent 5% ou 1%) est la probabilité maximale que l'on accepte de commettre une erreur de type I, c'est-à-dire de rejeter $H_0$ alors qu'elle est vraie. Si $\alpha = 0.05$ , on est prêt à prendre 5% de risque de se tromper en rejetant $H_0$ .

La règle de décision pour un test sur une proportion $p$ (avec un IFA au seuil de 95%) est la suivante :

On calcule l'intervalle de fluctuation asymptotique $I_{95\%}$ pour la proportion $p$ sous l'hypothèse $H_0$ .
On observe la fréquence $f$ dans l'échantillon.
Si $f$ appartient à l'intervalle $I_{95\%}$ , on ne rejette pas $H_0$ au seuil de 5%. On considère que la différence observée est due à la fluctuation d'échantillonnage.
Si $f$ n'appartient pas à l'intervalle $I_{95\%}$ , on rejette $H_0$ au seuil de 5%. On considère que la fréquence observée est trop éloignée de $p$ pour être attribuée au seul hasard de l'échantillonnage.

Il est important de noter que "ne pas rejeter $H_0$ " ne signifie pas que $H_0$ est vraie, mais plutôt que les données de l'échantillon ne fournissent pas de preuves suffisantes pour la rejeter.

Estimation par intervalle de confiance

L'estimation par intervalle de confiance est une méthode qui consiste à estimer un paramètre inconnu de la population (comme une proportion $p$ ) à partir d'un échantillon, non pas par une seule valeur (estimation ponctuelle), mais par un intervalle de valeurs.

L'estimation ponctuelle de la proportion $p$ de la population est la fréquence observée $f$ dans l'échantillon. Cependant, $f$ varie d'un échantillon à l'autre.

Le niveau de confiance (souvent 95% ou 99%) est la probabilité que l'intervalle de confiance calculé contienne la vraie valeur du paramètre de la population. Si l'on construisait 100 intervalles de confiance à 95% à partir de 100 échantillons différents, on s'attendrait à ce qu'environ 95 d'entre eux contiennent la vraie proportion $p$ .

Le calcul de l'intervalle de confiance pour une proportion $p$ au niveau de confiance de 95% est donné par : $IC_{95\%} = \left[f - 1.96 \sqrt{\frac{f(1-f)}{n}}; f + 1.96 \sqrt{\frac{f(1-f)}{n}}\right]$ Les conditions d'application sont les mêmes que pour l'IFA : $n \ge 30$ , $nf \ge 5$ , $n(1-f) \ge 5$ . Notez que la formule utilise la fréquence observée $f$ (qui est connue), et non la proportion théorique $p$ (qui est inconnue). C'est la principale différence avec l'intervalle de fluctuation.

L'intervalle de confiance permet d'encadrer la valeur réelle du paramètre avec une certaine probabilité. Par exemple, si l'on obtient $IC_{95\%} = [0.23; 0.27]$ , on peut affirmer avec un niveau de confiance de 95% que la vraie proportion $p$ de la population est comprise entre 23% et 27%.