Probabilités avancées

Chapitre 1

Rappels et Compléments sur les Probabilités Discrètes

Événements et Calculs de Probabilités

En probabilités, un événement est un ensemble de résultats possibles d'une expérience aléatoire. L'espace probabilisable $(\Omega, \mathcal{A})$ est l'ensemble de tous les résultats possibles ( $\Omega$ ) et l'ensemble de tous les événements ( $\mathcal{A}$ ).

Événements incompatibles (ou mutuellement exclusifs) : Deux événements $A$ $A$ et $B$ $B$ sont incompatibles si leur intersection est vide, c'est-à-dire qu'ils ne peuvent pas se produire en même temps. $A \cap B = \emptyset$ $A \cap B = \emptyset$ .
- Si $A$ et $B$ sont incompatibles, alors $P(A \cup B) = P(A) + P(B)$ .
Événements indépendants : Deux événements $A$ $A$ et $B$ $B$ sont indépendants si la réalisation de l'un n'influence pas la probabilité de réalisation de l'autre.
- $P(A \cap B) = P(A) \times P(B)$ .
- Alternativement, si $P(B) \neq 0$ , alors $P(A|B) = P(A)$ .
Formules de probabilités conditionnelles : La probabilité de $A$ $A$ sachant $B$ $B$ (la probabilité que $A$ $A$ se réalise sachant que $B$ $B$ s'est déjà réalisé) est notée $P(A|B)$ $P (A ∣ B)$ .
- $P(A|B) = \frac{P(A \cap B)}{P(B)}$ , avec $P(B) \neq 0$ .
- Cette formule est fondamentale pour analyser des situations où l'information évolue.

Exemple : On tire une carte d'un jeu de 32 cartes.

Événement $A$ : "La carte tirée est un as". $P(A) = \frac{4}{32} = \frac{1}{8}$ .
Événement $B$ : "La carte tirée est un cœur". $P(B) = \frac{8}{32} = \frac{1}{4}$ .
Événement $A \cap B$ : "La carte tirée est l'as de cœur". $P(A \cap B) = \frac{1}{32}$ .
$P(A|B) = \frac{P(A \cap B)}{P(B)} = \frac{1/32}{1/4} = \frac{1}{8}$ . On retrouve $P(A)$ , ce qui confirme que les événements "tirer un as" et "tirer un cœur" sont indépendants dans un jeu de 32 cartes (sans joker).

Variables Aléatoires Discrètes

Une variable aléatoire discrète $X$ est une fonction qui associe un nombre réel à chaque résultat d'une expérience aléatoire. Les valeurs que $X$ peut prendre sont dénombrables (souvent des entiers).

Loi de probabilité : Elle décrit toutes les valeurs possibles de $X$ et leurs probabilités associées. On la représente souvent par un tableau :
$x_i$ $x_1$ $x_2$ ... $x_n$
$P(X=x_i)$ $p_1$ $p_2$ ... $p_n$
où $\sum_{i=1}^n p_i = 1$ et $p_i \ge 0$ .
Espérance mathématique ( $E(X)$ $E (X)$ ) : C'est la valeur moyenne que l'on s'attend à obtenir si l'expérience est répétée un grand nombre de fois. C'est une mesure de la tendance centrale.
- $E(X) = \sum_{i=1}^n x_i p_i$ .
Variance ( $Var(X)$ $V a r (X)$ ) : Elle mesure la dispersion des valeurs de la variable aléatoire autour de son espérance. Plus la variance est élevée, plus les valeurs sont éloignées de la moyenne.
- $Var(X) = E((X - E(X))^2) = \sum_{i=1}^n (x_i - E(X))^2 p_i$ .
- Une formule de calcul plus pratique est $Var(X) = E(X^2) - (E(X))^2$ .
Écart-type ( $\sigma(X)$ $σ (X)$ ) : C'est la racine carrée de la variance, exprimée dans la même unité que la variable aléatoire.
- $\sigma(X) = \sqrt{Var(X)}$ .
Fonction de répartition ( $F_X(x)$ ) : Pour une variable aléatoire discrète $X$ , la fonction de répartition est définie pour tout réel $x$ par $F_X(x) = P(X \le x) = \sum_{x_i \le x} P(X=x_i)$ . Elle est en escalier.

$x_i$	$x_1$	$x_2$	...	$x_n$
$P(X=x_i)$	$p_1$	$p_2$	...	$p_n$
où $\sum_{i=1}^n p_i = 1$ et $p_i \ge 0$ .

Lois de Probabilité Usuelles Discrètes

Ces lois modélisent des situations récurrentes.

Loi de Bernoulli $B(p)$ $B (p)$ : Modélise une expérience n'ayant que deux issues : succès (probabilité $p$ $p$ ) ou échec (probabilité $1-p$ $1 - p$ ).
- $X$ prend la valeur 1 pour un succès et 0 pour un échec.
- $P(X=1) = p$ , $P(X=0) = 1-p$ .
- $E(X) = p$ , $Var(X) = p(1-p)$ .
Loi binomiale $B(n, p)$ $B (n, p)$ : Compte le nombre de succès dans $n$ $n$ répétitions indépendantes d'une épreuve de Bernoulli de paramètre $p$ $p$ .
- $P(X=k) = \binom{n}{k} p^k (1-p)^{n-k}$ pour $k \in \{0, 1, \dots, n\}$ .
- $E(X) = np$ , $Var(X) = np(1-p)$ .
- La loi binomiale est très utilisée pour modéliser des comptages de succès dans des séries d'expériences identiques et indépendantes.
Loi géométrique $G(p)$ $G (p)$ : Modélise le nombre d'épreuves de Bernoulli (de paramètre $p$ $p$ ) nécessaires pour obtenir le premier succès.
- $P(X=k) = (1-p)^{k-1}p$ pour $k \in \{1, 2, 3, \dots\}$ .
- $E(X) = \frac{1}{p}$ , $Var(X) = \frac{1-p}{p^2}$ .
- Elle possède la propriété d'absence de mémoire : $P(X > k+j | X > k) = P(X > j)$ . Cela signifie que la probabilité d'attendre $j$ épreuves supplémentaires pour le premier succès, sachant qu'on a déjà attendu $k$ épreuves sans succès, est la même que si on n'avait rien attendu du tout.

Chapitre 2

Probabilités Conditionnelles et Indépendance

Définition et Propriétés des Probabilités Conditionnelles

La probabilité conditionnelle $P(A|B)$ est la probabilité que l'événement $A$ se réalise, sachant que l'événement $B$ s'est déjà réalisé.

Définition : $P(A|B) = \frac{P(A \cap B)}{P(B)}$ , avec $P(B) \neq 0$ .
Formule des probabilités composées : Permet de calculer la probabilité de l'intersection de plusieurs événements.
- $P(A \cap B) = P(A|B) \times P(B)$ .
- Pour trois événements : $P(A \cap B \cap C) = P(C|A \cap B) \times P(B|A) \times P(A)$ .
Arbres pondérés : Un outil visuel très utile pour représenter des séquences d'événements et calculer des probabilités conditionnelles ou d'intersections.
- Chaque branche est étiquetée par une probabilité (conditionnelle ou non).
- La probabilité d'un chemin est le produit des probabilités le long des branches de ce chemin.
- La somme des probabilités des branches issues d'un même nœud est égale à 1.

Exemple : Dans une usine, 95% des produits sont conformes (C). Parmi les produits conformes, 80% sont de qualité supérieure (S). Parmi les produits non conformes ( $\bar{C}$ ), 10% sont de qualité supérieure.

$P(C) = 0.95$ , $P(\bar{C}) = 0.05$ .
$P(S|C) = 0.80$ .
$P(S|\bar{C}) = 0.10$ .
On peut calculer $P(S \cap C) = P(S|C) \times P(C) = 0.80 \times 0.95 = 0.76$ .
Et $P(S \cap \bar{C}) = P(S|\bar{C}) \times P(\bar{C}) = 0.10 \times 0.05 = 0.005$ .

Formule des Probabilités Totales

La formule des probabilités totales permet de calculer la probabilité d'un événement $A$ en le décomposant selon les différentes façons dont il peut se produire.

Un système complet d'événements est une partition de l'univers $\Omega$ $Ω$ . Cela signifie que les événements $B_1, B_2, \dots, B_n$ $B_{1}, B_{2}, \dots, B_{n}$ sont :
1. Mutuellement incompatibles : $B_i \cap B_j = \emptyset$ pour $i \neq j$ .
2. Leur union forme $\Omega$ : $\bigcup_{i=1}^n B_i = \Omega$ .
3. $P(B_i) > 0$ pour tout $i$ .
Formule : Si $(B_1, B_2, \dots, B_n)$ est un système complet d'événements, alors pour tout événement $A$ : $P(A) = \sum_{i=1}^n P(A \cap B_i) = \sum_{i=1}^n P(A|B_i) P(B_i)$
Applications pratiques : Cette formule est très utile pour calculer la probabilité d'un événement "global" en le décomposant en sous-cas plus simples, souvent modélisés par un arbre pondéré.
- Dans l'exemple précédent : $P(S) = P(S|C)P(C) + P(S|\bar{C})P(\bar{C}) = 0.76 + 0.005 = 0.765$ .
- La formule des probabilités totales est essentielle pour calculer la probabilité d'un événement qui peut être atteint par plusieurs chemins différents.

Formule de Bayes

La formule de Bayes permet de "retourner" une probabilité conditionnelle : calculer $P(B|A)$ à partir de $P(A|B)$ . Elle est cruciale en inférence statistique et en diagnostic.

Formule : Si $(B_1, B_2, \dots, B_n)$ est un système complet d'événements et $A$ un événement de probabilité non nulle, alors : $P(B_j|A) = \frac{P(A|B_j) P(B_j)}{P(A)}$ Où $P(A)$ est généralement calculé par la formule des probabilités totales : $P(A) = \sum_{i=1}^n P(A|B_i) P(B_i)$ .
Probabilité a posteriori : $P(B_j|A)$ est appelée probabilité a posteriori de $B_j$ sachant $A$ , car elle est calculée après avoir observé l'événement $A$ . $P(B_j)$ est la probabilité a priori.
Applications en diagnostic : Permet de calculer la probabilité d'une cause (maladie $B_j$ $B_{j}$ ) sachant un symptôme ou un test positif ( $A$ $A$ ).
- Exemple : On reprend l'usine. Quelle est la probabilité qu'un produit de qualité supérieure (S) soit non conforme ( $\bar{C}$ ) ? $P(\bar{C}|S) = \frac{P(S|\bar{C}) P(\bar{C})}{P(S)} = \frac{0.10 \times 0.05}{0.765} \approx 0.0065$ . C'est une probabilité très faible, ce qui est rassurant pour la qualité.

Indépendance d'Événements et de Variables Aléatoires

Définition de l'indépendance d'événements : Deux événements $A$ $A$ et $B$ $B$ sont indépendants si la réalisation de l'un n'affecte pas la probabilité de l'autre.
- $P(A \cap B) = P(A) \times P(B)$ .
- Équivalemment, si $P(B) \neq 0$ , $P(A|B) = P(A)$ .
- Équivalemment, si $P(A) \neq 0$ , $P(B|A) = P(B)$ .
Conséquences de l'indépendance : Si $A$ et $B$ sont indépendants, alors $A$ et $\bar{B}$ , $\bar{A}$ et $B$ , ainsi que $\bar{A}$ et $\bar{B}$ sont aussi indépendants.
Indépendance de variables aléatoires : Deux variables aléatoires discrètes $X$ $X$ et $Y$ $Y$ sont indépendantes si pour tout $x_i$ $x_{i}$ et $y_j$ $y_{j}$ dans leurs ensembles de valeurs respectifs :
- $P(X=x_i \text{ et } Y=y_j) = P(X=x_i) \times P(Y=y_j)$ .
- Conséquence importante : Si $X$ $X$ et $Y$ $Y$ sont indépendantes, alors $E(XY) = E(X)E(Y)$ $E (X Y) = E (X) E (Y)$ et $Var(X+Y) = Var(X) + Var(Y)$ $V a r (X + Y) = V a r (X) + V a r (Y)$ .
  - ==La propriété $Var(X+Y) = Var(X) + Var(Y)$ n'est vraie que si $X$ et $Y$ sont indépendantes.==

Chapitre 3

Variables Aléatoires à Densité (Continues)

Introduction aux Variables Aléatoires Continues

Une variable aléatoire continue (ou à densité) peut prendre n'importe quelle valeur dans un intervalle de nombres réels. On ne peut pas attribuer une probabilité non nulle à une valeur spécifique.

Notion de densité de probabilité : Une fonction $f$ $f$ est une fonction de densité de probabilité pour une variable aléatoire continue $X$ $X$ si :
1. $f(x) \ge 0$ pour tout $x \in \mathbb{R}$ .
2. L'aire totale sous la courbe de $f$ est égale à 1 : $\int_{-\infty}^{+\infty} f(x) dx = 1$ .
Calcul de probabilités par intégration : Pour une variable aléatoire continue, la probabilité que $X$ $X$ prenne une valeur dans un intervalle $[a, b]$ $[a, b]$ est donnée par l'intégrale de sa fonction de densité sur cet intervalle :
- $P(a \le X \le b) = \int_a^b f(x) dx$ .
- Pour une variable continue, $P(X=x) = 0$ pour toute valeur $x$ . Par conséquent, $P(a \le X \le b) = P(a < X \le b) = P(a \le X < b) = P(a < X < b)$ .
Fonction de répartition ( $F_X(x)$ $F_{X} (x)$ ) : Pour une variable aléatoire continue $X$ $X$ , la fonction de répartition est définie pour tout réel $x$ $x$ par :
- $F_X(x) = P(X \le x) = \int_{-\infty}^x f(t) dt$ .
- On a $f(x) = F_X'(x)$ (si $F_X$ est dérivable).
- $P(a \le X \le b) = F_X(b) - F_X(a)$ .

Espérance et Variance d'une Variable Continue

Calcul de l'espérance ( $E(X)$ $E (X)$ ) : Si $X$ $X$ est une variable aléatoire continue de densité $f(x)$ $f (x)$ , son espérance est :
- $E(X) = \int_{-\infty}^{+\infty} x f(x) dx$ .
Calcul de la variance ( $Var(X)$ $V a r (X)$ ) : La variance mesure la dispersion des valeurs de $X$ $X$ autour de son espérance.
- $Var(X) = \int_{-\infty}^{+\infty} (x - E(X))^2 f(x) dx$ .
- Formule de calcul plus pratique : $Var(X) = E(X^2) - (E(X))^2 = \int_{-\infty}^{+\infty} x^2 f(x) dx - (E(X))^2$ .
Propriétés de l'espérance et de la variance (identiques aux variables discrètes) :
- $E(aX+b) = aE(X)+b$ .
- $Var(aX+b) = a^2Var(X)$ .

Loi Uniforme

Une variable aléatoire $X$ suit une loi uniforme sur un intervalle $[a, b]$ (notée $U([a, b])$ ) si elle a une densité constante sur cet intervalle et nulle ailleurs.

Densité de probabilité uniforme :
- $f(x) = \frac{1}{b-a}$ si $x \in [a, b]$
- $f(x) = 0$ sinon.
Calcul de probabilités : Pour $c, d \in [a, b]$ avec $c \le d$ , $P(c \le X \le d) = \int_c^d \frac{1}{b-a} dx = \frac{d-c}{b-a}$ .
Espérance et variance :
- $E(X) = \frac{a+b}{2}$ .
- $Var(X) = \frac{(b-a)^2}{12}$ .
- La loi uniforme est souvent utilisée pour modéliser des phénomènes où toutes les valeurs d'un intervalle sont également probables.

Loi Exponentielle

Une variable aléatoire $X$ suit une loi exponentielle de paramètre $\lambda > 0$ (notée $E(\lambda)$ ) si sa fonction de densité est :

Densité de probabilité exponentielle :
- $f(x) = \lambda e^{-\lambda x}$ si $x \ge 0$ .
- $f(x) = 0$ si $x < 0$ .
Fonction de répartition : $F_X(x) = P(X \le x) = 1 - e^{-\lambda x}$ pour $x \ge 0$ .
Espérance et variance :
- $E(X) = \frac{1}{\lambda}$ .
- $Var(X) = \frac{1}{\lambda^2}$ .
Propriété d'absence de mémoire : C'est la propriété la plus caractéristique de la loi exponentielle.
- $P(X > s+t | X > s) = P(X > t)$ pour tout $s, t \ge 0$ .
- Cela signifie que la probabilité qu'un événement se produise dans $t$ unités de temps futures, sachant qu'il ne s'est pas produit pendant $s$ unités de temps, est la même que si l'on partait de zéro.
- Applications en fiabilité : La loi exponentielle est souvent utilisée pour modéliser la durée de vie de composants électroniques ou le temps d'attente entre deux événements consécutifs dans un processus de Poisson (par exemple, arrivées de clients, désintégrations radioactives).

Chapitre 4

Loi Normale et Théorème Central Limite

Introduction à la Loi Normale

La loi normale (ou loi de Gauss-Laplace) est l'une des lois de probabilité les plus importantes en statistiques. Elle modélise de nombreux phénomènes naturels (taille des individus, erreurs de mesure, etc.).

Courbe de Gauss : Sa fonction de densité est représentée par une courbe en forme de cloche, symétrique par rapport à sa moyenne.
- $f(x) = \frac{1}{\sigma\sqrt{2\pi}} e^{-\frac{1}{2}(\frac{x-\mu}{\sigma})^2}$ pour $x \in \mathbb{R}$ .
Paramètres $\mu$ et $\sigma$ :
- $\mu$ (mu) est l'espérance (la moyenne) de la variable aléatoire. Il détermine la position du centre de la courbe.
- $\sigma$ (sigma) est l'écart-type. Il détermine la dispersion de la courbe : un petit $\sigma$ donne une courbe étroite et haute, un grand $\sigma$ donne une courbe large et aplatie.
- La variable aléatoire est notée $X \sim \mathcal{N}(\mu, \sigma^2)$ (où $\sigma^2$ est la variance).
Propriétés de symétrie : La courbe est symétrique par rapport à la droite $x = \mu$ $x = μ$ . Le maximum de la densité est atteint en $x = \mu$ $x = μ$ .
- $P(X \le \mu) = P(X \ge \mu) = 0.5$ .
Règle des 3 sigmas : Environ 68% des valeurs se trouvent dans l'intervalle $[\mu-\sigma, \mu+\sigma]$ , environ 95% dans $[\mu-2\sigma, \mu+2\sigma]$ , et environ 99.7% dans $[\mu-3\sigma, \mu+3\sigma]$ .

Loi Normale Centrée Réduite N(0,1)

La loi normale centrée réduite est une loi normale particulière de moyenne 0 et d'écart-type 1. Elle est notée $\mathcal{N}(0, 1)$ . Sa densité est souvent notée $\phi(z)$ et sa fonction de répartition $\Phi(z)$ .

Transformation Z : Toute variable aléatoire normale $X \sim \mathcal{N}(\mu, \sigma^2)$ $X \sim N (μ, σ^{2})$ peut être transformée en une variable normale centrée réduite $Z \sim \mathcal{N}(0, 1)$ $Z \sim N (0, 1)$ par la formule :
- $Z = \frac{X - \mu}{\sigma}$ .
- Cette transformation est essentielle car elle permet d'utiliser une seule table de valeurs pour calculer les probabilités de toutes les lois normales.
Utilisation de la table de la loi normale : La table donne les valeurs de $\Phi(z) = P(Z \le z)$ $Φ (z) = P (Z \leq z)$ pour différentes valeurs de $z$ $z$ .
- $P(a \le X \le b) = P(\frac{a-\mu}{\sigma} \le Z \le \frac{b-\mu}{\sigma}) = \Phi(\frac{b-\mu}{\sigma}) - \Phi(\frac{a-\mu}{\sigma})$ .
- Il est crucial de bien maîtriser la transformation en Z et l'utilisation des tables ou calculatrices pour calculer les probabilités associées à la loi normale.

Approximation d'une Loi Binomiale par une Loi Normale

Sous certaines conditions, une loi binomiale $B(n, p)$ peut être approximée par une loi normale $\mathcal{N}(\mu, \sigma^2)$ .

Conditions d'application : L'approximation est jugée bonne si :
1. $n \ge 30$ (un grand nombre d'épreuves).
2. $np \ge 5$ (le nombre attendu de succès est suffisant).
3. $n(1-p) \ge 5$ (le nombre attendu d'échecs est suffisant).
Paramètres de la loi normale d'approximation :
- $\mu = np$ (l'espérance de la binomiale).
- $\sigma^2 = np(1-p)$ (la variance de la binomiale).
- Donc $X \sim B(n,p)$ est approximée par $Y \sim \mathcal{N}(np, np(1-p))$ .
Correction de continuité : Puisqu'on approxime une loi discrète par une loi continue, il faut appliquer une correction de continuité pour améliorer la précision de l'approximation.
- $P(X=k) \approx P(k-0.5 \le Y \le k+0.5)$ .
- $P(X \le k) \approx P(Y \le k+0.5)$ .
- $P(X < k) \approx P(Y \le k-0.5)$ .
- $P(X \ge k) \approx P(Y \ge k-0.5)$ .
- $P(X > k) \approx P(Y \ge k+0.5)$ .
Exemples d'application : Calculer la probabilité d'obtenir entre 45 et 55 succès sur 100 lancers d'une pièce équilibrée. La loi exacte serait binomiale, mais difficile à calculer. L'approximation normale simplifie grandement le problème.

Théorème Central Limite (TCL)

Le Théorème Central Limite est l'un des résultats les plus fondamentaux et puissants en probabilités et statistiques.

Énoncé simplifié : Si on prend un grand nombre de variables aléatoires indépendantes et identiquement distribuées (i.i.d.), leur somme (ou leur moyenne) tend à suivre une loi normale, quelle que soit la distribution d'origine des variables individuelles.
Convergence en loi : Plus précisément, si $X_1, X_2, \dots, X_n$ $X_{1}, X_{2}, \dots, X_{n}$ sont $n$ $n$ variables aléatoires i.i.d. avec une espérance $E(X_i) = \mu$ $E (X_{i}) = μ$ et une variance $Var(X_i) = \sigma^2$ $V a r (X_{i}) = σ^{2}$ (finie), alors la variable aléatoire normalisée : $Z_n = \frac{\sum_{i=1}^n X_i - n\mu}{\sigma\sqrt{n}}$ $Z_{n} = \frac{\sum _{i = 1}^{n} X _{i} - n μ}{σ n}$ converge en loi vers une loi normale centrée réduite $\mathcal{N}(0, 1)$ $N (0, 1)$ lorsque $n \to \infty$ $n \to \infty$ .
- De manière équivalente, la moyenne empirique $\bar{X}_n = \frac{1}{n}\sum_{i=1}^n X_i$ suit approximativement une loi $\mathcal{N}(\mu, \frac{\sigma^2}{n})$ pour $n$ grand.
Importance du TCL en statistiques :
- Il justifie l'utilisation de la loi normale pour modéliser des phénomènes qui sont le résultat de l'accumulation de nombreux petits effets aléatoires (par exemple, les erreurs de mesure).
- Il est la base de l'inférence statistique, notamment pour la construction d'intervalles de confiance et les tests d'hypothèses sur des moyennes d'échantillons, même si la distribution de la population n'est pas normale.
- Le TCL est la raison pour laquelle la loi normale est omniprésente en statistiques, même lorsque les données brutes ne sont pas normalement distribuées.

Chapitre 5

Chaînes de Markov à Temps Discret

Introduction aux Chaînes de Markov

Une chaîne de Markov à temps discret est un modèle mathématique qui décrit une séquence d'événements dans laquelle la probabilité de chaque événement dépend uniquement de l'état de l'événement précédent. C'est une propriété "sans mémoire".

Notion d'état : Le système peut se trouver dans un ensemble fini d'états possibles, noté $S = \{s_1, s_2, \dots, s_N\}$ .
Propriété de Markov (absence de mémoire) : La probabilité de passer à un état futur ne dépend que de l'état actuel du système, et non de la manière dont cet état a été atteint (du passé).
- $P(X_{n+1}=s_j | X_n=s_i, X_{n-1}=s_k, \dots, X_0=s_l) = P(X_{n+1}=s_j | X_n=s_i)$ .
Matrice de transition ( $M$ $M$ ) : C'est une matrice carrée $N \times N$ $N \times N$ où $N$ $N$ est le nombre d'états. Ses éléments $m_{ij}$ $m_{ij}$ représentent la probabilité de passer de l'état $s_i$ $s_{i}$ à l'état $s_j$ $s_{j}$ en une seule étape.
- $m_{ij} = P(X_{n+1}=s_j | X_n=s_i)$ .
- Chaque ligne de la matrice doit sommer à 1 (car le système doit aller vers un des états possibles).
- $M = \begin{pmatrix} p_{11} & p_{12} & \dots & p_{1N} \\ p_{21} & p_{22} & \dots & p_{2N} \\ \vdots & \vdots & \ddots & \vdots \\ p_{N1} & p_{N2} & \dots & p_{NN} \end{pmatrix}$

Calcul des Probabilités d'État

Vecteur d'état ( $\Pi_n$ $Π_{n}$ ) : C'est un vecteur ligne qui contient les probabilités d'être dans chaque état à l'étape $n$ $n$ .
- $\Pi_n = (P(X_n=s_1), P(X_n=s_2), \dots, P(X_n=s_N))$ .
- La somme des éléments de $\Pi_n$ est égale à 1.
Évolution des probabilités : Pour obtenir le vecteur d'état à l'étape $n+1$ $n + 1$ à partir du vecteur d'état à l'étape $n$ $n$ , on utilise la relation :
- $\Pi_{n+1} = \Pi_n M$ .
Calcul de $P^n$ : Pour trouver le vecteur d'état après $n$ $n$ étapes à partir de l'état initial $\Pi_0$ $Π_{0}$ , on utilise :
- $\Pi_n = \Pi_0 M^n$ .
- $M^n$ est la matrice de transition en $n$ étapes. Ses éléments $(M^n)_{ij}$ représentent la probabilité de passer de l'état $s_i$ à l'état $s_j$ en $n$ étapes.
- Le calcul de $M^n$ peut être effectué par diagonalisation si $M$ est diagonalisable.

État Stable et Distribution Stationnaire

Pour de nombreuses chaînes de Markov, après un grand nombre d'étapes, la distribution des probabilités d'état tend vers une distribution stationnaire (ou état stable), indépendante de l'état initial.

Existence et unicité de l'état stable : Si la chaîne de Markov est irréductible (on peut aller de n'importe quel état à n'importe quel autre) et apériodique (elle ne revient pas à un état uniquement à des intervalles de temps fixes), alors il existe une unique distribution stationnaire $\Pi_S$ .
Calcul de la distribution stationnaire ( $\Pi_S$ $Π_{S}$ ) : C'est un vecteur ligne qui satisfait l'équation :
- $\Pi_S = \Pi_S M$ .
- De plus, la somme de ses éléments doit être 1 : $\sum_{i=1}^N (\Pi_S)_i = 1$ .
- La résolution de ce système d'équations linéaires donne la distribution stationnaire.
Interprétation à long terme : La distribution stationnaire représente la proportion de temps que le système passe en moyenne dans chaque état sur une longue période.
- L'état stable est une prédiction importante du comportement à long terme du système.

Applications des Chaînes de Markov

Les chaînes de Markov sont des outils puissants pour modéliser une grande variété de phénomènes dynamiques.

Modélisation de phénomènes aléatoires : Tout processus où l'avenir ne dépend que du présent et non du passé.
Exemples en biologie : Modélisation de l'évolution des populations (par exemple, reproduction de bactéries, propagation de maladies), séquences d'ADN.
Exemples en économie : Analyse du comportement des marchés financiers, prévision de la migration des clients entre différentes marques, modélisation de la solvabilité des entreprises.
Autres domaines : Moteurs de recherche (algorithme PageRank de Google), météorologie (prédiction du temps), traitement du langage naturel.
Limites du modèle : La principale limite est la propriété de Markov elle-même : l'hypothèse d'absence de mémoire n'est pas toujours réaliste. Dans de nombreux cas, l'état futur dépend de plusieurs états passés, nécessitant des modèles plus complexes (comme les chaînes de Markov d'ordre supérieur ou les modèles de Markov cachés).