Convergence et théorèmes limites

Définition

Soit $X_1, X_2, \cdots$ une suite de variables aléatoires définies sur le même espace de probabilité, suivant la même loi D et indépendantes. Supposons que l'espérance $ \mu $ et l'écart-type $ \sigma $ de D existent et soient finis ($\sigma \neq 0$).

Considérons la somme $S_n = X_1 + X_2 + \cdots + X_n$. Alors l'espérance de $S_n$ est $n \mu$ et son écart-type vaut $\sigma \sqrt{n}$ . De plus, quand n est assez grand, la loi normale $ \mathcal{N} (n \mu , n \sigma^2)$ est une bonne approximation de la loi de $S_n.$

Afin de formuler mathématiquement cette approximation, nous allons poser $\overline{X}_n=S_n/n=(X_1+\cdots+X_n)/n\,,$ et $Z_n\ =\ \frac{S_n - n \mu}{\sigma \sqrt{n}}\ =\ \frac{\overline{X}_n-\mu}{\sigma/\sqrt{n}},$ de sorte que l'espérance et l'écart-type de $Z_n$ valent respectivement 0 et 1 : la variable est ainsi dite centrée et réduite.

Le théorème central limite stipule alors que la loi de $Z_n$ converge vers la loi normale centrée réduite $ \mathcal{N} (0 , 1)$ lorsque n tend vers l'infini (il s'agit de la convergence en loi). Cela signifie que si F est la fonction de répartition de $ \mathcal{N} (0 , 1)$, alors pour tout réel z :

$\lim_{n \to \infty} \mbox{P}(Z_n \le z) = \Phi(z),$

ou, de façon équivalente :

$\lim_{n\to\infty}\mbox{P}\left(\frac{\overline{X}_n-\mu}{\sigma/\sqrt{n}}\leq z\right)=\Phi(z)$

Démonstration du théorème central limite

Pour un théorème d'une telle importance en statistiques et en probabilité appliquée, il existe une démonstration particulièrement simple utilisant les fonctions caractéristiques. Cette démonstration ressemble à celle d'une des lois des grands nombres. Pour une variable aléatoire Y d'espérance 0 et de variance 1, la fonction caractéristique de Y admet le développement limité :

$\varphi_Y(t) = 1 - {t^2 \over 2} + o(t^2), \quad t \rightarrow 0.$

Si Yi vaut $\frac{X_i - \mu}{\sigma}$, il est facile de voir que la moyenne centrée réduite des observations X1, X2, …, Xn est simplement :

$Z_n = \frac{\overline{X}_n-\mu}{\sigma/\sqrt{n}} = \sum_{i=1}^n {Y_i \over \sqrt{n}}.$

D'après les propriétés élémentaires des fonctions caractéristiques, la fonction caractéristique de $Z_n$ est

$\left[\varphi_Y\left({t \over \sqrt{n}}\right)\right]^n = \left[ 1 - {t^2 \over 2n} + o\left({t^2 \over n}\right) \right]^n \, \rightarrow \, e^{-t^2/2}$ lorsque $n \to +\infty.$

Mais cette limite est la fonction caractéristique de la loi normale centrée réduite $\mathcal{N}(0,1)$, d'où l'on déduit le théorème de la limite centrale grâce au théorème de continuité de Lévy, qui affirme que la convergence des fonctions caractéristiques implique la convergence en loi.

Convergence vers la limite

La convergence de la fonction de répartition de $Z_n$ est uniforme, en vertu du deuxième théorème de Dini. Si le moment d'ordre 3, $\mathrm{E}[ (X-\mu)^3]$ existe et est fini, alors la vitesse de convergence est au moins d'ordre $1/\sqrt{n}$ (voir le théorème de Berry-Esseen).

Images d'une loi lissées par sommation qui montrent la distribution de la loi originale et trois sommations successives (obtenues par convolution) :

Dans les applications pratiques, ce théorème permet en particulier de remplacer une somme de variables aléatoires en nombre assez grand mais fini par une approximation normale, généralement plus facile à manipuler.

Une somme de variables continues est une variable continue dont on peut comparer la densité de probabilité à celle de la limite normale. Avec une somme de variables discrètes, il est parfois commode de définir une pseudo-densité de probabilité mais l'outil le plus efficace est la fonction de probabilité représentée par un diagramme en bâtons. On peut constater graphiquement une certaine cohérence entre les deux diagrammes, difficile à interpréter. Dans ce cas, il est plus efficace de comparer les fonctions de répartition.

D'autre part, l'approximation normale est particulièrement efficace au voisinage des valeurs centrales. Certains disent même qu'en matière de convergence vers la loi normale, l'infini commence souvent à six.

La précision se dégrade à mesure qu'on s'éloigne de ces valeurs centrales. C'est particulièrement vrai pour une somme de variables positives par nature : la loi normale fait toujours apparaître des valeurs négatives avec des probabilités faibles mais non nulles. Même si c'est moins choquant, cela reste vrai en toutes circonstances : alors que toute grandeur physique est nécessairement bornée, la loi normale qui couvre un intervalle infini n'est qu'une approximation utile.

Enfin, pour un nombre donné de termes de la somme, l'approximation normale est d'autant meilleure que la distribution est plus symétrique.