Section20: Espace probabilisé, Probabilité

0.1 Espace probabilisé, Probabilité

0.2 Espace probabilisable

Une expérience aléatoire est une expérience pouvant conduire à
plusieurs résultats possibles et dont le résultat ne peut être
prévu avec certitude. Cela signifie que si l’on répète
plusieurs fois la même expérience, on obtient à chaque
fois un résultat bien défini mais qui n’est pas toujours le
même. L’ensemble des résultats possibles sera noté Ω.

Exemple 0.2.1

Le lancer d’un dé cubique ne
pouvant rester en equilibre sur aucune de ses arêtes et dont les
faces sont numérotées de 1 à 6 est une expérience
aléatoire. Les resultats possibles de cette expérience sont
les six chiffres 1, 2,…, 6.

D’une manière générale toute expérience physique est
aléatoire. En effet, même les expériences pour lesquelles
on peut appliquer le principe classique suivant : la même cause
produit toujours le même effet
sont aléatoires dans le sens
où la mesure de l’effet peut introduire des incertitudes.
Chaque résultat possible d’une expérience aléatoire
est appelé événement aléatoire élémentaire.
L’ensemble de tous ces événements est appelé ensemble
fondamental et il est souvent désigné par
Ω. Toute partie de Ω
est appelé événement aléatoire. L’ensemble de tous les
événements liés à une expérience aléatoires
est donc confondu avec l’ensemble 𝒫(Ω) des
parties de Ω.
Un événement lié au lancer d’un dé cubique est
par exemple A={1,3,5}.
Avant de procéder à une expérience aléatoire,
on peut être intéressé par un événement donné
A et vouloir faire une prévision sur la chance que cet
événement a de se réaliser. On peut dire à priori que
A={1,3,5} a une chance sur deux de se réaliser si la
symétrie du dé est parfaite.
L’événement Ω qui par
définition a toutes les chances de se réaliser est appelé
événement certain et l’événement
Φ, ensemble vide, qui n’a aucune chance de se réaliser est
appelé événement impossible.
L’événement certain Ω={1,2,3,4,5,6} correspond à l’affirmation “l’expérience va conduire
à l’un des chiffres 1, 2, 3, 4, 5, 6”.
L’événement impossible Φ correspond à
l’affirmation “l’expérience ne conduit à aucun des chiffres
1, 2, 3, 4, 5, 6”.
Soit une expérience aléatoire conduisant à un
nombre fini n de résultats possibles, par exemple, pour un
lancer de dé on a n=6. Dans ce cas le nombre
d’événements possibles est donné par

Card{𝒫(Ω)}=2Card(Ω)=2n

où l’on désigne par Card(Ω) le cardinal de Ω.
A la suite d’une telle expérience, on est
amené naturellement à s’intéresser à la
réalisation d’un événement A ou à sa non
réalisation, à la réalisation simultannée de deux ou
plusieurs événements, à la réalisation d’au moins un
événement faisant partie d’un sous-ensemble de deux ou
plusieurs autres événements, etc
On introduit ainsi sur l’ensemble des événements
𝒫(Ω) les trois opérations classiques suivantes.

  1. 1.

    La réunion pour indiquer la réalisation de A ou B :
    AB.

  2. 2.

    L’intersection pour indiquer la réalisation
    simultannée de A et B : AB.

  3. 3.

    La complémentation par rapport à Ω pour
    indiquer la non réalisation de A:CΩA.

Considérons l’ensemble 𝒫(Ω) muni des
opérations intersection, complémentation et réunion. Les
différents sous-ensembles de 𝒫(Ω) ne présentent
pas tous le même intérêt pour l’expérimentateur
qui est amené à considérer des parties 𝒯 de
𝒫(Ω) qui sont plus ou moins grandes. Donnons
quelques exemples de sous-ensembles de 𝒫(Ω).

  1. 1.

    Le joueur est intéressé
    par chacun des numéros et par toute réunion de ces
    numéros. Il doit donc considérer le sous-ensemble
    𝒯 de 𝒫(Ω) le plus grand possible, i.e.

    𝒯=𝒫(Ω).
  2. 2.

    Le joueur est intéressé uniquement par la
    parité du numéro de la face du dé. Dans ce cas, il peut
    résoudre son problème en considérant le sous-ensemble

    𝒯={Φ,Ω,(1,3,5),(2,4,6)}𝒫(Ω).
  3. 3.

    Le joueur est intéressé par miser sur un ensemble de
    numéros parmi lesquels au moins un est gagnant ou ne pas engager de
    mise. Le plus petit sous-ensemble qu’il doit
    considérer pour résoudre son problème est :

    𝒯={Ω,Φ}𝒫(Ω).

Soit un ensemble Ω fini et 𝒫(Ω) l’ensemble
des parties de Ω. On appelle tribu de Ω
(ou σ-algèbre) toute famille 𝒯 de 𝒫(Ω) contenant Ω et stable pour la réunion et la
complémentation par rapport à Ω. Le couple
(Ω,𝒯) est appelé espace probabilisable.
Les trois ensembles définis ci-dessus sont des tribus de
Ω.

0.3 Espace probabilisé fini

Avant de procéder à une expérience aléatoire,
intéressons nous à une réalisation particulière
dénommée ωi et appelée événement
élémentaire
ou singleton. On peut vouloir faire une
estimation de la chance que cet événement a de ce
réaliser. Pour obtenir une telle estimation on procède
comme suit. On répète N fois l’expérience dans les
mêmes conditions et on associe à ωi le nombre

pi=niN,0pi1

ni représente le nombre de fois où ωi
s’est réalisé. On fait tendre N vers l’infini et le
nombre p ainsi obtenu est appelé probabilité de
ωi. On définit ainsi une application P de Ω
dans [0,1] par:

P(ωi)=pi,i=1,,Card(Ω)aveci=1Card(Ω)P(ωi)=1.

Si le nombre P(ωi) associé à chacun des singletons
ωi est indépendant de ce dernier, l’application P
est constante et définie sur Ω une probabilité
uniforme
. Dans cette hypothèse d’équiprobabilté, on
peut étendre la définition de P à l’ensemble
Ω lui-même de la manière suivante :

P(A)=ωiA=Card(A)Card(Ω).

Soit (Ω,𝒯) un espace probabilisable fini et P
l’application qui associe à chaque ωi le nombre

P(ωi)=1Card(Ω).

L’application P se prolonge d’une manière unique et
définit une probabilité sur (Ω,𝒯).
Une probabilité est donc une application de (Ω,𝒯) sur [0, 1] qui vérifie les axiomes suivants :

P(A)=ωiAP{ωi}etωiΩP{ωi}=1.

Le triplet (Ω,𝒯,P) est appelé espace
probabilisé
.

Dans l’hypothèse
d’équiprobabilité des événements élémentaires,
le calcul de la probabilité d’un événement quelconque se
ramène à un calcul de dénombrement. Ce calcul repose sur
les relations classiques qui donnent les nombres d’arrangements, de
permutations et de combinaisons de n objets.

Nombre d’arrangements Le nombre de façons
différentes de choisir p objets tous différents parmi
n objets tous différents (tenant compte de l’ordre des p
objets choisis) est donné par

AnP=n!(np)!.

Nombre de permutations Le nombre de façons
différentes d’ordonner n objets tous différents est
donné par

Pn=Ann=n!0!=n!.

Nombre de combinaisons Le nombre de façons
différentes de choisir p objets tous différents (sans
tenir compte de l’ordre des p objets choisis) parmi n objets
tous différents est donné par tirage sans remise :

Cnp=n!p!(np)!.

Nombre de combinaisons avec répétitions Le nombre de
façons différentes de choisir p objets, non tous
forcément différents, (sans tenir compte de l’ordre des
p objets choisis) parmi n objets tous différents est
donné par tirage avec remise :

Γnp=(n+p1)!p!(n1)!.

0.4 Espace probabilisé quelconque

Soit un ensemble Ω quelconque et 𝒫(Ω) l’ensemble des
parties de Ω. On appelle tribu ou σ-algèbre de Ω toute famille 𝒯 de
𝒫(Ω) vérifiant les trois propriétés
suivantes :

T contient Ω

T est stable pour la réunion
dénombrable

T est stable pour la complémentation par
rapport à Ω
Le couple (Ω,𝒯) est appelé espace mesurable
et les éléments de 𝒯 sont appelés parties
mesurables de Ω. Si B est une partie d’un espace 𝔼,
la plus petite tribu de 𝔼 contenant B est appelée tribu engendrée par B.

Exemple 0.4.1

Tribus classiques

  • Tribu fine : 𝒯=𝒫(Ω)

  • Tribu grossière : 𝒯={Φ,Ω}

  • Tribu de Bernoulli : 𝒯={Φ,A,A¯,Ω}.

  • Tribu de Borel : Soit (𝔼,Θ) un espace topologique.
    Il est clair que la topologie Θ n’est pas une tribu. La
    tribu engendrée par Θ est appelée tribu de Borel
    sur 𝔼. Si 𝔼=, on admettra que la tribu de Borel est
    engendrée par les ouverts de et qu’elle est aussi
    engendrée par des demi-droites ],α[. Cette
    tribue sera notée 𝔹.

Une mesure positive est une application μ d’un espace
mesurable (Ω,𝒯) sur l’espace mesurable (,𝔹)
muni de sa tribu de Borel qui verifie les axiomes suivants :

  • Positivité: pour tout élément A de 𝒯 on
    a μ(A)+

  • Additivité complète: pour toute suite fini ou
    dénombrable d’éléments An de 𝒯 deux à deux disjoints, on a:

    μ(nAn)=nμ(An).

Le triplet (Ω,𝒯,μ) est appelé espace
mesuré
. Toute mesure positive P vérifiant P(Ω)=1 est appelée probabilité. Un espace mesuré où la
mesure est une probabilité est appelé espace
probabilisé
.

Produit d’espaces probabilisés Si (Ω1,𝒫(Ω1),P1) et (Ω2,P(Ω2),P2) sont deux espaces probabilisés, on peut
considérer sur l’espace probabilisable [Ω1×Ω2,
𝒫(Ω1×Ω2)] la fonction P définie par

P(ω1,ω2)=ΔP1(ω1)P2(ω2)(ω1,ω2)Ω1×Ω2.

Il est facile de vérifier que P définie une
probabilité sur l’espace [Ω1×Ω2,𝒫(Ω1×Ω2)] appelé espace produit. On peut étendre ce
procédé pour définir de proche en proche l’espace
produit de n espaces probabilisés.

0.5 Règles de calcul sur un espace
probabilisé

La probabilité de la réunion de deux
événements quelconques est donnée par la
formule des probabilités
totales :

P(AB)=P(A)+P(B)P(AB). (1)

Deux évènements sont dits incompatibles ou disjoints si leur
intersection est réduite à l’ensemble vide. L’axiome
d’additivité complète conduit à l’identité suivante :

P(AB)=P(A)+P(B). (2)

Deux événements sont dits complémentaires s’ils sont
disjoints et si en plus leur réunion est égale à
l’ensemble Ω. Dans ce cas on a

P(AB)=P(A)+P(B)=1. (3)

Un système complet d’événements est un ensemble
d’événements deux à deux disjoints et tels que leur
réunion donne l’ensemble Ω. Un tel système forme
une partition de Ω. La probabilité de la réunion
des événements d’un systèmes complet est toujours
égale à 1. Si A1,A2,,An forment un système
complet, alors tout événement B se décompose sous la forme :

B=B1B2BnavecBi=ΔAiB

et on a

P(B)=i=1nP(Bi).

Soit Ω un ensemble fini ou dénombrable et P
une probabilité définie sur (Ω,𝒫(Ω)).
Alors les événements élémentaires de
Ω, i.e. les singletons {ωi} de 𝒫(Ω)
forment un système complet. De plus P est définie de manière
unique par la donnée des P({ωi}). En effet, les ensembles
{ωi} forment une partition de Ω et donc tout
événement B peut s’écrire

B=iB{ωi}.

La valeur de P(B) est alors définie d’une manière
unique par

P(B)=ΔiP(B{ωi})=ωiBP{ωi}.

Toute mesure de probabilité possède les propriétés
élémentaires suivantes.

ΦAΩ0P(A)
ABP(A)P(B)
A¯=CΩAP(A¯)=1P(A).

0.6 Probabilité conditionnelle, Indépendance

Soit (Ω,𝒯,P) un espace
probabilisé et A un évènement de probabilité non nulle.
Soit l’application PA définie par

PA(B)=ΔP(AB)P(A)=ΔP(B|A) (4)

où la notation P(B|A) se lit couramment
probabilité de B sachant A. Il est facile de vérifier que
PA définit une probabilité sur (Ω,𝒯).
Cette probabilité est appelée probabilité conditionnelle
(conditionnellement à la réalisation de A). On a donc :

P(AB)=P(B|A)P(A) (5)

et aussi par symétrie, pour P(B)0,

P(AB)=P(A|B)P(B) (6)

Les deux expressions de P(AB)
conduisent à la relation suivante dénommée formule de
Bayes
 :

P(A|B)=P(A)P(B)P(B|A). (7)

Plus généralement, si A1,A2,An est un système complet de
Ω et B un événement quelconque, on obtient la seconde
formule de Bayes suivante :

P(Ai|B)=P(B|Ai)P(Ai)j=1nP(B|Aj)P(Aj)i=1,2,,n. (8)

Cette identité se déduit immédiatement de la
première formule de Bayes qui donne

P(Ai|B)=P(B|Ai)P(Ai)P(B) (9)

et de la définition d’un système complet qui permet d’écrire

P(B)=j=1nP(B|Aj)P(Aj). (10)

Les formules de Bayes sont à la base de la branche de la
statistique appelée statistique Bayésienne. Ces formules sont
couramment appelées formules des probabilités des causes.
En effet, les Ai peuvent s’interprêter comme
des causes incompatibles pouvant provoquer l’événement
B
. Les probabilités P(Ai) sont appelées
probabilité a priori alors que les P(Ai|B) portent le nom de probabilités a posteriori.

Exemple 0.6.1

Application de la formule de Bayes

Dans une usine deux machines A1 et A2 fabriquent des boulons
de même type. A1 sort en moyenne 0,3% de boulons
défectueux et A2 0,8%. On a P(D|A1)=0,003 et
P(D|A2)=0,008. On mélange 1000 boulons dans une caisse, 650 provenant
de A1 et 350 de A2. Lorsque l’on tire un boulon au hasard les
probabilités dites a priori qu’il provienne de A1 ou de A2 sont :
P(A1)=0,65
et P(A2)=0,35. Sachant que lévénement, noté D : le boulon
tiré est défectueux, s’est réalisé, les
probabilités précédentes sont modifiées et
remplacées par les probabilités plus précises dites a
posteriori : P(A1|D) et P(A2|D). Pour calculer
ces probabilités, on applique le 2ème formule de Bayes.

Indépendance Soient A1,,An un ensemble de n
événements définis sur un espace probabilisé. Ces
événements sont dits indépendants deux à deux
si, et seulement si :

P(AiAj)=P(Ai)P(Aj)ij (11)

ils sont dits indépendants dans leur ensemble si pour
toute partie I de l’ensemble {1,2,,n} on a :

P(iIAn)=ΠiIP(Ai). (12)
Remarque 0.6.2

Si l’on considère un ensemble de
trois événements, les deux formes d’indépendances sont
équivalentes si, et seulement si, la formule (12) est valable
pour I={1,2,3}.

Remarque 0.6.3

On peut trouver des ensembles de n événements indépendants dans leur ensemble et tel que
tout sous ensemble de n1 événements constitue un
ensemble d’événements non indépendants dans leur ensemble.

L’incompatibilité de deux événements est
définie sur un espace probabilisable sur lequel aucune
probabilité n’a été définie.
L’incompatibilité de A et B ne fait pas intervenir la
probabilité, elle exprime simplement la condition
AB=ϕ. Par contre l’indépendance de A et B
est directement liée à une probabilité. Elle
peut donc changer avec la probabilité définie sur
l’espace probabilisable considéré. Deux événements A
et B peuvent être en même temps :

  • Indépendants et incompatibles

  • Indépendants et compatibles

  • Dépendants et incompatibles

  • Dépendants et compatibles.

0.7 Variable aléatoire

0.8 Statistique à une dimension et variable aléatoire

Nous considérons dans ce chapitre, une population Ω d’effectif total N,
et dont chaque élément présente un caractère X [saporta].
Soit, par exemple, un ensemble Ω d’individus dont on veut
étudier la taille X. A chaque individu ω on associe la valeur de
sa taille x=X(ω). Pour cela, on peut supposer que x
appartient à un intervalle [a,b]. On subdivise alors [a,b] en r
sous-intervalles de même amplitude et on appelle x1,x2,,xi,,xr les centres de ces intervalles. Au lieu d’associer à
chaque individu ω, le nombre x, on convient de lui associer
le nombre xi défini par le centre de l’intervalle contenant x.
Ainsi un même nombre xi peut être associé à plusieurs individus
ω.
On appelle série statistique pour le caractère X
l’application qui à chaque élément ω de Ω associe
le nombre xi. Soit une série statistique dont le caractère X a pour
valeurs x1,x2,,xi,,xr . On appelle effectif
partiel du nombre xi le nombre ni des éléments ω de la
population Ω dont la valeur du caractère est xi. Les
fréquences partielles sont définies par :

fi=niNaveci=1rfi=1et0fi1

La moyenne, la variance et l’écart type de X sont
respectivement définis par :

X¯=i=1rfixi,Var(X)=i=1rfi(xiX¯)2,σX=Var(X).

Dans ce qui précède, nous avons introduit une application X
qui associe à chaque élément ω le nombre x de
et les nombres fi compris entre 0 et 1 et tels que leur somme
vaut 1. Lorsque le nombre N tend vers l’infini, chaque fi
tend vers une limite appelée probabilité du nombre vers lequel
tend xi. La fonction X tend vers une fonction limite
appelée variable aléatoire (V.A) discrète. Le concept de V.A
a été introduit pour « quantifier » les résultats d’une
expérience aléatoire [blanclapierre-fortet]
[papoulis] [picinbono1] [saporta].
Par exemple, le lancer d’une pièce peut conduire aux deux
résultats possibles : obtenir face ou pile. On peut associer à
ces deux résultats respectivement les nombres 1 et 1 et
parler des résultats possibles 1 et 1. Chacun parmi ces deux
nombres est alors entâché d’une probabilité qui sera celle
de la face qui lui est associée. On a ainsi défini une
application X de l’espace probabilisé associé à
l’expérience sur l’ensemble des réels, chacune des valeurs x
prises par cette application étant affectée d’une
probabilité égale à celle de tous les antécédents de
x. La loi de probabilité d’une V.A est complètement
déterminée à partir de la probabilité P introduite sur
Ω. On considère muni de sa tribu de Borel et on
doit imposer à X de vérifier la propriété suivante :

X1(B)𝒯,B𝔹

qui signifie que X est une application mesurable de
l’espace probabilisé (Ω,𝒯,P) dans l’espace
probabilisable (,𝔹). Si 𝒯=𝒫(Ω), toute
application X est mesurable. Toute application mesurable de
(Ω,𝒯,P) est appelée variable aléatoire
(V.A). Une V.A complexe est une application d’un espace
probabilisé sur l’ensemble des nombre complexes telle que ses
parties réelle et imaginaire sont des variables aléatoires
réelles.

0.9 Loi de probabilité d’une variable aléatoire

A chaque V.A définie sur (Ω,𝒯,P) est associée sa « loi de
distribution de probabilités » ou simplement sa « loi de probabilité ». La loi de
probabilité d’une V.A X, notée PX, est définie à partir de P par :

PX(B)=P(ω|X(ω)B)=P[X1(B)],B𝔹.

Pour une autre V.A, Y, définie sur le même espace probabilisé
(Ω,𝒯,P), la loi de probabilité sera notée PY mais s’il n’y a pas d’anbiguïté,
on utilise la même notation P pour la loi de probabilité de X, de Y et
même pour celles de toutes les V.A définies sur (Ω,𝒯,P).

Exemple 0.9.1

Variable certaine et variable aléatoire

Si l’espace probabilisé est défini par la tribu grossière 𝒯={Ω,Φ}, toute application constante de Ω dans
est une V.A. Ce cas correspond à une variable dite certaine. Si l’espace est
défini par une tribu de Bernoulli {Φ,A,A¯,Ω} la fonction indicatrice de A est une V.A dite variable indicatrice de
l’événement A. Si l’espace est défini par une tribu engendrée
par une partition A1,A2,,An, une application X est une
V.A. si, et seulement si, X est constante sur chaque Ai.

Exemple 0.9.2

La notion de V.A dépend de la tribu choisie

On considère l’espace probabilisable (Ω,𝒯)
avec 𝒯={Ω,Φ}. Soit X l’application numérique telle que
ω1 et ω2 étant deux éléments distincts de Ω, on ait :

X(ω1)=x1 et X(ω2)=x2x1

Montrer que X n’est pas une V.A sur l’espace probabilisable considéré. En
déduire que les seule fonctions pouvant être des V.A sur (Ω,𝒯)
sont les fonctions constantes.

Proposition 0.9.3

La loi de probabilité d’une V.A X est complètement déterminée
par l’application de dans [0,1] définie par :

F(x)=PX(Xx),x (13)

(Xx) désigne l’ensemble de valeurs de X appartenant à
],x]. Cette
application est appelée fonction de répartition de X.

Parfois la fonction de répartition est définie par:

F~(x)=PX(X<x)

et on l’identité:

F(x)=F~(x)+PX(X=x).

On conviendra dans toute la suite que la fonction de répartition
est définie par (13). Elle possède alors les
propriétés suivantes.

Non décroissance :x1x2F(x1)F(x2)

Valeurs à l’infini limxF(x)=0,etlimxF(x)=1.


Continuité : la fonction de répartition F admet des
limites à droite et à gauche en tout point x, ses
discontinuités éventuelles sont bornées et elle est continue
à droite en tout point x.

Proposition 0.9.4

Une
fonction F est une fonction de répartition si, et seulement si, elle vérifie
les trois propriétés suivantes :

  • F est non décroissante

  • F()=0,F(+)=1

  • F est continu à droite en tout point de .

Exemple 0.9.5

Exemples de fonctions de répartition.

Les fonctions suivantes sont
des fonctions de répartition.

F(x) = 0pourx<c
= 1/2pourcx<c
= 1pourxc,c>0
G(x) = 12+1ex2(1+ex)
H(x) = ex/2pourx<0
= 1pourx0.

La fonction F est la fonction de répartition d’une V.A discrète qui ne
peut prendre que les valeurs ±c avec une probabilité 1/2. On a une seule
V.A associée à F, car F est une fonction en escaliers. La fonction
G est la fonction de répartition d’une V.A continue qui peut prendre « toute
les valeurs réelles ». Il existe une infinité de V.A admettant G comme
fonction de répartition. Deux telles V.A ne peuvent être différentes que sur
un ensemble de de probabilité nulle (elles sont dites égales presque
partout au sens de la mesure H). La fonction H est la fonction de répartition
d’une V.A continue ne pouvant prendre que des valeurs négatives et la valeur 0
avec une probabilité 1/2. Comme pour G , il existe une infinité de V.A admettant
H comme fonction de répartition.

Dans la majorité des problèmes pratiques, on ignore
complètement l’espace probabilisé et on définit une V.A X
par la donnée de sa fonction de répartition F. Il existe une
infinité de V.A associées à F et l’information contenue
dans F est commune à toutes ces V.A. La probabilité pour que
chacune de ces V.A prenne ses valeurs dans un intervalle ]a,b]
s’exprime à l’aide de F par:

PX(a<Xb)=F(b)F(a). (14)

Variable aléatoire discrète Une V.A X définie sur
est dite discrète si elle ne prend qu’un nombre fini ou
dénombrable de valeurs avec des probabilités non nulles. Il
existe donc une suite de nombres strictement positifs Pk dont
la somme vaut 1 et une suite de réels xk tels que PX(X=xk)=Pk,k=1,2, et PX(Xxk)=0.

Variable aléatoire continue Une V.A X définie sur
est dite absolument continue s’il existe une fonction f
telle que la fonction de répartition de X se mette sous la
forme

F(x)=xf(t)𝑑t,x. (15)

La fonction de répartition d’une V.A absolument continue est dite fonction
absolument continue et la fonction f est appelée densité de probabilité de
X. On a donc

F(x)=f(x). (16)

Une fonction f positive, continue par morceau et qui vérifie

+f(t)𝑑t=1. (17)

est une densité de probabilité. La fonction de répartition associée est alors
définie par (15).

0.10 Fonction de répartition et densité de probabilité

D’une manière générale, une V.A peut être définie par la donnée d’une
fonction F non décroissante vérifiant F()=0 et
F()=1. Cette fonction est la fonction de répartition de la
V.A considérée. Un élément différentiel dx de
, centré en x, porte l’élément de probabilité :

dF(x)=f(x)dx+k=1nδ(xxk)Pkdx (18)

f(x) représente la dérivée de F qui doit exister sauf aux points
xk et

δ(xxk)=Δlimxxk+σxk+σδ(xxk)𝑑x=1 (19)

la distribution de Dirac centrée en xk, k=1,2,,n. Cette forme de dF fait apparaître une densité
généralisée au sens des distributions qui est valable aussi
bien pour représenter les V.A discrètes que les V.A continues.
Dans toute la suite, il ne sera fait aucune distinction entre
dP, dPX et dF. On utilisera surtout la notation dF et si
l’on considère plusieurs V.A en même temps, on introduira des
indices pour distinguer les fonctions F associées (par
exemple, FX, FY Pour une V.A absolument continue,
l’élément dF(u) se réduit au seul terme f(u)du et pour
une V.A discrète, dF(u) ne contient pas le terme f(u)du.
D’où

FX(x) = P(Xx)=x𝑑F(u)
= xf(u)𝑑u pour une V.A continue
= xixxiPi pour une V.A discrète.
Exemple 0.10.1

Fonction de répartion d’une V.A discrète

Une V.A pouvant prendre les valeurs discrètes 1,2,,6 avec les probabilités respectives P1,P2,,P6 admet
comme fonction de répartition, la fonction F définie par :

dF(x)=k=16Pkδ(xxk)dx. (21)

0.11 Fonction d’une variable aléatoire

Soit une fonction déterministe h de dans . A toute V.A réelle X on
associe la nouvelle V.A Y dont chacune des valeurs y est obtenue comme
image d’au moins une valeur x de X. On pose

Y=h(X) (22)

et l’on dit que la V.A Y est l’image de X par la fonction h. On se
propose alors de déterminer la densité de probabilité fY et la fonction de
répartition FY de Y à partir de la densité fX et de la fonction de
répartition FX de X. Le cas le plus simple corréspond à des fonction h
monotones. Par exemple si h est une bijection croissante, on obtient

FY(y) = P(Yy)=P(h(X)y)=P[Xh1(y)]
= [FXoh1](y),y.

D’où

FY=FXoh1 (23)

Si l’on suppose FX et h dérivables, on
obtient, en distinguant les cas h croissante et h
décroissante :

fY(y)=fX(x)|h(x)|,avecy=h(x). (24)
Exemple 0.11.1

Fonction affine d’une V.A

Dans le cas d’une fonction affine y=h(x)=ax+b, un raisonnement
direct conduit à:

fY(y)=fX(yba)|a|.
Exemple 0.11.2

Fonction quadratique d’une V.A

Considérons maintenant le cas de la fonction y=h(x)=x2. Pour déterminer FY, introduisons l’événement :

Ay={ω/<Yy}={ω/<X2y}.

On a par définition FY(y)=P(AY). D’où FY(y)=0 pour y<0 et pour
y0, on a :

FY(y) = P(Ay)=P({ω/yXy})
= FX(y)FX(y)+P(X=y).

La dérivée de FY(y) donne la densité fY(y)=0 pour
y0 et

fY(y)=fX(y)y+fX(y)y,poury>0.

Cette densité peut se mettre sous la forme :

fY(y)=fX(x1)|h(x1)|+fX(x2)|h(x2)|avecy=h(x1)=h(x2).

Ce résultat peut s’obtenir directement en partant de
(24) et en introduisant les restrictions monotones de h
définies sur et +. Utilisant ce même
raisonnement, on peut généraliser 0.11 au cas des
fonctions h quelconques pour obtenir la relation suivante :

fY(y)=fX(x1)|h(x1)|++fX(xn)|h(xn)| (25)

avec

y=h(x1)==h(xn).

0.12 Espérance mathématique, variance et écart type

L’espérance mathématique d’une V.A
X, si elle existe, est donnée par :

E(X) = ΩX(ω)𝑑P(ω)x𝑑FX(x)
= xfX(x)𝑑x pour une V.A continue
= ixiPi pour une V.A discrète.

L’espérance E(X) n’existe pas toujours. Par exemple, pour la
densité de probabilité:

f(x)=1π(1+x2)Loi de Cauchy (27)

l’intégrale E(X) est divergente. De même, on peut
déterminer a pour que la fonction définie par f(x)=0 pour
x1 et f(x)=ax3/2 pour x>1 soit une densité
de probabilité. On peut vérifier que E(X) n’existe pas.
Lorsque E(X) existe, pour tout réel α donné on a :

E(α) = α
E(αX) = αE(X) (28)
E(α+X) = α+E(X).

Théorème fondamental
Pour toute
fonction déterministe h et toute V.A X telles que les
espérances de X et de Y=h(X) existent, on a :

E(Y)=Δy𝑑FY(y)=h(x)𝑑FX(x). (29)

Pour faciliter la compréhension de ce théorème, nous donnons
sa démonstration dans le cas d’une V.A discrète. Supposons que
X peut prendre les valeurs suivantes : x11,x12,,x1n1x21,x22,,x2n2xk1,xk2,,xknk
avec les probabilités pij=ΔP(X=xij). Supposons
que la fonction h qui n’est pas forcément injective, prend les
valeurs y1,y2,,yk et que pour

yi=h(xi1)=h(xi2)==h(xini),i=1,,k.

Comme P(Y=yi)=Δqi=j=1nipij on obtient

E(Y) = j=1kyiqi=i=1kyij=1nipij=i=1kj=1niyipij
= i=1kj=1nih(xij)pij=h(x)𝑑FX(x).

Cette démonstration se généralise sans difficulté au cas
d’une V.A continue.

On peut établir que si g est une fonction convexe et X une
V.A telle que les espérances de X et de g(X) existent, alors
on a :

g(E[X])E[g(X)]. (30)

Le théorème fondamental ci-dessus est très important puisqu’il
permet de calculer E(Y) directement à partir de FX(x) sans
passer par la détermination de la loi de Y. Il permet aussi
d’introduire les grandeurs suivantes associées à
une V.A.

La variance d’une variable aléatoire est la quantité positive
ou nulle définie par

σ2=Δvar(X)=ΔE[(XE(X))2]=(xE(X))2𝑑FX(x). (31)

Le nombre positif σ défini par (31) est appelé écart
type
de X.

La fonction déterministe f(a)=E([Xa]2) atteint son minimum pour
a=E(X) et l’on a

f(a)=E((Xa)2)=var(X)+[E(X)a]2 (32)

Cette relation est à comparer avec la formule de König-Huyghens sur les
moments d’inertie. On déduit de (32) les résultats suivants valables pour
tout nombre déterministe a

var(X)=E(X2)[E(X)]2
var(X)=var(X+a)etvar(aX)=a2var(X).

On a souvent besoin de connaître un majorant de la probabilité
de l’ensemble des valeurs de X vérifiant |XE(X)| kσ. L’inégalité de Bienaymé-Tchebyshev donnée
par :

P(|XE(X)|kσ)1k2k+ (33)

permet d’avoir un tel majorant en fonction de la valeur moyenne et
de l’écart type de la V.A. Cette inégalité ne nécessite
donc pas la connaissance complète de X et pour l’établir, on
peut se reporter à l’exercice LABEL:exer:1b03.

Exemple 0.12.1

V.A prenant des valeurs entières

Si X est une V.A à valeurs entières 0, on a
l’égalité suivante :

n=1nP[X=n]=k=1P[Xk]. (34)

En effet, on a P(Xk)= Prob[X=0]+
Prob[X=1]++ Prob[X=k]. D’où en prenant
k=0,1,, et en sommant membre à membre les
égalités obtenues, on obtient le résultat énoncé.

0.13 Fonctions caractéristiques, moments, cumulants

La fonction caractéristique d’une V.A réelle X est la transformée de Fourier
de sa mesure de probabilité. Elle est notée couramment ΦX et on a
par définition :

ΦX(u)=ΔE(eiuX)=eiux𝑑FX(x),i2=1. (35)

Comme FX est une mesure bornée et |eiu|=1, la fonction ΦX
existe toujours et elle est continue. Lorsque FX est une mesure
absolument continue on a :

ΦX(u)=eiuxfX(x)𝑑x (36)

fX désigne la densité de probabilité de X. La fonction
caractéristique possède les propriétés suivantes qui découlent
directement de sa définition.

ΦX(0)=1,Φ(αX)(u)=ΦX(αu),Φ(X+α)(u)=eiuαΦX(u).

Pour tout entier positif k, on définit le moment centré
d’ordre k, s’il existe, par

mk=ΔE([XE(X)]k)=(xE(X))k𝑑FX(x)

et les moments non centrés par

μk=ΔE(Xk).

Les moments μk peuvent se calculer à partir de la fonction
caractéristique. En effet, si ΦX(u) est dérivable à l’ordre k
on a :

ΦX(k)(0)=ikE(Xk) (37)

et si ΦX(u) admet un développement en série au voisinage de 0,
il est donné par :

ΦX(u)=k=0ukk!ikE(Xk). (38)

D’après les propriétés de la transformée de Fourier, deux V.A ayant
la même fonction caractéristique ont forcément la même loi de probabilité. Les
formules d’inversion de la transformée de Fourier permettent d’obtenir

FX(b)FX(a)=limT12πT+TΦX(u)eiuaeiubiu𝑑u. (39)

Si

|ΦX(u)|𝑑u<

alors X admet une densité de probabilité f(x) continue donnée par

f(x)=12πΦX(u)eiux𝑑u. (40)

Il est facile d’établir qu’une fonction caractéristique vérifie toujours :

i=1nj=1nΦX(uiuj)zizj0 (41)

et ceci pour toute famille finie de réels u1,u2,,un et pour toute famille finie de complexes z1,z2,,zn. Une fonction vérifiant cette propriété est dite
définie non négative.

Théorème de Bochner Une fonction continue est une
fonction caractéristique si, et seulement si, elle est définie
non négative.

Exemple 0.13.1

Fonction caractéristique d’une V.A
uniforme

Soit X une variable aléatoire réelle de densité
uniforme sur [0,π]. On définit les variables Y=cos(αX) et Z=sin(αX)α désigne un réel
fixé.

  1. 1.

    Déterminer les espérances mathématiques E(Y) et E(Z).

  2. 2.

    En déduire, sans calcul, la fonction caractéristique de X.

Comme toute fonction caractéristique est continue au voisinage de 0 et
vérifie ΦX(0)=1, il existe un voisinage Δ de 0 dans
lequel ΦX(u)0. Pour uΔ, on peut donc définir la
seconde fonction caractéristique de X par :

ΨX(u)=ΔLogΦX(u). (42)

Comme ΨX(u) est complexe, on choisit la détermination de la fonction
logarithme qui s’annule pour u=1. Si ΨX(u) est dérivable à l’ordre k on pose

ΨX(k)(0)=ΔikCk(X)

et le réel Ck(X) est appelé cumulant d’ordre k de X.
Si ΨX(u) admet un développement en série au voisinage de 0, ce
dernier est donné par :

ΨX(u)=k=0ukk!ikCk(X).
Remarque 0.13.2

Partant de la relation entre ΨX(u) et ΦX(u) et utilisant
un développement limité, on peut établir des relations entre les
cumulants Ck(X) et les moments μk d’une V.A X.

0.14 Fonction génératrice

Soit X une V.A pouvant prendre les valeurs 0,1,2,,k, avec les
probabilités p0,p1,p2,,pk, On peut associer à X sa fonction
caractéristique ΦX mais on lui préfère la fonction définie par

gX(z)=Δk=0pkzk,|z|<1

appelée fonction génératrice de la V.A X. Toute fonction génératrice
gX est holomorphe sur le disque |z|<1. En effet, comme

|k=0pkzk|k=0pk=1

la série est absolument et donc uniformément convergente sur le disque
|z|<1. La fonction génératrice peut se mettre sous la forme suivante :

gX(z)=E(zX),gX(1)=1

qui permet d’introduire les moments factoriels d’ordre n d’une V.A X.
Ces moments sont définis par :

νn[X]=E[X(X1)(Xn+1)].

Ces moments factoriels sont définis aussi bien pour une V.A discrète que
pour une V.A continue mais ils présentent un intérêt
surtout dans le cas d’une V.A à valeurs entières grâce au résultat
suivant :

νn(X)=gX(n)(1).

0.15 Lois de probabilités classiques

Loi uniforme Une V.A discrète est dite uniforme si
elle prend un nombre fini de valeurs x1,x2,,xn avec
les mêmes probabilités 1/n. Une V.A continue est dite
uniforme sur [0,a] si elle admet une densité de probabilité
définie par :

f(x)=1aIa(x)

Ia est la fonction indicatrice de [0,a]. On a :

E(X)=a2,var(X)=a212,ΦX(u)=eiua1iua.

Loi de Benoulli et loi binomiale (n,p) La loi
de Benoulli de paramètre p est la loi d’une V.A ne pouvant
prendre que deux valeurs (en général, on se ramène à 1 et
0) avec les probabilités p et q=1p. On a donc X2=X
et par suite

E(X)=p,var(X)=p(1p)=pq,ΦX(u)=peiu+q.

La loi binomiale peut être introduite de plusieurs manières différentes.
C’est la loi de la variable X égal au nombre de succés lorsqu’on répète
une même expérience n fois dans des conditions indépendantes sachant que
cette expérience conduit à deux résultats complémentaires : succés ou échec.
Introduisant cette loi en considérant une urne contenant N boules dont la
couleur est soit blanche soit noire. Soit p la proportion de boules
blanches et q=1p celle des boules noires. Supposons que l’on
effectue un tirage avec remise de n boules. Nous supposons donc que
les n tirages successifs sont des épreuves indépendantes. On définit
ainsi une V.A X prenant comme valeurs le nombre de boules blanches
tirées. La loi de X est donnée par :

P(X=k)=Cnkpkqnk,k=0,1,,n. (43)

Les probabilités P(X=k) sont données par le développement du binôme

(p+q)n=k=1nCnkpkqnk

et pour cette raison, cette loi est appelée loi binomiale de
paramètres n et p. On la note (n,p) et on a :

E(X)=np,var(X)=npq,ΦX(u)=(peiu+q)n.

Il est facile de voir que si X suit une loi (n,p), la
variable définie par Y=nX suit alors une loi (n,1p). Dans la pratique on est souvent conduit à étudier la
V.A F=Xn
appelée fréquence. Si la variable X suit
une loi binomiale (n,p), on obtient facilement

P(F=k/n)=Cnkpkqnk,k=0,,n
E(F)=p,var(F)=pqn.

La variable F prend des valeurs non entière mais suit elle aussi la loi
(n,p).

Loi multinomiale et loi du tirage exhaustif Soit une
urne contenant N boules dont les k couleurs sont
numérotées par 1,2,,k. Soit pi la porportion de
boules de couleur i,i=1,2,,k. Supposons que l’on
effectue un tirage avec remise de n boules. Nous supposons donc
que les n tirages successifs sont des épreuves
indépendantes. On définit ainsi une V.A 𝐱=(X1,X2,,Xk) prenant comme valeurs (n1,n2,,nk)
ni représente le nombre de boules de couleur i
tirées. On obtient aprés calculs :

P{X=(n1,n2,,nk)}=n!n1!n2!nk!p1n1p2n2pknk.

Cette loi est appelé loi multinomiale car P{X=(n1,n2,,nk)}
est donné par le terme général du développement suivant

(p1+p2++pk)n=n1,,nkn!n1!n2!nk!p1n1p2n2pknk.

Soit une population de N individus parmi lesquels une proportion p
possède une propriété A. On prélève un échantillon de n individus
parmi cette population (le tirage s’effectuant d’un seul coup ou au
fur-et-à-mesure
mais sans remise). Soit X la V.A prenant comme valeur le nombre d’individus
de l’échantillon possédant la propriété A. On montre alors que

P(X=k)=CNpkCNNpnkCNn (44)

et un simple calcul donne

E(X)=np,var(X)=NnN1np(1p).

Loi de Poisson de paramètre λ : 𝒫(λ) C’est la loi d’une V.A entière pouvant prendre les
valeurs 0,1,, avec les probabilités suivantes :

P(X=k)=eλλkk!,k. (45)

Un calcul simple donne

E(X)=λ,var(X)=λ,gX(z)=eλ(z1),ΦX(u)=eλeλeiu.
Exemple 0.15.1

Loi de Poisson pondérée

Déterminer la fonction génératrice d’une V.A à valeurs entières pour laquelle les pk
sont donnés par:

pk=0euunn!ϵ(u)𝑑u,avecϵ(u)=1aeua

On a

g(s) = n=00euunn!(1s)nϵ(u)𝑑u=0eueu(1s)ϵ(u)𝑑u
= 0eus1aeua𝑑u=1a0eu(s+1a)𝑑u=1a[eu(s+1a)s1a]0=11+as

Loi exponentielle de paramètre λ : (λ) Cette loi est définie par

f(x)=λeλx pour x0 et =0 pour x<0

On a :

E(X)=1/λ,var(X)=1/λ2,ΦX(u)=λiuλ.

Loi de Laplace-Gauss ou loi normale : 𝒩(m,σ) Cette loi joue un rôle fondamental dans la pratique.
Elle constitue un modèle fréquemment utilisé dans diverses
applications. Une V.A X suit une loi normale si sa densité de
probabilité est donnée par

fX(x)=1σ2π exp{(xm)22σ2}. (46)

Si X suit la loi normale 𝒩(m,σ), on montre que

E(X)=m,var(X)=σ2,ΦX(u)=eimue12u2σ2.

Si on effectue le changement de variable

T=h(X)=Xmσ

la nouvelle variable T suit aussi une loi 𝒩(0,1) appelée loi normale
centrée et réduite et on a :

fT(t)=12πet2/2.

La graphe de
fT, appelé courbe en cloche, admet comme asymptote l’axe des
abscisses tt et deux points d’inflexion aux points t=ñ1
(voir graphe de fT à la fin de ce chapitre). La fonction
caractéristique de la variable réduite T est donnée par :

ΦT(u)=eu2/2.

La probabilité pour que X appartienne à l’intervalle [a,b] est donnée
soit par

P(X[a,b])=abfX(x)𝑑x

soit par :

P(X[a,b])=P(T[amσ,bmσ]).

Dans la pratique, on introduit la fonction de répartition de T
et on utilise des tables pour calculer les valeurs de cette
fonction.

0.16 Couple aléatoire

0.17 Statistiques à 2 dimensions

Nous considérons une population Ω d’effectif total N et
dont chaque élément présente deux caractères X et Y.
Soit, par exemple, un ensemble Ω d’individus dont on veut
étudier la taille X et le poids Y. A chaque individu
ω on associe la valeur de sa taille x=X(ω) et de
son poids y=Y(ω). Dans la pratique, on peut supposer que
x et y appartiennent respectivement aux intervalles [a,b]
et [c,d]. On subdivise alors [a,b] en r sous-intervalles
de même amplitude et on appelle x1,x2,,xi,,xr les centres de ces intervalles. La même opération sur
[c,d] conduit à s sous-intervalles de même amplitude dont
les centres sont y1,y2,,yj,,ys. Au lieu
d’associer à chaque individu ω, le couple (x,y), on
convient de lui associer le couple (xi,yj) défini par les
centres des intervalles contenant respectivement x et y. Ainsi
un même couple (xi,yj) peut être associé à plusieurs
individus ω. On appelle série statistique double de
Ω pour les caractères X et Y l’application qui à
chaque élément ω de Ω associe le couple (xi,yj). Si, par rapport à un repère cartésien xoy, nous
marquons les points de coordonnées xi,yj, nous obtenons un
graphique appelé nuage de points ou « graphe » de la série
statistique double. Soit une série statistique double, dont le
caractère X a pour valeurs x1,x2, , xi,,xr et le caractère Y a pour valeurs y1,y2,,yi,,ys. On appelle effectif partiel du couple
(xi,yj) le nombre nij des éléments ω de la
population Ω dont les valeurs des caractères sont
respectivement xi et yj. Nous obtenons le tableau
1.

xy y1 y2 yj ys Totaux
x1 n11 n12 n1j n1s n1.
x2 n21 n22 n2j n2s n2.
xi ni1 ni2 nij nis ni.
xr nr1 nr2 nrj nrs nr.
Totaux n.1 n.2 n.j n.s N
Table 1: Statistique à 2 dimensions

Les fréquences partielles sont définies par :

fij=nijNavec0fij1,eti=1rj=1sfij=1.

La somme des effectifs partiels contenus dans la ligne de xi
est
égale à l’effectif des éléments dont la valeur du
caractère X est xi. On représente par le symbol
ni. cette somme, le point remplaçant l’indice de
sommation j qui disparait. Les nombres ni. sont appelés
effectifs marginaux et ils vérifient :

ni.=j=1snij,i=1,2,,r.

On appelle fréquence marginale de xi,i=1,2,,r, le rapport

fi.=ni.N.

On suppose que tous les effectifs marginaux sont
différnts de 0 et on appelle fréquence conditionnelle de la valeur
xi sachant yj, le nombre noté fi|j donné par :

fi|j=nijn.j=fijf.j.

On obtient la relation relation suivante qui relie
les trois types de fréquence :

fij=f.jfi|j.

Inversant les rôles de i et j, on obtient:

fj|i=fijfi.etfij=fi.fj|i.

Comme les fréquences conditionnelles vérifient :

0fi|j1,0fj|i1eti=1rfi|j=j=1sfj|i=1

les nombres fi|j pour j fixé (res. fj|i
pour i fixé) définissent des distributions de probabilité,
appelées probabilités conditionnelles du caractère X
sachant Y=yj (res. du caractère Y sachant X=xi).

0.18 Loi conjointe, loi marginale et loi conditionnelle

Dans ce qui précède, nous avons introduit une application qui associe à
chaque élément ω le couple (x,y)=(xi,yj) de 2 et
le nombre fij compris entre 0 et 1 et tel que les fij vérifient
(LABEL:4-3). On a ainsi défini une variable aléatoire
sur 2 à partir des
probabilités associées à toutes les valeurs possibles
du couple (x,y).
On remarque que la connaissance des deux V.A X et Y est
insuffisante pour déterminer la loi du couple (X,Y).
Considérons une population Ω
d’effectif total pouvant être fini, dénombrable ou non
dénombrable. Chaque élément ω présente deux caractères
X et Y. Chacun des deux caractères X et Y peut être
considéré comme une V.A et l’on se propose de faire une étude
conjointe du couple (X,Y). Soient deux V.A X et Y
définies sur le même espace probabilisé (Ω,𝒯,P).
Ces variables sont donc des fonctions mesurables de Ω sur
associant à tout élément ω de Ω un couple de
réels (x,y)={X(ω),Y(ω)}. La variable
aléatoire (X,Y) à deux dimensions est définie par

(X,Y):(Ω,𝒯,P)(2,𝔹2) (47)

B2 représente la tribue de Borel sur 2.

Loi conjointe La loi de probabilité conjointe d’un couple
aléatoire est la loi qui donne la probabilité, notée
PXY, du couple (X,Y). Elle est définie par la
connaissance, pour tout (A1,A2)𝔹2, des
probabilités :

PXY{(X,Y)(A1,A2)}=P{ωX1(A1)Y1(A2)}. (48)

Les ensembles de valeurs de (X,Y) qui n’ont pas
d’antécédent ont donc une probabilité nulle.

Fonction de répartition La fonction de répartition d’un
couple aléatoire est la fonction de 2 dans [0,1]
définie par

FXY(x,y)=PXY(Xx,Yy). (49)
Proposition 0.18.1

La fonction FXY(x,y) est une fonction de répartition si,
et seulement si, elle est non décroissante par rapport aux
variables x et y et vérifie:

FXY(,)=0,FXY(+,+)=1
FXY(x,y)=FXY(x,y)

x et y désignent les limites par valeurs inférieures.

La loi de probabilité est une mesure de masse totale 1 définie
sur 2 et la fonction de répartition FXY(x,y) donne la
valeur de cette mesure sur le quart de plan ],x]×
],y] comme l’indique la relation :

FXY(x,y)=xy𝑑PXY(u,v). (50)

Si la fonction FXY(x,y) est absolument continue sur 2,
i.e., il existe une fonction fXY telle que

FXY(x,y)=xyfXY(u,v)𝑑u𝑑v (51)

le couple aléatoire (X,Y) est dit absolument continu et la fonction
fXY est appelée densité de probabilité conjointe de (X,Y). La
fonction FXY est alors dérivable en tout point (x,y), sauf en un
ensemble fini ou dénombrable de points, et l’on a

2FXYxy=fXY(x,y). (52)

Comme FXY est non décroissante par rapport à x et y, on peut en
déduire que

fXY(x,y)0(x,y)2. (53)

Dans le cas où (X,Y) ne peut prendre qu’un nombre fini ou dénombrable de
valeurs (xi,yj) avec des probabilités ponctuelles Pij=PXY(X=xi,Y=yj), le couple est dit discret. On lui associe alors la densité définie
par la distribution suivante :

fXY(x,y)=xix,yjyPijδ(xxi,yyj) (54)

δ(xxi,yyj) est la distribution de Dirac à deux
dimensions.

D’une manière générale, un couple (X,Y) est défini par la
donnée d’une fonction de répartition. A cette fonction, on peut
associer une densité de probabilité égale à
la somme d’une composante continue et d’une autre composante discrète.
Soit :

dFXY(x,y)={fXY(x,y)+xix,yjyPijδ(xxi,yyj)}dxdy (55)

où les Pij sont tous nuls pour un couple continu et fXY(x,y) est
identiquement nulle pour un couple discret. La fonction de répartition s’écrit
donc

FXY(x,y)=xyfXY(u,v)𝑑u𝑑v+xix,yjyPij. (56)

Si (X,Y) est absolument continu, on a forcément
P{X=x}=0 et P{Y=y}=0 pour tout x et tout
y. Une simple observation du graphe représentant le
rectangle R={(x,y)/ax<b,cy<d} conduit à la relation :

P(R) = F(b,d)F(a,d)F(b,c)+F(a,c)
= abcd𝑑PXY(u,v)=abcdfXY(u,v)𝑑u𝑑v.

Cette probabilité peut donc être représentée par un volume
du prisme compris entre le plan xoy et la surface d’équation
z=fXY(u,v).

Lois marginales On peut s’intéresser à la projection de
la probabilité PXY sur chacune des coordonnées X et
Y. On définit alors les fonctions de répartition des
variables X et Y prises indépendemment l’une de l’autre. Ces
fonctions, appelées aussi fonctions de répartition marginales,
ont pour expressions :

FX(x)=FXY(x,+)=x+𝑑PXY(u,v) (57)

et

FY(y)=FXY(+,y)=y+𝑑PXY(u,v). (58)

Ce sont des fonctions d’une seule variable : x ou y. Pour un couple
continu, les densités de probabilité (appelées densités marginales)
s’introduisent alors naturellement comme suit :

fX(x)=dFX(x)dx=+fXY(x,y)𝑑y (59)

et

fY(y)=dFY(y)dy=+fXY(x,y)𝑑x. (60)

Loi conditionnelle Pour mesurer un lien éventuel pouvant
exister entre deux V.A X et Y, on introduit le concept de lois
de probabilités conditionnelles. Il s’agit de trouver la loi de
probabilité d’une V.A lorsque la seconde a une valeur fixée.
On se place directement dans le cas d’un couple continu. Soit A
et B les événements définis par :

A={(X,Y)/xX<x+dx et <y<+}

et

B={(X,Y)/yY<y+dy et <x<+}.

On a

PXY(A)=dx+fXY(x,y)𝑑yetPXY(B)=dy+fXY(x,y)𝑑x
PXY(AB)=fXY(x,y)dxdy.

Le théorème sur les probabilités conditionnelles conduit à la définition de la
probabilité de X conditionnellement à Y=y comme suit :

PXY(A|B)=PXY(AB)PXY(B)=fXY(x,y)+fXY(x,y)𝑑xdx. (61)

On définit alors la densité de probabilité de X
conditionnellement à Y=y, notée fX|Y=y(x), de sorte que :

PXY(A|B)=ΔfX|Y=y(x)dx=fXY(x,y)+fXY(x,y)𝑑xdx. (62)

Pour Y=y fixé, le couple (X,y) est une V.A dont la
densité de probabilité est donnée par fX|Y=y(x).
On introduit aussi la fonction de répartition conditionnelle
définie par

FX|Y=y(x)=xfX|Y=y(u)𝑑u.

Inversant les rôles de X et Y, on définit la densite
fY|X=x(y) et la fonction de répartition FY|X=x(y) de Y.

Espérance mathématique et loi conjointe L’espérance
d’une V.A X se calcule à partir de la loi conjointe du couple
(X,Y) comme suit :

E(X) = x𝑑FX(x)=x𝑑FXY(x,y)
= xfXY(x,y)𝑑x𝑑y Pour un couple continu
= i,jxiPij Pour un couple discret.
Proposition 0.18.2

Pour tout couple aléatoire (X,Y) et tout couple de scalaire
(α,β) on a

E[(αX+βY)]=αE(X)+βE(Y). (64)

0.19 Variables aléatoires indépendantes

Deux V.A réelles définies sur le même espace (Ω,𝒯,P) sont dites
indépendantes si (A,B)𝔹2, on a :

PXY({XA}){YB})=PX(XA).PY(YB) (65)

ceci équivaut à dire que la loi de probabilité du couple (X,Y) est égale au
produit des lois (lois marginales) de chacune des variables X et Y prises
séparément.

Proposition 0.19.1

Deux V.A (X,Y) sont indépendantes si, et seulement
si, la fonction de répartition du couple (X,Y) est égale au produit des
fonctions de répartition marginales de X et Y, i.e.

FXY(x,y)=FX(x)FY(y). (66)

Comme conséquence directe de la définition, on peut établir que si
X et Y sont deux V.A indépendantes, on a :

E(XY)=E(X)E(Y). (67)

0.20 Fonction de deux variables aléatoires

Cas d’une fonction quelconque Soit une fonction
déterministe h de 2 dans 2 définie par

h:(X,Y)(Z,T)=h(X,Y) (68)

On dit que le couple aléatoire (Z,T) est l’image par h du couple h:(X,Y). Comme dans le cas d’une V.A, on peut être conduit à déterminer la densité
de probabilité fZT et la fonction de répartition FZT de (Z,T) à
partir de la densité fXY et de la fonction de répartition FXY
de (X,Y).

Proposition 0.20.1

Si la V.A Z est définie par Z=h(X,Y), son
espérance peut se calculer de deux manières différentes comme suit :

E(Z)=Δ+z𝑑FZ(z)=++h(x,y)𝑑FXY(x,y). (69)

Ce résultat est la généralisation au cas d’un couple du
théorème déjà établi pour une V.A. Il permet de calculer
l’espérance de Z directement à partir de la loi du couple
(X,Y) et sans passer par la détermination de la loi de Z.

Somme et produit de deux V.A, inverse d’une V.A On va
déterminer la loi de la V.A définie par Z=X+Y en
fonction de celle du couple (X,Y) dans le cas général où
les variables ne sont pas forcément indépendantes. Nous
considérons directement le cas d’un couple continu, le cas
discret pouvant être traîté d’une façon similaire.
Nous allons faire ce calcul de deux manières différentes. La
première consiste à introduire la fonction déterministe h
de 2 dans 2, définie par :

h(X,Y)=(Z=X+Y,W=Y)

calculer ensuite la densité fZW en fonction de fXY et
déterminer
enfin la densité fZ de Z comme densité marginale. La deuxième méthode
consiste à calculer directement la fonction de répartition FZ de Z et
d’en déduire ensuite fZ en dérivant par rapport à Z.

Méthode 1 L’expressionde h(X,Y) peut s’inverser et
conduire à la solution unique X=ZW,Y=W. Comme le
Jacobien de l’application (67) vérifie J(x,y)=1
pour tout (x,y), l’application h est inversible et tout
élément de surface infinitésimale dS=dxdy centré en
(x,y) se transforme en un élément dΣ=dzdw centré
en (z,w) et réciproquement. Les probabilités associées
à dS et dΣ sont les mêmes et l’on a

fZW(z,w)|dΣ|=fXY(x,y)|dS|=fXY(zw,w)|dS|.

Comme les deux surfaces dS et dΣ vérifient |dΣ|=|J(x,y)||dS|=|dS|, on obtient

fZW(z,w)=fXY(zw,w).

La densité de Z, définie en tant que densité marginale, est donnée par

fZ(z)=+fXY(zw,w)𝑑w. (70)

Méthode 2 On commence par calculer la fonction de
répartition :

FZ(z)=P{(x,y)/x+yz}=+zyfXY(x,y)𝑑x𝑑y.

La dérivation de FZ(z) sous le signe intégral, par rapport
à z, conduit immédiatement à l’expression de fZ obtenue
ci-dessus. Si les V.A X et Y sont indépendantes, la
densité fXY se factorise et on obtient:

fZ(z)=+fX(zy)fY(y)𝑑y.
Proposition 0.20.2

La densité de la somme de deux V.A indépendantes est
égale au produit de convolution des densités de chacune des deux V.A.

On peut vérifier facilement les résultats suivants:

  1. 1.

    La somme des deux V.A de Poisson indépendantes de
    paramètres λ1 et λ2 est une V.A de Poisson de paramètre
    λ1+λ2.

  2. 2.

    La somme de deux V.A binomiales indépendantes de
    lois (n,p1) et (n,p2) est une V.A binomiale (n,p1+p2).

  3. 3.

    La somme de deux V.A gaussiennes (normales) indépendantes de lois
    𝒩(m1,σ12) et 𝒩(m2,σ22) est une V.A gaussienne de loi 𝒩(m1+m2,σ12+σ22). On verra plus loin que la somme
    de n V.A
    gaussiennes dans leur ensemble est aussi une V.A gaussienne même si
    ces V.A sont liées. Mais dans ce dernier cas la variance de la somme
    n’est plus égale à la somme des variances.

Exemple 0.20.3

Indépendance de V.A uniformes sur un rectangle

Soit (X,Y) uniforme sur le carré [0,1]×[0,1]. On peut
vérifier facilement que X et Y sont indépendantes et donc
la densité fZ de Z=X+Y est égale au produit de
convolution:

fZ(z)=+fX(zw)fY(w)𝑑w.

C’est donc le produit de convolution de la fonction indicatrice de
l’intervalle [0,a] par elle-même. On obtient la fonction
triangle symétrique de support [a,a] et qui admet (0,a)
comme sommet.

Exemple 0.20.4

: Mise en série de deux résistances

On considère deux résistances Ri,i=1,2. On suppose que
R1 et R2 sont deux variables aléatoires indépendantes et que chaque Ri a une loi uniforme sur
l’intervalle [miΔR,mi+ΔR], m2>m1.

  1. 1.

    Exprimer l’espérance et l’écart type de Ri en fonction de mi et de
    ΔR.

  2. 2.

    On s’intéresse à la mise en série des résistances Ri,i=1,2. Donner la
    densité de probabilité fs(ω) de la résistance Rs=R1+R2 et
    tracer son graphe.

La loi du produit de deux V.A peut être établie à partir de la loi
conjointe en suivant la démarche adoptée pour établir la loi d’une
somme. On sait que si les 2 V.A sont indépendantes, cette loi est
égale au produit des lois de chacune des 2 V.A. Dans le cas général, on
n’a pas d’expression explicite. Donnons maintenant sur un exemple la
façon de traiter l’inverse d’une V.A.

Exemple 0.20.5

: Mise en parallèle de deux résistances

On considère deux résistances Ri,i=1,2. On suppose que
R1 et R2 sont deux variables aléatoires indépendantes et que chaque Ri a une loi uniforme sur
l’intervalle [miΔR,mi+ΔR], m2>m1. On
s’intéresse à la mise en parallèle des résistances Ri,i=1,2. On suppose que ΔRi/Ri<<1 (résistances de bonne
qualité). Donner des expressions simplifiées pour les
densités suivantes.

  1. 1.

    Densité de Xi=1/Ri

  2. 2.

    Densité de 1/Rp=1/R1+1/R2.

  3. 3.

    Densité de Rp.

0.21 Covariance et coefficient de corrélation

Comme dans le cas d’une V.A à une dimension, la variance de la V.A X est
définie par

var(X)=E([XE(X)]2)=E[(X)2][E(X)]2 (71)

et l’on a une expression analogue pour la variable Y. Mais les
grandeurs E(X),E(Y),var(X) et var(Y) ne permettent pas
de mesurer un lien éventuel pouvant exister entre X et Y. On
introduit alors la nouvelle quantité, appelée covariance de
X et Y, définie par :

Cov(X,Y)=E{[XE(X)][YE(Y)]}. (72)

On peut vérifier, directement à partir de sa définition, que l’opérateur
Cov(X,Y) possède les propriétés suivantes :

Cov(X,X)=var(X)
Cov(X,Y)=Cov(Y,X)
Cov(αX,βY)=αβCov(X,Y)
Cov(X,Y)=E(XY)E(X)E(Y).

L’espérance E{[X+aY]2} est un polynôme de degré 2 par rapport à
la variable a. Comme ce polynôme ne prend que des valeurs non
négatives lorsque a varie sur , on peut en déduire
l’inégalité
suivante (Inégalité de Schwarz) :

|Cov(X,Y)|2|Cov(X,X)||Cov(Y,Y)|. (73)

Cette inégalité montre que le nombre

r=ΔCov(X,Y)var(X)Var(Y))=Cov(X,Y)σXσY (74)

appelé coefficient de corrélation linéaire de (X,Y), vérifie

1r1. (75)

Deux V.A X et Y sont dites non corrélées si elles vérifient la
propriété suivante :

Cov(X,Y)=0. (76)

On dit aussi que les deux V.A sont orthogonales. Il est facile de voir que X
et Y sont non corrélées si, et seulement si, r=0. On admet que
plus la valeur absolue de r est proche de 1, plus les V.A sont
corrélées. Donc plus r est proche de 0, plus les V.A sont
décorrélées et elles sont orthogonales pour r=0. Deux V.A
indépendantes sont forcément non corrélées et ceci pour toute loi de
probabilité. La réciproque est fausse pour une loi de probabilité
quelconque mais peut être vraie pour certaines lois particulières comme
la loi de Gauss. Cependant la non corrélation conduit au résultat
suivant important dans la pratique : si deux V.A X et Y sont non
corrélées, on a pour tout couple (α,β) de nombres réels :

var(αX+βY)=α2var(X)+β2var(Y). (77)

Le coefficient de corrélation entre X et Y représente
le cosinus de l’angle formé par les vecteurs XE{X} et YE{Y}. Un coefficient de corrélation nul exclut l’existence de
relation linéaire entre X et Y mais n’exclut pas l’existence
d’autres types de relations.

Dans la pratique, la notion d’indépendance est difficile à vérifier et
on préfère se limiter à savoir si deux V.A sont plus ou moins
corrélées. L’étude d’un couple aléatoire se fait donc souvent, de
manière incomplète, à partir de la seule connaissance de la matrice
définie par :

Γ=Δ[var(X)Cov(Y,X)Cov(X,Y)var(Y)]. (78)

Cette matrice symétrique, dénommée matrice de covariance ou
matrice de corrélation du couple aléatoire est complètement déterminée
par les moments du second ordre du couple (X,Y). Elle possède des
propriétés importantes qui seront énoncées plus loin dans le cas
général d’un vecteur aléatoire.

Exemple 0.21.1

: V.A non corrélées et dépendantes

On considère le couple aléatoire (X1,X2) uniformément
réparti à l’intérieur d’un cercle de rayon R et centré
à l’origine des coordonnées. Les densités marginales sont
données par:

fXi(x)=2R2xi2πR2(i=1,2).

On vérifie que fX1fX2fX1X2 et les varibles
X1 et X2 ne sont donc pas indépendantes. Un calcul simple
conduit à E(X1)=E(X2)=E(X1X2)=0 et donc les
variables sont corrélées.

Exemple 0.21.2

: V.A corrélées et indépendantes

Les deux V.A (X,Y) de densité conjointe :

fXY(x,y)=k(1+x2)(1+y2)

sont évidemment indépendantes et un calcul simple montre
qu’elles sont corrélées.

0.22 Fonction caractéristique d’un couple aléatoire

On appelle fonction caractéristique d’un couple aléatoire (X,Y)
la fonction de 2 dans définie par

(u,v)2ΦXY(u,v)=E[ei(uX+vY)]. (79)

On a donc

ΦXY(u,v) = ei(ux+vy)𝑑FXY(x,y)
= ei(ux+vy)fXY(x,y)𝑑x𝑑y Pour un couple continu
= i,jei(uxi+vyj)Pij Pour un couple discret.

La fonction caractéristique est la transformée de Fourier de la
densité de probabilité du couple aléatoire. Elle possède donc des
propriétés importantes qui ne seront pas développées ici. Par exemple,
deux V.A X et Y sont indépendantes si, et seulement si, la fonction
caractéristique du couple (X,Y) est égale au produit de celles de X et
Y, i.e.,

ΦXY(u,v)=ΦX(u)ΦY(v). (81)

0.23 Espérance et variance conditionnelles et totales

Soit Y une V.A réelle et X une V.A pouvant être
qualitative. Pour une valeur X=x fixée (ou une situation possible dans le
cas où X est qualitative), le couple (X,Y) se réduit à la V.A (x,Y).
L’espérance mathématique de (x,Y) est une fonction à valeurs réelles
de la variable x :

h(x)=ΔE(Y|X=x). (82)

Cette fonction est donc une V.A qui
prend les valeurs h(x) avec les probabilités P(X=x). Cette V.A est
appelée espérance conditionnelle de Y sachant X. On la note
E(Y|X) et l’on a :

E(Y|X)=Δh(X)=Δ+yfY|X=x(y)𝑑y. (83)

On définit de la même manière l’espérance conditionnelle de X sachant Y
par

E(X|Y)=Δk(Y)=Δ+xfX|Y=y(x)𝑑x. (84)

Si X1,X2 et Y sont trois V.A définies sur le même espace probabilisé et
(α,β) un couple de réels, la définition de l’espérance conditionnelle
conduit à la relation suivante :

E[(αX1+βX2)|Y]=αE(X1|Y)+βE(X2|Y). (85)

Théorème de l’espérance totale Si X et Y sont deux
V.A définies sur le même espace probabilisé alors
l’espérance de Y, appelée espérance totale, est donnée
par

E(Y)=E[E(Y|X)]. (86)

La démonstration de ce résultat important est donné ci-dessous, dans la
cas d’un couple continu. On a :

E(Y) = y[fXY(x,y)𝑑x]𝑑y
= [yfY|X=x(y)𝑑y]fX(x)𝑑x
= E(Y|X=x)fX(x)𝑑x=E[E(Y|X)].

Théorème de la variance totale Si X et Y sont deux
V.A définies sur le même espace probabilisé alors la
variance de Y, appelée variance totale, est donnée par:

var(Y)=V[E(Y|X)]+E[var(Y|X)]. (87)

var(Y|X)=ΔE{[YE(Y|X)]2|X}

est appelée variance conditionnelle.

On introduit parfois le nombre ρX|Y, appelé
rapport de corrélation de X en Y, défini par :

ρX|Y2=ΔV[E(X|Y)]V[X]. (88)

Ce nombre vérifie 1ρX|Y1. Si
ρX|Y2=1, alors X est reliée à Y par une
relation
fonctionnelle au sens de l’analyse classique.

Si ρX|Y2=0, alors E(X|Y) est égal à
une constante avec une probabilité 1.

En effet, si ρX|Y2=1, alors on a E[var(X|Y)]=0, i.e. var(X|Y)=0 avec une probabilité 1.
Pour Y fixé, la V.A X ne prend qu’une seule valeur
X=Φ(Y). Le rapport ρX|Y2 est donc maximal
(=1) si X est reliée à Y par une relation fonctionnelle
au sens de
l’analyse classique.

Si ρX|Y2=0, alors on a V[E(X|Y)]=0, i.e.
E(X|Y) est égal à une constante avec une probabilité 1. On dit qu’il y a
absence de dépendance en moyenne entre X et Y.

0.24 Espérance conditionnelle et projection

Nous allons donner une interprétation des grandeurs associées à un couple aléatoire en se
plaçant directement dans le cas des V.A complexes.
Un couple (X,Y) à valeurs complexes est une application d’un espace
probabilisé sur l’ensemble des nombres complexes 2 dont chacune
des deux composantes X et Y est une V.A à valeurs complexes.
Rappelons que X est une V.A à valeurs complexes si ses parties réelle
et imaginaire sont des variables aléatoires réelles.
Soit 𝔼 l’ensemble des V.A réelles
ou complexes définies sur le même espace probabilisé (Ω,𝒯,P) pour
lesquelles

<X,Y>=ΔE{XY¯}<. (89)

Considérons sur 𝔼 la relation d’équivalence X=Y ssi X=Y avec
une probabilité 1, c’est-à-dire la probabilité de l’ensemble
des ω pour lesquels X(ω)Y(ω) est nulle.
L’ensemble, dénommé L2(P), de toutes les classes d’équivalence ainsi
définies est un espace vectoriel complet pour la topologie définie par
la norme

X2=ΔE(|X|2). (90)

En effet, il est facile de vérifier que (90) définit bien une norme
puisque

E(|X|2)=0X=0 sur L2(P). (91)

L’ensemble L2(P) est donc un espace de Hilbert et il appelé
ensemble des V.A de carré sommable ou d’ordre deux. La
définition de la covariance d’un couple aléatoire complexe
généralise comme suit :

Cov(X,Y)=ΔE[{XE(X)}{Y¯E{Y¯}]. (92)

Z¯ désigne le complexe conjugué de Z. L’écart type et la
covariance sont donc la norme et le produit scalaire des V.A centrées.

Proposition 0.24.1

L’ensemble des V.A constantes
(nombres déterministes) est une droite vectorielle D de L2(P).
L’opérateur qui à une V.A X de L2(P) associe le nombre scalaire
E(X) est l’opérateur projection orthogonale sur D.

Ce résultat est une conséquence directe du fait que le minimum de
E{(Xa)2} est atteint pour a=E(X).

Proposition 0.24.2

Soit LY2(P) le sous-espace vectoriel de L2(P) formé par les V.A qui
sont fonction de la V.A fixée Y. Alors, l’espace LY2(P) est convexe et
contient la droite des constantes D. C’est un sous-espace de Hilbert
fermé et l’opérateur projection orthogonale sur LY2(P)
est définie par :

ΠY(X)=ΔE(X|Y). (93)

Les V.A Y et XE(X|Y) sont orthogonales.

Démontrons à titre d’exemple que l’opérateur ΠY
vérifie les deux propriétés suivantes (c’est donc un
projecteur):

ΠYΠY(X)=ΠY(X) (opérateur idempotent)
<Z,ΠY(X)>=<ΠY(Z),X> (opérateur auto-adjoint).

La première propriété est évidente d’après la
définition de l’espérance conditionnelle. La deuxième
propriété s’obtient en utilisant le théorème de
l’espérance totale. On a en effet :

E{ZE(X|Y)}=E{E[ZE(X|Y)|Y]}=E{E(X|Y).E(Z|Y)}

et ceci prouve la propriété par symétrie.

Remarque 0.24.3

Le théorème de la variance totale s’interprète comme le théorème de
Pythagore appliqué au triangle dont les cotés sont XE(X),
XE(X|Y) et E(X), E(X|Y)E(X) qui est rectangle en
E(X|Y). En effet, on a :

var(X) =Δ E(X|Y)E(X)2+XE(X|Y)2
= V[E(X|Y)]+E{[XE(X|Y)]2}
= V[E(X|Y)]+E[E{[XE(X|Y)]2}|Y]
= var(E(X|Y))+E{var(X|Y)}.

0.25 Vecteur Aléatoire

0.26 Passage d’un couple à un vecteur aléatoire

L’étude de la loi de probabilité d’une V.A X1 peut dépendre de la
connaissance des valeurs prises par d’autres V.A X2,X3,,Xn.
Pour faire cette étude, il faut connaître en premier lieu la distribution de
probabilité du n-uplet (X1,X2,,Xn) qui est une application
mesurable de (Ω,𝒯,P) dans n. D’où la notion de
vecteur aléatoire. Associons aux n V.A
X1,X2,,Xn, définies sur le même espace
probabilisé (Ω,𝒯,P), le n-uplet

𝐱=Δ(X1,X2,,Xn)T (95)

appelé variable aléatoire à n dimensions ou
vecteur aléatoire à n composantes.
La loi de probabilité d’un vecteur aléatoire est la loi qui donne la
probabilité, notée P𝐱, pour que 𝐱 prenne ses valeurs
dans un sous-ensemble quelconque de n. Cette loi est définie
naturellement par :

P𝐱{(X1,X2,,Xn)(A1,A2,,An)}
=ΔP{X11(A1)X21(A2)Xn1(An)} (96)
=ΔP({ω}/Xi(ω)Ai,i=1,,n) (97)

et ceci pour toute partie A1××An de n.

Proposition 0.26.1

La loi d’un vecteur aléatoire 𝐱 est complètement déterminée à
partir de l’application
de n dans [0,1] définie par

F𝐱(x1,x2,,xn)=P𝐱(X1x1,X2x2,,Xnxn). (98)

Cette application est appelée fonction de répartition de 𝐱.

L’espérance mathématique d’un vecteur aléatoire est le vecteur
certain de n défini par :

𝐦=ΔE(𝐱)=Δ{E(X1),E(X2),,E(Xn)}T. (99)

Un vecteur aléatoire est dit centré s’il vérifie la condition

E(𝐱)=𝟎. (100)

0.27 Fonction de plusieurs variables aléatoires

Soit une fonction déterministe 𝐡 de n dans m
définie par

𝐡:(X1,,Xn)(Y1,,Ym). (101)

Si les Xi désignent des V.A, alors chaque Yi est une V.A
monodimensionnelle, Yi=hi(X1,,Xn), fonction des V.A
X1,,Xn. Comme dans le cas d’un couple
aléatoire, on a le théorème suivant.

Proposition 0.27.1

Si la V.A Yi est définie par Yi=hi(X1,,Xn), son espérance peut se calculer à partir de la
loi conjointe de (X1,,Xn) comme suit :

E(Yi)=Δnhi(x1,,xn)𝑑PX1Xn(x1,,xn). (102)

Ce résultat généralise les théorèmes déjà énoncés pour une V.A et pour
un couple. Les notions de densités conjointes, de lois marginales
et de lois conditionnelles, introduites pour un couple aléatoire,
se généralisent également de manière naturelle aux vecteurs
aléatoires.
La loi d’un vecteur aléatoire se rattache à celle d’une V.A comme le
précise le résultat important suivant.

Proposition 0.27.2

La loi de probabilité d’un vecteur aléatoire
𝐱 est entièrement déterminée par celles de toutes
les combinaisons
linéaires des composantes de 𝐱. Elle est donc déterminée par
l’application
de n dans
définie par :

𝐮nΦ𝐱(𝐮)=ΔE[ei𝐮T𝐱] (103)

et dénommée fonction caractéristique du vecteur 𝐱.

Exemple 0.27.3

Soit Xi,i=1,2,,n, une suite de n V.A
de Bernoulli indépendantes et de même paramètre p. La loi de
probabilité de la variable définie par

X=k=1nXi (104)

est une loi (n,p). Démontrer que la
fonction caractéristique ΦX(u) de X est égale au produit de
celles des Xi. En déduire que

ΦX(u)=(peiu+q)n (105)
Exemple 0.27.4

Loi d’une somme aléatoire de V.A
indépendantes

On considère N V.A, X1,,XN définies sur le même
espace probabilisé, indépendantes et de même loi (iid). On
suppose que N est aussi une VA. On se propose d’exprimer la
fonction caractéristique de la nouvelle VA :

Y=Δk=1NXk. (106)

On obtient en appliquant le théorème de l’espérance totale :

ΦY(u) = E{E[eiuk=1NXk]|N}=E{k=1NE[eiuXk|N]}
= E{ΦX(u)N}=E{ej(jLog[ΦX(u)]N)}
= ΦN(jLog[ΦX(u)]).

0.28 Indépendance statistique et orthogonalité

Les composantes de 𝐱 sont dites statistiquement indépendantes
dans leur ensemble si la fonction caractéristique
définie par (107) est égale au produit des fonctions
caractéristiques de chacune des composantes de 𝐱, i.e.,

Φ𝐱(𝐮)=i=1nΦXi(ui). (107)

L’indépendance ainsi définie est difficile à vérifier dans la pratique.
On se limite souvent à l’information contenue dans les moments
d’ordre 2 des composantes de 𝐱. On introduit alors la
matrice de variance-covariance (ou matrice de covariance) définie par :

Γ𝐱=ΔE{[𝐱E(𝐱)][𝐱E(𝐱)]T}. (108)

Cette matrice est complètement déterminée par les moments d’ordre
2 associés au vecteur 𝐱 et joue un rôle important dans les
applications pratiques. Si les composantes de
𝐱 sont des V.A réduites, i.e. des V.A de variances égales à
l’unité, la matrice de covariance de 𝐱 est appelée
matrice de corrélation. Par abus de langage, on ne fait pas de
distinctions entre matrice de corrélation et matrice de covariance. Si
𝐱 a des composantes réelles, la matrice Γ𝐱 est
symétrique et elle est hermitienne dans le cas où les composantes sont
complexes. Dans les deux cas, Γ𝐱 vérifie la propriété
suivante ( matrice définie non négative) : .

i,j=1nλiλ¯jγij0,λi (109)

où les γij représentent les éléments de Γ𝐱.
En effet, si Z est la V.A complexe définie par

Z=Δi=1nλiXi (110)

où les λi sont des nombres complexes arbitraires, on a  :

E[|Z|2]=i,j=1nλiλ¯jγij0,λi (111)

puisque l’espérance E[|Z|2] est forcément non négative.

Proposition 0.28.1

Une condition nécessaire et suffisante pour
qu’une matrice soit une matrice de covariance d’un
vecteur aléatoire est qu’elle soit définie non négative.

Les n V.A X1,X2,,Xn sont dites non corrélées si la matrice de
corrélation du vecteur 𝐱 ayant pour composantes les Xi est une
matrice diagonale. Soit

X1,X2,,Xn: non corréléesssiCov(Xi,Xj)=0 pour ij.
Remarque 0.28.2

Il n’y a pas de distinction entre la non corrélation deux à
deux et la non corrélation tout court. Par contre, des V.A indépendantes
deux à deux ne sont pas forcément indépendantes dans leur ensemble.

Variance d’une somme de V.A non corrélées La variance
d’une somme de V.A non corrélées est égale à la somme des
variances de chacune de ces V.A.

Pour établir ce résultat très utile dans les calculs, il
suffit d’utiliser la linéarité de l’espérance et d’appliquer
la définition de la non corrélation, i.e., si Xi et Xj
sont non corrélées on a Cov(Xi,Xj)=0.

Exemple 0.28.3

Variance d’une somme de V.A indépendantes

Un avion long-courrier peut transporter 100 passagers et
leurs bagages. Il pèse 120 tonnes, sans passagers ni bagages, mais équipage
compris et plein de carburant effectué. Les consignes de sécurité interdisent au
commandant de bord de décoller si le poids de l’appareil chargé dépasse 129.42
tonnes. Les 100 places ont été réservées. Le poids d’un voyageur suit une loi
d’espèrance mathématique 70 kg et d’écart-type 10 kg. Le poids de ses bagages suit
une loi d’espèrance mathématique 20 kg et d’écart-type 10 kg. Toutes ces variables
aléatoires sont supposées indépendantes.

  1. 1.

    L’espérance mathématique du poids
    total de l’appareil au moment du décollage est-elle conforme aux consignes de
    sécurité ?

  2. 2.

    Calculer l’écart-type σ du poids total de l’appareil.

  3. 3.

    Donner un majorant de la probabilité pour que le poids réel de l’appareil
    au décollage dépasse 129.42 tonnes.

0.29 Vecteur gaussien réel, représentation complexe

Un vecteur aléatoire 𝐱 est dit vecteur gaussien
à n dimensions si toute combinaison linéaire de ses
composantes est une V.A gaussienne, i.e., pour tout vecteur
déterministe 𝐚, la V.A scalaire définie par :

Y=Δ𝐚T𝐱

est gaussienne.

Tenant compte des propriétés de la fonction caractéristique,
on peut supposer que 𝐱 est centré. Le théorème de
Cramer-Wold [Cramer] permet d’établir que la loi de 𝐱 est alors parfaitement déterminée. L’expression de la
fonction caractéristique Φ𝐱 se déduit de la
relation:

Φ𝐱(a)=ΦY(1)siY=Δ𝐚T𝐱.

Comme, Y est par définition une gaussiènne centrée et de
variance:

var(Y)=𝐚TΓ𝐱𝐚

Γ𝐱=ΔE[𝐱𝐱T] désigne la
matrice de covariance du vecteur 𝐱, on obtient:
Φ𝐲(u)=eu2var(Y). D’oú l’expression suivante pour
Φ𝐱:

Φ𝐱(𝐮)=e12𝐮TΓ𝐱𝐮. (112)

Partant de cette expression, on peut établir les résultats
suivants pour un vecteur gaussien.

  1. 1.

    Les composantes de 𝐱 sont indépendantes ssi elles sont non
    corrélées, i.e., si et seulement si la matrice de covariance est diagonale.

  2. 2.

    Si la matrice de covariance Γ d’un vecteur aléatoire gaussien 𝐱 est inversible, 𝐱 admet une densité de probabilité et cette
    dernière est donnée par :

    𝐱nf𝐱(𝐱)=1(2π)n[det(Γ)]e12(𝐱𝐦)TΓ1(𝐱𝐦). (113)
  3. 3.

    Les moments d’ordres impairs sont nuls, i.e.

    E(Xi1Xi2k+1)=0 (114)

    et les moments d’ordres pairs sont donnés par :

    E[xi1xi2xi2k]=σE[xσ(i1)xσ(i2)]E[xσ(i2k1)xσ(i2k)] (115)

    σ désigne une permutation de (1,2,,2k) et où la
    somme est étendue à l’ensemble de tous les σ donnant des termes
    différents. Le membre de droite de (115) comprend une somme de (2k1)!!=Δ1.3.5(2k1) termes. En particulier si l’on prend i1=i2==i2k, on obtient

    E[Xi2k]=[(2k1)!!][E(Xi2)]k (116)
  4. 4.

    Tous les cumulants d’ordre n2 sont nuls et la seconde fonction
    caractéristique est donnée par :

    Ψ𝐱(𝐮)=12𝐮TΓ𝐱𝐮. (117)
Exemple 0.29.1

Moment d’ordre 4 d’une V.A gaussienne

La relation (116) donne pour X1=X2=X3=X4=X,
E(X4)=3σ2σ2 désigne la variance d’une
V.A
gaussienne centrée.

Il est possible d’introduire
la définition d’un vecteur gaussien comme étant un vecteur
dont la loi est définie par (113). On démontre alors
que le caractère gaussien se conserve dans toute transformation
linéaire, i.e., si 𝐱 est un vecteur gaussien, alors il
en est de même pour 𝐲=h(𝐱)h est une
transformation linéaire. Cette propriété fondamentale
s’obtient en calculant la fonction caractéristique de 𝐲.
Cette propriété est valable pour les vecteurs de dimension
finie ce qui est souvent le cas des espaces fonctionnels
rencontrés dans différents domaines tels que l’automatique et
le traitement du signal. Par contre, h(𝐱) n’est plus
gaussien si h est non linéaire. Les V.A gaussiennes jouent un
rôle important dans la pratique pour les raisons
suivantes.

La loi de Gauss introduit de grandes simplifications dans les
calculs.

Toute combinaison linéaire de V.A gaussiennes dans leur ensemble
est une V.A gaussienne.

La loi de Gauss s’introduit naturellement dans un très grand
nombre de problèmes en raison du « théorème central limite »
qui sera énoncé plus loin. Ce théorème relie la moyenne
arithmétique d’une infinité dénombrable de V.A à une V.A
gaussienne.

Il y a équivalence entre la notion d’indépendance et celle de
non-corrélation dans le cas de V.A gaussiennes.

Exemple 0.29.2

Carré d’une V.A gaussienne

Soit X une variables aléatoires (V.A) gaussienne centrée et
de variance σ2. On pose Y=X2. Les variables X et Y
sont statistiquement liées puisqu’il existe une relation entre
ces deux variables. On a E(XY)=E(X3)=0 puisque c’est le
moment d’ordre trois d’une variable gaussienne centrée. Les
variables X et Y sont donc orthogonales. On a E(XYn)=E(X2n+1)=0 puisque c’est un moment d’ordre impair d’une
variable gaussienne centrée.

Exemple 0.29.3

Combinaison linéaire de deux V.A gaussiennes

Soit (X,Y) un couple aléatoire réel, centré et de
matrice de covariance :

Γ=Δ[1αα1],0<α<1.

On définit
la nouvelle variable aléatoire Z=ΔaX+bYa et b sont deux
constantes déterministes.

  1. 1.

    On suppose que chacune des V.A X et Y est gaussienne. Alors
    Z est non gaussienne.

  2. 2.

    On suppose que chacune des V.A X et Y est gaussienne et que X
    et Y sont indépendantes. Alors Z est aussi gaussienne.

  3. 3.

    On suppose que le couple (X,Y) est gaussien. Alors le calcul de
    la fonction caractéristique ϕZ(w) de Z en fonction de
    a et b montre que Z est gaussienne. Le calcul de
    l’espérance mathématique et de la variance de Z est alors
    immédiat.

Exemple 0.29.4

Représentation complexe d’un vecteur gaussien

Pour des raisons pratiques, la notion de V.A à valeurs complexes
joue un rôle important en traitement des signaux. Les
définitions de moments, de cumulants et de V.A gaussienne, ont
étés introduites dans le cas complexe en utilisant des
démarches plus ou moins différentes [picinbono1]. Dans la
référence, la notion de fonction caractéristique classique a
été généralisée comme suit. Si z est une V.A
réelle ou complexe, sa fonction caractéristique est définie
par :

Φz(w,w¯)=ΔE[ej2(w¯z+wz¯)],j2=1

w est une variable déterministe complexe et
w¯ le complexe conjugué de w. La fonction
Φz est donc une fonction des deux variables complexes w
et w¯ qui prend des valeurs réelles. Pour les variables
réelles, z=x, Φz est reliée à la fonction
caractéristique classique par :

Φx(u)=Φz(u,u¯)=Φz(u,u)

u est une variable réelle. Ainsi cette extension permet
d’avoir une seule définition de la fonction caractéristique qui
est valable aussi bien pour des V.A à valeurs réelles que
complexes. En particulier, les concepts
de moments, cumulants, variable gaussienne seront définis sans
distinction entre le cas réel et le cas complexe. Les résultats
dans le cas complexe ne seront pas développés dans ce chapître.

0.30 Suites de Variables aléatoires

Si X1 et X2 sont deux VA définies sur le même espace
probabilisé
, leur somme X1+X2 et leur produit X1X2 définissent des
VA sur cet espace. Ce résultat s’étend au cas de plusieurs VA. L’ensemble
des VA définies sur le même espace (Ω,𝒯,P) est un sous-espace
vectoriel (Ω,) de l’espace vectoriel des applications de
Ω dans . C’est également un sous-anneau de l’anneau des
applications de Ω dans . Supposons que la loi de probabilité
FX(x,n) d’une V.A X dépend d’un paramètre n pouvant prendre toutes les
valeurs entières. Les fonctions FX(x,n) sont déterminées
à partir de la loi de probabilité P introduite sur l’espace probabilisé (Ω,𝒯,P). On peut s’intéresser aux propriétés asymptotique des FX(x,n). On introduit
alors pour chaque n fixé, une V.A notée Xn admettant FX(x,n) comme
fonction de répartition. Il est clair que Xn n’est pas unique. On défini
ainsi une suite de V.A Les dirrérentes notions de voisinage d’un point donnée
de l’espace (Ω,) permettent d’introduire
différents types de convergences d’une suite de V.A sur (Ω,) [papoulis] [picinbono1] [saporta].
Une suite de VA Xn,nN, appartenant à (Ω,) étant une suite de fonctions de Ω dans , il existe
diverses façons de définir la notion de convergence de Xn vers une VA limite X.
Certains types de convergences jouent un rôle important en calcul des probabilités.
Quatre types de convergences vont être examinés dans cette section.

0.31 Convergence en probabilité ou convergence faible

La suite (Xn) converge en probabilité vers la VA X si pour tout
réel ϵ fixé, la suite numérique

Pn,ϵ=ΔP{ω/|Xn(ω)X(ω)|ϵ}=Δ{ω/|Xn(ω)X(ω)|ϵ}𝑑P(ω) (118)

converge vers 1. On dénomme cette convergence par la P-convergence. Cette
convergence exprime que pour n suffisamment grand et ϵ
quelconque, la probabilité de l’événement

An,ϵ=Δ{ω/|Xn(ω)X(ω)|<ϵ} (119)

est arbitrairement voisine de 1. Cette convergence est la convergence en
mesure
classique où la mesure est définie par la mesure de probabilité P.

0.32 Convergence presque sûre ou convergence forte

La suite (Xn) converge presque sûrement (p.s.) vers X si la suite
des ensembles

An,0=Δ{ω/|Xn(ω)X(ω)|=0} (120)

tend vers un ensemble A de probabilité 1 : P(A)=1. Cette
convergence est la convergence presque partout classique
où la mesure est définie par la mesure de probabilité P.

Condition suffisante La suite (Xn) converge p.s.
vers X si l’une des deux conditions suivantes est vérifiée :

1. Pour tout μ fixé, la série à temes positifs suivante est
convergente :

S=Δn=0P[{ω/|Xn(ω)X(ω)|>μ}] (121)

2. Il existe un réel s>0 tel que la série à termes positifs
suivante est convergente :

S=Δn=0E{|XnX|s}. (122)

On peut vérifier à titre d’exemple que la preuve du point 2
découle du point 1. en utilisant l’inégalité de Tchebyscheff
qui permet d’écrire :

P{ω/|Xn(ω)X(ω)|>μ}E{|XnX|s}/μs. (123)

0.33 Convergence en moyenne d’ordre p

La suite (Xn) converge en moyenne d’ordre p vers X si la suite
numérique

Vn=ΔE{|XnX|p} (124)

converge vers 0. Le cas le plus fréquent en pratique correspond
à p=2 et l’on parle dans ce cas de convergence en
moyenne quadratique
(m.q).

Lemme de Loève Une condition nécessaire et suffisante
pour qu’une suite (Xn) converge en m.q. est que, lorsque m et
n tendent vers l’infini, indépendemment l’un de l’autre, la
suite suivante tende vers une limite :

un,m=ΔE{XnXm}.

0.34 Convergence en loi

La suite de VA (Xn) de fonctions de répartition FXn
converge en loi vers la VA X de fonction de répartition
FX si en tout point xFX(x) est continue, la suite
numérique FXn(x) converge vers le nombre FX(x). Pour
des VA discrètes la convergence en loi vers une VA s’exprime
par P(Xn=k) converge vers P(X=k) pour toutes les valeurs
k de Xn.

Une suite de VA discrètes peut cependant converger vers une
VA continue (par exemple, la loi de Poisson converge vers une
loi de Gauss : voir dans la suite de ce chapitre).

Si une suite de VA Xn admettant des densités fn et X
une densité f, alors la convergence en loi de (Xn) vers X
implique la convergence ponctuelle de la suite fn(x) vers
f(x) en tout point x.

0.35 Convergence des fonctions caractéristiques

La convergence en loi est liée à la convergence des fonctions
caractéristiques comme le précise le théorème suivant.

Levy-Cramer-Dugué 1. Si la suite (Xn) converge en loi
vers X alors ϕXn converge uniformément sur tout
intervalle [a,b] vers
ϕX.

2. Si la suite de
fonctions (ϕXn) converge vers une fonction ϕ dont la partie
réelle est continue à l’origine, alors ϕ est une fonction caractéristique
et la suite (Xn) converge en loi vers une VA X dont la fonction
caractéristique est donnée par ϕX=ϕ.

0.36 Liens entre les différents types de convergence

Nous allons donner très brièvement quelques résultats sur les
liens entre les 4 notions de convergence.

La p.s convergence implique la convergence en probabilité. En
effet, il est clair que An,0 est contenu dans
An,ϵ, introduit en (119) et donc P(An,0)P(An,ϵ). Comme la probabilité est majorée par
1, la condition P(An,0) tend vers 1 entraine
P(An,ϵ) tend vers 1.

La convergence en m.q implique la convergence en probabilité. En
effet, on a

Ω|XnX|2𝑑P(ω) {ω/|XnX|ϵ}|XnX|2𝑑P(ω)
ϵ2{ω/|XnX|ϵ}𝑑P(ω)=ϵ2P[{ω/|XnX|ϵ}].

D’où

P[{ω/|XnX|ϵ}]E{|XnX|2}ϵ2=Vnϵ2ϵ+. (125)

La convergence en pobabilité implique la convergence en loi. En
effet, la convergence en probabilité implique que pour n
suffisamment grand et ϵ quelconque, l’événement
An,ϵ définie par (119) est quasi certain. La
suite des fonctions FXn converge donc ponctuellement vers la
fonction de répartition de X.

La convergence en loi est la convergence la plus
faible dans le sens où elle est entraînée par les trois autres. Cependant,
c’est la convergence la plus utilisée en pratique car elle permet d’approximer
la fonction de répartition de Xn par celle de X pour les grandes
valeurs de n.

Exemple 0.36.1

Egalités en moyenne quadratique et presque sûrement

On a X=Y en moyenne
quadratique (X=m.qY) si, et seulement si, X=Y
presque sûrement (X=p.sY). En effet,
X=m.qY équivaut à E(|XY|2)=0 et
X=p.sY équivaut à P[{ω/XY}]=0. Le résultat énoncé se déduit immédiatement de
l’égalité suivante.

E(|XY|2) = {ω/|XY|0}|XY|2𝑑P(ω)+{ω/X=Y}|XY|2𝑑P(ω)
= {ω/XY}|XY|2𝑑P(ω)=ΔP[{ω/XY}].

0.37 Loi des grands nombres

La somme de V.A indépendantes et de même loi, on utilise souvent l’abréviation VA
iid qui signifie « independent and identicaly distributed », joue un rôle fondamental en
statistique. Nous donnons ici quelques résultats fondamentaux concernant ce problème.

Proposition 0.37.1

Soient X1,X2,,Xn une suite de VA indépendantes d’espérances finies
μ1,μ2,,μn et de
variances finies σ12,σ22,,σn2. On pose :

Yn=k=1nXkn (126)

et on suppose que

limnk=1nμkn=μ. (127)

1. Loi faible des grands nombres Si

limnk=1nσk2n2=0 (128)

alors la suite des V.A Yn converge en probabilité vers μ.

2.
Loi forte des grands nombres Si

limnk=1nσk2k2< (129)

alors la suite des V.A Yn converge presque sûrement vers μ.

Dans le cas où les (Xn) est une suite d’échantillons, on
a : μn=μ et
σn2=σ2. Dans ce cas, la condition (129) est toujours vérifiée.

0.38 Théorèmes de la limité centrée

Proposition 0.38.1

Soit Xn une suite de VA suivant une même loi de valeur moyenne μ et
d’écart type σ. Alors la suite

Yn=k=1nXknμσn (130)

converge en loi vers une V.A normale réduite 𝒩(0,1).

Pour démontrer ce résultat, il suffit de poser nYn=k=1nXk. Ce
résultat se généralise comme suit.

Proposition 0.38.2

Soit Xn une famille de V.A indépendantes suivant chacune
une loi de valeur moyenne μn, d’écart type σn et
telle que la fonction de répartition Fi de Xiμi
vérifie la condition :

limn{1σn2i=1nx>ϵSnx2𝑑Fi(x)}=0 (131)

Sn2=Δi=1nσi2.

Alors, la suite Yn définie par

Yn=i=1n(Yiμi)Sn (132)

converge en loi vers une VA normale centrée et réduite.

0.39 Approximations des lois de probabilité classiques

Approximation d’une loi binomiale par une loi de Poisson
Soit Xn une suite de VA binomiales de loi (n,p)
telles que n et p tendent respectivement vers et 0 de
manière à ce que le produit np tende vers une limite finie
λ. Alors la suite Xn converge en loi vers une VA de
Poisson de paramètre λ.
Approximation d’une loi multinomiale par une loi binomiale
Lorsque N tend vers l’infini, la loi H(N,n,p) tend vers la
loi binomiale (n,p).
Approximation d’une loi binomiale par une loi normale Si
Xn est une suite de VA binomiales de loi (n,p),
alors la suite de VA définie par

Yn=ΔXnnpnpq

converge en loi vers une V.A normale centrée et réduite.
Approximation d’une loi de Poisson par une loi normale Soit
Xλ une famille de V.A suivant la même loi de Poisson
P(λ) alors la famille

Yλ=ΔXλλλ.

converge en loi vers une V.A normale réduite.

0.40 Approximations des moments d’une variable aléatoire

Soient 𝐱i,i=1,,n une suite d’observations
indépendantes et de même loi (iid) de la même V.A vectorielle 𝐱 à p
dimensions et soit θ un vecteur déterministe. Une fonction g des
variables 𝐱1,,𝐱n telle que

E[g(𝐱1,,𝐱n)]=θ (133)

est un estimateur non biaisé de θ. Deux
situations importantes dans la pratique correspondent aux cas où
g(𝐱1,,𝐱n) est un estimateur d’un moment ou
d’un cumulant. Différents types d’estimateurs des moments et des
cumulants sont proposés dans la littérature. Les plus
importants sont fondés sur les k-statistiques et correspondent
aux cas où la fonction g(𝐱1,,𝐱n) est un
polynôme symétrique des composantes des 𝐱i. Nous
rappelons ci-dessous des résultats sur ces estimateurs dans le
cas multidimensionnel puis monodimensionnel.

Proposition 0.40.1

[Doob]
Soient k1,,kp des entiers donnés et 𝐱i des vecteurs iid
de composantes xi,1, , xi,p, 1in. Alors la
fonction

g(𝐱1,,𝐱n)=Δ1ni=1nxi,1k1..xi,pkp (134)

converge en probabilité vers E(x1k1..xpkp)
et définit donc un estimateur non biaisé du moment E(x1k1..xpkp).

Proposition 0.40.2

[papoulis] [saporta]
Soit X une V.A scalaire réelle dont les moments
μk existent pour tout entier k et μ^k l’estimateur
empirique défini par

μ^n,k=Δ1ni=1nXik

X1,,Xn sont des V.A indépendantes
et de même loi que X. Alors, la variable μ^n,k
possède les propriétés suivantes.

  1. 1.

    On a:
    var(μ^n,k)=μ2kμk2n.

  2. 2.

    La V.A μ^n,k converge
    presque sûrement vers
    μk et on a E(μ^n,k)=μk.

  3. 3.

    Pour les grandes valeurs de n, μ^n,k
    peut être approximée par une V.A normale de moyenne
    μk et
    de variance
    var(μ^k).

Pour un nombre d’échantillons fixé n, une mesure de la
précision de l’estimateur de μk peut être faite à
l’aide de la quantité :

wk=ΔVar(μk)E2(μk)=1n(vk1)avecvk=Δm2kmk2,mk0

appelées variances relatives. Les résultats
suivants montrent que la suite des variances relatives des estimateurs
empiriques des moments n’est pas croissante dans le cas général. En
revanche, si la loi de x est symétrique et centrée, seule l’estimation des
moments pairs présente un intérêt et dans ce cas la suite des variances
relatives est croissante.

Proposition 0.40.3

Pour tout
k, on a
v2k+1v2k.

Les propositions suivantes sont équivalentes

  1. 1.

    il existe k0 tel que v2k0+1=v2k0

  2. 2.

    la suite (vk)k est constante

  3. 3.

    x prend au plus deux valeurs distinctes 0 et α avec
    P(α)0.

Les propositions suivantes
sont équivalentes

  1. 1.

    il existe un entier k0 tel que v2k0+2=v2k0

  2. 2.

    les sous-suites (v2k)k et (v2k+1)k sont constantes

  3. 3.

    x prend au plus trois valeurs distinctes α, 0 et
    α, avec P(0)1.

0.41 Fonction génératrice d’une V.A et application

0.42 Fonction génératrice d’une variable aléatoire

Considérons le cas des
Variables aléatoires (v.a) à valeurs dans l’ensemble
des entiers naturels. On associe à
toute v.a X à valeurs dans , une fonction dénommée fonction génératrice de X, qui contient toutes les informations sur la loi de probabilité de X. Si la loi est donnée par
la suite pn=P(X=n),n, la fonction génératrice est définie par la série entière

GX(t)=E[tX]=k=0(X=k)tk=n0pntn.

Comme GX(1)=1, le rayon de convergence de cette série est R1.
La fonction génératrice caractérise parfaitement la loi de probabilité de X. En effet si X et Y sont deux v.a à valeurs entières telles
que GX(t)=GY(t) pour tout |t|<1, l’unicité du développement en série entière d’une
fonction montre que X et Y ont la même loi de probabilité.

Proposition 0.42.1

Somme de v.a indépendantes et de même loi
Soient GX1,,GXn les fonctions génératrices respectives
de n v.a indépendantes X1,,Xn et à valeurs dans .
Alors la v.a S=X1++Xn a une fonction génératrice GS donnée par

GS=GXi.

On peut établir le résultat par récurrence. En effet, on a

GX+Y(t)=E(tX+Y)=E(tXtY)

Si les v.a X et Y sont indépendantes alors les v.a (tX et tY le sont aussi et on obtient

E(tX+Y)=E(tX)E(tY)

et donc GX+Y=GXGY.

Proposition 0.42.2

Moyenne et variance
Soit X une v.a à valeurs entières de fonction génératrice
GX. Si X a un moment d’ordre 2, les dérivées à gauche GX(1)
et GX′′(1) au point 1 existent et on a :

E(X)=GX(1),var(X)=GX′′(1)+GX(1)GX(1)2.

Inversement si GX est deux fois dérivable en t=1, alors X a un moment
d’ordre 2 et les formules ci-dessus s’appliquent.

On peut toujours dériver formellement terme à terme
la série entière GX(t) pour établir le résultat.

Proposition 0.42.3

Somme de v.a à valeurs entières
Soit (Xn)n une suite de variables aléatoires mutuellement indépendantes définies sur le même
espace (Ω,Π,P) et à valeurs dans .
On suppose que les Xn suivent la même loi et on désigne par GX la fonction génératrice de Xn.
Soit N une v.a définie sur (Ω,Π,P), à valeurs dans , de fonction génératrice GN telle que (N,X1,X2,) est une suite de variables aléatoires mutuellement indépendantes. Alors l’application :

S:ΩS(ω)k=1N(ω)Xk(ω)

définit une v.a à valeurs dans et sa fonction génératrice est donnée par

t]1,1[,GS(t)=GN[GX(t)].

(1) Si N et X1 admettent des espérances finies, alors E(S)=E(N)E(X1)
(2) Si N et X1 admettent des variances finies, alors

var(S)=var(X1)E(N)+var(N)E[X1]2.

Preuve Pour n, l’événement {N=n} se décompose comme suit :

{N=n}=k1{N=k,Sk=i=1kXi=n}

Pour k1, la somme Sk est une v.a, alors les événements
{N=k} et {Sk=n} sont dans Π et donc l’événement
{N=n} est aussi dans Π. Alors S est bien une v.a définie sur (Ω,Π,P) et
on a :

t]1,1[,GS(t)=n=0P(S=n)tn=n=0k=1P(N=k)P(Sk=n)tn

Comme ck=|P(N=k)P(Sk=n)tn| est le terme d’une série convergente et
k=1ck=P(S=n)tn| est aussi le terme d’une série convergente, on peut intervertir les signes somme et obtenir :

GS(t) = k=1P(N=k)n=0P(Sk=n)tn=k=1P(N=k)GSk(t)
= k=1P(N=k)GX(t)k=GN[GX(t)]

Pour les points (2) et (3) il suffit de dériver puisque GS est dérivable en tant fonction composée de fonctions dérivables.
Le théorème de l’espérance totale E(S)=E[E(S/N)] permet aussi d’établir le résultat comme suit

GS(z) = E(zi=0NXi)=E[E(zi=1kXi/N=k)]
= E[E(i=1NzXi/N=k)]=E[1=1NE[zXi]/N=k)]
= E[GX(z)N/N=k)]=k=0P(N=k)GX(z)k=GN[GX(z)].
GS(z) = E[E(zS/N)]
= E[(E(zX)N]
= E[GX(z)N]=GN[GX(z)].
GS(z) = k0E(zi=0kXi|N=k)(X0=k)
= k0[E(zX)]k(N=k)
= E[(E(zX)X0)]=GN[GX(z)].
Proposition 0.42.4

Formule de Wald
Soit (Xn)n1 une suite de variables aléatoires i.i.d à valeurs dans . Soit N=N une
v.a à valeurs dans .

Sn=X1+X2++Xn,SN=X1+X2++XN= 111nNXn.

On suppose que :
(Xn)n0 sont indépendantes dans leur ensemble et intégrables.
On suppose que l’une des deux conditions suivantes est remplie :
L’événement {N=n} est entièrement déterminé par (X1,X2,,Xn),
ou bien N est indépendant de la suite (Xi). Alors on a :

𝔼[SN]=𝔼[N]𝔼[X1].

Preuve La variable aléatoire

Z= 111nNn1|Xn|

est intégrable. En effet

{nN}c={n1N}=k=0n1{N=k}n1.

Ainsi, pour n1, en vertu de l’hypothèse d’indépendance entre la tribu n1 et la variable Xn

𝔼[|Xn| 11nN]=𝔼[|Xn|]𝔼[11nN]=𝔼[|X1|](nN).

Or N est intégrable si et seulement si la série de terme général (nN) est convergente (et la somme de cette série est 𝔼[N]). En vertu du théorème de Beppo-Levi, et de l’hypothèse d’intégrabilité faite sur N, la variable Z est intégrable, et on peut donc s’en servir comme majorant pour appliquer le théorème de convergence dominée ou le théorème de Fubini à SN :

𝔼[SN] =𝔼[n1Xn 11nN]
=n1𝔼[Xn 11nN]
=n1𝔼[Xn]𝔼[11nN]
=𝔼[X1]n1(nN)
=𝔼[X1]𝔼[N].

0.43 Calcul utilisant une fonction génératrice

On se propose de calculer le nombre de partitions possibles an d’un ensemble à n éléments distincts
pour n quelconque. On va associer à la suite (an) une série entière

A(z)=n=0anzn

qui facilitera le calcul demandé. Cette série est appelée fonction génératrice de la suite (an). On peut établir par récurrence sur n que

an=k=1k=n𝒞nkank,a0=1

puis, en introduisant une nouvelle suite bn,

bn=ann!=k=1k=nbnkk!.

On peut établir par récurrence que

bn1ln(2)n.

Le rayon de convergence de la série entière

B(z)=n=0bnzn=n=0(k=1k=nbnkk!)zn

vérifie donc Rln(2). En posant ck=1k! pour k0 et
c0=0, on reconnait le produit de Cauchy de deux séries et on obtient donc :

B(z)=1+n=1(k=1k=nckbnk)zn=1+k=1ckzkn=0bnzn.

On a donc B(z)1=(ex1)B(z) puis B(z)=12ex.
Comme B(z) ne converge pas au point x0 solution de 2ex=0, soit x0=ln(2), le rayon de convergence de la série B(z) vérifie Rln(2). Finalement, on a R=ln(2). Le développement de la fonction B(z) en série et l’unicité de ce développement permet d’établir les expressions des bn :

bn=k=0kn2kn!.

0.44 Calcul utilisant des variables aléatoires

Proposition 0.44.1

Introduire des V.A pour majorer une norme
Soient v1,,vn des vecteurs d’un espace vectoriel euclidien. Ces vecteurs définissent un parallélépipède P et on a les propriétés suivantes.
(1) On suppose chaque vi de norme 1, alors

(ϵ1,,ϵn){1,1}n,i=1nϵivi2n

(2) Tout point situé à l’intérieur (ou sur) P est défini par

p1,,pn  0pi1,v=i=1npivi.

(3) Chaque sommet s de P est défini par :

(θ1,,θn){0,1}n,s=i=1nθivi.

(4) Pour tout v fixé, il existe un sommet tel que sv2n4.

Preuve
Soient X1,X2,,Xn des variables aléatoires définies
sur le même espace probabilisé, indépendantes dans leur ensemble et à valeurs dans {1,1} :

Xi:(Ω,𝒯,P){1,1},P(Xi=1)=P(Xi=1)=12.

Posons

R=i=1nXivi2

v1,,vn sont des vecteurs de norme 1. On peut vérifier que R est une v.a
à valeurs positives. Supposons par l’absurde que

(ϵ1,,ϵn){1,1}n,i=1nϵivi2>n

ce qui signifie que la v.a R ne prend que des valeurs r>n. Son espérance vérifie donc E(R)>n. Or

E(V)=<i=1nXivi,j=1nXjvj>=<i=1nE(Xi2)||vi||2=n>n

ce qui est absurde.
(2) Les points v situés à l’intérieur (ou sur) du parallélépipède admettant comme arêtes v1,,vn sont définis
par:

v=i=1npivi0pi1

Les sommets s de ce parallélépipède sont définis par :

J𝒫([1,n]),s=iJvi=i=1nϵivi,ϵi=1 si iJ,ϵi=0 si iJ.

Alors la distance d’un point v à un sommet s est donnée par :

sv=i=1n(ϵipi)vi.

On va démontrer que pour tout point v il existe un sommet s tel que sv2n/4.
Soient Y1,Y2,,Yn des variables aléatoires de Bernoulli, définies
sur le même espace probabilisé, indépendantes dans leur ensemble et à valeurs dans {0,1} avec
la loi de probabilité P(Yi=1)=pi et P(Yi=0)=1pi.
On obtient E(Yi)=pi. Les v.a X1=Y1p1,,Xn=Ynpn sont indépendantes dans leur ensemble et centrées et elles sont donc deux à deux orthogonales. On a donc
E(XiXj)=0 pour ij.
Posons

T=i=1n(Yipi)vi2=i=1n(Xi)vi2

v1,,vn sont des vecteurs de norme 1. On peut vérifier que T est une v.a.
Supposons par l’absurde que

(ϵ1,,ϵn){0,1}n,i=1n(ϵipi)vi2>n/4.

Alors, la v.a T ne prend que des valeurs t>n/4 et on doit donc avoir E(T)>n/4. Or

E(T)=<i=1nXivi,j=1nXjvj>=i=1nE[Xi2]||vi||2i=1nE[Xi2].

Or E[Xi2)=(1pi)(pi)2+pi(1pi)2=pi(1pi) atteint son maximum pour pi=1/2 et ce maximum est
égal à 1/4. Alors on obtient

E(T)i=1nE[Xi2)]i=1n14n4

ce qui est absurde.

0.45 Processus de Galton-Watson pour les dynamiques de populations

On considère une mesure de probabilité 𝐏 sur définie par la donnée des probabilités (pk)k et une famille dénombrable Xn,i de v.a i.i.d de loi 𝐏.
On se donne une v.a Z0 indépendante des Xn,i. La suite des v.a
Zn définie par la récurrence :

Zn+1=i=1ZnXn,i,n0,i=10Xn,i=0

est appelée processus de Galton-Watson. Le plus souvent on suppose Z0=1 et p0+p1<1. La suite Zn est un exemple de chaine de Markov à valeurs dans puisque la valeur de Zn+1 est complètement déterminée à partir de la famille de v.a indépendantes Z0,Z1,,Zn.
Le processus de Galton-Watson est un processus stochastique qui permet de décrire des dynamiques de populations d’individus qui se reproduisent de manière indépendante. Chaque individu i de la génération n donne naissance à Xn,i individus et meurt. On suppose que les Xn,i sont des variables aléatoires indépendantes à valeurs entières suivant la distribution p=(pk)k.
Par exemple,
si Xn,i=0 avec la probabilité p0=(Xn,i=0), alors l’individu i de la génération n meurt sans se reproduire.
Si Xn,i=1 avec la probabilité p1=(Xn,i=1), alors il y a un remplacement un-pour-un de l’individu i de la génération n etc…Notons Zn la taille de la population à la n-ème génération. On suppose souvent que la population possède un seul ancêtre, ce qui se traduit par Z0=1.
Le nombre moyen d’enfants, m, d’un individu typique de la population considérée est donné par :

m=kkpk=GN(1)

D’après la formule de Wald, l’évolution de la taille moyenne de la population vérifie la formule de récurrence suivante :

𝔼[Zn+1]=m𝔼[Zn],𝔼[Zn]=mn.

On désignera par G la fonction génératrice d’une v.a. de loi appelée fonction génératrice de reproduction.
On définit aussi pour tout n, la fonction génératrice de Zn par:

Gn(z)=𝔼[zZn]=k0(Zn=k)zk,s[1,1].

On a donc

(Zn=0)=Gn(0),Gn(s)=GGn1(s).

Définition Événement extinction
Si, à partir d’un certain rang, tous les termes de la suite (Zn)n0 sont nuls, on dit qu’il y a extinction de la population. par construction des Zn, s’il existe N tel que ZN=0 alors on a ZN+k=0k0. L’événement extinction peut s’exprimer de quatre façons équivalentes comme suit :

ext = {Zn0}=n=1k=n{Zn=0}
= {n1:Zn=0}=n=1{Zn=0}
= limkn=1k{Zn=0}.

Sa probabilité est donnée par :

(ext)=limn(Zn=0)=limnGZn(0).
Proposition 0.45.1

Probabilité d’extinction et différents régimes du processus
Soit un processus de Galton-Watson dont la distribution de probabilité est donnée par (pk)k et la fonction génératrice associée par :

φ(s)=n0pnsn=𝔼[sXi].

Alors, on a les résultats suivants.
(1) La probabilité d’extinction (ext) du processus est égale à la plus petite solution, dans l’intervalle [0,1], de l’équation :

G(s)=s

(2) On a les 3 cas suivant les valeurs de m.
Si m<1, on a (ext)=1.
Si m=1, on a (ext)=1 si p11 et (ext)=0 si p1=1.
Si m>1, on a (ext)<1 et (ext) est le plus petit point fixe
de φ dans [0,1].

Le processus de Galton-Watson possède donc deux régimes séparés par une valeur critique du paramètre m.
(1) Si m<1, le processus est dit sous-critique et l’extinction de la population se produit avec une probabilité 1.
(2) Si m=1, le processus est dit critique et son comportement est plus complexe et sera discuté dans la suite.
(3) Si m>1, le processus est dit sur-critique et la probabilité de survie de ce nom est non-nulle. En cas de survie, le nombre de porteurs du patronyme connait une croissance exponentielle.
Démonstration du point (1) Comme

ext=limkn=1k{Zn=0}et{Zn=0}{Zn+1=0}

et que la probabilité est croissante pour la réunion, on obtient :

(ext)=limnunen posant(Zn=0)=un.

Comme un=Gn(0), et tenant compte de la relation entre les fonctions Gn, on obtient

un+1=Gn+1(0)=G(Gn(0))=G(un).

La suite un est donc définie par u0=0 (car Z0=1) et par la relation de récurrence

un+1=G(un).

Donc (ext) est un point fixe de G.
Comme {Zn=0}{Zn+k=0},k0, on a
({Zn=0})({Zn+k=0}) et donc

Gn(0)Gn+k(0).

Ceci montre que la suite un=Gn(0) est croissante et donc elle est convergente puisqu’elle est majorée par 1.
Maintenant, supposons qu’il existe un point fixe de G dans l’intervalle [0,1]. Par définition, la fonction G est croissante sur l’intervalle [0,1] et on a G(0)=p00 soit u1u0) et G(1)=1. La suite (un)n0 est majorée par tout point fixe de G appartenant à l’intervalle [0,1]. La limite de la suite (un)n0 est donc, elle aussi, majorée par tout point fixe de G appartenant à l’intervalle [0,1]. Mais comme la fonction G est continue sur l’intervalle [0,1], sa limite est un des points fixes de la fonction G donc, forcément, le plus petit d’entre eux.
Preuve de (2) Comme G est une série entière de rayon de convergence au moins égal à 1, à coefficients positifs ou nuls, G est convexe (et même strictement convexe si p0+p1<1), indéfiniment dérivable sur l’intervalle ]0,1[, elle possède donc au plus 2 points fixes dans [0,1], sauf si elle est réduite à une fonction affine. On a aussi

m=φ(1).

Si m1, et p11, alors pour s<1, (Gz)z)<G(1)1<m10
Puisque G(1)=1 et G(s)>s pour s[0,1], 1 est le seul pont fixe de G dans [0,1] et donc
(ext)=1.
Cas souscritique : m<1 La tangente en (1,1) au graphe de φ est, dans l’intervalle [0,1[, strictement au-dessus de la droite d’équation y=x, et, φ étant convexe, le graphe de φ est au-dessus de sa tangente, donc, lui aussi, strictement au-dessus de la droite d’équation y=x : le seul point fixe de φ est 1.
Cas critique : m=1 La tangente en (1,1) au graphe de φ est la droite d’équation y=x. Si φ est strictement convexe, le graphe de φ est strictement au-dessus de sa tangente, donc le seul point fixe de φ est 1. Or φ est strictement convexe si et seulement si p0+p1<1 (comme on le voit en calculant la dérivée seconde de φ). Sinon φ est une fonction affine, donc son graphe est confondu avec ses tangentes, en particulier, ici, avec la droite d’équation y=x. Donc p1=1.
Cas surcritique : m>1 La tangente en (1,1) au graphe de φ est strictement au-dessous de la droite d’équation y=x, donc, sur un intervalle [1ϵ,1[ bien choisi, φ lui-même est strictement au-dessous de la droite d’équation y=x. En 0, par contre, comme φ(0)=p00, le graphe de φ est au-dessus de la droite d’équation y=x. Donc, en vertu du théorème des valeurs intermédiaires, φ possède un point fixe strictement plus petit que 1.
Supposons maintenant m>1. Puisque G(1)=m, on a G(s)<s
pour s<1 dans un voisinage de 1. Comme G est continue sur [0,1]
et G(0)0, le théorème des valeurs intermédiaires implique qu’il existe
q[0,1[ tel que G(q)=q. Supposons maintenant qu’il existe 0q1<q2<1 tels que
G(q1)=q1 et G(q2)=q2. dans ce cas la fonction G(s)s admet les trois zéros q1, q2 et
1. Ceci est impossible car G est convexe.
Exemple
Si φ(s)s, le théorème dit que la probabilité d’extinction (ext) est nulle. Cela peut être vu directement sans difficulté, car φ(s)s équivaut à p1=1, ce qui entraine immédiatement que chaque génération est constituée d’exactement un individu ;
plus généralement, si p0=0, alors 0 est point fixe, donc, d’après le théorème, (ext) est nulle (on pouvait le voir directement, puisque, en ce cas, chaque individu de la population a au moins un enfant).
Si p0+p2=1 les deux points fixes sont 1 et p0/p2. Donc la probabilité d’extinction vaut 1 si p0p2 et vaut moins que 1 ((ext)=p0/p2 ) si p0<p2. Ici, la valeur de (ext) est difficile à calculer directement, sans utiliser le théorème. La figure ci-contre montre plusieurs valeurs de p0 et la probabilité d’extinction correspondante.
La notation de Neveu permet de décrire rigoureusement l’évolution de la population à l’aide d’un arbre planaire enraciné, qui est en fait l’arbre généalogique de cette population. Cet arbre planaire enraciné peut être décrit de manière non ambigüe par la liste de ses sommets, chacun désigné par une suite finie d’entiers, qui sont les positions, au sein de leur fratrie, des ancêtres (ou ascendants) de ce sommet : le sommet 2|4|3 désigne le 3e fils du 4e fils du 2e fils de l’ancêtre (l’ancêtre étant lui-même désigné par la suite vide, notée ). Par convention, l’ancêtre est le sommet initial de l’arête racine, et le sommet final de l’arête racine est le fils ainé de l’ancêtre : en tant que tel, il est donc noté 1. La longueur de la suite associée à un sommet est la hauteur (ou la profondeur) du sommet, i.e. la distance entre ce sommet et le début de la racine, qui représente l’ancêtre : en filant la métaphore, un sommet de hauteur n représente un individu appartenant à la n-ème génération de la population fondée par l’ancêtre. Les 5 arbres à 3 arêtes :
sont ainsi décrits par les 5 ensembles de mots

{,1,2,3},{,1,11,2},{,1,2,21},{,1,11,12},{,1,11,111}.

Avec cette notation, un arbre planaire encode commodément une réalisation de processus de Galton-Watson avec extinction : cet arbre est alors appelé arbre de Galton-Watson. Rien ne s’oppose à définir un arbre planaire infini à l’aide de la notation de Neveu, ce qui permet d’encoder les réalisations de processus de Galton-Watson où la population ne s’éteint pas.
Exemple :
L’arbre de la figure ci-contre correspond à une suite de variables aléatoires Xi ainsi définies :

(X,X1,X2,X3,X11,X12,X111,X121,X122,)=(3,2,0,0,1,2,1,0,1,).

Ainsi, un processus de Galton-Watson peut-être vu comme une fonctionnelle déterministe d’une famille (Xi)i de variables aléatoires indépendantes et de même loi p=(pk)k la variable Xi désignant la progéniture de l’individu i (le nombre d’enfants auxquels ils donne naissance en mourant). Ici désigne l’ensemble (dénombrable) des suites d’entiers de longueurs finies (éventuellement de longueur nulle dans le cas de ) :

={}23

Exemple :
Certaines variables aléatoires de la suite (Xi)i n’ont pas d’influence sur le processus de Galton-Watson : dans l’exemple ci-contre, X4 ou X126 n’ont pas d’importance car l’ancêtre a strictement moins de 4 enfants (X=3) et l’individu 12 a strictement moins de 6 enfants (X12=2). De même les progénitures des individus de la 5e génération (les Xi correspondant aux suites i de longueur 5) n’influencent pas cette réalisation du processus de Galton-Watson, car la population s’éteint à la 4e génération (X1111=X1221=0).
Étude fine de la taille des générations
Notons Gn la fonction génératrice de la variable aléatoire Zn, définie par

Gn(s)=k0(Zn=k)sk=𝔼[sZn].

Pour pouvoir appliquer la propriété de composition des fonctions génératrices,

Gn+1=GGn.

il faut que Zn+1 (l’effectif de la n+1 ème génération) a même loi que la somme de Zn variables aléatoires indépendantes, toutes de même loi et indépendantes de Zn. Bien sûr, Zn+1 est la somme des progénitures des Zn individus appartenant à la n ème génération,
La relation de récurrence sur l’espérance de Zn

𝔼[Zn+1]=G(1)𝔼[Zn]

découle alors de la formule de dérivation des fonctions composées.



Publié

dans

par

Étiquettes :

Commentaires

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *