0.1 Espace probabilisé, Probabilité
0.2 Espace probabilisable
Une expérience aléatoire est une expérience pouvant conduire à
plusieurs résultats possibles et dont le résultat ne peut être
prévu avec certitude. Cela signifie que si l’on répète
plusieurs fois la même expérience, on obtient à chaque
fois un résultat bien défini mais qui n’est pas toujours le
même. L’ensemble des résultats possibles sera noté .
Exemple 0.2.1
Le lancer d’un dé cubique ne
pouvant rester en equilibre sur aucune de ses arêtes et dont les
faces sont numérotées de 1 à 6 est une expérience
aléatoire. Les resultats possibles de cette expérience sont
les six chiffres 1, 2,…, 6.
D’une manière générale toute expérience physique est
aléatoire. En effet, même les expériences pour lesquelles
on peut appliquer le principe classique suivant : la même cause
produit toujours le même effet sont aléatoires dans le sens
où la mesure de l’effet peut introduire des incertitudes.
Chaque résultat possible d’une expérience aléatoire
est appelé événement aléatoire élémentaire.
L’ensemble de tous ces événements est appelé ensemble
fondamental et il est souvent désigné par
. Toute partie de
est appelé événement aléatoire. L’ensemble de tous les
événements liés à une expérience aléatoires
est donc confondu avec l’ensemble des
parties de .
Un événement lié au lancer d’un dé cubique est
par exemple .
Avant de procéder à une expérience aléatoire,
on peut être intéressé par un événement donné
A et vouloir faire une prévision sur la chance que cet
événement a de se réaliser. On peut dire à priori que
a une chance sur deux de se réaliser si la
symétrie du dé est parfaite.
L’événement qui par
définition a toutes les chances de se réaliser est appelé
événement certain et l’événement
, ensemble vide, qui n’a aucune chance de se réaliser est
appelé événement impossible.
L’événement certain correspond à l’affirmation “l’expérience va conduire
à l’un des chiffres 1, 2, 3, 4, 5, 6”.
L’événement impossible correspond à
l’affirmation “l’expérience ne conduit à aucun des chiffres
1, 2, 3, 4, 5, 6”.
Soit une expérience aléatoire conduisant à un
nombre fini de résultats possibles, par exemple, pour un
lancer de dé on a . Dans ce cas le nombre
d’événements possibles est donné par
où l’on désigne par le cardinal de .
A la suite d’une telle expérience, on est
amené naturellement à s’intéresser à la
réalisation d’un événement ou à sa non
réalisation, à la réalisation simultannée de deux ou
plusieurs événements, à la réalisation d’au moins un
événement faisant partie d’un sous-ensemble de deux ou
plusieurs autres événements, etc
On introduit ainsi sur l’ensemble des événements
les trois opérations classiques suivantes.
-
1.
La réunion pour indiquer la réalisation de ou :
. -
2.
L’intersection pour indiquer la réalisation
simultannée de et : . -
3.
La complémentation par rapport à pour
indiquer la non réalisation de .
Considérons l’ensemble muni des
opérations intersection, complémentation et réunion. Les
différents sous-ensembles de ne présentent
pas tous le même intérêt pour l’expérimentateur
qui est amené à considérer des parties de
qui sont plus ou moins grandes. Donnons
quelques exemples de sous-ensembles de .
-
1.
Le joueur est intéressé
par chacun des numéros et par toute réunion de ces
numéros. Il doit donc considérer le sous-ensemble
de le plus grand possible, i.e. -
2.
Le joueur est intéressé uniquement par la
parité du numéro de la face du dé. Dans ce cas, il peut
résoudre son problème en considérant le sous-ensemble -
3.
Le joueur est intéressé par miser sur un ensemble de
numéros parmi lesquels au moins un est gagnant ou ne pas engager de
mise. Le plus petit sous-ensemble qu’il doit
considérer pour résoudre son problème est :
Soit un ensemble fini et l’ensemble
des parties de . On appelle tribu de
(ou -algèbre) toute famille de contenant et stable pour la réunion et la
complémentation par rapport à . Le couple
est appelé espace probabilisable.
Les trois ensembles définis ci-dessus sont des tribus de
.
0.3 Espace probabilisé fini
Avant de procéder à une expérience aléatoire,
intéressons nous à une réalisation particulière
dénommée et appelée événement
élémentaire ou singleton. On peut vouloir faire une
estimation de la chance que cet événement a de ce
réaliser. Pour obtenir une telle estimation on procède
comme suit. On répète fois l’expérience dans les
mêmes conditions et on associe à le nombre
où représente le nombre de fois où
s’est réalisé. On fait tendre vers l’infini et le
nombre ainsi obtenu est appelé probabilité de
. On définit ainsi une application de
dans [0,1] par:
Si le nombre associé à chacun des singletons
est indépendant de ce dernier, l’application
est constante et définie sur une probabilité
uniforme. Dans cette hypothèse d’équiprobabilté, on
peut étendre la définition de à l’ensemble
lui-même de la manière suivante :
Soit un espace probabilisable fini et
l’application qui associe à chaque le nombre
L’application se prolonge d’une manière unique et
définit une probabilité sur .
Une probabilité est donc une application de sur [0, 1] qui vérifie les axiomes suivants :
Le triplet est appelé espace
probabilisé.
Dans l’hypothèse
d’équiprobabilité des événements élémentaires,
le calcul de la probabilité d’un événement quelconque se
ramène à un calcul de dénombrement. Ce calcul repose sur
les relations classiques qui donnent les nombres d’arrangements, de
permutations et de combinaisons de objets.
Nombre d’arrangements Le nombre de façons
différentes de choisir objets tous différents parmi
objets tous différents (tenant compte de l’ordre des
objets choisis) est donné par
Nombre de permutations Le nombre de façons
différentes d’ordonner objets tous différents est
donné par
Nombre de combinaisons Le nombre de façons
différentes de choisir objets tous différents (sans
tenir compte de l’ordre des objets choisis) parmi objets
tous différents est donné par tirage sans remise :
Nombre de combinaisons avec répétitions Le nombre de
façons différentes de choisir objets, non tous
forcément différents, (sans tenir compte de l’ordre des
objets choisis) parmi objets tous différents est
donné par tirage avec remise :
0.4 Espace probabilisé quelconque
Soit un ensemble quelconque et l’ensemble des
parties de . On appelle tribu ou -algèbre de toute famille de
vérifiant les trois propriétés
suivantes :
T contient
T est stable pour la réunion
dénombrable
T est stable pour la complémentation par
rapport à
Le couple est appelé espace mesurable
et les éléments de sont appelés parties
mesurables de . Si est une partie d’un espace ,
la plus petite tribu de contenant est appelée tribu engendrée par .
Exemple 0.4.1
Tribus classiques
-
•
Tribu fine :
-
•
Tribu grossière :
-
•
Tribu de Bernoulli : .
-
•
Tribu de Borel : Soit un espace topologique.
Il est clair que la topologie n’est pas une tribu. La
tribu engendrée par est appelée tribu de Borel
sur . Si , on admettra que la tribu de Borel est
engendrée par les ouverts de et qu’elle est aussi
engendrée par des demi-droites . Cette
tribue sera notée .
Une mesure positive est une application d’un espace
mesurable sur l’espace mesurable
muni de sa tribu de Borel qui verifie les axiomes suivants :
-
•
Positivité: pour tout élément de on
a -
•
Additivité complète: pour toute suite fini ou
dénombrable d’éléments de deux à deux disjoints, on a:
Le triplet est appelé espace
mesuré. Toute mesure positive vérifiant est appelée probabilité. Un espace mesuré où la
mesure est une probabilité est appelé espace
probabilisé.
Produit d’espaces probabilisés Si et sont deux espaces probabilisés, on peut
considérer sur l’espace probabilisable ,
la fonction définie par
Il est facile de vérifier que définie une
probabilité sur l’espace appelé espace produit. On peut étendre ce
procédé pour définir de proche en proche l’espace
produit de espaces probabilisés.
0.5 Règles de calcul sur un espace
probabilisé
La probabilité de la réunion de deux
événements quelconques est donnée par la
formule des probabilités
totales :
(1) |
Deux évènements sont dits incompatibles ou disjoints si leur
intersection est réduite à l’ensemble vide. L’axiome
d’additivité complète conduit à l’identité suivante :
(2) |
Deux événements sont dits complémentaires s’ils sont
disjoints et si en plus leur réunion est égale à
l’ensemble . Dans ce cas on a
(3) |
Un système complet d’événements est un ensemble
d’événements deux à deux disjoints et tels que leur
réunion donne l’ensemble . Un tel système forme
une partition de . La probabilité de la réunion
des événements d’un systèmes complet est toujours
égale à 1. Si forment un système
complet, alors tout événement se décompose sous la forme :
et on a
Soit un ensemble fini ou dénombrable et
une probabilité définie sur .
Alors les événements élémentaires de
, i.e. les singletons de
forment un système complet. De plus est définie de manière
unique par la donnée des . En effet, les ensembles
forment une partition de et donc tout
événement peut s’écrire
La valeur de est alors définie d’une manière
unique par
Toute mesure de probabilité possède les propriétés
élémentaires suivantes.
0.6 Probabilité conditionnelle, Indépendance
Soit ( un espace
probabilisé et un évènement de probabilité non nulle.
Soit l’application définie par
(4) |
où la notation se lit couramment
probabilité de sachant . Il est facile de vérifier que
définit une probabilité sur .
Cette probabilité est appelée probabilité conditionnelle
(conditionnellement à la réalisation de ). On a donc :
(5) |
et aussi par symétrie, pour ,
(6) |
Les deux expressions de
conduisent à la relation suivante dénommée formule de
Bayes :
(7) |
Plus généralement, si est un système complet de
et un événement quelconque, on obtient la seconde
formule de Bayes suivante :
(8) |
Cette identité se déduit immédiatement de la
première formule de Bayes qui donne
(9) |
et de la définition d’un système complet qui permet d’écrire
(10) |
Les formules de Bayes sont à la base de la branche de la
statistique appelée statistique Bayésienne. Ces formules sont
couramment appelées formules des probabilités des causes.
En effet, les peuvent s’interprêter comme
des causes incompatibles pouvant provoquer l’événement
B. Les probabilités sont appelées
probabilité a priori alors que les portent le nom de probabilités a posteriori.
Exemple 0.6.1
Application de la formule de Bayes
Dans une usine deux machines et fabriquent des boulons
de même type. sort en moyenne 0,3% de boulons
défectueux et 0,8%. On a et
. On mélange 1000 boulons dans une caisse, 650 provenant
de et 350 de . Lorsque l’on tire un boulon au hasard les
probabilités dites a priori qu’il provienne de ou de sont :
et . Sachant que lévénement, noté : le boulon
tiré est défectueux, s’est réalisé, les
probabilités précédentes sont modifiées et
remplacées par les probabilités plus précises dites a
posteriori : et . Pour calculer
ces probabilités, on applique le 2ème formule de Bayes.
Indépendance Soient un ensemble de
événements définis sur un espace probabilisé. Ces
événements sont dits indépendants deux à deux
si, et seulement si :
(11) |
ils sont dits indépendants dans leur ensemble si pour
toute partie de l’ensemble on a :
(12) |
Remarque 0.6.2
Si l’on considère un ensemble de
trois événements, les deux formes d’indépendances sont
équivalentes si, et seulement si, la formule (12) est valable
pour .
Remarque 0.6.3
On peut trouver des ensembles de n événements indépendants dans leur ensemble et tel que
tout sous ensemble de événements constitue un
ensemble d’événements non indépendants dans leur ensemble.
L’incompatibilité de deux événements est
définie sur un espace probabilisable sur lequel aucune
probabilité n’a été définie.
L’incompatibilité de et ne fait pas intervenir la
probabilité, elle exprime simplement la condition
. Par contre l’indépendance de et
est directement liée à une probabilité. Elle
peut donc changer avec la probabilité définie sur
l’espace probabilisable considéré. Deux événements
et peuvent être en même temps :
-
•
Indépendants et incompatibles
-
•
Indépendants et compatibles
-
•
Dépendants et incompatibles
-
•
Dépendants et compatibles.
0.7 Variable aléatoire
0.8 Statistique à une dimension et variable aléatoire
Nous considérons dans ce chapitre, une population d’effectif total ,
et dont chaque élément présente un caractère [saporta].
Soit, par exemple, un ensemble d’individus dont on veut
étudier la taille X. A chaque individu on associe la valeur de
sa taille . Pour cela, on peut supposer que
appartient à un intervalle . On subdivise alors en
sous-intervalles de même amplitude et on appelle les centres de ces intervalles. Au lieu d’associer à
chaque individu , le nombre , on convient de lui associer
le nombre défini par le centre de l’intervalle contenant .
Ainsi un même nombre peut être associé à plusieurs individus
.
On appelle série statistique pour le caractère
l’application qui à chaque élément de associe
le nombre . Soit une série statistique dont le caractère a pour
valeurs . On appelle effectif
partiel du nombre le nombre des éléments de la
population dont la valeur du caractère est . Les
fréquences partielles sont définies par :
La moyenne, la variance et l’écart type de sont
respectivement définis par :
Dans ce qui précède, nous avons introduit une application
qui associe à chaque élément le nombre de
et les nombres compris entre 0 et 1 et tels que leur somme
vaut 1. Lorsque le nombre tend vers l’infini, chaque
tend vers une limite appelée probabilité du nombre vers lequel
tend . La fonction tend vers une fonction limite
appelée variable aléatoire (V.A) discrète. Le concept de V.A
a été introduit pour « quantifier » les résultats d’une
expérience aléatoire [blanclapierre-fortet]
[papoulis] [picinbono1] [saporta].
Par exemple, le lancer d’une pièce peut conduire aux deux
résultats possibles : obtenir face ou pile. On peut associer à
ces deux résultats respectivement les nombres et 1 et
parler des résultats possibles et 1. Chacun parmi ces deux
nombres est alors entâché d’une probabilité qui sera celle
de la face qui lui est associée. On a ainsi défini une
application de l’espace probabilisé associé à
l’expérience sur l’ensemble des réels, chacune des valeurs
prises par cette application étant affectée d’une
probabilité égale à celle de tous les antécédents de
. La loi de probabilité d’une V.A est complètement
déterminée à partir de la probabilité introduite sur
. On considère muni de sa tribu de Borel et on
doit imposer à de vérifier la propriété suivante :
qui signifie que est une application mesurable de
l’espace probabilisé dans l’espace
probabilisable . Si , toute
application est mesurable. Toute application mesurable de
est appelée variable aléatoire
(V.A). Une V.A complexe est une application d’un espace
probabilisé sur l’ensemble des nombre complexes telle que ses
parties réelle et imaginaire sont des variables aléatoires
réelles.
0.9 Loi de probabilité d’une variable aléatoire
A chaque V.A définie sur est associée sa « loi de
distribution de probabilités » ou simplement sa « loi de probabilité ». La loi de
probabilité d’une V.A , notée , est définie à partir de par :
Pour une autre V.A, , définie sur le même espace probabilisé
, la loi de probabilité sera notée mais s’il n’y a pas d’anbiguïté,
on utilise la même notation pour la loi de probabilité de , de et
même pour celles de toutes les V.A définies sur .
Exemple 0.9.1
Variable certaine et variable aléatoire
Si l’espace probabilisé est défini par la tribu grossière , toute application constante de dans
est une V.A. Ce cas correspond à une variable dite certaine. Si l’espace est
défini par une tribu de Bernoulli la fonction indicatrice de est une V.A dite variable indicatrice de
l’événement . Si l’espace est défini par une tribu engendrée
par une partition , une application est une
V.A. si, et seulement si, est constante sur chaque .
Exemple 0.9.2
La notion de V.A dépend de la tribu choisie
On considère l’espace probabilisable
avec Soit l’application numérique telle que
et étant deux éléments distincts de , on ait :
Montrer que n’est pas une V.A sur l’espace probabilisable considéré. En
déduire que les seule fonctions pouvant être des V.A sur
sont les fonctions constantes.
Proposition 0.9.3
La loi de probabilité d’une V.A est complètement déterminée
par l’application de dans définie par :
(13) |
où désigne l’ensemble de valeurs de appartenant à
. Cette
application est appelée fonction de répartition de .
Parfois la fonction de répartition est définie par:
et on l’identité:
On conviendra dans toute la suite que la fonction de répartition
est définie par (13). Elle possède alors les
propriétés suivantes.
Non décroissance
Valeurs à l’infini
Continuité : la fonction de répartition admet des
limites à droite et à gauche en tout point , ses
discontinuités éventuelles sont bornées et elle est continue
à droite en tout point .
Proposition 0.9.4
Une
fonction est une fonction de répartition si, et seulement si, elle vérifie
les trois propriétés suivantes :
-
•
est non décroissante
-
•
-
•
est continu à droite en tout point de .
Exemple 0.9.5
Exemples de fonctions de répartition.
Les fonctions suivantes sont
des fonctions de répartition.
La fonction est la fonction de répartition d’une V.A discrète qui ne
peut prendre que les valeurs avec une probabilité 1/2. On a une seule
V.A associée à , car est une fonction en escaliers. La fonction
est la fonction de répartition d’une V.A continue qui peut prendre « toute
les valeurs réelles ». Il existe une infinité de V.A admettant comme
fonction de répartition. Deux telles V.A ne peuvent être différentes que sur
un ensemble de de probabilité nulle (elles sont dites égales presque
partout au sens de la mesure ). La fonction est la fonction de répartition
d’une V.A continue ne pouvant prendre que des valeurs négatives et la valeur 0
avec une probabilité 1/2. Comme pour , il existe une infinité de V.A admettant
comme fonction de répartition.
Dans la majorité des problèmes pratiques, on ignore
complètement l’espace probabilisé et on définit une V.A
par la donnée de sa fonction de répartition . Il existe une
infinité de V.A associées à et l’information contenue
dans est commune à toutes ces V.A. La probabilité pour que
chacune de ces V.A prenne ses valeurs dans un intervalle
s’exprime à l’aide de par:
(14) |
Variable aléatoire discrète Une V.A définie sur
est dite discrète si elle ne prend qu’un nombre fini ou
dénombrable de valeurs avec des probabilités non nulles. Il
existe donc une suite de nombres strictement positifs dont
la somme vaut 1 et une suite de réels tels que et .
Variable aléatoire continue Une V.A définie sur
est dite absolument continue s’il existe une fonction
telle que la fonction de répartition de se mette sous la
forme
(15) |
La fonction de répartition d’une V.A absolument continue est dite fonction
absolument continue et la fonction est appelée densité de probabilité de
. On a donc
(16) |
Une fonction positive, continue par morceau et qui vérifie
(17) |
est une densité de probabilité. La fonction de répartition associée est alors
définie par (15).
0.10 Fonction de répartition et densité de probabilité
D’une manière générale, une V.A peut être définie par la donnée d’une
fonction non décroissante vérifiant et
. Cette fonction est la fonction de répartition de la
V.A considérée. Un élément différentiel de
, centré en , porte l’élément de probabilité :
(18) |
où représente la dérivée de qui doit exister sauf aux points
et
(19) |
la distribution de Dirac centrée en , . Cette forme de fait apparaître une densité
généralisée au sens des distributions qui est valable aussi
bien pour représenter les V.A discrètes que les V.A continues.
Dans toute la suite, il ne sera fait aucune distinction entre
, et . On utilisera surtout la notation et si
l’on considère plusieurs V.A en même temps, on introduira des
indices pour distinguer les fonctions associées (par
exemple, , Pour une V.A absolument continue,
l’élément se réduit au seul terme et pour
une V.A discrète, ne contient pas le terme .
D’où
Exemple 0.10.1
Fonction de répartion d’une V.A discrète
Une V.A pouvant prendre les valeurs discrètes avec les probabilités respectives admet
comme fonction de répartition, la fonction définie par :
(21) |
0.11 Fonction d’une variable aléatoire
Soit une fonction déterministe de dans . A toute V.A réelle on
associe la nouvelle V.A dont chacune des valeurs y est obtenue comme
image d’au moins une valeur de . On pose
(22) |
et l’on dit que la V.A est l’image de par la fonction . On se
propose alors de déterminer la densité de probabilité et la fonction de
répartition de à partir de la densité et de la fonction de
répartition de . Le cas le plus simple corréspond à des fonction
monotones. Par exemple si est une bijection croissante, on obtient
D’où
(23) |
Si l’on suppose et dérivables, on
obtient, en distinguant les cas croissante et
décroissante :
(24) |
Exemple 0.11.1
Fonction affine d’une V.A
Dans le cas d’une fonction affine , un raisonnement
direct conduit à:
Exemple 0.11.2
Fonction quadratique d’une V.A
Considérons maintenant le cas de la fonction . Pour déterminer , introduisons l’événement :
On a par définition . D’où pour et pour
, on a :
La dérivée de donne la densité pour
et
Cette densité peut se mettre sous la forme :
Ce résultat peut s’obtenir directement en partant de
(24) et en introduisant les restrictions monotones de
définies sur et . Utilisant ce même
raisonnement, on peut généraliser 0.11 au cas des
fonctions quelconques pour obtenir la relation suivante :
(25) |
avec
0.12 Espérance mathématique, variance et écart type
L’espérance mathématique d’une V.A
, si elle existe, est donnée par :
L’espérance n’existe pas toujours. Par exemple, pour la
densité de probabilité:
(27) |
l’intégrale est divergente. De même, on peut
déterminer pour que la fonction définie par pour
et pour soit une densité
de probabilité. On peut vérifier que n’existe pas.
Lorsque existe, pour tout réel donné on a :
(28) | |||||
Théorème fondamental
Pour toute
fonction déterministe et toute V.A telles que les
espérances de et de existent, on a :
(29) |
Pour faciliter la compréhension de ce théorème, nous donnons
sa démonstration dans le cas d’une V.A discrète. Supposons que
peut prendre les valeurs suivantes :
avec les probabilités . Supposons
que la fonction qui n’est pas forcément injective, prend les
valeurs et que pour
Comme on obtient
Cette démonstration se généralise sans difficulté au cas
d’une V.A continue.
On peut établir que si est une fonction convexe et une
V.A telle que les espérances de et de existent, alors
on a :
(30) |
Le théorème fondamental ci-dessus est très important puisqu’il
permet de calculer directement à partir de sans
passer par la détermination de la loi de . Il permet aussi
d’introduire les grandeurs suivantes associées à
une V.A.
La variance d’une variable aléatoire est la quantité positive
ou nulle définie par
(31) |
Le nombre positif défini par (31) est appelé écart
type de .
La fonction déterministe atteint son minimum pour
et l’on a
(32) |
Cette relation est à comparer avec la formule de König-Huyghens sur les
moments d’inertie. On déduit de (32) les résultats suivants valables pour
tout nombre déterministe
On a souvent besoin de connaître un majorant de la probabilité
de l’ensemble des valeurs de vérifiant . L’inégalité de Bienaymé-Tchebyshev donnée
par :
(33) |
permet d’avoir un tel majorant en fonction de la valeur moyenne et
de l’écart type de la V.A. Cette inégalité ne nécessite
donc pas la connaissance complète de et pour l’établir, on
peut se reporter à l’exercice LABEL:exer:1b03.
Exemple 0.12.1
V.A prenant des valeurs entières
Si est une V.A à valeurs entières , on a
l’égalité suivante :
(34) |
En effet, on a Prob
Prob Prob. D’où en prenant
et en sommant membre à membre les
égalités obtenues, on obtient le résultat énoncé.
0.13 Fonctions caractéristiques, moments, cumulants
La fonction caractéristique d’une V.A réelle est la transformée de Fourier
de sa mesure de probabilité. Elle est notée couramment et on a
par définition :
(35) |
Comme est une mesure bornée et , la fonction
existe toujours et elle est continue. Lorsque est une mesure
absolument continue on a :
(36) |
où désigne la densité de probabilité de . La fonction
caractéristique possède les propriétés suivantes qui découlent
directement de sa définition.
Pour tout entier positif , on définit le moment centré
d’ordre , s’il existe, par
et les moments non centrés par
Les moments peuvent se calculer à partir de la fonction
caractéristique. En effet, si est dérivable à l’ordre
on a :
(37) |
et si admet un développement en série au voisinage de 0,
il est donné par :
(38) |
D’après les propriétés de la transformée de Fourier, deux V.A ayant
la même fonction caractéristique ont forcément la même loi de probabilité. Les
formules d’inversion de la transformée de Fourier permettent d’obtenir
(39) |
Si
alors admet une densité de probabilité continue donnée par
(40) |
Il est facile d’établir qu’une fonction caractéristique vérifie toujours :
(41) |
et ceci pour toute famille finie de réels et pour toute famille finie de complexes . Une fonction vérifiant cette propriété est dite
définie non négative.
Théorème de Bochner Une fonction continue est une
fonction caractéristique si, et seulement si, elle est définie
non négative.
Exemple 0.13.1
Fonction caractéristique d’une V.A
uniforme
Soit une variable aléatoire réelle de densité
uniforme sur . On définit les variables et où désigne un réel
fixé.
-
1.
Déterminer les espérances mathématiques et .
-
2.
En déduire, sans calcul, la fonction caractéristique de .
Comme toute fonction caractéristique est continue au voisinage de 0 et
vérifie , il existe un voisinage de 0 dans
lequel . Pour , on peut donc définir la
seconde fonction caractéristique de par :
(42) |
Comme est complexe, on choisit la détermination de la fonction
logarithme qui s’annule pour . Si est dérivable à l’ordre on pose
et le réel est appelé cumulant d’ordre de .
Si admet un développement en série au voisinage de 0, ce
dernier est donné par :
Remarque 0.13.2
Partant de la relation entre et et utilisant
un développement limité, on peut établir des relations entre les
cumulants et les moments d’une V.A .
0.14 Fonction génératrice
Soit une V.A pouvant prendre les valeurs avec les
probabilités On peut associer à sa fonction
caractéristique mais on lui préfère la fonction définie par
appelée fonction génératrice de la V.A . Toute fonction génératrice
est holomorphe sur le disque . En effet, comme
la série est absolument et donc uniformément convergente sur le disque
. La fonction génératrice peut se mettre sous la forme suivante :
qui permet d’introduire les moments factoriels d’ordre d’une V.A .
Ces moments sont définis par :
Ces moments factoriels sont définis aussi bien pour une V.A discrète que
pour une V.A continue mais ils présentent un intérêt
surtout dans le cas d’une V.A à valeurs entières grâce au résultat
suivant :
0.15 Lois de probabilités classiques
Loi uniforme Une V.A discrète est dite uniforme si
elle prend un nombre fini de valeurs avec
les mêmes probabilités . Une V.A continue est dite
uniforme sur si elle admet une densité de probabilité
définie par :
où est la fonction indicatrice de . On a :
Loi de Benoulli et loi binomiale La loi
de Benoulli de paramètre est la loi d’une V.A ne pouvant
prendre que deux valeurs (en général, on se ramène à 1 et
0) avec les probabilités et . On a donc
et par suite
La loi binomiale peut être introduite de plusieurs manières différentes.
C’est la loi de la variable égal au nombre de succés lorsqu’on répète
une même expérience fois dans des conditions indépendantes sachant que
cette expérience conduit à deux résultats complémentaires : succés ou échec.
Introduisant cette loi en considérant une urne contenant boules dont la
couleur est soit blanche soit noire. Soit la proportion de boules
blanches et celle des boules noires. Supposons que l’on
effectue un tirage avec remise de boules. Nous supposons donc que
les tirages successifs sont des épreuves indépendantes. On définit
ainsi une V.A prenant comme valeurs le nombre de boules blanches
tirées. La loi de est donnée par :
(43) |
Les probabilités sont données par le développement du binôme
et pour cette raison, cette loi est appelée loi binomiale de
paramètres et . On la note et on a :
Il est facile de voir que si suit une loi , la
variable définie par suit alors une loi . Dans la pratique on est souvent conduit à étudier la
V.A
appelée fréquence. Si la variable suit
une loi binomiale , on obtient facilement
La variable prend des valeurs non entière mais suit elle aussi la loi
.
Loi multinomiale et loi du tirage exhaustif Soit une
urne contenant boules dont les couleurs sont
numérotées par . Soit la porportion de
boules de couleur . Supposons que l’on
effectue un tirage avec remise de boules. Nous supposons donc
que les tirages successifs sont des épreuves
indépendantes. On définit ainsi une V.A prenant comme valeurs
où représente le nombre de boules de couleur
tirées. On obtient aprés calculs :
Cette loi est appelé loi multinomiale car
est donné par le terme général du développement suivant
Soit une population de individus parmi lesquels une proportion
possède une propriété . On prélève un échantillon de individus
parmi cette population (le tirage s’effectuant d’un seul coup ou au
fur-et-à-mesure
mais sans remise). Soit la V.A prenant comme valeur le nombre d’individus
de l’échantillon possédant la propriété . On montre alors que
(44) |
et un simple calcul donne
Loi de Poisson de paramètre : C’est la loi d’une V.A entière pouvant prendre les
valeurs avec les probabilités suivantes :
(45) |
Un calcul simple donne
Exemple 0.15.1
Loi de Poisson pondérée
Déterminer la fonction génératrice d’une V.A à valeurs entières pour laquelle les
sont donnés par:
On a
Loi exponentielle de paramètre : Cette loi est définie par
On a :
Loi de Laplace-Gauss ou loi normale : Cette loi joue un rôle fondamental dans la pratique.
Elle constitue un modèle fréquemment utilisé dans diverses
applications. Une V.A suit une loi normale si sa densité de
probabilité est donnée par
(46) |
Si suit la loi normale , on montre que
Si on effectue le changement de variable
la nouvelle variable suit aussi une loi appelée loi normale
centrée et réduite et on a :
La graphe de
, appelé courbe en cloche, admet comme asymptote l’axe des
abscisses et deux points d’inflexion aux points
(voir graphe de à la fin de ce chapitre). La fonction
caractéristique de la variable réduite est donnée par :
La probabilité pour que appartienne à l’intervalle est donnée
soit par
soit par :
Dans la pratique, on introduit la fonction de répartition de
et on utilise des tables pour calculer les valeurs de cette
fonction.
0.16 Couple aléatoire
0.17 Statistiques à 2 dimensions
Nous considérons une population d’effectif total et
dont chaque élément présente deux caractères et .
Soit, par exemple, un ensemble d’individus dont on veut
étudier la taille et le poids . A chaque individu
on associe la valeur de sa taille et de
son poids . Dans la pratique, on peut supposer que
et appartiennent respectivement aux intervalles
et . On subdivise alors en sous-intervalles
de même amplitude et on appelle les centres de ces intervalles. La même opération sur
conduit à sous-intervalles de même amplitude dont
les centres sont . Au lieu
d’associer à chaque individu le couple , on
convient de lui associer le couple défini par les
centres des intervalles contenant respectivement et . Ainsi
un même couple peut être associé à plusieurs
individus . On appelle série statistique double de
pour les caractères et l’application qui à
chaque élément de associe le couple . Si, par rapport à un repère cartésien , nous
marquons les points de coordonnées , nous obtenons un
graphique appelé nuage de points ou « graphe » de la série
statistique double. Soit une série statistique double, dont le
caractère a pour valeurs , , et le caractère a pour valeurs . On appelle effectif partiel du couple
le nombre des éléments de la
population dont les valeurs des caractères sont
respectivement et . Nous obtenons le tableau
1.
… | … | Totaux | |||||
… | … | ||||||
… | … | ||||||
… | … | … | … | … | … | … | … |
… | … | ||||||
… | … | … | … | … | … | … | … |
… | … | ||||||
Totaux | … | … |
Les fréquences partielles sont définies par :
La somme des effectifs partiels contenus dans la ligne de
est
égale à l’effectif des éléments dont la valeur du
caractère est . On représente par le symbol
cette somme, le point remplaçant l’indice de
sommation qui disparait. Les nombres sont appelés
effectifs marginaux et ils vérifient :
On appelle fréquence marginale de , le rapport
On suppose que tous les effectifs marginaux sont
différnts de 0 et on appelle fréquence conditionnelle de la valeur
sachant , le nombre noté donné par :
On obtient la relation relation suivante qui relie
les trois types de fréquence :
Inversant les rôles de et , on obtient:
Comme les fréquences conditionnelles vérifient :
les nombres pour fixé (res.
pour fixé) définissent des distributions de probabilité,
appelées probabilités conditionnelles du caractère
sachant (res. du caractère sachant ).
0.18 Loi conjointe, loi marginale et loi conditionnelle
Dans ce qui précède, nous avons introduit une application qui associe à
chaque élément le couple de et
le nombre compris entre 0 et 1 et tel que les vérifient
(LABEL:4-3). On a ainsi défini une variable aléatoire
sur à partir des
probabilités associées à toutes les valeurs possibles
du couple .
On remarque que la connaissance des deux V.A et est
insuffisante pour déterminer la loi du couple .
Considérons une population
d’effectif total pouvant être fini, dénombrable ou non
dénombrable. Chaque élément présente deux caractères
et . Chacun des deux caractères et peut être
considéré comme une V.A et l’on se propose de faire une étude
conjointe du couple . Soient deux V.A et
définies sur le même espace probabilisé .
Ces variables sont donc des fonctions mesurables de sur
associant à tout élément de un couple de
réels . La variable
aléatoire à deux dimensions est définie par
(47) |
où représente la tribue de Borel sur .
Loi conjointe La loi de probabilité conjointe d’un couple
aléatoire est la loi qui donne la probabilité, notée
, du couple . Elle est définie par la
connaissance, pour tout , des
probabilités :
(48) |
Les ensembles de valeurs de qui n’ont pas
d’antécédent ont donc une probabilité nulle.
Fonction de répartition La fonction de répartition d’un
couple aléatoire est la fonction de dans
définie par
(49) |
Proposition 0.18.1
La fonction est une fonction de répartition si,
et seulement si, elle est non décroissante par rapport aux
variables et et vérifie:
où et désignent les limites par valeurs inférieures.
La loi de probabilité est une mesure de masse totale 1 définie
sur et la fonction de répartition donne la
valeur de cette mesure sur le quart de plan
comme l’indique la relation :
(50) |
Si la fonction est absolument continue sur ,
i.e., il existe une fonction telle que
(51) |
le couple aléatoire est dit absolument continu et la fonction
est appelée densité de probabilité conjointe de . La
fonction est alors dérivable en tout point , sauf en un
ensemble fini ou dénombrable de points, et l’on a
(52) |
Comme est non décroissante par rapport à et , on peut en
déduire que
(53) |
Dans le cas où ne peut prendre qu’un nombre fini ou dénombrable de
valeurs avec des probabilités ponctuelles , le couple est dit discret. On lui associe alors la densité définie
par la distribution suivante :
(54) |
où est la distribution de Dirac à deux
dimensions.
D’une manière générale, un couple est défini par la
donnée d’une fonction de répartition. A cette fonction, on peut
associer une densité de probabilité égale à
la somme d’une composante continue et d’une autre composante discrète.
Soit :
(55) |
où les sont tous nuls pour un couple continu et est
identiquement nulle pour un couple discret. La fonction de répartition s’écrit
donc
(56) |
Si est absolument continu, on a forcément
et pour tout et tout
. Une simple observation du graphe représentant le
rectangle conduit à la relation :
Cette probabilité peut donc être représentée par un volume
du prisme compris entre le plan et la surface d’équation
.
Lois marginales On peut s’intéresser à la projection de
la probabilité sur chacune des coordonnées et
. On définit alors les fonctions de répartition des
variables et prises indépendemment l’une de l’autre. Ces
fonctions, appelées aussi fonctions de répartition marginales,
ont pour expressions :
(57) |
et
(58) |
Ce sont des fonctions d’une seule variable : ou . Pour un couple
continu, les densités de probabilité (appelées densités marginales)
s’introduisent alors naturellement comme suit :
(59) |
et
(60) |
Loi conditionnelle Pour mesurer un lien éventuel pouvant
exister entre deux V.A et , on introduit le concept de lois
de probabilités conditionnelles. Il s’agit de trouver la loi de
probabilité d’une V.A lorsque la seconde a une valeur fixée.
On se place directement dans le cas d’un couple continu. Soit
et les événements définis par :
et
On a
Le théorème sur les probabilités conditionnelles conduit à la définition de la
probabilité de conditionnellement à comme suit :
(61) |
On définit alors la densité de probabilité de
conditionnellement à , notée , de sorte que :
(62) |
Pour fixé, le couple est une V.A dont la
densité de probabilité est donnée par .
On introduit aussi la fonction de répartition conditionnelle
définie par
Inversant les rôles de et , on définit la densite
et la fonction de répartition de .
Espérance mathématique et loi conjointe L’espérance
d’une V.A se calcule à partir de la loi conjointe du couple
comme suit :
Proposition 0.18.2
Pour tout couple aléatoire et tout couple de scalaire
on a
(64) |
0.19 Variables aléatoires indépendantes
Deux V.A réelles définies sur le même espace sont dites
indépendantes si , on a :
(65) |
ceci équivaut à dire que la loi de probabilité du couple est égale au
produit des lois (lois marginales) de chacune des variables et prises
séparément.
Proposition 0.19.1
Deux V.A sont indépendantes si, et seulement
si, la fonction de répartition du couple est égale au produit des
fonctions de répartition marginales de et , i.e.
(66) |
Comme conséquence directe de la définition, on peut établir que si
et sont deux V.A indépendantes, on a :
(67) |
0.20 Fonction de deux variables aléatoires
Cas d’une fonction quelconque Soit une fonction
déterministe de dans définie par
(68) |
On dit que le couple aléatoire est l’image par du couple . Comme dans le cas d’une V.A, on peut être conduit à déterminer la densité
de probabilité et la fonction de répartition de à
partir de la densité et de la fonction de répartition
de .
Proposition 0.20.1
Si la V.A est définie par , son
espérance peut se calculer de deux manières différentes comme suit :
(69) |
Ce résultat est la généralisation au cas d’un couple du
théorème déjà établi pour une V.A. Il permet de calculer
l’espérance de directement à partir de la loi du couple
et sans passer par la détermination de la loi de .
Somme et produit de deux V.A, inverse d’une V.A On va
déterminer la loi de la V.A définie par en
fonction de celle du couple dans le cas général où
les variables ne sont pas forcément indépendantes. Nous
considérons directement le cas d’un couple continu, le cas
discret pouvant être traîté d’une façon similaire.
Nous allons faire ce calcul de deux manières différentes. La
première consiste à introduire la fonction déterministe
de dans , définie par :
calculer ensuite la densité en fonction de et
déterminer
enfin la densité de comme densité marginale. La deuxième méthode
consiste à calculer directement la fonction de répartition de et
d’en déduire ensuite en dérivant par rapport à .
Méthode 1 L’expressionde peut s’inverser et
conduire à la solution unique . Comme le
Jacobien de l’application (67) vérifie
pour tout , l’application est inversible et tout
élément de surface infinitésimale centré en
se transforme en un élément centré
en et réciproquement. Les probabilités associées
à et sont les mêmes et l’on a
Comme les deux surfaces et vérifient , on obtient
La densité de , définie en tant que densité marginale, est donnée par
(70) |
Méthode 2 On commence par calculer la fonction de
répartition :
La dérivation de sous le signe intégral, par rapport
à , conduit immédiatement à l’expression de obtenue
ci-dessus. Si les V.A et sont indépendantes, la
densité se factorise et on obtient:
Proposition 0.20.2
La densité de la somme de deux V.A indépendantes est
égale au produit de convolution des densités de chacune des deux V.A.
On peut vérifier facilement les résultats suivants:
-
1.
La somme des deux V.A de Poisson indépendantes de
paramètres et est une V.A de Poisson de paramètre
. -
2.
La somme de deux V.A binomiales indépendantes de
lois et est une V.A binomiale . -
3.
La somme de deux V.A gaussiennes (normales) indépendantes de lois
et est une V.A gaussienne de loi . On verra plus loin que la somme
de V.A
gaussiennes dans leur ensemble est aussi une V.A gaussienne même si
ces V.A sont liées. Mais dans ce dernier cas la variance de la somme
n’est plus égale à la somme des variances.
Exemple 0.20.3
Indépendance de V.A uniformes sur un rectangle
Soit uniforme sur le carré . On peut
vérifier facilement que et sont indépendantes et donc
la densité de est égale au produit de
convolution:
C’est donc le produit de convolution de la fonction indicatrice de
l’intervalle par elle-même. On obtient la fonction
triangle symétrique de support et qui admet
comme sommet.
Exemple 0.20.4
: Mise en série de deux résistances
On considère deux résistances . On suppose que
et sont deux variables aléatoires indépendantes et que chaque a une loi uniforme sur
l’intervalle , .
-
1.
Exprimer l’espérance et l’écart type de en fonction de et de
. -
2.
On s’intéresse à la mise en série des résistances . Donner la
densité de probabilité de la résistance et
tracer son graphe.
La loi du produit de deux V.A peut être établie à partir de la loi
conjointe en suivant la démarche adoptée pour établir la loi d’une
somme. On sait que si les 2 V.A sont indépendantes, cette loi est
égale au produit des lois de chacune des 2 V.A. Dans le cas général, on
n’a pas d’expression explicite. Donnons maintenant sur un exemple la
façon de traiter l’inverse d’une V.A.
Exemple 0.20.5
: Mise en parallèle de deux résistances
On considère deux résistances . On suppose que
et sont deux variables aléatoires indépendantes et que chaque a une loi uniforme sur
l’intervalle , . On
s’intéresse à la mise en parallèle des résistances . On suppose que (résistances de bonne
qualité). Donner des expressions simplifiées pour les
densités suivantes.
-
1.
Densité de
-
2.
Densité de .
-
3.
Densité de .
0.21 Covariance et coefficient de corrélation
Comme dans le cas d’une V.A à une dimension, la variance de la V.A est
définie par
(71) |
et l’on a une expression analogue pour la variable . Mais les
grandeurs et ne permettent pas
de mesurer un lien éventuel pouvant exister entre et . On
introduit alors la nouvelle quantité, appelée covariance de
et , définie par :
(72) |
On peut vérifier, directement à partir de sa définition, que l’opérateur
possède les propriétés suivantes :
L’espérance est un polynôme de degré 2 par rapport à
la variable . Comme ce polynôme ne prend que des valeurs non
négatives lorsque varie sur , on peut en déduire
l’inégalité
suivante (Inégalité de Schwarz) :
(73) |
Cette inégalité montre que le nombre
(74) |
appelé coefficient de corrélation linéaire de , vérifie
(75) |
Deux V.A et sont dites non corrélées si elles vérifient la
propriété suivante :
(76) |
On dit aussi que les deux V.A sont orthogonales. Il est facile de voir que
et sont non corrélées si, et seulement si, . On admet que
plus la valeur absolue de est proche de 1, plus les V.A sont
corrélées. Donc plus est proche de 0, plus les V.A sont
décorrélées et elles sont orthogonales pour . Deux V.A
indépendantes sont forcément non corrélées et ceci pour toute loi de
probabilité. La réciproque est fausse pour une loi de probabilité
quelconque mais peut être vraie pour certaines lois particulières comme
la loi de Gauss. Cependant la non corrélation conduit au résultat
suivant important dans la pratique : si deux V.A et sont non
corrélées, on a pour tout couple de nombres réels :
(77) |
Le coefficient de corrélation entre et représente
le cosinus de l’angle formé par les vecteurs et . Un coefficient de corrélation nul exclut l’existence de
relation linéaire entre et mais n’exclut pas l’existence
d’autres types de relations.
Dans la pratique, la notion d’indépendance est difficile à vérifier et
on préfère se limiter à savoir si deux V.A sont plus ou moins
corrélées. L’étude d’un couple aléatoire se fait donc souvent, de
manière incomplète, à partir de la seule connaissance de la matrice
définie par :
(78) |
Cette matrice symétrique, dénommée matrice de covariance ou
matrice de corrélation du couple aléatoire est complètement déterminée
par les moments du second ordre du couple . Elle possède des
propriétés importantes qui seront énoncées plus loin dans le cas
général d’un vecteur aléatoire.
Exemple 0.21.1
: V.A non corrélées et dépendantes
On considère le couple aléatoire uniformément
réparti à l’intérieur d’un cercle de rayon et centré
à l’origine des coordonnées. Les densités marginales sont
données par:
On vérifie que et les varibles
et ne sont donc pas indépendantes. Un calcul simple
conduit à et donc les
variables sont corrélées.
Exemple 0.21.2
: V.A corrélées et indépendantes
Les deux V.A de densité conjointe :
sont évidemment indépendantes et un calcul simple montre
qu’elles sont corrélées.
0.22 Fonction caractéristique d’un couple aléatoire
On appelle fonction caractéristique d’un couple aléatoire
la fonction de dans définie par
(79) |
On a donc
La fonction caractéristique est la transformée de Fourier de la
densité de probabilité du couple aléatoire. Elle possède donc des
propriétés importantes qui ne seront pas développées ici. Par exemple,
deux V.A et sont indépendantes si, et seulement si, la fonction
caractéristique du couple est égale au produit de celles de et
, i.e.,
(81) |
0.23 Espérance et variance conditionnelles et totales
Soit une V.A réelle et une V.A pouvant être
qualitative. Pour une valeur fixée (ou une situation possible dans le
cas où est qualitative), le couple se réduit à la V.A .
L’espérance mathématique de est une fonction à valeurs réelles
de la variable :
(82) |
Cette fonction est donc une V.A qui
prend les valeurs avec les probabilités . Cette V.A est
appelée espérance conditionnelle de sachant . On la note
et l’on a :
(83) |
On définit de la même manière l’espérance conditionnelle de sachant
par
(84) |
Si et sont trois V.A définies sur le même espace probabilisé et
un couple de réels, la définition de l’espérance conditionnelle
conduit à la relation suivante :
(85) |
Théorème de l’espérance totale Si et sont deux
V.A définies sur le même espace probabilisé alors
l’espérance de , appelée espérance totale, est donnée
par
(86) |
La démonstration de ce résultat important est donné ci-dessous, dans la
cas d’un couple continu. On a :
Théorème de la variance totale Si et sont deux
V.A définies sur le même espace probabilisé alors la
variance de , appelée variance totale, est donnée par:
(87) |
oú
est appelée variance conditionnelle.
On introduit parfois le nombre , appelé
rapport de corrélation de en , défini par :
(88) |
Ce nombre vérifie . Si
, alors est reliée à par une
relation
fonctionnelle au sens de l’analyse classique.
Si , alors est égal à
une constante avec une probabilité 1.
En effet, si , alors on a , i.e. avec une probabilité 1.
Pour fixé, la V.A ne prend qu’une seule valeur
. Le rapport est donc maximal
si est reliée à par une relation fonctionnelle
au sens de
l’analyse classique.
Si , alors on a , i.e.
est égal à une constante avec une probabilité 1. On dit qu’il y a
absence de dépendance en moyenne entre et .
0.24 Espérance conditionnelle et projection
Nous allons donner une interprétation des grandeurs associées à un couple aléatoire en se
plaçant directement dans le cas des V.A complexes.
Un couple à valeurs complexes est une application d’un espace
probabilisé sur l’ensemble des nombres complexes dont chacune
des deux composantes et est une V.A à valeurs complexes.
Rappelons que est une V.A à valeurs complexes si ses parties réelle
et imaginaire sont des variables aléatoires réelles.
Soit l’ensemble des V.A réelles
ou complexes définies sur le même espace probabilisé pour
lesquelles
(89) |
Considérons sur la relation d’équivalence ssi avec
une probabilité 1, c’est-à-dire la probabilité de l’ensemble
des pour lesquels est nulle.
L’ensemble, dénommé , de toutes les classes d’équivalence ainsi
définies est un espace vectoriel complet pour la topologie définie par
la norme
(90) |
En effet, il est facile de vérifier que (90) définit bien une norme
puisque
(91) |
L’ensemble est donc un espace de Hilbert et il appelé
ensemble des V.A de carré sommable ou d’ordre deux. La
définition de la covariance d’un couple aléatoire complexe
généralise comme suit :
(92) |
où désigne le complexe conjugué de . L’écart type et la
covariance sont donc la norme et le produit scalaire des V.A centrées.
Proposition 0.24.1
L’ensemble des V.A constantes
(nombres déterministes) est une droite vectorielle de .
L’opérateur qui à une V.A de associe le nombre scalaire
est l’opérateur projection orthogonale sur .
Ce résultat est une conséquence directe du fait que le minimum de
est atteint pour .
Proposition 0.24.2
Soit le sous-espace vectoriel de formé par les V.A qui
sont fonction de la V.A fixée . Alors, l’espace est convexe et
contient la droite des constantes . C’est un sous-espace de Hilbert
fermé et l’opérateur projection orthogonale sur
est définie par :
(93) |
Les V.A et sont orthogonales.
Démontrons à titre d’exemple que l’opérateur
vérifie les deux propriétés suivantes (c’est donc un
projecteur):
La première propriété est évidente d’après la
définition de l’espérance conditionnelle. La deuxième
propriété s’obtient en utilisant le théorème de
l’espérance totale. On a en effet :
et ceci prouve la propriété par symétrie.
Remarque 0.24.3
Le théorème de la variance totale s’interprète comme le théorème de
Pythagore appliqué au triangle dont les cotés sont ,
et , qui est rectangle en
. En effet, on a :
0.25 Vecteur Aléatoire
0.26 Passage d’un couple à un vecteur aléatoire
L’étude de la loi de probabilité d’une V.A peut dépendre de la
connaissance des valeurs prises par d’autres V.A .
Pour faire cette étude, il faut connaître en premier lieu la distribution de
probabilité du -uplet qui est une application
mesurable de dans . D’où la notion de
vecteur aléatoire. Associons aux V.A
, définies sur le même espace
probabilisé , le -uplet
(95) |
appelé variable aléatoire à dimensions ou
vecteur aléatoire à composantes.
La loi de probabilité d’un vecteur aléatoire est la loi qui donne la
probabilité, notée , pour que prenne ses valeurs
dans un sous-ensemble quelconque de . Cette loi est définie
naturellement par :
(96) | |||
(97) |
et ceci pour toute partie de .
Proposition 0.26.1
La loi d’un vecteur aléatoire est complètement déterminée à
partir de l’application
de dans définie par
(98) |
Cette application est appelée fonction de répartition de .
L’espérance mathématique d’un vecteur aléatoire est le vecteur
certain de défini par :
(99) |
Un vecteur aléatoire est dit centré s’il vérifie la condition
(100) |
0.27 Fonction de plusieurs variables aléatoires
Soit une fonction déterministe de dans
définie par
(101) |
Si les désignent des V.A, alors chaque est une V.A
monodimensionnelle, , fonction des V.A
. Comme dans le cas d’un couple
aléatoire, on a le théorème suivant.
Proposition 0.27.1
Si la V.A est définie par , son espérance peut se calculer à partir de la
loi conjointe de comme suit :
(102) |
Ce résultat généralise les théorèmes déjà énoncés pour une V.A et pour
un couple. Les notions de densités conjointes, de lois marginales
et de lois conditionnelles, introduites pour un couple aléatoire,
se généralisent également de manière naturelle aux vecteurs
aléatoires.
La loi d’un vecteur aléatoire se rattache à celle d’une V.A comme le
précise le résultat important suivant.
Proposition 0.27.2
La loi de probabilité d’un vecteur aléatoire
est entièrement déterminée par celles de toutes
les combinaisons
linéaires des composantes de . Elle est donc déterminée par
l’application
de dans
définie par :
(103) |
et dénommée fonction caractéristique du vecteur .
Exemple 0.27.3
Soit , une suite de V.A
de Bernoulli indépendantes et de même paramètre . La loi de
probabilité de la variable définie par
(104) |
est une loi . Démontrer que la
fonction caractéristique de est égale au produit de
celles des . En déduire que
(105) |
Exemple 0.27.4
Loi d’une somme aléatoire de V.A
indépendantes
On considère V.A, définies sur le même
espace probabilisé, indépendantes et de même loi (). On
suppose que est aussi une VA. On se propose d’exprimer la
fonction caractéristique de la nouvelle VA :
(106) |
On obtient en appliquant le théorème de l’espérance totale :
0.28 Indépendance statistique et orthogonalité
Les composantes de sont dites statistiquement indépendantes
dans leur ensemble si la fonction caractéristique
définie par (107) est égale au produit des fonctions
caractéristiques de chacune des composantes de , i.e.,
(107) |
L’indépendance ainsi définie est difficile à vérifier dans la pratique.
On se limite souvent à l’information contenue dans les moments
d’ordre 2 des composantes de . On introduit alors la
matrice de variance-covariance (ou matrice de covariance) définie par :
(108) |
Cette matrice est complètement déterminée par les moments d’ordre
2 associés au vecteur et joue un rôle important dans les
applications pratiques. Si les composantes de
sont des V.A réduites, i.e. des V.A de variances égales à
l’unité, la matrice de covariance de est appelée
matrice de corrélation. Par abus de langage, on ne fait pas de
distinctions entre matrice de corrélation et matrice de covariance. Si
a des composantes réelles, la matrice est
symétrique et elle est hermitienne dans le cas où les composantes sont
complexes. Dans les deux cas, vérifie la propriété
suivante ( matrice définie non négative) : .
(109) |
où les représentent les éléments de .
En effet, si est la V.A complexe définie par
(110) |
où les sont des nombres complexes arbitraires, on a :
(111) |
puisque l’espérance est forcément non négative.
Proposition 0.28.1
Une condition nécessaire et suffisante pour
qu’une matrice soit une matrice de covariance d’un
vecteur aléatoire est qu’elle soit définie non négative.
Les V.A sont dites non corrélées si la matrice de
corrélation du vecteur ayant pour composantes les est une
matrice diagonale. Soit
Remarque 0.28.2
Il n’y a pas de distinction entre la non corrélation deux à
deux et la non corrélation tout court. Par contre, des V.A indépendantes
deux à deux ne sont pas forcément indépendantes dans leur ensemble.
Variance d’une somme de V.A non corrélées La variance
d’une somme de V.A non corrélées est égale à la somme des
variances de chacune de ces V.A.
Pour établir ce résultat très utile dans les calculs, il
suffit d’utiliser la linéarité de l’espérance et d’appliquer
la définition de la non corrélation, i.e., si et
sont non corrélées on a .
Exemple 0.28.3
Variance d’une somme de V.A indépendantes
Un avion long-courrier peut transporter 100 passagers et
leurs bagages. Il pèse 120 tonnes, sans passagers ni bagages, mais équipage
compris et plein de carburant effectué. Les consignes de sécurité interdisent au
commandant de bord de décoller si le poids de l’appareil chargé dépasse 129.42
tonnes. Les 100 places ont été réservées. Le poids d’un voyageur suit une loi
d’espèrance mathématique 70 kg et d’écart-type 10 kg. Le poids de ses bagages suit
une loi d’espèrance mathématique 20 kg et d’écart-type 10 kg. Toutes ces variables
aléatoires sont supposées indépendantes.
-
1.
L’espérance mathématique du poids
total de l’appareil au moment du décollage est-elle conforme aux consignes de
sécurité ? -
2.
Calculer l’écart-type du poids total de l’appareil.
-
3.
Donner un majorant de la probabilité pour que le poids réel de l’appareil
au décollage dépasse 129.42 tonnes.
0.29 Vecteur gaussien réel, représentation complexe
Un vecteur aléatoire est dit vecteur gaussien
à dimensions si toute combinaison linéaire de ses
composantes est une V.A gaussienne, i.e., pour tout vecteur
déterministe , la V.A scalaire définie par :
est gaussienne.
Tenant compte des propriétés de la fonction caractéristique,
on peut supposer que est centré. Le théorème de
Cramer-Wold [Cramer] permet d’établir que la loi de est alors parfaitement déterminée. L’expression de la
fonction caractéristique se déduit de la
relation:
Comme, est par définition une gaussiènne centrée et de
variance:
oú désigne la
matrice de covariance du vecteur , on obtient:
. D’oú l’expression suivante pour
:
(112) |
Partant de cette expression, on peut établir les résultats
suivants pour un vecteur gaussien.
-
1.
Les composantes de sont indépendantes elles sont non
corrélées, i.e., si et seulement si la matrice de covariance est diagonale. -
2.
Si la matrice de covariance d’un vecteur aléatoire gaussien est inversible, admet une densité de probabilité et cette
dernière est donnée par :(113) -
3.
Les moments d’ordres impairs sont nuls, i.e.
(114) et les moments d’ordres pairs sont donnés par :
(115) où désigne une permutation de () et où la
somme est étendue à l’ensemble de tous les donnant des termes
différents. Le membre de droite de (115) comprend une somme de termes. En particulier si l’on prend , on obtient(116) -
4.
Tous les cumulants d’ordre sont nuls et la seconde fonction
caractéristique est donnée par :(117)
Exemple 0.29.1
Moment d’ordre 4 d’une V.A gaussienne
La relation (116) donne pour ,
oú désigne la variance d’une
V.A
gaussienne centrée.
Il est possible d’introduire
la définition d’un vecteur gaussien comme étant un vecteur
dont la loi est définie par (113). On démontre alors
que le caractère gaussien se conserve dans toute transformation
linéaire, i.e., si est un vecteur gaussien, alors il
en est de même pour oú est une
transformation linéaire. Cette propriété fondamentale
s’obtient en calculant la fonction caractéristique de .
Cette propriété est valable pour les vecteurs de dimension
finie ce qui est souvent le cas des espaces fonctionnels
rencontrés dans différents domaines tels que l’automatique et
le traitement du signal. Par contre, n’est plus
gaussien si est non linéaire. Les V.A gaussiennes jouent un
rôle important dans la pratique pour les raisons
suivantes.
La loi de Gauss introduit de grandes simplifications dans les
calculs.
Toute combinaison linéaire de V.A gaussiennes dans leur ensemble
est une V.A gaussienne.
La loi de Gauss s’introduit naturellement dans un très grand
nombre de problèmes en raison du « théorème central limite »
qui sera énoncé plus loin. Ce théorème relie la moyenne
arithmétique d’une infinité dénombrable de V.A à une V.A
gaussienne.
Il y a équivalence entre la notion d’indépendance et celle de
non-corrélation dans le cas de V.A gaussiennes.
Exemple 0.29.2
Carré d’une V.A gaussienne
Soit une variables aléatoires (V.A) gaussienne centrée et
de variance . On pose . Les variables et
sont statistiquement liées puisqu’il existe une relation entre
ces deux variables. On a puisque c’est le
moment d’ordre trois d’une variable gaussienne centrée. Les
variables et sont donc orthogonales. On a puisque c’est un moment d’ordre impair d’une
variable gaussienne centrée.
Exemple 0.29.3
Combinaison linéaire de deux V.A gaussiennes
Soit un couple aléatoire réel, centré et de
matrice de covariance :
On définit
la nouvelle variable aléatoire où et sont deux
constantes déterministes.
-
1.
On suppose que chacune des V.A et est gaussienne. Alors
est non gaussienne. -
2.
On suppose que chacune des V.A et est gaussienne et que
et sont indépendantes. Alors est aussi gaussienne. -
3.
On suppose que le couple est gaussien. Alors le calcul de
la fonction caractéristique de en fonction de
et montre que est gaussienne. Le calcul de
l’espérance mathématique et de la variance de est alors
immédiat.
Exemple 0.29.4
Représentation complexe d’un vecteur gaussien
Pour des raisons pratiques, la notion de V.A à valeurs complexes
joue un rôle important en traitement des signaux. Les
définitions de moments, de cumulants et de V.A gaussienne, ont
étés introduites dans le cas complexe en utilisant des
démarches plus ou moins différentes [picinbono1]. Dans la
référence, la notion de fonction caractéristique classique a
été généralisée comme suit. Si est une V.A
réelle ou complexe, sa fonction caractéristique est définie
par :
où est une variable déterministe complexe et
le complexe conjugué de . La fonction
est donc une fonction des deux variables complexes
et qui prend des valeurs réelles. Pour les variables
réelles, , est reliée à la fonction
caractéristique classique par :
où est une variable réelle. Ainsi cette extension permet
d’avoir une seule définition de la fonction caractéristique qui
est valable aussi bien pour des V.A à valeurs réelles que
complexes. En particulier, les concepts
de moments, cumulants, variable gaussienne seront définis sans
distinction entre le cas réel et le cas complexe. Les résultats
dans le cas complexe ne seront pas développés dans ce chapître.
0.30 Suites de Variables aléatoires
Si et sont deux VA définies sur le même espace
probabilisé, leur somme et leur produit définissent des
VA sur cet espace. Ce résultat s’étend au cas de plusieurs VA. L’ensemble
des VA définies sur le même espace est un sous-espace
vectoriel de l’espace vectoriel des applications de
dans . C’est également un sous-anneau de l’anneau des
applications de dans . Supposons que la loi de probabilité
d’une V.A dépend d’un paramètre pouvant prendre toutes les
valeurs entières. Les fonctions sont déterminées
à partir de la loi de probabilité introduite sur l’espace probabilisé . On peut s’intéresser aux propriétés asymptotique des . On introduit
alors pour chaque fixé, une V.A notée admettant comme
fonction de répartition. Il est clair que n’est pas unique. On défini
ainsi une suite de V.A Les dirrérentes notions de voisinage d’un point donnée
de l’espace permettent d’introduire
différents types de convergences d’une suite de V.A sur [papoulis] [picinbono1] [saporta].
Une suite de VA , appartenant à étant une suite de fonctions de dans , il existe
diverses façons de définir la notion de convergence de vers une VA limite .
Certains types de convergences jouent un rôle important en calcul des probabilités.
Quatre types de convergences vont être examinés dans cette section.
0.31 Convergence en probabilité ou convergence faible
La suite converge en probabilité vers la VA si pour tout
réel fixé, la suite numérique
(118) |
converge vers 1. On dénomme cette convergence par la -convergence. Cette
convergence exprime que pour suffisamment grand et
quelconque, la probabilité de l’événement
(119) |
est arbitrairement voisine de 1. Cette convergence est la convergence en
mesure classique où la mesure est définie par la mesure de probabilité .
0.32 Convergence presque sûre ou convergence forte
La suite converge presque sûrement (p.s.) vers si la suite
des ensembles
(120) |
tend vers un ensemble de probabilité 1 : . Cette
convergence est la convergence presque partout classique
où la mesure est définie par la mesure de probabilité .
Condition suffisante La suite converge p.s.
vers si l’une des deux conditions suivantes est vérifiée :
1. Pour tout fixé, la série à temes positifs suivante est
convergente :
(121) |
2. Il existe un réel tel que la série à termes positifs
suivante est convergente :
(122) |
On peut vérifier à titre d’exemple que la preuve du point 2
découle du point 1. en utilisant l’inégalité de Tchebyscheff
qui permet d’écrire :
(123) |
0.33 Convergence en moyenne d’ordre
La suite converge en moyenne d’ordre vers si la suite
numérique
(124) |
converge vers 0. Le cas le plus fréquent en pratique correspond
à et l’on parle dans ce cas de convergence en
moyenne quadratique (m.q).
Lemme de Loève Une condition nécessaire et suffisante
pour qu’une suite converge en m.q. est que, lorsque et
tendent vers l’infini, indépendemment l’un de l’autre, la
suite suivante tende vers une limite :
0.34 Convergence en loi
La suite de VA de fonctions de répartition
converge en loi vers la VA de fonction de répartition
si en tout point où est continue, la suite
numérique converge vers le nombre . Pour
des VA discrètes la convergence en loi vers une VA s’exprime
par converge vers pour toutes les valeurs
de .
Une suite de VA discrètes peut cependant converger vers une
VA continue (par exemple, la loi de Poisson converge vers une
loi de Gauss : voir dans la suite de ce chapitre).
Si une suite de VA admettant des densités et
une densité , alors la convergence en loi de vers
implique la convergence ponctuelle de la suite vers
en tout point .
0.35 Convergence des fonctions caractéristiques
La convergence en loi est liée à la convergence des fonctions
caractéristiques comme le précise le théorème suivant.
Levy-Cramer-Dugué 1. Si la suite converge en loi
vers alors converge uniformément sur tout
intervalle vers
.
2. Si la suite de
fonctions converge vers une fonction dont la partie
réelle est continue à l’origine, alors est une fonction caractéristique
et la suite converge en loi vers une VA dont la fonction
caractéristique est donnée par .
0.36 Liens entre les différents types de convergence
Nous allons donner très brièvement quelques résultats sur les
liens entre les 4 notions de convergence.
La p.s convergence implique la convergence en probabilité. En
effet, il est clair que est contenu dans
, introduit en (119) et donc . Comme la probabilité est majorée par
1, la condition tend vers 1 entraine
tend vers 1.
La convergence en m.q implique la convergence en probabilité. En
effet, on a
D’où
(125) |
La convergence en pobabilité implique la convergence en loi. En
effet, la convergence en probabilité implique que pour
suffisamment grand et quelconque, l’événement
définie par (119) est quasi certain. La
suite des fonctions converge donc ponctuellement vers la
fonction de répartition de .
La convergence en loi est la convergence la plus
faible dans le sens où elle est entraînée par les trois autres. Cependant,
c’est la convergence la plus utilisée en pratique car elle permet d’approximer
la fonction de répartition de par celle de pour les grandes
valeurs de .
Exemple 0.36.1
Egalités en moyenne quadratique et presque sûrement
On a en moyenne
quadratique () si, et seulement si,
presque sûrement (). En effet,
équivaut à et
équivaut à . Le résultat énoncé se déduit immédiatement de
l’égalité suivante.
0.37 Loi des grands nombres
La somme de V.A indépendantes et de même loi, on utilise souvent l’abréviation VA
qui signifie « independent and identicaly distributed », joue un rôle fondamental en
statistique. Nous donnons ici quelques résultats fondamentaux concernant ce problème.
Proposition 0.37.1
Soient une suite de VA indépendantes d’espérances finies
et de
variances finies . On pose :
(126) |
et on suppose que
(127) |
1. Loi faible des grands nombres Si
(128) |
alors la suite des V.A converge en probabilité vers .
2. Loi forte des grands nombres Si
(129) |
alors la suite des V.A converge presque sûrement vers .
Dans le cas où les est une suite d’échantillons, on
a : et
. Dans ce cas, la condition (129) est toujours vérifiée.
0.38 Théorèmes de la limité centrée
Proposition 0.38.1
Soit une suite de VA suivant une même loi de valeur moyenne et
d’écart type . Alors la suite
(130) |
converge en loi vers une V.A normale réduite .
Pour démontrer ce résultat, il suffit de poser . Ce
résultat se généralise comme suit.
Proposition 0.38.2
Soit une famille de V.A indépendantes suivant chacune
une loi de valeur moyenne , d’écart type et
telle que la fonction de répartition de
vérifie la condition :
(131) |
où
Alors, la suite définie par
(132) |
converge en loi vers une VA normale centrée et réduite.
0.39 Approximations des lois de probabilité classiques
Approximation d’une loi binomiale par une loi de Poisson
Soit une suite de VA binomiales de loi
telles que et tendent respectivement vers et 0 de
manière à ce que le produit tende vers une limite finie
. Alors la suite converge en loi vers une VA de
Poisson de paramètre .
Approximation d’une loi multinomiale par une loi binomiale
Lorsque tend vers l’infini, la loi tend vers la
loi binomiale .
Approximation d’une loi binomiale par une loi normale Si
est une suite de VA binomiales de loi ,
alors la suite de VA définie par
converge en loi vers une V.A normale centrée et réduite.
Approximation d’une loi de Poisson par une loi normale Soit
une famille de V.A suivant la même loi de Poisson
alors la famille
converge en loi vers une V.A normale réduite.
0.40 Approximations des moments d’une variable aléatoire
Soient une suite d’observations
indépendantes et de même loi () de la même V.A vectorielle à
dimensions et soit un vecteur déterministe. Une fonction des
variables telle que
(133) |
est un estimateur non biaisé de . Deux
situations importantes dans la pratique correspondent aux cas où
est un estimateur d’un moment ou
d’un cumulant. Différents types d’estimateurs des moments et des
cumulants sont proposés dans la littérature. Les plus
importants sont fondés sur les -statistiques et correspondent
aux cas où la fonction est un
polynôme symétrique des composantes des . Nous
rappelons ci-dessous des résultats sur ces estimateurs dans le
cas multidimensionnel puis monodimensionnel.
Proposition 0.40.1
[Doob]
Soient des entiers donnés et des vecteurs
de composantes , , , . Alors la
fonction
(134) |
converge en probabilité vers
et définit donc un estimateur non biaisé du moment .
Proposition 0.40.2
[papoulis] [saporta]
Soit une V.A scalaire réelle dont les moments
existent pour tout entier et l’estimateur
empirique défini par
où sont des V.A indépendantes
et de même loi que . Alors, la variable
possède les propriétés suivantes.
-
1.
On a:
. -
2.
La V.A converge
presque sûrement vers et on a . -
3.
Pour les grandes valeurs de ,
peut être approximée par une V.A normale de moyenne et
de variance .
Pour un nombre d’échantillons fixé , une mesure de la
précision de l’estimateur de peut être faite à
l’aide de la quantité :
appelées variances relatives. Les résultats
suivants montrent que la suite des variances relatives des estimateurs
empiriques des moments n’est pas croissante dans le cas général. En
revanche, si la loi de est symétrique et centrée, seule l’estimation des
moments pairs présente un intérêt et dans ce cas la suite des variances
relatives est croissante.
Proposition 0.40.3
Pour tout
, on a
.
Les propositions suivantes sont équivalentes
-
1.
il existe tel que
-
2.
la suite est constante
-
3.
prend au plus deux valeurs distinctes et avec
.
Les propositions suivantes
sont équivalentes
-
1.
il existe un entier tel que
-
2.
les sous-suites et sont constantes
-
3.
prend au plus trois valeurs distinctes , et
, avec .
0.41 Fonction génératrice d’une V.A et application
0.42 Fonction génératrice d’une variable aléatoire
Considérons le cas des
Variables aléatoires (v.a) à valeurs dans l’ensemble
des entiers naturels. On associe à
toute v.a à valeurs dans , une fonction dénommée fonction génératrice de , qui contient toutes les informations sur la loi de probabilité de . Si la loi est donnée par
la suite , la fonction génératrice est définie par la série entière
Comme , le rayon de convergence de cette série est .
La fonction génératrice caractérise parfaitement la loi de probabilité de . En effet si et sont deux v.a à valeurs entières telles
que pour tout , l’unicité du développement en série entière d’une
fonction montre que et ont la même loi de probabilité.
Proposition 0.42.1
Somme de v.a indépendantes et de même loi
Soient les fonctions génératrices respectives
de v.a indépendantes et à valeurs dans .
Alors la v.a a une fonction génératrice donnée par
On peut établir le résultat par récurrence. En effet, on a
Si les v.a et sont indépendantes alors les v.a et le sont aussi et on obtient
et donc .
Proposition 0.42.2
Moyenne et variance
Soit une v.a à valeurs entières de fonction génératrice
. Si a un moment d’ordre 2, les dérivées à gauche
et au point 1 existent et on a :
Inversement si est deux fois dérivable en , alors a un moment
d’ordre 2 et les formules ci-dessus s’appliquent.
On peut toujours dériver formellement terme à terme
la série entière pour établir le résultat.
Proposition 0.42.3
Somme de v.a à valeurs entières
Soit une suite de variables aléatoires mutuellement indépendantes définies sur le même
espace et à valeurs dans .
On suppose que les suivent la même loi et on désigne par la fonction génératrice de .
Soit une v.a définie sur , à valeurs dans , de fonction génératrice telle que est une suite de variables aléatoires mutuellement indépendantes. Alors l’application :
définit une v.a à valeurs dans et sa fonction génératrice est donnée par
(1) Si et admettent des espérances finies, alors
(2) Si et admettent des variances finies, alors
Preuve Pour , l’événement se décompose comme suit :
Pour , la somme est une v.a, alors les événements
et sont dans et donc l’événement
est aussi dans . Alors est bien une v.a définie sur et
on a :
Comme est le terme d’une série convergente et
est aussi le terme d’une série convergente, on peut intervertir les signes somme et obtenir :
Pour les points (2) et (3) il suffit de dériver puisque est dérivable en tant fonction composée de fonctions dérivables.
Le théorème de l’espérance totale permet aussi d’établir le résultat comme suit
Proposition 0.42.4
Formule de Wald
Soit une suite de variables aléatoires à valeurs dans . Soit une
v.a à valeurs dans .
On suppose que :
sont indépendantes dans leur ensemble et intégrables.
On suppose que l’une des deux conditions suivantes est remplie :
L’événement est entièrement déterminé par ,
ou bien est indépendant de la suite . Alors on a :
Preuve La variable aléatoire
est intégrable. En effet
Ainsi, pour , en vertu de l’hypothèse d’indépendance entre la tribu et la variable
Or est intégrable si et seulement si la série de terme général est convergente (et la somme de cette série est ). En vertu du théorème de Beppo-Levi, et de l’hypothèse d’intégrabilité faite sur , la variable est intégrable, et on peut donc s’en servir comme majorant pour appliquer le théorème de convergence dominée ou le théorème de Fubini à :
0.43 Calcul utilisant une fonction génératrice
On se propose de calculer le nombre de partitions possibles d’un ensemble à éléments distincts
pour quelconque. On va associer à la suite une série entière
qui facilitera le calcul demandé. Cette série est appelée fonction génératrice de la suite . On peut établir par récurrence sur que
puis, en introduisant une nouvelle suite ,
On peut établir par récurrence que
Le rayon de convergence de la série entière
vérifie donc . En posant pour et
, on reconnait le produit de Cauchy de deux séries et on obtient donc :
On a donc puis .
Comme ne converge pas au point solution de , soit , le rayon de convergence de la série vérifie . Finalement, on a . Le développement de la fonction en série et l’unicité de ce développement permet d’établir les expressions des :
0.44 Calcul utilisant des variables aléatoires
Proposition 0.44.1
Introduire des V.A pour majorer une norme
Soient des vecteurs d’un espace vectoriel euclidien. Ces vecteurs définissent un parallélépipède P et on a les propriétés suivantes.
(1) On suppose chaque de norme 1, alors
(2) Tout point situé à l’intérieur (ou sur) P est défini par
(3) Chaque sommet de P est défini par :
(4) Pour tout fixé, il existe un sommet tel que .
Preuve
Soient des variables aléatoires définies
sur le même espace probabilisé, indépendantes dans leur ensemble et à valeurs dans :
Posons
où sont des vecteurs de norme 1. On peut vérifier que est une v.a
à valeurs positives. Supposons par l’absurde que
ce qui signifie que la v.a ne prend que des valeurs . Son espérance vérifie donc . Or
ce qui est absurde.
(2) Les points situés à l’intérieur (ou sur) du parallélépipède admettant comme arêtes sont définis
par:
Les sommets de ce parallélépipède sont définis par :
Alors la distance d’un point à un sommet est donnée par :
On va démontrer que pour tout point il existe un sommet tel que .
Soient des variables aléatoires de Bernoulli, définies
sur le même espace probabilisé, indépendantes dans leur ensemble et à valeurs dans avec
la loi de probabilité et .
On obtient . Les v.a sont indépendantes dans leur ensemble et centrées et elles sont donc deux à deux orthogonales. On a donc
pour .
Posons
où sont des vecteurs de norme . On peut vérifier que est une v.a.
Supposons par l’absurde que
Alors, la v.a ne prend que des valeurs et on doit donc avoir . Or
Or atteint son maximum pour et ce maximum est
égal à . Alors on obtient
ce qui est absurde.
0.45 Processus de Galton-Watson pour les dynamiques de populations
On considère une mesure de probabilité sur définie par la donnée des probabilités et une famille dénombrable de v.a i.i.d de loi .
On se donne une v.a indépendante des . La suite des v.a
définie par la récurrence :
est appelée processus de Galton-Watson. Le plus souvent on suppose et . La suite est un exemple de chaine de Markov à valeurs dans puisque la valeur de est complètement déterminée à partir de la famille de v.a indépendantes .
Le processus de Galton-Watson est un processus stochastique qui permet de décrire des dynamiques de populations d’individus qui se reproduisent de manière indépendante. Chaque individu de la génération donne naissance à individus et meurt. On suppose que les sont des variables aléatoires indépendantes à valeurs entières suivant la distribution .
Par exemple,
si avec la probabilité , alors l’individu de la génération meurt sans se reproduire.
Si avec la probabilité , alors il y a un remplacement un-pour-un de l’individu de la génération etc…Notons la taille de la population à la -ème génération. On suppose souvent que la population possède un seul ancêtre, ce qui se traduit par .
Le nombre moyen d’enfants, , d’un individu typique de la population considérée est donné par :
D’après la formule de Wald, l’évolution de la taille moyenne de la population vérifie la formule de récurrence suivante :
On désignera par la fonction génératrice d’une v.a. de loi appelée fonction génératrice de reproduction.
On définit aussi pour tout , la fonction génératrice de par:
On a donc
Définition Événement extinction
Si, à partir d’un certain rang, tous les termes de la suite sont nuls, on dit qu’il y a extinction de la population. par construction des , s’il existe tel que alors on a . L’événement extinction peut s’exprimer de quatre façons équivalentes comme suit :
Sa probabilité est donnée par :
Proposition 0.45.1
Probabilité d’extinction et différents régimes du processus
Soit un processus de Galton-Watson dont la distribution de probabilité est donnée par et la fonction génératrice associée par :
Alors, on a les résultats suivants.
(1) La probabilité d’extinction du processus est égale à la plus petite solution, dans l’intervalle , de l’équation :
(2) On a les 3 cas suivant les valeurs de .
Si , on a .
Si , on a si et si .
Si , on a et est le plus petit point fixe
de dans .
Le processus de Galton-Watson possède donc deux régimes séparés par une valeur critique du paramètre .
(1) Si , le processus est dit sous-critique et l’extinction de la population se produit avec une probabilité 1.
(2) Si , le processus est dit critique et son comportement est plus complexe et sera discuté dans la suite.
(3) Si , le processus est dit sur-critique et la probabilité de survie de ce nom est non-nulle. En cas de survie, le nombre de porteurs du patronyme connait une croissance exponentielle.
Démonstration du point (1) Comme
et que la probabilité est croissante pour la réunion, on obtient :
Comme , et tenant compte de la relation entre les fonctions , on obtient
La suite est donc définie par (car ) et par la relation de récurrence
Donc est un point fixe de .
Comme , on a
et donc
Ceci montre que la suite est croissante et donc elle est convergente puisqu’elle est majorée par 1.
Maintenant, supposons qu’il existe un point fixe de dans l’intervalle . Par définition, la fonction est croissante sur l’intervalle et on a soit ) et . La suite est majorée par tout point fixe de appartenant à l’intervalle . La limite de la suite est donc, elle aussi, majorée par tout point fixe de appartenant à l’intervalle . Mais comme la fonction est continue sur l’intervalle , sa limite est un des points fixes de la fonction donc, forcément, le plus petit d’entre eux.
Preuve de (2) Comme est une série entière de rayon de convergence au moins égal à 1, à coefficients positifs ou nuls, est convexe (et même strictement convexe si ), indéfiniment dérivable sur l’intervalle , elle possède donc au plus points fixes dans , sauf si elle est réduite à une fonction affine. On a aussi
Si , et , alors pour ,
Puisque et pour , 1 est le seul pont fixe de dans et donc
.
Cas souscritique : La tangente en (1,1) au graphe de est, dans l’intervalle , strictement au-dessus de la droite d’équation , et, étant convexe, le graphe de est au-dessus de sa tangente, donc, lui aussi, strictement au-dessus de la droite d’équation : le seul point fixe de est 1.
Cas critique : La tangente en (1,1) au graphe de est la droite d’équation . Si est strictement convexe, le graphe de est strictement au-dessus de sa tangente, donc le seul point fixe de est 1. Or est strictement convexe si et seulement si (comme on le voit en calculant la dérivée seconde de ). Sinon est une fonction affine, donc son graphe est confondu avec ses tangentes, en particulier, ici, avec la droite d’équation . Donc
Cas surcritique : La tangente en au graphe de est strictement au-dessous de la droite d’équation , donc, sur un intervalle bien choisi, lui-même est strictement au-dessous de la droite d’équation . En 0, par contre, comme , le graphe de est au-dessus de la droite d’équation . Donc, en vertu du théorème des valeurs intermédiaires, possède un point fixe strictement plus petit que 1.
Supposons maintenant . Puisque , on a
pour dans un voisinage de 1. Comme est continue sur
et , le théorème des valeurs intermédiaires implique qu’il existe
tel que . Supposons maintenant qu’il existe tels que
et . dans ce cas la fonction admet les trois zéros , et
. Ceci est impossible car est convexe.
Exemple
Si , le théorème dit que la probabilité d’extinction est nulle. Cela peut être vu directement sans difficulté, car équivaut à , ce qui entraine immédiatement que chaque génération est constituée d’exactement un individu ;
plus généralement, si alors 0 est point fixe, donc, d’après le théorème, est nulle (on pouvait le voir directement, puisque, en ce cas, chaque individu de la population a au moins un enfant).
Si les deux points fixes sont 1 et . Donc la probabilité d’extinction vaut si et vaut moins que 1 ( ) si Ici, la valeur de est difficile à calculer directement, sans utiliser le théorème. La figure ci-contre montre plusieurs valeurs de et la probabilité d’extinction correspondante.
La notation de Neveu permet de décrire rigoureusement l’évolution de la population à l’aide d’un arbre planaire enraciné, qui est en fait l’arbre généalogique de cette population. Cet arbre planaire enraciné peut être décrit de manière non ambigüe par la liste de ses sommets, chacun désigné par une suite finie d’entiers, qui sont les positions, au sein de leur fratrie, des ancêtres (ou ascendants) de ce sommet : le sommet 2|4|3 désigne le 3e fils du 4e fils du 2e fils de l’ancêtre (l’ancêtre étant lui-même désigné par la suite vide, notée ). Par convention, l’ancêtre est le sommet initial de l’arête racine, et le sommet final de l’arête racine est le fils ainé de l’ancêtre : en tant que tel, il est donc noté 1. La longueur de la suite associée à un sommet est la hauteur (ou la profondeur) du sommet, i.e. la distance entre ce sommet et le début de la racine, qui représente l’ancêtre : en filant la métaphore, un sommet de hauteur représente un individu appartenant à la -ème génération de la population fondée par l’ancêtre. Les 5 arbres à 3 arêtes :
sont ainsi décrits par les 5 ensembles de mots
Avec cette notation, un arbre planaire encode commodément une réalisation de processus de Galton-Watson avec extinction : cet arbre est alors appelé arbre de Galton-Watson. Rien ne s’oppose à définir un arbre planaire infini à l’aide de la notation de Neveu, ce qui permet d’encoder les réalisations de processus de Galton-Watson où la population ne s’éteint pas.
Exemple :
L’arbre de la figure ci-contre correspond à une suite de variables aléatoires ainsi définies :
Ainsi, un processus de Galton-Watson peut-être vu comme une fonctionnelle déterministe d’une famille de variables aléatoires indépendantes et de même loi la variable désignant la progéniture de l’individu (le nombre d’enfants auxquels ils donne naissance en mourant). Ici désigne l’ensemble (dénombrable) des suites d’entiers de longueurs finies (éventuellement de longueur nulle dans le cas de ) :
Exemple :
Certaines variables aléatoires de la suite n’ont pas d’influence sur le processus de Galton-Watson : dans l’exemple ci-contre, ou n’ont pas d’importance car l’ancêtre a strictement moins de 4 enfants () et l’individu 12 a strictement moins de 6 enfants (). De même les progénitures des individus de la 5e génération (les correspondant aux suites de longueur 5) n’influencent pas cette réalisation du processus de Galton-Watson, car la population s’éteint à la 4e génération ().
Étude fine de la taille des générations
Notons la fonction génératrice de la variable aléatoire , définie par
Pour pouvoir appliquer la propriété de composition des fonctions génératrices,
il faut que (l’effectif de la ème génération) a même loi que la somme de variables aléatoires indépendantes, toutes de même loi et indépendantes de . Bien sûr, est la somme des progénitures des individus appartenant à la ème génération,
La relation de récurrence sur l’espérance de
découle alors de la formule de dérivation des fonctions composées.