Une mesure de l'adéquation entre :
* Un échantillon,
* Une distribution de probabilité.
__________________
La figure ci-dessous montre :
1) Un échantillon de 10 observations issues d'une distribution inconnue.
2) Une densité de probabilité D1(x).
Il paraît peu vraisemblable (bien que non strictement impossible) que D1(x) soit à l'origine de l'échantillon, car toutes les observations sont dans une région où la densité de probabilité est très faible.
Par contre, nous sommes plus enclins à accepter l'idée selon laquelle l'échantillon est issu de tirages venant de la distribution D2(x) représentée dans l'image inférieure de l'illustration ci-dessus.
La traduction quantitative de cette impression porte le nom de Vraisemblance.
Soit D une distribution continue de densité de probabilité p(x), et x = {x1, x2, ..., xn} un échantillon de n observations indépendantes tirées de cette distribution.
* Pour chacune des observations xi, on mesure la valeur p(xi) que la densité prend pour cette observation,
* Et on fait le produit de ces valeurs, que l'on appelle la vraisemblance de la distribution pour l'échantillon concerné.
Elle est désignée traditionellement par la lettre "L" en raison de l'appellation anglo-saxone de la vraisemblance, qui est "Likelihood".
On a donc, par définition :
|
LD(x) = P i p(xi) |
On voit que la vraisemblance de la distribution ne prend de valeur appréciable que si tous les p(xi) ont eux-mêmes des valeurs appréciables, ce qui est une première justification de cette définition par ailleurs passablement arbitraire.
Mais sa véritable justification viendra des ses propriétés lorsqu'elle est utilisée dans le contexte de l'estimation (voir plus bas).
La vraisemblance reçoit une deuxième interprétation.
L'échantillon x = {x1, x2, ..., xn } est une réalisation du vecteur aléatoire {X1, X2, ..., Xn} où les Xi sont des variables aléatoires indépendantes ayant toutes la distribution D. La densité de probabilité de ce vecteur aléatoire est clairement P i p(xi), et donc la vraisemblance.
Ainsi, selon le contexte, on parlera de :
* Vraisemblance d'une distribution pour un échantillon donné,
ou bien de
* Vraisemblance d'un échantillon pour une distribution donnée,
tout en gardant à l'esprit qu'il s'agit d'une seule et même grandeur.
La définition de L s'étend au cas des variables nominales. Soit X une telle variable, dont les modalités M1, M2 , ..., Mk sont observées avec les fréquences n1, n2 , ..., nk (Si ni = n) sur l'échantillon. La distribution de probabilité dont on cherche à définir la vraisemblance est définie par la probabilité pi de chacune des modalités :
pi = Probabilité de la modalité Mi
La vraisemblance est alors définie par :
|
L(p1, .., pn) = Pi ( pi)ni |
Dans la pratique, il est souvent plus commode d'utiliser le logarithme de la vraisemblance plutôt que la vraisemblance elle-même. Cette quantité porte le nom de log-vraisemblance. Par exemple, dans le cas d'une variable continue, on a :
log-vraisemblance = log(L) = log(Pi p(xi)) = Si log(p(xi))
Pour un exemple d'utilisation de la log-vraisemblance, voir "Distance de Kullback-Leibler".
Le concept de vraisemblance joue un rôle central dans l'estimation des paramètres d'un modèle, aussi bien dans le domaine prédictif que le domaine descriptif.
Soit x = {x1, x2, ..., xn } un échantillon issu d'une distribution de probabilité p(x, q), où q est un paramètre dont la valeur est inconnue, et que l'on cherche à estimer. La méthode la plus largement utilisée est celle qui va choisir comme estimation de la valeur du paramètre q le nombre q0 qui rend maximale la vraisemblance L(x, q) de la distribution pour l'échantillon. Cette méthode porte tout naturellement le nom de Méthode du Maximum de Vraisemblance.
Lorsque p(x, q) est une fonction dérivable de q, la méthode la plus directe consiste à :
1) Identifier les extrema de L(x, q) en annulant sa dérivée partielle par rapport à q. On résoud donc en q l'équation :

2) Retenir parmi ces extrema ceux qui sont des maxima, par exemple en recherchant ceux pour lesquels la dérivée seconde de L(x, q) par rapport à q est positive. Nous utilisons le pluriel à dessein, car il n'y a aucune raison de penser a priori que la vraisemblance présente un maximum unique, et à part les cas les plus simples, ce n'est effectivement pas le cas.
3) Retenir, de ces différents maxima, celui qui présente la plus grande valeur de la vraisemblance.
On voit que le chemin, qui paraissait simple et naturel, est en fait semé d'embûches.
Devant de telles difficultés pratiques, la Méthode du Maximum de Vraisemblance se doit d'apporter des justifications de son utilité. Ces justifications existent, et peuvent se résumer dans les résultats suivants.
Pour une taille d'échantillon donnée, on montre que :
Pour autant, dans le cas général, et pour de petits échantillons, rien ne garantit que l'estimateur du Maximum de Vraisemblance soit le meilleur possible, et ce n'est souvent pas le cas.
C'est dans le domaine des grands échantillons que la méthode du Maximum de Vraisemblance trouve sa justification la plus forte.
La Méthode du Maximum de Vraisemblance a de plus, sous des conditions assez générales, les propriétés asymptotiques (c'est à dire quand la taille de l'échantillon tend vers l'infini) suivantes :
Tous ces résultats sont difficiles, et ne seront pas démontrés dans ce Glossaire.
Pour des raisons de simplicité, nous avons présenté l'estimation par Maximum de Vraisemblance dans le cas de l'estimation d'un unique paramètre. Mais la méthode s'applique sans changement à l'estimation simultanée de deux paramètres ou plus.
On en trouvera un exemple dans l'estimation simultanée de la moyenne et de la variance de la distribution normale (voir ici).
Puisque la vraisemblance mesure la plus ou moins bonne adéquation entre une distribution et un échantillon, on peut s'attendre à la voir jouer un rôle important dans les tests portant sur le choix entre des distributions candidates pour rendre compte d'une échantillon.
L'exemple le plus simple d'une telle apparition de la vraisemblance dans le monde des tests est le Théorème de Neyman-Pearson, qui établit que la Meilleure Région Critique d'un test devant décider entre deux distributions candidates est entièrement déterminée par des considérations portant sur les vraisemblances de ces deux distributions pour l'échantillon disponible.
La Méthode du Maximum de Vraisemblance est largement utilisée pour l'estimation des paramètres d'un modèle.
En Régression Linéaire Simple (RLS), les paramètres sont habituellement estimés par la méthode des Moindres Carrés. On montre, cependant, que (sous réserve que les conditions standard de la RLS soient vérifiées) les résultats sont identiques à ceux obtenus par la méthode du Maximum de Vraisemblance.
Tel n'est pas le cas en Régression Logistique : les paramètres du modèle sont estimés par la méthode du Maximum de Vraisemblance, et le modèle ne minimise pas la somme des carrés des résidus (comme c'est le cas en RLS).
Les paramètres des Réseaux de Neurones sont estimés par une approche de type "Moindres Carrés" quand ils sont utilisés en régression. Mais en classification, l'estimation doit (et est parfois !) conduite par une approche de Maximum de Vraisemblance (ce qui revient à minimiser une fonction d'erreur qui n'est pas une somme de carrés de résidus).
Vous trouverez des animations interactives illustrant la méthode du Maximum de Vraisemblance :
* Ici pour la distribution normale.
* Ici pour la distribution exponentielle.
____________________________________________________________
Voir aussi: