|
Animation interactive |
Kullback-Leibler (Distance de)
La distance (ou divergence) de Kullback-Leibler (K-L) est une mesure de la dissimilarité entre deux distributions de probabilité.
Soient donc p1(x) et p2(x) deux distributions de probabilité. Par définition, la distance de Kullback-Leibler D(p1, p2) entre p1(x) et p2(x) est, dans le cas continu :
|
avec une expression similaire dans le cas discret.
Si E désigne l'espérance par rapport à la distribution p1, cette expression peut également s'écrire :

Néanmoins, on rencontre couramment dans la littérature la version symétrique de K-L entre deux distributions p1 et p2 :
Ds(p1, p2) = [D(p1, p2) + D(p2, p1)] / 2
Nous analysons ici lien étroit entre "distance de K-L" et "Estimation d'un paramètre d'une distribution par la méthode du Maximum de Vraisemblance".
Nous établissons ici la forme explicite de la distance de K-L (symétrique et asymétrique) entre deux distributions normales p1 et p2.
Les logiciels utilisent parfois la distance de Kullback_Leibler dans le contexte de la validation d'un modèle. La façon la plus simple de créer un ensemble de validation à partir d'un échantillon est de de faire un tirage au hasard sans remise. Malheureusement, si la chance n'est pas de votre côté, la distribution de l'ensemble de validation peut être sensiblement différente de celle de l'échantillon (et donc de celle de l'ensemble d'apprentisage). Si tel est le cas, l'estimation de la performance du modèle à partir de l'ensemble de validation sera biaisée, un terme doux pour dire "fausse".
Créer un ensemble de validation est une opération rapide, et il est parfois proposé à l'utilisateur d'extraire de l'échantillon un certain nombre d'ensembles de validation "candidats", pour retenir finalement celui dont la distance de K-L à l'ensemble d'apprentissage restant est la plus faible.
La distance de K-L n'a de sens que pour des distributions complètes (par opposition à de simples échantillons). On fait alors l'hypothèse que l'ensemble d'apprentissage et l'ensemble de validation ont des distributions normales. Les paramètres de ces distributions (moyennes et variances) sont estimées par la méthode du Maximum de Vraisemblance, et la distance de K-L (symétrique) entre ces deux distributions est alors calculée comme ici.
__________________________________________
La figure suivante illustre la distance
de Kullback-Leibler.
Cette animation a deux modes de fonctionnement :
1) Le mode "Gaussiennes" (sélectionné par défaut), qui affiche le K-L (symétrique et asymétriques) entre deux distributions normales.
2) Le mode "Echantillons" (cliquez sur le bouton "Samples"), qui affiche la K-L (symétrique et asymétriques) entre deux échantillons quelconques, ainsi que les gaussiennes de Maximum de Vraisemblance correspondantes.
Mode "Gaussiennes"
* Modifiez les valeurs des moyennes et des écarts-types des gaussiennes, et observez les variations des distances K-L (exprimées en unités arbitraires).
* Donnez la même valeur aux moyennes des deux gaussiennes. Observez que la gaussienne la plus étroite est "plus proche" de l'autre gaussienne que l'inverse. Plus généralement, observez que ceci est vrai même lorsque les valeurs des moyennes sont différentes.
* Observez que que les deux distances asymétriques sont égales ssi les écarts-types des deux gaussiennes sont égaux.
* Faites varier l'écart-type d'une gaussienne, en maintenant constante sa moyenne. Observez que la distance symétrique passe par un minimum. Il y a donc une valeur optimale de l'écart-type, tous les autres paramètres étant maintenus constants.
* Effectuez la même manœuvre en observant la valeur des distances asymétriques. Qu'observez-vous quand cette valeur est atteinte ?
Mode "Echantillons":
* Faites glisser les points avec votre souris, et observez les variations des distances de K-L entre les deux échantillons.
* Essayez de construire deux
échantillons de K-L nulle, et ayant pourtant des distributions très différentes.
Concluez que ceci n'est possible que si au moins un des échantillons s'écarte
sensiblement de la normalité.
Il peut arriver qu'un point refuse de glisser. Ceci a pour but d'éviter les échantillons d'écart-type trop petit, et garantit que les gaussiennes ne sont jamais plus hautes que le cadre.
Attention
La K-L ne prend en compte que les deux premiers moments centrés (moyenne et variance) des échantillons. Il est donc possible d'avoir deux échantillons de distance pratiquement nulle alors que leurs distributions sont assez sensiblement différentes : il suffit pour cela que les deux échantillons aient des moyennes et variances semblables, mais des moments d'ordres supérieurs très différents (en particulier, l'asymétrie et l'aplatissement).
L'animation interactive vous permet d'expérimenter à partir de cette idée.
________________________________________________________________
|
Tutoriel 1 |
La définition de la distance de Kullback-Leibler peut sembler passablement arbitraire. Elle a des racines profondes en Théorie de l'Information, mais nous montrons ici qu'un cheminement de pensée de bon sens permet d'arriver à cette définition à partir de considérations simples sur la vraisemblance d'une distribution p1(x) vis-à-vis d'un échantillon tiré d'une autre distribution p2(x).
Une distance de K-L est toujours positive (ou nulle lorsque les deux distributions sont identiques). Ceci n'est pas évident au vu de la définition, mais se démontre simplement à l'aide de l'inégalité de Jensen.
Nous confirmons enfin le lien entre distance de Kullback-Leibler et Vraisemblance en montrant que la méthode du Maximum de Vraisemblance est équivalente à la minimisation de la distance de Kullback-Leibler entre :
* la distribution candidate qq(x),
* et une approximation p*(x) de la distribution inconnue p(x) estimée à partir d'un grand échantillon.
PROPRIETES ELEMENTAIRES
DE LA DISTANCE DE KULLBACK-LEIBLER
|
Justification de la définition de la distance de Kullback-Leibler Limite de la vraisemblance pour de grands échantillons Entropie et valeur minimale de cette limite Définition finale de la distance de Kullback-Leibler Positivité de la distance de Kullback-Leibler Asymétrie de la distance de Kullback-Leibler Distance entre deux distributions normales Distance entre deux distributions uniformes Maximum de Vraisemblance et distance de Kullback-Leibler |
||
|
TUTORIEL |
||
_______________________________________________________________
|
Tutoriel 2 |
La distance de Kullback-Leibler entre deux distributions est souvent difficile à calculer explicitement. Dans le cas où les distributions sont toutes deux normales, ce calcul peut être mené à son terme, ce que nous faisons ici.
Le calcul est un peu long, mais très instructif.
DISTANCE DE KULLBACK-LEIBLER
ENTRE DEUX DISTRIBUTIONS NORMALES
|
Distance de Kullback-Leibler entre deux distributions normales |
||
|
TUTORIEL |
||
______________________________________________________________
Voir aussi: