Dans votre base de données, y-a-t il beaucoup
d'individus très semblables à tel individu particulier ? Si oui,
on dit que cet individu est dans une région de forte densité.
Par contre, s'il est pratiquement seul de son espèce, on dit qu'il est
dans une région de faible densité. La Statistique sait donner un sens mathématique
précis à la notion de densité.
Être capable d'estimer la densité autour
d'un individu serait d'une grande utilité pour la construction de modèles
de bonne qualité. Les logiciels du commerce passent en général
cette question sous silence, car les techniques décrites dans la littérature
souffrent de graves défauts dont on connaît la cause, mais pour
lesquels on n'a pas encore trouvé de remède.
Notons que certains Réseaux de neurones ont
récemment fait avancé la question de manière significative.
Bien que vos prochains projets de Data Mining ignorent
probablement la question de la densité locale des données, il
est non moins probable que cette notion prendra progressivement la place qui lui revient
: une des plus importantes.
_______________________________________
Densité de probabilité (Fonction de)
Soit X une variable aléatoire numérique. Pour toute valeur x0, la probabilité pour qu'une nouvelle observation tombe entre x0 et x0 + dx est proportionnelle à dx, et est donc de la forme :
Probabilité (x0 < x < x0 + dx) = f(x0).dx
où f(x) est, par définition, la fonction de densité de probabilité (ou simplement "densité de probabilité", voire "densité"). La fonction de densité de probabilité est souvent notée en abrégé f.d.p, ou même d.p..
Toute f.d.p. est :
* Positive (ou plus exactement, non négative) pour toute valeur x0.
* La valeur de son intégrale
de -
à +
(aire sous la
courbe) est égale à 1.
Il n'y a pas de limite à la valeur que peut prendre
une f.d.p., du moment que son intégrale reste égale à 1. Une f.d.p. peut même
prendre une valeur "infinie" en certains points: c'est par exemple
le cas de la distribution
1
(voir ici)
et, plus généralement, de la distribution Gamma pour α < 1.
La f.d.p. est intimement liée à la fonction de répartition :
* La valeur de la fonction
de répartition en x0 est
égale à l'intégrale (surface sous la courbe) de la f.d.p. de -
à x0
(illustration supérieure).
* Réciproquement, la f.d.p. est la dérivée (pente) de la fonction de répartition, quand cette pente est définie (illustration inférieure).
Sur cette illustration, nous montrons la f.d.p. probablement la plus connue, dite "normale", ou "gaussienne". La distribution la plus importante après la distribution normale est celle dite "Chi-2".
La figure suivante est une autre représentation de la relation entre "Densité de probabilité" et "Fonction de répartition".
Cliquez n'importe où dans le cadre comprenant la Densité de Probabilité (y compris les parties vertes ou jaunes). Vous apprendrez rapidement à vous construire la Densité de probabilité (à support fini) de votre choix.
Faites glisser le curseur pour observer la relation entre "Densité de probabilité" et "Fonction de répartition". Par exemple, construisez une Densité à deux "bosses" séparées par un "creux", et observez que la Fonction de répartition est pratiquement constante (dérivée nulle) dans le creux de densité.
__________________
La position d'un point P sur une feuille de papier peut être repérée par deux nombres :
La donnée du couple (x, y) est à la fois nécessaire et suffisante pour définir le point P sans ambiguïté : la feuille est dite "bidimensionnelle".

Disséminons maintenant 5 autres points sur la feuille, P1 à P5. Mesurons les distances de P à chacun de ces 5 points.

On se convainc facilement que P est le seul point de la feuille qui peut conduire à (d1, …, d5) .
Alors, pourquoi avons nous maintenant besoin de 5 nombres pour localiser P, alors que nous savons qu’en ayant été un peu plus astucieux dans notre manière de le repérer, deux nombres (x et y) auraient suffi ?
La raison est que la quantité d'information présente dans le quintuplet (d1, …, d5) n'est pas plus grande que celle dont nous disposions dans (x, y). Elle est moins abondante que ce que nous étions en droit d’espérer d’un ensemble de 5 nombres. Aurions nous pris 6, 10 ou 1000 points de référence, la quantité d'information dont nous aurions disposé aurait toujours été la même, celle dont nous avons besoin pour repérer un point de la feuille. On dit que les 5 variables (d1, …, d5) sont redondantes, ce qui signifie qu'elles transportent moins d'information qu'il semblait de prime abord.
Devant un ensemble de quintuplets, chacun décrivant un point de la feuille, nous pourrions envisager de remplacer cette représentation redondante par la représentation plus simple à deux nombres seulement, x et y. Nous dirions alors que l’ensemble de points P ainsi décrits était apparemment de dimension 5, mais que sa vraie dimensionalité est en fait 2.
Cet exemple peut paraître un peu académique,
mais il est en fait tout à fait représentatif de la situation
rencontrée sur toutes sortes de fichiers parfaitement réels (mesures
physiques, enquêtes d’opinion, fichiers commerciaux…).
La redondance est
parfois visible « à l’œil nu ». Ainsi, il
est clair que les trois variables :
sans représenter une seule et même réalité,
ne sont pas vraiment indépendantes les unes des autres, et que la donnée
de ces trois grandeurs n'apporte pas trois fois la quantité d'information
contenue dans une seule de ces grandeurs.
Estimer la vraie dimensionnalité d’une distribution
d’exemples est une question difficile, que le praticien ne se pose d’ailleurs
presque jamais.
Par contre, passer d’une représentation en « variables brutes » à une représentation « de dimensionnalité réduite » est une étape importante du Data Mining. Cette question est abordée ici.
________________________________
L'équivalent, pour les variables discrètes, de la densité de probabilité des variables continues. A chaque valeur Xi que peut prendre la variable discrète X est attachée la quantité Pi{X = Xi}. De façon similaire à ce que l'on a pour les variables continues, on a :
P{A
X
B}
=
Pi{X
= Xi}
la sommation portant sur tous les indices i
tels que A
Xi
B.
Contrairement à une densité de probabilité, une distribution de probabilité ne peut prendre que des valeurs inférieures ou égales à 1, puisque ces valeurs sont de vraies probabilités.
On a, bien sûr :
i
Pi{X = Xi} = 1
_____________
Remarque : il n'est pas utile de faire la différence entre "variable continue" et "variable discrète" lorsque l'on parle de fonction de répartition. La fonction de répartition d'une variable discrète se définit exactement comme celle d'une variable continue.
Notez que le Théorème Central Limite s'exprime en termes de fonctions de répartion, et non en termes de densité de probabilité ou de distribution de probabilité. C'est ce qui permet de l'appliquer aussi bien à des variables continues qu'à des variables discrètes (voir p. ex. Loi Binomiale).
___________
Le carburant du Data Mining. Un modèle ne sera
jamais meilleur que les données qui ont servi à le construire,
et le célèbre aphorisme de l'informatique GIGO (Garbage In, Garbage
Out) prend toute sa signification en Data Mining.
Vous apprendrez vite à reconnaître les qualités qui font cruellement défaut à vos données :
La majorité des projets de Data Mining pêchent
par le manque d'attention portée à la question des données.
Leur collecte et leur mise en forme sont des tâches longues et ingrates,
voire coûteuses. On estime que plus de la moitié du temps consacré
à un projet de Modélisation correctement mené doit être consacrée
aux données, et ce avant toute modélisation.
____________________________________________