Densité

Dans votre base de données, y-a-t il beaucoup d'individus très semblables à tel individu particulier ? Si oui, on dit que cet individu est dans une région de forte densité. Par contre, s'il est pratiquement seul de son espèce, on dit qu'il est dans une région de faible densité. La Statistique sait donner un sens mathématique précis à la notion de densité.
 

Être capable d'estimer la densité autour d'un individu serait d'une grande utilité pour la construction de modèles de bonne qualité.  Les logiciels du commerce passent en général cette question sous silence, car les techniques décrites dans la littérature souffrent de graves défauts dont on connaît la cause, mais pour lesquels on n'a pas encore trouvé de remède.
 

Notons que certains Réseaux de neurones ont récemment fait avancé la question de manière significative.
 

Bien que vos prochains projets de Data Mining ignorent probablement la question de la densité locale des données, il est non moins probable que cette notion prendra progressivement la place qui lui revient : une des plus importantes.

 

_______________________________________

Densité de probabilité (Fonction de)

Soit X une variable aléatoire numérique. Pour toute valeur x0,  la probabilité pour qu'une nouvelle observation tombe entre x0 et x0 + dx est proportionnelle à dx, et est donc de la forme :

Probabilité (x0 < x < x0 + dx) = f(x0).dx

f(x) est, par définition, la fonction de densité de probabilité (ou simplement "densité de probabilité", voire "densité"). La fonction de densité de probabilité est souvent notée en abrégé f.d.p, ou même d.p..

 

Toute f.d.p. est :

    * Positive (ou plus exactement, non négative) pour toute valeur x0.

    * La valeur de son intégrale de - à +   (aire sous la courbe) est égale à 1.

 

Il n'y a pas de limite à la valeur que peut prendre une f.d.p., du moment que son intégrale reste égale à 1. Une f.d.p. peut même prendre une valeur "infinie" en certains points: c'est par exemple le cas de la distribution 1 (voir ici).

 

La f.d.p. est intimement liée à la fonction de répartition :

    * La valeur de la fonction de répartition en x0 est égale à l'intégrale (surface sous la courbe) de la f.d.p. de - à x0 (illustration supérieure).

    * Réciproquement, la f.d.p. est la dérivée (pente) de la fonction de répartition, quand cette pente est définie (illustration inférieure).

 

 

 

Sur cette illustration, nous montrons la f.d.p. probablement la plus connue, dite "normale", ou "gaussienne". La distribution la plus importante après la distribution normale est celle dite "Chi-2".

 

La figure suivante est une autre représentation de la relation entre "Densité de probabilité" et "Fonction de répartition". Pous la voir, vous devez avoir Flash Player sur votre ordinateur. Si vous ne l'avez pas, vous pouvez le télécharger gratuitement à www.macromedia.com/downloads/.

 

 

 

Cliquez n'importe où dans le cadre comprenant la Densité de Probabilité (y compris les parties vertes ou jaunes). Vous apprendrez rapidement à vous construire la Densité de probabilité (à support fini) de votre choix.

Faites glisser le curseur pour observer la relation entre "Densité de probabilité" et "Fonction de répartition". Par exemple, construisez une Densité à deux "bosses" séparées par un "creux", et observez que la Fonction de répartition est pratiquement constante (dérivée nulle) dans le creux de densité.

 

 

__________________

Dimensionalité

La position d'un point P sur une feuille de papier peut être repérée par deux nombres :

La donnée du couple (x, y) est à la fois nécessaire et suffisante pour définir le point P sans ambiguïté : la feuille est dite "bidimensionnelle".

 

                                                        

 

Disséminons maintenant 5 autres points sur la feuille, P1 à P5. Mesurons les distances de P à chacun de ces 5 points.

 

                                                       

 

On se convainc facilement que P est le seul point de la feuille qui peut conduire à (d1, …, d5) .

Alors, pourquoi avons nous maintenant besoin de 5 nombres pour localiser P, alors que nous savons qu’en ayant été un peu plus astucieux dans notre manière de le repérer, deux nombres (x et y) auraient suffi ?

La raison est que la quantité d'information présente dans le quintuplet  (d1, …, d5) n'est pas plus grande que celle dont nous disposions dans (x, y). Elle est moins abondante que ce que nous étions en droit d’espérer d’un ensemble de 5 nombres. Aurions nous pris 6, 10 ou 1000 points de référence, la quantité d'information dont nous aurions disposé aurait toujours été la même, celle dont nous avons besoin pour repérer un point de la feuille. On dit que les 5 variables (d1, …, d5) sont redondantes, ce qui signifie qu'elles transportent moins d'information qu'il semblait de prime abord.

 

Devant un ensemble de quintuplets, chacun décrivant un point de la feuille, nous pourrions envisager de remplacer cette représentation redondante par la représentation plus simple à deux nombres seulement, x et y. Nous dirions alors que l’ensemble de points P ainsi décrits était apparemment de dimension 5, mais que sa vraie dimensionalité est en fait 2.

 

Cet exemple peut paraître un peu académique, mais il est en fait tout à fait représentatif de la situation rencontrée sur toutes sortes de fichiers parfaitement réels (mesures physiques, enquêtes d’opinion, fichiers commerciaux…).
La redondance est parfois visible « à l’œil nu ». Ainsi, il est clair que les trois variables : 

sans représenter une seule et même réalité, ne sont pas vraiment indépendantes les unes des autres, et que la donnée de ces trois grandeurs n'apporte pas trois fois la quantité d'information contenue dans une seule de ces grandeurs.
 

Estimer la vraie dimensionnalité d’une distribution d’exemples est une question difficile, que le praticien ne se pose d’ailleurs presque jamais.

 

Par contre, passer d’une représentation en « variables brutes » à une représentation « de dimensionnalité réduite » est une étape importante du Data Mining. Cette question est abordée  ici.

 

________________________________

Distribution de probabilité

L'équivalent, pour les variables discrètes, de la densité de probabilité des variables continues. A chaque valeur Xi que peut prendre la variable discrète X est attachée la quantité Pi{X = Xi}. De façon similaire à ce que l'on a pour les variables continues, on a :

P{A X B} = Pi{X = Xi}

la sommation portant sur tous les indices i tels que A Xi   B.

 

Contrairement à une densité de probabilité, une distribution de probabilité ne peut prendre que des valeurs inférieures ou égales à 1, puisque ces valeurs sont de vraies probabilités.

On a, bien sûr :

i Pi{X = Xi} = 1

_____________

 

Remarque : il n'est pas utile de faire la différence entre "variable continue" et "variable discrète" lorsque l'on parle de fonction de répartition. La fonction de répartition d'une variable discrète se définit exactement comme celle d'une variable continue.

Notez que le Théorème Central Limite s'exprime en termes de fonctions de répartion, et non en termes de densité de probabilité ou de distribution de probabilité. C'est ce qui permet de l'appliquer aussi bien à des variables continues qu'à des variables discrètes (voir p. ex. Loi Binomiale).

 

___________

Données

Le carburant du Data Mining. Un modèle ne sera jamais meilleur que les données qui ont servi à le construire, et le célèbre aphorisme de l'informatique GIGO (Garbage In, Garbage Out) prend toute sa signification en Data Mining.
 

Vous apprendrez vite à reconnaître les qualités qui font cruellement défaut à vos données :

La majorité des projets de Data Mining pêchent par le manque d'attention portée à la question des données. Leur collecte et leur mise en forme sont des tâches longues et ingrates, voire coûteuses. On estime que plus de la moitié du temps consacré à un projet de Modélisation correctement mené doit être consacrée aux données, et ce avant toute modélisation.

Téléchargez ce Glossaire