Aberrant (Point, ou individu, ou enregistrement)

Aussi nommé "Outlier".

 

Il est très probable que votre base de données contient quelques données fausses, voire grossièrement erronées. Les causes possibles de ces erreurs sont multiples, mais seront le plus souvent des erreurs de saisie manuelle, ou la présence de codes spécifiques non détectés.

Pour qu'un point soit aberrant, il suffit malheureusement qu'un seul de ses champs descriptifs contienne une valeur aberrante.

 

La présence de points aberrants, même en petit nombre, est extrêmement préjudiciable à l'élaboration de bons modèles. L'image ci-dessous montre l'influence d'un point aberrant qui "tire" une Régression Linéaire, qui, sans ce point, aurait été d'excellente qualité (passer la souris au-dessus de l'image).

 

                                     

 

 

La détection des points aberrants est donc un préliminaire indispensable à toute modélisation. La chose est facile lorsque les données sont numériques et représentables dans un plan, comme ci-dessus. Elle est plus difficile quand il y beaucoup de variables, et quand certains variables sont nominales.

Il existe de nombreuse techniques de détection de points aberrants. Sans entrer dans les détails, citons :

    * Des anomalies dans les histogrammes des variables individuelles, ou des résidus de régression.

    * L'examen des distances de Mahalanobis des individus.

    * L'examen des distances de Cook des individus.

 

Il ne faut cependant jamais éliminer a priori la possibilité qu'un point "aberrant", ou extrême, représente un cas non entaché d'erreur, mais simplement complètement atypique. Il faudra alors se poser la question de savoir s'il convient de le conserver dans l'analyse qui suivra.

 

ACP

Sigle signifiant Analyse en Composantes Principales.

Voir ici.

 

Adéquation (Test d')

Devant un échantillon, on est souvent amené à formuler une hypothèse sur la distribution qui a généré cet échantillon (ou, ce qui revient au même, sur la distribution de la population dont l'échantillon a été extrait). On a souvent une distribution candidate "naturelle", et le test d'adéquation mesurera la plausibilité de l'hypothèse selon laquelle l'échantillon a été généré par cette distribution.

 

Dans cette illustration, deux distributions normales candidates sont testées sur l'échantillon. Clairement, il est peu vraisemblable que la première ait généré l'échantillon (illustration supérieure), alors que l'adéquation de la deuxième distribution avec l'échantillon est bien meilleure (illustration inférieure).

 

 

 

Un test d'adéquation paramétrique formule explicitement une hypothèse très restrictive sur la forme analytique de la distribution candidate, ne laissant à tester que les valeurs d'un seul, ou d'un petit nombre de paramètres. Par exemple, un "test-t" à un échantillon" suppose explicitement que la distribution ayant généré l'échantillon est normale, et se propose de tester l'hypothèse selon laquelle la moyenne de cette distribution normale est égale à une valeur donnée m0.

 

Les tests d'adéquation non paramétriques sont plus généraux : ils ne font aucune hypothèse sur la forme mathématique de la distribution à tester, et  demandent seulement que celle-ci soit calculable. Les tests d'adéquation non paramétriques les plus importants sont :

    * Le test du Chi-2 d'adéquation,

    * le test de Kolmogorov.

 

AFC

Sigle signifiant "Analyse Factorielle des Correspondances".

Voir ici.

 

Analyse des données

Ce terme recouvre un ensemble de techniques de modélisation descriptive destinées à extraire des informations pertinentes sur une population d'individus décrits par des variables.
 

Historiquement, l'Analyse des Données s'est développée en sociologie, psychologie, et économie, domaines où l'on sait que les quantités mesurées sont souvent fortement redondantes, et où il est difficile de déterminer précisément le rôle que chacune des variables joue dans la structuration de la population. L'Analyse des Données s'est donc attachée en particulier à identifier les liens entre variables ou entre groupes de variables, souvent par le biais de techniques dites "factorielles", dont les plus courantes sont l'Analyse en Composantes Principales (ACP), l'Analyse Factorielle des Correspondances (AFC), et l'Analyse en Composantes Multiples (ACM).
 

L'Analyse des Données s'intéresse également beaucoup à la mise en évidence des similarités entre individus, et est à l'origine de la plupart des techniques de Classification Non Supervisée.

 

Analyse discriminante

Voir ici.

 

Analyse en Composantes Principales (ACP)

Voir ici.

 

Analyse Factorielle des Correspondances    (AFC)

Voir ici. 

 

ANOVA

Acronyme anglo-saxon de "ANalysis Of VAriance".

 

Voir ici.

 

Apprentissage (supervisé)

Processus par lequel les paramètres d'un modèle prédictif sont ajustés de façon à ce que le modèle rende compte correctement des données.
 

Le terme est plus particulièrement utilisé dans le contexte des Réseaux de neurones supervisés. Prenons l'exemple d'un Perceptron-Multicouches utilisé en régression. On veut que la fonction qu'il matérialise s'approche au plus près des données disponibles. A cette fin, un algorithme d'apprentissage va progressivement modifier les valeurs de ses paramètres (appelés "poids") de façon à minimiser les erreurs de prédiction du réseau.
 

Plus généralement, le terme d'apprentissage supervisé est réservé aux procédures d'ajustement itératif des paramètres d'un modèle prédictif avec comme objectif la minimisation des erreurs de prédiction du modèle sur l'échantillon.
Les raisons pour lesquelles ce calcul doit être mené de façon itérative sont :

    * soit qu'il n'existe pas de formule permettant de les calculer (p. ex. Arbres de Décision),

    * soit qu'on ne sache pas calculer ces formules autrement que par des méthodes numériques itératives (p. ex. Réseaux de neurones).
 

Si les valeurs des paramètres peuvent être calculées directement par une formule, on parlera tout simplement de calcul des paramètres (p. ex. en Régression Linéaire ou en Analyse Discriminante).

 

Apprentissage (non supervisé)

Comme son cousin l'Apprentissage supervisé, l'apprentissage non supervisé ajuste les paramètres d'un modèle, mais cette fois-ci descriptif.
 

Mais alors que le statut de l'apprentissage supervisé est clair (minimisation d'une erreur de prédiction), celui de l'apprentissage non supervisé est plus ambigu. Le terme s'emploie aujourd'hui essentiellement à propos des Cartes de Kohonen; or l'algorithme d'apprentissage des Cartes de Kohonen ne cherche pas à minimiser une erreur.
 

D'une façon plus générale, les algorithmes d'apprentissage non supervisé ont un caractère heuristique marqué. On entend par là qu'ils ne répondent pas aux exigences d'une théorie bien définie, mais que le principal argument en leur faveur est qu'ils "marchent".

 

a posteriori  (Probabilités)

Voir d'abord "Probabilités a priori".

 

Supposons maintenant que vous disposiez d'un modèle permettant de prédire si une société sera bénéficiaire lors du prochain exercice, au vu de certaines variables, par exemple le type d'activité, divers ratios comptables etc...   Vous soumettez ce genre de description relative à la société Dupont et Fils à ce modèle. Il produit la réponse suivante : la probabilité de bénéfice est de 60%. On dira que la probabilité a posteriori de la société Dupont et Fils d'appartenir à la classe "Bénéfice_Oui" est de 60% pour ce modèle.

Une probabilité a posteriori n'est plus une probabilité attachée à une classe, mais à un trio (modèle + observation + classe). Elle ne recouvre pas une réalité intrinsèque, mais le résultat d'un calcul sur un modèle. En particulier, si l'on change de modèle, les probabilités a posteriori changent.

 

L'objectif de la classification probabiliste est de construire des modèles calculant des probabilités a posteriori conduisant à des taux d'erreur (mauvaise classification) aussi faibles que possible.

 

a priori  (Probabilités)

Chaque année, la plupart des entreprises, disons 80%, dégagent un bénéfice. Supposons que l'on vous pose la question : "La Société Dupont et Fils sera-t-elle bénéficiaire l'année prochaine ?". Vous ne savez rien de cette société. Votre meilleure réponse est alors "Oui" car en donnant cette réponse, vous savez que vous avez une probabilité de 0,8 d'avoir raison. Dans un contexte de classification des entreprises en deux classes "Bénéfice_Oui" et "Bénéfice_Non", on dira que la probabilité a priori de la classe "Bénéfice_Oui" est de 0,8.

La probabilité a priori d'une classe est donc simplement le rapport de la population de cette classe à la population totale.

 

La notion de probabilité a priori est souvent associée à celle de probabilité a posteriori, dont nous vous invitons à consulter la définition.

 

Pour qu'un classifieur atteigne sa meilleure performance, l'échantillon à partir duquel il est construit doit contenir des observations de chacune des classes en proportion des probabilités a priori de celles-ci. Par exemple, si la classe C1 est deux fois plus probable a priori que la classe C2, l'échantillon devrait contenir deux fois plus d'observations appartenant à C1 que d'observations appartenant à C2. Pourtant, il existe des situations dans lesquelles le praticien ne respectera pas cette règle, et ce de façon délibérée :
 

    1) "Petites" classes

        Le terme "petit" ne veut pas dire ici "de faible extension spatiale", mais "de faible probabilité a priori".

        Imaginons une situation dans laquelle la probabilité a priori de C1 soit vingt fois supérieure à celle de C2. Il existe un classifieur trivial dont les performances sont pourtant excellentes. Il se traduit par la règle :

"Affecter toute nouvelle observation à C1"

Son taux global d'erreur est d'environ 5%, ce qui est tout à fait remarquable. Ce taux est de 0% sur C1, et de 100% sur C2.

Pourtant, le classifieur est inutilisable, puisqu'il est totalement incapable de reconnaître des observations appartenant à C2.

Imaginons qu'après un gros travail, vous ayez élaboré un authentique classifieur dont le taux global d'erreur soit de 4%. Malgré vos efforts, vous aurez encore un taux d'erreur très faible sur C1 (disons 1%), et très élevé sur C2 (disons 60%). La minimisation du taux global d'erreur est atteint en "sacrifiant" la reconnaissance des "petites" classes au profit des "grosses" classes.

De plus, les fluctuations d'échantillonnage provoqueront de plus grandes instabilités sur le taux d'erreur de C2 que sur celui de C1. Le modèle est donc, sur C2, non seulement mauvais, mais de plus instable.

 

 

Le théoricien ne voit rien d'anormal dans cette situation, mais le praticien a une toute autre opinion, puisque son modèle néglige les petites classes au point de rendre le meilleur modèle inutilisable.

Dans la pratique, il est donc courant d'augmenter artificiellement l'importance des petites classes, et d'incorporer ces augmentations dans les algorithmes de construction des modèles. Il existe plusieurs façons de procéder, que nous ne détaillerons pas dans ce Glossaire.

Les conséquences de ce biais volontaire des probabilités a priori sont :

    1) Une dégradation tolérable des performances sur les grandes classes.

    2) Une amélioration sensible des performances sur les petites classes,

 

ce qui permet au classifieur d'avoir globalement des performances acceptables sur toutes les classes, grandes ou petites. (illustration du dessous)

 

Notons que, bien entendu,  cette uniformisation des performances se paye par une augmentation du taux d'erreur global, augmentation que l'on espère maintenir dans des proportions acceptables.

 

    2) Coût des erreurs de classification

        En tout état de cause, pourquoi se préoccuper des petites classes ? Une des raisons est que les petites classes peuvent être la raison d'être même du problème de classification.

L'illustration traditionnelle du problème des "petites classes" est celle du diagnostic médical. A un instant donné, seule une très faible partie de la population a un cancer du poumon non encore détecté. La préoccupation centrale du radiologue est cependant de reconnaître sur une radio pulmonaire les signes d'une tumeur, et donc de détecter à coup sûr les clichés appartenant à la petite classe "Malade", noyés dans la masse des clichés "Sain". Commettre une erreur en croyant reconnaître une tumeur sur un cliché sain est sans grande conséquence, alors que l'inverse est catastrophique.

Dans le monde des affaires, de telles erreurs sont heureusement moins dramatiques. Mais nombreuses sont les situations qui exigent de prendre en compte les coûts des diverses erreurs possibles. Biaiser les probabilités a priori des classes est souvent une manière simple de minimiser le coût total des erreurs commises par un classifieur.

 

Arbres de Décision

Voir ici.

 

Arbres de segmentation

Autre nom des Arbres de Décision

 

Associations

Rappelons que l'Analyse des Associations est essentiellement utilisée pour la découverte et l'exploitation de possibilités de ventes croisées (cross-selling).(voir ici).
 

La détection d'Associations est, au moins en principe, une des modélisations les plus simples du Data Mining, puisqu'elle ne comporte pas autre chose que du comptage.

En effet, la vocation de la détection d'Associations est de mettre en évidence des synergies entre produits, et elle le fait en détectant que certains couples de produits (A, B) sont achetés simultanément plus souvent que ne le laisseraient supposer les chiffres de ventes de A seul, et de B seul.
 

Soient :

 

Si les produits A et B étaient, dans l'esprit des consommateurs, vraiment indépendants, on s'attendrait à ce que la proportion p(A, B) de caddies contenant à la fois le produit A et le produit B soit égale à p(A).p(B).

 

Si la proportion effectivement observée est :

 

La présentation précédente met les deux produits A et B sur un pied d'égalité. En fait, les associations sont surtout utilisées sous la forme de règles asymétriques destinée à mettre en évidence de supposées relations causales :

"15% des clients qui achètent A achètent également B"

Comme toujours, le données, par elles-mêmes ne peuvent assurer que la relation causale, si relation causale il y a, est dans ce sens, et même si l'attention est focalisée sur l'affirmation précédente, il y aura tout lieu d'examiner l' "autre" règle :

"21% des clients qui achètent B achètent également A"

De ce fait, la détection de associations se heurte à des difficultés d'interprétation de même nature que celles rencontrées dans l'étude de la corrélation entre deux variables numériques. En particulier, les pièges de la corrélation partielle se retrouvent dans l'interprétation des associations. Déjouer ces pièges exigerait alors d' analyser non plus des produits par paires, mais par groupes de 3 ou plus. Le mur de l'explosion combinatoire interdit alors rapidement de pousser les investigations plus avant.

On associe souvent à une règle d'association deux nombres destinés à quantifier la valeur des enseignements que l'on peut tirer de sa détection.

    1) Le niveau de support

        C'est la proportion des enregistrements qui comportent le couple (A, B) dans l'ensemble de tous les enregistrements (y compris ceux qui ne contiennent ni A ni B). Il est symétrique en A et B.
Un haut niveau de support ne signifie pas qu'une règle intéressante a été identifiée, mais seulement que si cette règle existe, alors elle concernera une forte proportion des enregistrements.
 

    2) Le niveau de confirmation (ou de confiance)

        C'est la proportion des enregistrements qui comportent le couple (A, B) dans l'ensemble de ceux qui comportent l'achat A . Le niveau de confiance mesure la force de l'interaction (asymétrique) entre A et B. Un haut niveau de confirmation signifie que la règle concernée n'est pas due au hasard, mais représente une réalité.
Par lui-même, le niveau de confiance ne dit pas si l'association est plus forte ou plus faible que ce que l'on attendait de l'hypothèse d'indépendance des produits. Pour pouvoir tirer cette conclusion, il faut le comparer à la proportion attendue, soit p(A).p(B).

 

Notons enfin que l'Analyse des Associations relevant de principes élémentaires de la statistique, ont peut s'attendre à ce que les logiciels se penchent dans un proche avenir sur la question de savoir si les associations détectées sont significativement différentes de ce que l'on attendrait d'une hypothèse d'indépendance des produits.

 

Téléchargez ce Glossaire