Autre nom de la classification non supervisée, ou "classification automatique".
Séparabilité (de classes)
Cette notion, assez académique, ne se rencontre presque jamais dans la réalité (voir "Classification").
Alors pourquoi le praticien devrait-il se préoccuper
de la notion de séparabilité ? Parce que, si on ne peut pas espérer tomber sur
un ensemble de classes complètement séparées, il n'est pas rare qu'une
de ces classe soit séparée, voire linéairement séparée de l'ensemble des
autres classes, et que ce fait a une grande importance pratique.
Supposons
que tel soit le cas, et appelons C1
la classe séparée de l'ensemble des autres classes..
Le processus de
classification peut alors procéder en deux temps :
Pourquoi se donner le mal de construire deux classifieurs au lieu d'un seul ? Parce que:
1) Le premier classifieur est linéaire, donc simple à construire, et riche d'enseignements (interprétabilité).
2) S'il y avait N classes au départ, le deuxième
classifieur n'a plus qu'à discriminer entre N-1 classes au lieu de N, ce qui
facilite grandement sa construction, et conduit en général à de meilleurs résultats.
De
plus, la même technique peut être éventuellement appliquée à l'ensemble des
N-1 classes autres que C1.
Cette stratégie de décomposition d'un problème de classification en plusieurs petits problèmes portant sur un nombre réduit de classes est applicable même quand on n'a pas l'espoir de trouver une classe séparable de l'ensemble des autres (c.à.d. en classification probabiliste). Il existe plusieurs approches de ce type, permettant en général d'obtenir des probabilités d'appartenance aux classes plus exactes que celle obtenues par une approche globale.
Standardisation
Voir ici.
Une chaîne de magasins d'accessoires automobile se demande si le budget consacré à ces accessoires dépend de l'âge du conducteur. A cette fin, elle conduit un peu aveuglément une régression avec :
* L' "Âge" comme variable explicative (ou indépendante).
* Le "Budget" consacré aux accessoires comme variable à expliquer (ou dépendante).
Les résultats sont décevants : la régression a un très mauvais pouvoir prédictif, et les tests associés confirment qu'elle n'est pas du tout significative (très faible corrélation entre "Âge" et "Budget").
L'examen visuel des données (illustration ci-dessous) explique bien ce phénomène. Ce même examen visuel offre de plus une porte de sortie : la tentative de régression a considéré à tort l'échantillon comme étant a priori homogène, alors qu'il est clairement constitué de deux sous-échantillons très différents :
* Les acheteurs d'accessoires sportifs.
* Les acheteurs d'accessoires
de confort.
L'identification de ces deux composantes est évidente en deux dimensions (une seule variable explicative), mais difficile en dimension plus élevée en raison de l'absence de support visuel.
En isolant ces deux sous-échantillons, et en
effectuant sur chacun d'eux une régression séparée, on obtient maintenant d'excellents
résultats.
L'action de partitionner un échantillon en segments homogènes vis à vis d'une variable à expliquer est en général appelée "segmentation". Par elle-même, une segmentation ne saurait probablement pas identifier les deux sous-échantillons convenables, mais plus vraisemblablement chacun des segments dont ils sont constitués. Il faudra une expertise humaine pour "recoller les morceaux" et construire les deux sous-échantillons.
Le modèle résultant, à deux régressions distinctes, est dit "stratifié", et l'action d'identification des deux sous-échantillons homogènes est dite "de stratification".
Studentisé (Résidu)
En Régression Linéaire (Simple ou Multiple), un résidu est dit :
Les résidus studentisés sont appelés ainsi parce qu'ils ont des distributions t (quand les erreurs ont des distributions normales). Ils jouent un rôle central dans les définitions et les propriétés des détecteurs classiques d'observations ayant une influence particulièrement importante sur le modèle (p. ex. DFFITS, distance de Cook).