FORMATION "ARBRES DE DECISION en Data Mining"
Les Arbres de Décision sont peut être les techniques
de Classification les plus populaires en Data Mining. Rapides, apparemment simples,
ils donnent souvent des résultats convenables.
De plus, leur capacité
à segmenter une base de données est très appréciée, et les fait même souvent
appeler "Arbres de Segmentation".
Malgré ces qualités, les Arbres de Décision souffrent de limitations qu'il vaut mieux connaître avant de les utiliser à la légère. De plus, leur caractère nettement heuristique a donné lieu à un foisonnement de variantes dont les différences, très réelles, sont difficilement perceptibles au nouveau venu.
Cette formation d'1 journée (voir plan ci-dessous) permet au stagiaire de se familiariser avec les Arbres de Décision les plus courants.
Plan de la formation
Objectifs des Arbres de Décision
Classification
Segmentation
Extraction de règles
Identification de variables pertinentes
Applications des Arbres de Décision
Ciblage de publipostage, credit scoring, politique d'embauche
et de rémunération, analyse des ventes,
diagnostic.
Principe des Arbres de Décision
Impureté d'une population avant et après une partition
Pouvoir discriminant d'une variable
Décomposition récursive d'une base de données
Branchements, nœuds et feuilles
Interprétation graphique
Comment prendre en compte les probabilités a priori ?
Comment prendre en compte les différents coûts de mauvaise classification ?
Classification probabiliste
Erreur de resubstitution
Validation, validation croisée
Comment estimer les performances des feuilles individuelles ?
Régression
Les différentes critères de branchement
Le Khi-2 (Arbres CHAID)
Entropie (Arbres C5)
Indice de Gini (Arbres C&RT)
"Twoing"
QUEST
Gestion des différents types de variables
Variables nominales
Sous-ensembles de modalités
Faut-il regrouper les modalités?
Ajustement de Bonferroni
Variables ordinales
Variables numériques
Discrétisation automatique ou "manuelle"
Branchement binaire
Combinaison de variables
Gestion des valeurs manquantes
Faut-il arrêter la croissance de l'Arbre ?
Le surapprentissage
Les différents critères d'arrêt
Sur les propriétés des noeuds
Sur les propriétés des branchements
Faiblesses des critères d'arrêt
Arbres complets et élagage
Interpréter un Arbre
Syntaxe des règles
Stabilité de la topologie
Variables masquées et branchement forcé
Effet réel et effet potentiel d'une variable