FORMATION "ARBRES DE DECISION en Data Mining"

 

  Les Arbres de Décision sont peut être les techniques de Classification les plus populaires en Data Mining. Rapides, apparemment simples, ils donnent souvent des résultats convenables.

De plus, leur capacité à segmenter une base de données est très appréciée, et les fait même souvent appeler "Arbres de Segmentation".

Malgré ces qualités, les Arbres de Décision souffrent de limitations qu'il vaut mieux connaître avant de les utiliser à la légère. De plus, leur caractère nettement heuristique a donné lieu à un foisonnement de variantes dont les différences, très réelles, sont difficilement perceptibles au nouveau venu.

Cette formation d'1 journée (voir plan ci-dessous) permet au stagiaire de se familiariser avec les Arbres de Décision les plus courants.

Plan de la formation

 

Objectifs des Arbres de Décision

Classification

Segmentation

Extraction de règles

Identification de variables pertinentes

Applications des Arbres de Décision

Ciblage de publipostage, credit scoring, politique d'embauche et de rémunération, analyse des ventes,

diagnostic.
 

Principe des Arbres de Décision

Impureté d'une population avant et après une partition

Pouvoir discriminant d'une variable

Décomposition récursive d'une base de données

Branchements, nœuds et feuilles

Interprétation graphique

Comment prendre en compte les probabilités a priori ?

Comment prendre en compte les différents coûts de mauvaise classification ?

Classification probabiliste

Erreur de resubstitution

Validation, validation croisée

Comment estimer les performances des feuilles individuelles ?

Régression

Les différentes critères de branchement

Le Khi-2 (Arbres CHAID)

Entropie (Arbres C5)

Indice de Gini (Arbres C&RT)

"Twoing"

QUEST

Gestion des différents types de variables

Variables nominales

Sous-ensembles de modalités

Faut-il regrouper les modalités?

Ajustement de Bonferroni

Variables ordinales

Variables numériques

Discrétisation automatique ou "manuelle"

Branchement binaire

Combinaison de variables

Gestion des valeurs manquantes

Faut-il arrêter la croissance de l'Arbre ?

Le surapprentissage

Les différents critères d'arrêt

Sur les propriétés des noeuds

Sur les propriétés des branchements

Faiblesses des critères d'arrêt

Arbres complets et élagage

Interpréter un Arbre

Syntaxe des règles

Stabilité de la topologie

Variables masquées et branchement forcé

Effet réel et effet potentiel d'une variable