Arbres de Décision
Les Arbres de Décision sont parmi les techniques de classification de Data Mining les plus populaires. Une fois construit, un Arbre se présente sous la forme d'une arborescence inversée dont chaque nœud terminal (ou "feuille") contient une fraction de l'échantillon original dont les individus appartiennent presque tous à une seule et même classe.
Un nouvel individu "descend" l'Arbre depuis la racine jusqu'à une unique feuille (voir image inférieure). Son trajet dans l'Arbre est entièrement déterminé par les valeurs de ses attributs (ou "prédicteurs"). Il est alors affecté à la classe dominante de la feuille. Plus précisément, pour chaque k, la probabilité a posteriori de la classe k peut être estimée par la proportion d'individus dans la feuille qui appartiennent à cette classe.
Chaque feuille est un "segment" de l'échantillon qui est aussi homogène que possible par rapport à la variable dépendante (classe). C'est la raison pour laquelle les Arbres de Décision sont également appelés "Arbres de Segmentation".
Les Arbres de Décision acceptent tout type de prédicteur : numérique, ordinal ou nominal. Ils sont rapides, peuvent traiter d'importants volumes de données, et leurs décisions peuvent être transcrites sous forme de "règles logiques" très prisées (mais aux pouvoirs explicatifs souvent limités). Ces avantages sont contrebalancés par un certain manque de précision dans leurs prédictions, comparées à celles de techniques plus sophistiquées comme la Régression Logistique ou les Réseaux de Neurones.
Plusieurs types d'Arbres de Décision sont commercialement disponibles. Leurs différences sont surtout dans la façon dont ils choisissent et effectuent les branchements, et comment ils gèrent les prédicteurs nominaux. Les types principaux ont pour noms :
* CART
* CHAID
* C5
* QUEST
_______________________________________________________________________________
Les Tutoriels sur les Arbres de Décision ne sont pas encore disponibles en français. Nous vous prions de nous excuser pour cette gêne.
|
Tutorial 1 |
In this first Tutorial, we go over the basic principles of Decision Trees. Although there are many different types of Trees, they differ mostly by the way nodes are split, but they share a large body of common strategy that is dictated by the desire to consider variables one at a time.
OVERVIEW OF DECISION TREES
|
What are Decision Trees ? Classifiers (and regressors too) Rectangular regions Sub-optimal regions Growing the Tree Discriminating power of a predictor Using both predictors Growing the Tree Choosing a predictor for a split Choosing a split Split criterion "Greedy" algorithm How big a Tree ? Using the Tree Classification of new observations Identifying important predictors |
||
|
TUTORIAL |
||
___________________________________________
|
Tutorial 2 |
So far, we paid no attention to whether the predictors were categorical, ordinal or numerical. In fact, Decision Trees always consider predictors as categorical. What we mean is that if a predictor is numerical, it is first quantized into contiguous blocks that are then considered as modalities. Let's go over the details.
THE VARIOUS TYPES OF PREDICTORS
|
Categorical predictors The standard case Merging the modalities Too many modalities Chi-square test for merging Binary Trees A special case : binary dependent variable Ordinal predictors Merging Splitting Numerical predictors |
||
|
TUTORIAL |
||
_________________________________________
|
Tutorial 3 |
We now go over the various criteria used for deciding which node to split next, and how to define the split.
SPLITTING NODES
|
Impurity Impurity of a node Misclassification rate Gini index Entropy Variance Concavity of the impurity criterion Impurity of the set of child nodes Splitting the node "Chi-square"-based splitting : CHAID The "Twoing" split Priors and weights Costs |
||
|
TUTORIAL |
||
_________________________________________
|
Tutorial 4 |
Like all models, whether "parametric" or "non parametric", Decision Trees are prone to overfitting. When the process of tree growing is pushed beyond a certain limit, the predictive performance of the tree starts deteriorating : the leaves are then determined by the finest details of the data, that is, by noise.
Two approaches are used for avoiding overfitting :
* Early stopping of the tree growth,
* And pruning of a certainly overgrown tree.
THE "RIGHT SIZE" TREE
|
Tree "overgrowing" Stopping the Tree growth Stopping conditions Node size Parent node size Child node size Minimum impurity Parent node impurity Child node impurity Set of child nodes impurity Minimum decrease in impurity Identifying the thresholds Weaknesses of stopping conditions "Cost-Complexity" Pruning Penalizing large Trees Best sub-tree Pruning Adjusting the penalty Nested optimal subtrees Choosing ai
|
||
|
TUTORIAL |
||
_________________________________________