Propension d'un consommateur à acheter un produit ou un service donné. La notion d'appétence peut être illustrée par l'exemples suivant :
* Une banque propose trois produits financiers, qui diffèrent par des critères comme la durée de placement, la hauteur du risque des placements, la fiscalité, la disponibilité des fonds etc... Tous ses clients ne sont pas intéressés à un même degré par chacun de ces trois produits. Afin de mieux cibler ses argumentaires et sa promotion, la banque va procéder à l'élaboration d'un score d'appétence, qui permettra de prédire quel produit sera le mieux susceptible de séduire de nouveaux clients, ou des clients existants qui seront contactés pour leur proposer le produit le mieux adapté à leurs besoins. Ce score sera construit sur la base des résultats des premiers mois de vie de ces produits.
Sur le plan technique, la détermination d'un score d'appétence relève de la classification.
Comme "industrialisation" de la Statistique, le Data Mining est présent partout où il y a des données fiables, relativement abondantes, et dont on on sait que leur distribution renferme de l'information qu'il convient d'extraire. Les activités y faisant régulièrement appel sont donc extrêmement diversifiées, et vont du Contrôle de Qualité en Production, à l'assistance au Diagnostic Médical, en passant par l'Astrophysique ou la Pharmacologie.
Mais ces activités sont depuis longtemps de grosses consommatrices de Statistique, et l'essor du Data Mining ne fera que leur rendre plus facile des traitements de données auxquelles elles sont habituées.
Il en va tout autrement pour l'entreprise "générale", dans laquelle la Statistique a toujours été, à de rares exceptions près (p. ex. assurances, crédit), une activité au mieux périphérique. La croissance prodigieuse du volume des données stockées la met devant une alternative embarassante :
* Les "archiver", au risque de voir les concurrents tirer un parti avantageux de leurs propres données.
* Les exploiter systématiquement, c'est à dire créer une nouvelle activité interne pour laquelle elle se sent mal préparée.
Après quelques années d'hésitation, le mouvement paraît maintenant inéluctable. Les pionniers ont recueilli le fruit de leur audace, et ont permis d'identifier les applications où le Data Mining a, sans discussion possible, apporté un surcroît d'efficacité, et donc de rentabilité, aux entreprises dans leur ensemble.
Les trois principaux domaines d'applications dans lesquels le Data Mining est devenu indispensable sont :
* Le Marketing, qui est le premier demandeur et utilsateur du Data Mining,
* La Gestion de la Relation Client (GRC ou CRM, pour "Customer Relationship Management"),
* L'estimation et la gestion des risques.
Il n'est certes pas question pour une entreprise prête à franchir le pas du Data Mining d'aborder de front ces trois problématiques. Il est cependant recommandable, dans un premier temps, de ne pas trop s'aventurer hors des sentiers battus, et de faire ses premières armes dans des applications bien reconnues et aux méthodologies de développement éprouvées.
Associations (Analyse des)
Une grande surface vend de l'eau minérale. Elle vend également des vêtements de sport. A la caisse, certains caddies contiendront de l'eau minérale, mais pas de vêtements de sport. D'autres contiendront des vêtements de sport, mais pas d'eau minérale. En supposant une complète indépendance de ces deux types de produits, il est possible d'estimer le nombre de caddies qui devraient contenir des vêtements de sport ET de l'eau minérale.
Si
le nombre observé est supérieur au nombre prédit, la grande surface aura détecté
une association (positive) entre ces deux types de produits.
La mise en évidence de telles associations a une grande
valeur. Elle permet :
L'Analyse des Associations
peut également être utilisée pour comparer les ventes de deux magasins d'une
même enseigne. Le fait que deux magasins révèlent des associations différentes
peut être révélateur :
L'évolution dans le temps d'une Association peut révéler
des changements de comportement des clients. Ainsi une Association faible
mais qui se renforce au fil du temps peut permettre à l'entreprise
d'anticiper une tendance, et d'agir de façon proactive, avant que tout le monde
se soit rendu compte de l'existence de cette tendance.
A l'opposé, une Association
décroissante dans le temps peut permettre à l'entreprise de prendre des
mesures propres à éviter des stocks d'invendus ou des promotions à contre-temps.
La grande distribution est la branche d'activité la plus consommatrice d'Analyse des Associations. Mais on la retrouve également dans :
_________________
Avec ces vertus (très réelles), comment expliquer
que l'Analyse des Associations ne soit pas une des techniques de Data Mining
les plus en vue ? Il y a plusieurs raisons, d'ordre opérationnel.
1) Bien que les calculs mis
en œuvre soient très simples (voir ici),
ils sont également très longs et peuvent facilement excéder les capacités
d'un ordinateur puissant en raison du très grand nombre d'articles généralement
considérés. Des méthodologies de regroupement hiérarchique des articles ont
été développées, mais elles sont lourdes, demandent beaucoup d'expertise "métier",
et peuvent masquer une association intéressante.
2) Il existe de très nombreuses
associations "triviales". Il n'y a aucun intérêt à "découvrir"
après des heures de calcul que les acheteurs de machines à laver achètent fréquemment
des extensions de garantie. Tout le monde le sait. Mais pas un ordinateur, qui
va consciencieusement passer les données au crible sans se préoccuper de la
trivialité possible de ses conclusions, à moins que l'on ne consacre du temps
et des efforts à l'empêcher de se fourvoyer ainsi.
3) Les résultats de l'analyse
peuvent être facilement biaisés par une précédente campagne promotionnelle.
Ce que l'on mesure alors est non pas une association réelle, mais plutôt l'efficacité
de la campagne.
4) Des circonstances particulières
peuvent également biaiser l'analyse, comme : des conditions climatiques, un
défaut d'approvisionnement temporaire d'un produit, une action promotionnelle
particulièrement agressive d'un concurrent... L'équipe conduisant l'analyse
peut ne pas être informée de ces circonstances particulières.
5) Il est fréquent d'une association
détectée résiste aux tentatives d'interprétation. Qu'en faire ? Il est tentant
de "forcer" une explication hasardeuse sur l'association. L'objectif
du Data Mining étant d'assister la prise de décisions à l'aide d'information
extraite de données, de mauvaises interprétations d'une association réelle ou
supposée peuvent occasionner de fâcheux résultats.
L'Analyse des Associations illustre bien les possibles
mirages du Data Mining : si simple qu'elle est parfaitement compréhensible
avec le minimum de mathématiques, elles ne peut cependant se passer d'une
intense participation humaine sous peine de produire des résultats qui ne peuvent
aucunement justifier les efforts consacrés à leur obtention.
Pour une première approche un peu plus technique de l'Analyse des Associations, voir ici.
Perte de clients, jusqu'ici fidèles à leurs fournisseurs
habituels, vers la concurrence. Le terme anglais correspondant est "Churn".
Le
phénomène d'attrition a pris une ampleur considérable dès la fin du XXème
siècle, en raison de l'ouverture des marchés, de la concurrence accrue entre
entreprises, de la standardisation des produits, et de l'attitude plus attentive et critique des clients (consommateurs
aussi bien que clients professionnels).
La détection anticipée de l'attrition est une des finalités les plus importantes du Data Mining. Celui-ci procède en construisant un modèle permettant de discriminer entre :
Cette modélisation produit, pour chaque client,
d'un Score d'Attrition, nombre qui mesure le risque qu'il y a de voir le client
partir prochainement à la concurrence. Les Scores d'Attrition sont particulièrement
développés dans les activités à forte volatilité comme la Téléphonie Mobile,
un peu moins dans la Banque et l'Assurance.
Du point de vue du Data Miner, le problème de
l'attrition apparaît donc comme comme un problème de prédiction,
et plus particulièrement de classification.
Cependant,
en pratique (et comme celà arrive parfois en classification), une
typologie préliminaire particulièrement
réussie peut faire apparaître clairement un groupe ("classe",
ou "segment") à fort taux d'attrition. On aura alors la surprise de
voir une approche essentiellement descriptive
(typologie) faire "toute seule" une bonne partie du travail
que l'on attend normalement d'une technique prédictive. L'intérêt de cette approche
est que l'expérience des gens de métier les rend particulièrement
aptes à interpréter les classes. Ils peuvent, de ce fait, décider de se
satisfaire de cette typologie comme modèle "prédictif" de l'attrition,
et trouver les remèdes en vue d'une fidélisation
par la seule interprétation de la typologie.