Appétence

Propension d'un consommateur à acheter un produit ou un service donné. La notion d'appétence peut être illustrée par l'exemples suivant :

    * Une banque propose trois produits financiers, qui diffèrent par des critères comme la durée de placement, la hauteur du risque des placements, la fiscalité, la disponibilité des fonds etc...  Tous ses clients ne sont pas intéressés à un même degré par chacun de ces trois produits. Afin de mieux cibler ses argumentaires et sa promotion, la banque va procéder à l'élaboration d'un score d'appétence, qui permettra de prédire quel produit sera le mieux susceptible de séduire de nouveaux clients, ou des clients existants qui seront contactés pour leur proposer le produit le mieux adapté à leurs besoins. Ce score sera construit sur la base des résultats des premiers mois de vie de ces produits.

 

Sur le plan technique, la détermination d'un score d'appétence relève de la classification.

 

Applications

Comme "industrialisation" de la Statistique, le Data Mining est présent partout où il y a des données fiables, relativement abondantes, et dont on on sait que leur distribution renferme de l'information qu'il convient d'extraire. Les activités y faisant régulièrement  appel sont donc extrêmement diversifiées, et vont du Contrôle de Qualité en Production, à l'assistance au Diagnostic Médical, en passant par l'Astrophysique ou la Pharmacologie.

Mais ces activités sont depuis longtemps de grosses consommatrices de Statistique, et l'essor du Data Mining ne fera que leur rendre plus facile des traitements de données auxquelles elles sont habituées.

 

Il en va tout autrement pour l'entreprise "générale", dans laquelle la Statistique a toujours été, à de rares exceptions près (p. ex. assurances, crédit), une activité au mieux périphérique. La croissance prodigieuse du volume des données stockées la met devant une alternative embarassante :

    * Les "archiver", au risque de voir les concurrents tirer un parti avantageux de leurs propres données.

    * Les exploiter systématiquement, c'est à dire créer une nouvelle activité interne pour laquelle elle se sent mal préparée.

 

Après quelques années d'hésitation, le mouvement paraît maintenant inéluctable. Les pionniers ont recueilli le fruit de leur audace, et ont permis d'identifier les applications où le Data Mining a, sans discussion possible, apporté un surcroît d'efficacité, et donc de rentabilité, aux entreprises dans leur ensemble.

 

Les trois principaux domaines d'applications dans lesquels le Data Mining est devenu indispensable sont :

    * Le Marketing, qui est le premier demandeur et utilsateur du Data Mining,

    * La Gestion de la Relation Client (GRC ou CRM, pour "Customer Relationship Management"),

    * L'estimation et la gestion des risques.

 

Il n'est certes pas question pour une entreprise prête à franchir le pas du Data Mining d'aborder de front ces trois problématiques. Il est cependant recommandable, dans un premier temps, de ne pas trop s'aventurer hors des sentiers battus, et de faire ses premières armes dans des applications bien reconnues et aux méthodologies de développement éprouvées.

 

Associations (Analyse des)

Une grande surface vend de l'eau minérale. Elle vend également des vêtements de sport. A la caisse, certains caddies contiendront de l'eau minérale, mais pas de vêtements de sport. D'autres contiendront des vêtements de sport, mais pas d'eau minérale. En supposant une complète indépendance de ces deux types de produits, il est possible d'estimer le nombre de caddies qui devraient contenir des vêtements de sport ET de l'eau minérale.


   Si le nombre observé est supérieur au nombre prédit, la grande surface aura détecté une association (positive) entre ces deux types de produits.

La mise en évidence de telles associations a une grande valeur. Elle permet :


   L'Analyse des Associations peut également être utilisée pour comparer les ventes de deux magasins d'une même enseigne. Le fait que deux magasins révèlent des associations différentes peut être révélateur :

 

L'évolution dans le temps d'une Association peut révéler des changements de comportement des clients. Ainsi une Association faible mais qui se renforce au fil du temps  peut permettre à l'entreprise d'anticiper une tendance, et d'agir de façon proactive, avant que tout le monde se soit rendu compte de l'existence de cette tendance.
A l'opposé, une Association décroissante dans le temps peut permettre à l'entreprise  de prendre des mesures propres à éviter des stocks d'invendus ou des promotions à contre-temps.

 

La grande distribution est la branche d'activité la plus consommatrice d'Analyse des Associations. Mais on la retrouve également dans :

_________________


Avec ces vertus (très réelles), comment expliquer que l'Analyse des Associations ne soit pas une des techniques de Data Mining les plus en vue ? Il y a plusieurs raisons, d'ordre opérationnel.

    1) Bien que les calculs mis en œuvre soient très simples (voir ici),  ils sont également très longs et peuvent facilement excéder les capacités d'un ordinateur puissant en raison du très grand nombre d'articles généralement considérés. Des méthodologies de regroupement hiérarchique des articles ont été développées, mais elles sont lourdes, demandent beaucoup d'expertise "métier", et peuvent masquer une association intéressante.
 

    2) Il existe de très nombreuses associations "triviales". Il n'y a aucun intérêt à "découvrir" après des heures de calcul que les acheteurs de machines à laver achètent fréquemment des extensions de garantie. Tout le monde le sait. Mais pas un ordinateur, qui va consciencieusement passer les données au crible sans se préoccuper de la trivialité possible de ses conclusions, à moins que l'on ne consacre du temps et des efforts à l'empêcher de se fourvoyer ainsi.
 

    3) Les résultats de l'analyse peuvent être facilement biaisés par une précédente campagne promotionnelle. Ce que l'on mesure alors est non pas une association réelle, mais plutôt l'efficacité de la campagne.
 

    4) Des circonstances particulières peuvent également biaiser l'analyse, comme : des conditions climatiques, un défaut d'approvisionnement temporaire d'un produit,  une action promotionnelle particulièrement agressive d'un concurrent...  L'équipe conduisant l'analyse peut ne pas être informée de ces circonstances particulières.
 

    5) Il est fréquent d'une association détectée résiste aux tentatives d'interprétation. Qu'en faire ? Il est tentant de "forcer" une explication hasardeuse sur l'association. L'objectif du Data Mining étant d'assister la prise de décisions à l'aide d'information extraite de données, de mauvaises interprétations d'une association réelle ou supposée  peuvent occasionner de fâcheux résultats.
       

L'Analyse des Associations illustre bien les possibles mirages du Data Mining : si simple qu'elle est parfaitement compréhensible avec le minimum de mathématiques, elles ne peut cependant se passer d'une intense participation humaine sous peine de produire des résultats qui ne peuvent aucunement justifier les efforts consacrés à leur obtention.
 

Pour une première approche un peu plus technique de l'Analyse des Associations, voir ici.

 

Attrition

Perte de clients, jusqu'ici fidèles à leurs fournisseurs habituels, vers la concurrence. Le terme anglais correspondant est "Churn".

Le phénomène d'attrition a pris une ampleur considérable dès la fin du XXème siècle, en raison de l'ouverture des marchés, de la concurrence accrue entre entreprises, de la standardisation des produits, et de l'attitude plus attentive et critique des clients (consommateurs aussi bien que clients professionnels).

 

La détection anticipée de l'attrition est une des finalités les plus importantes du Data Mining. Celui-ci procède en construisant un modèle permettant de discriminer entre :

 

Cette modélisation produit, pour chaque client, d'un Score d'Attrition, nombre qui mesure le risque qu'il y a de voir le client partir prochainement à la concurrence. Les Scores d'Attrition sont particulièrement développés dans les activités à forte volatilité comme la Téléphonie Mobile, un peu moins dans la Banque et l'Assurance.
 

Du point de vue du Data Miner, le problème de l'attrition apparaît donc comme comme un problème de prédiction, et plus particulièrement de classification.
Cependant, en pratique (et comme celà arrive parfois en classification),  une typologie préliminaire particulièrement réussie peut faire apparaître clairement un groupe ("classe", ou "segment") à fort taux d'attrition. On aura alors la surprise de voir une approche essentiellement descriptive (typologie) faire "toute seule" une bonne partie du travail que l'on attend normalement d'une technique prédictive. L'intérêt de cette approche est que l'expérience des gens de métier les rend particulièrement aptes à interpréter les classes. Ils peuvent, de ce fait, décider de se satisfaire de cette typologie comme modèle "prédictif" de l'attrition, et trouver les remèdes en vue d'une fidélisation par la seule interprétation de la typologie.