Score

Terme déjà ancien qui désigne un nombre mesurant l'attitude d'un client vis-à-vis d'un comportement particulier. On peut voir le score comme une "note" donnée par l'entreprise à son client.
 

Les scores les plus importants sont :

        * Les scores d'appétence pour un certain produit. Mesure la propension d'un client à acheter le produit. Idéalement, la valeur du score devrait être la probabilité pour que le client achète le produit dans un avenir défini (p. ex. dans les 6 mois à venir).

  Le ciblage (p. ex. de publipostage) relève de la même approche.
 

        * Les scores de risque. Traditionnellement associés aux activités de crédit ou d'assurance, les scores de risque mesurent le risque qu'il y a à accepter le demandeur comme client.

Le crédit à la consommation est aujourd'hui le plus gros consommateur de scores de risque, mais cette pratique s'étend rapidement à de nombreux autres champs, comme l'estimation de la santé financière des collectivités locales ou des entreprises. Idéalement, la valeur du score devrait être la probabilité pour que l'emprunteur rembourse correctement son prêt.
 

        * Les scores d'attrition, qui quantifient le risque de voir partir un client à la concurrence dans un avenir plus ou moins proche. Idéalement, la valeur du score devrait être la probabilité pour que le client quitte l'orbite de l'entreprise pendant la période considérée.

 

En termes de Data Mining, la création de scores (Scoring) relève de la classification. Par exemple, les individus de la base de données historique d'un organisme de prêt à la consommation ont soit :

        * Remboursé correctement leur prêt (Classe n°1),

        * Soit, au contraire, ont rencontré des difficultés de remboursement (Classe n°2).
 

L'activité de scoring va consister à construire un modèle permettant de prédire si un nouvel emprunteur, à supposer qu'on lui accorde le crédit qu'il demande, remboursera correctement ou non son prêt.
Ce modèle sera construit à partir de la base de données historique, et devra vérifier deux conditions :

    1) Être capable de faire correctement de la "prédiction rétroactive", c'est à dire de prédire correctement quel a été le comportement des emprunteurs à qui un prêt a été accordé dans le passé.

    2) Et surtout, de passer avec succès l'étape de validation, qui permet de se convaincre que non seulement le modèle est correct pour les données passées, mais surtout qu'il donnera des résultats encore corrects pour les données à venir, puisque le modèle sera untilisé pour alimenter la décision d'accord ou non du prêt.

 

Les variables utilisées pour construire le modèle sont dites "variables indépendantes", et pourraient être : l'Âge, le Sexe, le Statut Marital,  le Revenu, la CSP, le montant des prêts en cours, la durée et le montant du prêt etc... La variable dont on cherche à prédire la valeur est l'appartenance à la Classe n°1 (Bons rembourseurs) ou la Classe n°2 (Mauvais rembourseurs). Deux individus ayant des profils quasiment identiques pouvant appartenir l'un à une classe, et l'autre à l'autre classe, on préferera un modèle de score probabiliste, c'est à dire donnant non pas un verdict "dur", mais les probabilités pour qu'un individu appartienne à une classe ou à l'autre.

 

Le Data Mining propose un grand nombre de techniques qui peuvent être mises en œuvre pour créer un score :

        * Des techniques classiques : Analyse Discriminante, Régression Logistique.

        * Des Arbres de Décision, si l'obtention de règles de classification est impérative.

        * Des Réseaux de Neurones si une plus grande qualité de classification est recherchée.
 

En fait, il est courant de construire plusieurs scores en ayant recours successivement à plusieurs techniques, puis de comparer ces scores, voire de les combiner en un "super-score" mailleur que chacun des scores pris individuellement.

 

Segmentation

L'essentiel de la Segmentation est décrit dans la rubrique "Typologie". Néamoins, il convient de ne pas confondre les deux notions :


Cette différence est bien illustrée par les comportements comparés :

 

La CAH ne privilégie aucune variable. Par contre, on doit désigner à un Arbre de Décision une variable "à expliquer", qui a un statut spécial. Si on change de variable à expliquer, la Segmentation produite par l'Arbre change également.

 

Typologie

Une base de données (p. ex. commerciale) contient habituellement un très grand nombre d'enregistrements (individus) décrits par un grand nombre d'attibuts (jusqu'à plusieurs centaines). Le cerveau humain est totalement incapable d'appréhender les éventuelles structures sous-jacentes de cette masse de données. En particulier,  il est absolument impossible de savoir si tel enregistrement particulier est absolument unique en son genre, ou bien si, au contraire, de très nombreux autres entregistrements lui ressemblent fortement à de petites variations près. Si tel était le cas, tous ces enregistrements très semblables pourraient alors être réunis dans un même groupe, ou "classe" (nous n'utilisons pas le terme "segment" à dessein, voir Segmentation), et être considérés globalement comme définissant un "type d'individu".

Poursuivant cette réflexion jusqu'à son terme, on pourrait imaginer découper la base de données en un petit nombre de groupes tels que :

 

On aurait alors réalisé une typologie, ou "clusterisation", de la base de données. Le résultat de la typologie est un petit nombre (au plus une dizaine) de groupes. Chacun de ces groupes peut être identifié par son "archétype" (ou individu moyen), un individu le plus souvent fictif, mais particulièrement représentatif du groupe et qui, en quelque sorte, "parle au nom" de tous les membres du groupe.

 

Les avantages d'une typologie résussie sont considérables.

 

L'idéal est bien sûr que les résultats de ces deux types de typologie coïncident. On a alors trouvé un lien entre la description d'un individu, et son comportement. Il devient alors possible de prévoir les comportements de clients sur lesquels on possède beaucoup d'information descriptive, mais dont se demande quels seraient leur comportement, par exemple à une sollicitation nouvelle. Il "suffit" alors de se reporter à la typologie qui a été effectuée sur ceux des clients qui ont déjà étés soumis à cette sollicitation.

En pratique, ce lien entre "description" et "comportement" peut très bien apparaître dans une typologie unique, réunissant simultanément variables descriptives et variables comportementales.

 

Les principales techniques utilisées pour réaliser une typologie sont évoquées ici.