Coût  (de mauvaise classification)

Un bon classifieur va estimer les probabilités d'appartenance des individus aux classes. S'il faut ensuite affecter chaque nouvel individu à une classe, il est intuitif de le faire en affectant l'individu à la classe dont la probabilité est la plus élevée. Et de fait, on montre que c'est cette stratégie qui conduit au plus petit nombre d'individus mal classés.

Mais est-ce toujours la stratégie qui permet d'obtenir la plus grande satisfaction de la part de l'utilisateur ? Prenons un exemple extrême, celui du diagnostic médical. Demanderait-on à un classifieur chargé de trier des examens de radios pulmonaires douteuses en "Pas de cancer" et "Cancer" de le faire en minimisant le nombre total d'erreurs ? Certainement pas, car ce faisant, on considèrerait comme également pénalisantes :

    * L'erreur qui consiste à considérer comme alarmante une radio parfaitement normale.

    * et l'erreur qui consiste à considérer comme saine la radio d'un poumon cancéreux.

 

Le premier type d'erreur est gênant, le second est dramatique. Il est clair que l'on chercherait à biaiser les calculs du classifieur de façon à ce qu'il réduise encore plus le nombre d'erreur du deuxième type, quitte à ce qu'il commette plus d'erreurs du premier type.

 

Dans le monde économique, en face de chaque décision de classification doivent figurer le coût, mais également le profit attendu de chaque affectation. Le rôle du classifieur sera alors d'aider le décideur à choisir la solution maximisant le profit total. Par exemple, dans le cas du ciblage de publipostage (p. ex. de catalogues de vente par correspondance), il faut prendre en compte les deux types d'erreur :

    * Envoyer un catalogue à un client qui n'achètera pas.

    * Et ne pas envoyer un catalogue à un client qui aurait acheté.

 

Clairement, le taux de mauvaise classification n'est plus un critère suffisant pour l'élaboration de la liste de diffusion : il faut également prendre en compte le coût unitaire d'expédition, et le profit moyen attendu d'un achat sur catalogue.

 

Le même genre de question se pose, mais de façon plus complexe, lorsqu'il y a plus de deux classes.

 

Il existe des techniques à mettre en jeu pendant, ou après la construction du classifieur de façon à ce que :

    * Les sorties du classifieur ne soient plus les probabilités d'appartenance aux classes.

    * Mais que, en affectant chaque individu à la classe ayant la "valeur" la plus élevée, on maximise le profit total estimé.

____________________________________________________________

 

Voir aussi:

 Classification

Téléchargez ce Glossaire