Data Mining

Par le simple jeu de son activité quotidienne, l'entreprise accumule des quantités considérables de données (achats, facturations, gestion financière, prospection, gestion de stocks, transactions, production etc...). Au delà de leur utilité opérationnelle première, ces données contiennent de l'information implicite par le seul fait qu'elles ne sont pas distribuées au hasard, et qu'il existe donc des relations plus ou moins fortes entre elles.
 

Le Data Mining se propose d'identifier les relations cachées entre ces données représentatives . Ces relations (ou "modèles") donneront du monde dans lequel vit l'entreprise une image concise, et parfois interprétable en termes "métier". Autrement dit, le rôle du Data Mining est de transformer une masse de données en information destinée à alimenter des réflexions stratégiques ou opérationnelles.

 

Extraire des régularités de données qui ne sont pas distribuées complètement au hasard est une activité qui porte un nom depuis fort longtemps : Statistique. Ce terme n'apparaît pas toujours dans les argumentaires commerciaux, car il transporte avec lui certaines connotations négatives peu attractives pour de nouveaux venus au Data Mining.
Il est facile de trouver dans la littérature des définitions du Data Mining ne faisant aucune référence à la Statistique, et elles renferment toutes une part de vérité. Cependant, afin de rétablir un certain équilibre, la définition du Data Mining sous-jacente à ce site est :

"Industrialisation de la Statistique, discipline traditionnellement artisanale, dans le but de la rendre accessible
à un grand nombre d'utilisateurs non statisticiens qui peuvent effectivement grandement bénéficier de ses services".


Le mot "industrialisation" entend suggérer les images suivantes :

    1) Automatisation

        La Statistique est une activité "manuelle" : elle exige de posséder de bonnes bases théoriques, les algorithmes mis en     œuvre doivent être compris afin de pouvoir procéder à des réglages, ce qui ne peut souvent se faire qu'au prix de multiples d'essais, dont les résultats sont eux-même soumis à un examen méticuleux. Bref, la Statistique est affaire de spécialiste.

Le Data Mining affiche, au contraire, son ambition de fournir à l'utilisateur non statisticien des outils "presse-bouton". Il devrait être clair que cette ambition vise des objectifs qui dépassent les possibilités de la technologie contemporaine, et de celles accessibles dans un avenir prévisible. Par contre, le Data Mining a pleinement réussi son pari de mettre rapidement en œuvre des techniques difficiles permettant le plus souvent d'obtenir des résultats convenables, à défaut d'être optimaux.
 

2) Volume des données

    La taille vertigineuse des bases de données actuelles rend inopérantes certaines approches classiques en statistique pour des raisons de temps de calcul (par exemple recherche approfondie des meilleures variables à conserver dans un modèle). Le Data Mining a entamé un travail de longue haleine qui a pour objectif de remplacer certaines techniques traditionnelles par des techniques certainement moins performantes, mais qui sont capables de gérér de gros volumes de données.

 

3) Mise en production des résultats

    La Statistique a été jusqu'à confinée à des études, dont les résultats sont décortiqués et interprétés par des hommes de métier. Le Data Mining veut rendre ces résultats plus opérationnels, en les mettant en temps réel à la disposition des utilisateurs  et automatiquement assortis de commentaires (p. ex. alarmes, suggestions). Lorsque cet objectif aura été atteint, le Data Mining sera devenu un véritable assistant pour de nombreuses fonctions dans l'entreprise.