Par le simple jeu de son activité quotidienne, l'entreprise
accumule des quantités considérables de données (achats, facturations, gestion
financière, prospection, gestion de stocks, transactions, production etc...). Au delà
de leur utilité opérationnelle première, ces données contiennent de l'information
implicite par le seul fait qu'elles ne sont pas distribuées au hasard, et qu'il
existe donc des relations plus ou moins fortes entre elles.
Le Data Mining se propose d'identifier les relations cachées entre ces données représentatives . Ces relations (ou "modèles") donneront du monde dans lequel vit l'entreprise une image concise, et parfois interprétable en termes "métier". Autrement dit, le rôle du Data Mining est de transformer une masse de données en information destinée à alimenter des réflexions stratégiques ou opérationnelles.
Extraire des régularités de données qui ne sont pas
distribuées complètement au hasard est une activité qui porte un nom depuis
fort longtemps : Statistique. Ce terme n'apparaît pas toujours dans les argumentaires
commerciaux, car il transporte avec lui certaines connotations négatives peu
attractives pour de nouveaux venus au Data Mining.
Il est facile de trouver
dans la littérature des définitions du Data Mining ne faisant
aucune référence à la Statistique, et elles renferment toutes une part de
vérité. Cependant, afin de rétablir un certain équilibre, la définition du Data
Mining sous-jacente à ce site est :
"Industrialisation de la Statistique, discipline
traditionnellement artisanale, dans le but de la rendre accessible
à un
grand nombre d'utilisateurs non statisticiens qui peuvent effectivement grandement bénéficier
de ses services".
Le mot "industrialisation" entend suggérer
les images suivantes :
1) Automatisation
La Statistique est une activité "manuelle" : elle exige de posséder de bonnes bases théoriques, les algorithmes mis en œuvre doivent être compris afin de pouvoir procéder à des réglages, ce qui ne peut souvent se faire qu'au prix de multiples d'essais, dont les résultats sont eux-même soumis à un examen méticuleux. Bref, la Statistique est affaire de spécialiste.
Le Data Mining affiche, au contraire, son ambition
de fournir à l'utilisateur non statisticien des outils "presse-bouton".
Il devrait être clair que cette ambition vise des objectifs qui dépassent les
possibilités de la technologie contemporaine, et de celles accessibles dans
un avenir prévisible. Par contre, le Data Mining a pleinement réussi son pari
de mettre rapidement en œuvre des techniques difficiles permettant le plus
souvent d'obtenir des résultats convenables, à défaut d'être optimaux.
2) Volume des données
La taille vertigineuse des bases de données actuelles rend inopérantes certaines approches classiques en statistique pour des raisons de temps de calcul (par exemple recherche approfondie des meilleures variables à conserver dans un modèle). Le Data Mining a entamé un travail de longue haleine qui a pour objectif de remplacer certaines techniques traditionnelles par des techniques certainement moins performantes, mais qui sont capables de gérér de gros volumes de données.
3) Mise en production des résultats
La Statistique a été jusqu'à
confinée à des études, dont les résultats sont décortiqués et interprétés par
des hommes de métier. Le Data Mining veut rendre ces résultats plus opérationnels,
en les mettant en temps réel à la disposition des utilisateurs et automatiquement
assortis de commentaires (p. ex. alarmes, suggestions). Lorsque cet objectif
aura été atteint, le Data Mining sera devenu un véritable assistant pour
de nombreuses fonctions dans l'entreprise.