Modélisation de données
Cette entrée peut être considérée comme le point d'entrée du Glossaire. Nous décrivons ici brièvement :
_____________________________________
La Modélisation de Données, c'est l'art d'extraire de l'information d'un ensemble de données obtenues par des mesures, et de condenser cette information dans un modèle exploitable. Tous ces termes méritent d'être expliqués.
*
Les mesures faites sur le plus grand nombre
possible d'individus de même nature, compte tenu des contraintes
de temps, de budget ou de puissance de calcul.
* Les
résultats des mesures sont traditionnellement regoupés en un tableau rectangulaire,
dont les lignes sont les individus, et les colonnes les variables.
|
Individu |
Sexe |
Taille |
Poids |
Âge |
Tension |
|
1 |
F |
1,68 |
49 |
48 |
14 |
|
2 |
M |
1,79 |
72 |
23 |
13 |
|
3 |
M |
1,67 |
69 |
65 |
19 |
|
4 |
F |
1,53 |
95 |
61 |
22 |
|
5 |
M |
1,82 |
85 |
35 |
15 |
Ainsi, dans ce (tout petit) tableau de données sont décrits 5 individus, décrits par par 5 variables (Sexe, Taille, Poids, Âge, Tension artérielle).
C'est pour cette dernière raison que ce type de modélisation
s'appelle la Modélisation Prédictive (
).
Notez que le mot "prédictif"
ne fait pas référence à une prévision dans le temps, mais au fait que la connaissance
des valeurs de certaines grandeurs permettent de prédire ce que serait la
valeur d'une autre grandeur si cette grandeur était effectivement mesurée.
La distinction entre Modélisation Descriptive et Modélisation
Prédictive est en grande partie artificielle, et découle surtout de l'objectif que l'analyste
cherche à atteindre. Pour le théoricien, les deux Modélisations procèdent d'une
même approche, qui consiste à détecter les régularités des données qui font
que celles-ci ne sont pas distribuées de façon complètement aléatoire. Ces
régularités se traduisent par une redondance dans les données, que la modélisation
va se charger de réduire.![]()
________________________
MODELISATION DE DONNEES ET STATISTIQUE
Dans tout ce qui précéde, une question a été passée sous silence.
* Les individus du tableau sont ils les seuls individus auxquels l'analyste s'intéresse ? Autrement dit, le tableau représente-t-il l'intégralité de la population concernée par l'analyse ?
* Ou bien, pour des raisons pratiques, les mesures n'ont-elles été effectuées que sur une petite partie (l'échantillon) de cette population?
Cette question est absolument fondamentale. Si on ne dispose que d'un échantillon, celui-ci est en général tiré au hasard dans la population complète :
* Si le hasard fait bien les choses, la répartition des individus de l'échantillon sera une copie assez fidèle mais à "échelle réduite" de la population. Les déductions tirées de l'analyse de l'échantillon pourront se transposer telles quelles sur la population complète, véritable sujet de l'analyse.
* Par contre, si le hasard joue contre l'analyste, la répartition de l'échantillon sera sensiblement différente de celle de la population (on dit alors que l'échantillon est "biaisé"), et les déductions tirées de l'analyse de l'échantillon seront tout simplement fausses quand elles seront appliquées à la population dans son ensemble.
Il n'existe, par la nature même du hasard, aucun moyen de savoir si un échantillon est une copie fidèle de la population complète. L'incertitude qui pèse sur la représentativité de l'échantillon se traduit par un doute sur le fait que le modèle représente correctement les propriétés étudiées de la population. Il n'est donc jamais possible de transposer aveuglément les constatations effectuées sur l'échantillon à l'ensemble de la population. Mais il est souvent possible, moyennant certaines hypothèses, de juger de la crédibilité du modèle (construit sur l'échantillon) en tant que représentant des propriétés de la population. C'est le rôle de la Statistique.
La Statistique comporte deux branches principales,
l'Estimation et l'Inférence (ou Théorie de Tests).
* L'Estimation
Quelle est la taille moyenne de la taille des individus de la population représentée par l'échantillon décrit dans le tableau ci-dessus ? Sans être statisticien, on peut avancer l'idée selon laquelle la moyenne de la taille des individus de l'échantillon est notre meilleure estimation de la moyenne de la taille de individus de la population. L'Estimation permet d'aller plus loin et d'affirmer que non seulement la moyenne de l'échantillon est une bonne estimation de la moyenne de la population (Estimation ponctuelle), mais qu'elle est également la meilleure possible (dans un sens très précis). Aucune autre grandeur calculée sur l'échantillon ne pourrait recevoir une plus grande confiance comme estimation de la moyenne de la population. Moyennant certaines hypothèses, il est même possible de quantifier cette confiance (Estimation par Intervalle de Confiance).
Toutes les grandeurs classiques d'une population peuvent être reliées à des grandeurs calculées sur l'échantillon. Le rôle de l'Estimation est donc :
* D'identifier les grandeurs calculables sur l'échantillon les plus représentatives des grandeurs réelles de la population,
* Et d'évaluer l'incertitude qui pèse sur la qualité de cette représentation.
De même, les paramètres d'un modèle sont calculés à partir de l'échantillon : ils sont des estimations des paramètres du modèle idéal (et inaccessible) représentatif de la population. La théorie de l'Estimation permet de calculer leurs valeurs numériques, et, moyennant certaines hypothèses, pemet d'évaluer l'incertitude qui pèse sur ces valeurs estimées.
* L'inférence, ou Théorie des Tests
La Modélisation de Données a souvent pour objectif d'aider une prise de décision. La collecte des données est alors effectuée dans le but d'éclairer un débat portant sur un hypothèse concernant la population. Selon que les données conforteront ou infirmeront cette hypothèse, celle-ci sera utilisée comme base pour des prises de décisions ultérieures, ou bien sera rejetée comme non compatible avec les données.
Un des exemples les plus simples de telle inférence statistique vient du contrôle de qualité lors de la fabrication en série de composants. Un fabricant de billes affirme que les billes qui sortent de sa chaîne de fabrication ont, en moyenne, un diamètre de 10mm. Il ne peut être question de mesurer le diamètre de chacune des billes livrées et donc le client prélèvera, dans chaque lot, un petit nombre de billes dont il mesurera le diamètre. Il trouvera ainsi que le diamètre moyen des billes de ce petit lot de contrôle est un nombre légèrement différent de 10mm, disons 9,9mm. Est-il en mesure d'affirmer que ll'affirmation du fournisseur est correcte?
Bien sûr, sans contrôle de toutes les billes, il n'y a pas de réponse certaine à cette question. Mais la Statistique permet, moyennant certaines hypothèses, de calculer le risque que le client se trompe en refusant (ou en acceptant) le lot (en l'occurence, en mettant en œuvre le très classique "test t" sur l'égalité de la moyenne sur une population et une valeur de référence).
Un modèle peut être perçu comme une hypothèse sur la population étudiée. Dans l'exemple ci-dessus, l'équation permettant de calculer la Tension à partir du Sexe, de l'Âge et du Poids est une hypothèse sur la distribution de la population. Il est souvent possible de tester cette hypothèse, c'est à dire de se faire une idée sur le fait que le modèle soit une (plus ou moins bonne) représentation de la réalité, par opposition au fait qu'il n'existe aucune structure dans les données, et que les "structures" détectées ne sont dues qu'au hasard de tirage de l'échantillon.
-----------
A de nombreuses reprises, nous avons utilisé l'expression "moyennant certaines hypothèses sur la population". Ces hypothèses portent le plus souvent sur la forme de la répartition d'une certaine grandeur au sein de la population. Par exemple, dans le cas du contrôle du diamètre des billes, il sera nécessaire de faire l'hypothèse (très raisonnable) que, dans le lot complet de billes, les diamètres sont répartis selon une distribution normale (ou "gaussienne"). Aussi bien l'Etimation que la Théorie de Tests ont continuellement recours à des hypothèses portant sur la distribution de certaines grandeurs de la population, dont la Théorie de l'Echantillonnage permet de déduire la distribution de quantités mesurées sur l'échantillon.
________________________________________________
LES DIFFICULTES DE LA MODELISATION DE DONNEES
Les principales difficultés de la Modélisation sont :
* La définition du problème
La collecte et la mise en forme des données, la construction, la validation et l'interprétation d'un modèle sont des tâches longues et coûteuses. Le temps passé à définir clairement l'objectif de l'étude, les critères permettant de savoir si celui-ci a ou non été atteint, l'identification de la nature et du volume des données nécessaires à la construction d'un modèle adéquat, est toujours du temps gagné, jamais du temps perdu.
* La qualité des Données
Celles-ci ont la fâcheuse habitude d'être rares, chères, mal formatées, incomplètes, non synchronisées, entachées d'erreurs et biaisées. Les données sont pourtant le carburant de la modélisation, et doivent recevoir toute l'attention requise pour atteindre le niveau de qualité requis par l'application, sous peine de rendre vains tous les efforts de modélisation.
* Le choix de la technique de modélisation, laissé à l'appréciation de l'analyste.
Le développement considérable de la Modélisation de Données met à la disposition du praticien un grand nombre de techniques différentes permettant, théoriquement, d'atteindre un objectif donné. Mais chaque technique a ses avantages et ses inconvénients, et le choix de la technique la plus appropriée est une des conditions essentielles du succès de la modélisation. Malheureusement, en dehors de considérations d'ordre général, seule une longue pratique permet d'éviter les choix malheureux. Rappelons que le critère de choix le plus fréquent, et pourtant un des moins bons, est : "Ici, nous avons toujours fait comme ça.".
* Le choix des variables qui entreront dans le modèle (et donc de celles qui ne seront pas prises en compte).
Pour des raisons fondamentales de Statistique (et souvent ignorées des praticiens), il est indispensable de procéder à une sélection rigoureuse (et difficile) des variables parmi les variables disponibles dans le tableau de données, voire de procéder à une Réduction de Dimensionalité avant toute modélisation. Si trop de variables sont incluses dans le modèle, celui-ci devient exagérément sensible à de petites modifications de l'échantillon, et le modèle obtenu est alors peu crédible (compromis biais-variance).
Des objectifs différents, ou même des techniques différentes mais ayant le même objectif, conduiront à des ensembles optimaux de variables différents.
* Sélection de modèle
Tout modèle contient des paramètres (même les modèles dits "non paramétriques"). Les valeurs de ces paramèetres sont :
Dans les deux cas, le choix du nombre de paramètres du modèle est laissé à l'analyste. Même en Régression Linéaire Multiple, le nombre de paramètres est imposé par le nombre de prédicteurs retenus dans le modèle.
On se convainc facilement qu'une augmentation du nombre de paramètres du modèle augmente sa souplesse, et donc sa capacité à rendre compte des données d'apprentissage. Mais on découvre également qu'à partir d'un certain point, une augmentation du nombre de paramètres conduit à une dégradation des performances du modèle sur les données nouvelles, les seules performances importantes. Cette situation rappelle celle décrite au paragraphe précédent (Sélection de variables), et relève en fait de la même problématique : le "compromis biais-variance".
Donc, le modèle une fois construit, il convient d'estimer ses performances réelles sur des données nouvelles (et non pas sur les données qui ont servi à le construire). Ceci se fait en soumettant plusieurs modèles candidats à une série de tests de validation. Le modèle finalement retenu est celui qui aura obtenu les meilleurs résultats lors de ces tests (et ce ne sera vraisemblablement pas celui qui aura obtenu les meilleurs résultats sur les données d'apprentissage).
Cette phase de Sélection de modèle est longue et fastidieuse, mais absolument indispensable. Elle est souvent omise par les praticiens occasionnels, ce qui est la cause la plus fréquente d'échec du processus de modélisation.
Nous avons présenté les phases de "Sélection
de variables" et de "Sélection de modèle" séparément car, en
pratique, des techniques spécifiques ont été développées pour chacune de ces
phases, et ne peuvent donc être mises en œuvre simultanément. Cependant, elles
sont les deux faces d'une même réalité, le "compromis biais-variance",
et ne devraient pas, en toute rigueur, être traitées séparément.
________________________________
Avec tout son arsenal d'algorithmes, d'équations et de logiciels, la Modélisation de Données reste un art. L'application aveugle des techniques ne peut conduire qu'à de mauvais résultats, et rien ne peut remplacer la longue expérience du praticien.
Néanmoins, une bonne connaissance des principes de base de la Modélisation est indispensable, non seulement pour l'analyste, mais également pour les personnes qui lui soumettent des problèmes : la Modélisation de Données est devenue un travail d'équipe dans lequel les interactions et les va-et-vient entre analystes et "spécialistes métier" sont indispensables. Nous espérons que ces derniers trouveront dans ce site des bases qui leurs seront utiles dans leur rapports, pas toujours aisés, avec les statisticiens.