![]()
Paramètres (d'un modèle)
Un modèle est le plus souvent matérialisé par une fonction :
Par exemple, dans le cas de la régression linéaire :
Soit un échantillon dont on sait de façon certaine qu'il a été engendré par une distribution normale. Cette distribution peut être facilement estimée : il n'y a qu'à estimer sa moyenne et sa variance (par la méthode du Maximum de Vraisemblance). Il suffit donc de deux nombres pour complètement caractériser la distribution que l'on croit être à l'origine des données. Ces nombres sont les valeurs des deux paramètres du modèle.
Mais il se peut que l'on n'ait aucune idée de la nature de la distribution qui a engendré l'échantillon. Si l'on veut avoir au moins de cette distribution inconnue une représentation graphique approximative, on tracera un histogramme de l'échantillon (image inférieure de l'illustration ci-dessus). Pour pouvoir représenter les grandes lignes de cette distribution, l'histogramme devra avoir au moins un dizaine de cases, plus si l'échantillon le permet. Pour décrire cet histogramme (et donc la densité de probabilité estimée), on a besoin d'autant de valeurs numériques que de cases, soit un nombre beaucoup plus élevé que dans l'exemple précédent.
Pourquoi une telle différence entre ces deux nombres de valeurs numériques, sensées représenter la même chose : une estimation de la densité de probabilité qui a engendré l'échantillon.
La raison est la suivante :
Le premier modèle est dit paramétrique. Ce terme se rapporte au fait que, une fois décidée la forme analytique du modèle (ici, une distribution normale), il n'y a à estimer qu'un petit nombre de paramètres. De plus, ces paramètres s'interprètent en termes de propriétés de la distribution (ici, moyenne et variance).
Le second modèle (histogramme) appartient à la famille des modèles non paramétriques. Cette expression est assez mal choisie, car un modèle non paramétrique contient bien sûr des paramètres (et même parfois en grand nombre pour les modèles "locaux" comme les réseaux RBF). Dans le cas de l'histogramme, ces paramètres sont :
Mais ces paramètres ne
sont pas interprétables en termes de propriétés globales de la distribution.
Ces modèles sont aussi qualifiés de "ad hoc", ou de "boîtes noires" : ils font ce que l'on attend d'eux, mais les valeurs de leurs coefficients ne donnent pas d'information sur les propriétés de la distribution qu'ils représentent.
___________________________
Les deux exemples précédents venaient de la modélisation descriptive (estimation de densité de probabilité), mais la même distinction entre "paramétrique" et "non paramétrique" existe également en modélisation prédictive.
_________________________
Etant donnés un échantillon et un problème, celui-ci doit-il être attaqué par une méthode paramétrique ou non paramétrique ?
Paramétrique (Test)
Un test est dit paramétrique s'il porte sur les valeurs d'un ou de quelques paramètres d'une distribution. Voici deux exemples :
1) Soit {x1, x2, ..., xn} un jeu de valeurs numériques dont on sait qu'il est issu d'une distribution normale. Le test-t "à un échantillon" mesurera la vraisemblance de l'hypothèse selon laquelle la moyenne de cette distribution normale a une valeur donnée m0.
Ce test fait partie de la famille des tests dits "d'adéquation",
car il mesure la vraisemblance de l'hypothèse selon laquelle une loi donnée
a généré l'échantillon.
2) Soient {x1, x2, ..., xn} et {y1, y2, ..., ym} deux jeux de valeurs numériques dont on sait qu'ils sont tous les deux issus de lois normales. La question est de savoir si ces deux lois ont même variance. Le "test F de Fisher" mesurera la vraisemblance de l'hypothèse selon laquelle ces deux lois ont bien des variances identiques.
Ce test fait partie de la famille des test dits "d'identité",
car il mesure la vraisemblance de l'hypothèse selon laquelle deux paramètres
de deux lois (ou les lois elles-mêmes) sont égaux.
Mais beaucoup de questions ne se formulent pas en de tels termes. Voici trois exemples :
1) Soient V1 et V2 deux variables nominales. On formule l'hypothèse selon laquelle ces deux variables sont indépendantes. Cette question est abordée par le "Test du Chi-2 d'indépendance".
2) Soit {x1, x2, ..., xn}un échantillon numérique, et une distribution de probabilité "de référence" quelconque. La question est de savoir s'il est vraisemblable que cet échantillon a été généré par cette distribution. Plusieurs tests d'adéquation abordent cette question, dont le test de Kolmogorov, ou le test du Chi-2 d'adéquation.
3) Soient {x1, x2, ..., xm} et {x1, x2, ..., xn} deux échantillons numériques. Ont-ils été tirés de la même population (sur laquelle on ne formule aucune hypothèse)? Cette question est abordée par le test de Wilcoxon-Mann-Whitney.
Ces derniers exemples ne font pas référence aux valeurs de paramètres d'une distribution particulière, et sont donc des tests non paramétriques.
__________________
Une même question peut fréquemment être abordée soit par un test paramétrique, soit par un test non paramétrique. Que choisir ? Il n'y a pas de règle absolue, mais voici deux considérations à garder présentes à l'esprit :
* Les tests non paramétriques ont l'avantage de ne pas faire appel à des hypothèses très restrictives sur la nature des distributions considérées (p. ex., normalité). Ces hypothèses sont rarement satisfaites dans la pratique.
* Mais cette robustesse a un prix : un test non paramétrique a besoin de situations plus "extrêmes" qu'un test paramétrique pour rejeter une hypothèse, lorsque l'emploi du test paramétrique est justifié.