|
Animation interactive |
En mathématiques, la pente est la tangente de l'angle entre l'axe des x et une droite.
En Modélisation de Données, le terme "pente" se rencontre en Régression Linéaire Simple (RLS). Il fait alors référence :
* soit à la pente de la Droite de Régression,
* soit à la pente de la Droite des Moindres Carrés (DMC).
Deux paramètres sont nécessaires pour définir
une droite, et l'autre paramètre est le plus souvent l'Ordonnée
à l'Origine.
L'interprétation de la pente est simple : à un déplacement
de dx le long de l'axe des x correspond un déplacement dy
le long de l'axe des y, avec
dy = dx.Pente
|
|
La pente est donc le taux de variation de y
quand x varie (mais sa valeur numérique dépend des unités choisies sur
les axes).
La DMC dépend de l'échantillon.
Il en est de même pour la pente, qui est donc une variable aléatoire. Sous les
hypothèses standard de la RLS, la distribution de la pente est bien comprise,
et peut être calculée exactement.
L'animation suivante illustre la distribution
de la pente sous diverses "conditions expérimentales".
|
|
L'illustration propose :
* Une droite de régression (en rouge),
* un échantillon,
* la Droite des Moindres Carrés (DMC) correspondante (en bleu), ainsi qu'une représentation graphique de la pente de cette droite.
Pour obtenir une autre droite de régression, cliquez sur "New".
Notez que les points de l'échantillon sont équidistants en x. Ceci peut apparaître comme une restriction sévère, mais tel n'est pas le cas :
* D'abord, une telle situation n'est pas inhabituelle en pratique.
* Mais surtout, la RLS ne
considère pas x comme une variable aléatoire (seul y
est aléatoire). La distribution de la pente ne dépend que du nombre de points, de l'écart-type
en x de l'échantillon, et du niveau de bruit. Ces quantités restent constantes
quand on passe d'un échantillon au suivant. Ne considérer que des échantillons
constitué de points équidistants est donc une restriction, mais qui ne remet
pas en cause la validité de la démonstration.
Le cadre de la partie inférieure de la figure montre
une gaussienne qui est la distribution théorique de la pente.
* La moyenne de cette gaussienne est la pente de la droite de régression (qui, dans la réalité, est inconnue). Ceci est une conséquence du fait que la pente de la DMC est un estimateur non biaisé de la pente de la droite de régression.
* La variance de la gaussienne est la variance théorique de la distribution de la pente de la DMC.
Cliquez sur "Go", et observez la construction
progressive de la distribution de la pente de la DMC.
______________________________________
L'Ecart-Type
de la distribution de la pente est une grandeur fondamentale en RLS. C'est une
mesure de l'incertitude qui pèse sur la valeur de la pente de la droite
de régression, et donc sur dépendance de y par rapport à x. Il
est à la base d'un test qui décidera si l'hypothèse de l'existence d'un lien
entre x et y est crédible ou non.
Si vous êtes déjà quelque peu familer avec la RLS,
vous pouvez être surpris que les droites de régression horizontales soient
autorisées dans l'illustration ci-dessus, alors même qu'elles décrivent des
situations d'abscence de lien entre x et y. Mais la question abordée
ici est simplement la distribution de la pente de la DMC, qui est parfaitement
définie même en l'abscence de lien entre x et y.
________________________________________
Alors
que la distribution de l'Ordonnée à l'Origine dépend de la position
de l'axe y, celle de la pente ne dépend pas de la position des axes (c'est
la raison pour laquelle les positions de ces axes n'est pas ajustable sur l'illustration).
En d'autres termes :
* ajouter une même quantité à toutes les abscisses,
* et/ou ajouter une même quantité
à toutes les ordonnées
ne change pas la pente (et donc a fortiori
sa distribution).
Vous pouvez simuler une translation de l'axe y
en translatant la plage de l'échantillon (utilisez les boutons "Left"
et "Right" en conservant constante la quantité "Right - Left")
tout en gardant constantes les valeurs des autres paramètres. Vous pouvez faire
cela tout en conservant la droite de régression courante en cliquant sur le
petit bouton "Reset" en bas et à droite de l'illustration.
Observez
que la distribution de la pente ne change pas quand vous translatez l'échantillon.
____________________________
Faites varier le nombre de points (tous les autres
paramètres maintenus constants), et observez que l'écart-type de la distribution
de la pente diminue quand le nombre de points augmente : l'augmentation du nombre
de points réduit l'incertitude sur la position de la droite de régression.
____________________________
Changez l'étendue de l'échantillon (tous les autres
paramètres maintenus constants), et observez que l'écart-type de la distribution
de la pente décroit quand cette étendue augmente. Cette situation est semblable
à celle d'une direction de l'espace définie par un tuyau : plus long est le
tuyau, et plus précisément est définie la direction.
_____________________________
Observez que l'écart-type de la distribution de la
pente ne dépend pas du tout de la droite de régression (pour un jeu de valeurs
donné des paramètres). Cliquez à plusieurs reprises sur "New" : la
position de la gaussienne change en fonction de la pente de la droite de régression,
mais sa variance reste constante.
_______________________________________________
Vous trouverez ici un résumé des principaux résultats relatifs à la Pente en RLS (équation, propriétés en tant qu'estimateur, distribution).
_____________________________________________________________
Voir aussi: