Animation interactive

Ordonnée à l'origine

La signification générale de l'expression est : "Ordonnée du point où une courbe coupe l'axe y".

 

En Modélisation de Données, elle est plus particulièrement utilisée dans le contexte de la Régression Linéaire Simple (RLS) et désigne alors l'ordonnée du point où la Droite des Moindres Carrés (DMC) coupe l'axe y. Une droite est définie par deux paramètres, et l'autre paramètre est habituellement la pente de la droite.

 

La DMC est la matérialisation des prédictions du modèle, et l'Ordonnée à l'Origine (OO) est donc la prédiction du modèle pour la valeur "0" de la variable indépendante x. La RLS est souvent utilisée pour décrire le comportement d'une grandeur y sous l'influence d'une variable de contrôle x. L'OO répond donc à la question "Quelle serait la valeur de y pour la valeur 0 de la variable de contrôle x ?".

 

La DMC dépend de l'échantillon particulier dont on dispose, de même que l'OO, qui doit donc être considérée comme une variable aléatoire. Sous les hypothèses standard de la RLS, la distribution de l'OO est bien comprise, et peut être calculée exactement.

La figure suivante illustre la distribution de l'OO sous diverses conditions "expérimentales".

 

 

 

 

 

 

 

L'animation commence par suggérer :

    * Une droite de régression (en rouge),

    * un échantillon,

    * et la DMC (en bleu) correspondant à l'échantillon, avec son OO (également en bleu).
 

Pour changer de droite de régression, cliquez sur "New".

 

Notez que les points de l'échantillon sont équidistants en x. Ceci peut paraître comme une restriction sévère, mais tel n'est pas le cas :

    * D'abord, une telle situation n'est pas inhabituelle en pratique.

    * Mais surtout, la RLS ne considère pas x comme une variable aléatoire (seul y est aléatoire). La distribution de l'OO ne dépend que du nombre de points, de l'abscisse de la moyenne empirique, de l'écart-type en x de l'échantillon, et du niveau de bruit. Ces quantités restent constantes quand on passe d'un échantillon au suivant. Ne considérer que des échantillons constitué de points équidistants est donc une restriction, mais qui ne remet pas en cause la validité de la démonstration.


Le cadre de la partie inférieure de la figure montre une gaussienne qui est la distribution théorique de l'OO.

    * La moyenne de cette gaussienne est l'OO de la droite de régression (qui, dans la réalité, est inconnue). Ceci est une conséquence du fait que l'OO de la DMC est un estimateur non biaisé de l'OO de la droite de régression.

    * La variance de la gaussienne est la variance théorique de la distribution de l'OO de la DMC.

 

Cliquez sur "Go", et observez la construction progressive de la distribution de l'OO de la DMC.

____________________________

 

L'OO n'est pas un paramètre intrinsèque de la DMC. Elle dépend de la position horizontale de l'axe des y (axe vertical), qui est arbitraire : translater cet axe revient à ajouter (ou soustraire) une même quantité à toutes les abscisses des points de l'échantillon.
Déplacez l'axe vertical (curseur vert), et observez les variations de la gaussienne représentant la distribution de l'OO. Son Ecart-Type passe par un minimum pour une certaine position de l'axe vertical. Pouvez-vous deviner la position correspondant à ce minimum ?

 

Si vous gardez la DMC visible pendant la démonstration, remarquez qu'elle semble "pivoter" autour d'un point presque fixe au cœur du nuage de points. En conséquence, on doit s'attendre à une forte variance de la distribution de l'OO si l'axe vertical est à une grande distance du nuage de points. Utilisez les contrôles "Left" et "Right" pour positionner l'échantillon à une extrémité de la scène, et positionnez l'axe vertical à l'autre extrémité de la scène. Observez l'augmentation importante de l'écart-type de la gaussienne (et donc de la distribution de l'OO).
Vous pouvez faire ceci (de même que changer le nombre de points ou modifier le niveau de bruit) à tout moment tout en conservant la droite de régression courante : cliquez pour cela sur le bouton "Reset" dans le coin inférieur droit de l'animation.
____________________________

 
Faites varier le nombre de points (tous autres paramètres maintenus constants). Observez que l'écart type de le distribution de l'OO diminue quand le nombre de points augmente : l'augmentation du nombre de points contraint la DMC à rester proche de la droite de régression.
____________________________

 
Faites varier l'étendue de l'échantillon (tous autres paramètres maintenus constants). Observez que l'écart-type de la distribution de l'OO diminue quand cette étendue augmente. Cette situation est similaire à celle d'une direction de l'espace définie par un tuyau : plus long est le tuyau, mieux est définie cette direction.
____________________________

 
La variance de la distribution de l'OO ne dépend absolument pas de la droite de régression (pour un jeu donné de valeurs des paramètres). Cliquez à plusieurs reprises sur "New" pour créer successivement plusieurs droites de régression. Observez que la position de la gaussienne dépend de la droite particulière créée, mais que sa variance garde une valeur constante.

_____________________________________________________________________

Vous trouverez ici les principaux résultats relatifs à l'Ordonnée à l'Origine en Régression Linéaire Simple (équation, propriétés en tant qu'estimateur, distribution).

 

_____________________________________________________________

 

Voir aussi:

Pente

Régression Linéaire Simple

Téléchargez ce Glossaire