Introduction à la Régression Linéaire Simple
Comprendre la relation entre deux variables, construire un modèle de prédiction et l'interpréter correctement.
Présentation de la Régression Linéaire Simple
La régression linéaire simple est une méthode statistique qui modélise la relation entre deux variables : une variable dépendante, notée Y, et une variable indépendante, notée X. Le modèle suppose que cette relation est linéaire et la représente par une droite d'équation Y = a + bX. Le coefficient b mesure de combien Y varie en moyenne quand X augmente d'une unité. Ce modèle est une représentation probabiliste de la réalité, non une description exacte des données.
Pourquoi utiliser la Régression Linéaire Simple
La régression linéaire simple répond à deux questions distinctes. La première : existe-t-il une relation statistique entre X et Y ? La seconde : si cette relation existe, quelle valeur de Y peut-on prédire pour une valeur donnée de X ? Ces questions apparaissent dans des contextes variés — estimer un coût à partir d'une quantité, expliquer un score à partir d'heures de travail. La régression simple est également le point d'entrée vers des modèles plus complexes : régression multiple, régression logistique.
A qui s'adresse ce document
Ce document s'adresse à tout étudiant en Bachelor 1 qui rencontre la régression linéaire pour la première fois, quelle que soit sa filière. La régression linéaire simple est enseignée dans les cursus de gestion, d'économie, de psychologie, de biologie et de sciences sociales. Comprendre comment une variable en explique une autre est une compétence transversale à toutes les disciplines qui mobilisent des données quantitatives, indépendamment du format d'examen de l'institution concernée.
Ce que contient ce document
Le document présente les principes fondamentaux de la régression linéaire simple : la distinction entre variable dépendante et indépendante, l'équation de la droite de régression et la signification de ses coefficients. Un exercice résolu à la main illustre chaque étape du raisonnement, du calcul des coefficients à l'interprétation du résultat. Le document se conclut sur les limites du modèle : pourquoi une droite de régression n'établit pas de causalité, et dans quelles conditions son usage est valide.
Degré de formation nécessaire pour comprendre pour lire ce document
Le niveau requis est celui du gymnase ou équivalent. Une connaissance de base en algèbre est nécessaire : savoir lire une équation de la forme Y = a + bX et comprendre la notion de pente. Aucune connaissance préalable en statistiques n'est supposée. Les notions de moyenne, variance et covariance sont utilisées dans le document et définies avant d'être mobilisées. Aucun logiciel n'est requis : l'exercice proposé est conduit entièrement à la main.
Questions courantes FAQ
Qu'est-ce qu'une variable dépendante et une variable indépendante ?
La variable dépendante (Y) est celle qu'on cherche à expliquer ou prédire. La variable indépendante (X) est celle qu'on utilise pour produire cette explication. Dans un modèle qui prédit le score d'un étudiant à partir de ses heures de travail, le score est Y et les heures sont X. Cette distinction détermine la structure du modèle et ne peut pas être inversée arbitrairement.
Que signifient les coefficients a et b dans l'équation de régression ?
Le coefficient b, appelé pente, indique de combien Y varie en moyenne quand X augmente d'une unité. Le coefficient a, appelé ordonnée à l'origine, indique la valeur prédite de Y quand X est égal à zéro. Ces deux coefficients définissent entièrement la droite de régression. Leur interprétation doit toujours être formulée dans les unités des variables concernées, pas en termes abstraits.
Comment vérifie-t-on que la relation entre deux variables est bien linéaire ?
On vérifie la linéarité en traçant un nuage de points, avec X en abscisse et Y en ordonnée. Si les points se distribuent autour d'une droite, la relation est compatible avec un modèle linéaire. Si la distribution forme une courbe, un modèle linéaire est inadapté. Cette vérification graphique précède toujours le calcul des coefficients — appliquer une régression sans elle produit un modèle invalide.
Quelle est la différence entre corrélation et régression linéaire ?
La corrélation mesure la force et la direction d'une relation linéaire entre deux variables, via un coefficient entre -1 et 1. La régression va plus loin : elle produit une équation qui permet de prédire Y à partir de X. La corrélation est symétrique — r(X,Y) est identique à r(Y,X). La régression ne l'est pas : le choix de la variable dépendante change l'équation obtenue.
Qu'est-ce que le coefficient de détermination R² ?
Le R² mesure la proportion de la variance de Y expliquée par le modèle. Il varie entre 0 et 1 : un R² de 0.80 signifie que le modèle explique 80 % de la variabilité de Y. Un R² élevé ne garantit pas que le modèle est correct — il faut aussi vérifier que les hypothèses du modèle sont respectées. Un R² seul ne suffit pas à valider une régression.
Quelles sont les conditions d'application de la régression linéaire simple ?
La régression linéaire simple repose sur quatre hypothèses : la relation entre X et Y est linéaire, les résidus sont indépendants, leur variance est constante (homoscédasticité) et ils suivent une loi normale. Si ces hypothèses sont violées, les coefficients restent calculables mais les tests statistiques associés — intervalles de confiance, p-values — ne sont plus valides. La vérification des hypothèses fait partie intégrante de l'analyse.