Introduction à la Régression Linéaire Simple
Apprends à construire un modèle linéaire simple et à interpréter les résultats correctement.
Présentation de la Régression Linéaire Simple
La régression linéaire simple est une méthode statistique qui consiste à ajuster une droite sur un nuage de point. L'objectif est de modéliser une relation entre deux variables: une variable Y que l'on cherche à expliquer et une variable X dont on se sert pour expliquer. Dans ce contexte, la variable Y dépend donc de la variable X. Pour cette raison, on appel la variable Y une variable dépendante: VD. La seconde variable, la variable X, sert de point de départ pour expliquer la première pour cette raison, on l'appel une variable explicative. On peut dire aussi que la variable X sert à prédire les valeur de la variable Y pour cette raison, on l'appel aussi souvent un prédicteur. La variable X enfin peut etre choisie librement, indépendemment de la variable que l'on cherche à expliquer. Ce choix appartient entièrement au chercheur et c'est pourquoi la variable X est souvent aussi appelée une variable indépendante VI. Le modèle suppose que cette relation est linéaire entre les deux variable et représente cette relation par une droite d'équation Y = aX + b. Le coefficient a mesure de combien Y varie lorsque X augmente de une unité. Le coefficient b quant à lui représente la valeur de Y lorsque la valeur de X vaut 0. On l'appel l'ordonnée à l'origine
Pourquoi utiliser la Régression Linéaire Simple
Les droites de régression apparaissent dans des contextes variés. On utilise typiquement une régression linéaire pour décrire comment les valeurs d'une variable Y progressent avec les valeur d'une variable X. Les droites de régression peuvent donc servire à calculer le coût d'un panier de fruit à partir du point des fruits, à prédire la taille d'un enfant en fonction de son age ou encore à expliquer une note d'examen à partir du nombre d'heure de travail. Les droites sont donc des modèle qui permettent de prédire une valeur à partire d'une autre. Il s'agit également du modèle le plus couremment utilisé et aussi le plus simple ce qui constitue donc un point d'entrée vers la compréhension des modèles plus complexes.
A qui s'adresse ce document
Ce document s'adresse à tout étudiant en Bachelor 1 qui rencontre la régression linéaire pour la première fois, quelle que soit sa filière. La régression linéaire simple est enseignée dans les cursus de gestion, d'économie, de psychologie, de biologie et de sciences sociales. Comprendre comment une variable en explique une autre est une compétence clée à toutes les disciplines qui demande à l'étudiant de raisonner sur des données quantitatives, indépendamment du format d'examen d'un cursus particulier.
Prérequis
Ce document est une introduction. Le niveau requis pour comprendre les explication est celui du gymnase ou équivalent. Une connaissance de base en algèbre est nécessaire : savoir lire une équation de la forme Y = aX + b et comprendre la notion de pente et d'ordonnée à l'origine. Aucune connaissance préalable en statistiques n'est requise. Aucun logiciel n'est requis : l'exercice proposé est conduit entièrement à la main pour permettre à l'étudiant de construire une représentation mentale des modèles mathématique tels qu'il sont utilisé en statistiques.
Questions courantes FAQ
Qu'est-ce qu'une variable dépendante et une variable indépendante ?
La variable dépendante (Y) est la variable que l'on cherche à expliquer ou à prédire. La variable indépendante (X) est la variable que l'on utilise pour faire une prédiction. Dans un modèle qui prédit le score d'un étudiant à partir de ses heures de travail, le score est Y et les heures sont X. La relation linéaire marche dans les deux sens. On peut expliquer X à partir de Y ou expliquer Y à partire de X. C'est au chercheur de déterminer quelle est la variable qu'il souhaite expliquer et de quelle variable il va se servire pour le faire.
Que signifient les coefficients a et b dans l'équation de régression ?
Le coefficient a et b de la droite d'équation Y = aX + b sont appelé paramètre de la droite. a est la pente. Il indique de combien Y varie en lorsque X augmente d'une unité. Le coefficient b quant à lui, s'appel ordonnée à l'origine. Il indique la valeur prédite de Y quand X est égal à zéro. Ces deux coefficients définissent la droite de régression entièrement. On dit aussi: la droite est spécifiée entièrement par les valeur de ses deux paramètres. L'interprétation des paramètres est toujours formulée dans les unités des variables concernées.
Quelle est la différence entre corrélation et régression linéaire ?
La corrélation mesure la force et la direction d'une relation linéaire entre deux variables. Cela se fait via un coefficient dont la valeur est compris entre -1 et 1. La régression va plus loin : elle produit une équation qui permet aussi bien de quantifier la relation de proportionnalité entre les deux variable mais en plus, la droite de régression permet de prédire Y à partir de X. Il existe une deuxième différence importante entre la corrélation et la régression linéaire: La corrélation est symétrique: r(X,Y) est identique à r(Y,X) alors que la régression ne l'est pas: Y = aX + b n'est pas la meme equation que X = aY + b.
Qu'est-ce que le coefficient de détermination R² ?
Le R² mesure la proportion de la variance de Y expliquée par le modèle. Il varie entre 0 et 1 : un R² de 0.80 signifie que le modèle explique 80 % de la variabilité de Y. Un R² élevé ne garantit pas que le modèle est correct — il faut aussi vérifier que les hypothèses du modèle sont respectées. Un R² seul ne suffit pas à valider une régression.
Quelles sont les conditions d'application de la régression linéaire simple ?
La régression linéaire simple repose sur quatre hypothèses : 1) la relation entre X et Y est linéaire 2) les résidus sont indépendants 3) leur variance est constante (homoscédastiques) 4) les résidus suivent une loi normale. Si ces hypothèses sont violées, les coefficients peuvent tout de même être calculé, mais les tests statistiques ne seront pas valides. Autrement dit, si les condition d'application ne sont pas respectée, des résultats seront calculés mais le chercheur n'aura aucun moyen d'évaluer la confiance qu'il peut leur accorder.