Faire une régression logistique sur une variable dichotomique: Introduction
Apprends à utiliser la fonction logistique pour modéliser une transition entre deux états.
Présentation de la régression logistique
Les êtres humains sommes parfois sujets à des changements d’humeur. Si nous recevons une bonne nouvelle par exemple, cela peut transformer notre journée et nous faire passer d’un état morose à un état joyeux et enjoué. Dans cet exemple, le changement de notre état d'humeur est immédiat, mais on peut aussi changer d'humeur progressivement. Si on s’intéresse à savoir comment les êtres humaine change d'humeur en fonctions du nombre de bonne nouvelles qu'il recoivent. La fonction logistique présente alors un modèle aproprié. On placera alors sur l'axe des Y les deux modalité de notre humeurs possible (morose et joyeux) On parle alors de variables dichotomiques. On place ensuite sur l'axe des X la quantité de bonne nouvelle que l'on est susecptible de recevoir. La fonction logistique est un modèle qui permet d'étudier une transition entre un état morose et un état joyeux en fonction du nombre de bonnes nouvelles recues
Pourquoi utiliser la régression logistique
On utilise les régressions logistiques pour comprendre une transition non linéaire entre deux modalités d’une variable dichotomique. Le modèle que l'on utilise dans ce type de cas de figure est donc une équation logistique. La forme de a courbe logistique se prête bien pour modéliser des situations dans lesquelle une transition se produit entre deux états limité par des valeur fixe: pas plus haut qu'une valeur plafond et pas plus bas qu'une valeur plancher. Cette équation possède également une propriété intéressante: on peut la linéariser facilement. On peut donc réaliser une regression linéaire pour trouver les paramètres de la droite correspondante, puis convertir ces paramètres (ceux de la fonction linéaire) en paramètre de la fonction logistique. On bénéficie ainsi de tous les avantages: Une équation qui nous permet de modéliser une transition progressive entre deux états ET l'utilisation de la méthode robuste et bien connue que l'on connait pour les régressions linéaires.
A qui s'adresse ce document
Ce document s’adresse aux étudiants-es qui rencontre la fonction logistique pour la première fois et qui doivent savoir lire et interpréter les résultats d’une régression logistique. Les documents proposé sur cette page constitue une introduction générale et n'est donc pas spécifique à un logiciel en particulier. Elle permettra donc de comprendre et interpréter les résultats donnée par tous les logiciel de statistiques: R, STATA ou SPSS. Le cours contient également les détails du processus de linéarisation de l'équation logistique. Ce document sera donc utile à toute personne cherchant à perfectionner ses connaissances dans l’utilisation des modèles avancés tels que les régressions logistiques multinomiales.
Prérequis
Le document suppose une première exposition à la régression linéaire simple. Les concepts suivants doivent être connus : significativité statistique d'un coefficient, résidu d'un modèle, coefficient de détermination R². La régression logistique en est une extension directe : le passage d'une variable continue à une variable dichotomique introduit la transformation logit, mais la logique d'interprétation des coefficients reste comparable. Aucune dérivation mathématique n'est requise — l'objectif est la compréhension conceptuelle et la lecture des sorties logicielles.
Questions courantes FAQ
Qu'est-ce que la régression logistique ?
La régression logistique est un modèle statistique utilisé lorsque la variable dépendante est une variable dichotomique. Elle prédit la probabilité de se trouver dans un état correpondant à l'une ou l'autre des deux modalité de la variable dichotomique. La fonction logistique ne modélise pas directement cette probabilité. C'est le logarithme des cotes qui permet donne la probabilité et qui garantit que les modalité de la variable dichotomique soit comprise dans l'intervalle [0, 1]. C'est grâce à la fonction logit également que l'on linéarise la relation comme cela est expliqué dans le cours.
Qu'est-ce que la fonction logit ?
De manière générale, on appel "cote" le rapport p / (1 − p). Avec p la probabilité de l'événement qui nous intéresse. La fonction logit est le logarithme naturel de la cote. On écrit donc: logit(p) = ln(p / (1 − p)). Pour notre modèle, plutot que d'écrire les deux états de la variable dichotomique y comme une fonction logistique de X: Y = logistique(X) on écrira plutot la probabilité de se trouver dans un état ou dans l'autre comme une fonction linéaire de la fonction logit: logit(p) = linéaire(x) Il s'agit donc d'une opération de linéarisation, tel que cela est décrit dans le document.
Qu'est-ce qu'un rapport de cotes (Odds Ratio) ?
Le rapport de cotes (OR) mesure l'association entre un prédicteur et la variable dépendante. Un OR = 1 indique aucune association. Un OR = 2 signifie que la cote est deux fois plus élevée pour une unité supplémentaire du prédicteur ; un OR = 0,5 la divise par deux. L'OR est l'indice d'effet standard rapporté pour un modèle logistique.
Comment interpréter un coefficient de régression logistique ?
Un coefficient b exprime le changement du logit pour une augmentation d'une unité du prédicteur, toutes choses égales par ailleurs. Avant de l'interpréter, on calcule donc d'abord l'exponentielle de b pour obtenir le rapport de cotes: p / (1 − p). On appel se rapport de cote Odd Ration: OR et on a OR = e^b = p / (1 − p). le rapport de cote OR indique combien de fois la cote est multipliée par unité supplémentaire du prédicteur X. Un OR supérieur à 1 augmente la probabilité de l'événement ; un OR inférieur à 1 la diminue.
Quelle est la différence entre régression linéaire et régression logistique ?
La régression linéaire modélise une variable dépendante continue. La régression logistique quant à elle, modélise la probabilité d'appartenir à l'une ou l'autre catégorie d'une variable dépendante dichotomique. La régression linéaire peut produire des valeures hors de l'intervalle [0, 1], ce qui n'est pas raisonnable si l'on cherche à modéliser la probabilité. La fonction logistique résout ce problème en limitant les valeurs possibles entre 0 et 1 ce qui permet de prédire la probabilité d'apartenir à un état donné.