Qu’est-ce que la régression linéaire ?
La régression linéaire est un tracé de données qui représente graphiquement la relation linéaire entre une variable indépendante et une variable dépendante. Elle est généralement utilisée pour montrer visuellement la force de la relation et la dispersion des résultats – tout cela dans le but d’expliquer le comportement de la variable dépendante.
Disons que nous voulions tester la force de la relation entre la quantité de glace consommée et l’obésité. Nous prendrions la variable indépendante, la quantité de glace, et la relierions à la variable dépendante, l’obésité, pour voir s’il existe une relation. Étant donné qu’une régression est une représentation graphique de cette relation, plus la variabilité des données est faible, plus la relation est forte et plus l’ajustement à la ligne de régression est étroit.
Points clés à retenir
- La régression linéaire modélise la relation entre une ou plusieurs variables dépendantes et indépendantes.
- L’analyse de régression peut être réalisée si les variables sont indépendantes, s’il n’y a pas d’hétéroscédasticité et si les termes d’erreur des variables ne sont pas corrélés.
- La modélisation de la régression linéaire dans Excel est plus facile avec le Data Analysis ToolPak.
Considérations importantes
Il existe quelques hypothèses critiques concernant votre ensemble de données qui doivent être vraies pour procéder à une analyse de régression :
- Les variables doivent être réellement indépendantes (à l’aide d’un test du Khi-deux).
- Les données ne doivent pas avoir de variances d’erreur différentes (c’est ce qu’on appelle l’hétéroscédasticité (également appelée hétéroscédasticité)).
- Les termes d’erreur de chaque variable doivent être non corrélés. Sinon, cela signifie que les variables sont corrélées en série.
Si ces trois choses semblent compliquées, elles le sont. Mais si l’une de ces considérations n’est pas vraie, l’estimation est biaisée. Essentiellement, vous déformeriez la relation que vous mesurez.
Production d’une régression dans Excel
La première étape pour effectuer une analyse de régression dans Excel est de vérifier que le plugin Excel gratuit Data Analysis ToolPak est installé. Ce plugin permet de calculer très facilement une série de statistiques. Il n’est pas nécessaire de tracer une ligne de régression linéaire, mais il simplifie la création de tableaux statistiques. Pour vérifier si le plugin est installé, sélectionnez « Data » dans la barre d’outils. Si « Analyse des données » est une option, la fonction est installée et prête à l’emploi. Si elle n’est pas installée, vous pouvez demander cette option en cliquant sur le bouton « Office » et en sélectionnant « Options Excel ».
Grâce au Data Analysis ToolPak, il suffit de quelques clics pour créer une sortie de régression.
La variable indépendante va dans la plage X.
Étant donné les rendements du S&P 500, disons que nous voulons savoir si nous pouvons estimer la force et la relation des rendements des actions Visa (V). Les données sur les rendements boursiers de Visa (V) remplissent la colonne 1 comme variable dépendante. Les données sur les rendements du S&P 500 remplissent la colonne 2 en tant que variable indépendante.
- Sélectionnez « Données » dans la barre d’outils. Le menu « Données » s’affiche.
- Sélectionnez « Analyse des données ». La boîte de dialogue « Analyse des données – Outils d’analyse » s’affiche.
- Dans le menu, sélectionnez « Régression » et cliquez sur « OK ».
- Dans la boîte de dialogue Régression, cliquez sur la case « Plage d’entrée Y » et sélectionnez les données de la variable dépendante (rendements boursiers de Visa (V)).
- Cliquez sur la case « Input X Range » et sélectionnez les données de la variable indépendante (rendements S&P 500).
- Cliquez sur « OK » pour exécuter les résultats.
[Note : Si le tableau semble petit, cliquez sur l’image avec le bouton droit de la souris et ouvrez un nouvel onglet pour une résolution plus élevée].
Interpréter les résultats
En utilisant ces données (les mêmes que celles de notre article R-carré), nous obtenons le tableau suivant :
La valeurR2 , également appelée coefficient de détermination, mesure la proportion de variation de la variable dépendante expliquée par la variable indépendante ou la façon dont le modèle de régression s’adapte aux données. La valeurR2 varie de 0 à 1, et une valeur plus élevée indique un meilleur ajustement. La valeur p, ou valeur de probabilité, va également de 0 à 1 et indique si le test est significatif. Contrairement à la valeurR2, une valeur p plus petite est favorable car elle indique une corrélation entre les variables dépendantes et indépendantes.
Tracer une régression dans Excel
Nous pouvons tracer une régression dans Excel en mettant en évidence les données et en les représentant sous forme de diagramme de dispersion. Pour ajouter une ligne de régression, choisissez « Mise en page » dans le menu « Outils graphiques ». Dans la boîte de dialogue, sélectionnez « Trendline », puis « Linear Trendline ». Pour ajouter la valeurR2, sélectionnez « More Trendline Options » dans le menu « Trendline ». Enfin, sélectionnez « Afficher la valeur R au carré sur le graphique ». Le résultat visuel résume la force de la relation, bien qu’au prix de ne pas fournir autant de détails que le tableau ci-dessus.