arrow_drop_up arrow_drop_down
Enkelvoudige lineaire regressie met SPSS

Enkelvoudige lineaire regressie met SPSS

Enkelvoudige lineaire regressie (Engels: simple regression of univeriate regression) of simpelweg enkelvoudige regressie is een statistische analysetechniek om een specifieke samenhang tussen twee variabelen vast te stellen. We willen de uitkomst (afhankelijke variabele) voorspellen met één predictor (onafhankelijke variabele). Bijvoorbeeld, op basis van de temperatuur voorspellen hoeveel ijsjes er worden verkocht. In dit artikel lees je aan de hand van een voorbeeld hoe je deze analyse uitvoert in SPSS, hoe je de output interpreteert en je de resultaten rapporteert. In ons artikel Regressie-analyse voor beginners beschreven we de basistheorie van regressie-analyse. Als je nog niet weet welke analyse geschikt is voor jouw probleemstelling, begin dan met ons artikel Data-analyse: waar te beginnen?

Uitvoeren enkelvoudige regressie-analyse

Open SPSS met de betreffende dataset en ga in het menu bovenin naar Analyze –> Regression –> Linear... Onderstaande venster verschijnt. Selecteer de gewenste afhankelijke variabele en klik op het pijltje naast het vak Dependent. Doe hetzelfde voor de onafhankelijke variabele bij het vak Independent(s). In het voorbeeld hebben we leeftijd (age) als onafhankelijke variabele geplaatst en het jaarsalaris (salary) als afhankelijke variabele. enkelvoudige-regressie-variabelen Klik vervolgens op OKom de analyse uit te voeren.

Interpreteren SPSS output

De eerste tabel in de SPSS output geeft een samenvatting van het model. De R-kwadraaat (R Square) vertelt dat 49,1% van het salaris verklaart wordt door leeftijd. De overige 51,9% in variatie van salaris wordt dus door andere factoren verklaard. tabel-model-summary-regressie-spss De tweede tabel rapporteert de variantieanalyse (ANOVA). Het belangrijkste deel van de tabel is de F-ratio (F) en de bijbehorende significantiewaarde (Sig.) van die F-ratio. In onderstaande voorbeeld is F 42,39, wat significant is bij p < 0,001 (omdat de waarde in de kolom Sig. minder is dan 0,001). Dit resultaat geeft aan dat er minder dan een 0,1% kans is dat een F-ratio van deze omvang voorkomt als de nulhypothese waar zou zijn. Daarom kunnen we concluderen dat ons regressiemodel resulteert in een significant betere voorspelling van salaris dan wanneer we de gemiddelde waarde van de salaris zouden gebruiken voor elke waarde van leeftijd. Kortom, het regressiemodel voorspelt het salaris significant goed. tabel-ANOVA-regressie-spss De ANOVA-tabel vertelt ons of het model in het algemeen resulteert in een significant goede voorspelling van de uitkomstvariabele. Echter zegt de ANOVA niets over de individuele bijdrage van variabelen in het model (hoewel er bij een enkelvoudige regressie slechts één variabele in het model zit en dus kunnen we concluderen dat deze variabele een goede voorspeller is). Onderstaande tabel geeft details over de modelparameters (de bètawaarden) en de significantie van deze waarden. In onderstaande voorbeeld heeft de β(de bètawaarde van de intercept, het punt bij X = 0) een waarde van -23776,76. Dit betekent dat als er geen leeftijd bekend is, het model voorspelt dat het salaris -23776,76 is. De β1  (de helling (slope) van de regressielijn) is 2050,12. Deze waarde staat voor de verandering in de uitkomst (salaris) geassocieerd met een eenheidsverandering in de voorspeller (leeftijd). In onderstaande voorbeeld betekent dit dat bij elke verhoging van een jaar in leeftijd het voorspelde jaarsalaris 2050,12 hoger is. tabel-coefficients-regressie-spss De t (een-na-laatste kolom) geeft aan of de β-waarde anders is dan 0 en de Sig. of dit significant is. Deze is 0,000 in bovenstaande voorbeeld. Dit is lager dan 0,005 en dus significant. Daarom kunnen we concluderen dat leeftijd een belangrijke bijdrage (p <.001) levert aan salaris. Het regressiemodel bij bovenstaande analyse noteren we als volgt: formule-regressieBij een leeftijd van 27 hoort dus het volgende salaris:
salaris = -23776,76 + (2050,12 × 27) salaris = 31576,48

Rapporteren resultaten enkelvoudige regressie

In het resultatenhoofdstuk van je scriptie rapporteer je de uitkomsten van de regressieanalyse. Voor het rapporteren van statistische resultaten zijn richtlijnen afgesproken, bijvoorbeeld zoals opgenomen in de APA-stijl. Zo ook specifiek voor regressie-analyse. Een veel toegepast slabloon gaat als volgt (in het Engels, omdat dit het meest voorkomt bij scripties met statistische analyse in Nederland):
A simple linear regression was used to predict {afhankelijke variabele} from {onafhankelijke variabele}. This variable significantly predicted {afhankelijke variabele}, F({A},  {B}) = {C}, p < {D},  R2 = {E}. Predicted {afhankelijke variabele} is equal to {F}, {+/- G} in {eenheid van onafhankelijke variabele; €/kg/meters/etc} per {eenheid onafhankelijke variabele; €/kg/etc} in {afhankelijke variabele}.
Daarbij zijn F({A},  {B}) de vrijheidsgraden: {A} staat voor het aantal verklarende variabelen en {B} het aantal observaties minus het aantal verklarende variabelen minus één. Het sjabloon ingevuld met bevindingen uit bovenstaande analyse:
A simple linear regression was used to predict salary from age. This variable significantly predicted salary, F(1, 95) = 42.39, p < .0005, R2 = .491. Predicted salary is equal to -23776,76, +2050,12 (€) per euro in income.
Evie
Door

Evie

op 19 Feb 2020

Hoe kom je aan de 1,95 in F(1,95) -

Evie
Door

Evie

op 20 Feb 2020

Dat zie ik inderdaad, ik snap het eerste getal wel, want dat staat bij df in de kolom. Maar ik kom nergens op die 95 ?

Luuk Tubbing
Door

Luuk Tubbing

op 20 Feb 2020

Dit is slechts een voorbeeld. Die 95 valt inderdaad niet af te leiden uit het artikel, omdat het aantal observaties (dat zal dus 97 geweest moeten zijn) niet is vermeld.

Luuk Tubbing
Door

Luuk Tubbing

op 19 Feb 2020

Hoi Evie, dat staat in de alinea daarboven beschreven ("Daarbij zijn [...] minus één'.).

Camille
Door

Camille

op 13 Feb 2020

Hoi, ik ga een enkelvoudige lineaire regressie doen met een sample van ongeveer 150 participanten. Ik dacht een p-waarde te nemen van .001, maar twijfel hier wel een beetje aan. Hoe kan ik de p-waarde het beste bepalen?

Luuk Tubbing
Door

Luuk Tubbing

op 13 Feb 2020

Hoi Camille, De p-waarde is een statistische berekening o.b.v. de data. Deze kun je niet vooraf bepalen. Waarschijnlijk doel je op de foutmarge. Doorgaans wordt 5% gehanteerd. Groeten, Luuk

Eva
Door

Eva

op 27 May 2019

Hoe kom je op een df van 4, 95?

Luuk Tubbing
Door

Luuk Tubbing

op 18 Jan 2020

Hoi Eva en eva ;) Dat had ik er even bij moeten zetten inderdaad. F({A},  {B}) zijn de vrijheidsgraden: {A} staat voor het aantal verklarende variabelen en {B} het aantal observaties minus het aantal verklarende variabelen minus één. 4 moet dan trouwens 1 zijn volgens het voorbeeld (heb ik aangepast).

eva
Door

eva

op 18 Jan 2020

ik heb dezelfde vraag

Gert
Door

Gert

op 14 Mar 2019

Onder de titel "Uitvoeren enkelvoudige regressie-analyse" zijn 'age' en 'salary' fout ingegeven. 'Age' moet independent (predictor) zijn.

Luuk Tubbing
Door

Luuk Tubbing

op 14 Mar 2019

Je hebt gelijk. Dit zou natuurlijk wel een model kunnen zijn, maar het is niet consistent met de rest van het artikel. Ik heb het direct aangepast. Bedankt voor de feedback!

Gert
Door

Gert

op 14 Mar 2019

Als je met dummy's werkt, laat je dan de laatste zin (Predicted {afhankelijke variabele} is equal to {F} , {+/- G} in {eenheid van onafhankelijke variabele; €/kg/meters/etc} per {eenheid onafhankelijke variabele; €/kg/etc} in {afhankelijke variabele}) gewoon weg aangezien je geen eenheid hebt?

Luuk Tubbing
Door

Luuk Tubbing

op 14 Mar 2019

Het gedeelte van de eenheid kun je inderdaad weghalen. Het effect van de dummy (0 vs 1) moet natuurlijk wel duidelijk zijn. En ook waar de 0 en de 1 voor staat.

Reactie plaatsen