Page content

Enkelvoudige lineaire regressie met SPSS

Enkelvoudige lineaire regressie met SPSS

Enkelvoudige lineaire regressie (Engels: simple regression of univeriate regression) of simpelweg enkelvoudige regressie is een statistische analysetechniek om een specifieke samenhang tussen twee variabelen vast te stellen. We willen de uitkomst (afhankelijke variabele) voorspellen met één predictor (onafhankelijke variabele). Bijvoorbeeld, op basis van de temperatuur voorspellen hoeveel ijsjes er worden verkocht.

In dit artikel lees je aan de hand van een voorbeeld hoe je deze analyse uitvoert in SPSS, hoe je de output interpreteert en je de resultaten rapporteert. In ons artikel Regressie-analyse voor beginners beschreven we de basistheorie van regressie-analyse. Als je nog niet weet welke analyse geschikt is voor jouw probleemstelling, begin dan met ons artikel Data-analyse: waar te beginnen?
Bol.com AlgemeenBol.com Algemeen

Uitvoeren enkelvoudige regressie-analyse

Open SPSS met de betreffende dataset en ga in het menu bovenin naar Analyze –> Regression –> Linear… Onderstaande venster verschijnt. Selecteer de gewenste afhankelijke variabele en klik op het pijltje naast het vak Dependent. Doe hetzelfde voor de onafhankelijke variabele bij het vak Independent(s). In het voorbeeld hebben we leeftijd (age) als onafhankelijke variabele geplaatst en het jaarsalaris (salary) als afhankelijke variabele.

enkelvoudige-regressie-variabelen

Klik vervolgens op OK om de analyse uit te voeren.

Interpreteren SPSS output

De eerste tabel in de SPSS output geeft een samenvatting van het model. De R-kwadraaat (R Square) vertelt dat 49,1% van het salaris verklaart wordt door leeftijd. De overige 51,9% in variatie van salaris wordt dus door andere factoren verklaard.

tabel-model-summary-regressie-spss

De tweede tabel rapporteert de variantieanalyse (ANOVA). Het belangrijkste deel van de tabel is de F-ratio (F) en de bijbehorende significantiewaarde (Sig.) van die F-ratio. In onderstaande voorbeeld is F 42,39, wat significant is bij p < 0,001 (omdat de waarde in de kolom Sig. minder is dan 0,001). Dit resultaat geeft aan dat er minder dan een 0,1% kans is dat een F-ratio van deze omvang voorkomt als de nulhypothese waar zou zijn. Daarom kunnen we concluderen dat ons regressiemodel resulteert in een significant betere voorspelling van salaris dan wanneer we de gemiddelde waarde van de salaris zouden gebruiken voor elke waarde van leeftijd. Kortom, het regressiemodel voorspelt het salaris significant goed.

tabel-ANOVA-regressie-spss

De ANOVA-tabel vertelt ons of het model in het algemeen resulteert in een significant goede voorspelling van de uitkomstvariabele. Echter zegt de ANOVA niets over de individuele bijdrage van variabelen in het model (hoewel er bij een enkelvoudige regressie slechts één variabele in het model zit en dus kunnen we concluderen dat deze variabele een goede voorspeller is). Onderstaande tabel geeft details over de modelparameters (de bètawaarden) en de significantie van deze waarden. In onderstaande voorbeeld heeft de β(de bètawaarde van de intercept, het punt bij X = 0) een waarde van -23776,76. Dit betekent dat als er geen leeftijd bekend is, het model voorspelt dat het salaris -23776,76 is. De β1  (de helling (slope) van de regressielijn) is 2050,12. Deze waarde staat voor de verandering in de uitkomst (salaris) geassocieerd met een eenheidsverandering in de voorspeller (leeftijd). In onderstaande voorbeeld betekent dit dat bij elke verhoging van een jaar in leeftijd het voorspelde jaarsalaris 2050,12 hoger is.

tabel-coefficients-regressie-spss

De t (een-na-laatste kolom) geeft aan of de β-waarde anders is dan 0 en de Sig. of dit significant is. Deze is 0,000 in bovenstaande voorbeeld. Dit is lager dan 0,005 en dus significant. Daarom kunnen we concluderen dat leeftijd een belangrijke bijdrage (p <.001) levert aan salaris.

Het regressiemodel bij bovenstaande analyse noteren we als volgt:

formule-regressie

Bij een leeftijd van 27 hoort dus het volgende salaris:

salaris = -23776,76 + (2050,12 × 27)

salaris = 31576,48

Rapporteren resultaten enkelvoudige regressie

In het resultatenhoofdstuk van je scriptie rapporteer je de uitkomsten van de regressieanalyse. Voor het rapporteren van statistische resultaten zijn richtlijnen afgesproken, bijvoorbeeld zoals opgenomen in de APA-stijl. Zo ook specifiek voor regressie-analyse. Een veel toegepast slabloon gaat als volgt (in het Engels, omdat dit het meest voorkomt bij scripties met statistische analyse in Nederland):

A simple linear regression was used to predict {afhankelijke variabele} from {onafhankelijke variabele}. This variable significantly predicted {afhankelijke variabele}, F({A},  {B}) = {C}, p < {D},  R2 = {E}. Predicted {afhankelijke variabele} is equal to {F}, {+/- G} in {eenheid van onafhankelijke variabele; €/kg/meters/etc} per {eenheid onafhankelijke variabele; €/kg/etc} in {afhankelijke variabele}.

Daarbij zijn F({A},  {B}) de vrijheidsgraden: {A} staat voor het aantal verklarende variabelen en {B} het aantal observaties minus het aantal verklarende variabelen minus één.

Het sjabloon ingevuld met bevindingen uit bovenstaande analyse:

A simple linear regression was used to predict salary from age. This variable significantly predicted salary, F(1, 95) = 42.39, p < .0005, R2 = .491. Predicted salary is equal to -23776,76, +2050,12 (€) per euro in income.

    Comment Section

    13 reacties op “Enkelvoudige lineaire regressie met SPSS


    Door Gert op 14 maart 2019

    Als je met dummy’s werkt, laat je dan de laatste zin (Predicted {afhankelijke variabele} is equal to {F} , {+/- G} in {eenheid van onafhankelijke variabele; €/kg/meters/etc} per {eenheid onafhankelijke variabele; €/kg/etc} in {afhankelijke variabele}) gewoon weg aangezien je geen eenheid hebt?


    Door Luuk Tubbing op 14 maart 2019

    Het gedeelte van de eenheid kun je inderdaad weghalen. Het effect van de dummy (0 vs 1) moet natuurlijk wel duidelijk zijn. En ook waar de 0 en de 1 voor staat.


    Door Gert op 14 maart 2019

    Onder de titel “Uitvoeren enkelvoudige regressie-analyse” zijn ‘age’ en ‘salary’ fout ingegeven.
    ‘Age’ moet independent (predictor) zijn.


    Door Luuk Tubbing op 14 maart 2019

    Je hebt gelijk. Dit zou natuurlijk wel een model kunnen zijn, maar het is niet consistent met de rest van het artikel. Ik heb het direct aangepast. Bedankt voor de feedback!


    Door Eva op 27 mei 2019

    Hoe kom je op een df van 4, 95?


    Door eva op 18 januari 2020

    ik heb dezelfde vraag


    Door Luuk Tubbing op 18 januari 2020

    Hoi Eva en eva 😉
    Dat had ik er even bij moeten zetten inderdaad. F({A},  {B}) zijn de vrijheidsgraden: {A} staat voor het aantal verklarende variabelen en {B} het aantal observaties minus het aantal verklarende variabelen minus één. 4 moet dan trouwens 1 zijn volgens het voorbeeld (heb ik aangepast).


    Door Camille op 13 februari 2020

    Hoi, ik ga een enkelvoudige lineaire regressie doen met een sample van ongeveer 150 participanten. Ik dacht een p-waarde te nemen van .001, maar twijfel hier wel een beetje aan. Hoe kan ik de p-waarde het beste bepalen?


    Door Luuk Tubbing op 13 februari 2020

    Hoi Camille,
    De p-waarde is een statistische berekening o.b.v. de data. Deze kun je niet vooraf bepalen. Waarschijnlijk doel je op de foutmarge. Doorgaans wordt 5% gehanteerd.
    Groeten,
    Luuk


    Door Evie op 19 februari 2020

    Hoe kom je aan de 1,95 in F(1,95) –


    Door Luuk Tubbing op 19 februari 2020

    Hoi Evie, dat staat in de alinea daarboven beschreven (“Daarbij zijn […] minus één’.).


    Door Evie op 20 februari 2020

    Dat zie ik inderdaad, ik snap het eerste getal wel, want dat staat bij df in de kolom. Maar ik kom nergens op die 95 ?


    Door Luuk Tubbing op 20 februari 2020

    Dit is slechts een voorbeeld. Die 95 valt inderdaad niet af te leiden uit het artikel, omdat het aantal observaties (dat zal dus 97 geweest moeten zijn) niet is vermeld.

    Plaats een reactie


    *