Regressie-analyse voor beginners

Regressie-analyse is een veelzijdige en veelgebruikte statistische analysemethode om de relatie tussen variabelen te schatten. De term regressie heeft bij mij altijd een vervelende bijklank gehad: het tegenovergestelde van progressie, vooruitgang (misschien dat ik daarom een hekel had aan statistiek). Een misleidende term als je nagaat hoe deze in de wereld van statistiek wordt gehanteerd. Hierin is de term regressie afgeleid van het fenomeen “regressie naar het midden”.

De Engelse antropoloog Francis Galton ontdekte dat kinderen uitzonderlijke eigenschappen van hun ouders overerven, maar dat er wel een trend van “regressie naar het midden” bestaat. Lange ouders krijgen bijvoorbeeld lange kinderen en korte ouders korte kinderen, echter steeds minder nadrukkelijk. Galton noemde de analysemethode die hij gebruikte naar het door hem bestudeerde fenomeen: regressie. Karl Pearson verfijnde later de rekenmethode en behield de door Galton bedachte terminologie. Enfin, genoeg anekdotes. In dit artikel bespreek ik, zoveel mogelijk in lekentaal, wat regressie-analyse is en waarvoor je het kunt toepassen.

regressie-analyse

De basics van lineaire regressie

De meest eenvoudige vorm van regressie is enkelvoudige lineaire regressie. Hiermee kunnen we bijvoorbeeld op basis van de temperatuur voorspellen hoeveel ijsjes er worden verkocht en vaststellen of dit verband significant is. Wanneer we aan dit model een extra voorspellende variabele aan toevoegen, bijvoorbeeld besteedbaar inkomen, dan spreken we over meervoudige lineaire regressie. Dit klinkt misschien indrukwekkend, maar deze analysemethode is betrekkelijk eenvoudig. De essentie van (lineaire) regressie is dat we een passend model maken bij onze data. Met dit model voorspellen we de waarde van een afhankelijke variabele op basis van de waarde van een (of meer) onafhankelijke variabele(n) (ook wel verklarende of voorspellende variabelen genoemd).

Hiermee gaat regressie-analyse een stap verder dan het bepalen van correlatie, waar slechts naar samenhang wordt gekeken en niet naar een lineair verband met voorspellende waarde.

Wat belangrijke informatie over rechte lijnen

De volgende algemene formule kunnen we gebruiken om de relatie tussen twee variabelen weer te geven:

lineaire-regressie-formule

Deze formule zegt niets meer dan “Uitkomst = (model) + error”, waarbij “Uitkomst” de afhankelijke variabele is (aantal verkochte ijsjes), “(model)” een of meer variabelen die de uitkomst beïnvloeden (temperatuur en/of besteedbaar inkomen) en “error” of foutmarge oftewel afwijking van de lijn. Bij lineaire regressie hebben we het vermoeden dat de data lineair is. Dit betekent dat we de data proberen samen te vatten in een rechte lijn. Elke rechte lijn kan gedefinieerd worden door twee elementen:

  1. slope (de helling): geeft aan hoe stijl de lijn is;
  2. intercept: geeft aan wat het startpunt van de lijn is bij x = 0 (dus het punt waar de lijn de y-as kruist, daarom ook wel de y-intercept genoemd).

Een regressieanalyse laat zien hoe een verband eruit ziet door een lijn te trekken door een puntenwolk (Figuur 1). Een negatieve regressielijn betekent een negatief verband en een positieve regressielijn (u raadt het al) een positief verband.

regressie

Figuur 1. Basistypen lineaire regressielijnen

De kleinste-kwadratenmethode

Je vraagt je misschien af hoe deze rechte lijn tot stand komt. Bij elke dataset zijn er meerdere lijnen mogelijk waarmee je de “algemene trend” met het blote oog kunt optekenen. Om onze voorspellingen zo nauwkeurig mogelijk te maken, willen we echter dat een model zo goed mogelijk bij de data past. Daarom gebruiken we de kleinste-kwadraden methode (least squares). Met deze rekenmethode wordt de best passende lijn berekend bij een dataset. Met de best passende wordt die lijn bedoeld waarbij het totaal van de gekwadrateerde afwijkingen vanaf de lijn (sum of areas), verticaal gemeten, het kleinst is (Figuur 2). Met een dataset bedoelen we in dit geval een verzameling punten binnen het xy-vlak, waarvan wordt verondersteld dat zij min of meer op een rechte lijn liggen. Regressie-analyse kun je uitvoeren met een statistische analysetool, zoals SPSS.|

regressie-kleinste-kwadratenmethode

Figuur 2. De best passende lijn met behulp van de kleinste-kwadratenmethode (Bron: dynamicgeometry.com)

Samenvattend, in Figuur 2 zien we alles terug wat we hierboven besproken hebben:

  • Datapunten die min of meer in een (positieve) regressielijn vormen (met het blote oog is er al een patroon waarneembaar)
  • Een berekening van de meest passende lijn met behulp van de kleinste-kwadratenmethode (oftwel: de laagste ‘sum of areas’)
  • Een vergelijking die de best passende lijn weergeeft en daarmee de relatie tussen twee variabelen (y = 0.40x + 0.51)
  • De helling of slope) (0.40)
  • De y-intercept (0.51)

Hopelijk heeft dit artikel jou inzicht gegeven in de betekenis en mogelijkheden van regressie-analyse. Het is een waardevolle methode om oorzaak-gevolgrelaties te verkennen. Het is echter geen vervanging voor kritisch denken. Een lijn, een relatie tussen twee variabelen, hoeft immers niet het complete verhaal te vertellen (lees hier over het verschil tussen correlatie en causaliteit).


Ook behoefte aan gerichte begeleiding van het afstuderen?

De afstudeerconsultant biedt scriptiehulp voor jouw specifieke hulpvraag. Meld je hier aan voor een gratis en vrijblijvend oriëntatiegesprek.

Klik hier om je aan te melden voor een gratis en vrijblijvend oriëntatiegesprek >>>

Door

nadine

op 30 April 2018

Voor mijn B-these neem ik twee enkelvoudige lineaire regressies af. Moet ik hiervoor de assumptie multicollineairiteit testen (wordt wel gegeven door SPSS)? Ik heb het zo nu verwoord: . Wel is de VIF rond de 1, dus er is geen sprake van multicollineariteit. Dit betekent dat er voor één vaste waarde van de onafhankelijke variabele ouder-leerkrachtrelatie niet meerdere uitkomsten zijn voor de afhankelijke variabele thuisbetrokkenheid. Maar ik vind ik boeken zoals Pallant dat ze allemaal multicollineairteit berekenen bij meervoudige regressies.

Door

Luuk Tubbing

op 1 May 2018

Beste Nadine, alleen bij meervoudige regressie is multicollineariteit relevant. Hiermee toets je immers in hoeverre onafhankelijke variabelen (meervoud dus) in het model met elkaar correleren.

Door

Esmee

op 6 June 2018

Hallo, voor mijn bachelor scriptie wil ik een regressie analyse uitvoeren op twee hypotheses. De ene data is wel lineair, de andere is discutabel. Wat kan hierover gezegd worden? Kan de regressie dan nog wel uitgevoerd worden? De data is heel klein, namelijk N=15. Groetjes, Esmee Erisman

Door

Luuk Tubbing

op 6 June 2018

Hallo Esmee, Als de lineariteit van de data discutabel is, kun je naast een regressie-analyse ook een niet-lineaire regressie uitvoeren. Vervolgens kijk je welk resultaat het beste bij de data past (fit). Welk type niet-lineaire regressie het beste past hangt af van het type verband tussen de variabelen. N = 15 is inderdaad erg klein. De kans op toeval of een vertekend beeld door een outlier is daardoor wel erg groot. Groetjes, Luuk

Door

John

op 24 June 2018

Hallo, Ik ben bezig met een multipele regressie analyse met interactie effecten. In het basis model (varA&var B op varC) heb ik geen multicollineariteit. Als ik de interactie term toevoeg (var D) krijg ik voor de interactie variabele (D) een tolerance van 0.008 en een VIF van 130, hoe moet ik dit interpreteren? Voor de interactie termen AD & BD lijkt het mij logisch dat ze hier buiten de 'tolerance >0.2 en VIF<10' marge op score.

Door

Yolanda

op 26 September 2018

Hallo, Ik heb voor mijn master scriptie gebruik gemaakt van de One-way ANOVA testen. Echter, hoor ik van mijn begeleider dat een multivariabel regressie analyse beter was geweest. Wat zijn de voordelen hiervan t.o.v. een ANOVA? Is dit een betere statistische toets? Groetjes, Yolanda

Door

Luuk Tubbing

op 26 September 2018

Hallo Yolanda, Welke van de twee het meest geschikt is hangt af van de onderzoeksvraag die je wilt beantwoorden en het type variabelen. Simpel gezegd gebruik je multipele regressie om een continue uitkomstvariabele te voorspellen op basis van meerdere continue voorspellende variabelen. ANOVA daarentegen gebruik je om een continue uitkomstvariabele te voorspellen op basis van meerdere categorische voorspellende variabelen. Is daarmee jouw vraag beantwoord? Groeten, Luuk

Door

Davy Conings

op 26 October 2018

Beste Voor mijn thesis waar ik de dagprijs van woonzorgcentra analyseer via een meerzijdige regressieanalyse zit ik een beetje vast. Ik moet van mijn promotor 2 regressieanalyses uitvoeren (afh var = dagprijs onafh var1=bewonerscapaciteit, onafh var2=provincie en onafh var3= juridisch statuut) de eerste analys kan ik trekken en een analyse maken maar in mijn tweede analyse moet ik bijvoorbeeld provincie Limburg en juridisch statuut prive uit mijn dataset halen en de regressieanalyse uitvoeren. Dit lukt maar om dan te concluderen wat er gebeurd is als ik deze 2 uit mijn data heb gelaten gaat moeilijk, om niet te zeggen dat ik dat helemaal niet snap.

Door

Luuk Tubbing

op 31 October 2018

Beste Davy, Bij multipele regressie wil je van alle variabelen die je van te voren hebt bedacht weten of zij wat toevoegen aan het model. De "kunst" is namelijk om met zo min mogelijk variabelen zoveel mogelijk te verklaren (zo houdt je het model zo eenvoudig mogelijk). Als je voor de analyse variabelen uit je model haalt wil je dus vaststellen of het model hier beter of slechter van wordt. Oftewel, gaat de R-kwadraat omhoog of omlaag. De R-kwadraat geeft immers aan hoeveel procent van de afhankelijke variabele wordt verklaard door het de onafhankelijke variabele(n). Helder? Hier lees je hoe je SPSS output van regressie-analyse interpreteert: https://deafstudeerconsultant.nl/statistiek-met-spss/enkelvoudige-regressie-met-spss/ Groeten, Luuk

Reactie plaatsen

Sneller afstuderen met een scriptiecoach?

scriptiehulp-scriptiecoach-afstuderen