Regressie-analyse voor beginners

10 oktober 2018

Regressie-analyse is een veelzijdige en veelgebruikte statistische analysemethode om de relatie tussen variabelen te schatten. De term regressie heeft bij mij altijd een vervelende bijklank gehad: het tegenovergestelde van progressie, vooruitgang (misschien dat ik daarom een hekel had aan statistiek). Een misleidende term als je nagaat hoe deze in de wereld van statistiek wordt gehanteerd. Hierin is de term regressie afgeleid van het fenomeen “regressie naar het midden”.

De Engelse antropoloog Francis Galton ontdekte dat kinderen uitzonderlijke eigenschappen van hun ouders overerven, maar dat er wel een trend van “regressie naar het midden” bestaat. Lange ouders krijgen bijvoorbeeld lange kinderen en korte ouders korte kinderen, echter steeds minder nadrukkelijk. Galton noemde de analysemethode die hij gebruikte naar het door hem bestudeerde fenomeen: regressie. Karl Pearson verfijnde later de rekenmethode en behield de door Galton bedachte terminologie.

Enfin, genoeg anekdotes. In dit artikel bespreek ik, zoveel mogelijk in lekentaal, wat regressie-analyse is en waarvoor je het kunt toepassen. Ken je de basics al en wil je aan de slag? Lees dan dit artikel over lineaire regressie met SPSS.

De basics van lineaire regressie

De meest eenvoudige vorm van regressie is enkelvoudige lineaire regressie. Hiermee kunnen we bijvoorbeeld op basis van de temperatuur voorspellen hoeveel ijsjes er worden verkocht en vaststellen of dit verband significant is. Wanneer we aan dit model een extra voorspellende variabele aan toevoegen, bijvoorbeeld besteedbaar inkomen, dan spreken we over meervoudige lineaire regressie. Dit klinkt misschien indrukwekkend, maar deze analysemethode is betrekkelijk eenvoudig. De essentie van (lineaire) regressie is dat we een passend model maken bij onze data. Met dit model voorspellen we de waarde van een afhankelijke variabele op basis van de waarde van een (of meer) onafhankelijke variabele(n) (ook wel verklarende of voorspellende variabelen genoemd).

Hiermee gaat regressie-analyse een stap verder dan het bepalen van correlatie, waar slechts naar samenhang wordt gekeken en niet naar een lineair verband met voorspellende waarde.

Wat belangrijke informatie over rechte lijnen

De volgende algemene formule kunnen we gebruiken om de relatie tussen twee variabelen weer te geven:

Deze formule zegt niets meer dan “Uitkomst = (model) + error”, waarbij “Uitkomst” de afhankelijke variabele is (aantal verkochte ijsjes), “(model)” een of meer variabelen die de uitkomst beïnvloeden (temperatuur en/of besteedbaar inkomen) en “error” of foutmarge oftewel afwijking van de lijn. Bij lineaire regressie hebben we het vermoeden dat de data lineair is. Dit betekent dat we de data proberen samen te vatten in een rechte lijn. Elke rechte lijn kan gedefinieerd worden door twee elementen:

slope (de helling): geeft aan hoe stijl de lijn is;
intercept: geeft aan wat het startpunt van de lijn is bij x = 0 (dus het punt waar de lijn de y-as kruist, daarom ook wel de y-intercept genoemd).

Een regressieanalyse laat zien hoe een verband eruit ziet door een lijn te trekken door een puntenwolk (Figuur 1). Een negatieve regressielijn betekent een negatief verband en een positieve regressielijn (u raadt het al) een positief verband.

Figuur 1. Basistypen lineaire regressielijnen

De kleinste-kwadratenmethode

Je vraagt je misschien af hoe deze rechte lijn tot stand komt. Bij elke dataset zijn er meerdere lijnen mogelijk waarmee je de “algemene trend” met het blote oog kunt optekenen. Om onze voorspellingen zo nauwkeurig mogelijk te maken, willen we echter dat een model zo goed mogelijk bij de data past. Daarom gebruiken we de kleinste-kwadraden methode (least squares). Met deze rekenmethode wordt de best passende lijn berekend bij een dataset. Met de best passende wordt die lijn bedoeld waarbij het totaal van de gekwadrateerde afwijkingen vanaf de lijn (sum of areas), verticaal gemeten, het kleinst is (Figuur 2). Met een dataset bedoelen we in dit geval een verzameling punten binnen het xy-vlak, waarvan wordt verondersteld dat zij min of meer op een rechte lijn liggen. Regressie-analyse kun je uitvoeren met een statistische analysetool, zoals SPSS.|

Figuur 2. De best passende lijn met behulp van de kleinste-kwadratenmethode (Bron: dynamicgeometry.com)

Samenvattend, in Figuur 2 zien we alles terug wat we hierboven besproken hebben:

Datapunten die min of meer in een (positieve) regressielijn vormen (met het blote oog is er al een patroon waarneembaar)
Een berekening van de meest passende lijn met behulp van de kleinste-kwadratenmethode (oftwel: de laagste ‘sum of areas’)
Een vergelijking die de best passende lijn weergeeft en daarmee de relatie tussen twee variabelen (y = 0.40x + 0.51)
De helling of slope) (0.40)
De y-intercept (0.51)

Hopelijk heeft dit artikel jou inzicht gegeven in de betekenis en mogelijkheden van regressie-analyse. Het is een waardevolle methode om oorzaak-gevolgrelaties te verkennen. Het is echter geen vervanging voor kritisch denken. Een lijn, een relatie tussen twee variabelen, hoeft immers niet het complete verhaal te vertellen (lees hier over het verschil tussen correlatie en causaliteit).

Ook behoefte aan gerichte begeleiding van het afstuderen?

De afstudeerconsultant biedt scriptiehulp voor jouw specifieke hulpvraag. Meld je hier aan voor een gratis en vrijblijvend oriëntatiegesprek.

Klik hier om je aan te melden voor een gratis en vrijblijvend oriëntatiegesprek >>>