Page content

P-P plot maken om normaliteit te controleren

P-P plot maken om normaliteit te controleren

Een P-P plot (probability-probability plot of percentage-percentage plot) is een kansverdelingsplot om te beoordelen hoe nauw twee datasets met elkaar in overeenstemming zijn. Het is een grafiek die de cumulatieve kans van een variabele tegen de cumulatieve kans van een specifieke verdeling (bv. een normale verdeling) afzet. Dit betekent dat de data gerangschikt en gesorteerd zijn. Voor elke rangschikking wordt de z-score (gestandaardiseerde verwachte waarde die de score zou moeten hebben in een normale verdeling) berekend. Deze z-score wordt afgezet tegen de z-score van een normale verdeling.

Op deze manier kun je het P-P plot dus gebruiken om de aanname van normaliteit te toetsen. Deze aanname is van belang om te bepalen of het gerechtvaardigd is om een parametrische toets (bv. t-toets) uit te voeren. Een frequentieverdeling kan als een normale verdeling worden beschouwd als deze aan een aantal aannames voldoet. Normaliteit kan visueel gecontroleerd worden aan de hand van een histogram (wat een histogram is en hoe je deze maakt in SPSS vind je hier) en dus een P-P plot.

P-P plot maken in SPSS

Om een P-P plot te genereren in SPSS gebruik je Analyze –> Descriptive Statistics –> P-P plot. Verder is het vrij eenvoudig: selecteer aan de linkerkant van het dialoogvenster de variabelen die je wilt analyseren, klik op de pijl in het midden en kies OK. De gekozen variabelen worden standaard tegen een normale verdeling afgezet.P-P-plot-maken-in-spss

P-P plot interpreteren

In onderstaande figuur zie je aan de linkerzijde van drie verschillende datasets een histogram afgebeeld en aan de rechterzijde het bijbehorende P-P plot. Je kunt zien dat in de bovenste dataset (Day 1 of Download Festival) de hoogste waarden rond het midden liggen en deze vrij geleidelijk afnemen naar de extremen toe. Dit lijkt (om er zeker van te zijn dient dit getoetst te worden) op een normale verdelingen. In het P-P plot vertaald dit zich in een vrij strakke diagonale lijn. In de twee onderste datasets daarentegen, liggen de hoogste waarden links van het midden. Geen normale verdeling dus. Dit is ook terug te zien in de P-P plots, waar de datapunten afwijken van de diagonale lijn.

p-p-plot

Realiseer je hierbij wel dat het bekijken van histogrammen en P-P plots subjectief is en dus misinterpretatie of zelfs misbruik in de hand kan werken. Overigens dien je histogrammen en P-P plots apart te maken aangezien deze zich op verschillende plaatsen in het menu bevinden (klik hier voor de uitleg om een histogram te maken in SPSS >>>).

    Comment Section

    0 reacties op “P-P plot maken om normaliteit te controleren

    Plaats een reactie


    *