Page content

Missing values in SPSS

Missing values in SPSS

Missing values (ontbrekende gegevens) zijn gegevens of datapunten van een variabele die ontbreken. Het kan bijvoorbeeld veroorzaakt worden doordat een respondent vergeet een bepaalde vraag in een enquête in te vullen. Of een datum ontbreekt (in experimenteel onderzoek) door een mechanische fout. Een andere oorzaak is dat een respondent weigert een vraag te beantwoorden. Mogelijk omdat deze gevoelig ligt. Missing values kunnen een significant effect hebben op de conclusies die je kunt trekken op basis van de data. Dit betekent (in veel gevallen) niet dat we de data die we wel hebben in de vuilnisbank moeten gooien. Datatechnisch gezien kun je ook met missing values te maken krijgen wanneer je bijvoorbeeld in een enquête verschillende ‘routes’ toepast: verschillende typen respondenten (bv. klanten en prospects) krijgen verschillende vragen op basis van hun kenmerken of antwoorden. Wanneer je hier één dataset van maakt zullen er lege velden zijn, welke op de juiste wijze getypeerd dienen te worden, afhankelijk van de onderzoeksvraag die je wilt beantwoorden of hypothese die je wilt toetsen.

Missing values coderen

Nu we weten wat missing values zijn en wanneer je hiermee te maken krijgt, een uitleg over hoe je hiermee om dient te gaan in SPSS. We dienen namelijk aan SPSS te vertellen wanneer een waarde of leeg veld als missing value wordt behandeld, maar vervolgens ook hoe een missing value wordt behandeld. Dit gaat min of meer volgens hetzelfde principe als het coderen van variabelen: we kiezen een bepaalde numerieke waarde die het ontbrekende datapunt vertegenwoordigt. Deze waarde vertelt SPSS dat er sprake is van een missing value in een bepaald geval, bijvoorbeeld voor een specifieke respondent voor een bepaalde variabele. In de analyse negeert SPSS de datapunten die zijn aangemerkt als missing value. Uiteraard dien je ervoor te waken dat de numerieke waarde die je toekent aan missing values niet overeenkomt met een van de numerieke waarden die je in de codering van de variabelen hebt gebruikt. Stel dat je het getal 7 toekent aan missing values en hetzelfde getal komt ook in de antwoorden van je enquête. SPSS zal dan alle antwoorden die als 7 gecodeerd zijn als missing value behandelen.

Numerieke waarde toekennen aan missing value

Het toekennen van een numerieke waarde aan een missing value gaat als volgt:

  1. Klik in de Variable View in de rij van de betreffende variabele in de cel onder de kolom Missing.
  2. Vervolgens klik je op het blauwe hokje met drie puntjes dat verschijnt. Hiermee activeer je het venster Missing Values (zie afbeelding onder). De standaardinstelling is No missing values. Als dit inderdaad het geval is met jouw dataset dan hoef je hier niets aan te veranderen.
  3. Er zijn twee manieren om missing values te definiëren. De eerste optie is Discrete missing values. Dit zijn enkelvoudige waarden die de ontbrekende data vertegenwoordigen. Je kunt maximaal drie verschillende discrete missing values invoeren. Je kunt voor meerdere waarden kiezen als je voor jezelf de betekenis van de missing value wilt differentiëren (bv. 6 = ‘niet van toepassing’, 7 = ‘weet ik niet’ en 99 = ‘geen antwoord ingevuld’). De tweede optie is Range plus one optional discrete misssing value. Deze optie is handig wanneer je data tussen die tussen twee punten valt buiten de analyse wilt houden. Tenslotte kun je bij deze laatste optie nog kiezen voor een aanvullende discrete missing value.

missing-values-in-spss

Listwise of pairwise deletion?

Wanneer je de missing values hebt gecodeerd en je aan je analyse begint duikt er een nieuw vraagstuk op met betrekking tot missing values: listwise of pairwise deletion? Listwise betekent dat elke case (bijv. een respondent) met een missing value buiten de analyse wordt gehouden. Pairwise houdt in dat SPSS alleen de missing values laat vallen en de rest van de case behoudt. Bijvoorbeeld, van een respondent die haar leeftijd niet heeft ingevuld, neem je wel ingevulde velden mee. Beide methoden hebben doen dus totaal verschillende aannamen over de manier waarop met data wordt omgegaan. Je zult doen even moeten nadenken, met het doel van jouw onderzoek in je achterhoofd, wat de meest passende vorm is om met missing values om te gaan. In SPSS kun je jouw keuze aangeven in het optiescherm bij de betreffende analyse die je gaat uitvoeren (hier onder een voorbeeld).

missing-values-pairwise-listwise-deletion

    Comment Section

    78 reacties op “Missing values in SPSS


    Door Nini op 24 maart 2016

    Hoi! Allereerst bedankt voor je heldere uitleg. Ik heb nog een vraag. Moet je missing values ook bij ‘values’ definiëren of moet dit alleen bij ‘missing values’ (zoals jij hierboven beschreven hebt)? Bijvoorbeeld:
    1 = Zeer ontevreden
    2 = Ontevreden
    3 = Neutraal
    4 = Tevreden
    5 = Zeer tevreden
    99 = Niet ingevuld (missing value)

    Alvast bedankt!
    Groetjes Nini


    Door Luuk Tubbing op 24 maart 2016

    Hoi Nini, bedankt voor het compliment en jouw vraag. Je hoeft missing values niet bij values te definiëren. Het heeft geen invloed op de analyses (daarvoor geldt de procedure uit bovenstaande artikel), maar het kan natuurlijk wel handig zijn, bijvoorbeeld omdat je deze informatie wilt gebruiken bij het presenteren van resultaten.


    Door Tanya op 28 maart 2016

    Hey. Dit hebben we al een paar keer geprobeerd, maar er veranderd niets bij data view en de cellen blijven leeg. Wat kan hier de oorzaak van zijn?


    Door Luuk Tubbing op 29 maart 2016

    Hey Tanya, dat durf ik niet te zeggen op afstand. Mvg, Luuk


    Door Gill op 2 april 2016

    Beste, Ik doe een onderzoek die peilt naar het zoekgedrag van werklozen over een periode van 5 weken. Elke week moeten de respondenten dezelfde weekvragenlijst invullen over de organisatie waar ze de laatste week gesolliciteerd hebben. Het spreekt voor zich dat sommige respondenten niet zullen solliciteren in die week en dus ook die vragen niet hoeven te beantwoorden. Al die cellen blijven dus leeg en dit verschijnt ook zo in SPSS. Hoe raadt u mij aan om hier mee rekening te houden aangezien mijn onderzoek uitgaan van een within subject design.


    Door Luuk Tubbing op 4 april 2016

    Dat hangt van het onderzoeksdoel en of je non-respons gelijk kunt stellen aan niet solliciteren. Ik zie in ieder geval twee stappen: (1) wel/niet gesolliciteerd en (2) antwoord op vragen. De lege velden zou ik niet als missing values behandelen, omdat het (per week) om een andere deelpopulatie gaat (wél gesolliciteerd).


    Door Rowan op 7 april 2016

    Hoi Luuk,

    Ik doe onderzoek naar factoren die de koopintentie van consumenten en prospects beïnvloeden op dag-deal websites zoals Social Deal. In mijn online enquête heb ik onderscheid gemaakt tussen consumenten en prospects, waardoor consumenten andere vragen te zien krijgen als prospects, en andersom. Met andere woorden; deze vragen zijn dus logisch ‘gerout’ en het gaat totaal over 5 vragen die gerout zijn. De overige vragen over de factoren zijn wel hetzelfde voor consumenten en prospects.
    Nu heb ik in SPSS in ‘Variable View’ bij de geroute vragen dus soms lege vakjes. Is het voldoende om in Variable View bij die lege vakjes overal een 99 invullen, zodat SPSS ‘snapt’ dat bij die vragen – afhankelijk of je consument of prospect bent – soms niks in hoeft te worden gevuld?

    Alvast bedankt!


    Door Rowan op 7 april 2016

    Sorry, in dit onderstaande stuk bedoelde ik met Variable view Data view!

    Nu heb ik in SPSS in ‘Variable View’ bij de geroute vragen dus soms lege vakjes. Is het voldoende om in Variable View bij die lege vakjes overal een 99 invullen, zodat SPSS ‘snapt’ dat bij die vragen – afhankelijk of je consument of prospect bent – soms niks in hoeft te worden gevuld?


    Door Luuk Tubbing op 8 april 2016

    Hoi Rowan, bedankt voor je vraag. Interessant onderzoek trouwens 🙂 Zoals in bovenstaande artikel beschreven, kun je in de Variable View aangeven welke waarde/codering een missing value (een lege cel in de Data View) krijgt, zodat je dit niet handmatig hoeft in te voeren. Je kiest dan voor de optie Discrete missing values en voert het gewenste getal in (zie bovenstaande instructie). Is dat een antwoord op jouw vraag? Groetjes, Luuk


    Door Iris op 22 april 2016

    Beste Luuk,
    Voor mijn masterscriptie doe ik onderzoek naar de taalontwikkeling van jonge kinderen. Deze is op drie leeftijden gemeten, wat zorgt voor longitudinale data. Nou is er van een aantal participanten data van alle drie de meetmomenten, maar sommigen hebben alleen nog maar meegedaan aan het eerste meetmoment (omdat ze nog niet oud genoeg zijn voor de volgende meetmomenten). Van hen is er dus nog geen data op het 2e en 3e moment, maar die komt in de toekomst wel (niet meer tijdens mijn scriptie).
    Moet ik deze data die nog niet verzameld is, wel allemaal markeren als missings (999)? Of kan ik deze cellen dan gewoon leeg laten?
    Alvast bedankt!


    Door Luuk Tubbing op 22 april 2016

    Beste Iris, je kunt als inclusiecriterium stellen dat er per kind drie meetmomenten beschikbaar moeten zijn. Dan zijn de ontbrekende waarden geen missing values meer (de meting moet immers nog plaatsvinden), maar data die buiten de scope van jouw onderzoek valt. De incomplete regels kun je dan uit je dataset verwijderen. Wel zul je helder moeten hebben of je dan niet het risico loopt om echte missing values (bijv. kinderen die niet kwamen opdagen voor een meting) verwijderd, als die niet apart zijn gecodeerd. Als dit risico bestaat, dan wel in je scriptie vermelden, bijv. in het discussiehoofdstuk. Helpt dit antwoord jou verder?
    Groet, Luuk


    Door Sophie op 22 april 2016

    Thanks voor de top uitleg. Ik heb al mijn missing aangepast in mijn data en dat ging goed. Maar ik heb nu in totaal 161 respondenten en bij een bepaalde vraag mis ik 2 antwoorden, dus 2 respondenten. Nu wil ik een tabel maken zodat n=159 100%, maar dit krijg ik niet voor elkaar. Ik krijg gewoon n=159 en dat is bijv. bij elkaar 98%. Hoe zorg ik er voor dat de missing niet wordt meegerekend en dat n=159 100% wordt?


    Door Luuk Tubbing op 3 mei 2016

    Hoi Sophie, jouw reactie had ik over het hoofd gezien. Is jouw probleem nog actueel?


    Door Sanne op 3 mei 2016

    Hoi, ik heb een vraag. Ik wil graag een missing value toevoegen (namelijk 0, dit staat voor n.v.t.) voor alle vragen in mijn vragenlijst. Moet dit per vraag gedaan worden of is er ook een snellere manier? Anders ben ik echt heel lang bezig.
    Groetjes, Sanne


    Door Luuk Tubbing op 3 mei 2016

    Dat durf ik niet te zeggen, want ik weet niet hoe jouw dataset eruit ziet. Bedoel je dat je per vraag een kolom gaat toevoegen met n.v.t.? Zo ja, dan kun je de velden in deze kolom leeg laten en een vaste waarde geven door ze als missing value te definiëren.


    Door Suzanne op 3 mei 2016

    Beste Luuk,
    Ik heb bij variable view de missings nu gedefinieerd als 99, echter staan ze in data view nog gewoon als lege cel. Neemt SPSS deze missings automatisch goed mee?


    Door Luuk Tubbing op 3 mei 2016

    Beste Suzanne, op afstand durf ik niet te zeggen waar dat aan ligt. Als je bovenstaande procedure volgt gaat dat verder automatisch ja.


    Door Brecht op 8 mei 2016

    Beste Luuk,
    Voor mijn masterproef doe ik onderzoek naar genderverschillen en jobtevredenheid bij bedienden tussen de 30 en 45 jaar. Mijn eerste twee vragen in mijn enquete waren “bevindt u zich tussen de 30 en 45 jaar?” en “Bent u bedende?”. Wanneer de respondenten “nee” antwoorden, worden ze direct naar het einde van de enquete gestuurd.
    Nu ben ik bezig aan de analyse van mijn data. De “nee” antwoorden op de vragen zijn dus missing values. Maar hoe moet ik hiermee omgaan? Want als ik bij discrete missing value ‘2’ ingeef, veranderd er niet aan mijn data view en staan deze er nog steeds tussen.
    Of kan ik deze zelf verwijderen uit de data view? Want van deze respondenten is er geen data omdat ze niet voldeden aan de criteria, dus zijn verwaarloosbaar.
    Alvast bedankt!


    Door Luuk Tubbing op 9 mei 2016

    Beste Brecht, bedankt voor je vraag. De “nee” antwoorden zijn geen missing values (valt buiten de onderzoekspopulatie) en kun je inderdaad zelf verwijderen. Succes!


    Door Laura op 13 mei 2016

    Hoi!
    Ik doe voor mijn sctiptie een patienttevredenheidsonderzoek in een ziekenhuis door middel van een vragenlijst met gesloten vragen, nu hebben patienten sommige vragen niet ingevuld.
    Als ik wat u heeft uitgelegd ga toepassen in SPSS worden dan alleen de lege hokjes(niet ingevulde antwoorden) niet meegenomen bij de analyses of worden dan alle antwoorden die de persoon heeft gegeven bij de vragenlijst niet meegenomen?
    Een andere site heeft het namelijk over Listwise deletion of missing values en Pairwise deletion of missing values.
    Het is namelijk de bedoeling dat alleen de lege hokjes niet moeten worden meegenomen in de analyses maar wel de rest van de antwoorden die de patient heeft gegeven.

    Met vriendelijke groet,
    Laura


    Door Luuk Tubbing op 15 mei 2016

    Hoi Laura, bedankt voor jouw vraag. Bovenstaande artikel gaat over het coderen van missing values. Het pairwise dan wel listwise excluderen van missing values kun je aangeven in het optiemenu bij de betreffende analyse> Dat ziet er ongeveer zo uit: http://phantichspss.com/wp-content/uploads/2015/09/list11.jpg
    In jouw geval is pairwise van toepassing. Groet, Luuk


    Door Dané op 25 mei 2016

    Beste Luuk,
    Voor mijn scriptie doe ik onderzoek naar het eetgedrag van adolescenten in een klas en de invloed van het eetgedrag van populaire leeftijdgenoten daarop. Om te bepalen wat voor eetgedrag adolescenten hebben zijn er meerdere food frequency vragen afgenomen (hoe vaak je in een week fruit / groente / snoep etc.) deze vraag is op een 7 punts Likert schaal beantwoord die loopt van 1 (nooit) t/m 7 (iedere dag meerdere keren). Nu zijn er een aantal respondenten die deze vraag niet hebben ingevuld en dus geen waarde hebben in SPSS. Moet in deze respondenten als missing behalen? En als dat zo is hoe moet ik dat doen, want deze mensen hebben geen waarden?


    Door Luuk Tubbing op 25 mei 2016

    Beste Dané, als het wel de bedoeling was dat deze vraag werd ingevuld dan zijn dat inderdaad missing values (tip voor de volgende keer: maak vragen verplicht), maar je hoeft niet telkens de hele respondent weg te gooien. Een stappenplan:
    – Je vult eerst de lege velden in met een getal. Dat gaat als volgt: ga naar Transform – Recode into Same Variables; alle variabelen naar rechts; vink System or User-Missing aan; voer rechts een waarde in (bijv. 0 of 99) en voeg deze toe.
    – Codeer de missing values naar het gekozen getal (zoals in t artikel beschreven, met discrete missing values)
    – Bij de analyses kies je voor exclude cases pairwise.
    Kom je verder met dit antwoord? Succes! Groetjes, Luuk


    Door Emma op 31 mei 2016

    Hoi Luuk, ik ben bezig met een onderzoek en daarbij heb ik 1 vragenlijst gebruikt voor twee verschillende groepen. Ik ben begonnen met een aantal algemene vragen en daarna is vraag gesteld of de respondent “A” of “B” is. Daarna werd deze naar de goede vragenlijst doorgestuurd. Hierdoor heb ik dus een gedeelte dat voor iedereen is ingevuld (het begin) en daarna een gedeelte alleen door A/B. Hoe moet ik hier omgaan met de missing values? De aparte vragenlijsten zijn overigens wel gespiegeld voor A/B. Dezelfde vragen werden gesteld alleen bekijkt A het uit een ander perspectief dan B. De lengte voor de individuele vragenlijst is dus ook even lang.


    Door Luuk Tubbing op 31 mei 2016

    Hoi Emma, dat hangt er helemaal vanaf welke analyses je gaat doen. Als je de twee groepen statistisch met elkaar gaat vergelijken is het handig om dezelfde vragen van beiden groepen naast elkaar te hebben (onder dezelfde variabele/kolom). In dat geval raad ik je aan om eerst in Excel dezelfde vragen/variabelen van beide groepen naast elkaar te zetten voordat je deze in SPSS importeert. Als je de twee groepen apart gaat analyseren zou ik twee aparte datasets maken. Dan heb je sowieso geen missing values, want dan kun je de niet-ingevulde vragen (kolommen) helemaal weglaten. Het coderen van missing values is dus te vermijden. Is dit een antwoord op jouw vraag?


    Door Emma op 2 juni 2016

    Hoi Luuk, bedankt voor je reactie ik kan hier zeker wat mee! Alleen is mijn vraag nu; hoe moet ik deze dan coderen? Hoe splits ik de ene groep van de andere groep? Deze twee groepen staan namelijk helemaal door elkaar. Het is dus niet zo dat 1 t/m 50 groep A is en 51 t/m100 groep B. Hoe zou ik deze twee van elkaar kunnen splitsen dat ik twee datasets heb?
    Of hoe zou ik het via excel aan kunnen pakken?


    Door Luuk Tubbing op 2 juni 2016

    Hoi Emma, graag gedaan. In Excel kun je met de filter een van de kolommen sorteren die de twee groepen onderscheidt. Dus één van de vragen die de ene groep wel en de andere groep niet heeft ingevuld, zodat de lege cellen boven- of onderaan komen en daarmee de groepen worden gescheiden. Is het idee helder? Als je technisch niet weet hoe Excel werkt is het handiger om dit even te Googelen dan dat ik hier een heel Excel handboek ga schrijven 😉


    Door Ema op 2 juni 2016

    Hoi Luuk, bedankt voor deze tip! Ik ga even uitzoeken in excel hoe ik het kan filteren. Bedankt voor de hulp!


    Door Danya op 16 juni 2016

    Hallo Luuk,
    Ik ben momenteel bezig met data in spss waarbij er geen missing values zijn maar ik toch in de output van een frequentieverdeling missing system zie staan. Ik heb de reacties in surveymonkey nogmaals gecheckt maar daar staan geen missings in (had voor versturen enquete ook de optie dat het niet mogelijk is een antwoord over te slaan aangevinkt) Hoe kan het dat dit nu wel in mijn spss output staat? Moet ik dit negeren en alleen kijken naar percent ipv valid percent?

    Groeten,
    Danya


    Door Luuk Tubbing op 17 juni 2016

    Hallo Danya, dat kan ik op afstand niet beoordelen aangezien ik niet weet welke handelingen je hebt uitgevoerd en hoe jouw dataset eruit ziet. Groeten, Luuk


    Door Marlous op 21 juni 2016

    Hoi Luuk,
    Ook ik ben momenteel bezig met mijn masterscriptie. Ik heb mijn missing values gecodeerd als ’99’. Nu heb ik van de verschillende items (47 items), 5 variabelen gemaakt door middel van een meanscore. Echter, als ik kijk naar de meanscore per respondent berekent spss ook een meansscore voor de gene die een missing value hebben. Bijvoorbeeld een variabele bestaat uit 10 items en een respondent mist 2 items, dan berekent spss wel een meansore voor deze respondent over de 8 overige items.
    Ik ga een logistische regressie uitvoeren. Neemt spss dan de meanscores mee van de respondenten die missingvalues hebben? En dus een meanscore hebben met minder items? Het is toch de bedoeling dat spss deze respondenten niet meeneemt in de analyze?
    Want bij een logistische regressie kan je niet kiezen voor pair/listwise verwijderen?
    Ik hoop dat je mij kunt helpen 🙂

    Dankjewel,
    Groeten Marlous


    Door Luuk Tubbing op 21 juni 2016

    Hoi Marlous,
    Bedankt voor je vraag. Bij logistische regressie worden alle cases met missing values als listwise behandeld, hetgeen
    betekent dat ze niet worden meegenomen in de analyse. Het is niet mogelijk om een pairwise analyse te doen (wel in de syntax editor met het commando ‘/MISSING=INCLUDE’). Helder?
    Groeten,
    Luuk


    Door Marlous op 21 juni 2016

    Hoi Luuk,
    Bedankt voor je snelle antwoord. Klopt het dat spss wél een meanscore berekent voor de respondenten met missing values? Maar deze uiteindelijke score wordt dus NIET meegenomen in de logistische regressie?
    Groeten Marlous


    Door Luuk Tubbing op 21 juni 2016

    Hoi Marlous, antwoord op jouw tweede vraag is ja. Antwoord op jouw eerste vraag: ik weet niet precies waar je op doelt en waarom deze vraag relevant is, misschien omdat het lang geleden is dat ik voor het laatst logistische regressie heb gedaan. Gr, Luuk


    Door Dimri op 7 juli 2016

    Beste Luuk,

    Het verhaal over de missing values is voor mij duidelijk na het lezen van bovenstaand artikel. Voor mij is het wel onduidelijk over welke value ik moet geven aan het cijfer 0. Ik heb als voorbeeld een vraag: Wat is/zijn de voornaamste reden(en) voor het gebruik van een hartslagmeter. Deze vraag bestaat uit meerkeuze antwoorden. Als een respondent heeft gekozen voor: Het meten van het omslagpunt, staat deze met 1 aangegeven. Dit is duidelijk dat ik deze de naam moet geven van het meten van het omslagpunt. Als de respondent niet voor dit antwoordt heeft gekozen staat er een: 0. Moet ik deze 0 benoemen bij value? Of is dit niet nodig?


    Door Luuk Tubbing op 7 juli 2016

    Beste Dimri,
    Als ik het goed begrijp heb je dus ja/nee-vragen of checklistvragen? Dan zeg ik: ja = 1, nee = 0. De specifieke duiding van de getallen (buiten missing values) is vaak niet van wezenlijk belang om de analyse goed uit te kunnen voeren, maar wel voor de presentatie van de resultaten. Begrijpen we elkaar? Groeten, Luuk


    Door Dimri op 7 juli 2016

    Ik bedoelde meer dat ik een meerkeuze vraag heb. In één kolom staat dan 1 keuze antwoordt: bijvoorbeeld het meten van het omslagpunt staat dan als 1 als iemand deze heeft geselecteerd. Als iemand een andere meerkeuze antwoordt heeft geselecteerd staat in een ander kolom bij bijvoorbeeld looptechniek een 1. Als de respondent het omslagpunt niet meet staat in die kolom een 0 maar de respondent wel de looptechniek analyseren dan staat er in een nieuwe kolom een 1. Beetje lastig uit te leggen maar hoop dat het duidelijk is. Moeten deze 0 dus ook benoemd worden? Want dit is eigenlijk wat een respondent niet heeft aangevinkt bij de meerkeuzevraag in de enquete


    Door Luuk Tubbing op 7 juli 2016

    Ok, het zijn dus meerkeuzevragen, maar de antwoorden zijn wel binair (ja/nee) gecodeerd? Idealiter (maar ik weet niet welke analyses je gaat doen) heeft elke keuze een eigen nummer (1= omslagpunt, 2= looptechniek, etc.), omdat de vragen afhankelijk zijn van elkaar (je kunt maar één antwoord kiezen). Dan heb je maar één kolom per vraag met één getal per rij, i.p.v. per vraag een rij met een verzameling van enen en nullen. Hoe dan ook is het handig om alle keuzemogelijkheden te coderen. Is dat een antwoord op jouw vraag?


    Door Milou op 12 juli 2016

    Beste Luuk,

    Een korte vraag over missing data: ik heb in mijn thesis bij ongeveer 0% van alle respondenten missing data. Alle missing data is veroorzaakt omdat respondenten halverwege de lijst gestopt zijn met invullen (mijn enquête was behoorlijk lang). Moet ik hun antwoorden meenemen of hun antwoorden weggooien? Of misschien iets anders?

    Nb. De data die mist zijn de onafhankelijke variabelen.

    Alvast bedankt!


    Door Milou op 12 juli 2016

    Ik bedoelde 9% haha


    Door Luuk Tubbing op 12 juli 2016

    Beste Milou,

    Dat hangt deels af van de vraagstelling van jouw onderzoek, maar in principe is het niet wenselijk om half ingevulde enquêtes in je analyse mee te nemen, zeker wanneer dat betekent dat je bepaalde relaties (tussen afhankelijke en onafhankelijke variabelen) niet meer kunt leggen voor een deel van de respondenten. Een interessante vraag is altijd: hebben de afgehaakte respondenten andere eigenschappen dan de respondenten die de enquête hebben afgerond.

    Anyway, welke keuze je ook maakt, je zult dit goed moeten onderbouwen in je scriptie en helder moeten zijn over de afwegingen en beperkingen.

    Kom je hier verder mee?

    Groeten,

    Luuk


    Door Jennifer op 13 juli 2016

    Hoi! Ik heb een vraag en ik hoop dat je me kunt helpen. Ik heb van 510 participanten de mate van angst gemeten (baseline) en na 2 jaar weer (follow-up). Nu zijn er in de tussentijd 109 participanten uitgevallen en nu moet ik kijken of deze groep selectief is, ik denk door middel van een Independent samples t-test. Van de follow-up heb ik vd uitvallers natuurlijk geen data, dus ik neem aan dat ik de data van de baseline hiervoor moet gebruiken en die 109 participanten af moet zetten tegen de overige 401 participanten(?). Maar, bij de t-test moet je dus een grouping variable invullen maar ik weet niet hoe ik deze groep moet maken zodat ik de test uit kan voeren. Heb jij hier een idee over? Alvast bedankt voor het meedenken!



    Door MO op 27 juli 2016

    Hoihoi!

    Ik heb een vraagje, ik heb 403 respondenten die mijn enquete hebben ingevuld en niet iedereen heeft alle vragen ingevuld. Hoe zit dat met het beschrijven van de resultaten? Moet je dan bij elke vraag zeggen hoeveel mensen de vraag hebben ingevuld en hoeveel procent daarvan een bepaald antwoord heeft gegegeven? Of kun je gewoon zeggen, van de 403 respondenten zegt …. % van hen het volgende:… Of moet je dan zeggen van : op deze vraag hebben 396 respondenten gereageerd, hieruit blijkt dat …% van hen het volgende vindt:….. Dankjewel alvast voor je hulp!!:D


    Door Luuk Tubbing op 29 juli 2016

    Hoi, het belangrijkste is dat je transparant bent over de response, mogelijke oorzaken van non-response en de gevolgen hiervan voor de validiteit van je conclusies (laatste twee punten bespreek je in de discussie). De volgorde is minder belangrijk. Kom je hier verder mee?


    Door Rachana op 30 juli 2016

    Hoi Luuk,

    In mijn onderzoek hebben enkele respondenten mijns inziens teveel vragen niet ingevuld. Ik wil enkel de patienten die minder dan 4 missende waarden hebben meenemen in de analyse. Is er een manier om dit te ontwerpen in SPSS?

    Alvast bedankt voor je hulp!

    Groetjes Rachana


    Door Rachana op 30 juli 2016

    Nog een aanvulling: ik wil deze patienten (nog) niet uit mijn dataset gooien. Zat zelf te denken om dit te doen d.m.v. ‘select cases’, maar dat betekent dat je een nieuwe variabele zou moeten aanmaken met 1=4 missing. Ik weet echter niet of dit kan en hoe ik dat moet doen.

    Ik hoop dat mijn vraag zo duidelijk is!


    Door Luuk Tubbing op 1 augustus 2016

    Hoi Rachana, bedankt voor jouw vraag. Een mogelijkheid om hier automatisch op te filteren met SPSS is mij niet bekend (lees: die heb ik nooit gebruikt). Zelf gebruik ik MS Excel (vooral de ‘IF’ functie: https://support.office.com/en-us/article/IF-function-69aed7c9-4e8a-4755-a9bc-aa8bbff73be2) om de datasets voor te bewerken. Uiteindelijk zul je dan inderdaad je nieuwe variabele moeten aanmaken. Een variabele aanmaken gaat als volgt: https://deafstudeerconsultant.nl/statistiek-met-spss/de-spss-omgeving/een-numerieke-variabele-creeren-met-spss/. Kom je hier verder mee? Groeten, Luuk


    Door Stijn op 21 november 2016

    Hallo,

    Ik ben bezig met een enquête. Mijn vraag is hoe ik de data verwerk van respondenten die een vraag hebben overgeslagen. In mijn enquête komt er namelijk bij een vraag (5) voor dat je bij “nee” naar vraag 7 moet gaan en dus vraag 6 overslaat. Bij deze respondenten staat er bij 6 dus niets. Hoe kan ik dit het beste verwerken?
    Ik hoop dat mijn vraag een beetje duidelijk is.

    Alvast bedankt,

    Stijn


    Door Luuk Tubbing op 22 november 2016

    Hallo Stijn,
    Goede vraag. In feite zijn er geen missing values, want het gaat om twee verschillende groepen (groep “ja” en groep “nee”) en dus twee verschillende (sub)datasets.
    Groeten,
    Luuk


    Door Madelon op 2 december 2016

    Ik heb vraag 8 en vraag 8a. En vraag 8a hoef je alleen in te vullen als je vraag 8 met ”ja” hebt beantwoord. Vraag 8a wordt dus soms niet ingevuld, omdat een persoon bij vraag 8 ”nee” heeft ingevuld, maar moet ik dan alle niet ingevulde vragen van 8a met -99 invoeren. Of moet ik het anders in SPSS zetten?


    Door Luuk Tubbing op 2 december 2016

    Dag Madelon,
    Als het een groep blijft wel, maar als je met deze vraag een tweedeling wilt maken, dan krijg je twee verschillende datasets en is er geen sprake van missing values.
    Groeten,
    Luuk


    Door Maartje op 5 december 2016

    Hallo! Voor mijn onderzoek moeten kinderen een vragenlijst invullen over uitstelgedrag, alleen zijn er bij veel respondenten missing values, doordat vragen niet zijn ingevuld. Kan ik dan beter de respondenten eruit halen of alleen de ingevulde waardes meenemen? Of ligt dat aan het aantal missings?

    Groetjes,
    Maartje


    Door Luuk Tubbing op 5 december 2016

    Hallo Maartje, bedankt voor je vraag. Dat hangt inderdaad af van het aantal missing values, maar ook van de mogelijke reden van niet invullen en de homogeniteit van de groep. Het kan zijn dat degenen die vragen hebben overgeslagen bijv. typische ‘uitstellers’ zijn, waardoor je een vertekent beeld krijgt.
    Groetjes,
    Luuk


    Door Marèl op 21 december 2016

    Hoi Luuk,

    In onze opdracht moeten wij een logistic regression uitvoeren. Hierbij moeten wij de missing values buiten beschouwing houden. Waar moet je dit aangeven in SPSS?

    Groeten,
    Marèl


    Door Luuk Tubbing op 22 december 2016

    Beste Marel, zoals hierboven beschreven: een aparte code toekennen aan de missing values. Of bedoel je dat niet met buiten beschouwing laten?


    Door Elvir op 16 januari 2017

    Hoi Luuk,

    Voor mijn onderzoek analyseer ik het doorlopende klanttevredenheidsonderzoek. Dit onderzoek richt zich op de gasten van de organisatie. Over een periode van 4 maanden hebben de gasten online 2600 enquêtes ingevuld. Mijn onderzoek richt zich op het schoonmaak aspect. Van deze 2600 ingevulde enquêtes geeft geeft 720 respondenten aan dat ze ontevreden zijn over schoonmaak. Echter kunnen ook de tevreden gasten een reden geven waaraan schoonmaak tekort schiet bij de organisatie te denken valt aan vieze vloeren.

    Mijn vraag is hoe ik dit moet interpreteren?


    Door Luuk Tubbing op 17 januari 2017

    Hoi Elvir, bedankt voor je vraag. Hoe je dat moet interpreteren hangt ervan af wat jouw onderzoeksvraag is. Als je (ook) geïnteresseerd bent in de relatie tussen algehele tevredenheid en tevredenheid over het schoonmaakaspect, dan is dit relevante informatie. Als je alleen in het schoonmaakaspect geïnteresseerd bent dan kun je de rest negeren. Is dit een antwoord op jouw vraag?
    Groeten,
    Luuk


    Door Elvir op 17 januari 2017

    Hoi Luuk,
    Ik vermoed dat ik iets niet heb vermeld of verkeerd heb verwoord. Enkel de ontevreden gasten kunnen reden aangeven waarom ze ontevreden zijn over het schoonmaakaspect. Dit zijn respondenten die het schoonmaakaspect met tussen 1-6 hebben beoordeeld (beoordelingscijfer). Dit houdt in dat iemand die een 7 heeft geggeevn, geen vervolgvraag krijgt. Ik vermoed echter dat diegene toch een bepaalde mening en of knelpunt ondervindt. (mijn onderzoek gaat over knelpunten in kaart brengen). Mijn vraag is of dit representatief is en of ik dit moet onderbouwen in de discussie hoofdstuk of conclusie hoofdstuk?

    Groet,


    Door Luuk Tubbing op 17 januari 2017

    Hoi Elvir,
    Dat is dan een beperking van de verzamelde data. Inderdaad goed om te bespreken in het discussiehoofdstuk van je scriptie. Het blijft speculeren of de groep die een 7 of hoger heeft gegeven klachten hebben ondervonden over de schoonmaak en wat het verschil is met de ‘1-6 groep’. Daar kun je in het discussiehoofdstuk ook op ingaan als je daar goede onderbouwing voor hebt. Is dit een antwoord op jouw vraag?
    Groeten,
    Luuk


    Door richard op 28 januari 2017

    Hoi Luuk,

    504 respondenten hebben de eerste 4 vragen beantwoord (demografische gegevens). Vervolgens hebben 466 respondenten (missing 38) de vragen over hun motivatie ingevuld. Daarna hebben 435 (69) respondenten de rest van de vragen ingevuld. Het aantal dat de totale vragenlijst heeft ingevuld is dus 435.

    Welke aantallen pak je nu wanneer je de respons (demografische gegevens) beschrijft? Pak je dan die 504 respondenten of de 435 respondenten die de totale vragenlijst hebben ingevuld?

    Ik ben benieuwd!

    Groeten,
    Richard


    Door Luuk Tubbing op 28 januari 2017

    Hoi Richard,
    Goede vraag! Het is zeker relevant om ook de demografische gegevens van de ‘afvallers’ te analyseren, zodat je evt verschillen met de respondenten kunt ontdekken. Als respons neem je het aantal respondenten dat de door jou beoogde vragen heeft ingevuld. Als het complex wordt kun je ook een tabelletje maken waarin je gefaseerd het aantal respondenten weergeeft, zodat direct helder is waar de ‘afvallers’ zitten. Helder? Succes met je verdere analyse!
    Groeten,
    Luuk


    Door Richard op 28 januari 2017

    Hoi Luuk,
    Bedankt voor je snelle antwoord. Hier kan ik zeker wat mee.
    Groetjes,
    Richard


    Door Esther op 20 februari 2017

    Ik doe een studie naar migraine en wittestofafwijkingen. Ik heb bij zowel de controlegroep als de migrainegroep gekeken naar het wel of niet aanwezig zijn van cardiovasculaire risicofactoren, echter heb ik vrij veel missing values. Is het dan handig om het percentage en het aantal mensen van bijvoorbeeld het wel hebben van diabetes in de groep met bekende data aan te geven en dan in de discussie te spreken over dat er vrij veel missing values waren?

    Alvast bedankt voor uw reactie.


    Door Luuk Tubbing op 20 februari 2017

    Hoi Esther, de aantallen/percentages in het resultatenhoofdstuk, nog zonder duiding. Bespreking van de invloed van non-respons/missing values op de resultaten in het discussiehoofdstuk. Helder?
    Groeten,
    Luuk


    Door Renske op 22 februari 2017

    Beste Luuk,

    Ik ben aan mijn scriptie aan het schrijven en loop vast op een bepaalde variabele. Van 12 verschillende items wil ik een somscore maken. Alle 12 de items worden gescoord op een Likert-schaal van 1 tot 6. Nu is het zo dat in mijn data-set sommige scores niet goed zijn ingevoerd. Zo staan er scores met allerlei decimalen tussen (bijv 1.38 of 4.45). Deze wil ik dus niet meenemen als ik de somscore ga maken.

    Ik wil deze afwijkende scores omzetten in missings, zodat ik die gemakkelijk kan excluderen bij het maken van de somscores en andere analyses. Ten eerste, is dit handig? En ten tweede, hoe kan ik dit doen?


    Door Luuk Tubbing op 23 februari 2017

    Beste Renske,
    Als het niet al te veel verschillende getallen zijn kun je deze handmatig coderen als missing variable, zoals in bovenstaande artikel beschreven. Ik ben zelf niet bekend met een methode in SPSS om regels (bijv. ‘maak van alle getallen met decimaal een missing variable’) voor exclusie of missing variables toe te passen. Daar gebruik ik zelf Excel of SQL voor. Succes Renske!
    Groeten,
    Luuk


    Door Roos op 3 mei 2017

    Hoi Luuk,

    Fijn en duidelijk artikel. Hoe ik de missende waarde kan opgeven via het menu begrijp ik nu. Maar is het ook mogelijk om dit via de syntax te doen? De syntax die ik gebruik moet vaak door verschillende mensen worden gebruikt. En elke keer het enorme databestand meesturen is geen optie. Ik hoop dat jij een idee hebt.

    Mvg,
    Roos


    Door Luuk Tubbing op 7 mei 2017

    Hoi Roos,
    Daar kan ik je helaas niet mee verder helpen. SPSS is een veelgebruikte tool, dus ik denk dat Google je wel verder kan helpen. Succes!
    Mvg,
    Luuk


    Door Eva op 7 mei 2017

    Hallo Luuk, ik heb een vraag over het verwerken van missings in een tabel, want ik neem aan dat je deze niet zomaar achterwege kan laten. Ik heb 94 dossiers onderzocht en bij een bepaalde vraag zijn er twee missings en voor de andere 92 dossiers geldt allemaal het zelfde antwoord namelijk JA. Bij Valid Percent staat 100%. Ik heb geleerd dat je altijd naar Valid Percent moet kijken. Maar dat zijn niet de 94 dossiers maar 92. Zet je dan bovenaan de tabel (n=94) en in de tabel JA – 100% (92)
    en verklaar je dan het verschil van 2 in de begeleidende tekst? Ik hoop dat mijn vraag zo duidelijk is. Alvast heel erg bedankt.

    Vriendelijke groeten,

    Eva


    Door Luuk Tubbing op 8 mei 2017

    Hallo Eva,
    Bedankt voor je vraag. Ik begrijp de vraag echter niet helemaal en in vermoed dat ik voor het antwoord meer informatie nodig heb, zoals wat het doel is van de tabel waar je het over hebt en wat het belang is van de variabele waar de missing values zitten.
    Vriendelijke groeten,
    Luuk


    Door Eva op 19 mei 2017

    Ik heb bijvoorbeeld 5 sessies en daarin moesten de kinderen een test doen. Een aantal kinderen hebben niet alle sessies bijgewoond en deze wil er er graag uit hebben. Ik wil alleen de kinderen meenemen die minstens vier sessies hebben bijgewoond.


    Door Eva op 19 mei 2017

    Hallo, ik heb een vraagje hoe je missende waardes uit je analyses kan halen. Ik doe een onderzoek naar agressie bij kinderen. De training bestond uit 5 sessies. Ik wil graag alleen kinderen meenemen in de analyse die minstens 5 sessies hebben bijgewoond. Nu komt uit elke sessie ook weer data van een voormeting, trainingsmeting en nameting. Hoe kan ik dit in SPSS het beste de betreffende personen verwijderen (of als missing erin zetten)?


    Door Luuk Tubbing op 20 mei 2017

    Hallo Eva, daar zijn allerlei manieren voor. Je kunt bijvoorbeeld missing values van de cases die je wel wilt meenemen met een ander getal coderen dan de missing values van de cases die je niet wilt meenemen. Daar kun je dan je selectie op maken met de bovenstaande artikel beschreven methode. Helder Eva? Succes!


    Door Judith op 23 mei 2017

    Hallo,
    Als je missende waardes hebt op je afhankelijke variabele, kan je de deelnemers dan net zo goed verwijderen of niet? Ik hoor het graag, alvast bedankt voor de hulp.
    Groeten,
    Judith


    Door Luuk Tubbing op 24 mei 2017

    Hallo Judith, klopt. Deze deelnemers als non-response meetellen.
    Groeten,
    Luuk


    Door Rob op 16 juni 2017

    Hoi Luuk, ik heb een vraag over missing values i.c.m. een binary logistic regression. Is het mogelijk om aan missing values een waarde te hangen (die verder niet in de dataset voorkomt) zonder deze in de Variable View aan te geven als missing value? Of beinvloedt dit de resultaten van de andere values? Wanneer ik de missing value namelijk wel aangeef, krijg ik een foutmelding in de output. Alvast bedankt! Groeten, Rob


    Door Luuk Tubbing op 16 juni 2017

    Hoi Rob,
    Het is zeker mogelijk om aan missing values een waarde te hangen (zie uitleg in bovenstaande artikel). Dit zal de resultaten van de andere values niet mogen beinvloeden. Ik kan zo niet beoordelen waarom (en welke) foutmelding je krijgt.
    Succes Rob!
    Groeten, Luuk

    Plaats een reactie


    *