Statistiek: verschillen en verbanden zoeken tussen variabelen

In het rekenblad Excel2013 | Excel2016 | Excel2019 | Excel2021 kun je mooi statistieken zichtbaar maken. Je kunt Excel ook gebruiken om statistische variabelen te vergelijken en te zoeken naar verbanden ertussen. Bij dit practicum hoort het rekenblad

 

XL13icoon.jpg Gegevens 154 leerlingen

 

Dat moet je eerst downloaden en via "Opslaan als..." opslaan onder een eigen naam als Stat[..].xlsx, waarbij [..] je eigen naam is.

 

Het is wel van belang dat je met diagrammen, centrummaten en spreidingsmaten in Excel kunt werken. Als je dat niet beheerst, doe dan eerst het practicum "Statistisch onderzoek: data presenteren en vergelijken".

 

Inhoud:

Een kruistabel maken

Open jouw bestand Stat[...].xlsx.
Je wilt kijken naar een eventuele relatie tussen de statistische variabelen wisgroep (de gekozen soort wiskunde, A of B) en geslacht (jongen of meisje) met behulp van een kruistabel, in Excel heet dit een draaitabel. In zo'n kruistabel zet je bijvoorbeeld horizontaal de soort wiskunde, dus wisgroep uit en verticaal het geslacht. Je wilt dan zien hoeveel personen van welk geslacht een bepaalde soort wiskunde hebben gekozen.

 

    • Maak een nieuw werkblad waarin alleen deze variabelen voorkomen. Noem het bijvoorbeeld “ABvsJM”.
    • Klik ergens in de dataset, bijvoorbeeld op cel C11. Kies nu bij “Invoegen” helemaal links voor “Draaitabel”. Je krijgt dit dialoogvenster.


XL13draaitabel1.jpg

    • Je ziet dat de hele tabel is geselecteerd, dat de kruistabel in het bestaande werkblad terecht komt (moet je misschien nog even instellen), te beginnen bij cel F3. Klik [OK] en je krijgt de mogelijkheid om je draaitabel te maken m.b.v. het venster "Draaitabelvelden".
    • Je gebruikt nu de velden "wisgroep" en "geslacht". Je versleept "wisgroep" naar het vakje RIJEN en "geslacht" naar het vakje KOLOMMEN. Je ziet nu een tabel waarin niet de goede waarden zitten. Je wilt dat bij WAARDEN de aantallen van "geslacht" komen, sleep die variabele naar de kolom WAARDEN.

XL13draaitabel2.jpg

  • Het vakje WAARDEN staat standaard ingesteld op Σ en dat betekent "som", dus alle nullen en énen worden opgeteld. En dat wil je niet, je wilt zien hoeveel nullen en énen er zijn. Dus klik je in het vakje WAARDEN op "Som van geslacht" en kies je "Waardeveldinstellingen". Die zet je i.p.v. op "Som" liever op "Aantal". Na [OK] krijg je de draaitabel hiernaast.
  • Waarschijnlijk wil je de kruistabel nog even netter opmaken, bijvoorbeeld alle cellen even breed en de waarden centreren.

 

Maak een kruistabel voor de variabelen cijfwis en profiel op een nieuw werkblad.

 

resource.jpg


Verschillen bepalen

 

XL13-kruistabel02.jpg

Verschillen tussen kwalitatieve variabelen: phi gebruiken

 

Bij kwalitatieve variabelen kun je vaak een `2 xx 2`-kruistabel maken zoals die voor de variabelen "wisgroep" en "geslacht" (zie eerder).

Je zoekt nu naar de verschillen in keuze voor wiskunde A of B tussen beide geslachten. Een maat voor die verschillen is phi - vaak met de Griekse letter `varphi` aangeduid.

Als je kruistabel inderdaad aan cel F3 is gekoppeld, dan kun je `varphi` door Excel laten berekenen:
phi =($G$5*$H$6-$H$5*$G$6)/(WORTEL($I$5*$I$6*$G$7*$H$7)).
Ga na, dat je dezelfde waarde van `varphi` = phi krijgt.

Opmerking: Als je de formule voor phi niet verplaatst naar een andere cel zijn de dollartjes niet nodig.

Uit deze waarde van `varphi` blijkt dat het verschil gering is volgens de gebruikelijke vuistregels..

 

Verschillen tussen kwalitatieve variabelen: max`Vcp` gebruiken

 

Bij de variabelen "cijfwis" en "profiel" kun je geen `2 xx 2`-kruistabel maken. Die kruistabel wordt veel groter.

Als je in dit geval bijvoorbeeld de wiskundecijfers van de leerlingen in het profiel CM wilt vergelijken met die van de leerlingen in het profiel NT, dan zet je de bijbehorende waarden in de kruistabel om in percentages, daar kun je maar beter een nieuwe tabel voor maken. Je berekent dan de bijbehorende cumulatieve percentages en kijkt naar hun verschil: `Vcp` betekent "verschil cumulatieve percentages". Dat kan omdat er in de waarden van "cijfwis" een logische volgorde zit. Op grond van de maximale waarde van `Vcp` trek je met behulp van de gebruikelijke vuistregels een conclusie.

XL13-kruistabel03.jpg

 

Verschillen tussen kwantitatieve variabelen: boxplots gebruiken

 

XL13boxplot1.jpg Om de lengtes van jongens en meisjes met elkaar te vergelijken kun je boxplots maken. (In Excel2016 tref je bij "Invoegen > Grafieken" de mogelijkheid "Box-and-whisker" aan om boxplots mee te maken, maar dat werkt niet goed bij echte grote databestanden.) Dan heb je eerst een paar gegevens nodig om ze te maken. Je moet de twee kwartielen, het minimum en het maximum van de gegeven waarden en de twee medianen bepalen. Dat laat je Excel in een tabel zetten zoals die je hiernaast ziet.
Omdat Excel geen boxplot optie kent, ga je een gestapeld staafdiagram ombouwen tot een boxplot. De box wordt begrensd door de ondergrens Q1 en de bovengrens Q3. Het middelste getal is de mediaan. Het gestapelde staafdiagram bestaat nu uit drie blokken: het eerste blok is vanaf 0 tot "onder" = Q1, het tweede blok loopt van "onder" tot "midden" = Mediaan - Q1 en het derde blok loopt van "midden" tot "boven" = Q3 - Mediaan.
De twee "snorharen" ("whiskers") van de boxplot maak je met behulp van foutbalken: fout onder = Q1 - minimum en fout boven = maximum - Q3. Nu ga je als volgt te werk:

 

  • Maak eerst deze tabel naast je gegevens, voor de jongens en de meisjes naast elkaar zoals je hier ziet.
  • Selecteer nu de waarden van onder, midden en boven in één keer.
  • Ga naar het tabblad "Invoegen" en kies als diagram een gestapeld staafdiagram (kies voor horizontale staafdiagrammen). Het diagram dat je krijgt lijkt helemaal niet op twee boxplots, maar dat gaat zo veranderen.
  • Klik op het tabblad "Hulpmiddelen voor grafieken" op "Rijen/kolommen omdraaien". Nu begint het op twee boxplots te lijken. Even netjes opmaken en foutbalken toevoegen.
  • Om te beginnen moeten de linker blokken zonder opvulling. Dat krijg je voor elkaar door op één van die blokken te rechtsklikken en via "Gegevensreeks opmaken" de opvulling uit te zetten. Zo krijg je al iets dat op twee boxplots lijkt, alleen de foutbalken moeten nog.
  • Selecteer de linker blokken (zonder opvulling) en kies via "Hulpmiddelen voor grafieken > Ontwerpen" voor "Grafiekonderdeel toevoegen > Foutbalken > Standaardfout". Er komen links en rechts van Q1 foutbalkjes. Rechtsklik op die foutbalkjes en je kunt ze opmaken in het venster dat ontstaat. Kies bij "Richting" voor "Min" (want alleen het linker foutbalkje moet blijven) en bij "Foutweergave" voor "Aangepast" en klik op [Waarde opgeven]. Je selecteert voor een foutbalkje naar links alleen waarden voor "Negatieve foutwaarde", namelijk de waarden achter "fout onder" en dan [OK].
  • Selecteer de rechter blokken (met opvulling) en kies via "Hulpmiddelen voor grafieken > Ontwerpen" voor "Grafiekonderdeel toevoegen > Foutbalken > Standaardfout". Er komen links en rechts van Q3 foutbalkjes. Rechtsklik op die foutbalkjes en je kunt ze opmaken in het venster dat ontstaat. Kies bij "Richting" voor "Plus" (want alleen het rechter foutbalkje moet blijven) en bij "Foutweergave" voor "Aangepast" en klik op [Waarde opgeven]. Je selecteert voor een foutbalkje naar rechts alleen waarden voor "Positieve foutwaarde", namelijk de waarden achter "fout boven" en dan [OK].

 

Je hebt nu twee horizontale boxplots boven elkaar. Waarschijnlijk wil je de assen nog aanpassen (waarden van 150 tot 210 zijn op de horizontale as wel genoeg). En wellicht wil je de boxplots nog van kleuren voorzien. Ga vooral je gang.

XL13boxplot2.jpg

 

Verschillen tussen kwantitatieve variabelen: andere methoden

 

Met name bij kwantitatieve variabelen zijn er nog diverse andere methoden om een verschil tussen twee variabelen in een getal uit te drukken, bijvoorbeeld de "effectgrootte", "de normale verschilverdeling", enz. Deze vallen buiten het bestek van dit practicum.

 

resource.jpg


Verbanden zoeken: spreidingsdiagram maken

Je wilt bij de jongens kijken naar een eventueel statistisch verband tussen de variabelen lengte en gewicht met behulp van een spreidingsdiagram. Dat doe je zo:

 

  • Ga naar het werkblad “LengteGewichtJM” waarin de variabelen geslacht, lengte en gewicht zitten. (Als je het niet meer hebt, maak dan een nieuw.)
  • Sorteer alle gegevens op de variabele geslacht. Laat de jongens maar bovenaan komen.
  • Selecteer nu alle lengtes en alle gewichten van de 69 jongens.
    Op het tabblad “Invoegen” en kies je “Spreiding” en als subtype losse punten.
  • Maak het spreidingsdiagram nog even netjes op. Kies bijvoorbeeld geschikte schalen op de assen en voeg aslabels toe.

 

Je ziet dat Excel standaard de linker kolom op de horizontale as zet, dat zijn hier de gewichten. Maar wellicht heb je liever de lengte op de horizontale as. Dan rechtsklik je op het grafiekgebied en kies je "Gegevens selecteren". Rij en kolom verwisselen helpt niet, je moet naar "Legendagegevens reeks" en daar "Bewerken" kiezen.
Je krijgt dan een vensters waarin de reeks X-waarden en de reeks Y-waarden zijn te zien. Die twee moet je omwisselen, dat gaat het snelst door de kolomletters om te wisselen: hier worden de D's veranderd in E's en omgekeerd. Nu krijg je de lengtes op de horizontale as.

XL13puntenwolk.jpg

Trendlijn en correlatiecoëfficiënt

 

Nu heb je wel een puntenwolk, maar daarmee heb je nog geen verband tussen y (gewichten) en x (lengtes). Dit verband kun je zichtbaar maken met een zogenaamde trendlijn. Excel tekent die lijn voor je, maar of hij enige serieuze betekenis heeft hangt af van de correlatiecoëfficiënt `R`. `R` heeft waarden uit het interval `[text(-)1, 1]`. Hoe dichter `R` bij `1` of `text(-)1` ligt, hoe beter het verband. Als `R` dicht bij `0` ligt is de correlatie slecht. De trendlijn en de bijbehorende correlatiecoëfficiënt vind je zo:

 

  • Klik op het grafiekgebied en dan op de grote + rechtsboven. Kies voor "Trendlijn" (hij wordt automatisch lineair, als je wat anders zou willen dan kun je die kiezen via het pijltje).
  • Klik op de trendlijn in de figuur met de rechter muisknop en op het tabblad "Opties voor trendlijn " kun je nog aangeven dat de vergelijking van de lijn in het Grafiekenvenster te voorschijn moet komen. Ook de waarde van `R^2` kun je laten aangeven. Je vindt: `R^2 ~~ 0,4131`, zodat `R ~~ 0,64`.

 

Omdat de correlatie behoorlijk goed is, geeft de trendlijn een (statistisch) verband tussen `y` en `x` weer. Die lijn heet ook wel de regressielijn. Daarmee kun je dan redelijk voorspellen hoe zwaar iemand in deze groep zou moeten zijn als je zijn lengte weet.

 

resource.jpg


Het practicum afsluiten

Gebruik het bestand met gegevens van 154 leerlingen en probeer de volgende vragen te beantwoorden. Motiveer je antwoord op de beschreven manier.

 

  • Kiezen er in deze groep naar verhouding meer jongens wiskunde B dan meisjes? Motiveer je antwoord met een kruistabel.
  • Is er een verband tussen het cijfer voor wiskunde in 3 havo en de gekozen soort wiskunde? Motiveer je antwoord met een kruistabel.
  • Is er een verband tussen lengte en gewicht bij de meisjes in deze groep? En is dit verband bij jongens even sterk? Motiveer je antwoord met spreidingsdiagrammen en correlatiecoëfficiënten.
  • Is er een verband tussen het cijfer voor wiskunde in 3 havo en het gemiddelde cijfer in 4 havo? Motiveer je antwoord met een spreidingsdiagram en een correlatiecoëfficiënt.
  • Formuleer zelf een vraag waarin je verbanden tussen twee variabelen (eventueel per deelgroep) aan de orde stelt. Beantwoord je vraag m.b.v. kruistabellen en/of spreidingsdiagrammen.

 

resource.jpg


LogoM4Ainf.gif