In het rekenblad Excel2013 | Excel2016 | Excel2019 | Excel2021 kun je mooi statistieken zichtbaar maken. Je kunt Excel ook gebruiken om statistische variabelen te vergelijken en te zoeken naar verbanden ertussen. Bij dit practicum hoort het rekenblad
Gegevens 154 leerlingen
Dat moet je eerst downloaden en via "Opslaan als..." opslaan onder een eigen naam als Stat[..].xlsx, waarbij [..] je eigen naam is.
Het is wel van belang dat je met diagrammen, centrummaten en spreidingsmaten in Excel kunt werken. Als je dat niet beheerst, doe dan eerst het practicum "Statistisch onderzoek: data presenteren en vergelijken".
Inhoud:
Open jouw bestand Stat[...].xlsx. Je wilt kijken naar een eventuele relatie tussen de statistische variabelen wisgroep (de gekozen soort wiskunde, A of B) en geslacht (jongen of meisje) met behulp van een kruistabel, in Excel heet dit een draaitabel. In zo'n kruistabel zet je bijvoorbeeld horizontaal de soort wiskunde, dus wisgroep uit en verticaal het geslacht. Je wilt dan zien hoeveel personen van welk geslacht een bepaalde soort wiskunde hebben gekozen.
Maak een kruistabel voor de variabelen cijfwis en profiel op een nieuw werkblad.
Bij kwalitatieve variabelen kun je vaak een `2 xx 2`-kruistabel maken zoals die voor de variabelen "wisgroep" en "geslacht" (zie eerder).
Je zoekt nu naar de verschillen in keuze voor wiskunde A of B tussen beide geslachten. Een maat voor die verschillen is phi - vaak met de Griekse letter `varphi` aangeduid.
Als je kruistabel inderdaad aan cel F3 is gekoppeld, dan kun je `varphi` door Excel laten berekenen: phi =($G$5*$H$6-$H$5*$G$6)/(WORTEL($I$5*$I$6*$G$7*$H$7)). Ga na, dat je dezelfde waarde van `varphi` = phi krijgt.
Opmerking: Als je de formule voor phi niet verplaatst naar een andere cel zijn de dollartjes niet nodig.
Uit deze waarde van `varphi` blijkt dat het verschil gering is volgens de gebruikelijke vuistregels..
Bij de variabelen "cijfwis" en "profiel" kun je geen `2 xx 2`-kruistabel maken. Die kruistabel wordt veel groter.
Als je in dit geval bijvoorbeeld de wiskundecijfers van de leerlingen in het profiel CM wilt vergelijken met die van de leerlingen in het profiel NT, dan zet je de bijbehorende waarden in de kruistabel om in percentages, daar kun je maar beter een nieuwe tabel voor maken. Je berekent dan de bijbehorende cumulatieve percentages en kijkt naar hun verschil: `Vcp` betekent "verschil cumulatieve percentages". Dat kan omdat er in de waarden van "cijfwis" een logische volgorde zit. Op grond van de maximale waarde van `Vcp` trek je met behulp van de gebruikelijke vuistregels een conclusie.
Om de lengtes van jongens en meisjes met elkaar te vergelijken kun je boxplots maken. (In Excel2016 tref je bij "Invoegen > Grafieken" de mogelijkheid "Box-and-whisker" aan om boxplots mee te maken, maar dat werkt niet goed bij echte grote databestanden.) Dan heb je eerst een paar gegevens nodig om ze te maken. Je moet de twee kwartielen, het minimum en het maximum van de gegeven waarden en de twee medianen bepalen. Dat laat je Excel in een tabel zetten zoals die je hiernaast ziet. Omdat Excel geen boxplot optie kent, ga je een gestapeld staafdiagram ombouwen tot een boxplot. De box wordt begrensd door de ondergrens Q1 en de bovengrens Q3. Het middelste getal is de mediaan. Het gestapelde staafdiagram bestaat nu uit drie blokken: het eerste blok is vanaf 0 tot "onder" = Q1, het tweede blok loopt van "onder" tot "midden" = Mediaan - Q1 en het derde blok loopt van "midden" tot "boven" = Q3 - Mediaan. De twee "snorharen" ("whiskers") van de boxplot maak je met behulp van foutbalken: fout onder = Q1 - minimum en fout boven = maximum - Q3. Nu ga je als volgt te werk:
Je hebt nu twee horizontale boxplots boven elkaar. Waarschijnlijk wil je de assen nog aanpassen (waarden van 150 tot 210 zijn op de horizontale as wel genoeg). En wellicht wil je de boxplots nog van kleuren voorzien. Ga vooral je gang.
Met name bij kwantitatieve variabelen zijn er nog diverse andere methoden om een verschil tussen twee variabelen in een getal uit te drukken, bijvoorbeeld de "effectgrootte", "de normale verschilverdeling", enz. Deze vallen buiten het bestek van dit practicum.
Je wilt bij de jongens kijken naar een eventueel statistisch verband tussen de variabelen lengte en gewicht met behulp van een spreidingsdiagram. Dat doe je zo:
Je ziet dat Excel standaard de linker kolom op de horizontale as zet, dat zijn hier de gewichten. Maar wellicht heb je liever de lengte op de horizontale as. Dan rechtsklik je op het grafiekgebied en kies je "Gegevens selecteren". Rij en kolom verwisselen helpt niet, je moet naar "Legendagegevens reeks" en daar "Bewerken" kiezen. Je krijgt dan een vensters waarin de reeks X-waarden en de reeks Y-waarden zijn te zien. Die twee moet je omwisselen, dat gaat het snelst door de kolomletters om te wisselen: hier worden de D's veranderd in E's en omgekeerd. Nu krijg je de lengtes op de horizontale as.
Nu heb je wel een puntenwolk, maar daarmee heb je nog geen verband tussen y (gewichten) en x (lengtes). Dit verband kun je zichtbaar maken met een zogenaamde trendlijn. Excel tekent die lijn voor je, maar of hij enige serieuze betekenis heeft hangt af van de correlatiecoëfficiënt `R`. `R` heeft waarden uit het interval `[text(-)1, 1]`. Hoe dichter `R` bij `1` of `text(-)1` ligt, hoe beter het verband. Als `R` dicht bij `0` ligt is de correlatie slecht. De trendlijn en de bijbehorende correlatiecoëfficiënt vind je zo:
Omdat de correlatie behoorlijk goed is, geeft de trendlijn een (statistisch) verband tussen `y` en `x` weer. Die lijn heet ook wel de regressielijn. Daarmee kun je dan redelijk voorspellen hoe zwaar iemand in deze groep zou moeten zijn als je zijn lengte weet.
Gebruik het bestand met gegevens van 154 leerlingen en probeer de volgende vragen te beantwoorden. Motiveer je antwoord op de beschreven manier.
Math4all
Ik wil mij aanmelden voor: