Statistiek met OO-Calc: De normale verdeling

In het rekenblad OpenOffice-Calc kun je werken met de normale verdeling, zeg maar de klokvorm die je aantreft bij het histogram van van de relatieve frequentieverdeling van statistische variabelen zoals "lengte", "vulgewicht" (bji machinaal vullen van pakken), etc. In dit practicum ga je leren hoe je normale verdelingen kunt tekenen en vergelijken met de werkelijke frequentieverdeling en hoe je vervolgens eenvoudig percentages kunt berekenen. Bij dit practicum horen de rekenbladen

 

OO-Calc.jpg Lengte en gewicht 2

 

OO-Calc.jpg Lengte en gewicht 3

 

Die moet je eerst downloaden en via "Opslaan als..." opslaan onder een eigen naam als Stat2[..].ods en Stat3[..].ods, waarbij [..] je eigen naam is.

 

Het is wel van belang dat je de kennis van de eerdere practica nog beheerst. Als dit niet zo is doe dan eerst het practicum "Data presenteren en vergelijken", of zelfs nog de practica die vallen onder "Basistechnieken".

 

Inhoud:

 

De statistische functies zonder klassenindeling

Open het rekenblad "Stat2[..].ods" in OO-Calc.

Je ziet een overzicht van de lengtes en de gewichten van een groep van 20 meisjes. In plaats van hun namen zie je dat ze zijn genummerd. Naast de kolommen met gegevens staan de centrummaten en de spreidingsmaten voor hun lengtes.

 

  • in cel F4 wordt de modus berekend via =MODUS(B4:B23)
  • in cel F5 wordt de mediaan berekend via =MEDIAAN(B4:B23)
  • in cel F6 wordt het gemiddelde berekend via =GEMIDDELDE(B4:B23)
  • in cel F7 wordt de spreidingsbreedte berekend via =MAX(B4:B23)-MIN(B4:B23); dit had ook gekund door =$F$12-$F$11 te gebruiken (absolute celverwijzingen naar maximum en minimum)
  • in cel F8 wordt het eerste kwartiel `Q_1` berekend via =KWARTIEL(B4:B23;1)
  • in cel F9 wordt het derde kwartiel `Q_2` berekend via =KWARTIEL(B4:B23;3)
  • in cel F10 wordt de kwartielafstand berekend via =$F$9-$F$8 (absolute celverwijzingen naar de kwartielen)
  • in cel F11 wordt de kleinste waarneming berekend via =MIN(B4:B23)
  • in cel F12 wordt de grootste waarneming berekend via =MAX(B4:B23)
  • in cel F13 wordt de standaardafwijking of standaarddeviatie berekend via =STDEVP(B4:B23) (de standaardafwijking van de gehele populatie)

 

MODUS, MEDIAAN, e.d. zijn een statistische functies in OO-Calc. Je kunt gewoon hun naam na het =teken invoeren in de cel, maar je kunt ze ook vinden met de knop: `f_X` op de bovenbalk of via Invoegen > Functie...
Als je daarop drukt wordt de Functieassistent ingeschakeld. Kies in het venster dat nu verschijnt Statistisch en je vindt de hele lijst met statistische functies. Zoek daarin de juiste functie en klik daarop en kies Volgende. Je krijgt nu een venster te zien, waarin je (bij Getal1) kunt invoeren: B4:B23. Dat zijn de cellen waarin de waarnemingen staan. (Je kunt die cellen ook met de muis selecteren.) Kies Voltooien en je vindt de juiste waarde in de cel naast "modaal gewicht".

Voor de normale verdeling zijn alleen het gemiddelde en de standaardafwijking van belang!

 

Ga na, dat al de berekende statistische maten mee veranderen als je een lengtes en/of gewichten in de tabel verandert. Het uitbreiden van de tabel is ook niet al te moeilijk, je hoeft dan maar een kleine aanpassing in de formules aan te brengen.
Doe dit zelf voor de tabel met lengtes van 18 jongens.

 

resource.jpg


De statistische functies met klassenindeling

Als je met heel veel gegevens te maken hebt, worden ze vaak in klassen verdeeld om het rekenwerk wat te beperken. Je werkt dan met klassenmiddens, dus niet meer met de echte waarnemingen. Alle centrum- en spreidingsmaten zijn dan ook alleen nog schattingen van de werkelijke waarden.

 

Open het rekenblad "Stat2[..].ods". Je ziet dat de gegevens van de 20 meisjes ook in een frequentietabel zijn ondergebracht. (Hoe dat in OO-Calc gaat heb je in het practicum "Data presenteren en vergelijken" kunnen lezen.)

 

Je kunt nu op grond van deze klassenindeling het gemiddelde en de standaarddeviatie schatten. Daarvoor zijn aan het einde van de tabel (na somfrequentie) extra kolommen aangebracht.

 

  • voor de schatting van het gemiddelde is de kolom "m*f" gemaakt. Daarin (D30 t/m D45) worden de klassenmiddens met hun frequentie vermenigvuldigd en in D46 wordt deze kolom opgeteld. Het gemiddelde wordt gevonden door in cel D48 te berekenen: =D46/C46.
  • De standaarddeviatie wordt berekend door bij elk klassenmidden m te berekenen (m-gemL)^2 x frequentie. Je berekent daarmee het kwadraat van het verschil met het geschatte gemiddelde gemL. Tel je al deze waarden op en deel je door het totaal (hier: 20) dan krijg je het kwadraat van de standaardafwijking. In cel D47 nog even worteltrekken en klaar: =WORTEL(E46/C46).

 

Je ziet, dat gemiddelde en standaardafwijking een beetje verschillen van de werkelijke waarden. Dat komt door de klassenindeling!

 

Gebruik jouw eigen nieuwe werkmap "Stat2[..].ods". Maak eenzelfde tabel voor de lengtes van de jongens als die voor de lengtes van de meisjes. Bereken het gemiddelde en de standaarddeviatie van de lengtes van de jongens.

 

resource.jpg


Normale verdelingen

Open het rekenblad "Stat3[..].ods". Je ziet dat de gegevens van de 20 meisjes ook in een frequentietabel zijn ondergebracht en dat er bij die frequentietabel een histogram is gemaakt.

 

Veel histogrammen hebben een mooie symmetrische klokvorm. Je zegt dan dat de frequenties normaal verdeeld zijn. Wanneer je van veel meer dan 20 meisjes de lengtes in klassen verdeelt, krijg je ook zo'n nette klokvorm. Om te kunnen beoordelen of een histogram normaal is verdeeld, kun je de bijpassende normale verdeling in het histogram toevoegen.

 

  • Je maakt een nieuwe kolom met de functie =NORM.VERD(m;gemiddelde;standaarddeviatie;0). Hierin is m weer een klassenmidden en de 0 is nodig om te zorgen dat de waarden niet worden opgestapeld, je wilt geen cumulatieve verdeling maken. Werk je met de klassenindeling (en dat is het geval bij het histogram dat in het rekenblad zit) dan moet je met de klassenbreedte vermenigvuldigen. Klik maar eens op cel D29 en bekijk de formule die er in staat.

 

Nu je een tabel hebt gemaakt van de normale verdeling bij de lengtes van deze 20 meisjes, wil je hem ook in je histogram erbij zetten. Dat gaat zo:

 

  • Selecteer de kolom B29:B45 en kies Invoegen > Diagram > Kolom en [Voltooien].
  • Kies in het diagramgebied voor Gegevensbereiken > Gegevensreeksen en voeg bij Categorieën in A30:A45. Die waarden komen op de horizontale as. Via rechtsklikken en As opmaken kun je de waarden bij de as netjes uitlijnen.
  • Je hebt nu een staafdiagram, maak het eventueel verder op.
  • Bewerk het diagramgebied verder door met de rechter muisknop Gegevensbereiken > Gegevensreeksen te kiezen.
  • Klik [Toevoegen] en kies Y-waarden. Voeg bij "Bereik voor Y-waarden" in D30:D45 en [OK].
  • Vervolgens kies je met de rechter muisknop "Diagramtype" en daar op het tabblad "Kolom en lijn" de eerste (linker) optie en [Voltooien].
  • Vervolgens rechtsklikken op het lijndiagram en "Gegevensreeks opmaken" kiezen. Stel bij "Opties" is "Gegevensreeks uitlijnen aan secundaire Y-as".
  • Tenslotte maak je alles weer even netjes op (geen ruimte tussen de staven, mooie vloeiende normaalkromme, etc.).

 

Maak eenzelfde histogram met normale verdeling voor de lengtes van de jongens.

 

resource.jpg


Percentages en grenswaarden berekenen

Het grote voordeel van de normale verdeling is dat je niet meer met klassen, of met de details van de werkelijke frequentieverdeling, rekening hoeft te houden. Je kunt nu allerlei percentages berekenen alleen met behulp van het gemiddelde en de standaardafwijking. Bekijk hoe je de volgende vragen beantwoordt:

 

Hoeveel procent van de meisjes is kleiner dan `1,80` m?

  • Kies een cel en zet daarin de tekst "Percentage meisjes kleiner dan 1,80 m:"
  • Voer in de cel daaronder in: =NORM.VERD(1,80;gemiddelde;standaarddeviatie;1).
    De 1 is nodig om te zorgen dat de percentages van links af worden opgeteld tot bij 1,80 m.
  • Na [Enter] zie je het juiste getal tussen `0` en `1`. Wil je een percentage, dan moet je nog met `100` vermenigvuldigen.

 

Hoeveel procent van de meisjes is groter dan `1,80` m?

  • Kies een cel en zet daarin de tekst "Percentage meisjes groter dan 1,80 m:"
  • Voer in de cel daaronder in: =1 - NORM.VERD(1,80;gemiddelde;standaarddeviatie;1).
    Je maakt er dan gebruik van dat onder de normale verdeling het totaal `1` (dus `100`%) is.
  • Na [Enter] zie je het juiste getal tussen `0` en `1`. Wil je een percentage, dan moet je nog met `100` vermenigvuldigen.

 

Hoeveel procent van de meisjes heeft een lengte tussen `1,80` m en `1,90` m?

  • Kies een cel en zet daarin de tekst "Percentage meisjes tussen 1,80 m en 1,90 m:"
  • Voer in de cel daaronder in: = NORM.VERD(1,90;gemiddelde;standaarddeviatie;1) - NORM.VERD(1,80;gemiddelde;standaarddeviatie;1).
  • Na [Enter] zie je het juiste getal tussen `0` en `1`. Wil je een percentage, dan moet je nog met `100` vermenigvuldigen.

 

Hoe lang is de kleinste `10`% van de meisjes maximaal?

  • Kies een cel en zet daarin de tekst "Maximale lengte kleinste 10% meisjes:"
  • Voer in de cel daaronder in: = INV.NORM(0,10;gemiddelde;standaarddeviatie).
  • Na [Enter] zie je de juiste lengte.

 

Hoe lang is de grootste `10`% van de meisjes minimaal?

  • Kies een cel en zet daarin de tekst "Minimale lengte grootste 10% meisjes:"
  • Voer in de cel daaronder in: = INV.NORM(0,90;gemiddelde;standaarddeviatie).
    Je gebruikt nu `0,90` omdat `90`% van de meisjes een kleinere lengte heeft, dus je herleidt deze vraag tot de vorige.
  • Na [Enter] zie je de juiste lengte.

 

Voer zelf al deze berekeningen uit.
Stel jezelf vergelijkbare vragen over de lengtes van de jongens en beantwoordt ook die met behulp van OO-Calc.

 

resource.jpg


Het practicum afsluiten

Voer een eigen statistisch onderzoek uit. Bijvoorbeeld kun je onderzoeken of de voetlengtes of de handspannes van jongens en meisjes normaal zijn verdeeld. Ook kun je er percentages en grenswaarden bij berekenen.

 

resource.jpg


LogoM4Ainf.gif