Overzicht geschiedenis kansrekening en statistiek

In de kansrekening gaat het om het vastleggen van het begrip "kans" (ook wel "waarschijnlijkheid" genoemd) en het rekenen met kansen via wiskundige regels en afspraken. Statistiek is de wetenschap van het verzamelen, analyseren en conclusies trekken uit gegevens. De kansrekening en de statistiek bestaan als onderdeel van de wiskunde pas vanaf de zeventiende eeuw, hoewel er wel oudere aanzetten toe zijn gegeven. Namen als Pascal, Fermat en Huygens spelen een grote rol bij de vroegste ontwikkeling ervan.
Tegenwoordig is de "mathematische statistiek" niet meer weg te denken uit ons dagelijks leven...

 

Indeling van dit onderdeel van de geschiedenis van de wiskunde:

 

Het ontstaan van de kansrekening

Al heel lang beproeft de mens zijn geluk bij zogenaamde "kansspelen". In de prehistorie gokte men op de uitkomsten van het gooien met het "sprongbeen", een vroege vorm van onze dobbelsteen. Bij opgravingen in Ur (een stad in het Oude Mesopotamië) is een bordspel teruggevonden en zijn dobbelstenen in de vorm van een viervlak aangetroffen. Later (veertiende eeuw na Christus) ontstonden kaartspelen. En natuurlijk konden verwoede gokkers inzetten op uitslagen van wedstrijden.

 

Het duurde echter tot de veertiende eeuw voordat wiskundigen zich met het gokken gingen bezighouden. Een eerste vraagstuk (wat voor het eerst in een Italiaans geschrift uit 1380) was het partijenvraagstuk. Dat luidde als volgt:

Twee partijen spelen een balspel om punten. Ze hebben beide een even grote kans om een punt te scoren. Er is geen tijdsduur voor het spel vastgelegd en de partij die als eerste 6 punten gescoord heeft, wint de pot van 60 dukaten. Het spel moet (vanwege het weer) bij de stand 5 - 3 worden gestaakt. Er wordt besloten de pot te verdelen. De vraag is nu: hoe moet dat gebeuren?

De Italiaanse wiskundige Pacioli bedacht in 1494 dat de pot moest worden verdeeld in de verhouding `5 : 3` (de stand bij afbreken), maar zijn collega Cardano vond dat je rekening moest houden met de nog te scoren punten. In die tijd konden de wiskundigen geen bevredigende oplossing verzinnen.

Halverwege de zeventiende eeuw kreeg de Franse wiskundige Blaise Pascal (1623 - 1662) het bovenstaande kansprobleem voorgelegd door de Franse edelman (en verwoed gokker) Chevalier de Méré. Maar hij kende nog veel meer van dergelijke kansproblemen. Een bekend vraagstuk was ook:

De Méré speelde in de Franse "salons" vaak een dobbelspel waarbij de "bank" won als een speler bij het werpen met één zuivere dobbelsteen bij `4` worpen tenminste één zes gooit. Hij bedacht daarop een variant waarbij de bank wint wanneer bij `24` worpen met twee zuivere dobbelstenen tenminste één keer dubbel-zes voorkwam.
De Méré dacht dat er bij beide situaties voor de bank dezelfde kans op winst bestond: in het eerste geval `4/6` en in het tweede geval `24/36` (want bij twee dobbelstenen zijn er `36` mogelijkheden), en dat is beide hetzelfde. In de praktijk bleek dit echter niet op te gaan, de tweede situatie was voor de bank ongunstig. De vraag was hoe dat kwam.

Pascal stortte zich op deze problemen en in een briefwisseling met Pierre de Fermat (1601 - 1665) losten zij ze op. Daarbij ontwikkelden ze de basisprincipes van de kansrekening. In feite zijn Pascal en Fermat de grondleggers van de kansrekening zoals wij die tegenwoordig nog steeds beoefenen. Zij werkten echter met kansen in termen van verhoudingen als `1 : 6` en niet (zoals wij tegenwoordig doen) met breuken.
Pascal werkte de theorie uit in zijn boek "Traité du triangle arithmétique", waarin hij de 'driehoek van Pascal' gebruikte om deze problemen aan te pakken. Verder gebruikte hij bij de oplossing van zijn kansproblemen telsystemen die al veel eerder waren ontdekt: het werken met permutaties en combinaties werd al omstreeks 850 na Chr. beschreven door de Indische wiskundige Mahavira op grond van ontdekkingen van jaïnistische geleerden (die veel belang stelden in het werken met getallen) in de eeuwen daarvoor.

 

Onder invloed van de handel en de ontdekkingsreizen kwamen in Italië en in het Holland van de vijftiende, zestiende en zeventiende eeuw de eerste verzekeringsmaatschappijen op. Er ontstond daarbij behoefte aan werken met kansen voor het berekenen van de risico's op uitbetaling. De Nederlandse geleerde Christiaan Huygens (1629 - 1695) publiceerde in 1657 zijn boek over kansrekening: "Van Rekeningh in Spelen van Geluck", waarin hij voortborduurde op de theorie van Pascal en Fermat. Daarin staat ook de oplossing van het hierboven genoemde partijenvraagstuk: een verdeling in de verhouding `7 : 1` (wat je met behulp van een kansboom zelf eenvoudig na kunt gaan).
Raadpensionaris van Holland Johan de Witt paste Huygens' ideeën toe op het verzekeringswezen, met name schreef hij een verhandeling over lijfrentes: "Waerdye van Lijfrenten naar Proportie van Losrenten". Zo'n lijfrente was een soort van uitkering die je jaarlijks ontving van een bedrag dat je de overheid ter beschikking stelde. Gebaseerd op sterftekansen kon de overheid nagaan hoeveel men van een bepaalde inleg als lijfrente moest uitkeren (en dus ook hoeveel er voor de overheid overbleef).
De Engelse koopman John Graunt maakt in 1662 voor het eerst schattingen van dergelijke sterftekansen. Dat was een hele prestatie, want systematisch bevolkingsgegevens bijhouden deed men in die tijd nog niet.

 

Het bekendste vroege boek over kansrekening was Jakob Bernouilli's "Ars conjectandi" (in 1713 posthuum uitgegeven). Daarin werd voor het eerst gewerkt met kansen tussen `0` en `1`. Bernouilli bedacht de binomiale kansverdeling die bestond uit herhaling van een aantal onafhankelijke (Benouilli-)experimenten met elk twee mogelijkheden ('succes' en 'mislukking').
Daarop verder werkend ontdekte de Britse wiskundige Abraham de Moivre als limietgeval van de binomiale kansverdeling de normale kansverdeling. Ook hij publiceerde geschriften over verzekeringswiskunde waarin hij de kansrekening toepaste op de prijzen van annuïteiten en levensverzekeringspolissen.

 

 

 

Ontwikkeling van de kansrekening na 1800

Een verdere stap in de kansrekening werd gezet in de sterrenkunde. Astronomen probeerden zo nauwkeurig mogelijk banen van planeten te berekenen. Dat gebeurde op basis van waarnemingen die fouten bevatten. Het probleem was derhalve: hoe trek ik een betrouwbare planetenbaan (kromme grafiek) door meetpunten die vanwege de meetonzekerheden niet precies op die kromme lijn liggen?
Onafhankelijk van elkaar bedachten de wiskundigen Legendre en Gauss daarvoor de methode van de kleinste kwadraten. Daarnaast toonde Gauss aan dat de verdeling van de meetfouten de normaalverdeling was en de bijbehorende verdelingskromme heet naar hem dan ook de gausskromme. In 1812 publiceerde de Franse wiskundige Laplace over deze onderwerpen het boek "Théorie analytique des probabilités", wat tientallen jaren lang als standaardwerk over waarschijnlijkheidsrekening was.

 

De Belgische wiskundige Adolphe Quetelet (1796 - 1874) legde een verband tussen de normale verdeling en de sociale statistiek. Bijvoorbeeld merkte hij op dat diverse lichaamsmaten (zoals borstomvang, lengte, intelligentie, e.d.) normaal waren verdeeld. Hij ging zelfs zo ver dat hij een soort van ideale doorsnee-mens voor ogen had waarvan de eigenschappen precies in het midden van de normale verdeling zaten. Een afwijking van zo'n gemiddelde beschouwde hij als een "fout". Hij vond dan ook dat de staat de plicht had om bevolkingsgegevens te verzamelen en de analyseren ten einde dit soort ideale eigenschappen en daaruit volgende sociale wetten te ontdekken. Op deze manier werd de kansrekening toegepast in statistische situaties en ontstond de "mathematische statistiek".

 

 

 

Het ontstaan van de statistiek

Met de toepassing van de kansrekening op het verzekeringswezen ontstond ook voor het eerst de behoefte tot het bijhouden van bevolkingsgegevens. En zo werd een klimaat geschapen voor de ontwikkeling van de statistiek. In 1662 publiceerde de Brit John Graunt zijn "Natural and Political Observations", waarin een eerste statistische analyse voorkwam van de wekelijkse lijst van sterfgevallen in en om London, de zogenaamde 'Bills of mortality". En in 1693 kwam de astronoom Edmond Halley met een levensverwachtingstabel gebaseerd op de sterftecijfers van de stad Breslau.

 

In de achttiende eeuw zette zich deze statistische traditie verder voort. Daarnaast vonden in de kansrekening de nodige ontwikkelingen plaats: de normale verdeling werd bedacht door de Britse wiskundige De Moivre en door de Belg Adolphe Quetelet in het begin van de negentiende eeuw toegepast op de sociale statistiek. De echte start van de mathematische statistiek is echter toe te schrijven aan Francis Galton (1822 - 1911) en vond plaats aan het einde van de negentiende eeuw.

 

Francis Galton (1822 - 1911) was een neef van Charles Darwin, de bioloog die de evolutietheorie opzette. Hij paste statistische methoden toe bij de analyse van sociale gegevens en erfelijke eigenschappen. Hij dacht dat de normale verdeling de mate van variatie van fysieke eigenschappen aangaf. Hij werkte met het begip standaarddeviatie als maat voor de spreiding van de normale verdeling. In tegenstelling tot Quetelet dacht hij niet zozeer in termen van 'foute afwijkingen van het juiste gemiddelde', maar als noodzakelijke verscheidenheid in het licht van de evolutietheorie.
Galton ontdekte een maat voor de correlatie (dat is de mate waarin een verband bestaat) tussen statistische variabelen (zoals bijvoorbeeld lengte en gewicht): de correlatiecoëfficiënt, een getal tussen `text(-)1` en `1`. Als die correlatiecoëfficiënt de waarde `0` had was er geen enkel verband tussen de variabelen.
Galton paste zijn statistische theorieën vooral toe op de eugenetica, de studie van erfelijke eigenschappen.

 

 

 

De moderne mathematische statistiek

Galton richtte aan het Londense University College een leerstoel in de eugenetica op. De wiskundigen die deze leerstoel bezetten hebben veel voor de ontwikkeling van de mathematische statistiek betekend. Zij ontwikkelden vooral de methoden van statistische toetsing. Karl Pearson (1857 - 1936) bedacht de chi-kwadraat-toets waarmee een antwoord kon worden gegeven op de vraag hoe goed een theoretische verdeling past bij de gevonden gegevens. Zijn opvolger Ronald Aylmer Fisher (1890 - 1962) en zijn volgelingen ontwikkelden methoden die geschikt zijn voor kleine steekproeven en vonden diverse verdelingen die juist voor die situatie geschikt zijn. Verder formuleerden zij de principes van het hypothese toetsen en vonden een techniek die bekend werd als de variantieanalyse. De variantieanalyse draaide om het met wiskundige methoden scheiden van "echte effecten" en "fouten". Als een experiment een echt effect oplevert, blijkt uit de methode hoe sterk dit effect is in verhouding tot de fout.

 

Vanaf de jaren '20 van de vorige eeuw werd de statistiek voor wiskundigen een steeds volwaardiger onderwerp van onderzoek, waardoor de methoden sterk werden verfijnd en een exactere onderbouwing kregen. In 1928 publiceerden Jerzy Neyman en Egon Pearson (zoon van Karl Pearson) enkele geschriften waarin begrippen als "fout van de tweede soort" en "betrouwbaarheidsinterval" werden ingevoerd. In die tijd begon ook de industrie steeds meer de statistische methoden toe te passen, met name bij kwaliteitscontrôle. Bovendien werd er gezocht naar steeds betere methoden om goede representatieve steekproeven te nemen.

 

Vanf 1939 werd door Abraham Wald (1902 - 1950) de statistische beslissingstheorie ontwikkeld. Hierin werd de statistiek opgevat als een spel met de natuur als tegenstander. Hoewel dit een zeer algemene theorie is wordt hij tegenwoordig door heel veel statistici gebruikt.

 

En tot slot is daar de opkomst van de moderne computer na 1940.
Daarmee kwam voor statistici een rekenkracht beschikbaar die tot dan toe onvoorstelbaar was. Dit maakte het mogelijk om met zeer grote hoeveelheden gegevens te werken en op deze gegevens statistische methoden los te laten. De statistiek is daarmee tot de meest toegepaste tak van de wiskunde geworden. En dat betekent enerzijds dat wiskundigen zich voluit toeleggen op de ontwikkeling van de mathematische statistiek als wetenschap, maar ook dat de huidige samenleving overspoeld wordt met statistieken en conclusies getrokken uit statistieken. Denk bijvoorbeeld maar aan de ziekte van de opiniepeilingen die zeker in verkiezingstijd, maar ook bij de voortdurende marketing van producten genadeloos toeslaat...