Een onderzoekje naar het mogelijke verband tussen gewicht en lengte van `22` leerlingen in 4Havo leverde in een spreadsheet deze puntenwolk op. De puntenwolk lijkt een richting te hebben: hij loopt grofweg van linksonder naar rechtsboven. Er lijkt dus een vorm van samenhang, van "correlatie" , te zijn: naarmate de lengte groter wordt, wordt het gewicht ook groter. Dit lijkt op een lineair verband.
In de spreadsheet kun je bij elke puntenwolk een bepaald type verband modelleren. Hier is gekozen voor een lineair model. Hoe goed dit verband past bij de puntenwolk wordt bepaald door de correlatiecoëfficiënt `R = sqrt(0,6555) ~~ 0,81`. Hoe dichter `R` bij `+- 1`, hoe beter de correlatie. De regressielijn wordt door de spreadsheet getekend.
Statistische samenhang betekent niet dat er ook een causaal verband bestaat. Het is dus niet zo dat een grotere lengte ook persé een groter gewicht veroorzaakt.
De beroemde wiskundige Carl Friedrich Gauss (1777 - 1855) bedacht voor het opstellen van een formule voor een lineair model dat zo goed mogelijk past bij een puntenwolk in de negentiende eeuw de "methode van de kleinste kwadraten" . Je wilt daarbij een regressielijn wilt maken van de vorm `y = a*x+b`, dus een regressie van `y` op `x` .
Gauss' methode houdt in dat de som van de kwadraten van de verticale afwijkingen van de meetpunten `(x_i, y_i)` tot deze regressielijn zo klein mogelijk moet zijn, ofwel `Sigma_(i=1)^n (y_i - (a*x_i + b)` moet minimaal zijn.
Hieruit leidde hij een formule af voor de waarde van `a`.
En omdat de regressielijn door `(bar(x), bar(y))` zou moeten gaan, is ook `b` te berekenen.
Kernwoorden op deze pagina: