Determinatiecoëfficiënt

Uit testwiki
Naar navigatie springen Naar zoeken springen

In de statistiek is een determinatiecoëfficiënt, veelal aangeduid met R2, een maat voor het deel van de variabiliteit dat wordt verklaard door het statistisch model. Er bestaan verschillende definities voor een determinatiecoëfficiënt. In het geval van lineaire regressie is er een eenduidige definitie. Bij enkelvoudige lineaire regressie is de determinatiecoëfficiënt gelijk aan het kwadraat van de multipele correlatiecoëfficiënt.

Lineaire regressie

Bij enkelvoudige lineaire regressie gaat men uit van het model dat de waarnemingen (xi,yi) afkomstig zijn van stochastische variabelen die voldoen aan:

Yi=α+βxi+Ui

De schattingen van de parameters α en β zijn a en b, waarmee als benadering voor yi berekend wordt:

y^i=a+bxi

Als gevolg van de gebruikte kleinste-kwadratenmethode geldt:

y^i=yi

en

(yiy^i)y^i=0

Het totaal SST (Sum of Squares Total) van de kwadratische afwijkingen van het gemiddelde:

SST=(yiy)2

kan voor een deel SSE (Sum of Squares Explained)

SSE=(y^iy)2

verklaard worden als gevolg van de regressie. De rest, SSR (Sum of Squares Residual), is het gevolg van storing:

SST=(yiy)2=(yiy^i+y^iy)2=
=(y^iy)2+2(y^iy)(yiy^i)+(yiy^i)2=

Omdat de middelste som gelijk is aan 0:

=(y^iy)2+(yiy^i)2=SSE+SSR

De determinatiecoëfficiënt is gedefinieerd als:

R2=SSESST=(y^iy)2(yiy)2=1SSRSST=1(yiy^i)2(yiy)2

De correlatiecoëfficiënt tussen y^ en y is:

ry^,y=(y^iy)(yiy)SSESST

Nu is

(yiy^i)y^i=0,

dus

yiy^i=y^i2,

zodat

(y^iy)(yiy)=(yiy)2=SSE

Daaruit volgt

ry^,y=SSESSESST=R