∑ − Todistetaan lopuksi kohta (i)
Esimerkki 1. Poikien ja isien pituuksien riippuvuus toisistaan
18. Regressiodiagnostiikka
18.2. Yleinen lineaarinen malli
Oletetaan, että muuttujieny jax1,x2, … ,xk havaittujen arvojen välillä vallitseelineaarinen tilastollinen riippuvuus, joka voidaan ilmaista yhtälöllä
0 1 1 2 2 , 1, 2, ,
i i i k ik i
y =β +β x +β x + +L β x +ε i= K n jossa
yi = selitettävän muuttujany satunnainen jahavaittu arvo havaintoyksikössäi
xij = selittävän muuttujan eliselittäjänxj ei-satunnainen jahavaittu arvo havaintoyksikössäi,j = 1, 2, … ,k
εi = jäännös- elivirheterminεsatunnainen jaei-havaittu arvo havaintoyksikössäi
β0 = vakioselittäjän regressiokerroin;
β0 onei-satunnainen jatuntematon vakio βj = selittäjänxjregressiokerroin,j = 1, 2, … ,k ;
βj onei-satunnainen jatuntematon vakio
Tällöin yhtälö määritteleeusean selittäjän lineaarisen regressiomallin, jota kutsutaanyleiseksi lineaariseksi malliksi.
Seuraavassa kertaamme yleisen lineaarisen mallinformuloinnin matriisein, mallia koskevat standardioletukset ja pääkohdat mallin parametrienestimoinnista; lisätietoja: ks. lukua Yleinen lineaarinen malli.
Yleinen lineaarinen malli voidaan esittää matriisein muodossa +
y = X jossa
y = selitettävän muuttujany havaittujen arvojen muodostamasatunnainen n-vektori
X = selittäjienx1,x2, … ,xkhavaittujen arvojen jaykköstenmuodostama n×(k + 1)-matriisi
β = regressiokertoimien muodostamatuntematon jakiinteä eliei-satunnainen (k + 1)-vektori
ε = jäännöstermien muodostamaei-havaittu jasatunnainen n-vektori
Jos yleisen lineaarisen mallin selittäjätx1,x2, … ,xk ovatkiinteitä eliei-satunnaisia muuttujia, mallia koskevatstandardioletukset esitetään matriisein seuraavassa muodossa:
(i) MatriisinX alkiot ovatkiinteitä eliei-satunnaisia vakioita (ii) MatriisiX ontäysiasteinen:
( ) 1
r X = +k (iii) E( )=0
(iv)&(v)Homoskedastisuus- jakorreloimattomuusoletus:
Cov( )=σ2I (vi) Normaalisuusoletus:
N ( ,n 0σ2I)
Jos yleisen lineaarisen mallin selittäjätx1,x2, … ,xk ovatsatunnaismuuttujia, mallia koskevat modifioidut standardioletukset esitetään matriisein seuraavassa muodossa:
(i)´ MatriisinX alkiot ovatsatunnaismuuttujia.
(ii)´ MatriisiX ontäysiasteinen:
( ) 1
r X = +k (iii)´ E( |X)=0
(iv)´&(v)´Homoskedastisuus- jakorreloimattomuusoletus:
Cov( |X)=σ2I (vi)´ Normaalisuusoletus:
|X N ( ,n 0σ2I) Mallin rakenneosa ja jäännösosa Oletetaan, että yleistä lineaarista mallia
+ y = X
koskevat standardioletukset pätevät. Tällöin selitettävä muuttujan arvojen vektoriy voidaan esittää seuraavalla tavalla kahden osatekijän summana:
E( | )
= +
y y X
Osatekijä
E( |y X)=X
muodostaa mallinsystemaattisen elirakenneosan, joka riippuu selittäjienx1,x2, … ,xk havaituista arvoista. Jäännöstermiε muodostaa mallinsatunnaisen osan, joka ei riipu selittäjienx1,x2, … ,xk
havaituista arvoista.
Regressiokertoimien PNS-estimaattorit ja niiden ominaisuudet Yleisen lineaarisen mallin
0 1 1 2 2 , 1, 2, ,
i i i k ik i
y =β +β x +β x + +L β x +ε i= K n regressiokertoimien
β0,β1, β2, … ,βk
PNS- elipienimmän neliösumman estimaattorit b0,b1,b2, … ,bk
minimoivat jäännös- elivirhetermienεineliösumman
2 2
0 1 1 2 2
1 1
( )
n n
i i i i k ik
i i
y x x x
ε β β β β
= = = − − − − −
∑ ∑
Lkertoimienβ0,β1,β2, … ,βksuhteen.
Yleisen lineaarisen mallin y = X + regressiokertoimien vektorin β = (β0,β1,β2, … ,βk)
PNS-estimaaattori voidaan esittäämatriisein muodossa ( ′ )−1 ′
=
b X X X y
PNS-estimaattorillab on standardioletuksien (i)-(vi) pätiessä seuraavatstokastiset ominaisuudet:
2 1
2 1
1
E( )
Cov( ) ( )
Nk ( , ( ) ) σ
σ
− + −
=
= ′
′ b
b X X
b X X
Estimoidun mallin sovitteet ja residuaalit sekä niiden ominaisuudet Olkoon
b = (b0,b1,b2, … ,bk) yleisen linearegressiokertoimien vektorin
β = (β0,β1,β2, … ,βk) PNS-estimaattori.
Määritellään estimoidun mallinsovitteet yˆi kaavalla
0 1 1 2 2
ˆi i i k ik , 1, 2, ,
y = +b b x +b x + +L b x i= K n Määritellään estimoidun mallinresiduaalit ei kaavalla
0 1 1 2 2
ˆ , 1, 2, ,
i i i i i i k ik
e = − = − −y y y b b x −b x − −L b x i= K n Sovitteiden muodostaman-vektori voidaan esittäämatriisein muodossa
ˆ= = ( ′ )−1 ′ = y Xb X X X X y Py
Residuaalien muodostaman-vektori voidaan esittäämatriisein muodossa ˆ ( ( ′ )−1 ′) ( )
= − = − = − =
e y y I X X X X y I P y My Huomautus:
• Koskaresiduaalit kuvaavat estimoidun regressiomallin ja havaintoarvojen
yhteensopivuutta, monet regressiodiagnostiikan menetelmistä perustuvat estimoidun regressiomallin residuaaleihin tai niiden muunnoksiin.
Sovitteiden muodostamalla n-vektorilla ˆyon seuraavatstokastiset ominaisuudet:
2 2 1
E( )ˆ
Cov( )ˆ σ σ ( )−
=
′ ′
= =
y X
y P X X X X
Residuaalien muodostamalla n-vektorillaeon seuraavatstokastiset ominaisuudet:
2 2 2 1
E( )
Cov( ) σ σ ( ) σ ( ( )− )
=
′ ′
= = − = −
e 0
e M I P I X X X X
Huomautus:
• Yllä olevan mukaan residuaalitej ovat yleensä sekäheteroskedastisia että korreloituneita, vaikka jäännöstermitεj on oletettuhomoskedastisiksi ja korreloimattomiksi.
Matriisit
1
1
( )
( )
−
−
′ ′
=
′ ′
= − = − P X X X X
M I P I X X X X ovatsymmetrisiä jaidempotentteja eliprojektioita:
2 2
′ = =
′ = =
P P P P
M M M M
Lisäksi
PM=MP =0
MatriisiaP kutsutaan regressiodiagnostiikassa useinhattumatriisiksi.
Jäännösvarianssin estimointi
Yleisen lineaarisen mallin jäännöstermienεi varianssin elijäännösvarianssinσ2harhaton estimaattori on
2 2
1
1 1
n i i
s e
n k =
= − −
∑
jossa
ei = estimoidun mallinresiduaali,i = 1, 2, … ,n n = havaintojen lukumäärä
k = (aitojen) selittäjienxj lukumäärä Yleisen lineaarisen mallin rakenneosan spesifiointi Yleistä lineaarista mallia
+ y = X
sovellettaessapääasiallinen kiinnostus kohdistuu mallinsystemaattisen osan elirakenneosan E(y X)=X
oikeaan spesifiointiin elitäsmentämiseen, koska mallin rakenneosa kuvaa selitettävän muuttujany riippuvuutta selittäjistäx1,x2, … ,xk .Virheet mallin rakenneosan spesifioinnissa johtavat
virheellisiin johtopäätöksiin selitettävän muuttujan ja selittäjien välisestä riippuvuudesta.
Spesifiointivirheet mallin rakenneosassa:
(i) Sovelletaan lineaarista mallia, vaikka selitettävän muuttujany riippuvuus selittäjistäx1,x2,
… ,xkei ole lineaarista.
(ii) Mallissa onväärät selittäjät:
• Mallistapuuttuu selittäjiä.
• Mallissaon liikaa selittäjiä.
(iii) Selitettävä muuttuja ja/tai selittäjät ovat mallissaväärässä funktionaalisessa muodossa.
(iv) Oletetaan virheellisesti, että regressiokertoimet ovatvakioita.
Kommentteja:
• Epälineaaristen regressiomallien käsittely sivuutetaan tässä esityksessä.
• Selittäjien valinta on regressioanalyysin keskeisiä – ja vaikeimpia – ongelmia; ks. lukua Regressiomallin valinta.
• Sopiva selitettävän muuttujan ja/tai selittäjien muunnos saattaalinearisoida selitettävän muuttujan ja selittäjien epälineaarisen riippuvuuden; ks. lukuaRegressiomallin valinta.
• Parametrien vakioisuutta on mahdollistatestata; ks. kappalettaParametrien vakioisuus.
• Vain huolellinen perehtyminen tutkittavan ilmiöntaustateoriaan mahdollistaa regressiomallin rakenneosan spesifioinnin oikein.
• Spesifiointivirheet regressiomallin rakenneosassa tulevat tavallisesti esiin estimoidun mallinresiduaaleissa.
Yleisen lineaarisen mallin jäännösosan spesifiointi Vaikka yleistä lineaarista mallia
+ y = X
sovellettaessapääasiallinen kiinnostus kohdistuu mallinsystemaattisen osan elirakenneosan E(y X)=X
oikeaan spesifiointiin, on syytä huomata, että mallin jäännöstermille ε
valittu spesifikaatio eli täsmennys vaikuttaa sekä estimointimenetelmän valintaan että mallista tehtävään tilastolliseen päättelyyn.
Spesifiointivirheet mallin jäännöstermissä:
(i) Oletetaan virheellisesti, että jäännöstermiε onhomoskedastinen jakorreloimaton.
(ii) Oletetaan virheellisesti, että jäännöstermiε onnormaalinen.
Kommentteja:
• Jos jäännöstermiä koskeva homoskedastisuus- tai korreloimattomuusoletusei päde, regressiokertoimien PNS-estimaattorit eivät ole parhaita Gaussin ja Markovin lauseen mielessä; ks. lukuaRegressiomallin erityiskysymyksiä.
• Josjäännöstermiä koskeva normaalisuusoletusei päde,t- jaF-jakaumiin perustuva tilastolliset testit eivät välttämättä ole päteviä.
• Spesifiointivirheet regressiomallin jäännöstermissä näkyvät tavallisesti estimoidun mallin residuaaleissa.
• Estimoidun mallinresiduaaleissa havaittuheteroskedastisuus,korreloituneisuus tai epänormaalisuus ei kuitenkaan välttämättä merkitse sitä,että mallinjäännöstermi on spesifioitu väärin.
• Residuaalienheteroskedastisuus,korreloituneisuus taiepänormaalisuus saattavat indikoida myös sitä,että mallinrakenneosa on spesifioitu väärin.
Spesifiointivirheiden vaikutukset
Regressioanalyysissa pääkiinnostus kohdistuu oikean spesifikaation löytämiseen regressiomallin systemaattiselle osalle eli rakenneosalle, koska juuri rakenneosa kuvaa selitettävän muuttujan riippuvuutta selittäjistä. Regressiomallinjäännöstermin spesifikaatio vaikuttaa kuitenkin voimakkaasti sekä mallin estimointiin että testaukseen.
On syytä huomata, että rakenneosalle valittu spesifikaatio vaikuttaa tavallisesti mallin jäännös-termille valittavaan spesifikaatioon ja kääntäen jäännösjäännös-termille valittu spesifikaatio vaikuttaa mallin rakenneosalle valittavaan spesifikaatioon.
Monet regressiodiagnostiikan menetelmät perustuvat siihen, että sekä regressiomallinrakenneosan ettäjäännöstermin virheellinen spesifiointinäkyvät tavallisesti estimoidun mallin residuaaleissa.
Diagnostiset tarkistukset
Regressiomallin spesifikaation tilastollista validiteettia on aina syytä tutkia alistamalla malli seuraaviendiagnostisten tarkistusten kohteeksi:
(i) Onko havaintojen joukossa regressioanalyysin tuloksia vääristäviä poikkeavia havaintoja?
(ii) Ovatko regressiokertoimetvakioita?
(iii) Ovatko selittäjätitsenäisiä?
(iv) Ovatko mallin jäännöstermit homoskedastisia?
(v) Ovatko mallin jäännöstermit korreloimattomia?
(vi) Ovatko mallin jäännöstermit normaalisia?
On syytä muistaa, että voimakkain testi mille tahansa tieteelliselle selitysmallille on sen kyky ennustaa. Siksi regressiomalleja sovellettaessa on aina syytä testata mallin ennustuskykyä tavanomaisten diagnostisten tarkistusten lisäksi.