TKK (c) Ilkka Mellin (2004) 1
Johdatus tilastotieteeseen
Regressiodiagnostiikka
TKK (c) Ilkka Mellin (2004) 2
Yleinen lineaarinen malli ja regressiodiagnostiikka Regressiografiikka
Poikkeavat havainnot Regressiokertoimien vakioisuus Multikollineaarisuus
Homoskedastisuus ja heteroskedastisuus Autokorrelaatio
Normaalisuus Mallin ennustuskyky
Regressiodiagnostiikka
TKK (c) Ilkka Mellin (2004) 3
Regressiodiagnostiikka:
Mitä opimme? – 1/2
• Regressiomallien soveltamisen pääkysymys on seuraava:
Kuvaako selitettävän muuttujan ja selittäjien väliselle tilastolliselle riippuvuudelle täsmennetty regressiomalli riippuvuutta oikein?
• Ns. standardioletuksettakaavat sen, että pienimmän neliösumman menetelmätuottaa regressioparametreille optimaaliset estimaattorit.
• Jos ns.standardioletukset eivät päde, pienimmän neliösumman menetelmä ei välttämättä ole optimaalinen.
• Regressiodiagnostiikassaestimoituun regressiomalliin kohdistetaan diagnostisia testejä, joilla pyritään selvittämään pätevätkö mallista tehdyt standardioletukset.
• Jos diagnostiset testi osoittavat, että regressiomalli on täsmennetty väärin, voidaan mallia pyrkiä korjaamaanniin, että se kuvaisi paremmin selitettävä muuttujan ja selittäjien välistä tilastollista riippuvuutta.
TKK (c) Ilkka Mellin (2004) 4
Regressiodiagnostiikka:
Mitä opimme? – 2/2
• Tässä luvussa tarkastellaan seuraavia regressiodiagnostiikan kohtia:
– Regressiografiikankäyttö regressiodiagnostiikassa – Poikkeavat havainnotja niiden tunnistaminen – Regressiokertoimien vakioisuudentestaaminen
– Selittäjien multikollineaarisuudenvaikutukset ja mittaaminen – Mallin jäännöstermin homoskedastisuusja heteroskedastisuus – Mallin jäännöstermin korreloituneisuus
– Mallin jäännöstermin normaalisuus – Mallin ennustuskyky
TKK (c) Ilkka Mellin (2004) 5
Regressiodiagnostiikka:
Esitiedot
• Esitiedot: ks. seuraavia lukuja:
Yleinen lineaarinen malli
Moniulotteiset satunnaismuuttujat ja todennäköisyysjakaumat Moniulotteisia todennäköisyysjakaumia
TKK (c) Ilkka Mellin (2004) 6
Regressiodiagnostiikka:
Lisätiedot
• Yleisen lineaarisen mallin soveltamisen erityiskysymyksiä käsitellään myös luvuissa
Regressiomallin valinta
Regressioanalyysin erityiskysymyksiä
TKK (c) Ilkka Mellin (2004) 7
>> Yleinen lineaarinen malli ja regressiodiagnostiikka Regressiografiikka
Poikkeavat havainnot Regressiokertoimien vakioisuus Multikollineaarisuus
Homoskedastisuus ja heteroskedastisuus Autokorrelaatio
Normaalisuus Mallin ennustuskyky
Regressiodiagnostiikka
TKK (c) Ilkka Mellin (2004) 8
Avainsanat
Deterministinen malli Heteroskedastisuus Homoskedastisuus Jäännöstermi Korrelaatio Normaalisuus Lineaarinen regressiomalli Mallin ennustuskyky Mallin spesifiointi Mallin täsmentäminen Multikollineaarisuus Pienimmän neliösumman
menetelmä Poikkeava havainto Rakenneosa
Yleinen lineaarinen malli ja regressiodiagnostiikka
Regressioanalyysi Regressiodiagnostiikka Regressiofunktio Regressiokerroin Regressiomalli Satunnainen osa Selitettävä muuttuja Selittäjien valinta Selittäminen Selittävä muuttuja Spesifiointivirhe Standardioletus Systemaattinen osa Tilastollinen riippuvuus Vakioparametrisuusoletus
TKK (c) Ilkka Mellin (2004) 9
Yleinen lineaarinen malli ja regressiodiagnostiikka
Regressiomallit selitysmalleina
• Oletetaan, että tavoitteena on selittääselitettävän muuttujan yhavaittujen arvojen vaihtelu selittävien muuttujien eli selittäjien x1, x2, … , xkhavaittujen arvojen vaihtelun avulla.
• Sitä varten selitettävän muuttujan ytilastolliselle riippuvuudelle selittäjistä x1, x2, … , xkpyritään rakentamaan tilastollinen malli, jota kutsutaan regressiomalliksi.
TKK (c) Ilkka Mellin (2004) 10
Yleinen lineaarinen malli ja regressiodiagnostiikka
Regressiomallien yleinen muoto 1/3
• Olkoon
selitettävän muuttujan yregressiomalliselittäjien x1, x2, … , xksuhteen.
• Tällöin
yj =selitettävän muuttujany satunnainenja havaittu arvohavaintoyksikössä j xji=selittävän muuttujanxihavaittu arvo
havaintoyksikössä j, i =1, 2, … , k εj =satunnainenja ei-havaittujäännös-eli
virhetermihavaintoyksikössäj
1 2
( , , , ; ) , 1,2, ,
j j j jk j
y =f x x … x β +ε j= …n
TKK (c) Ilkka Mellin (2004) 11
Yleinen lineaarinen malli ja regressiodiagnostiikka
Regressiomallien yleinen muoto 2/3
• Regressiomallissa
selittäjien x1, x2, … , xkhavaittujen arvojen funktio muodostaa mallin systemaattisen osaneli rakenneosan ja jäännöstermi
εj
muodostaa mallin satunnaisen osan.
• Mallin systemaattinen osa kuvaa selitettävän muuttujan y tilastollista riippuvuuttaselittäjistäx1, x2, … , xk.
1 2
( , , , ; ) , 1,2, ,
j j j jk j
y =f x x …x β +ε j= …n
1 2
( j, j, , jk; )
f x x …x β
TKK (c) Ilkka Mellin (2004) 12
Yleinen lineaarinen malli ja regressiodiagnostiikka
Regressiomallien yleinen muoto 3/3
• Regressiomallissa
mallin systemaattisen osan määräävä funktio riippuu parametrista
β= (β1, β2, … , βp)
joka tarkemmin määrää funktion fmuodon.
• Huomautus:
Tavallisesti parametrin βarvo on tuntematonja on siksi estimoitavahavainnoista.
1 2
( , , , ; ) , 1,2, ,
j j j jk j
y =f x x … x β +ε j= …n
1 2
( j, j, , jk; )
f x x … x β
TKK (c) Ilkka Mellin (2004) 13
Yleinen lineaarinen malli ja regressiodiagnostiikka
Onko malli oikea ja onko malli hyvä?
• Regressioanalyysin peruskysymykset:
(i) Kuvaako malli selitettävän muuttujan ja selittäjien välistä riippuvuutta sisällöllisesti oikein?
Kysymys 1 ei ole tilastotieteellinenja siihen vastaaminen vaatii tutkittavaa ilmiötä kuvaavan taustateoriantuntemusta.
(ii) Kuvaako malli selitettävän muuttujan ja selittäjien välistä riippuvuutta tilastollisesti oikein?
Kysymys 2 on tilastotieteellinenja siihen voidaan pyrkiä vastaamaan tilastotieteen keinoin.
TKK (c) Ilkka Mellin (2004) 14
Yleinen lineaarinen malli ja regressiodiagnostiikka
Regressiomallin hyvyys ja regressiodiagnostiikka 1/2
• Regressiomallia pidetään tilastollisesti oikeana, jos mallista saadut estimointitulokset ovat sopusoinnussa mallia koskevien oletuksien kanssa.
• Siksi regressiomallia koskevien oletuksien tarkistaminen muodostaa keskeisen osan regressioanalyysin soveltamista.
• Regressiomallia koskevien oletuksien tarkistamista on tapana kutsua regressiodiagnostiikaksi.
TKK (c) Ilkka Mellin (2004) 15
Yleinen lineaarinen malli ja regressiodiagnostiikka
Regressiomallin hyvyys ja regressiodiagnostiikka 2/2
• Regressiodiagnostiikassa käytetään seuraavia menetelmiä:
– Estimoinnin onnistumista havainnollistetaan tilastografiikalla.
– Estimoinnin onnistumista kuvataan diagnostisilla tunnusluvuilla.
– Mallia koskevia oletuksia testataan diagnostisilla testeillä.
TKK (c) Ilkka Mellin (2004) 16
Yleinen lineaarinen malli ja regressiodiagnostiikka
Regressiomallin spesifiointi eli täsmentäminen 1/2
• Tilastollisen mallin muodonja mallia koskevien oletuksien määrittelemistä kutsutaan mallin spesifioinniksieli täsmentämiseksi.
• Määriteltyä mallia kutsutaan spesifikaatioksitai täsmennykseksi.
TKK (c) Ilkka Mellin (2004) 17
Yleinen lineaarinen malli ja regressiodiagnostiikka
Regressiomallin spesifiointi eli täsmentäminen 2/2
• Regressiomallin spesifioiminen tarkoittaa seuraavien valintojen tekemistä:
(i) Mallin selitettävän muuttujanja selittäjienvalinta.
(ii) Mallin systemaattisen eli rakenneosan funktionaalisen muodonja parametroinninvalinta.
(iii) Mallin selitettävän muuttujanja selittäjien funktionaalisen muodonvalinta.
(iv) Mallin jäännöstermiä koskevien stokastisten oletuksien valinta.
TKK (c) Ilkka Mellin (2004) 18
Yleinen lineaarinen malli ja regressiodiagnostiikka
Regressiomallin täsmentäminen:
Kommentteja
• Valinnat (i)-(iii) liittyvät regressiomallin rakenneosan spesifiointiin.
• Valinta (iv) liittyy regressiomallin jäännöstermin spesifiointiin.
• Huomautus:
Valinnat (i)-(iv) eivät ole toisistaan riippumattomia.
TKK (c) Ilkka Mellin (2004) 19
Yleinen lineaarinen malli ja regressiodiagnostiikka
Lineaariset regressiomallit
• Olkoon selitettävän muuttujan yregressiomalli selittäjien x1, x2, … , xksuhteen muotoa
• Tällöin malli on lineaarinensekä parametrien (regressio- kertoimien) β0, β1, β2, … , βkettä selittäjien x1, x2, … , xk suhteen ja sitä kutsutaanyleiseksi lineaariseksi malliksi.
0 1 1 2 2 , 1,2, ,
j j j k jk j
y =β +βx +βx + +βx +ε j= …n
TKK (c) Ilkka Mellin (2004) 20
Yleinen lineaarinen malli ja regressiodiagnostiikka
Yleinen lineaarinen malli:
Määritelmä
• Olkoon
yleinen lineaarinen malli, jossa
yj =selitettävän muuttujany satunnainenja havaittuarvo havaintoyksikössäj
xji=selittävän muuttujaneli selittäjänxihavaittu arvohavaintoyksikössäj, i= 1, 2, … , k β0=vakioselittäjän tuntematonregressiokerroin βi =selittäjän xituntematonregressiokerroin εj =satunnainenja ei-havaittujäännös-eli
virhetermihavaintoyksikössäj
0 1 1 2 2 , 1, 2, ,
j j j k jk j
y =β +βx +βx + +β x +ε j= …n
TKK (c) Ilkka Mellin (2004) 21
Yleinen lineaarinen malli ja regressiodiagnostiikka
Yleinen lineaarinen malli:
Matriisiesitys
• Yleinen lineaarinen malli voidaan esittää matriisein muodossa
jossa
y=selitettävän muuttujany havaittujen arvojen muodostama satunnainen n-vektori
X=selittäjien x1, x2, … , xkhavaittujen arvojen ja ykkösten muodostaman×(k+ 1)-matriisi β=regressiokertoimienmuodostama tuntematon
ja kiinteäeli ei-satunnainen(k+ 1)-vektori ε=jäännöstermienmuodostama ei-havaittuja
satunnainen n-vektori +
y = Xβ ε
TKK (c) Ilkka Mellin (2004) 22
Yleinen lineaarinen malli ja regressiodiagnostiikka
Yleinen lineaarinen malli:
Standardioletukset kiinteille selittäjille
• Jos yleisen lineaarisen mallin selittäjät x1, x2, … , xkovat kiinteitäeli ei-satunnaisiamuuttujia, mallia koskevat standardioletuksetvoidaan esittää matriisein seuraavassa muodossa:
(i) Matriisin Xalkiot ovat ei-satunnaisia vakioita.
(ii) Matriisi Xon täysiasteinen: r(X) = k+ 1 (iii) E(ε) = 0
(iv)&(v) Homoskedastisuus-ja korreloimattomuusoletus:
Cov(ε) = σ2I (vi) Normaalisuusoletus:
ε ∼Nn(0, σ2I)
y = Xβ +ε
TKK (c) Ilkka Mellin (2004) 23
Yleinen lineaarinen malli ja regressiodiagnostiikka
Yleinen lineaarinen malli:
Standardioletukset satunnaisille selittäjille
• Jos yleisen lineaarisen mallin selittäjät x1, x2, … , xkovat satunnaismuuttujia, mallia koskevat standardioletuksetvoidaan esittää matriisein seuraavassa muodossa:
(i)´ Matriisin Xalkiot ovat satunnaismuuttujia.
(ii)´ Matriisi Xon täysiasteinen: r(X) = k+ 1 (iii)´ E(ε| X) = 0
(iv)´&(v)´Homoskedastisuus-ja korreloimattomuusoletus:
Cov(ε| X) = σ2I (vi)´ Normaalisuusoletus:
(ε| X) ∼Nn(0, σ2I) + y = Xβ ε
TKK (c) Ilkka Mellin (2004) 24
Yleinen lineaarinen malli ja regressiodiagnostiikka
Yleinen lineaarinen malli:
Rakenneosa ja jäännösosa
• Yleisessä lineaarisessa mallissa
selitettävä muuttujan arvojen vektori yon esitetty kahden osatekijän summana.
• Mallin systemaattineneli rakenneosa riippuu selittäjien havaituista arvoista.
• Jäännöstermiεmuodostaa mallin satunnaisen osan, joka ei riipu selittäjien havaituista arvoista.
= +
y Xβ ε
E(y X)=Xβ
TKK (c) Ilkka Mellin (2004) 25
Yleinen lineaarinen malli ja regressiodiagnostiikka
Yleinen lineaarinen malli:
Regressiokertoimien PNS-estimointi 1/2
• Yleisen lineaarisen mallin regressiokertoimien
β0, β1, β2, … , βk
PNS-eli pienimmän neliösumman estimaattorit b0, b1, b2, … , bk
minimoivat jäännös- eli virhetermien εjneliösumman
kertoimien β0, β1, β2, … , βksuhteen.
2 2
0 1 1 2 2
1 1
( )
n n
j j j j k jk
j j
y x x x
ε β β β β
= =
= − − − − −
∑ ∑
0 1 1 2 2 , 1, 2, ,
j j j k jk j
y =β +βx +βx + +β x +ε j= …n
TKK (c) Ilkka Mellin (2004) 26
Yleinen lineaarinen malli ja regressiodiagnostiikka
Yleinen lineaarinen malli:
Regressiokertoimien PNS-estimointi 2/2
• Yleisen lineaarisen mallin regressiokertoimien vektorin
β= (β0, β1, β2, … , βk)
PNS-estimaattorivoidaan esittää matriisein muodossa
= +
y Xβ ε
( ′ )−1 ′
=
b X X X y
TKK (c) Ilkka Mellin (2004) 27
Yleinen lineaarinen malli ja regressiodiagnostiikka
Yleinen lineaarinen malli:
PNS-estimaattorin ominaisuudet
• Yleisen lineaarisen mallin
regressiokertoimien vektorin βPNS-estimaattorilla on standardioletuksien (i)-(vi) pätiessä seuraavat stokastiset ominaisuudet:
= +
y Xβ ε ( ′ )−1 ′ b= X X X y
2 1
2 1
1
E( )
Cov( ) ( )
N ( ,k ( ) ) σ
σ
−
− +
=
= ′
′
b β
b X X
b∼ β X X
TKK (c) Ilkka Mellin (2004) 28
Yleinen lineaarinen malli ja regressiodiagnostiikka
Yleinen lineaarinen malli:
Sovitteet ja residuaalit 1/2
• Olkoon
b= (b0, b1, b2, … , bk) regressiokertoimien vektorin
β= (β0, β1, β2, … , βk) PNS-estimaattori.
• Määritellään estimoidun mallin sovitteet kaavalla
• Määritellään estimoidun mallin residuaalitejkaavalla
0 1 1 2 2 , 1, 2, ,
ˆj j j k jk
y = +b b x +b x + +b x j= …n
0 1 1 2 2
ˆ
, 1, 2, ,
j j j
j j j k jk
e y y
y b b x b x b x j n
= −
= − − − − − = …
ˆj y
TKK (c) Ilkka Mellin (2004) 29
Yleinen lineaarinen malli ja regressiodiagnostiikka
Yleinen lineaarinen malli:
Sovitteet ja residuaalit 2/2
• Sovitteidenmuodostama n-vektori voidaan esittää matriisein muodossa
• Residuaalienmuodostama n-vektori voidaan esittää matriisein muodossa
• Huomautus:
Koska residuaalit kuvaavat estimoidun regressiomallin ja havaintoarvojen yhteensopivuutta, monet regressiodiagnostiikan menetelmistä perustuvat estimoidun regressiomallin residuaaleihin tai niiden muunnoksiin.
ˆ= = ( ′ )−1 ′ = y Xb X X X X y Py
ˆ ( ( ′ )−1 ′) ( )
= − = − = − =
e y y I X X X X y I P y My
TKK (c) Ilkka Mellin (2004) 30
Yleinen lineaarinen malli ja regressiodiagnostiikka
Yleinen lineaarinen malli:
Sovitteiden ja residuaalien ominaisuudet
• Sovitteiden muodostamalla n-vektorilla on seuraavat stokastiset ominaisuudet:
• Residuaalien muodostamalla n-vektorillaeon seuraavat stokastiset ominaisuudet:
• Huomautus:
Yllä olevan mukaan residuaalitejovat yleensä sekä
heteroskedastisiaettäkorreloituneita, vaikka jäännöstermit εjon oletettu homoskedastisiksi ja korreloimattomiksi.
2 2 1
E( )ˆ
Cov( )ˆ σ σ ( )−
=
′ ′
= =
y Xβ
y P X X X X
2 2 2 1
E( )
Cov( ) σ σ ( ) σ ( ( )− )
=
′ ′
= = − = −
e 0
e M I P I X X X X
ˆ y
TKK (c) Ilkka Mellin (2004) 31
Yleinen lineaarinen malli ja regressiodiagnostiikka
Yleinen lineaarinen malli:
Projektiomatriisit P ja M
• Matriisit
ovat symmetrisiäja idempotenttejaeli projektioita:
• Lisäksi
PM= MP= 0
• Matriisia Pkutsutaan regressiodiagnostiikassa usein hattumatriisiksi.
1
1
( )
( )
−
−
′ ′
=
′ ′
= − = − P X X X X
M I P I X X X X
2 2
′ = =
′ = =
P P P P
M M M M
TKK (c) Ilkka Mellin (2004) 32
Yleinen lineaarinen malli ja regressiodiagnostiikka
Yleinen lineaarinen malli:
Jäännösvarianssin estimointi
• Yleisen lineaarisen mallin jäännöstermien εjvarianssin eli jäännösvarianssinσ2harhaton estimaattorion
jossa
ej= estimoidun mallin residuaali,j= 1, 2, … , n n= havaintojen lukumäärä
k = (aitojen) selittäjien xilukumäärä
2 2
1
1 1
n j j
s e
n k =
= − −
∑
TKK (c) Ilkka Mellin (2004) 33
Yleinen lineaarinen malli ja regressiodiagnostiikka
Yleinen lineaarinen malli:
Mallin spesifiointi
• Yleistä lineaarista mallia
sovellettaessa pääkiinnostus kohdistuumallin systemaattisen osaneli rakenneosan
oikeaan spesifiointiineli täsmentämiseen, koska juuri mallin rakenneosa kuvaa selitettävän muuttujan y riippuvuutta selittäjistäx1, x2, … , xk.
• Virheet mallin rakenneosan spesifioinnissa johtavat virheellisiin johtopäätöksiinselitettävän muuttujan ja selittäjien välisestä riippuvuudesta.
= +
y Xβ ε
E(y X)=Xβ
TKK (c) Ilkka Mellin (2004) 34
Yleinen lineaarinen malli ja regressiodiagnostiikka
Yleinen lineaarinen malli:
Spesifiointivirheet mallin rakenneosassa 1/3
• Spesifiointivirheitä lineaarisen mallin rakenneosassa:
(i) Sovelletaan lineaarista mallia, vaikka selitettävän muuttujan yriippuvuus selittäjistäx1, x2, … , xkei ole lineaarista.
(ii) Mallissa on väärät selittäjät:
– Mallista puuttuuselittäjiä.
– Mallissa on liikaaselittäjiä.
(iii) Selitettävä muuttuja ja/tai selittäjät ovat mallissa väärässä funktionaalisessa muodossa.
(iv) Oletetaan virheellisesti, että regressiokertoimet ovat vakioita.
TKK (c) Ilkka Mellin (2004) 35
Yleinen lineaarinen malli ja regressiodiagnostiikka
Yleinen lineaarinen malli:
Spesifiointivirheet mallin rakenneosassa 2/3
• Kommentteja kohtiin (i)-(iv):
(i) Epälineaaristen regressiomallienkäsittely sivuutetaan tässä esityksessä.
(ii) Selittäjien valintaon regressioanalyysin keskeisiä – ja vaikeimpia – ongelmia.
Ks. lukua Regressiomallin valinta.
(iii) Sopiva selitettävän muuttujan ja/tai selittäjien muunnos saattaa linearisoidaselitettävän muuttujan ja selittäjien epälineaarisen riippuvuuden.
Ks. lukua Regressiomallin valinta.
(iv) Parametrien vakioisuutta on mahdollista testata.
Ks. kappaletta Parametrien vakioisuus.
TKK (c) Ilkka Mellin (2004) 36
Yleinen lineaarinen malli ja regressiodiagnostiikka
Yleinen lineaarinen malli:
Spesifiointivirheet mallin rakenneosassa 3/3
• Vain huolellinen perehtyminen tutkittavan ilmiön taustateoriaanmahdollistaa regressiomallin rakenneosan spesifioinnin oikein.
• Spesifiointivirheet regressiomallin rakenneosassa tulevat tavallisesti esiin estimoidun mallin residuaaleissa.
TKK (c) Ilkka Mellin (2004) 37
Yleinen lineaarinen malli ja regressiodiagnostiikka
Yleinen lineaarinen malli:
Mallin jäännöstermin spesifiointi
• Vaikka yleistä lineaarista mallia
sovellettaessa pääasiallinen kiinnostus kohdistuumallin systemaattisen osaneli rakenneosan
oikeaan spesifiointiin, on syytä huomata, että mallin jäännöstermille
ε
valittu spesifikaatioeli täsmennysvaikuttaasekä estimointimenetelmän valintaanettämallista tehtävään tilastolliseen päättelyyn.
= +
y Xβ ε
E(y X)=Xβ
TKK (c) Ilkka Mellin (2004) 38
Yleinen lineaarinen malli ja regressiodiagnostiikka
Yleinen lineaarinen malli:
Spesifiointivirheet mallin jäännöstermissä 1/3
• Spesifiointivirheitä lineaarisen mallin jäännöstermissä:
(i) Oletetaan virheellisesti, että jäännöstermi εon homoskedastinenja korreloimaton.
(ii) Oletetaan virheellisesti, että jäännöstermi εon normaalinen.
TKK (c) Ilkka Mellin (2004) 39
Yleinen lineaarinen malli ja regressiodiagnostiikka
Yleinen lineaarinen malli:
Spesifiointivirheet mallin jäännöstermissä 2/3
• Kommentteja kohtiin (i)-(ii):
(i) Jos jäännöstermiäkoskeva homoskedastisuus- tai korreloimattomuusoletus ei päde, regressio- kertoimien PNS-estimaattorit eivät ole parhaita Gaussin ja Markovin lauseen mielessä.
Ks. lukua Regressiomallin erityiskysymyksiä.
(ii) Jos jäännöstermiäkoskeva normaalisuusoletus ei päde, t- ja F-jakaumiin perustuva tilastolliset testit eivät välttämättä ole päteviä.
TKK (c) Ilkka Mellin (2004) 40
Yleinen lineaarinen malli ja regressiodiagnostiikka
Yleinen lineaarinen malli:
Spesifiointivirheet mallin jäännöstermissä 3/3
• Spesifiointivirheet regressiomallin jäännöstermissä näkyvät tavallisesti estimoidun mallinresiduaaleissa.
• Estimoidun mallin residuaaleissahavaittu hetero- skedastisuus, korreloituneisuus tai epänormaalisuus ei kuitenkaan välttämättä merkitse sitä, että mallin jäännöstermi on spesifioitu väärin.
• Residuaalien heteroskedastisuus, korreloituneisuus tai epänormaalisuus saattavat indikoida myös sitä, että mallin rakenneosa on spesifioitu väärin.
TKK (c) Ilkka Mellin (2004) 41
Yleinen lineaarinen malli ja regressiodiagnostiikka
Yleinen lineaarinen malli:
Spesifiointivirheiden vaikutukset
• Regressioanalyysissa pääkiinnostus kohdistuu oikean spesifikaation löytämiseen regressiomallin systemaattiselle osalleeli rakenneosalle, koska juuri rakenneosa kuvaa selitettävän muuttujan riippuvuutta selittäjistä.
• Regressiomallin jäännöstermin spesifikaatiovaikuttaa kuitenkin voimakkaasti sekä mallin estimointiinettä testaukseen.
• Sekä regressiomallin rakenneosan että jäännöstermin virheellinen spesifiointinäkyytavallisesti estimoidun mallinresiduaaleissa.
TKK (c) Ilkka Mellin (2004) 42
Yleinen lineaarinen malli ja regressiodiagnostiikka
Yleinen lineaarinen malli:
Diagnostiset tarkistukset
• Regressiomalli on aina syytä alistaa seuraavien diagnostisten tarkistustenkohteeksi:
(i) Onko havaintojen joukossa regressioanalyysin tuloksia vääristäviäpoikkeavia havaintoja?
(ii) Ovatko regressiokertoimet vakioita?
(iii) Ovatko selittäjät itsenäisiä?
(iv) Ovatko mallin jäännöstermit homoskedastisia?
(v) Ovatko mallin jäännöstermit korreloimattomia?
(vi) Ovatko mallin jäännöstermit normaalisia?
TKK (c) Ilkka Mellin (2004) 43
Yleinen lineaarinen malli ja regressiodiagnostiikka
Yleinen lineaarinen malli:
Mallin ennustuskyvyn arviointi
• On syytä muistaa, ettävoimakkain testi tieteelliselle selitysmallille on sen kyky ennustaa.
• Siksi regressiomalleja sovellettaessa on aina syytätestata mallin ennustuskykyätavanomaisten diagnostisten tarkistusten lisäksi.
TKK (c) Ilkka Mellin (2004) 44
Yleinen lineaarinen malli ja regressiodiagnostiikka
>> Regressiografiikka Poikkeavat havainnot Parametrien vakioisuus Multikollineaarisuus
Homoskedastisuus ja heteroskedastisuus Autokorrelaatio
Normaalisuus Mallin ennustuskyky
Regressiodiagnostiikka
TKK (c) Ilkka Mellin (2004) 45
Avainsanat Aikasarjadiagrammi Heteroskedastisuus Homoskedastisuus Jäännöstermi Korrelaatio
Lineaarinen regressiomalli Pistediagrammi Rakenneosa Regressiografiikka Residuaali Residuaalidiagrammi Satunnainen osa Selitysaste Sovite Systemaattinen osa
Regressiografiikka
TKK (c) Ilkka Mellin (2004) 46
Regressiografiikka
Regressiomallin hyvyys ja regressiografiikka
• Regressiomallin hyvyyttävoidaan tutkia mallista saatuja estimointituloksia havainnollistavien graafisten esitysten avulla.
• Regressiografiikan standardikuviot:
(i) Kuviot, joiden avulla estimoidun mallin sovitteita verrataan selitettävän muuttujan havaittuihin arvoihin.
(ii) Kuviot, joiden avulla havainnollistetaanestimoidun mallin residuaaleja.
TKK (c) Ilkka Mellin (2004) 47
Regressiografiikka
Sovitteiden tutkiminen:
Pistediagrammien käyttö 1/2
• Regressiomallin spesifikaation hyvyyttävoidaan tutkia vertaamallaestimoidun mallin sovitteita selitettävän muuttujan havaittuihin arvoihinpiirtämällä niiden riippuvuutta havainnollistava pistediagrammi:
Piirretään sovitteet selitettävän muuttujan havaittuja arvoja vastaaneli esitetään lukuparit
pisteinä avaruudessa . ( , ) ,y yj ˆj j=1,2, ,…n
2
TKK (c) Ilkka Mellin (2004) 48
Regressiografiikka
Sovitteiden tutkiminen:
Pistediagrammien käyttö 2/2
• Regressiomalli on sitäparempimitälähempänäpisteet ovat suoraa, jonka kulmakerroin = 1.
• Pisteiden muodostaman pistepilven tai -parven käyristyminenviittaa regressiomallin rakenne- osan väärään spesifikaatiooneli täsmennykseen.
• Poikkeavat havainnoterottuvat tavallisesti ”kaukana” em.
suorasta olevina pisteinä.
ˆ
( , ) ,y yj j j=1,2, ,…n ˆ
( , ) ,y yj j j=1,2, ,…n
TKK (c) Ilkka Mellin (2004) 49
Regressiografiikka
Sovitteiden tutkiminen:
Mallin hyvyyden mittaaminen
• Regressiomallin hyvyyden mittarinavoidaan käyttää selitettävän muuttujan yhavaittujen arvojen yjja estimoidun mallin sovitteiden otoskorrelaatiokerrointa
• Jos estimoitu regressiomalli on lineaarinen ja mallissa on vakio,
jossa R2on estimoidun mallin selitysaste.
[
Cor( , )y yˆ]
2=R2 Cor( , )y yˆˆj y
TKK (c) Ilkka Mellin (2004) 50
Regressiografiikka
Residuaalien tutkiminen:
Residuaalidiagrammit 1/2
• Regressiomallin spesifikaation hyvyyttävoidaan tutkia piirtämällä estimoidun mallin residuaaleistakuviot, joita kutsutaan residuaalidiagrammeiksi:
(i) Piirretään residuaalit sovitteita vastaaneli esitetään lukuparit
pisteinä avaruudessa .
(ii) Piirretään residuaalit eri selittäjien arvoja vastaaneli esitetään lukuparit
pisteinä avaruudessa . ( , ) ,ˆy ej j j=1,2, ,…n
( , ) ,x eji j j=1, 2, , ;…n i=1, 2, ,…k
2
2
TKK (c) Ilkka Mellin (2004) 51
Regressiografiikka
Residuaalien tutkiminen:
Residuaalidiagrammit 2/2
• Oikein täsmennetynregressiomallin residuaali- diagrammeissa pisteet muodostavat vaakatasossa vasemmalta oikealle etenevät tasaleveät pistepilvettai -parvet, joissa ei näy poikkeavia havaintoja.
• Residuaalidiagrammien pistepilvien käyristyminenviittaa regressiomallin rakenneosan väärään spesifikaatiooneli täsmennykseen:
(i) Selitettävän muuttujan riippuvuus selittäjistäei ole lineaarista.
(ii) Mallissa ei ole oikeita selittäjiä.
(iii) Selitettävä muuttuja ja/tai selittäjät eivät ole oikeassa funktionaalisessa muodossa.
TKK (c) Ilkka Mellin (2004) 52
Regressiografiikka
Residuaalien tutkiminen:
Heteroskedastisuus
• Jos residuaalidiagrammien pistepilvet tai -parvet eivät ole tasaleveitä(esim. pilvet levenevätoikealle tai vasemmalle), regressiomallin jäännöstermi saattaa olla heteroskedastinen.
• Estimoidun mallin residuaalien heteroskedastisuus saattaa kuitenkin viitata myös mallin rakenneosan väärään spesifikaatiooneli täsmennykseen.
TKK (c) Ilkka Mellin (2004) 53
Regressiografiikka
Aikasarjojen regressiomallit
• Aikasarjojen regressiomalleissaoletetaan, että havainnot on järjestetty ajassa niin, että havaintoindeksin
j= 1, 2, … , n
arvot viittaavat peräkkäisiin ajanhetkiin.
• Huomautus:
Aikasarjoissa havaintoindeksinä käytetään usein kirjainta t:
t←time
TKK (c) Ilkka Mellin (2004) 54
Regressiografiikka
Aikasarjojen regressiomallit:
Sovitteiden ja residuaalien tutkiminen 1/3
• Aikasarjojen regressiomallin spesifikaation hyvyyttä tutkitaan tavallisesti piirtämällä seuraavat aikasarja- diagrammit:
(i) Piirretään selitettävän muuttujan havaitut arvot ja estimoidun mallin sovitteet
aikasarjoinasamaan kuvioon.
(ii) Piirretään estimoidun mallin residuaalit aikasarjana.
ˆ ,j 1,2,...,
y j= n
, 1,2,...,
yj j= n
, 1, 2,...,
ej j= n
TKK (c) Ilkka Mellin (2004) 55
Regressiografiikka
Aikasarjojen regressiomallit:
Sovitteiden ja residuaalien tutkiminen 2/3
• Aikasarjadiagrammit ovat pistediagrammeja, joissa muuttujan arvot piirretään aikaa vastaan.
Tavallisesti peräkkäisiin havaintoihin liittyvät pisteet yhdistetään aikasarjadiagrammissa janalla.
• Siten edellisellä kalvolla mainitut aikasarjadiagrammien piirtäminen merkitsee seuraavien pistediagrammien piirtämistä:
(i) Selittettävän muuttujan arvot:
Sovitteet:
(ii) Residuaalit:
( , ) ,j yˆj j=1,2,...,n ( , ) ,j yj j=1,2,...,n ( , ) ,j ej j=1,2,...,n
TKK (c) Ilkka Mellin (2004) 56
Regressiografiikka
Aikasarjojen regressiomallit:
Sovitteiden ja residuaalien tutkiminen 3/3
• Regressiomalli on sitäparempi, mitälähempänä estimoidun mallin sovitteiden muodostama aikasarja kulkee selitettävän muuttujan havaittujen arvojen muodostamaa aikasarjaa
tai −mikä on sama asia −mitäpienempiäovat residuaalit
• Aikasarjadiagrammeista (i) ja (ii) (ks. edelliset kalvot) nähdään minä ajanhetkinämalli selittää selitettävän muuttujan käyttäytymistähyvinja minähuonosti.
ˆ ,j 1, 2, ,
y j= …n
, 1,2, , yj j= …n
, 1,2,...,
ej j= n
TKK (c) Ilkka Mellin (2004) 57
Regressiografiikka
Aikasarjojen regressiomallit:
Residuaalit ja regressiodiagnostiikka
• Jos residuaaliaikasarjan pistepilvi ei ole tasaleveä(esim.
pilvi leveneeoikealle tai vasemmalle), regressiomallin jäännöstermi saattaa olla heteroskedastinen.
• Residuaaliaikasarjan heteroskedastisuus saattaa kuitenkin viitata myös mallin rakenneosan väärään spesifikaatioon eli täsmennykseen.
• Jäännöstermin korreloituneisuustulee esille residuaali- aikasarjan sisäisessä rytmiikassa (autokorrelaatio- rakenteessa).
• Residuaaliaikasarjan korreloituneisuus saattaa kuitenkin viitata myös mallin rakenneosan väärään spesifikaatioon eli täsmennykseen.
TKK (c) Ilkka Mellin (2004) 58
Yleinen lineaarinen malli ja regressiodiagnostiikka Regressiografiikka
>> Poikkeavat havainnot Parametrien vakioisuus Multikollineaarisuus
Homoskedastisuus ja heteroskedastisuus Autokorrelaatio
Normaalisuus Mallin ennustuskyky
Regressiodiagnostiikka
TKK (c) Ilkka Mellin (2004) 59
Avainsanat Cookin etäisyys Hattumatriisi Leverage
Lineaarinen regressiomalli Normaali havainto Poikkeava havainto Poistoresiduaali Residuaali Residuaalidiagrammi Sovite
Standardoitu poistoresiduaali Standardoitu residuaali Vipuluku
Poikkeavat havainnot
TKK (c) Ilkka Mellin (2004) 60
Poikkeavat havainnot
Poikkeavat ja normaalit havainnot
• Poikkeavalla havainnolla(engl. outlier) tarkoitetaan havaintoa, joka eroaajossakin mielessä merkitsevästi muista havainnoista.
• Tilastollisen analyysin kannalta havaintoa voidaan pitää poikkeavana, jos se vääristäätilastollisen analyysin tulokset:
(i) Jos havainnon poistaminen muuttaa olennaisesti tilastollisen analyysin tuloksia, havainto on poikkeava.
(ii) Jos havainnon poistaminen ei olennaisesti muuta tilastollisen analyysin tuloksia, havainto on normaali.
TKK (c) Ilkka Mellin (2004) 61
Poikkeavat havainnot
Poikkeavien havaintojen vaikutukset
• Regressioanalyysissa poikkeavat havainnot saattavat aiheuttaaseuraavia vaikeuksia:
(i) Mallinvalintavaikeutuu.
(ii) Mallin estimointihankaloituu.
(iii) Mallia koskeva tilastollinen päättelysaattaa vääristyä.
TKK (c) Ilkka Mellin (2004) 62
Poikkeavat havainnot
Poikkeavien havaintojen tunnistaminen 1/2
• Regressioanalyysissa poikkeavien havaintojen tunnistamiseen käytetään sekägraafisia menetelmiäettä erityisesti niiden tunnistamiseen konstruoituja tunnuslukuja.
• Poikkeavat havainnot voidaan usein tunnistaa suoraan residuaalidiagrammeista.
TKK (c) Ilkka Mellin (2004) 63
Poikkeavat havainnot
Poikkeavien havaintojen tunnistaminen 2/2
• Tässä kappaleessa tarkastellaan seuraavia poikkeavien havaintojen tunnistamiseen tarkoitettuja tunnuslukuja:
– Residuaalit
– Standardoidut residuaalit – Poistoresiduaalit
– Standardoidut poistoresiduaalit – Vipuluvut eli leverage-luvut – Cookin etäisyydet
TKK (c) Ilkka Mellin (2004) 64
Poikkeavat havainnot
Yleinen lineaarinen malli:
Määritelmä
• Olkoon
yleinen lineaarinen malli, jossa
yj =selitettävän muuttujany satunnainenja havaittuarvo havaintoyksikössäj
xji=selittävän muuttujaneli selittäjänxihavaittu arvohavaintoyksikössäj, i= 1, 2, … , k β0=vakioselittäjän tuntematonregressiokerroin βi =selittäjän xituntematonregressiokerroin εj =satunnainenja ei-havaittujäännös-eli
virhetermihavaintoyksikössäj
0 1 1 2 2 , 1, 2, ,
j j j k jk j
y =β +βx +βx + +β x +ε j= …n
TKK (c) Ilkka Mellin (2004) 65
Poikkeavat havainnot
Residuaalit:
Määritelmä
• Olkoot
b0, b1, b2, … , bk regressiokertoimien β0, β1, β2, … , βk
PNS-estimaattorit.
• Määritellään estimoidun mallin sovitteet kaavalla
• Määritellään estimoidun mallin residuaalitejkaavalla
0 1 1 2 2 , 1, 2, ,
ˆj j j k jk
y = +b b x +b x + +b x j= …n
0 1 1 2 2
ˆ
, 1, 2, ,
j j j
j j j k jk
e y y
y b b x b x b x j n
= −
= − − − − − = …
ˆj y
TKK (c) Ilkka Mellin (2004) 66
Poikkeavat havainnot
Residuaalit:
Poikkeavien havaintojen tunnistaminen
• Estimoidun mallin residuaalejaejvoidaan käyttää poikkeavien havaintojentunnistamiseen.
• Voimakkaasti muista residuaaleista poikkeavat residuaalit saattavat viitata poikkeaviin havaintoihin.
TKK (c) Ilkka Mellin (2004) 67
Poikkeavat havainnot
Standardoidut residuaalit:
Määritelmä 1/2
• Koska estimoidun lineaarisen regressiomallin PNS- residuaalit ejovat yleensä heteroskedastisia, regressio- diagnostiikassa tarkastellaan PNS-residuaalien sijasta usein standardoituja residuaaleja.
• Residuaalinej, j= 1, 2, … , nvarianssi on jossa
on hattumatriisin j.diagonaalialkio.
2 2
D ( )ej =σ (1−hjj)
[ ]
jj jj
h = P
( ′ )−1 ′
=
P X X X X
TKK (c) Ilkka Mellin (2004) 68
Poikkeavat havainnot
Standardoidut residuaalit:
Määritelmä 2/2
• Standardoiduteli studentisoidutresiduaalitStd(ej) , j= 1, 2, … , nsaadaan PNS-residuaaleistaejkaavalla
• Standardoidun residuaalin Std(ej) kaavassa on residuaalinejvarianssin estimaattori, jossa
on jäännösvarianssin σ2harhaton estimaattori.
Std( ) ˆD( )
j j
j
e e
= e
2 2
ˆD ( )ej =s(1−hjj)
2 2
1
1 1
n j j
s e
n k =
= − −
∑
TKK (c) Ilkka Mellin (2004) 69
Poikkeavat havainnot
Standardoidut residuaalit:
Poikkeavien havaintojen tunnistaminen
• Standardoituja residuaaleja Std(ej) voidaan käyttää poikkeavien havaintojentunnistamiseen.
• Jos estimoitu regressiomalli on riittävä kuvaamaan kaikkia havaintoja, standardoitujen residuaalien itseisarvot saavat vain pienellä todennäköisyydellä suurempia arvoja kuin 2.5-3.
• Lukuarvoja 2.5-3 suuremmat standardoitujen residuaalien itseisarvot saattavat viitata poikkeaviin havaintoihin.
• Standardoitujen residuaalien itseisarvoja voidaan verrata Studentint-jakaumastasopivasti valittuun kriittiseen rajaan.
TKK (c) Ilkka Mellin (2004) 70
Poikkeavat havainnot
Poistoresiduaalit:
Määritelmä 1/2
• Poikkeavia havaintojavoidaan etsiäpoistoresiduaalien avulla:
(i) Estimoidaan malli siten, että havainto jjätetään pois.
(ii) Määrätään havaintoa jvastaava poistoresiduaali selitettävän muuttujan yhavaitun arvon yjja ilman havaintoa jestimoidun mallin muuttujalle yantaman arvon erotuksena (ennustevirheenä).
• Havaintoa jvastaava poistoresiduaali mittaa ilman havaintoa jestimoidun mallin kykyäennustaaselitettävän muuttujan yarvo havainnossa j.
TKK (c) Ilkka Mellin (2004) 71
Poikkeavat havainnot
Poistoresiduaalit:
Määritelmä 2/2
• Poistoresiduaalitdj, j= 1, 2, … , nsaadaan PNS- residuaaleistaejkaavalla
jossa
on hattumatriisin j.diagonaalialkio.
1
j j
jj
d e
= h
−
[ ]
jj jj
h = P
( ′ )−1 ′
=
P X X X X
TKK (c) Ilkka Mellin (2004) 72
Poikkeavat havainnot
Standardoidut poistoresiduaalit:
Määritelmä 1/2
• Poistoresiduaalindj, j= 1, 2, … , n varianssion
jossa
on hattumatriisin j.diagonaalialkio.
2
D ( )2 j 1
jj
d h
= σ
−
[ ]
jj jj
h = P
( ′ )−1 ′ P X X X X=
TKK (c) Ilkka Mellin (2004) 73
Poikkeavat havainnot
Standardoidut poistoresiduaalit:
Määritelmä 2/2
• Standardoiduteli studentisoidutpoistoresiduaalit Std(dj) , j= 1, 2, … , nsaadaan poistoresiduaaleistadj
kaavalla
jossa
on poistoresiduaalindjvarianssin estimaattori, jossa on jäännösvarianssin σ2harhaton estimaattori mallista, josta havainto jon jätetty pois.
Std( ) ˆD( )
j j
j
d d
= d
2 2 ( )
ˆD ( ) 1
j j
jj
d s
= h
−
2 ( )j
s
TKK (c) Ilkka Mellin (2004) 74
Poikkeavat havainnot
Standardoidut poistoresiduaalit:
Poikkeavien havaintojen tunnistaminen
• Standardoituja poistoresiduaaleja Std(dj) voidaan käyttää poikkeavien havaintojentunnistamiseen.
• Jos estimoitu regressiomalli on riittävä kuvaamaan kaikkia havaintoja, standardoitujen poistoresiduaalien itseisarvot saavat vain pienellä todennäköisyydellä suurempia arvoja kuin 2.5-3.
• Lukuarvoja 2.5-3 suuremmat standardoitujen poisto- residuaalien itseisarvot saattavat viitata poikkeaviin havaintoihin.
• Standardoitujen poistoresiduaalien itseisarvoja voidaan verrata Studentint-jakaumastasopivasti valittuun kriittiseen rajaan.
TKK (c) Ilkka Mellin (2004) 75
Poikkeavat havainnot
Vipuluvut:
Määritelmä 1/2
• Poikkeavia havaintojavoidaan etsiävipulukujeneli leverage-lukujenavulla.
• Havaintoa jvastaava vipuluku(leverage) hjj, j= 1, 2, … , n onhattumatriisin
j. diagonaalialkio:
( ′ )−1 ′
=
P X X X X
[ ]
jj jj
h = P
TKK (c) Ilkka Mellin (2004) 76
Poikkeavat havainnot
Vipuluvut:
Määritelmä 2/2
• Vipuluvut hjjovat verrannollisia havaintopisteiden etäisyyksiin selittävien muuttujien havaintoarvojen aritmeettisten keskiarvojen muodostamasta pisteestä
1 2
(x xj, j, ,…xjk)
1 2
( , , , )x x …xk
TKK (c) Ilkka Mellin (2004) 77
Poikkeavat havainnot
Vipuluvut:
Poikkeavien havaintojen tunnistaminen
• Jos havaintoa jvastaava vipuluku (leverage) hjjon selvästi muita suurempi, havainto jon syrjässäselittävien muuttujien muihin havaintoarvoihin nähden.
• Syrjässä olevat havainnot saattavat vääristääregressio- analyysin tulokset.
TKK (c) Ilkka Mellin (2004) 78
Poikkeavat havainnot
Cookin etäisyydet:
Määritelmä 1/3
• Poikkeavia havaintojavoidaan etsiäCookin etäisyyksien avulla:
(i) Estimoidaan malli niin, että kaikki havainnot ovat mukana.
Lasketaan estimoidulle mallille sovitteet , l= 1, 2, … , n.
(ii) Estimoidaan malli jättämällä pois havainto j.
Lasketaan ilman havaintoa jestimoidun mallin antama arvo kaikille havaintoyksiköille l= 1, 2, … , n.
(iii) Verrataan lukuja ja toisiinsa.
ˆl y
ˆl j( )
y
ˆl y yˆl j( )
TKK (c) Ilkka Mellin (2004) 79
Poikkeavat havainnot
Cookin etäisyydet:
Määritelmä 2/3
• Cookin etäisyydetDj, j= 1, 2, … , nsaadaan kaavalla
jossa
on jäännösvarianssin σ2harhaton estimaattori, joka on määrätty, kun mallin estimoinnissa on käytetty kaikkia havaintoja.
2 1 ( )
2
ˆ ˆ
( )
( 1)
n
l l j
l j
y y
D k s
= −
= +
∑
2 2
1
1 1
n j j
s e
n k =
= − −
∑
TKK (c) Ilkka Mellin (2004) 80
Poikkeavat havainnot
Cookin etäisyydet:
Määritelmä 3/3
• Cookin etäisyydet Dj, j= 1, 2, … , nvoidaan laskea myös kaavalla
jossa Std(ej)
on havaintoa jvastaava standardoitu residuaalija on hattumatriisin
j.diagonaalialkio.
[ ]
jj jj
h = P
( ′ )−1 ′
=
P X X X X Std( )
1 1
j jj
j
jj
e h
D = k ⋅ h
+ −
TKK (c) Ilkka Mellin (2004) 81
Poikkeavat havainnot
Cookin etäisyydet:
Poikkeavien havaintojen tunnistaminen
• Cookin etäisyyksiäDjvoidaan käyttääpoikkeavien havaintojentunnistamiseen.
• Jos havaintoa jvastaava Cookin etäisyys Dj> 1
tai on selvästimuiden havaintojen Cookin etäisyyttä suurempi, havainto kannattaa ottaa erikoistarkasteluun.
TKK (c) Ilkka Mellin (2004) 82
Poikkeavat havainnot
Tilastografiikan käyttö
poikkeavien havaintojen tunnistamisessa 1/2
• Poikkeavien havaintojen tunnistamiseen tarkoitettujen tunnuslukujen käyttöä voidaan usein helpottaa sopivilla graafisilla esityksillä.
• Tällöin käytetyn tunnusluvun havaintokohtaiset arvot Tj, j= 1, 2, … , n
piirretään havaintonumeroa vastaan pistediagrammina (j, Tj) , j= 1, 2, … , n
• Poikkeavat havainnot erottuvat kuviosta tavallisesti helposti.
TKK (c) Ilkka Mellin (2004) 83
Poikkeavat havainnot
Tilastografiikan käyttö
poikkeavien havaintojen tunnistamisessa 2/2
• Pistediagrammissa (j, Tj) , j= 1, 2, … , n
tunnusluku Tjvoi olla esimerkiksi mikä tahansa seuraavista tunnusluvuista:
– Residuaali
– Standardoitu residuaali – Poistoresiduaali
– Standardoitu poistoresiduaali – Vipuluku
– Cookin etäisyys
TKK (c) Ilkka Mellin (2004) 84
Yleinen lineaarinen malli ja regressiodiagnostiikka Regressiografiikka
Poikkeavat havainnot
>> Parametrien vakioisuus Multikollineaarisuus
Homoskedastisuus ja heteroskedastisuus Autokorrelaatio
Normaalisuus Mallin ennustuskyky
Regressiodiagnostiikka
TKK (c) Ilkka Mellin (2004) 85
Avainsanat Chow-testi Ennustaminen F-testi
Lineaarinen regressiomalli Regressiokerroin Selitettävä muuttuja Selittävä muuttuja Vakioparametrisuusoletus
Parametrien vakioisuus
TKK (c) Ilkka Mellin (2004) 86
Parametrien vakioisuus
Vakioparametrisuusoletus yleisessä lineaarisessa mallissa
• Kun yleinen lineaarinen malli spesifioidaan muodossa spesifikaatioon sisältyy implisiittisestiseuraava mallin regressiokertoimia koskevavakioparametrisuusoletus:
Regressiokertoimet β0, β1, β2, … , βk
ovat samat kaikille havainnoille j= 1, 2, … , n.
• Lisäksi mallia koskeviin standardioletuksiin kuuluu homoskedastisuusoletuseli jäännösvarianssia koskeva vakioparametrisuusoletus:
0 1 1 2 2 , 1, 2, ,
j j j k jk j
y =β +βx +βx + +β x +ε j= …n
Var( )εj =σ2,j=1, 2, ,…n
TKK (c) Ilkka Mellin (2004) 87
Parametrien vakioisuus
Vakioparametrisuusoletuksen testaaminen:
Testausasetelma 1/4
• Jaetaan havainnot j= 1, 2, … , n kahteen osaan:
Osa 1: j= 1, 2, … , h(hkpl)
Osa 2: j= h+ 1, h+ 2, … , n((n–h) kpl)
• Oletetaan lisäksi, että h≥k+1
• Muodostetaan kaksilineaarista regressiomallia:
(i) Käytetään mallissa (1) havaintoja j= 1, 2, … , h.
(ii) Käytetään mallissa (2) havaintoja j= 1, 2, … , n.
TKK (c) Ilkka Mellin (2004) 88
Parametrien vakioisuus
Vakioparametrisuusoletuksen testaaminen:
Testausasetelma 2/4
• Malli (1) voidaan esittää matriisein muodossa jossa Xhon h×(k+1)-matriisi.
• Tehdään mallista (1) seuraavat oletukset:
h= h h+ h
y Xβ ε
2
( ) 1
N ( , )
h
h h h
r k
σ
= + X
ε ∼ 0 I
TKK (c) Ilkka Mellin (2004) 89
Parametrien vakioisuus
Vakioparametrisuusoletuksen testaaminen:
Testausasetelma 3/4
• Malli (2) voidaan esittää matriisein muodossa jossa Xnon n×(k+1)-matriisi.
• Tehdään mallista (2) seuraavat oletukset:
n= n n+ n
y Xβ ε
2
( ) 1
N ( , )
n
n n n
r k
σ
= + X
ε ∼ 0 I
TKK (c) Ilkka Mellin (2004) 90
Parametrien vakioisuus
Vakioparametrisuusoletuksen testaaminen:
Testausasetelma 4/4
• Huomaa, että mallin (2)n×(k+ 1)-matriisi Xnvoidaan esittää muodossa
jossa (n–h)×(k+ 1)-matriisi X2on liittyy havaintoihin j= h+ 1, h+ 2, … , n
2 h n
=
X X
X