• Ei tuloksia

1 Regressiodiagnostiikka:Esitiedot Regressiodiagnostiikka:Lisätiedot Regressiodiagnostiikka:Mitä opimme? –1/2 Regressiodiagnostiikka:Mitä opimme? –2/2 Regressiodiagnostiikka Regressiodiagnostiikka

N/A
N/A
Info
Lataa
Protected

Academic year: 2022

Jaa "1 Regressiodiagnostiikka:Esitiedot Regressiodiagnostiikka:Lisätiedot Regressiodiagnostiikka:Mitä opimme? –1/2 Regressiodiagnostiikka:Mitä opimme? –2/2 Regressiodiagnostiikka Regressiodiagnostiikka"

Copied!
26
0
0

Kokoteksti

(1)

TKK (c) Ilkka Mellin (2004) 1

Johdatus tilastotieteeseen

Regressiodiagnostiikka

TKK (c) Ilkka Mellin (2004) 2

Yleinen lineaarinen malli ja regressiodiagnostiikka Regressiografiikka

Poikkeavat havainnot Regressiokertoimien vakioisuus Multikollineaarisuus

Homoskedastisuus ja heteroskedastisuus Autokorrelaatio

Normaalisuus Mallin ennustuskyky

Regressiodiagnostiikka

TKK (c) Ilkka Mellin (2004) 3

Regressiodiagnostiikka:

Mitä opimme? – 1/2

Regressiomallien soveltamisen pääkysymys on seuraava:

Kuvaako selitettävän muuttujan ja selittäjien väliselle tilastolliselle riippuvuudelle täsmennetty regressiomalli riippuvuutta oikein?

Ns. standardioletuksettakaavat sen, että pienimmän neliösumman menetelmätuottaa regressioparametreille optimaaliset estimaattorit.

Jos ns.standardioletukset eivät päde, pienimmän neliösumman menetelmä ei välttämättä ole optimaalinen.

Regressiodiagnostiikassaestimoituun regressiomalliin kohdistetaan diagnostisia testejä, joilla pyritään selvittämään pätevätkö mallista tehdyt standardioletukset.

Jos diagnostiset testi osoittavat, että regressiomalli on täsmennetty väärin, voidaan mallia pyrkiä korjaamaanniin, että se kuvaisi paremmin selitettävä muuttujan ja selittäjien välistä tilastollista riippuvuutta.

TKK (c) Ilkka Mellin (2004) 4

Regressiodiagnostiikka:

Mitä opimme? – 2/2

Tässä luvussa tarkastellaan seuraavia regressiodiagnostiikan kohtia:

Regressiografiikankäyttö regressiodiagnostiikassa Poikkeavat havainnotja niiden tunnistaminen Regressiokertoimien vakioisuudentestaaminen

Selittäjien multikollineaarisuudenvaikutukset ja mittaaminen Mallin jäännöstermin homoskedastisuusja heteroskedastisuus Mallin jäännöstermin korreloituneisuus

Mallin jäännöstermin normaalisuus Mallin ennustuskyky

TKK (c) Ilkka Mellin (2004) 5

Regressiodiagnostiikka:

Esitiedot

Esitiedot: ks. seuraavia lukuja:

Yleinen lineaarinen malli

Moniulotteiset satunnaismuuttujat ja todennäköisyysjakaumat Moniulotteisia todennäköisyysjakaumia

TKK (c) Ilkka Mellin (2004) 6

Regressiodiagnostiikka:

Lisätiedot

Yleisen lineaarisen mallin soveltamisen erityiskysymyksiä käsitellään myös luvuissa

Regressiomallin valinta

Regressioanalyysin erityiskysymyksiä

(2)

TKK (c) Ilkka Mellin (2004) 7

>> Yleinen lineaarinen malli ja regressiodiagnostiikka Regressiografiikka

Poikkeavat havainnot Regressiokertoimien vakioisuus Multikollineaarisuus

Homoskedastisuus ja heteroskedastisuus Autokorrelaatio

Normaalisuus Mallin ennustuskyky

Regressiodiagnostiikka

TKK (c) Ilkka Mellin (2004) 8

Avainsanat

Deterministinen malli Heteroskedastisuus Homoskedastisuus Jäännöstermi Korrelaatio Normaalisuus Lineaarinen regressiomalli Mallin ennustuskyky Mallin spesifiointi Mallin täsmentäminen Multikollineaarisuus Pienimmän neliösumman

menetelmä Poikkeava havainto Rakenneosa

Yleinen lineaarinen malli ja regressiodiagnostiikka

Regressioanalyysi Regressiodiagnostiikka Regressiofunktio Regressiokerroin Regressiomalli Satunnainen osa Selitettävä muuttuja Selittäjien valinta Selittäminen Selittävä muuttuja Spesifiointivirhe Standardioletus Systemaattinen osa Tilastollinen riippuvuus Vakioparametrisuusoletus

TKK (c) Ilkka Mellin (2004) 9

Yleinen lineaarinen malli ja regressiodiagnostiikka

Regressiomallit selitysmalleina

• Oletetaan, että tavoitteena on selittääselitettävän muuttujan yhavaittujen arvojen vaihtelu selittävien muuttujien eli selittäjien x1, x2, … , xkhavaittujen arvojen vaihtelun avulla.

• Sitä varten selitettävän muuttujan ytilastolliselle riippuvuudelle selittäjistä x1, x2, … , xkpyritään rakentamaan tilastollinen malli, jota kutsutaan regressiomalliksi.

TKK (c) Ilkka Mellin (2004) 10

Yleinen lineaarinen malli ja regressiodiagnostiikka

Regressiomallien yleinen muoto 1/3

• Olkoon

selitettävän muuttujan yregressiomalliselittäjien x1, x2, … , xksuhteen.

• Tällöin

yj =selitettävän muuttujany satunnainenja havaittu arvohavaintoyksikössä j xji=selittävän muuttujanxihavaittu arvo

havaintoyksikössä j, i =1, 2, … , k εj =satunnainenja ei-havaittujäännös-eli

virhetermihavaintoyksikössäj

1 2

( , , , ; ) , 1,2, ,

j j j jk j

y =f x xx βj= …n

TKK (c) Ilkka Mellin (2004) 11

Yleinen lineaarinen malli ja regressiodiagnostiikka

Regressiomallien yleinen muoto 2/3

• Regressiomallissa

selittäjien x1, x2, … , xkhavaittujen arvojen funktio muodostaa mallin systemaattisen osaneli rakenneosan ja jäännöstermi

εj

muodostaa mallin satunnaisen osan.

• Mallin systemaattinen osa kuvaa selitettävän muuttujan y tilastollista riippuvuuttaselittäjistäx1, x2, … , xk.

1 2

( , , , ; ) , 1,2, ,

j j j jk j

y =f x xx βj= …n

1 2

( j, j, , jk; )

f x xx β

TKK (c) Ilkka Mellin (2004) 12

Yleinen lineaarinen malli ja regressiodiagnostiikka

Regressiomallien yleinen muoto 3/3

• Regressiomallissa

mallin systemaattisen osan määräävä funktio riippuu parametrista

β= (β1, β2, … , βp)

joka tarkemmin määrää funktion fmuodon.

• Huomautus:

Tavallisesti parametrin βarvo on tuntematonja on siksi estimoitavahavainnoista.

1 2

( , , , ; ) , 1,2, ,

j j j jk j

y =f x xx βj= …n

1 2

( j, j, , jk; )

f x xx β

(3)

TKK (c) Ilkka Mellin (2004) 13

Yleinen lineaarinen malli ja regressiodiagnostiikka

Onko malli oikea ja onko malli hyvä?

• Regressioanalyysin peruskysymykset:

(i) Kuvaako malli selitettävän muuttujan ja selittäjien välistä riippuvuutta sisällöllisesti oikein?

Kysymys 1 ei ole tilastotieteellinenja siihen vastaaminen vaatii tutkittavaa ilmiötä kuvaavan taustateoriantuntemusta.

(ii) Kuvaako malli selitettävän muuttujan ja selittäjien välistä riippuvuutta tilastollisesti oikein?

Kysymys 2 on tilastotieteellinenja siihen voidaan pyrkiä vastaamaan tilastotieteen keinoin.

TKK (c) Ilkka Mellin (2004) 14

Yleinen lineaarinen malli ja regressiodiagnostiikka

Regressiomallin hyvyys ja regressiodiagnostiikka 1/2

Regressiomallia pidetään tilastollisesti oikeana, jos mallista saadut estimointitulokset ovat sopusoinnussa mallia koskevien oletuksien kanssa.

• Siksi regressiomallia koskevien oletuksien tarkistaminen muodostaa keskeisen osan regressioanalyysin soveltamista.

• Regressiomallia koskevien oletuksien tarkistamista on tapana kutsua regressiodiagnostiikaksi.

TKK (c) Ilkka Mellin (2004) 15

Yleinen lineaarinen malli ja regressiodiagnostiikka

Regressiomallin hyvyys ja regressiodiagnostiikka 2/2

• Regressiodiagnostiikassa käytetään seuraavia menetelmiä:

Estimoinnin onnistumista havainnollistetaan tilastografiikalla.

Estimoinnin onnistumista kuvataan diagnostisilla tunnusluvuilla.

Mallia koskevia oletuksia testataan diagnostisilla testeillä.

TKK (c) Ilkka Mellin (2004) 16

Yleinen lineaarinen malli ja regressiodiagnostiikka

Regressiomallin spesifiointi eli täsmentäminen 1/2

• Tilastollisen mallin muodonja mallia koskevien oletuksien määrittelemistä kutsutaan mallin spesifioinniksieli täsmentämiseksi.

• Määriteltyä mallia kutsutaan spesifikaatioksitai täsmennykseksi.

TKK (c) Ilkka Mellin (2004) 17

Yleinen lineaarinen malli ja regressiodiagnostiikka

Regressiomallin spesifiointi eli täsmentäminen 2/2

• Regressiomallin spesifioiminen tarkoittaa seuraavien valintojen tekemistä:

(i) Mallin selitettävän muuttujanja selittäjienvalinta.

(ii) Mallin systemaattisen eli rakenneosan funktionaalisen muodonja parametroinninvalinta.

(iii) Mallin selitettävän muuttujanja selittäjien funktionaalisen muodonvalinta.

(iv) Mallin jäännöstermiä koskevien stokastisten oletuksien valinta.

TKK (c) Ilkka Mellin (2004) 18

Yleinen lineaarinen malli ja regressiodiagnostiikka

Regressiomallin täsmentäminen:

Kommentteja

• Valinnat (i)-(iii) liittyvät regressiomallin rakenneosan spesifiointiin.

• Valinta (iv) liittyy regressiomallin jäännöstermin spesifiointiin.

• Huomautus:

Valinnat (i)-(iv) eivät ole toisistaan riippumattomia.

(4)

TKK (c) Ilkka Mellin (2004) 19

Yleinen lineaarinen malli ja regressiodiagnostiikka

Lineaariset regressiomallit

• Olkoon selitettävän muuttujan yregressiomalli selittäjien x1, x2, … , xksuhteen muotoa

• Tällöin malli on lineaarinensekä parametrien (regressio- kertoimien) β0, β1, β2, … , βkettä selittäjien x1, x2, … , xk suhteen ja sitä kutsutaanyleiseksi lineaariseksi malliksi.

0 1 1 2 2 , 1,2, ,

j j j k jk j

y =β +βxx + +βxj= …n

TKK (c) Ilkka Mellin (2004) 20

Yleinen lineaarinen malli ja regressiodiagnostiikka

Yleinen lineaarinen malli:

Määritelmä

• Olkoon

yleinen lineaarinen malli, jossa

yj =selitettävän muuttujany satunnainenja havaittuarvo havaintoyksikössäj

xji=selittävän muuttujaneli selittäjänxihavaittu arvohavaintoyksikössäj, i= 1, 2, … , k β0=vakioselittäjän tuntematonregressiokerroin βi =selittäjän xituntematonregressiokerroin εj =satunnainenja ei-havaittujäännös-eli

virhetermihavaintoyksikössäj

0 1 1 2 2 , 1, 2, ,

j j j k jk j

y =β +βxx + +β xj= …n

TKK (c) Ilkka Mellin (2004) 21

Yleinen lineaarinen malli ja regressiodiagnostiikka

Yleinen lineaarinen malli:

Matriisiesitys

• Yleinen lineaarinen malli voidaan esittää matriisein muodossa

jossa

y=selitettävän muuttujany havaittujen arvojen muodostama satunnainen n-vektori

X=selittäjien x1, x2, … , xkhavaittujen arvojen ja ykkösten muodostaman×(k+ 1)-matriisi β=regressiokertoimienmuodostama tuntematon

ja kiinteäeli ei-satunnainen(k+ 1)-vektori ε=jäännöstermienmuodostama ei-havaittuja

satunnainen n-vektori +

y = Xβ ε

TKK (c) Ilkka Mellin (2004) 22

Yleinen lineaarinen malli ja regressiodiagnostiikka

Yleinen lineaarinen malli:

Standardioletukset kiinteille selittäjille

• Jos yleisen lineaarisen mallin selittäjät x1, x2, … , xkovat kiinteitäeli ei-satunnaisiamuuttujia, mallia koskevat standardioletuksetvoidaan esittää matriisein seuraavassa muodossa:

(i) Matriisin Xalkiot ovat ei-satunnaisia vakioita.

(ii) Matriisi Xon täysiasteinen: r(X) = k+ 1 (iii) E(ε) = 0

(iv)&(v) Homoskedastisuus-ja korreloimattomuusoletus:

Cov(ε) = σ2I (vi) Normaalisuusoletus:

ε ∼Nn(0, σ2I)

y = Xβ +ε

TKK (c) Ilkka Mellin (2004) 23

Yleinen lineaarinen malli ja regressiodiagnostiikka

Yleinen lineaarinen malli:

Standardioletukset satunnaisille selittäjille

• Jos yleisen lineaarisen mallin selittäjät x1, x2, … , xkovat satunnaismuuttujia, mallia koskevat standardioletuksetvoidaan esittää matriisein seuraavassa muodossa:

(i)´ Matriisin Xalkiot ovat satunnaismuuttujia.

(ii)´ Matriisi Xon täysiasteinen: r(X) = k+ 1 (iii)´ E(ε| X) = 0

(iv)´&(v)´Homoskedastisuus-ja korreloimattomuusoletus:

Cov(ε| X) = σ2I (vi)´ Normaalisuusoletus:

(ε| X) ∼Nn(0, σ2I) + y = Xβ ε

TKK (c) Ilkka Mellin (2004) 24

Yleinen lineaarinen malli ja regressiodiagnostiikka

Yleinen lineaarinen malli:

Rakenneosa ja jäännösosa

• Yleisessä lineaarisessa mallissa

selitettävä muuttujan arvojen vektori yon esitetty kahden osatekijän summana.

• Mallin systemaattineneli rakenneosa riippuu selittäjien havaituista arvoista.

Jäännöstermiεmuodostaa mallin satunnaisen osan, joka ei riipu selittäjien havaituista arvoista.

= +

y Xβ ε

E(y X)=

(5)

TKK (c) Ilkka Mellin (2004) 25

Yleinen lineaarinen malli ja regressiodiagnostiikka

Yleinen lineaarinen malli:

Regressiokertoimien PNS-estimointi 1/2

• Yleisen lineaarisen mallin regressiokertoimien

β0, β1, β2, … , βk

PNS-eli pienimmän neliösumman estimaattorit b0, b1, b2, … , bk

minimoivat jäännös- eli virhetermien εjneliösumman

kertoimien β0, β1, β2, … , βksuhteen.

2 2

0 1 1 2 2

1 1

( )

n n

j j j j k jk

j j

y x x x

ε β β β β

= =

= − − − − −

∑ ∑

0 1 1 2 2 , 1, 2, ,

j j j k jk j

y =β +βxx + +β xj= …n

TKK (c) Ilkka Mellin (2004) 26

Yleinen lineaarinen malli ja regressiodiagnostiikka

Yleinen lineaarinen malli:

Regressiokertoimien PNS-estimointi 2/2

• Yleisen lineaarisen mallin regressiokertoimien vektorin

β= (β0, β1, β2, … , βk)

PNS-estimaattorivoidaan esittää matriisein muodossa

= +

y Xβ ε

( ′ )1

=

b X X X y

TKK (c) Ilkka Mellin (2004) 27

Yleinen lineaarinen malli ja regressiodiagnostiikka

Yleinen lineaarinen malli:

PNS-estimaattorin ominaisuudet

• Yleisen lineaarisen mallin

regressiokertoimien vektorin βPNS-estimaattorilla on standardioletuksien (i)-(vi) pätiessä seuraavat stokastiset ominaisuudet:

= +

y Xβ ε ( ′ )1b= X X X y

2 1

2 1

1

E( )

Cov( ) ( )

N ( ,k ( ) ) σ

σ

+

=

= ′

b β

b X X

bβ X X

TKK (c) Ilkka Mellin (2004) 28

Yleinen lineaarinen malli ja regressiodiagnostiikka

Yleinen lineaarinen malli:

Sovitteet ja residuaalit 1/2

• Olkoon

b= (b0, b1, b2, … , bk) regressiokertoimien vektorin

β= (β0, β1, β2, … , βk) PNS-estimaattori.

• Määritellään estimoidun mallin sovitteet kaavalla

• Määritellään estimoidun mallin residuaalitejkaavalla

0 1 1 2 2 , 1, 2, ,

ˆj j j k jk

y = +b b x +b x + +b x j= …n

0 1 1 2 2

ˆ

, 1, 2, ,

j j j

j j j k jk

e y y

y b b x b x b x j n

= −

= − − − − − = …

ˆj y

TKK (c) Ilkka Mellin (2004) 29

Yleinen lineaarinen malli ja regressiodiagnostiikka

Yleinen lineaarinen malli:

Sovitteet ja residuaalit 2/2

Sovitteidenmuodostama n-vektori voidaan esittää matriisein muodossa

Residuaalienmuodostama n-vektori voidaan esittää matriisein muodossa

• Huomautus:

Koska residuaalit kuvaavat estimoidun regressiomallin ja havaintoarvojen yhteensopivuutta, monet regressiodiagnostiikan menetelmistä perustuvat estimoidun regressiomallin residuaaleihin tai niiden muunnoksiin.

ˆ= = ( ′ )1 ′ = y Xb X X X X y Py

ˆ ( ( ′ )1 ′) ( )

= − = − = − =

e y y I X X X X y I P y My

TKK (c) Ilkka Mellin (2004) 30

Yleinen lineaarinen malli ja regressiodiagnostiikka

Yleinen lineaarinen malli:

Sovitteiden ja residuaalien ominaisuudet

Sovitteiden muodostamalla n-vektorilla on seuraavat stokastiset ominaisuudet:

Residuaalien muodostamalla n-vektorillaeon seuraavat stokastiset ominaisuudet:

• Huomautus:

Yllä olevan mukaan residuaalitejovat yleensä sekä

heteroskedastisiaettäkorreloituneita, vaikka jäännöstermit εjon oletettu homoskedastisiksi ja korreloimattomiksi.

2 2 1

E( )ˆ

Cov( )ˆ σ σ ( )

=

′ ′

= =

y

y P X X X X

2 2 2 1

E( )

Cov( ) σ σ ( ) σ ( ( ) )

=

′ ′

= = − = −

e 0

e M I P I X X X X

ˆ y

(6)

TKK (c) Ilkka Mellin (2004) 31

Yleinen lineaarinen malli ja regressiodiagnostiikka

Yleinen lineaarinen malli:

Projektiomatriisit P ja M

• Matriisit

ovat symmetrisiäja idempotenttejaeli projektioita:

• Lisäksi

PM= MP= 0

• Matriisia Pkutsutaan regressiodiagnostiikassa usein hattumatriisiksi.

1

1

( )

( )

′ ′

=

′ ′

= − = − P X X X X

M I P I X X X X

2 2

′ = =

′ = =

P P P P

M M M M

TKK (c) Ilkka Mellin (2004) 32

Yleinen lineaarinen malli ja regressiodiagnostiikka

Yleinen lineaarinen malli:

Jäännösvarianssin estimointi

• Yleisen lineaarisen mallin jäännöstermien εjvarianssin eli jäännösvarianssinσ2harhaton estimaattorion

jossa

ej= estimoidun mallin residuaali,j= 1, 2, … , n n= havaintojen lukumäärä

k = (aitojen) selittäjien xilukumäärä

2 2

1

1 1

n j j

s e

n k =

= − −

TKK (c) Ilkka Mellin (2004) 33

Yleinen lineaarinen malli ja regressiodiagnostiikka

Yleinen lineaarinen malli:

Mallin spesifiointi

• Yleistä lineaarista mallia

sovellettaessa pääkiinnostus kohdistuumallin systemaattisen osaneli rakenneosan

oikeaan spesifiointiineli täsmentämiseen, koska juuri mallin rakenneosa kuvaa selitettävän muuttujan y riippuvuutta selittäjistäx1, x2, … , xk.

Virheet mallin rakenneosan spesifioinnissa johtavat virheellisiin johtopäätöksiinselitettävän muuttujan ja selittäjien välisestä riippuvuudesta.

= +

y Xβ ε

E(y X)=

TKK (c) Ilkka Mellin (2004) 34

Yleinen lineaarinen malli ja regressiodiagnostiikka

Yleinen lineaarinen malli:

Spesifiointivirheet mallin rakenneosassa 1/3

Spesifiointivirheitä lineaarisen mallin rakenneosassa:

(i) Sovelletaan lineaarista mallia, vaikka selitettävän muuttujan yriippuvuus selittäjistäx1, x2, … , xkei ole lineaarista.

(ii) Mallissa on väärät selittäjät:

Mallista puuttuuselittäjiä.

Mallissa on liikaaselittäjiä.

(iii) Selitettävä muuttuja ja/tai selittäjät ovat mallissa väärässä funktionaalisessa muodossa.

(iv) Oletetaan virheellisesti, että regressiokertoimet ovat vakioita.

TKK (c) Ilkka Mellin (2004) 35

Yleinen lineaarinen malli ja regressiodiagnostiikka

Yleinen lineaarinen malli:

Spesifiointivirheet mallin rakenneosassa 2/3

• Kommentteja kohtiin (i)-(iv):

(i) Epälineaaristen regressiomallienkäsittely sivuutetaan tässä esityksessä.

(ii) Selittäjien valintaon regressioanalyysin keskeisiä – ja vaikeimpia – ongelmia.

Ks. lukua Regressiomallin valinta.

(iii) Sopiva selitettävän muuttujan ja/tai selittäjien muunnos saattaa linearisoidaselitettävän muuttujan ja selittäjien epälineaarisen riippuvuuden.

Ks. lukua Regressiomallin valinta.

(iv) Parametrien vakioisuutta on mahdollista testata.

Ks. kappaletta Parametrien vakioisuus.

TKK (c) Ilkka Mellin (2004) 36

Yleinen lineaarinen malli ja regressiodiagnostiikka

Yleinen lineaarinen malli:

Spesifiointivirheet mallin rakenneosassa 3/3

Vain huolellinen perehtyminen tutkittavan ilmiön taustateoriaanmahdollistaa regressiomallin rakenneosan spesifioinnin oikein.

Spesifiointivirheet regressiomallin rakenneosassa tulevat tavallisesti esiin estimoidun mallin residuaaleissa.

(7)

TKK (c) Ilkka Mellin (2004) 37

Yleinen lineaarinen malli ja regressiodiagnostiikka

Yleinen lineaarinen malli:

Mallin jäännöstermin spesifiointi

• Vaikka yleistä lineaarista mallia

sovellettaessa pääasiallinen kiinnostus kohdistuumallin systemaattisen osaneli rakenneosan

oikeaan spesifiointiin, on syytä huomata, että mallin jäännöstermille

ε

valittu spesifikaatioeli täsmennysvaikuttaasekä estimointimenetelmän valintaanettämallista tehtävään tilastolliseen päättelyyn.

= +

y Xβ ε

E(y X)=

TKK (c) Ilkka Mellin (2004) 38

Yleinen lineaarinen malli ja regressiodiagnostiikka

Yleinen lineaarinen malli:

Spesifiointivirheet mallin jäännöstermissä 1/3

Spesifiointivirheitä lineaarisen mallin jäännöstermissä:

(i) Oletetaan virheellisesti, että jäännöstermi εon homoskedastinenja korreloimaton.

(ii) Oletetaan virheellisesti, että jäännöstermi εon normaalinen.

TKK (c) Ilkka Mellin (2004) 39

Yleinen lineaarinen malli ja regressiodiagnostiikka

Yleinen lineaarinen malli:

Spesifiointivirheet mallin jäännöstermissä 2/3

• Kommentteja kohtiin (i)-(ii):

(i) Jos jäännöstermiäkoskeva homoskedastisuus- tai korreloimattomuusoletus ei päde, regressio- kertoimien PNS-estimaattorit eivät ole parhaita Gaussin ja Markovin lauseen mielessä.

Ks. lukua Regressiomallin erityiskysymyksiä.

(ii) Jos jäännöstermiäkoskeva normaalisuusoletus ei päde, t- ja F-jakaumiin perustuva tilastolliset testit eivät välttämättä ole päteviä.

TKK (c) Ilkka Mellin (2004) 40

Yleinen lineaarinen malli ja regressiodiagnostiikka

Yleinen lineaarinen malli:

Spesifiointivirheet mallin jäännöstermissä 3/3

Spesifiointivirheet regressiomallin jäännöstermissä näkyvät tavallisesti estimoidun mallinresiduaaleissa.

• Estimoidun mallin residuaaleissahavaittu hetero- skedastisuus, korreloituneisuus tai epänormaalisuus ei kuitenkaan välttämättä merkitse sitä, että mallin jäännöstermi on spesifioitu väärin.

Residuaalien heteroskedastisuus, korreloituneisuus tai epänormaalisuus saattavat indikoida myös sitä, että mallin rakenneosa on spesifioitu väärin.

TKK (c) Ilkka Mellin (2004) 41

Yleinen lineaarinen malli ja regressiodiagnostiikka

Yleinen lineaarinen malli:

Spesifiointivirheiden vaikutukset

• Regressioanalyysissa pääkiinnostus kohdistuu oikean spesifikaation löytämiseen regressiomallin systemaattiselle osalleeli rakenneosalle, koska juuri rakenneosa kuvaa selitettävän muuttujan riippuvuutta selittäjistä.

• Regressiomallin jäännöstermin spesifikaatiovaikuttaa kuitenkin voimakkaasti sekä mallin estimointiinettä testaukseen.

Sekä regressiomallin rakenneosan että jäännöstermin virheellinen spesifiointinäkyytavallisesti estimoidun mallinresiduaaleissa.

TKK (c) Ilkka Mellin (2004) 42

Yleinen lineaarinen malli ja regressiodiagnostiikka

Yleinen lineaarinen malli:

Diagnostiset tarkistukset

• Regressiomalli on aina syytä alistaa seuraavien diagnostisten tarkistustenkohteeksi:

(i) Onko havaintojen joukossa regressioanalyysin tuloksia vääristäviäpoikkeavia havaintoja?

(ii) Ovatko regressiokertoimet vakioita?

(iii) Ovatko selittäjät itsenäisiä?

(iv) Ovatko mallin jäännöstermit homoskedastisia?

(v) Ovatko mallin jäännöstermit korreloimattomia?

(vi) Ovatko mallin jäännöstermit normaalisia?

(8)

TKK (c) Ilkka Mellin (2004) 43

Yleinen lineaarinen malli ja regressiodiagnostiikka

Yleinen lineaarinen malli:

Mallin ennustuskyvyn arviointi

• On syytä muistaa, ettävoimakkain testi tieteelliselle selitysmallille on sen kyky ennustaa.

• Siksi regressiomalleja sovellettaessa on aina syytätestata mallin ennustuskykyätavanomaisten diagnostisten tarkistusten lisäksi.

TKK (c) Ilkka Mellin (2004) 44

Yleinen lineaarinen malli ja regressiodiagnostiikka

>> Regressiografiikka Poikkeavat havainnot Parametrien vakioisuus Multikollineaarisuus

Homoskedastisuus ja heteroskedastisuus Autokorrelaatio

Normaalisuus Mallin ennustuskyky

Regressiodiagnostiikka

TKK (c) Ilkka Mellin (2004) 45

Avainsanat Aikasarjadiagrammi Heteroskedastisuus Homoskedastisuus Jäännöstermi Korrelaatio

Lineaarinen regressiomalli Pistediagrammi Rakenneosa Regressiografiikka Residuaali Residuaalidiagrammi Satunnainen osa Selitysaste Sovite Systemaattinen osa

Regressiografiikka

TKK (c) Ilkka Mellin (2004) 46

Regressiografiikka

Regressiomallin hyvyys ja regressiografiikka

• Regressiomallin hyvyyttävoidaan tutkia mallista saatuja estimointituloksia havainnollistavien graafisten esitysten avulla.

Regressiografiikan standardikuviot:

(i) Kuviot, joiden avulla estimoidun mallin sovitteita verrataan selitettävän muuttujan havaittuihin arvoihin.

(ii) Kuviot, joiden avulla havainnollistetaanestimoidun mallin residuaaleja.

TKK (c) Ilkka Mellin (2004) 47

Regressiografiikka

Sovitteiden tutkiminen:

Pistediagrammien käyttö 1/2

• Regressiomallin spesifikaation hyvyyttävoidaan tutkia vertaamallaestimoidun mallin sovitteita selitettävän muuttujan havaittuihin arvoihinpiirtämällä niiden riippuvuutta havainnollistava pistediagrammi:

Piirretään sovitteet selitettävän muuttujan havaittuja arvoja vastaaneli esitetään lukuparit

pisteinä avaruudessa . ( , ) ,y yj ˆj j=1,2, ,…n

2

TKK (c) Ilkka Mellin (2004) 48

Regressiografiikka

Sovitteiden tutkiminen:

Pistediagrammien käyttö 2/2

• Regressiomalli on sitäparempimitälähempänäpisteet ovat suoraa, jonka kulmakerroin = 1.

• Pisteiden muodostaman pistepilven tai -parven käyristyminenviittaa regressiomallin rakenne- osan väärään spesifikaatiooneli täsmennykseen.

Poikkeavat havainnoterottuvat tavallisesti ”kaukana” em.

suorasta olevina pisteinä.

ˆ

( , ) ,y yj j j=1,2, ,…n ˆ

( , ) ,y yj j j=1,2, ,…n

(9)

TKK (c) Ilkka Mellin (2004) 49

Regressiografiikka

Sovitteiden tutkiminen:

Mallin hyvyyden mittaaminen

• Regressiomallin hyvyyden mittarinavoidaan käyttää selitettävän muuttujan yhavaittujen arvojen yjja estimoidun mallin sovitteiden otoskorrelaatiokerrointa

• Jos estimoitu regressiomalli on lineaarinen ja mallissa on vakio,

jossa R2on estimoidun mallin selitysaste.

[

Cor( , )y yˆ

]

2=R2 Cor( , )y yˆ

ˆj y

TKK (c) Ilkka Mellin (2004) 50

Regressiografiikka

Residuaalien tutkiminen:

Residuaalidiagrammit 1/2

• Regressiomallin spesifikaation hyvyyttävoidaan tutkia piirtämällä estimoidun mallin residuaaleistakuviot, joita kutsutaan residuaalidiagrammeiksi:

(i) Piirretään residuaalit sovitteita vastaaneli esitetään lukuparit

pisteinä avaruudessa .

(ii) Piirretään residuaalit eri selittäjien arvoja vastaaneli esitetään lukuparit

pisteinä avaruudessa . ( , ) ,ˆy ej j j=1,2, ,…n

( , ) ,x eji j j=1, 2, , ;…n i=1, 2, ,…k

2

2

TKK (c) Ilkka Mellin (2004) 51

Regressiografiikka

Residuaalien tutkiminen:

Residuaalidiagrammit 2/2

Oikein täsmennetynregressiomallin residuaali- diagrammeissa pisteet muodostavat vaakatasossa vasemmalta oikealle etenevät tasaleveät pistepilvettai -parvet, joissa ei näy poikkeavia havaintoja.

• Residuaalidiagrammien pistepilvien käyristyminenviittaa regressiomallin rakenneosan väärään spesifikaatiooneli täsmennykseen:

(i) Selitettävän muuttujan riippuvuus selittäjistäei ole lineaarista.

(ii) Mallissa ei ole oikeita selittäjiä.

(iii) Selitettävä muuttuja ja/tai selittäjät eivät ole oikeassa funktionaalisessa muodossa.

TKK (c) Ilkka Mellin (2004) 52

Regressiografiikka

Residuaalien tutkiminen:

Heteroskedastisuus

• Jos residuaalidiagrammien pistepilvet tai -parvet eivät ole tasaleveitä(esim. pilvet levenevätoikealle tai vasemmalle), regressiomallin jäännöstermi saattaa olla heteroskedastinen.

• Estimoidun mallin residuaalien heteroskedastisuus saattaa kuitenkin viitata myös mallin rakenneosan väärään spesifikaatiooneli täsmennykseen.

TKK (c) Ilkka Mellin (2004) 53

Regressiografiikka

Aikasarjojen regressiomallit

Aikasarjojen regressiomalleissaoletetaan, että havainnot on järjestetty ajassa niin, että havaintoindeksin

j= 1, 2, … , n

arvot viittaavat peräkkäisiin ajanhetkiin.

• Huomautus:

Aikasarjoissa havaintoindeksinä käytetään usein kirjainta t:

ttime

TKK (c) Ilkka Mellin (2004) 54

Regressiografiikka

Aikasarjojen regressiomallit:

Sovitteiden ja residuaalien tutkiminen 1/3

• Aikasarjojen regressiomallin spesifikaation hyvyyttä tutkitaan tavallisesti piirtämällä seuraavat aikasarja- diagrammit:

(i) Piirretään selitettävän muuttujan havaitut arvot ja estimoidun mallin sovitteet

aikasarjoinasamaan kuvioon.

(ii) Piirretään estimoidun mallin residuaalit aikasarjana.

ˆ ,j 1,2,...,

y j= n

, 1,2,...,

yj j= n

, 1, 2,...,

ej j= n

(10)

TKK (c) Ilkka Mellin (2004) 55

Regressiografiikka

Aikasarjojen regressiomallit:

Sovitteiden ja residuaalien tutkiminen 2/3

• Aikasarjadiagrammit ovat pistediagrammeja, joissa muuttujan arvot piirretään aikaa vastaan.

Tavallisesti peräkkäisiin havaintoihin liittyvät pisteet yhdistetään aikasarjadiagrammissa janalla.

• Siten edellisellä kalvolla mainitut aikasarjadiagrammien piirtäminen merkitsee seuraavien pistediagrammien piirtämistä:

(i) Selittettävän muuttujan arvot:

Sovitteet:

(ii) Residuaalit:

( , ) ,j yˆj j=1,2,...,n ( , ) ,j yj j=1,2,...,n ( , ) ,j ej j=1,2,...,n

TKK (c) Ilkka Mellin (2004) 56

Regressiografiikka

Aikasarjojen regressiomallit:

Sovitteiden ja residuaalien tutkiminen 3/3

• Regressiomalli on sitäparempi, mitälähempänä estimoidun mallin sovitteiden muodostama aikasarja kulkee selitettävän muuttujan havaittujen arvojen muodostamaa aikasarjaa

tai −mikä on sama asia −mitäpienempiäovat residuaalit

• Aikasarjadiagrammeista (i) ja (ii) (ks. edelliset kalvot) nähdään minä ajanhetkinämalli selittää selitettävän muuttujan käyttäytymistähyvinja minähuonosti.

ˆ ,j 1, 2, ,

y j= …n

, 1,2, , yj j= …n

, 1,2,...,

ej j= n

TKK (c) Ilkka Mellin (2004) 57

Regressiografiikka

Aikasarjojen regressiomallit:

Residuaalit ja regressiodiagnostiikka

• Jos residuaaliaikasarjan pistepilvi ei ole tasaleveä(esim.

pilvi leveneeoikealle tai vasemmalle), regressiomallin jäännöstermi saattaa olla heteroskedastinen.

• Residuaaliaikasarjan heteroskedastisuus saattaa kuitenkin viitata myös mallin rakenneosan väärään spesifikaatioon eli täsmennykseen.

• Jäännöstermin korreloituneisuustulee esille residuaali- aikasarjan sisäisessä rytmiikassa (autokorrelaatio- rakenteessa).

• Residuaaliaikasarjan korreloituneisuus saattaa kuitenkin viitata myös mallin rakenneosan väärään spesifikaatioon eli täsmennykseen.

TKK (c) Ilkka Mellin (2004) 58

Yleinen lineaarinen malli ja regressiodiagnostiikka Regressiografiikka

>> Poikkeavat havainnot Parametrien vakioisuus Multikollineaarisuus

Homoskedastisuus ja heteroskedastisuus Autokorrelaatio

Normaalisuus Mallin ennustuskyky

Regressiodiagnostiikka

TKK (c) Ilkka Mellin (2004) 59

Avainsanat Cookin etäisyys Hattumatriisi Leverage

Lineaarinen regressiomalli Normaali havainto Poikkeava havainto Poistoresiduaali Residuaali Residuaalidiagrammi Sovite

Standardoitu poistoresiduaali Standardoitu residuaali Vipuluku

Poikkeavat havainnot

TKK (c) Ilkka Mellin (2004) 60

Poikkeavat havainnot

Poikkeavat ja normaalit havainnot

Poikkeavalla havainnolla(engl. outlier) tarkoitetaan havaintoa, joka eroaajossakin mielessä merkitsevästi muista havainnoista.

• Tilastollisen analyysin kannalta havaintoa voidaan pitää poikkeavana, jos se vääristäätilastollisen analyysin tulokset:

(i) Jos havainnon poistaminen muuttaa olennaisesti tilastollisen analyysin tuloksia, havainto on poikkeava.

(ii) Jos havainnon poistaminen ei olennaisesti muuta tilastollisen analyysin tuloksia, havainto on normaali.

(11)

TKK (c) Ilkka Mellin (2004) 61

Poikkeavat havainnot

Poikkeavien havaintojen vaikutukset

• Regressioanalyysissa poikkeavat havainnot saattavat aiheuttaaseuraavia vaikeuksia:

(i) Mallinvalintavaikeutuu.

(ii) Mallin estimointihankaloituu.

(iii) Mallia koskeva tilastollinen päättelysaattaa vääristyä.

TKK (c) Ilkka Mellin (2004) 62

Poikkeavat havainnot

Poikkeavien havaintojen tunnistaminen 1/2

• Regressioanalyysissa poikkeavien havaintojen tunnistamiseen käytetään sekägraafisia menetelmiäettä erityisesti niiden tunnistamiseen konstruoituja tunnuslukuja.

• Poikkeavat havainnot voidaan usein tunnistaa suoraan residuaalidiagrammeista.

TKK (c) Ilkka Mellin (2004) 63

Poikkeavat havainnot

Poikkeavien havaintojen tunnistaminen 2/2

• Tässä kappaleessa tarkastellaan seuraavia poikkeavien havaintojen tunnistamiseen tarkoitettuja tunnuslukuja:

Residuaalit

Standardoidut residuaalit Poistoresiduaalit

Standardoidut poistoresiduaalit Vipuluvut eli leverage-luvut Cookin etäisyydet

TKK (c) Ilkka Mellin (2004) 64

Poikkeavat havainnot

Yleinen lineaarinen malli:

Määritelmä

• Olkoon

yleinen lineaarinen malli, jossa

yj =selitettävän muuttujany satunnainenja havaittuarvo havaintoyksikössäj

xji=selittävän muuttujaneli selittäjänxihavaittu arvohavaintoyksikössäj, i= 1, 2, … , k β0=vakioselittäjän tuntematonregressiokerroin βi =selittäjän xituntematonregressiokerroin εj =satunnainenja ei-havaittujäännös-eli

virhetermihavaintoyksikössäj

0 1 1 2 2 , 1, 2, ,

j j j k jk j

y =β +βxx + +β xj= …n

TKK (c) Ilkka Mellin (2004) 65

Poikkeavat havainnot

Residuaalit:

Määritelmä

• Olkoot

b0, b1, b2, … , bk regressiokertoimien β0, β1, β2, … , βk

PNS-estimaattorit.

• Määritellään estimoidun mallin sovitteet kaavalla

• Määritellään estimoidun mallin residuaalitejkaavalla

0 1 1 2 2 , 1, 2, ,

ˆj j j k jk

y = +b b x +b x + +b x j= …n

0 1 1 2 2

ˆ

, 1, 2, ,

j j j

j j j k jk

e y y

y b b x b x b x j n

= −

= − − − − − = …

ˆj y

TKK (c) Ilkka Mellin (2004) 66

Poikkeavat havainnot

Residuaalit:

Poikkeavien havaintojen tunnistaminen

• Estimoidun mallin residuaalejaejvoidaan käyttää poikkeavien havaintojentunnistamiseen.

• Voimakkaasti muista residuaaleista poikkeavat residuaalit saattavat viitata poikkeaviin havaintoihin.

(12)

TKK (c) Ilkka Mellin (2004) 67

Poikkeavat havainnot

Standardoidut residuaalit:

Määritelmä 1/2

• Koska estimoidun lineaarisen regressiomallin PNS- residuaalit ejovat yleensä heteroskedastisia, regressio- diagnostiikassa tarkastellaan PNS-residuaalien sijasta usein standardoituja residuaaleja.

• Residuaalinej, j= 1, 2, … , nvarianssi on jossa

on hattumatriisin j.diagonaalialkio.

2 2

D ( )ej =σ (1−hjj)

[ ]

jj jj

h = P

( ′ )1

=

P X X X X

TKK (c) Ilkka Mellin (2004) 68

Poikkeavat havainnot

Standardoidut residuaalit:

Määritelmä 2/2

Standardoiduteli studentisoidutresiduaalitStd(ej) , j= 1, 2, … , nsaadaan PNS-residuaaleistaejkaavalla

• Standardoidun residuaalin Std(ej) kaavassa on residuaalinejvarianssin estimaattori, jossa

on jäännösvarianssin σ2harhaton estimaattori.

Std( ) ˆD( )

j j

j

e e

= e

2 2

ˆD ( )ej =s(1−hjj)

2 2

1

1 1

n j j

s e

n k =

= − −

TKK (c) Ilkka Mellin (2004) 69

Poikkeavat havainnot

Standardoidut residuaalit:

Poikkeavien havaintojen tunnistaminen

• Standardoituja residuaaleja Std(ej) voidaan käyttää poikkeavien havaintojentunnistamiseen.

• Jos estimoitu regressiomalli on riittävä kuvaamaan kaikkia havaintoja, standardoitujen residuaalien itseisarvot saavat vain pienellä todennäköisyydellä suurempia arvoja kuin 2.5-3.

• Lukuarvoja 2.5-3 suuremmat standardoitujen residuaalien itseisarvot saattavat viitata poikkeaviin havaintoihin.

• Standardoitujen residuaalien itseisarvoja voidaan verrata Studentint-jakaumastasopivasti valittuun kriittiseen rajaan.

TKK (c) Ilkka Mellin (2004) 70

Poikkeavat havainnot

Poistoresiduaalit:

Määritelmä 1/2

Poikkeavia havaintojavoidaan etsiäpoistoresiduaalien avulla:

(i) Estimoidaan malli siten, että havainto jjätetään pois.

(ii) Määrätään havaintoa jvastaava poistoresiduaali selitettävän muuttujan yhavaitun arvon yjja ilman havaintoa jestimoidun mallin muuttujalle yantaman arvon erotuksena (ennustevirheenä).

• Havaintoa jvastaava poistoresiduaali mittaa ilman havaintoa jestimoidun mallin kykyäennustaaselitettävän muuttujan yarvo havainnossa j.

TKK (c) Ilkka Mellin (2004) 71

Poikkeavat havainnot

Poistoresiduaalit:

Määritelmä 2/2

Poistoresiduaalitdj, j= 1, 2, … , nsaadaan PNS- residuaaleistaejkaavalla

jossa

on hattumatriisin j.diagonaalialkio.

1

j j

jj

d e

= h

[ ]

jj jj

h = P

( ′ )1

=

P X X X X

TKK (c) Ilkka Mellin (2004) 72

Poikkeavat havainnot

Standardoidut poistoresiduaalit:

Määritelmä 1/2

• Poistoresiduaalindj, j= 1, 2, … , n varianssion

jossa

on hattumatriisin j.diagonaalialkio.

2

D ( )2 j 1

jj

d h

= σ

[ ]

jj jj

h = P

( ′ )1P X X X X=

(13)

TKK (c) Ilkka Mellin (2004) 73

Poikkeavat havainnot

Standardoidut poistoresiduaalit:

Määritelmä 2/2

Standardoiduteli studentisoidutpoistoresiduaalit Std(dj) , j= 1, 2, … , nsaadaan poistoresiduaaleistadj

kaavalla

jossa

on poistoresiduaalindjvarianssin estimaattori, jossa on jäännösvarianssin σ2harhaton estimaattori mallista, josta havainto jon jätetty pois.

Std( ) ˆD( )

j j

j

d d

= d

2 2 ( )

ˆD ( ) 1

j j

jj

d s

= h

2 ( )j

s

TKK (c) Ilkka Mellin (2004) 74

Poikkeavat havainnot

Standardoidut poistoresiduaalit:

Poikkeavien havaintojen tunnistaminen

• Standardoituja poistoresiduaaleja Std(dj) voidaan käyttää poikkeavien havaintojentunnistamiseen.

• Jos estimoitu regressiomalli on riittävä kuvaamaan kaikkia havaintoja, standardoitujen poistoresiduaalien itseisarvot saavat vain pienellä todennäköisyydellä suurempia arvoja kuin 2.5-3.

• Lukuarvoja 2.5-3 suuremmat standardoitujen poisto- residuaalien itseisarvot saattavat viitata poikkeaviin havaintoihin.

• Standardoitujen poistoresiduaalien itseisarvoja voidaan verrata Studentint-jakaumastasopivasti valittuun kriittiseen rajaan.

TKK (c) Ilkka Mellin (2004) 75

Poikkeavat havainnot

Vipuluvut:

Määritelmä 1/2

Poikkeavia havaintojavoidaan etsiävipulukujeneli leverage-lukujenavulla.

• Havaintoa jvastaava vipuluku(leverage) hjj, j= 1, 2, … , n onhattumatriisin

j. diagonaalialkio:

( ′ )1

=

P X X X X

[ ]

jj jj

h = P

TKK (c) Ilkka Mellin (2004) 76

Poikkeavat havainnot

Vipuluvut:

Määritelmä 2/2

• Vipuluvut hjjovat verrannollisia havaintopisteiden etäisyyksiin selittävien muuttujien havaintoarvojen aritmeettisten keskiarvojen muodostamasta pisteestä

1 2

(x xj, j, ,…xjk)

1 2

( , , , )x xxk

TKK (c) Ilkka Mellin (2004) 77

Poikkeavat havainnot

Vipuluvut:

Poikkeavien havaintojen tunnistaminen

• Jos havaintoa jvastaava vipuluku (leverage) hjjon selvästi muita suurempi, havainto jon syrjässäselittävien muuttujien muihin havaintoarvoihin nähden.

• Syrjässä olevat havainnot saattavat vääristääregressio- analyysin tulokset.

TKK (c) Ilkka Mellin (2004) 78

Poikkeavat havainnot

Cookin etäisyydet:

Määritelmä 1/3

Poikkeavia havaintojavoidaan etsiäCookin etäisyyksien avulla:

(i) Estimoidaan malli niin, että kaikki havainnot ovat mukana.

Lasketaan estimoidulle mallille sovitteet , l= 1, 2, … , n.

(ii) Estimoidaan malli jättämällä pois havainto j.

Lasketaan ilman havaintoa jestimoidun mallin antama arvo kaikille havaintoyksiköille l= 1, 2, … , n.

(iii) Verrataan lukuja ja toisiinsa.

ˆl y

ˆl j( )

y

ˆl y yˆl j( )

(14)

TKK (c) Ilkka Mellin (2004) 79

Poikkeavat havainnot

Cookin etäisyydet:

Määritelmä 2/3

Cookin etäisyydetDj, j= 1, 2, … , nsaadaan kaavalla

jossa

on jäännösvarianssin σ2harhaton estimaattori, joka on määrätty, kun mallin estimoinnissa on käytetty kaikkia havaintoja.

2 1 ( )

2

ˆ ˆ

( )

( 1)

n

l l j

l j

y y

D k s

=

= +

2 2

1

1 1

n j j

s e

n k =

= − −

TKK (c) Ilkka Mellin (2004) 80

Poikkeavat havainnot

Cookin etäisyydet:

Määritelmä 3/3

Cookin etäisyydet Dj, j= 1, 2, … , nvoidaan laskea myös kaavalla

jossa Std(ej)

on havaintoa jvastaava standardoitu residuaalija on hattumatriisin

j.diagonaalialkio.

[ ]

jj jj

h = P

( ′ )1

=

P X X X X Std( )

1 1

j jj

j

jj

e h

D = kh

+ −

TKK (c) Ilkka Mellin (2004) 81

Poikkeavat havainnot

Cookin etäisyydet:

Poikkeavien havaintojen tunnistaminen

• Cookin etäisyyksiäDjvoidaan käyttääpoikkeavien havaintojentunnistamiseen.

• Jos havaintoa jvastaava Cookin etäisyys Dj> 1

tai on selvästimuiden havaintojen Cookin etäisyyttä suurempi, havainto kannattaa ottaa erikoistarkasteluun.

TKK (c) Ilkka Mellin (2004) 82

Poikkeavat havainnot

Tilastografiikan käyttö

poikkeavien havaintojen tunnistamisessa 1/2

• Poikkeavien havaintojen tunnistamiseen tarkoitettujen tunnuslukujen käyttöä voidaan usein helpottaa sopivilla graafisilla esityksillä.

• Tällöin käytetyn tunnusluvun havaintokohtaiset arvot Tj, j= 1, 2, … , n

piirretään havaintonumeroa vastaan pistediagrammina (j, Tj) , j= 1, 2, … , n

• Poikkeavat havainnot erottuvat kuviosta tavallisesti helposti.

TKK (c) Ilkka Mellin (2004) 83

Poikkeavat havainnot

Tilastografiikan käyttö

poikkeavien havaintojen tunnistamisessa 2/2

• Pistediagrammissa (j, Tj) , j= 1, 2, … , n

tunnusluku Tjvoi olla esimerkiksi mikä tahansa seuraavista tunnusluvuista:

Residuaali

Standardoitu residuaali Poistoresiduaali

Standardoitu poistoresiduaali Vipuluku

Cookin etäisyys

TKK (c) Ilkka Mellin (2004) 84

Yleinen lineaarinen malli ja regressiodiagnostiikka Regressiografiikka

Poikkeavat havainnot

>> Parametrien vakioisuus Multikollineaarisuus

Homoskedastisuus ja heteroskedastisuus Autokorrelaatio

Normaalisuus Mallin ennustuskyky

Regressiodiagnostiikka

(15)

TKK (c) Ilkka Mellin (2004) 85

Avainsanat Chow-testi Ennustaminen F-testi

Lineaarinen regressiomalli Regressiokerroin Selitettävä muuttuja Selittävä muuttuja Vakioparametrisuusoletus

Parametrien vakioisuus

TKK (c) Ilkka Mellin (2004) 86

Parametrien vakioisuus

Vakioparametrisuusoletus yleisessä lineaarisessa mallissa

• Kun yleinen lineaarinen malli spesifioidaan muodossa spesifikaatioon sisältyy implisiittisestiseuraava mallin regressiokertoimia koskevavakioparametrisuusoletus:

Regressiokertoimet β0, β1, β2, … , βk

ovat samat kaikille havainnoille j= 1, 2, … , n.

• Lisäksi mallia koskeviin standardioletuksiin kuuluu homoskedastisuusoletuseli jäännösvarianssia koskeva vakioparametrisuusoletus:

0 1 1 2 2 , 1, 2, ,

j j j k jk j

y =β +βxx + +β xj= …n

Var( )εj2,j=1, 2, ,…n

TKK (c) Ilkka Mellin (2004) 87

Parametrien vakioisuus

Vakioparametrisuusoletuksen testaaminen:

Testausasetelma 1/4

• Jaetaan havainnot j= 1, 2, … , n kahteen osaan:

Osa 1: j= 1, 2, … , h(hkpl)

Osa 2: j= h+ 1, h+ 2, … , n((n–h) kpl)

• Oletetaan lisäksi, että hk+1

• Muodostetaan kaksilineaarista regressiomallia:

(i) Käytetään mallissa (1) havaintoja j= 1, 2, … , h.

(ii) Käytetään mallissa (2) havaintoja j= 1, 2, … , n.

TKK (c) Ilkka Mellin (2004) 88

Parametrien vakioisuus

Vakioparametrisuusoletuksen testaaminen:

Testausasetelma 2/4

• Malli (1) voidaan esittää matriisein muodossa jossa Xhon h×(k+1)-matriisi.

• Tehdään mallista (1) seuraavat oletukset:

h= h h+ h

y ε

2

( ) 1

N ( , )

h

h h h

r k

σ

= + X

ε0 I

TKK (c) Ilkka Mellin (2004) 89

Parametrien vakioisuus

Vakioparametrisuusoletuksen testaaminen:

Testausasetelma 3/4

• Malli (2) voidaan esittää matriisein muodossa jossa Xnon n×(k+1)-matriisi.

• Tehdään mallista (2) seuraavat oletukset:

n= n n+ n

y ε

2

( ) 1

N ( , )

n

n n n

r k

σ

= + X

ε0 I

TKK (c) Ilkka Mellin (2004) 90

Parametrien vakioisuus

Vakioparametrisuusoletuksen testaaminen:

Testausasetelma 4/4

• Huomaa, että mallin (2)n×(k+ 1)-matriisi Xnvoidaan esittää muodossa

jossa (n–h)×(k+ 1)-matriisi X2on liittyy havaintoihin j= h+ 1, h+ 2, … , n

2 h n

 

=  

  X X

X

Viittaukset

LIITTYVÄT TIEDOSTOT

Kahta

eli arvioida tutkimuksen kohteena olevaa ilmiötä koskevat havainnot generoineen prosessin mallina käytettävän todennäköisyysjakauman tuntemattomat parametrit ilmiötä

Yhden selittäjän lineaarinen regressiomalli Yleinen lineaarinen malli. Regressiodiagnostiikka

• Tämä johtuu siitä, että sama määritelmä kertymäfunktiolle sopii kaikille satunnaismuuttujille olivatpa ne diskreettejä, jatkuvia tai jotakin muuta tyyppiä ja

(ii) Kaksiulotteinen normaalijakauma on normaalijakauman (ks. lukua Jatkuvia jakaumia ) moniulotteinen yleistys. TKK (c) Ilkka Mellin

Tarkoitamme satunnaismuuttujien riippumattomuudella sitä, että yhdenkään satunnaismuuttujan saamat arvot eivät riipu siitä, mitä arvoja muut satunnaismuuttujat saavat;

(ii) Klassisen todennäköisyyden määritelmän mukaan tapahtuman todennäköisyys on tapahtumalle suotuisien tulosvaihtoehtojen suhteellinen frekvenssi.. (iii) Tapahtuman

Tytin tiukka itseluottamus on elämänkokemusta, jota hän on saanut opiskeltuaan Dallasissa kaksi talvea täydellä