∑∑∑∑∑ xxYYnnsxnxsYnYnnsxYnxYnsrss ===−=−−−=−−= 11111111

(1)

12. harjoitukset/Ratkaisut

Aiheet: Regressioanalyysi Avainsanat:

Estimointi, Jäännösneliösumma, Jäännöstermi, Jäännösvarianssi, Keskihajonta, Kokonaisneliösumma, Korrelaatio, Kovarianssi, Kriittinen arvo, Luottamuskerroin,

Luottamustaso, Luottamusväli, Mallineliösumma, Merkitsevyystaso, Painopiste, Parametri, p-arvo, Pienimmän neliösumman menetelmä, Regressiokerroin, Regressiosuora, Residuaali, Selitettävä muuttuja, Selittäjä, Selittävä muuttuja, Selitysaste, Sovite, Testi, Vakiotermi, Vapausasteet, Varianssianalyysihajotelma

1. Muuttujien x ja Y havaitut arvot ovat:

x 1 3 4 6 8 9 11 14

Y 1 2 4 4 5 7 8 9

(a) Määrää yhden selittäjän lineaarisen regressiomallin Yi = α + βxi + εi , εi ∼ N(0, σ²)

regressiokertoimien α ja β pienimmän neliösumman (PNS-) estimaatit.

(b) Määrää estimoidun mallin sovitteet ja residuaalit.

(c) Määrää estimoidun mallin jäännösvarianssin σ² harhaton estimaatti.

(d) Määrää estimoidun mallin selitysaste.

Ratkaisu:

(a) Yhden selittäjän lineaarisen regressiomallin Yi = α + βxi + εi

regressiokertoimien α ja β PNS-estimaatit saadaan alla olevilla kaavoilla.

Määrätään ensin muuttujien x ja Y havaittujen arvojen otostunnusluvut (aritmeettiset keskiarvot, otoshajonnat sekä otoskovarianssi ja -korrelaatio) seuraavilla kaavoilla:

1 1

2 2 2 2 2 2

1 1

1

1 1

n n

i i

n n

x i Y i

i i

n

xY i i

i xY xY

x Y

x x Y Y

n n

s x nx s Y nY

n n

s x Y nxY

n r s

s s

= =

=

= =

   

= −  −  = −  − 

 

= −  − 

=

∑ ∑

∑

(2)

Estimoidun PNS-suoran yhtälö on muotoa Y = a + bx

jossa a ja b ovat mallin regressiokertoimien α ja β estimaattorit. Estimaattorit a ja b saadaan yllä esitetyistä otostunnuslukujen lausekkeista kaavoilla

xY Y x

b r s s a Y bx

=

= −

Tehtävän tapauksessa:

x = 7 Y = 5

sx = 4.34 sY = 2.83 rxY = 0.977

joten

b = 0.636 a = 0.545

Laskutoimitukset on tehty Microsoft Excel -ohjelmalla; ks. alla.

Siten estimoidun PNS-suoran yhtälö on Y = 0.545 + 0.636x

(b) Estimoidun mallin sovitteet ja residuaalit saadaan alla olevilla kaavoilla.

Sovite:

ˆi i

Y = +a bx Residuaali:

i i ˆi

e = −Y Y

Sovitteet ja residuaalit annettaan alla olevassa Excel -taulukossa.

(c) Mallin jäännösvarianssin σ² harhaton estimaatti voidaan laskea kaavalla

2

2 s SSE

= n

− jossa

2 1 n

i i

SSE e

=

∑

on estimoidun mallin residuaalien vaihtelua kuvaava jäännösneliösumma.

(3)

SSE = 2.55 joten

s²= 0.424

(d) Estimoidun mallin selitysaste R² voidaan laskea usealla eri tavalla.

Olkoon estimoidun mallin sovite

ˆi i

Y = +a bx ja residuaali

i i ˆi

e = −Y Y

Selitettävän muuttujan Y havaittujen arvojen vaihtelua kuvaava kokonaisneliösumma on

( )

² ²

1

( 1)

n

i Y

i

SST Y Y n s

=

∑

− = −

Estimoidun mallin residuaalien vaihtelua kuvaava jäännösneliösumma on

2 1 n

i i

SSE e

=

∑

Estimoidun mallin selittämää osuutta selitettävän muuttujan Y havaittujen arvojen vaihtelusta kuvaava mallineliösumma on

( )

²

1 n ˆ

i i

SSM SST SSE Y Y

=

= − =

∑

−

ˆi i

Y = +a bx = 0.545 + 0.636x

i i ˆi

e = −Y Y

ja siten

SST = 56 SSE = 2.55

SSM = SST – SSE = 53.45

Selitysaste R² voidaan laskea kaavoilla

2 1 SSE SSM

R = − =

(4)

Yhden selittäjän lineaarisen regressiomallin tapauksessa pätee myös

2 2

R =rxY

R² = 0.955

Tehtävän laskutoimitukset Excel -taulukkona:

i x Y x^2 Y^2 xY Yhat Res Res^2

1 1 1 1 1 1 1.181818 -0.181818 0.033058

2 3 2 9 4 6 2.454545 -0.454545 0.206612

3 4 4 16 16 16 3.090909 0.909091 0.826446

4 6 4 36 16 24 4.363636 -0.363636 0.132231

5 8 5 64 25 40 5.636364 -0.636364 0.404959

6 9 7 81 49 63 6.272727 0.727273 0.528926

7 11 8 121 64 88 7.545455 0.454545 0.206612

8 14 9 196 81 126 9.454545 -0.454545 0.206612

Sum 56 40 524 256 364 40 -6.66E-16 2.545455

Ka(x)= 7 s^2(x)= 18.85714 s(x)= 4.342481

Ka(Y)= 5 s^2(Y)= 8 s(Y)= 2.828427

s(x,Y)= 12 r= 0.977008

b= 0.636364 a= 0.545455 SST= 56

SSE= 2.545455 SSM= 53.45455

R^2= 0.954545 :=1-SSE/SST R^2= 0.954545 :=SSM/SST R^2= 0.954545 :=r^2

s^2= 0.424242

(5)

2. Jatkoa tehtävälle 1.

Piirrä havaintoja (xi,Yi) esittävään pistediagrammiin tehtävässä 1 estimoitu regressiosuora.

Merkitse kuvioon sovitteita vastaavat pisteet (xi, ˆY_i). Piirrä samaan kuvioon myös residuaaleja kuvaavat janat.

Ratkaisu:

3. Jatkoa tehtävälle 1.

(a) Testaa tehtävän 1 regressiomallin kerrointa β koskevaa nollahypoteesia H0 : β = 0

Käytä 2-suuntaista vaihtoehtoista hypoteesia ja 5 %:n merkitsevyystasoa.

(b) Muodosta kertoimelle β 95%:n luottamusväli.

Ratkaisu:

(a) t-testisuure nollahypoteesille H0 : β = 0

on muotoa

/ ˆ_x t b

s nσ

=

jossa regressiokertoimen β estimaattori b ja jäännösvarianssin σ² harhaton estimaattori on määritelty tehtävässä 1 ja

2 1 2

ˆ_x n _x n s σ = ⁻

0 2.5 5 7.5 10

0 4 8 12 16

X vs Y

Y

X

(6)

Jos nollahypoteesi H0 pätee, testisuure t on jakautunut t-jakauman mukaan vapausastein (n – 2):

t ∼ t(n – 2)

t = 11.2 ja vapausasteet ovat

df = n – 2 = 6

5 %:n merkitsevyystasoa vastaava kriittiseksi arvoksi saadaan 2-suuntaisen vaihtoehtoisen hypoteesin tapauksessa (t-jakauman taulukosta)

2.447 Koska

t = 11.2 > 2.447 nollahypoteesi H0 hylätään.

(b) Kulmakertoimen β luottamusväli luottamustasolla 1 – α on muotoa

/ 2 , / 2

ˆ_x ˆ_x

s s

b t b t

n n

α σ α σ

 

− +

 

 

Luottamustasoa 95 % vastaava luottamuskertoimeksi t0.025

saadaan t-jakauman taulukosta (df = n – 2 = 6) t0.025 = 2.447

Tehtävän tapauksessa luottamusväliksi saadaan

(0.498 , 0.775)

4. Eräässä 42:n kunnan otoksessa suhteellisen rikollisuuden (rikoksia per 1000 asukasta) ja asukastiheyden (asukasta per km²) välinen otoskorrelaatiokertoimen arvoksi saatiin r = 0.157.

Testaa nollahypoteesia, että ko. muuttujat ovat korreloimattomia. Käytä kaksisuuntaista vaihtoehtoista hypoteesia ja 5 %:n merkitsevyystasoa.

(7)

Ratkaisu:

Testisuure nollahypoteesille H0 : ρ = 0

on muotoa

2 2

1

XY XY

t n r

= − r

−

Jos nollahypoteesi H0 pätee, testisuure t on jakautunut t-jakauman mukaan vapausastein (n – 2):

t ∼ t(n – 2)

t = 1.01 ja vapausasteet ovat

df = n – 2 = 40

5 %:n merkitsevyystasoa vastaavaksi kriittiseksi arvoksi saadaan 2-suuntaisen vaihtoehtoisen hypoteesin tapauksessa (t-jakauman taulukosta)

2.021 Koska

t = 1.01 < 2.021.

nollahypoteesi H0 jätetään voimaan.

5. Menestyminen opinnoissa saattaa vaikuttaa vastavalmistuneen alkupalkkaan.

Asiaa tutkittiin eräässä USA:n yliopistossa poimimalla vastavalmistuneiden joukosta

yksinkertainen satunnaisotos, jonka koko oli 15. Otokseen poimituilta opiskelijoilta kysyttiin heidän arvosanapisteidensä keskiarvoa (muuttuja X) ja alkupalkkaa (muuttuja Y, 1000 $).

Otosta kuvaavat perustunnusluvut olivat:

Ka(X) = 3.04 Ka(Y) = 18.05 s²(X) = 0.063 s²(Y)= 5.81 rXY = 0.848

(a) Määrää regressiokertoimien estimaatit lineaarisessa regressiomallissa Yi = α + βXi + εi

jossa alkupalkkaa Y selitetään arvosanapisteiden keskiarvolla X.

(b) Määrää regressiokertoimien estimaatit lineaarisessa regressiomallissa Xi = γ + δYi + εi

(8)

(c) Testaa nollahypoteesia H0 : ρ = 0.8

(d) Määrää estimoidun regressiomallin selitysaste.

(e) Testaa nollahypoteesia H0 : β = 0

(f) Määrää kohdissa (a) ja (b) estimoitujen regressiosuorien leikkauspiste.

Vertaa tulosta X- ja Y-arvojen aritmeettisiin keskiarvoihin. Onko tulos sattuma?

Käytä testeissä 2-suuntaisia vaihtoehtoisia hypoteeseja ja 1 %:n merkitsevyystasoa.

Ratkaisu:

(a) Mallin

Yi = α + βXi + εi

regressiokertoimien α ja β PNS-estimaattorit ovat

Y X

b r s a Y bX

= s = −

Tehtävän tapauksessa b = 8.14

a = –6.71

(b) Mallin

Xi = γ + δYi + εi

regressiokertoimien γ ja δYi PNS-estimaattorit ovat

X Y

d r s c X dY

= s = −

Tehtävän tapauksessa d = 0.0883

c = 1.45

Huomaa, että b×d = r² = 0.719

(9)

(c) Testisuure nollahypoteesille H0 : ρ = ρ0

on muotoa

0 0

1 1 1 1

log log

2 1 2 1

1 3

XY XY

r z r

n

ρ ρ

 

 + −  + 

 −  −

   

=

− Jos nollahypoteesi H0 pätee,

z ∼a N(0,1)

Tehtävän tapauksessa

1 1

log 0.542

2 1

XY XY

r r

 + 

 − =

 

0 0

1

1log 1.099

2 1

ρ ρ

 + 

 − =

 

joten z = -1.928

1 %:n merkitsevyystasoa vastaavat kriittiset arvot ovat 2-suuntaisen vaihtoehtoisen hypoteesin tapauksessa (normaalijakauman taulukosta)

-2.58 ja +2.58

Koska

z = -1.928 > -2.58 H0 jätetään voimaan.

(d) Koska kyseessä on yhden selittäjän lineaarinen regressiomalli, niin R² = r_XY² = 0.719

(e) Testisuure nollahypoteesille H0 : β = 0

on muotoa

/ ˆ_X t b

s nσ

=

jossa jäännösvarianssin σ² harhaton estimaattori s² saadaan yhden selittäjän lineaarisen

(10)

2 1 2 2

(1 ) 2 ^XY ^Y

s n r s

n

= − −

−

Jos nollahypoteesi H0 pätee, t ∼ t(n – 2)

Tehtävän tapauksessa s² = 1.76

t = 5.77

1 %:n merkitsevyystasoa vastaava kriittinen arvo on 2-suuntaisen vaihtoehtoisen hypoteesin tapauksessa (t-jakauman taulukosta)

3.012 Koska

t = 5.77 > 3.012 nollahypoteesi H0 hylätään.

Huomaa, että sama testisuureen arvo saadaan, jos testataan nollahypoteesia H0 : ρ = 0

Tällöin testisuureena on 2 2

1

XY XY

t n r

= − r

−

Jos nollahypoteesi H0 pätee, t ∼ t(n – 2)

(f) Ko. regressiosuorat leikkaavat aina (aritmeettisten keskiarvojen määräämässä) aineiston painopisteessä, jos suorissa on mukana vakiotermi.

Siten suorien leikkauspiste on

(Ka(X) , Ka(Y)) = (3.04 , 18.05)