12. harjoitukset/Ratkaisut
Aiheet: Regressioanalyysi Avainsanat:
Estimointi, Jäännösneliösumma, Jäännöstermi, Jäännösvarianssi, Keskihajonta, Kokonaisneliösumma, Korrelaatio, Kovarianssi, Kriittinen arvo, Luottamuskerroin,
Luottamustaso, Luottamusväli, Mallineliösumma, Merkitsevyystaso, Painopiste, Parametri, p-arvo, Pienimmän neliösumman menetelmä, Regressiokerroin, Regressiosuora, Residuaali, Selitettävä muuttuja, Selittäjä, Selittävä muuttuja, Selitysaste, Sovite, Testi, Vakiotermi, Vapausasteet, Varianssianalyysihajotelma
1. Muuttujien x ja Y havaitut arvot ovat:
x 1 3 4 6 8 9 11 14
Y 1 2 4 4 5 7 8 9
(a) Määrää yhden selittäjän lineaarisen regressiomallin Yi = α + βxi + εi , εi ∼ N(0, σ2)
regressiokertoimien α ja β pienimmän neliösumman (PNS-) estimaatit.
(b) Määrää estimoidun mallin sovitteet ja residuaalit.
(c) Määrää estimoidun mallin jäännösvarianssin σ2 harhaton estimaatti.
(d) Määrää estimoidun mallin selitysaste.
Ratkaisu:
(a) Yhden selittäjän lineaarisen regressiomallin Yi = α + βxi + εi
regressiokertoimien α ja β PNS-estimaatit saadaan alla olevilla kaavoilla.
Määrätään ensin muuttujien x ja Y havaittujen arvojen otostunnusluvut (aritmeettiset keskiarvot, otoshajonnat sekä otoskovarianssi ja -korrelaatio) seuraavilla kaavoilla:
1 1
2 2 2 2 2 2
1 1
1
1 1
1 1
1 1
1 1
n n
i i
i i
n n
x i Y i
i i
n
xY i i
i xY xY
x Y
x x Y Y
n n
s x nx s Y nY
n n
s x Y nxY
n r s
s s
= =
= =
=
= =
= − − = − −
= − −
=
∑ ∑
∑ ∑
∑
Estimoidun PNS-suoran yhtälö on muotoa Y = a + bx
jossa a ja b ovat mallin regressiokertoimien α ja β estimaattorit. Estimaattorit a ja b saadaan yllä esitetyistä otostunnuslukujen lausekkeista kaavoilla
xY Y x
b r s s a Y bx
=
= −
Tehtävän tapauksessa:
x = 7 Y = 5
sx = 4.34 sY = 2.83 rxY = 0.977
joten
b = 0.636 a = 0.545
Laskutoimitukset on tehty Microsoft Excel -ohjelmalla; ks. alla.
Siten estimoidun PNS-suoran yhtälö on Y = 0.545 + 0.636x
(b) Estimoidun mallin sovitteet ja residuaalit saadaan alla olevilla kaavoilla.
Sovite:
ˆi i
Y = +a bx Residuaali:
i i ˆi
e = −Y Y
Sovitteet ja residuaalit annettaan alla olevassa Excel -taulukossa.
(c) Mallin jäännösvarianssin σ2 harhaton estimaatti voidaan laskea kaavalla
2
2 s SSE
= n
− jossa
2 1 n
i i
SSE e
=
=
∑
on estimoidun mallin residuaalien vaihtelua kuvaava jäännösneliösumma.
Tehtävän tapauksessa:
SSE = 2.55 joten
s2 = 0.424
(d) Estimoidun mallin selitysaste R2 voidaan laskea usealla eri tavalla.
Olkoon estimoidun mallin sovite
ˆi i
Y = +a bx ja residuaali
i i ˆi
e = −Y Y
Selitettävän muuttujan Y havaittujen arvojen vaihtelua kuvaava kokonaisneliösumma on
( )
2 21
( 1)
n
i Y
i
SST Y Y n s
=
=
∑
− = −Estimoidun mallin residuaalien vaihtelua kuvaava jäännösneliösumma on
2 1 n
i i
SSE e
=
=
∑
Estimoidun mallin selittämää osuutta selitettävän muuttujan Y havaittujen arvojen vaihtelusta kuvaava mallineliösumma on
( )
21 n ˆ
i i
SSM SST SSE Y Y
=
= − =
∑
−Tehtävän tapauksessa:
ˆi i
Y = +a bx = 0.545 + 0.636x
i i ˆi
e = −Y Y
ja siten
SST = 56 SSE = 2.55
SSM = SST – SSE = 53.45
Laskutoimitukset on tehty Microsoft Excel -ohjelmalla; ks. alla.
Selitysaste R2 voidaan laskea kaavoilla
2 1 SSE SSM
R = − =
Yhden selittäjän lineaarisen regressiomallin tapauksessa pätee myös
2 2
R =rxY
Tehtävän tapauksessa:
R2 = 0.955
Laskutoimitukset on tehty Microsoft Excel -ohjelmalla; ks. alla.
Tehtävän laskutoimitukset Excel -taulukkona:
i x Y x^2 Y^2 xY Yhat Res Res^2
1 1 1 1 1 1 1.181818 -0.181818 0.033058
2 3 2 9 4 6 2.454545 -0.454545 0.206612
3 4 4 16 16 16 3.090909 0.909091 0.826446
4 6 4 36 16 24 4.363636 -0.363636 0.132231
5 8 5 64 25 40 5.636364 -0.636364 0.404959
6 9 7 81 49 63 6.272727 0.727273 0.528926
7 11 8 121 64 88 7.545455 0.454545 0.206612
8 14 9 196 81 126 9.454545 -0.454545 0.206612
Sum 56 40 524 256 364 40 -6.66E-16 2.545455
Ka(x)= 7 s^2(x)= 18.85714 s(x)= 4.342481
Ka(Y)= 5 s^2(Y)= 8 s(Y)= 2.828427
s(x,Y)= 12 r= 0.977008
b= 0.636364 a= 0.545455 SST= 56
SSE= 2.545455 SSM= 53.45455
R^2= 0.954545 :=1-SSE/SST R^2= 0.954545 :=SSM/SST R^2= 0.954545 :=r^2
s^2= 0.424242
2. Jatkoa tehtävälle 1.
Piirrä havaintoja (xi,Yi) esittävään pistediagrammiin tehtävässä 1 estimoitu regressiosuora.
Merkitse kuvioon sovitteita vastaavat pisteet (xi, ˆYi). Piirrä samaan kuvioon myös residuaaleja kuvaavat janat.
Ratkaisu:
3. Jatkoa tehtävälle 1.
(a) Testaa tehtävän 1 regressiomallin kerrointa β koskevaa nollahypoteesia H0 : β = 0
Käytä 2-suuntaista vaihtoehtoista hypoteesia ja 5 %:n merkitsevyystasoa.
(b) Muodosta kertoimelle β 95%:n luottamusväli.
Ratkaisu:
(a) t-testisuure nollahypoteesille H0 : β = 0
on muotoa
/ ˆx t b
s nσ
=
jossa regressiokertoimen β estimaattori b ja jäännösvarianssin σ2 harhaton estimaattori on määritelty tehtävässä 1 ja
2 1 2
ˆx n x n s σ = −
0 2.5 5 7.5 10
0 4 8 12 16
X vs Y
Y
X
Jos nollahypoteesi H0 pätee, testisuure t on jakautunut t-jakauman mukaan vapausastein (n – 2):
t ∼ t(n – 2)
Tehtävän tapauksessa:
t = 11.2 ja vapausasteet ovat
df = n – 2 = 6
5 %:n merkitsevyystasoa vastaava kriittiseksi arvoksi saadaan 2-suuntaisen vaihtoehtoisen hypoteesin tapauksessa (t-jakauman taulukosta)
2.447 Koska
t = 11.2 > 2.447 nollahypoteesi H0 hylätään.
(b) Kulmakertoimen β luottamusväli luottamustasolla 1 – α on muotoa
/ 2 , / 2
ˆx ˆx
s s
b t b t
n n
α σ α σ
− +
Luottamustasoa 95 % vastaava luottamuskertoimeksi t0.025
saadaan t-jakauman taulukosta (df = n – 2 = 6) t0.025 = 2.447
Tehtävän tapauksessa luottamusväliksi saadaan
(0.498 , 0.775)
4. Eräässä 42:n kunnan otoksessa suhteellisen rikollisuuden (rikoksia per 1000 asukasta) ja asukastiheyden (asukasta per km2) välinen otoskorrelaatiokertoimen arvoksi saatiin r = 0.157.
Testaa nollahypoteesia, että ko. muuttujat ovat korreloimattomia. Käytä kaksisuuntaista vaihtoehtoista hypoteesia ja 5 %:n merkitsevyystasoa.
Ratkaisu:
Testisuure nollahypoteesille H0 : ρ = 0
on muotoa
2 2
1
XY XY
t n r
= − r
−
Jos nollahypoteesi H0 pätee, testisuure t on jakautunut t-jakauman mukaan vapausastein (n – 2):
t ∼ t(n – 2)
Tehtävän tapauksessa:
t = 1.01 ja vapausasteet ovat
df = n – 2 = 40
5 %:n merkitsevyystasoa vastaavaksi kriittiseksi arvoksi saadaan 2-suuntaisen vaihtoehtoisen hypoteesin tapauksessa (t-jakauman taulukosta)
2.021 Koska
t = 1.01 < 2.021.
nollahypoteesi H0 jätetään voimaan.
5. Menestyminen opinnoissa saattaa vaikuttaa vastavalmistuneen alkupalkkaan.
Asiaa tutkittiin eräässä USA:n yliopistossa poimimalla vastavalmistuneiden joukosta
yksinkertainen satunnaisotos, jonka koko oli 15. Otokseen poimituilta opiskelijoilta kysyttiin heidän arvosanapisteidensä keskiarvoa (muuttuja X) ja alkupalkkaa (muuttuja Y, 1000 $).
Otosta kuvaavat perustunnusluvut olivat:
Ka(X) = 3.04 Ka(Y) = 18.05 s2(X) = 0.063 s2(Y)= 5.81 rXY = 0.848
(a) Määrää regressiokertoimien estimaatit lineaarisessa regressiomallissa Yi = α + βXi + εi
jossa alkupalkkaa Y selitetään arvosanapisteiden keskiarvolla X.
(b) Määrää regressiokertoimien estimaatit lineaarisessa regressiomallissa Xi = γ + δYi + εi
(c) Testaa nollahypoteesia H0 : ρ = 0.8
(d) Määrää estimoidun regressiomallin selitysaste.
(e) Testaa nollahypoteesia H0 : β = 0
(f) Määrää kohdissa (a) ja (b) estimoitujen regressiosuorien leikkauspiste.
Vertaa tulosta X- ja Y-arvojen aritmeettisiin keskiarvoihin. Onko tulos sattuma?
Käytä testeissä 2-suuntaisia vaihtoehtoisia hypoteeseja ja 1 %:n merkitsevyystasoa.
Ratkaisu:
(a) Mallin
Yi = α + βXi + εi
regressiokertoimien α ja β PNS-estimaattorit ovat
Y X
b r s a Y bX
= s = −
Tehtävän tapauksessa b = 8.14
a = –6.71
(b) Mallin
Xi = γ + δYi + εi
regressiokertoimien γ ja δYi PNS-estimaattorit ovat
X Y
d r s c X dY
= s = −
Tehtävän tapauksessa d = 0.0883
c = 1.45
Huomaa, että b×d = r2 = 0.719
(c) Testisuure nollahypoteesille H0 : ρ = ρ0
on muotoa
0 0
1 1 1 1
log log
2 1 2 1
1 3
XY XY
r z r
n
ρ ρ
+ − +
− −
=
− Jos nollahypoteesi H0 pätee,
z ∼a N(0,1)
Tehtävän tapauksessa
1 1
log 0.542
2 1
XY XY
r r
+
− =
0 0
1
1log 1.099
2 1
ρ ρ
+
− =
joten z = -1.928
1 %:n merkitsevyystasoa vastaavat kriittiset arvot ovat 2-suuntaisen vaihtoehtoisen hypoteesin tapauksessa (normaalijakauman taulukosta)
-2.58 ja +2.58
Koska
z = -1.928 > -2.58 H0 jätetään voimaan.
(d) Koska kyseessä on yhden selittäjän lineaarinen regressiomalli, niin R2 = rXY2 = 0.719
(e) Testisuure nollahypoteesille H0 : β = 0
on muotoa
/ ˆX t b
s nσ
=
jossa jäännösvarianssin σ2 harhaton estimaattori s2 saadaan yhden selittäjän lineaarisen
2 1 2 2
(1 ) 2 XY Y
s n r s
n
= − −
−
Jos nollahypoteesi H0 pätee, t ∼ t(n – 2)
Tehtävän tapauksessa s2 = 1.76
t = 5.77
1 %:n merkitsevyystasoa vastaava kriittinen arvo on 2-suuntaisen vaihtoehtoisen hypoteesin tapauksessa (t-jakauman taulukosta)
3.012 Koska
t = 5.77 > 3.012 nollahypoteesi H0 hylätään.
Huomaa, että sama testisuureen arvo saadaan, jos testataan nollahypoteesia H0 : ρ = 0
Tällöin testisuureena on 2 2
1
XY XY
t n r
= − r
−
Jos nollahypoteesi H0 pätee, t ∼ t(n – 2)
(f) Ko. regressiosuorat leikkaavat aina (aritmeettisten keskiarvojen määräämässä) aineiston painopisteessä, jos suorissa on mukana vakiotermi.
Siten suorien leikkauspiste on
(Ka(X) , Ka(Y)) = (3.04 , 18.05)