• Ei tuloksia

∑∑∑∑∑ xxYYnnsxnxsYnYnnsxYnxYnsrss ===−=−−−=−−= 11111111

N/A
N/A
Info
Lataa
Protected

Academic year: 2022

Jaa "∑∑∑∑∑ xxYYnnsxnxsYnYnnsxYnxYnsrss ===−=−−−=−−= 11111111"

Copied!
10
0
0

Kokoteksti

(1)

12. harjoitukset/Ratkaisut

Aiheet: Regressioanalyysi Avainsanat:

Estimointi, Jäännösneliösumma, Jäännöstermi, Jäännösvarianssi, Keskihajonta, Kokonaisneliösumma, Korrelaatio, Kovarianssi, Kriittinen arvo, Luottamuskerroin,

Luottamustaso, Luottamusväli, Mallineliösumma, Merkitsevyystaso, Painopiste, Parametri, p-arvo, Pienimmän neliösumman menetelmä, Regressiokerroin, Regressiosuora, Residuaali, Selitettävä muuttuja, Selittäjä, Selittävä muuttuja, Selitysaste, Sovite, Testi, Vakiotermi, Vapausasteet, Varianssianalyysihajotelma

1. Muuttujien x ja Y havaitut arvot ovat:

x 1 3 4 6 8 9 11 14

Y 1 2 4 4 5 7 8 9

(a) Määrää yhden selittäjän lineaarisen regressiomallin Yi = α + βxi + εi , εi ∼ N(0, σ2)

regressiokertoimien α ja β pienimmän neliösumman (PNS-) estimaatit.

(b) Määrää estimoidun mallin sovitteet ja residuaalit.

(c) Määrää estimoidun mallin jäännösvarianssin σ2 harhaton estimaatti.

(d) Määrää estimoidun mallin selitysaste.

Ratkaisu:

(a) Yhden selittäjän lineaarisen regressiomallin Yi = α + βxi + εi

regressiokertoimien α ja β PNS-estimaatit saadaan alla olevilla kaavoilla.

Määrätään ensin muuttujien x ja Y havaittujen arvojen otostunnusluvut (aritmeettiset keskiarvot, otoshajonnat sekä otoskovarianssi ja -korrelaatio) seuraavilla kaavoilla:

1 1

2 2 2 2 2 2

1 1

1

1 1

1 1

1 1

1 1

n n

i i

i i

n n

x i Y i

i i

n

xY i i

i xY xY

x Y

x x Y Y

n n

s x nx s Y nY

n n

s x Y nxY

n r s

s s

= =

= =

=

= =

   

= −  −  = −  − 

 

= −  − 

=

∑ ∑

∑ ∑

(2)

Estimoidun PNS-suoran yhtälö on muotoa Y = a + bx

jossa a ja b ovat mallin regressiokertoimien α ja β estimaattorit. Estimaattorit a ja b saadaan yllä esitetyistä otostunnuslukujen lausekkeista kaavoilla

xY Y x

b r s s a Y bx

=

= −

Tehtävän tapauksessa:

x = 7 Y = 5

sx = 4.34 sY = 2.83 rxY = 0.977

joten

b = 0.636 a = 0.545

Laskutoimitukset on tehty Microsoft Excel -ohjelmalla; ks. alla.

Siten estimoidun PNS-suoran yhtälö on Y = 0.545 + 0.636x

(b) Estimoidun mallin sovitteet ja residuaalit saadaan alla olevilla kaavoilla.

Sovite:

ˆi i

Y = +a bx Residuaali:

i i ˆi

e = −Y Y

Sovitteet ja residuaalit annettaan alla olevassa Excel -taulukossa.

(c) Mallin jäännösvarianssin σ2 harhaton estimaatti voidaan laskea kaavalla

2

2 s SSE

= n

− jossa

2 1 n

i i

SSE e

=

=

on estimoidun mallin residuaalien vaihtelua kuvaava jäännösneliösumma.

(3)

Tehtävän tapauksessa:

SSE = 2.55 joten

s2 = 0.424

(d) Estimoidun mallin selitysaste R2 voidaan laskea usealla eri tavalla.

Olkoon estimoidun mallin sovite

ˆi i

Y = +a bx ja residuaali

i i ˆi

e = −Y Y

Selitettävän muuttujan Y havaittujen arvojen vaihtelua kuvaava kokonaisneliösumma on

( )

2 2

1

( 1)

n

i Y

i

SST Y Y n s

=

=

− = −

Estimoidun mallin residuaalien vaihtelua kuvaava jäännösneliösumma on

2 1 n

i i

SSE e

=

=

Estimoidun mallin selittämää osuutta selitettävän muuttujan Y havaittujen arvojen vaihtelusta kuvaava mallineliösumma on

( )

2

1 n ˆ

i i

SSM SST SSE Y Y

=

= − =

Tehtävän tapauksessa:

ˆi i

Y = +a bx = 0.545 + 0.636x

i i ˆi

e = −Y Y

ja siten

SST = 56 SSE = 2.55

SSM = SST – SSE = 53.45

Laskutoimitukset on tehty Microsoft Excel -ohjelmalla; ks. alla.

Selitysaste R2 voidaan laskea kaavoilla

2 1 SSE SSM

R = − =

(4)

Yhden selittäjän lineaarisen regressiomallin tapauksessa pätee myös

2 2

R =rxY

Tehtävän tapauksessa:

R2 = 0.955

Laskutoimitukset on tehty Microsoft Excel -ohjelmalla; ks. alla.

Tehtävän laskutoimitukset Excel -taulukkona:

i x Y x^2 Y^2 xY Yhat Res Res^2

1 1 1 1 1 1 1.181818 -0.181818 0.033058

2 3 2 9 4 6 2.454545 -0.454545 0.206612

3 4 4 16 16 16 3.090909 0.909091 0.826446

4 6 4 36 16 24 4.363636 -0.363636 0.132231

5 8 5 64 25 40 5.636364 -0.636364 0.404959

6 9 7 81 49 63 6.272727 0.727273 0.528926

7 11 8 121 64 88 7.545455 0.454545 0.206612

8 14 9 196 81 126 9.454545 -0.454545 0.206612

Sum 56 40 524 256 364 40 -6.66E-16 2.545455

Ka(x)= 7 s^2(x)= 18.85714 s(x)= 4.342481

Ka(Y)= 5 s^2(Y)= 8 s(Y)= 2.828427

s(x,Y)= 12 r= 0.977008

b= 0.636364 a= 0.545455 SST= 56

SSE= 2.545455 SSM= 53.45455

R^2= 0.954545 :=1-SSE/SST R^2= 0.954545 :=SSM/SST R^2= 0.954545 :=r^2

s^2= 0.424242

(5)

2. Jatkoa tehtävälle 1.

Piirrä havaintoja (xi,Yi) esittävään pistediagrammiin tehtävässä 1 estimoitu regressiosuora.

Merkitse kuvioon sovitteita vastaavat pisteet (xi, ˆYi). Piirrä samaan kuvioon myös residuaaleja kuvaavat janat.

Ratkaisu:

3. Jatkoa tehtävälle 1.

(a) Testaa tehtävän 1 regressiomallin kerrointa β koskevaa nollahypoteesia H0 : β = 0

Käytä 2-suuntaista vaihtoehtoista hypoteesia ja 5 %:n merkitsevyystasoa.

(b) Muodosta kertoimelle β 95%:n luottamusväli.

Ratkaisu:

(a) t-testisuure nollahypoteesille H0 : β = 0

on muotoa

/ ˆx t b

s nσ

=

jossa regressiokertoimen β estimaattori b ja jäännösvarianssin σ2 harhaton estimaattori on määritelty tehtävässä 1 ja

2 1 2

ˆx n x n s σ =

0 2.5 5 7.5 10

0 4 8 12 16

X vs Y

Y

X

(6)

Jos nollahypoteesi H0 pätee, testisuure t on jakautunut t-jakauman mukaan vapausastein (n – 2):

t ∼ t(n – 2)

Tehtävän tapauksessa:

t = 11.2 ja vapausasteet ovat

df = n – 2 = 6

5 %:n merkitsevyystasoa vastaava kriittiseksi arvoksi saadaan 2-suuntaisen vaihtoehtoisen hypoteesin tapauksessa (t-jakauman taulukosta)

2.447 Koska

t = 11.2 > 2.447 nollahypoteesi H0 hylätään.

(b) Kulmakertoimen β luottamusväli luottamustasolla 1 – α on muotoa

/ 2 , / 2

ˆx ˆx

s s

b t b t

n n

α σ α σ

 

− +

 

 

Luottamustasoa 95 % vastaava luottamuskertoimeksi t0.025

saadaan t-jakauman taulukosta (df = n – 2 = 6) t0.025 = 2.447

Tehtävän tapauksessa luottamusväliksi saadaan

(0.498 , 0.775)

4. Eräässä 42:n kunnan otoksessa suhteellisen rikollisuuden (rikoksia per 1000 asukasta) ja asukastiheyden (asukasta per km2) välinen otoskorrelaatiokertoimen arvoksi saatiin r = 0.157.

Testaa nollahypoteesia, että ko. muuttujat ovat korreloimattomia. Käytä kaksisuuntaista vaihtoehtoista hypoteesia ja 5 %:n merkitsevyystasoa.

(7)

Ratkaisu:

Testisuure nollahypoteesille H0 : ρ = 0

on muotoa

2 2

1

XY XY

t n r

= − r

Jos nollahypoteesi H0 pätee, testisuure t on jakautunut t-jakauman mukaan vapausastein (n – 2):

t ∼ t(n – 2)

Tehtävän tapauksessa:

t = 1.01 ja vapausasteet ovat

df = n – 2 = 40

5 %:n merkitsevyystasoa vastaavaksi kriittiseksi arvoksi saadaan 2-suuntaisen vaihtoehtoisen hypoteesin tapauksessa (t-jakauman taulukosta)

2.021 Koska

t = 1.01 < 2.021.

nollahypoteesi H0 jätetään voimaan.

5. Menestyminen opinnoissa saattaa vaikuttaa vastavalmistuneen alkupalkkaan.

Asiaa tutkittiin eräässä USA:n yliopistossa poimimalla vastavalmistuneiden joukosta

yksinkertainen satunnaisotos, jonka koko oli 15. Otokseen poimituilta opiskelijoilta kysyttiin heidän arvosanapisteidensä keskiarvoa (muuttuja X) ja alkupalkkaa (muuttuja Y, 1000 $).

Otosta kuvaavat perustunnusluvut olivat:

Ka(X) = 3.04 Ka(Y) = 18.05 s2(X) = 0.063 s2(Y)= 5.81 rXY = 0.848

(a) Määrää regressiokertoimien estimaatit lineaarisessa regressiomallissa Yi = α + βXi + εi

jossa alkupalkkaa Y selitetään arvosanapisteiden keskiarvolla X.

(b) Määrää regressiokertoimien estimaatit lineaarisessa regressiomallissa Xi = γ + δYi + εi

(8)

(c) Testaa nollahypoteesia H0 : ρ = 0.8

(d) Määrää estimoidun regressiomallin selitysaste.

(e) Testaa nollahypoteesia H0 : β = 0

(f) Määrää kohdissa (a) ja (b) estimoitujen regressiosuorien leikkauspiste.

Vertaa tulosta X- ja Y-arvojen aritmeettisiin keskiarvoihin. Onko tulos sattuma?

Käytä testeissä 2-suuntaisia vaihtoehtoisia hypoteeseja ja 1 %:n merkitsevyystasoa.

Ratkaisu:

(a) Mallin

Yi = α + βXi + εi

regressiokertoimien α ja β PNS-estimaattorit ovat

Y X

b r s a Y bX

= s = −

Tehtävän tapauksessa b = 8.14

a = –6.71

(b) Mallin

Xi = γ + δYi + εi

regressiokertoimien γ ja δYi PNS-estimaattorit ovat

X Y

d r s c X dY

= s = −

Tehtävän tapauksessa d = 0.0883

c = 1.45

Huomaa, että b×d = r2 = 0.719

(9)

(c) Testisuure nollahypoteesille H0 : ρ = ρ0

on muotoa

0 0

1 1 1 1

log log

2 1 2 1

1 3

XY XY

r z r

n

ρ ρ

 

 + −  + 

 −  −

   

=

− Jos nollahypoteesi H0 pätee,

z ∼a N(0,1)

Tehtävän tapauksessa

1 1

log 0.542

2 1

XY XY

r r

 + 

 − =

 

0 0

1

1log 1.099

2 1

ρ ρ

 + 

 − =

 

joten z = -1.928

1 %:n merkitsevyystasoa vastaavat kriittiset arvot ovat 2-suuntaisen vaihtoehtoisen hypoteesin tapauksessa (normaalijakauman taulukosta)

-2.58 ja +2.58

Koska

z = -1.928 > -2.58 H0 jätetään voimaan.

(d) Koska kyseessä on yhden selittäjän lineaarinen regressiomalli, niin R2 = rXY2 = 0.719

(e) Testisuure nollahypoteesille H0 : β = 0

on muotoa

/ ˆX t b

s nσ

=

jossa jäännösvarianssin σ2 harhaton estimaattori s2 saadaan yhden selittäjän lineaarisen

(10)

2 1 2 2

(1 ) 2 XY Y

s n r s

n

= − −

Jos nollahypoteesi H0 pätee, t ∼ t(n – 2)

Tehtävän tapauksessa s2 = 1.76

t = 5.77

1 %:n merkitsevyystasoa vastaava kriittinen arvo on 2-suuntaisen vaihtoehtoisen hypoteesin tapauksessa (t-jakauman taulukosta)

3.012 Koska

t = 5.77 > 3.012 nollahypoteesi H0 hylätään.

Huomaa, että sama testisuureen arvo saadaan, jos testataan nollahypoteesia H0 : ρ = 0

Tällöin testisuureena on 2 2

1

XY XY

t n r

= − r

Jos nollahypoteesi H0 pätee, t ∼ t(n – 2)

(f) Ko. regressiosuorat leikkaavat aina (aritmeettisten keskiarvojen määräämässä) aineiston painopisteessä, jos suorissa on mukana vakiotermi.

Siten suorien leikkauspiste on

(Ka(X) , Ka(Y)) = (3.04 , 18.05)

Viittaukset

LIITTYVÄT TIEDOSTOT

Tutkittaessa tulotason ja persoonallisuuden yhteisvaikutusta havaittiin yhdistetyllä pienimmän neliösumman menetelmällä sovinnollisuudella olevan negatiivinen

Kun painoina käytettiin uusien lainojen määrien neliöjuurimuunnoksia, painotetun pienimmän neliösumman menetelmällä päästiin paneeliaineistomalleissa parempiin

Tuloksista Ranki toteaa, että vaikuttaisi myös siltä, että VAR-menetelmällä esiin saata- va dynamiikka tarkentaa huomattavasti tulok- sia verrattuna pienimmän neliösumman

MTTTA14 Tilastotieteen matriisilaskenta ja laskennalliset menetelmät,

Luottamusväli: Analyze -&gt; Compare Means -&gt; One- Sample T Test -&gt; Test Variable Neliövuokra... Eräs yritys

Luottamustaso, Luottamusväli, Mallineliösumma, Merkitsevyystaso, Painopiste, Parametri, p-arvo, Pienimmän neliösumman menetelmä, Regressiokerroin, Regressiosuora, Residuaali,

Valitaan ensimmäisen luokan alarajaksi jokin sopiva luku pienimmän arvon 147 cm alapuolelta, esimerkiksi arvo 145 cm (myös pienin arvo 147 cm on mahdollinen valinta).

I Funktion suorituksen alussa parametri lista viittaa samaan listaan kuin p¨ a¨ aohjelman muuttuja lukulista.