X 1 , . . . , X n lihavoidulla isollakirjaimella X ja havaittua otosarvoa x 1 , . . . , x n lihavoidulla pikkukirjaimella x. Aloitamme väliestimaatin määritelmällä.

(1)

9.6.1 Markovinja T²eby²evin epäyhtälöt sekäsuurten luku-

jen laki. . . 263

9.6.2 Jenseninepäyhtälö . . . 265

9.6.3 Stokastinensuppeneminen . . . 266

9.6.4 Suppeneminen jakaumamielessä . . . 268

10 Uskottavuuspäättelyn perusteet 273 10.1 Uskottavuuden määritelmä . . . 273

10.1.1 Diskreetit mallit. . . 275

10.1.2 Jatkuvatmallit . . . 275

10.2 Esimerkkejä . . . 276

10.3 Uskottavuuksien yhdistäminen . . . 276

10.4 Yhteys Bayesilaiseen lähestymistapaan . . . 283

10.5 Uskottavuussuhde . . . 283

10.6 Uskottavuusfunktion maksimi ja kaarevuus . . . 284

10.7 Uskottavuuden invarianssi . . . 287

10.7.1 Uskottavuus uudessa parametrisoinnissa . . . 288

10.8 Pistesuureen jakauma . . . 289

10.9 Suurimmanuskottavuuden menetelmä . . . 292

10.9.1 Odotettu informaatioja kokeiden suunnittelu . . . 292

10.9.2 Pistefunktionja informaatiofunktion ominaisuuksia . . 293

10.9.3 Cramérin ja Raon alaraja . . . 295

10.9.4 Suurimman uskottavuuden estimaattorinominaisuuksia296 11 Piste-estimointi 299 11.1 Piste-estimaattoreiden ominaisuuksia . . . 299

11.1.1 Harhattomuus . . . 299

11.1.2 Tehokkuus . . . 300

11.1.3 Tarkentuvuus . . . 304

11.2 Estimointimenetelmiä. . . 305

11.2.1 Momenttimenetelmä . . . 305

11.2.2 Bayesin menetelmä . . . 306

11.2.3 Suurimman uskottavuuden estimaattorin (SUE) ominaisuuksia . . . 307

11.3 Delta-menetelmä . . . 308

11.4 Tyhjentävyys . . . 310

11.4.1 Perusidea . . . 310

11.4.2 Tekijälause . . . 311

11.4.3 Minimaalinen tyhjentävyys . . . 312

11.5 Eksponentiaalinen perhe . . . 316

12 Väliestimointi 321 12.1 Keskiarvojen luottamusvälit . . . 321

12.1.1 Napasuureet . . . 326

(2)

12.3 Suhteellisten osuuksienluottamusvälit. . . 329

12.4 Otoskoko. . . 330

12.5 Mediaaninjakaumasta vapaa luottamusväli . . . 331

12.6 Yhden selittäjänlineaarinen regressiomalli . . . 332

12.6.1 Ehdollinen normaalimalli. . . 332

12.6.2 Yksinkertainen lineaarinen regressio . . . 334

13 Hypoteesien testaus 335 13.1 Testisuureet ja

p

^-arvot ^. ^. ^. ^. ^. ^. ^. ^. ^. ^. ^. ^. ^. ^. ^. ^. ^. ^. ^. ^. ^. ^. ³³⁶

13.2 Testien arviointi. . . 337

13.2.1 Testin voimakkuus . . . 338

13.2.2 Testin konstruointiyksinkertaisethypoteesit . . . 339

13.3 Uskottavuussuhdetestit: Yksinkertaiset hypoteesit . . . 342

13.3.1 Yksi parametri . . . 342

13.3.2 Useita parametreja . . . 346

13.4 Uskottavuusfunktion avulla konstruoituja testisuureita . . . 347

13.5 Uskottavuussuhdetestit: Yhdistetyt hypoteesit . . . 348

13.5.1

p

^-arvonmäärittäminen . . . 349

13.5.2 Kaksiparametria, joistatoista testataan . . . 350

13.5.3 Homogeenisuuden testaus . . . 351

13.5.4 Binomitodennäköisyyksien testaaminen . . . 355

13.5.5 Multinomitodennäköisyyksien testaaminen . . . 357

13.5.6 Riippumattomuudentestaus kontingenssitaulukoissa . . 359

(3)

Väliestimointi

Estimaatteihinliittyyainatiettyepävarmuus,jokajohtuumm.otosvaihtelus-

ta.Josestimaattori onharhaton ja sen varianssipieni, voidaanestimaattien

odottaa osuvan lähelle parametrin arvoa. Väliestimoinnissa ilmoitetaan vä-

li, jolle parametrin arvon arvioidaan kuuluvan, ja lisäksi ilmoitetaan väliin

liittyvä luottamus tai varmuuden aste. Tässä luvussa tarkastellaan lutotta-

musvälejä. Merkitään otosta

X 1 , . . . , X n

lihavoidulla isollakirjaimella

X

ja havaittua otosarvoa

x 1 , . . . , x n

lihavoidulla pikkukirjaimella

x

. Aloitamme väliestimaatin määritelmällä.

Määritelmä 12.1 Olkoon

X

otos jostainjakaumasta

F

^ja

θ = θ(F )

^on^sen

reaaliarvoinenparametri. Onhavaittu

X = x

.Parametrin

θ

väliestimaattori onmikätahansasellainenotoksentunnuslukupari

l( X )

^ja

u( X )

^,^että

l( x ) ≤ u( x )

^kaikilla mahdollisillaotosarvoilla

X = x

. Havaittu väli

[l( x ), u( x )]

^on

θ

^:nväliestimaatti ja

[l( X ), u( X )]

väliestimaattori.

Merkitään lyhyesti

l( X ) = L, l( x ) = l, u( X ) = U

^ja

u( x ) = u

^. ^Olemme

kiinnostuneita siitä, onko parametri

θ

^välillä

[l, u]

^eli ^peittääkö ^väli ^para-

metrin arvon. Parametrin

θ

^arvo ^on^kiinteä ^ja väliestimaatti saadaanjonkin satunnaiskokeen tuloksena.Todennäköisyys

P F [L ≤ θ ≤ U]

onväliestimaattorin

[L, U]

peitetodennäköisyys.Merkintä

P F

tarkoittaa,että todennäköisyys lasketaan jakaumasta

F

^, ^josta ^otos ^on ^tehty. Satunnaisväliä

[L, U]

^sanotaan^parametrin

θ

luottamusväliksiluottamustasolla

(1 − α)100

^%,

jos

P F [L ≤ θ ≤ U] ≥ 1 − α, 0 < α < 1,

kaikilla

θ ∈ Θ

^. Luottamusvälinpeitetodennäköisyys riippuutavallisesti esti- moitavanparametrin

θ

^arvosta.

12.1 Keskiarvojen luottamusvälit

Olkoon

X 1 , . . . , X n

^otos jakaumasta, jonka keskiarvo on

µ

^ja ^varianssi

σ ² )

^.

Tarkastelemme luottamusvälinmuodostamista keskiarvolle

µ

^.

(4)

Esimerkki 12.1 Olkoon

X 1 , . . . , X n

^otosnormaalijakaumasta

N(µ, σ ² )

^.^Otos-

keskiarvo

X ¯ ∼ N(µ, σ ² /n)

^on ^jakauman tuntemattoman keskiarvon

µ

^har-

haton estimaattori. Muodostamme

X ¯

^:n ^avulla tuntemattomalle

µ

^:lle ^luot-

tamusvälin, kun varianssi

σ ² = σ ² ₀

^tunnetaan. ^Voimme normaalijakauman avulla määrittääsellaisenluvun

z α/2

^, ^että

P ( − z α/2 ≤ X ¯ − µ σ ₀ / √

n ≤ z α/2 ) = 1 − α.

Huomaa, että

P (Z ≥ z α/2 ) = P (Z ≤ − z α/2 ) = α/2

^.^Jos esimerkiksi

1 − α = 0.95

^, ⁿⁱⁱⁿ

z _α/2 = z _0.025 = 1.96

^. ^Todennäköisyys, että satunnaisväli

[ ¯ X − z α/2

σ ₀

√ n , X ¯ + z α/2

σ ₀

√ n ]

sisältää tuntemattoman keskiarvon

µ

^on

1 − α

^.

Kun otos on havaittu ja saatu havaintoarvot

x 1 , . . . , x n

^, ^voidaan ^laskea

µ

^:n^estimaatti

x ¯ = ¹ _n P n

i=1 x i

^. ^Siitä ^saadaan^tunnettu ^väli

[¯ x − z α/2

σ ₀

√ n , x ¯ + z α/2

σ ₀

√ n ],

jota sanotaan

µ

^:n

100(1 − α)

^%:n luottamusväliksi. Lukua

1 − α

^tai ^vas-

taavasti prosenttilukua

100(1 − α)

^% ^sanotaan ^välin luottamustasoksi tai luottamuskertoimeksi. Jos esimerkiksi

x ¯ = 3.25, σ = 1

^ja

n = 20

^, ⁿⁱⁱⁿ

3.25 ± 1.96 ^√ ¹ ₂₀ = [2.81, 3.69]

^on

µ

^:n

95

^%:n luottamusväli.

Vaikkaeivoitaisikaanolettaa,ettäotosonnormaalijakaumasta,voidaansilti

usein saada luottamusvälin likiarvo. Keskeisen rajaväittämän nojalla

X ¯ − µ σ/ √

n

noudattaa likimainnormaalijakaumaa

N(0, 1)

^, ^kun

n

^on^suuri. ^Silloin

P ( − z _α/2 ≤ X ¯ − µ

σ 0 / √

n ≤ z _α/2 ) ≈ 1 − α.

ja väli

[¯ x − z α/2

σ 0

√ n , x ¯ + z α/2

σ 0

√ n ],

onlikimain

100(1 − α)

^%:nluottamusväli.Likiarvontäsmällisyysriippuuotos- koosta

n

^ja jakaumasta, josta otos onperäisin.

Jos

σ ²

^on^tuntematon^ja ^otoskokokohtuullisensuuri(

n ≥ 30

^),^noudattaa

X ¯ − µ S/ √

n

^likimainnormaalijakaumaa,vaikka otos ei ole peräisin normaalijakau-

masta.Koskaotosvarianssi

S ²

^on

σ ²

^:n^tarkentuvaestimaattori,eli

S ² −→ ^P σ ²

otoskoon

n

^kasvaessa, ^seuraa ^tulos keskeisestä rajaväittämästä ja Slutskyn lauseesta (Lause9.22). Josperusjakauma, jostaotostehdään, onesimerkiksi

voimakkaasti vino, saattaa vielä otoskoko

30

^olla ^liian ^pieni, ^jotta ^likiarvo

(5)

Esimerkki 12.2 Jos otos onnormaalijakaumasta

N(µ, σ ² )

^, ⁿⁱⁱⁿ

T = X ¯ − µ

S/ √ n

noudattaa

t

^-jakaumaa vapausastein

n − 1

^. ^Silloin

t

-jakaumastavapausastein

n − 1

^voidaan^{määrittää}^luku

t α/2;n − 1

^siten, ^että

P ( − t α/2;n − 1 ≤ X ¯ − µ S/ √

n ≤ t α/2;n − 1 ) = 1 − α.

Otoksesta laskettujen estimaattien

x ¯

^ja

s ²

perusteella saadaan

µ

^:n

100(1 − α)

^%:n ^luottamusv^äli

(12.1.1)

[¯ x − t α/2;n − 1

√ s

n , x ¯ + t α/2;n − 1

√ s n ].

Jos eivoida otaksua otoksen olevannormaalijakaumasta,onväli(12.1.1)

vain likimain

µ

^:n

100(1 − α)

^%:n luottamusväli. Likiarvo ei ole herkkä poik-

keamisellenormaalisuusoletuksesta.

Joissainsovelluksissatarvitaanvainesimerkiksi

µ

^:n^alara^jan^(ylärajan)^arvio.

Olkoonotos normaalijakaumasta

N(µ, σ ² )

^. ^Silloin

P ( X ¯ − µ

σ/ √

n ≤ z α ) = 1 − α

taivastaavasti

P [ ¯ X − z α

√ σ

n ≤ µ] = 1 − α.

Kun

X ¯

^:n ^arvo ^on ^havaittu, ^saadaa

µ

^:n yksipuolinen

100(1 − α)

^%:n ^luotta-

musväli

(¯ x − z α √ σ

n , ∞ )

^.^Tämä yksipuolinenväliantaa

µ

^:lle^alara^jan.

Usein luottamusvälivoidaanmuodostaalaskennallisestihelpoimminsuu-

rimman uskottavuuden estimaattorin jakauman likiarvon avulla. Tuloksen

(11.2.2) nojalla suurimman uskottavuuden estimaattori noudattaa asymp-

toottisesti normaalijakaumaa.Välin

"

θ ˆ ± c p I(ˆ θ)

#

peitetodennäköisyys on

P θ θ ˆ − c

p I(ˆ θ) ≤ θ ≤ θ ˆ + c p I(ˆ θ)

!

= P θ

− c ≤ (ˆ θ − θ) q

I (ˆ θ) ≤ c

.

Tuloksen (11.2.4) mukaan

P θ

− c ≤ (ˆ θ − θ) q

I(ˆ θ) ≤ c

≈ P ( − c ≤ Z ≤ c),

(6)

missä

Z ∼ N(0, 1)

^.^Jos peitetodennäköisyydeksi asetetaan

0.95

^, ⁿⁱⁱⁿ^väli

(12.1.2)

"

θ ˆ − 1.96 p I(ˆ θ)

, θ ˆ + 1.96 p I (ˆ θ)

#

on

θ

^:nluottamusväli,jonkaluottamustasoonlikimain

95

^%:n,^koska

P ( − 1.96 ≤ Z ≤ 1.96) = 0.95

^.

Esimerkki 12.3 Oletetaan, että jakaumasta

Bin(100, θ)

^on^saatu ^havainto

x = 17

^. ^Lasketaan

θ

^:n likimääräinen

95

^%:n luottamusväli. Nyt

θ

^:n ^suurim-

man uskottavuuden estimaattion

θ ˆ = x/n = 0.17

^ja

l(θ) − l(ˆ θ) = 17 log θ + 83 log(1 − θ) + 45.581, 0 < θ < 1.

Laskemalla voidaan todeta, että

l(θ) − l(ˆ θ) ≥ log 0.147

^, ^kun

0.105 ≤ θ ≤ 0.251

^. ^Tämä ^on

θ

^:n

14.7

^%:n uskottavuusväli ja likimain

95

^%:n ^luottamus-

väli.

Informaatiofunktio on

I(θ) = x

θ ² + n − x

(1 − θ) ² , 0 < θ < 1.

Sijoittamallainformaatiofunktioon

θ = ˆ θ

^saadaan

I(ˆ θ) = x

θ ˆ ² + n − x (1 − θ) ˆ ² = n

θ ˆ + n

1 − θ ˆ = n θ(1 ˆ − θ) ˆ .

Nyt (12.1.2):nmukaan

θ ˆ ± 1.96

s θ(1 ˆ − θ) ˆ

n = 0.17 ± 0.0736

on

θ

95

^%:n luottamusväli. Väli ei kuitenkaan ole uskotta- vuusväli,sillävälinalarajan

0.096

suhteellinenuskottavuus

R(0.096) = 0.072

onpaljonpienempi kuinylärajan

0.244

suhteellinenuskottavuus

R(0.244) =

0.200

^.

Esimerkki 12.4 Oletetaan, että

X ∼ Bin(3, θ)

^. ^Silloin

l(θ) = x log θ + (3 − x) log(1 − θ)

= 3[ˆ θ log θ + (1 − θ) log(1 ˆ − θ)]

^ja

l(ˆ θ) = 3[ˆ θ log ˆ θ + (1 − θ) log(1 ˆ − θ)], ˆ

missä

θ ˆ = x/3

^ja

0 ≤ θ ≤ 1

^. Estimaattori

θ ˆ

^voi ^saada ^arvot

0

^,

¹ ₃

^,

² ₃

^ja

1

^.

Parametrin

10

^%:n uskottavuusväli on

uv(x; 10 %) = { θ | l(θ) − l(ˆ θ) ≥ log 0.1 } .

(7)

Jos esimerkiksi

x = 1

^, ⁿⁱⁱⁿ

uv(x; 10 %) = { θ | log θ + 2 log(1 − θ) ≥ − 0.39 }

= [0.015, 0.869].

Eri

x

^:n ^arvoilla^saadaan ^seuraavat

θ

^:n

10

^%:n uskottavuusvälit

uv(0) = [0, 0.536], uv(1) = [0.015, 0.869], uv(2) = [0.131, 0.985], uv(3) = [0.464, 1].

Todennäköisyys, että väli peittää parametrin todellisen arvon, riippuu nyt

parametrin arvosta.

− 1

− 2 r(θ)

θ

1/3 2/3 1

r(θ) = log(0.1) x = 3 x = 0 x = 1 x = 2

Kuvio 12.1. Logaritmoitu normitettu uskottavuusfunktio

r(θ) = l(θ) − l(ˆ θ)

^, ^kun

x = 0, 1, 2

^ja

3

^.

Normaalijakaumaan perustuvan likiarvon avulla johdettu tavanomainen

95

^%:n luottamusvälionmuotoa

l V (ˆ θ) = ˆ θ ± 1.96

s θ(1 ˆ − θ) ˆ 3 .

Koska

θ ˆ

^:nmahdollisetarvotovat

0

^,

¹ ₃

^,

² ₃

^ja

1

^,ⁿⁱⁱⁿmahdollisetluottamusvälit ovat

0, [0.061, 0.605], [0.395, 0.939]

^ja

1.

Havaintoarvoilla

X = 0

^ja

X = 3

^väli degeneroituu yhdeksi pisteeksi. Kun

0 < θ < 0.061

^tai

0.939 < θ < 1

^, ^on luottamusvälinpeitetodennäköisyys

0

^.

(8)

12.1.1 Napasuureet

Olkoon

X 1 , . . . , X n

^otos^tasa^jakaumasta

Tas(0, θ)

^ja^olkoon

Y = X (n)

^havain-

tojen maksimi. Muodostetaan tuntemattomalle parametrille

θ

väliestimaat- tori. Tarkastellaankahtavaihtoehtoa:

[Y, aY ], a > 1;

[Y, Y + b], b > 0,

missä

a

^ja

b

^ovat^annettuja^vakioita. Ensimmäisenvälinpeitetodennäköisyys on

P (θ ∈ [Y, aY ]) = P (Y ≤ θ ≤ aY ) = P 1

a ≤ Y θ ≤ 1

.

Koska

Y

^:n tiheysfunktio on

f _Y (y) = ny ⁿ ⁻ ¹ /θ ⁿ

^,

0 ≤ y ≤ θ

^, ⁿⁱⁱⁿ ^satunnais-

muuttujan

T = Y /θ

tiheysfunktio on

f T (t) = nt ⁿ ⁻ ¹

^,

0 ≤ t ≤ 1

^. ^Siksi ^peite-

todennäköisyys on

P 1

a ≤ T ≤ 1

= Z 1

1/a

nt ⁿ ⁻ ¹ dt = 1 − 1

a n

.

Peitetodennäköisyys eiriipu

θ

^:sta ^ja ^siksi^välin

[Y, aY ]

luottamustasoon

1 − (1/a) ⁿ

^kaikilla

θ > 0

^.

Toisen välinpeitetodennäköisyys on

P (θ ∈ [Y, Y + b]) = P (Y ≤ θ ≤ Y + b)

= P

1 − b

θ ≤ T ≤ 1

= Z 1

1 − b/θ

nt ⁿ ⁻ ¹ dt = 1 −

1 − b θ

n

.

Tässä tapauksessa peitetodennäköisyys riippuuparametrista

θ

^.

Sanommesatunnaismuuttujaa

T = t(ˆ θ; θ)

napasuureeksi(pivotalquantity taipivot),jos

T

^:n^jakauma ^ei^riipu parametrista

θ

^. ^Tässä

θ ˆ = ˆ θ(X 1 , . . . , X n )

on

θ

^:nestimaattori.Napasuureenavullavoidaansiiskonstruoidaluottamus- välejä, joiden peitetodennäköisyys eiriipu estimoitavasta parametrista.

Esimerkki 12.5 Tarkastellaan nyt normaalijakauman

N(µ, σ ² )

^parametrin

σ ²

väliestimointia.Koska

V = (n − 1)S ²

σ ² ∼ Khi2(n − 1)

onnapasuure, niin

1 − α = P (a ≤ V ≤ b), a < b

= P

a

(n − 1)S ² ≤ 1

σ ² ≤ b (n − 1)S ²

= P

(n − 1)S ²

b ≤ σ ² ≤ (n − 1)S ² a

on

σ ²

^:n luottamusvälin

[ ⁽ⁿ ⁻ _b ^1)S ² , ⁽ⁿ ⁻ _a ^1)S ² ]

luottamustaso.

(9)

12.2 Kahden keskiarvon erotuksen luottamus-

välit

Olkoot

X ₁ , . . . , X _n

^ja

Y ₁ , . . . , Y _m

^kaksiriippumatontaotosta,joistaensimmäi- nenonnormaalijakaumasta

N(µ X , σ _X ² )

^ja^toinennormaalijakaumasta

N(µ Y , σ _Y ² )

^.

Oletetaan, että varianssit

σ _X ²

^ja

σ ² _Y

^tunnetaan. ^Koska ^otokset ^ovat ^riippu-

mattomat, niinmyös otoskeskiarvot

X ¯

^ja

Y ¯

^ovat riippumattomatja niiden jakaumat ovat

X ¯ ∼ N(µ X , σ ² _X /n)

^ja

Y ¯ ∼ N(µ Y , σ _Y ² /m)

^. Otoskeskiarvojen erotuksen

W = ¯ X − Y ¯

^jakauma^on

N(µ X − µ Y , σ ² _X /n + σ ² _Y /m)

^ja

P − z α/2 ≤ ( ¯ X − Y ¯ ) − (µ X − µ Y )

p σ _X ² /n + σ _Y ² /n ≤ z α/2

!

= 1 − α.

Kun havainnot on tehty, saadaan havaitut otoskeskiarvot

x ¯

^ja

y ¯

^ja ^keskiar-

vojen erotuksen

100(1 − α)

^%:n ^luottmusv^äli^on

[¯ x − y ¯ − z α/2 σ W , x ¯ − y ¯ + z α/2 σ W ],

missä

σ W

^on

W

^:n^hajonta.

Jos variansseja

σ _X ²

^ja

σ _Y ²

^ei ^tunneta, ^mutta ^otoskoot

n

^ja

m

^ovat ^suuret,

niinvarianssit

σ _X ²

^ja

σ ² _Y

^voidaan ^korvata varianssien harhattomillaestimaa- teilla

s ² _x

^ja

s ² _y

^.^Silloin ^saadaanlikimääräinen

100(1 − α)

^%:n luottmusväli

¯

x − y ¯ − z α/2 σ W , x ¯ − y ¯ + z α/2 s W ,

missä

s W = q s ² _x

n + ^s _m ² ^y

^on

W

^:n ^hajonnan estimaatti.

Tarkastellaanseuraavaksikahdennormaalijakaumankeskiarvojenerotuk-

senluottamusvälinmäärittämistä,kunvarianssejaeitunnetajaotoskootovat

pienet.Olkoon

X 1 , . . . , X n

otosnormaalijakaumasta

N(µ X , σ ² _X )

^ja

Y 1 , . . . , Y m

normaalijakaumasta

N(µ Y , σ _Y ² )

^ja ^otokset ^ovat ^toisistaan riippumattomat.

Käsitellään ensin tilannetta, jossa voidaan olettaa

σ _X ² = σ _Y ² = σ ²

^. ^Silloin

satunnaismuuttuja

Z = X ¯ − Y ¯ − (µ X − µ Y ) q σ ²

n + ^σ _m ²

noudattaa normaalijakaumaa

N(0, 1)

^.

Koskaotokset ovattoisistaanriippumattomat, niin

U = (n − 1)S _X ²

σ ² + (m − 1)S _Y ² σ ²

onkahdenriippumattoman

Khi2

^-jakaumaanoudattavansatunnaismuuttujan summa ja

U ∼ Khi2(n + m − 2)

^. ^{Määritemän} ^mukaan

T = Z

U/(n + m − 2)

(10)

noudattaa

t

^-jakaumaavapausastein

n + m − 2

^.^Kun ^tähän sijoitetaanedellä esitetyt

Z

^:n^ja

U

^:n lausekkeet, saadaan

T = X ¯ − Y ¯ − (µ X − µ Y ) S P

q 1 n + _m ¹

,

missä

S P = s

(n − 1)S _X ² + (m − 1)S _Y ²

n + m − 2 .

Nyt

P (t _α/2;n+m ₋ ₂ ≤ T ≤ t _α/2;n+m ₋ ₂ ) = 1 − α

ja siksi

P | X ¯ − Y ¯ − (µ X − µ Y ) | ≤ t α/2;n+m − 2 S P

r 1 n + 1

m

= 1 − α.

Jos

x, ¯ y ¯

^ja

s P

^ovat satunnaismuuttujien

X, ¯ Y ¯

^ja

S P

^javaitut ^arvot,ⁿⁱⁱⁿ ^saa-

daan

(µ X − µ Y )

^:n

100(1 − α)

^%:n ^luottamusv^äli

[¯ x − y ¯ − t _α/2;n+m ₋ ₂ s P

r 1 n + 1

m , x ¯ − y ¯ + t _α/2;n+m ₋ ₂ s P

r 1 n + 1

m ].

Jostunnetaanvarianssiensuhde

σ _X ² /σ ² _Y

^,^voidaankeskiarvojenerotukselle

(µ _X − µ _Y )

^johtaa luottamusväli

t

^-jakauman^avullavastaavastikuintilantees- sa

σ ² _X = σ _Y ²

^. ^Jos ^kuitenkaan varianssien suhdetta ei tunneta, tarkastellaan suuretta

W = ( ¯ X − Y ¯ ) − (µ X − µ Y ) p S _X ² /n + S _Y ² /m .

Jos

n

^ja

m

^ovat^tarpeeksi^suuria, ⁿⁱⁱⁿ

W

^noudattaa ^likimainnormaalijakaumaa ja

P (z α/2 ≤ W ≤ z α/2 ) ≈ 1 − α.

Jos

n

^ja

m

^eivät^ole^kovin^suuria,^{käyteetään}

t

^-jakaumaan^perustuvaa^Welhin

likiarvoa. Lasketaan

r = (s ² _x /n + s ² _y /m) ²

(s ² _x /n) ²

n − 1 + ^(s _m ² ^y ^/m) ₋ ₁ ²

ja

r

pyöristetään alspäin lähimpään kokonaislukuun (

= ⌊ r ⌋

^). ^Silloin

(µ X − µ Y )

^:n ^likimäärin

100(1 − α)

^%:n ^luottamusv^äli ^on

¯

x − y ¯ ± t α/2; ⌊ r ⌋

q

s ² _x /n + s ² _y /m.

Joissakin sovelluksissa mittaukset

X

^ja

Y

^ovat ^toisistaan ^riippuvat. ^Mi-

tataan esimerkiksi

n

^:n ^henkilön ^paino ^ennen ^ja ^jälkeen laihdutuskuurin ja saadaan mittaukset

(X 1 , Y 1 ), (X 2 , Y 2 ), . . . , (X n , Y n )

^, ^joka ^on ^otos ^kaksiulot-

teisesta jakaumasta. Silloin eri mittausparit

(X i , Y i )

^ja

(X j , Y j ), i 6 = j,

^ovat

(11)

toisistaan riippumattomat, mutta mittaukset

X i

^ja

Y i

^ovat ^riippuvia. ^Muo-

dostetaanerotukset

D i = X i − Y i , i = 1, 2, . . . , n

^.Ûsein ^voidaanôlettaa,êttä

D 1 , D 2 , . . . , D n

^on^otosnormaalijakaumasta

N(µ X − µ Y , σ _D ² )

^,^missä

σ _D ²

^on^ero-

tusten varianssi. Erityisesti, jos

(X 1 , Y 1 ), (X 2 , Y 2 ), . . . , (X n , Y n )

^on ^otos ^kak-

siulotteisesta normaalijakaumasta

N (µ X , µ Y , σ X , σ Y , ρ)

^, ⁿⁱⁱⁿ

D 1 , D 2 , . . . , D n

onotosnormaalijakaumasta

N(µ X − µ Y , σ _D ² )

^.^Silloin

(µ X − µ Y )

^:n^luottamus-

väli voidaan muodostaa suureen

T = D ¯ − (µ X − µ Y ) S _D / √

n

avulla, missä

D ¯

^on ^erotusten otoskeskiarvo ja

S _D ²

^erotusten otosvarianssi.

Erotuksen

µ X − µ Y ) 100(1 − α

^%:n luottamusvälion

d ¯ ± t _α/2;n ₋ ₁ s _d

√ n

missä

d ¯

^onhavaintojen keskiarvo ja

s d

^niiden ^hajonta.

12.3 Suhteellisten osuuksien luottamusvälit

Olkoon

X ₁ , X ₂ , . . . , X _n

^otos ^Bernoullin ^jakaumasta

Ber(p)

^. ^Silloin ^onnistu-

misten lukumäärä

Y = X 1 + · · · X n

^noudattaa Binomijakaumaa

Bin(n, p)

^.

Otoskeskiarvo

Y /n

^on ^parametrin

p

^harhaton estimaattori.Suure

Y − np

p np(1 − p) = Y /n − p p p(1 − p)/n

noudattaakeskeisenrajaväittämännojallalikimainnormaalijakaumaa

N(0, 1)

^,

kun

n

ôn^tarpeeksi ^suuri.^Voimme ^siisôlettaa, êttä

(12.3.1)

P − z _α/2 ≤ Y /n − p

p p(1 − p)/n ≤ z _α/2

≈ 1 − α,

josta saadaan

P Y

n − z α/2

r p(1 − p)

n ≤ p ≤ Y

n + z α/2

r p(1 − p) n

≈ 1 − α.

Koska epäyhtälön päätepisteissä esiintyy estimoitava tuntematon parametri

p

^, ^ei^tästä ^tuloksesta ^saada ^suoraan luottamusväliä.Tarvitaan toinenlikiar- vo, korvataan päätepisteissä

p

harhattomalla estimaatorilla

Y /n

^. ^Suurella

havaintojen lukumäärällä

n

^pitää ^edelleen ^paikkansa, ^että

P Y

n − z _α/2

r (Y /n)(1 − Y /n)

n ≤ p ≤ Y

n + z _α/2

r (Y /n)(1 − Y /n) n

≈ 1 − α.

(12)

Jos havaitaan

Y = y

^, ⁿⁱⁱⁿ ^suurilla

n

^:n ^arvoilla

p

100(1 − α)

^%:n ^luottamusv^äli ^on

y

n ± z α/2

r (y/n)(1 − y/n)

n .

Muodostamme nyt luottamusvälin kahden onnistumistodennäköisyyden

p 1

^ja

p 2

erotukselle

p 1 − p 2

^. ^Oletetaan, ^että onnistumistenlukumäärät

Y 1

^ja

Y ₂

^kahdessa riippumattomassakokeessa noudattavat binomijakaumaa siten, että

Y i ∼ Bin(n i , p i ), i = 1, 2

^. Satunnaismuuttujat

Y 1

^ja

Y 2

^ovat ^siis ^riippu-

mattomat. Koska

Y i /n i

^on

p i

^:n,

i = 1, 2

^harhaton estimaattori ja

Y 1

^ja

Y 2

ovatriippumattomat,niin

Y ₁ /n ₁ − Y ₂ /n ₂

^on

p ₁ − p ₂

^:n^harhaton estimaattori ja

Var(Y 1 /n 1 − Y 2 /n 2 ) = p 1 (1 − p 1 ) n 1

+ p 2 (1 − p 2 ) n 2

.

Voidaanosoittaa, että suure

(Y ₁ /n ₁ − Y ₂ /n ₂ ) − (p ₁ − p ₂ ) p p 1 (1 − p 1 )/n 1 + p 2 (1 − p 2 )/n 2

noudattaa likimain normaalijakaumaa

N(0, 1)

^, ^kun

n

^on ^suuri. ^Jos ^nimittä-

jässä

p 1

^ja

p 2

^korvataan estimaattoreillaan,on

P ( − z _α/2 ≤ (Y 1 /n 1 − Y 2 /n 2 ) − (p 1 − p 2 )

p Y 1 /n 1 (1 − Y 1 /n 1 )/n 1 + Y 2 /n 2 (1 − Y 2 /n 2 )/n 2

≤ z _α/2 ) ≈ 1 − α.

suurilla

n

^:n^arvoilla.^Tästä^saadaan^erotuksen

p 1 − p 2

^likimain

100(1 − α)

^%:n

luottamusväli

y ₁ n 1 − y ₂

n 2 ± z α/2

s

y ₁ (1 − y ₁ ) n 1

+ y ₂ (1 − y ₂ ) n 2

.

12.4 Otoskoko

Jos haluamme, että odotusarvon

µ

luottamusväli,

x ¯ ± z _α/2 (σ/ √ n)

^, ^ei ^ole

pidempikuin annettu väli

x ¯ ± ε

^, ⁿⁱⁱⁿ^asetetaan

ε = z α/2 σ

√ n ,

^josta^seuraa

n = z _α/2 ² σ ² ε ² .

Suuretta

ε = ^z ^α/2 ^√ _n ^σ

^kutsutaan^usein^estimaatinmaksimivirheeksi.Suhteellisen osuuden

p

^likimäärin

100(1 − α)

^%:nluottamusvälion

ˆ p ± z _α/2

r p(1 ˆ − p) ˆ

n ,

(13)

luottamusväli 331

missä

p ˆ = y/n

^.^Haluamme^{määrittää}ôtoskoon^niin, êttäêstimaatin

p ˆ = y/n

maksimivirheon

ε = z α/2

p p(1 ˆ − p)/n ˆ

^.^Koska

p ˆ

^on^tuntematon^ennen^koetta,

siitäeiole hyötyä otoskoonmäärittämisessä.Jostiedetään, että

p

^:n^arvo^on

noin

p ^∗

^taikorkeintaan

p ^∗

^, ⁿⁱⁱⁿ^silloin^tarvittava^otoskoko

n = z _α/2 ² p ^∗ (1 − p ^∗ )

ε ² .

Jos meillä ei ole riittävän luotettavaa ennakkoarviota

p

^:n ^arvosta, ^voidaan

käyttää varovaista (riittävän suurta)otoskoon arviota

n = z _α/2 ² 4ε ² ,

sillä

p(1 − p) ≤ 1/4

^kaikilla

p ∈ [0, 1]

^.

12.5 Mediaanin jakaumasta vapaa

luottamusväli

Olkoon

X 1 , X 2 , . . . , X n

^otos^jatkuvastajakaumasta,jotaeitarkemmintunne- ta. Muodostetaan nyt jakauman mediaanille luottamusväli. Huomattakoon,

että jakauman odotusarvo ei ole välttämättä olemassa. Kun luottamusväli

muodostetaan jakaumaa koskevien varsin niukkojen oletusten varassa, me-

netelmää sanotaan jakaumasta vapaaksi. Luottamusvälin muodostamisessa

käytetäänjärjestyssuureita.

Olkoon

X (1) , X (2) , . . . , X (n)

järjestetty otos,jossa siis

X (1) > X (2) > · · · >

X (n)

^.^Mediaanin

m

luottamusväliksivoidaanajatellaesimerkiksihavaintojen vaihteluväliä

(X ₍₁₎ , X _(n) )

^, ^missä

X ₍₁₎

^on ^pienin ^ja

X _(n)

^suurin havaintoarvo.

Välinluottamustasoonsillointodennäköisyys

P (X (1) < m < X (n) )

^,^missä

m

onmääritelmänsämukaanjakauman

50

^%:n^fraktiili

π 0.5

^eli

P (X < m) = 0.5

^.

Otoksen

X ₁ , X ₂ , . . . , X _n

^avulla^voidaan^{määritellä}riippumattomatsatunnais- muuttujat

I 1 , I 2 , . . . , I n

^siten, ^että

I j = 1,

^kun

X j < m

^ja ^muutoin

I j = 0

^.

Onnistumistenlukumäärä

L = I 1 + I 2 + · · · + I n

^on^siis^mediaania^pienempien

havaintojen lukumääräja

L ∼ Bin(n, 1/2)

^.

Olkoonesimerkiksi

n = 5

^.^Jos^kaikki^havainnot^ovat^mediaania^pienempiä

(

L = 5

⁾^tai^kaikki^havainnot^ovat^mesiaania^suurempia⁽

L = 0

^),ⁿⁱⁱⁿ^mediaani

ei olevälillä

(X (1) , X (5) )

^.^Muutoin ^mediaani^on ^välillä

(X (1) , X (5) )

^. ^Näin ^siis

P (X (1) < m < X (5) ) = 1 − P (L = 0) − P (L = 5)

= 1 − (1/2) ⁵ − (1/2) ⁵ = 15/16

ja

(x (1) , x (5) )

^on

94

^%:n ^luottamusv^äli ⁽

15/16 ≈ 0.94

^).

(14)

Yleisesti välin

(X (1) , X (n) )

luottamustasoon

P (X ₍₁₎ < m < X _(n) )) = 1 − P (L = 0) − P (L = n)

=

n − 1

X

k=1

n k

(1/2) ^k (1/2) ⁿ ⁻ ^k

= 1 − (1/2) ⁿ − (1/2) ⁿ = 1 − (1/2) ⁿ ⁻ ¹ .

Kasvattamallaotoskokoasaadaantodennäköisyys

P (X (1) < m < X (n) )

^mieli-

valtaisenlähelleykköstä.Onkuitenkinhuomattava,ettämyösvälin

(x (1) , x (n) )

pituus kasvaa

n

^:n ^kasvaessa. ^Lyhempiä^välejä^(tarkempia estimaatteja) saa- daankäyttämälläjotainmuutajärjestyssuureisiinperustuvaaväliä

(X _(i) , X _(j) )

^,

missä

i < j

^.Esimerkiksivoitaisiinkokeillaväliä

(X (2) , X (n − 1) )

^tai

(X (3) , X (n − 2) )

^.

Vastaavallapäättelylläkuin edelläsaadaan välin

(X (i) , X (j) )

luottamustaso

P (X (i) < m < X (j) )) =

j − 1

X

k=i

n k

(1/2) ^k (1/2) ⁿ ⁻ ^k = 1 − α.

Edellä esitettyä menetelmää voidaan käyttää minkä tahansa jatkuvan

jakauman prosenttipisteen

π p

^luottamusv^älin määrittämiseen. Medianin tapauksessa käytetty onnistumistodennäköisyys vain korvataan onnistumisto-

dennäköisyydellä

P (X < π p ) = p

^.

12.6 Yhden selittäjän lineaarinen

regressiomalli

12.6.1 Ehdollinen normaalimalli

Oletetaan, että satunnaismuuttujat

Y 1

^,^.^.^.^,

Y n

^ovat riippumattomatja

(12.6.1)

Y _i ∼ N(α + βx _i , σ ² ), 1 ≤ i ≤ n.

Havaittu aineistomuodostuu

n

^:stä arvoparista

(x 1 , y 1 )

^, ^.^.^.^,

(x n , y n )

^.^Ennus-

temuuttujan

x

^arvot

x ₁

^, ^.^.^.^,

x _n

^ajatellaan tunnetuiksi vakioiksi. Regressio- funktioon siismuotoa

E(Y | x) = α + βx

ja kaikilla satunnaismuuttujilla

Y i

^on ^sama ^varianssi

σ ²

^. ^Malli ^(12.6.1) ^voi-

daan myöslausua muodossa

Y i = α + βx i + ε i , 1 ≤ i ≤ n,

missä

ε ₁

^, ^.^.^.^,

ε _n

^ovat riippumattomatja

ε _i ∼ N(0, σ ² )

^,

1 ≤ i ≤ n

^.

(15)

regressiomalli 333

Havaintojen

Y 1

^,^.^.^.^,

Y n

yhteisjakauman tiheysfunktio on

f (y 1 , . . . , y n | α, β, σ ² ) =

n

Y

i=1

f 1 (y i | α, β, σ ² )

=

n

Y

i=1

√ 1

2π σ exp

− 1

2σ ² (y i − α − βx i ) ²

= (2πσ ² ) ⁻ ^n/2 exp

− 1 2σ ²

n

X

i=1

(y _i − α − βx _i ) ²

.

Tästä nähdään, että uskottavuusfunktio on

L(α, β, σ ² ) = (2πσ ² ) ⁻ ^n/2 exp

− 1 2σ ²

n

X

i=1

(y _i − α − βx _i ) ²

ja logaritmoitu uskottavuusfunktio on

(12.6.2)

l(α, β, σ ² ) = − n

2 log(2πσ ² ) − 1 2σ ²

n

X

i=1

(y i − α − βx i ) ² .

Funktiosta(12.6.2) voidaan ratkaista parametrien

α, β

^ja

σ ²

^suurimman

uskottavuuden estimaattorit

β ˆ =

n

X

i=1

(x i − x) ¯ S _xx Y i , ˆ

α = ¯ Y − β ˆ x ¯

^ja

ˆ

σ ² = 1 n

n

X

i=1

(Y _i − α ˆ − βx ˆ _i ) ² ,

missä

x ¯

^onkoevakioiden

x 1 , . . . , x n

^ja

Y ¯

^on havaintojen

Y 1 , . . . , Y n

^keskiarvo

sekä

S xx = P n

i=1 (x i − x) ¯ ²

^. Estimaattorit

α ˆ

^ja

β ˆ

^ovatharhattomia, mutta

σ ˆ ²

on

σ ²

^:n ^harhainen estimaattori.Sen sijaan estimaattori

S ² = n

n − 2 σ ˆ ² = 1 n − 2

n

X

i=1

(Y i − α ˆ − βx ˆ i ) ²

on

σ ²

^harhaton estimaattori. Jotta voidaan esittää näihin estimaattoreihin perustuvat estimointi ja testausmenettelyt, täytyy tuntea estimaattoreiden

otantajakaumat. Otantajakaumia koskevat tulokset on esitetty seuraavassa

lauseessa.

Lause 12.1 Normaalimallissa (12.6.1) estimaattoreiden

α, ˆ β ˆ

^ja

σ ˆ ²

^otanta-

jakaumat ovat

ˆ

α ∼ N(α, σ ² nS xx

n

X

i=1

x ² _i ), β ˆ ∼ N(β, σ ² S xx

),

^missä

Cov( ˆ α, β) = ˆ − σ ² x ¯ S xx

.

(16)

Lisäksi,

( ˆ α, β) ˆ

^ja

S ²

^ovat riippumattomat ja

(n − 2)S ²

σ ² ∼ Khi2(n − 2).

Näiden jakaumatulosten avulla voidaan johtaa parametreilleluottamusvälit

tässä luvussa esitettyjen periaatteidenmukaisesti.

12.6.2 Yksinkertainen lineaarinen regressio

Lineaarisessa regressiossa oletetaan,että vastemuuttuja riippuulineaarisesti

selittäjistä.Malli onmuotoa

Y i = α + βx i + ε i , 1 ≤ i ≤ n,

missä

Y i

^on ^havaittava satunnaismuuttuja ja

ε i

^on virhetermi,

α

^ja

β

^ovat

tuntemattomia vakioitaja

x 1

^, ^.^.^.^,

x n

^ovat tuntemattomiakoevakioita. Ole- tamme, että

E(ε i ) = 0

^, ^joten

(12.6.3)

E(Y i ) = α + βx i .

Itse asiassa (12.6.3)onehdollinen odotusarvo

E(Y _i | x _i ) = α + βx _i .

Oletetaan, että regressiofunktio on lineaarinen, mutta ei tehdä normaali-

suusoletusta kuten edellisessä alaluvussa. Pienimmän neliösumman keinolla

saadaanparametrien estimaateiksi

β ˆ =

P (x i − x)y ¯ i

P (x i − x) ¯ ² = s xy

s ² _x = rs x s y

s ² _x = s y

s x · r ˆ

α = ¯ y − β ˆ x, ¯

missä

s xy

^onotoskovarianssija

s ² _x

^sekä

s ² _y

^ovatotosvariansseja.Voidaanosoit- taa, että

α ˆ

^ja

β ˆ

^ovat ^minimivarianssisiakaikkien

α

^:n^ja

β

^:nlineaaristen har- hattomien estimaattorien joukossa. Voidaan osoittaa, että tässäkin tapauk-

sessa estimaattorit

α ˆ

^ja

β ˆ

noudattavat likimain normaalijakaumaa suurilla

n

^:n ^arvoilla. ^Siksi normaalijakauman avulla voidaan johtaa likimääräiset luottamusvälit.

X 1 , . . . , X n lihavoidulla isollakirjaimella X ja havaittua otosarvoa x 1 , . . . , x n lihavoidulla pikkukirjaimella x. Aloitamme väliestimaatin määritelmällä.

p

p

X 1 , . . . , X n

X

x 1 , . . . , x n

x

X

F

θ = θ(F )

X = x

θ

l( X )

u( X )

l( x ) ≤ u( x )

X = x

[l( x ), u( x )]

θ

[l( X ), u( X )]

l( X ) = L, l( x ) = l, u( X ) = U

u( x ) = u

θ

[l, u]

θ

P F [L ≤ θ ≤ U]

[L, U]

P F

F

[L, U]

θ

(1 − α)100

P F [L ≤ θ ≤ U] ≥ 1 − α, 0 < α < 1,

θ ∈ Θ

θ

X 1 , . . . , X n

µ

σ 2 )

µ

X 1 , . . . , X n

N(µ, σ 2 )

X ¯ ∼ N(µ, σ 2 /n)

µ

X ¯

µ

σ 2 = σ 2 0

z α/2

P ( − z α/2 ≤ X ¯ − µ σ 0 / √

n ≤ z α/2 ) = 1 − α.

P (Z ≥ z α/2 ) = P (Z ≤ − z α/2 ) = α/2

1 − α = 0.95

z α/2 = z 0.025 = 1.96

[ ¯ X − z α/2

σ 0

√ n , X ¯ + z α/2

σ 0

√ n ]

µ

1 − α

x 1 , . . . , x n

µ

x ¯ = 1 n P n

i=1 x i

[¯ x − z α/2

σ 0

√ n , x ¯ + z α/2

σ 0

√ n ],

µ

100(1 − α)

1 − α

100(1 − α)

x ¯ = 3.25, σ = 1

n = 20

3.25 ± 1.96 √ 1 20 = [2.81, 3.69]

µ

95

X ¯ − µ σ/ √

n

N(0, 1)

n

σ ² )

N(µ, σ ² )

X ¯ ∼ N(µ, σ ² /n)

σ ² = σ ² ₀

P ( − z α/2 ≤ X ¯ − µ σ ₀ / √

z _α/2 = z _0.025 = 1.96

σ ₀

σ ₀

x ¯ = ¹ _n P n

σ ₀

σ ₀

3.25 ± 1.96 ^√ ¹ ₂₀ = [2.81, 3.69]

P ( − z _α/2 ≤ X ¯ − µ

n ≤ z _α/2 ) ≈ 1 − α.

σ ²

S ²

σ ²

S ² −→ ^P σ ²

N(µ, σ ² )

s ²

N(µ, σ ² )