• Ei tuloksia

X 1 , . . . , X n lihavoidulla isollakirjaimella X ja havaittua otosarvoa x 1 , . . . , x n lihavoidulla pikkukirjaimella x. Aloitamme väliestimaatin määritelmällä.

N/A
N/A
Info
Lataa
Protected

Academic year: 2022

Jaa "X 1 , . . . , X n lihavoidulla isollakirjaimella X ja havaittua otosarvoa x 1 , . . . , x n lihavoidulla pikkukirjaimella x. Aloitamme väliestimaatin määritelmällä. "

Copied!
16
0
0

Kokoteksti

(1)

9.6.1 Markovinja T²eby²evin epäyhtälöt sekäsuurten luku-

jen laki. . . 263

9.6.2 Jenseninepäyhtälö . . . 265

9.6.3 Stokastinensuppeneminen . . . 266

9.6.4 Suppeneminen jakaumamielessä . . . 268

10 Uskottavuuspäättelyn perusteet 273 10.1 Uskottavuuden määritelmä . . . 273

10.1.1 Diskreetit mallit. . . 275

10.1.2 Jatkuvatmallit . . . 275

10.2 Esimerkkejä . . . 276

10.3 Uskottavuuksien yhdistäminen . . . 276

10.4 Yhteys Bayesilaiseen lähestymistapaan . . . 283

10.5 Uskottavuussuhde . . . 283

10.6 Uskottavuusfunktion maksimi ja kaarevuus . . . 284

10.7 Uskottavuuden invarianssi . . . 287

10.7.1 Uskottavuus uudessa parametrisoinnissa . . . 288

10.8 Pistesuureen jakauma . . . 289

10.9 Suurimmanuskottavuuden menetelmä . . . 292

10.9.1 Odotettu informaatioja kokeiden suunnittelu . . . 292

10.9.2 Pistefunktionja informaatiofunktion ominaisuuksia . . 293

10.9.3 Cramérin ja Raon alaraja . . . 295

10.9.4 Suurimman uskottavuuden estimaattorinominaisuuksia296 11 Piste-estimointi 299 11.1 Piste-estimaattoreiden ominaisuuksia . . . 299

11.1.1 Harhattomuus . . . 299

11.1.2 Tehokkuus . . . 300

11.1.3 Tarkentuvuus . . . 304

11.2 Estimointimenetelmiä. . . 305

11.2.1 Momenttimenetelmä . . . 305

11.2.2 Bayesin menetelmä . . . 306

11.2.3 Suurimman uskottavuuden estimaattorin (SUE) omi- naisuuksia . . . 307

11.3 Delta-menetelmä . . . 308

11.4 Tyhjentävyys . . . 310

11.4.1 Perusidea . . . 310

11.4.2 Tekijälause . . . 311

11.4.3 Minimaalinen tyhjentävyys . . . 312

11.5 Eksponentiaalinen perhe . . . 316

12 Väliestimointi 321 12.1 Keskiarvojen luottamusvälit . . . 321

12.1.1 Napasuureet . . . 326

(2)

12.3 Suhteellisten osuuksienluottamusvälit. . . 329

12.4 Otoskoko. . . 330

12.5 Mediaaninjakaumasta vapaa luottamusväli . . . 331

12.6 Yhden selittäjänlineaarinen regressiomalli . . . 332

12.6.1 Ehdollinen normaalimalli. . . 332

12.6.2 Yksinkertainen lineaarinen regressio . . . 334

13 Hypoteesien testaus 335 13.1 Testisuureet ja

p

-arvot . . . . . . . . . . . . . . . . . . . . . . 336

13.2 Testien arviointi. . . 337

13.2.1 Testin voimakkuus . . . 338

13.2.2 Testin konstruointiyksinkertaisethypoteesit . . . 339

13.3 Uskottavuussuhdetestit: Yksinkertaiset hypoteesit . . . 342

13.3.1 Yksi parametri . . . 342

13.3.2 Useita parametreja . . . 346

13.4 Uskottavuusfunktion avulla konstruoituja testisuureita . . . 347

13.5 Uskottavuussuhdetestit: Yhdistetyt hypoteesit . . . 348

13.5.1

p

-arvonmäärittäminen . . . 349

13.5.2 Kaksiparametria, joistatoista testataan . . . 350

13.5.3 Homogeenisuuden testaus . . . 351

13.5.4 Binomitodennäköisyyksien testaaminen . . . 355

13.5.5 Multinomitodennäköisyyksien testaaminen . . . 357

13.5.6 Riippumattomuudentestaus kontingenssitaulukoissa . . 359

(3)

Väliestimointi

Estimaatteihinliittyyainatiettyepävarmuus,jokajohtuumm.otosvaihtelus-

ta.Josestimaattori onharhaton ja sen varianssipieni, voidaanestimaattien

odottaa osuvan lähelle parametrin arvoa. Väliestimoinnissa ilmoitetaan vä-

li, jolle parametrin arvon arvioidaan kuuluvan, ja lisäksi ilmoitetaan väliin

liittyvä luottamus tai varmuuden aste. Tässä luvussa tarkastellaan lutotta-

musvälejä. Merkitään otosta

X 1 , . . . , X n

lihavoidulla isollakirjaimella

X

ja havaittua otosarvoa

x 1 , . . . , x n

lihavoidulla pikkukirjaimella

x

. Aloitamme väliestimaatin määritelmällä.

Määritelmä 12.1 Olkoon

X

otos jostainjakaumasta

F

ja

θ = θ(F )

onsen

reaaliarvoinenparametri. Onhavaittu

X = x

.Parametrin

θ

väliestimaattori onmikätahansasellainenotoksentunnuslukupari

l( X )

ja

u( X )

,että

l( x ) ≤ u( x )

kaikilla mahdollisillaotosarvoilla

X = x

. Havaittu väli

[l( x ), u( x )]

on

θ

:nväliestimaatti ja

[l( X ), u( X )]

väliestimaattori.

Merkitään lyhyesti

l( X ) = L, l( x ) = l, u( X ) = U

ja

u( x ) = u

. Olemme

kiinnostuneita siitä, onko parametri

θ

välillä

[l, u]

eli peittääkö väli para-

metrin arvon. Parametrin

θ

arvo onkiinteä ja väliestimaatti saadaanjonkin satunnaiskokeen tuloksena.Todennäköisyys

P F [L ≤ θ ≤ U]

onväliestimaattorin

[L, U]

peitetodennäköisyys.Merkintä

P F

tarkoittaa,että todennäköisyys lasketaan jakaumasta

F

, josta otos on tehty. Satunnaisväliä

[L, U]

sanotaanparametrin

θ

luottamusväliksiluottamustasolla

(1 − α)100

%,

jos

P F [L ≤ θ ≤ U] ≥ 1 − α, 0 < α < 1,

kaikilla

θ ∈ Θ

. Luottamusvälinpeitetodennäköisyys riippuutavallisesti esti- moitavanparametrin

θ

arvosta.

12.1 Keskiarvojen luottamusvälit

Olkoon

X 1 , . . . , X n

otos jakaumasta, jonka keskiarvo on

µ

ja varianssi

σ 2 )

.

Tarkastelemme luottamusvälinmuodostamista keskiarvolle

µ

.

(4)

Esimerkki 12.1 Olkoon

X 1 , . . . , X n

otosnormaalijakaumasta

N(µ, σ 2 )

.Otos-

keskiarvo

X ¯ ∼ N(µ, σ 2 /n)

on jakauman tuntemattoman keskiarvon

µ

har-

haton estimaattori. Muodostamme

X ¯

:n avulla tuntemattomalle

µ

:lle luot-

tamusvälin, kun varianssi

σ 2 = σ 2 0

tunnetaan. Voimme normaalijakauman avulla määrittääsellaisenluvun

z α/2

, että

P ( − z α/2 ≤ X ¯ − µ σ 0 / √

n ≤ z α/2 ) = 1 − α.

Huomaa, että

P (Z ≥ z α/2 ) = P (Z ≤ − z α/2 ) = α/2

.Jos esimerkiksi

1 − α = 0.95

, niin

z α/2 = z 0.025 = 1.96

. Todennäköisyys, että satunnaisväli

[ ¯ X − z α/2

σ 0

√ n , X ¯ + z α/2

σ 0

√ n ]

sisältää tuntemattoman keskiarvon

µ

on

1 − α

.

Kun otos on havaittu ja saatu havaintoarvot

x 1 , . . . , x n

, voidaan laskea

µ

:nestimaatti

x ¯ = 1 n P n

i=1 x i

. Siitä saadaantunnettu väli

[¯ x − z α/2

σ 0

√ n , x ¯ + z α/2

σ 0

√ n ],

jota sanotaan

µ

:n

100(1 − α)

%:n luottamusväliksi. Lukua

1 − α

tai vas-

taavasti prosenttilukua

100(1 − α)

% sanotaan välin luottamustasoksi tai luottamuskertoimeksi. Jos esimerkiksi

x ¯ = 3.25, σ = 1

ja

n = 20

, niin

3.25 ± 1.96 1 20 = [2.81, 3.69]

on

µ

:n

95

%:n luottamusväli.

Vaikkaeivoitaisikaanolettaa,ettäotosonnormaalijakaumasta,voidaansilti

usein saada luottamusvälin likiarvo. Keskeisen rajaväittämän nojalla

X ¯ − µ σ/ √

n

noudattaa likimainnormaalijakaumaa

N(0, 1)

, kun

n

onsuuri. Silloin

P ( − z α/2 ≤ X ¯ − µ

σ 0 / √

n ≤ z α/2 ) ≈ 1 − α.

ja väli

[¯ x − z α/2

σ 0

√ n , x ¯ + z α/2

σ 0

√ n ],

onlikimain

100(1 − α)

%:nluottamusväli.Likiarvontäsmällisyysriippuuotos- koosta

n

ja jakaumasta, josta otos onperäisin.

Jos

σ 2

ontuntematonja otoskokokohtuullisensuuri(

n ≥ 30

),noudattaa

X ¯ − µ S/ √

n

likimainnormaalijakaumaa,vaikka otos ei ole peräisin normaalijakau-

masta.Koskaotosvarianssi

S 2

on

σ 2

:ntarkentuvaestimaattori,eli

S 2 −→ P σ 2

otoskoon

n

kasvaessa, seuraa tulos keskeisestä rajaväittämästä ja Slutskyn lauseesta (Lause9.22). Josperusjakauma, jostaotostehdään, onesimerkiksi

voimakkaasti vino, saattaa vielä otoskoko

30

olla liian pieni, jotta likiarvo

(5)

Esimerkki 12.2 Jos otos onnormaalijakaumasta

N(µ, σ 2 )

, niin

T = X ¯ − µ

S/ √ n

noudattaa

t

-jakaumaa vapausastein

n − 1

. Silloin

t

-jakaumastavapausastein

n − 1

voidaanmäärittääluku

t α/2;n − 1

siten, että

P ( − t α/2;n − 1 ≤ X ¯ − µ S/ √

n ≤ t α/2;n − 1 ) = 1 − α.

Otoksesta laskettujen estimaattien

x ¯

ja

s 2

perusteella saadaan

µ

:n

100(1 − α)

%:n luottamusväli

(12.1.1)

[¯ x − t α/2;n − 1

√ s

n , x ¯ + t α/2;n − 1

√ s n ].

Jos eivoida otaksua otoksen olevannormaalijakaumasta,onväli(12.1.1)

vain likimain

µ

:n

100(1 − α)

%:n luottamusväli. Likiarvo ei ole herkkä poik-

keamisellenormaalisuusoletuksesta.

Joissainsovelluksissatarvitaanvainesimerkiksi

µ

:nalarajan(ylärajan)arvio.

Olkoonotos normaalijakaumasta

N(µ, σ 2 )

. Silloin

P ( X ¯ − µ

σ/ √

n ≤ z α ) = 1 − α

taivastaavasti

P [ ¯ X − z α

√ σ

n ≤ µ] = 1 − α.

Kun

X ¯

:n arvo on havaittu, saadaa

µ

:n yksipuolinen

100(1 − α)

%:n luotta-

musväli

(¯ x − z α √ σ

n , ∞ )

.Tämä yksipuolinenväliantaa

µ

:llealarajan.

Usein luottamusvälivoidaanmuodostaalaskennallisestihelpoimminsuu-

rimman uskottavuuden estimaattorin jakauman likiarvon avulla. Tuloksen

(11.2.2) nojalla suurimman uskottavuuden estimaattori noudattaa asymp-

toottisesti normaalijakaumaa.Välin

"

θ ˆ ± c p I(ˆ θ)

#

peitetodennäköisyys on

P θ θ ˆ − c

p I(ˆ θ) ≤ θ ≤ θ ˆ + c p I(ˆ θ)

!

= P θ

− c ≤ (ˆ θ − θ) q

I (ˆ θ) ≤ c

.

Tuloksen (11.2.4) mukaan

P θ

− c ≤ (ˆ θ − θ) q

I(ˆ θ) ≤ c

≈ P ( − c ≤ Z ≤ c),

(6)

missä

Z ∼ N(0, 1)

.Jos peitetodennäköisyydeksi asetetaan

0.95

, niinväli

(12.1.2)

"

θ ˆ − 1.96 p I(ˆ θ)

, θ ˆ + 1.96 p I (ˆ θ)

#

on

θ

:nluottamusväli,jonkaluottamustasoonlikimain

95

%:n,koska

P ( − 1.96 ≤ Z ≤ 1.96) = 0.95

.

Esimerkki 12.3 Oletetaan, että jakaumasta

Bin(100, θ)

onsaatu havainto

x = 17

. Lasketaan

θ

:n likimääräinen

95

%:n luottamusväli. Nyt

θ

:n suurim-

man uskottavuuden estimaattion

θ ˆ = x/n = 0.17

ja

l(θ) − l(ˆ θ) = 17 log θ + 83 log(1 − θ) + 45.581, 0 < θ < 1.

Laskemalla voidaan todeta, että

l(θ) − l(ˆ θ) ≥ log 0.147

, kun

0.105 ≤ θ ≤ 0.251

. Tämä on

θ

:n

14.7

%:n uskottavuusväli ja likimain

95

%:n luottamus-

väli.

Informaatiofunktio on

I(θ) = x

θ 2 + n − x

(1 − θ) 2 , 0 < θ < 1.

Sijoittamallainformaatiofunktioon

θ = ˆ θ

saadaan

I(ˆ θ) = x

θ ˆ 2 + n − x (1 − θ) ˆ 2 = n

θ ˆ + n

1 − θ ˆ = n θ(1 ˆ − θ) ˆ .

Nyt (12.1.2):nmukaan

θ ˆ ± 1.96

s θ(1 ˆ − θ) ˆ

n = 0.17 ± 0.0736

on

θ

:n likimääräinen

95

%:n luottamusväli. Väli ei kuitenkaan ole uskotta- vuusväli,sillävälinalarajan

0.096

suhteellinenuskottavuus

R(0.096) = 0.072

onpaljonpienempi kuinylärajan

0.244

suhteellinenuskottavuus

R(0.244) =

0.200

.

Esimerkki 12.4 Oletetaan, että

X ∼ Bin(3, θ)

. Silloin

l(θ) = x log θ + (3 − x) log(1 − θ)

= 3[ˆ θ log θ + (1 − θ) log(1 ˆ − θ)]

ja

l(ˆ θ) = 3[ˆ θ log ˆ θ + (1 − θ) log(1 ˆ − θ)], ˆ

missä

θ ˆ = x/3

ja

0 ≤ θ ≤ 1

. Estimaattori

θ ˆ

voi saada arvot

0

,

1 3

,

2 3

ja

1

.

Parametrin

10

%:n uskottavuusväli on

uv(x; 10 %) = { θ | l(θ) − l(ˆ θ) ≥ log 0.1 } .

(7)

Jos esimerkiksi

x = 1

, niin

uv(x; 10 %) = { θ | log θ + 2 log(1 − θ) ≥ − 0.39 }

= [0.015, 0.869].

Eri

x

:n arvoillasaadaan seuraavat

θ

:n

10

%:n uskottavuusvälit

uv(0) = [0, 0.536], uv(1) = [0.015, 0.869], uv(2) = [0.131, 0.985], uv(3) = [0.464, 1].

Todennäköisyys, että väli peittää parametrin todellisen arvon, riippuu nyt

parametrin arvosta.

− 1

− 2 r(θ)

θ

1/3 2/3 1

r(θ) = log(0.1) x = 3 x = 0 x = 1 x = 2

Kuvio 12.1. Logaritmoitu normitettu uskottavuusfunktio

r(θ) = l(θ) − l(ˆ θ)

, kun

x = 0, 1, 2

ja

3

.

Normaalijakaumaan perustuvan likiarvon avulla johdettu tavanomainen

95

%:n luottamusvälionmuotoa

l V (ˆ θ) = ˆ θ ± 1.96

s θ(1 ˆ − θ) ˆ 3 .

Koska

θ ˆ

:nmahdollisetarvotovat

0

,

1 3

,

2 3

ja

1

,niinmahdollisetluottamusvälit ovat

0, [0.061, 0.605], [0.395, 0.939]

ja

1.

Havaintoarvoilla

X = 0

ja

X = 3

väli degeneroituu yhdeksi pisteeksi. Kun

0 < θ < 0.061

tai

0.939 < θ < 1

, on luottamusvälinpeitetodennäköisyys

0

.

(8)

12.1.1 Napasuureet

Olkoon

X 1 , . . . , X n

otostasajakaumasta

Tas(0, θ)

jaolkoon

Y = X (n)

havain-

tojen maksimi. Muodostetaan tuntemattomalle parametrille

θ

väliestimaat- tori. Tarkastellaankahtavaihtoehtoa:

[Y, aY ], a > 1;

[Y, Y + b], b > 0,

missä

a

ja

b

ovatannettujavakioita. Ensimmäisenvälinpeitetodennäköisyys on

P (θ ∈ [Y, aY ]) = P (Y ≤ θ ≤ aY ) = P 1

a ≤ Y θ ≤ 1

.

Koska

Y

:n tiheysfunktio on

f Y (y) = ny n 1n

,

0 ≤ y ≤ θ

, niin satunnais-

muuttujan

T = Y /θ

tiheysfunktio on

f T (t) = nt n 1

,

0 ≤ t ≤ 1

. Siksi peite-

todennäköisyys on

P 1

a ≤ T ≤ 1

= Z 1

1/a

nt n 1 dt = 1 − 1

a n

.

Peitetodennäköisyys eiriipu

θ

:sta ja siksivälin

[Y, aY ]

luottamustasoon

1 − (1/a) n

kaikilla

θ > 0

.

Toisen välinpeitetodennäköisyys on

P (θ ∈ [Y, Y + b]) = P (Y ≤ θ ≤ Y + b)

= P

1 − b

θ ≤ T ≤ 1

= Z 1

1 − b/θ

nt n 1 dt = 1 −

1 − b θ

n

.

Tässä tapauksessa peitetodennäköisyys riippuuparametrista

θ

.

Sanommesatunnaismuuttujaa

T = t(ˆ θ; θ)

napasuureeksi(pivotalquantity taipivot),jos

T

:njakauma eiriipu parametrista

θ

. Tässä

θ ˆ = ˆ θ(X 1 , . . . , X n )

on

θ

:nestimaattori.Napasuureenavullavoidaansiiskonstruoidaluottamus- välejä, joiden peitetodennäköisyys eiriipu estimoitavasta parametrista.

Esimerkki 12.5 Tarkastellaan nyt normaalijakauman

N(µ, σ 2 )

parametrin

σ 2

väliestimointia.Koska

V = (n − 1)S 2

σ 2 ∼ Khi2(n − 1)

onnapasuure, niin

1 − α = P (a ≤ V ≤ b), a < b

= P

a

(n − 1)S 2 ≤ 1

σ 2 ≤ b (n − 1)S 2

= P

(n − 1)S 2

b ≤ σ 2 ≤ (n − 1)S 2 a

on

σ 2

:n luottamusvälin

[ (n b 1)S 2 , (n a 1)S 2 ]

luottamustaso.

(9)

12.2 Kahden keskiarvon erotuksen luottamus-

välit

Olkoot

X 1 , . . . , X n

ja

Y 1 , . . . , Y m

kaksiriippumatontaotosta,joistaensimmäi- nenonnormaalijakaumasta

N(µ X , σ X 2 )

jatoinennormaalijakaumasta

N(µ Y , σ Y 2 )

.

Oletetaan, että varianssit

σ X 2

ja

σ 2 Y

tunnetaan. Koska otokset ovat riippu-

mattomat, niinmyös otoskeskiarvot

X ¯

ja

Y ¯

ovat riippumattomatja niiden jakaumat ovat

X ¯ ∼ N(µ X , σ 2 X /n)

ja

Y ¯ ∼ N(µ Y , σ Y 2 /m)

. Otoskeskiarvojen erotuksen

W = ¯ X − Y ¯

jakaumaon

N(µ X − µ Y , σ 2 X /n + σ 2 Y /m)

ja

P − z α/2 ≤ ( ¯ X − Y ¯ ) − (µ X − µ Y )

p σ X 2 /n + σ Y 2 /n ≤ z α/2

!

= 1 − α.

Kun havainnot on tehty, saadaan havaitut otoskeskiarvot

x ¯

ja

y ¯

ja keskiar-

vojen erotuksen

100(1 − α)

%:n luottmusvälion

[¯ x − y ¯ − z α/2 σ W , x ¯ − y ¯ + z α/2 σ W ],

missä

σ W

on

W

:nhajonta.

Jos variansseja

σ X 2

ja

σ Y 2

ei tunneta, mutta otoskoot

n

ja

m

ovat suuret,

niinvarianssit

σ X 2

ja

σ 2 Y

voidaan korvata varianssien harhattomillaestimaa- teilla

s 2 x

ja

s 2 y

.Silloin saadaanlikimääräinen

100(1 − α)

%:n luottmusväli

¯

x − y ¯ − z α/2 σ W , x ¯ − y ¯ + z α/2 s W ,

missä

s W = q s 2 x

n + s m 2 y

on

W

:n hajonnan estimaatti.

Tarkastellaanseuraavaksikahdennormaalijakaumankeskiarvojenerotuk-

senluottamusvälinmäärittämistä,kunvarianssejaeitunnetajaotoskootovat

pienet.Olkoon

X 1 , . . . , X n

otosnormaalijakaumasta

N(µ X , σ 2 X )

ja

Y 1 , . . . , Y m

normaalijakaumasta

N(µ Y , σ Y 2 )

ja otokset ovat toisistaan riippumattomat.

Käsitellään ensin tilannetta, jossa voidaan olettaa

σ X 2 = σ Y 2 = σ 2

. Silloin

satunnaismuuttuja

Z = X ¯ − Y ¯ − (µ X − µ Y ) q σ 2

n + σ m 2

noudattaa normaalijakaumaa

N(0, 1)

.

Koskaotokset ovattoisistaanriippumattomat, niin

U = (n − 1)S X 2

σ 2 + (m − 1)S Y 2 σ 2

onkahdenriippumattoman

Khi2

-jakaumaanoudattavansatunnaismuuttujan summa ja

U ∼ Khi2(n + m − 2)

. Määritemän mukaan

T = Z

U/(n + m − 2)

(10)

noudattaa

t

-jakaumaavapausastein

n + m − 2

.Kun tähän sijoitetaanedellä esitetyt

Z

:nja

U

:n lausekkeet, saadaan

T = X ¯ − Y ¯ − (µ X − µ Y ) S P

q 1 n + m 1

,

missä

S P = s

(n − 1)S X 2 + (m − 1)S Y 2

n + m − 2 .

Nyt

P (t α/2;n+m 2 ≤ T ≤ t α/2;n+m 2 ) = 1 − α

ja siksi

P | X ¯ − Y ¯ − (µ X − µ Y ) | ≤ t α/2;n+m − 2 S P

r 1 n + 1

m

= 1 − α.

Jos

x, ¯ y ¯

ja

s P

ovat satunnaismuuttujien

X, ¯ Y ¯

ja

S P

javaitut arvot,niin saa-

daan

(µ X − µ Y )

:n

100(1 − α)

%:n luottamusväli

[¯ x − y ¯ − t α/2;n+m 2 s P

r 1 n + 1

m , x ¯ − y ¯ + t α/2;n+m 2 s P

r 1 n + 1

m ].

Jostunnetaanvarianssiensuhde

σ X 22 Y

,voidaankeskiarvojenerotukselle

X − µ Y )

johtaa luottamusväli

t

-jakaumanavullavastaavastikuintilantees- sa

σ 2 X = σ Y 2

. Jos kuitenkaan varianssien suhdetta ei tunneta, tarkastellaan suuretta

W = ( ¯ X − Y ¯ ) − (µ X − µ Y ) p S X 2 /n + S Y 2 /m .

Jos

n

ja

m

ovattarpeeksisuuria, niin

W

noudattaa likimainnormaalijakau- maa ja

P (z α/2 ≤ W ≤ z α/2 ) ≈ 1 − α.

Jos

n

ja

m

eivätolekovinsuuria,käyteetään

t

-jakaumaanperustuvaaWelhin

likiarvoa. Lasketaan

r = (s 2 x /n + s 2 y /m) 2

(s 2 x /n) 2

n − 1 + (s m 2 y /m) 1 2

ja

r

pyöristetään alspäin lähimpään kokonaislukuun (

= ⌊ r ⌋

). Silloin

(µ X − µ Y )

:n likimäärin

100(1 − α)

%:n luottamusväli on

¯

x − y ¯ ± t α/2; ⌊ r ⌋

q

s 2 x /n + s 2 y /m.

Joissakin sovelluksissa mittaukset

X

ja

Y

ovat toisistaan riippuvat. Mi-

tataan esimerkiksi

n

:n henkilön paino ennen ja jälkeen laihdutuskuurin ja saadaan mittaukset

(X 1 , Y 1 ), (X 2 , Y 2 ), . . . , (X n , Y n )

, joka on otos kaksiulot-

teisesta jakaumasta. Silloin eri mittausparit

(X i , Y i )

ja

(X j , Y j ), i 6 = j,

ovat

(11)

toisistaan riippumattomat, mutta mittaukset

X i

ja

Y i

ovat riippuvia. Muo-

dostetaanerotukset

D i = X i − Y i , i = 1, 2, . . . , n

.Usein voidaanolettaa,että

D 1 , D 2 , . . . , D n

onotosnormaalijakaumasta

N(µ X − µ Y , σ D 2 )

,missä

σ D 2

onero-

tusten varianssi. Erityisesti, jos

(X 1 , Y 1 ), (X 2 , Y 2 ), . . . , (X n , Y n )

on otos kak-

siulotteisesta normaalijakaumasta

N (µ X , µ Y , σ X , σ Y , ρ)

, niin

D 1 , D 2 , . . . , D n

onotosnormaalijakaumasta

N(µ X − µ Y , σ D 2 )

.Silloin

(µ X − µ Y )

:nluottamus-

väli voidaan muodostaa suureen

T = D ¯ − (µ X − µ Y ) S D / √

n

avulla, missä

D ¯

on erotusten otoskeskiarvo ja

S D 2

erotusten otosvarianssi.

Erotuksen

µ X − µ Y ) 100(1 − α

%:n luottamusvälion

d ¯ ± t α/2;n 1 s d

√ n

missä

d ¯

onhavaintojen keskiarvo ja

s d

niiden hajonta.

12.3 Suhteellisten osuuksien luottamusvälit

Olkoon

X 1 , X 2 , . . . , X n

otos Bernoullin jakaumasta

Ber(p)

. Silloin onnistu-

misten lukumäärä

Y = X 1 + · · · X n

noudattaa Binomijakaumaa

Bin(n, p)

.

Otoskeskiarvo

Y /n

on parametrin

p

harhaton estimaattori.Suure

Y − np

p np(1 − p) = Y /n − p p p(1 − p)/n

noudattaakeskeisenrajaväittämännojallalikimainnormaalijakaumaa

N(0, 1)

,

kun

n

ontarpeeksi suuri.Voimme siisolettaa, että

(12.3.1)

P − z α/2 ≤ Y /n − p

p p(1 − p)/n ≤ z α/2

≈ 1 − α,

josta saadaan

P Y

n − z α/2

r p(1 − p)

n ≤ p ≤ Y

n + z α/2

r p(1 − p) n

≈ 1 − α.

Koska epäyhtälön päätepisteissä esiintyy estimoitava tuntematon parametri

p

, eitästä tuloksesta saada suoraan luottamusväliä.Tarvitaan toinenlikiar- vo, korvataan päätepisteissä

p

harhattomalla estimaatorilla

Y /n

. Suurella

havaintojen lukumäärällä

n

pitää edelleen paikkansa, että

P Y

n − z α/2

r (Y /n)(1 − Y /n)

n ≤ p ≤ Y

n + z α/2

r (Y /n)(1 − Y /n) n

≈ 1 − α.

(12)

Jos havaitaan

Y = y

, niin suurilla

n

:n arvoilla

p

:n likimääräinen

100(1 − α)

%:n luottamusväli on

y

n ± z α/2

r (y/n)(1 − y/n)

n .

Muodostamme nyt luottamusvälin kahden onnistumistodennäköisyyden

p 1

ja

p 2

erotukselle

p 1 − p 2

. Oletetaan, että onnistumistenlukumäärät

Y 1

ja

Y 2

kahdessa riippumattomassakokeessa noudattavat binomijakaumaa siten, että

Y i ∼ Bin(n i , p i ), i = 1, 2

. Satunnaismuuttujat

Y 1

ja

Y 2

ovat siis riippu-

mattomat. Koska

Y i /n i

on

p i

:n,

i = 1, 2

harhaton estimaattori ja

Y 1

ja

Y 2

ovatriippumattomat,niin

Y 1 /n 1 − Y 2 /n 2

on

p 1 − p 2

:nharhaton estimaattori ja

Var(Y 1 /n 1 − Y 2 /n 2 ) = p 1 (1 − p 1 ) n 1

+ p 2 (1 − p 2 ) n 2

.

Voidaanosoittaa, että suure

(Y 1 /n 1 − Y 2 /n 2 ) − (p 1 − p 2 ) p p 1 (1 − p 1 )/n 1 + p 2 (1 − p 2 )/n 2

noudattaa likimain normaalijakaumaa

N(0, 1)

, kun

n

on suuri. Jos nimittä-

jässä

p 1

ja

p 2

korvataan estimaattoreillaan,on

P ( − z α/2 ≤ (Y 1 /n 1 − Y 2 /n 2 ) − (p 1 − p 2 )

p Y 1 /n 1 (1 − Y 1 /n 1 )/n 1 + Y 2 /n 2 (1 − Y 2 /n 2 )/n 2

≤ z α/2 ) ≈ 1 − α.

suurilla

n

:narvoilla.Tästäsaadaanerotuksen

p 1 − p 2

likimain

100(1 − α)

%:n

luottamusväli

y 1 n 1 − y 2

n 2 ± z α/2

s

y 1 (1 − y 1 ) n 1

+ y 2 (1 − y 2 ) n 2

.

12.4 Otoskoko

Jos haluamme, että odotusarvon

µ

luottamusväli,

x ¯ ± z α/2 (σ/ √ n)

, ei ole

pidempikuin annettu väli

x ¯ ± ε

, niinasetetaan

ε = z α/2 σ

√ n ,

jostaseuraa

n = z α/2 2 σ 2 ε 2 .

Suuretta

ε = z α/2 n σ

kutsutaanuseinestimaatinmaksimivirheeksi.Suhteellisen osuuden

p

likimäärin

100(1 − α)

%:nluottamusvälion

ˆ p ± z α/2

r p(1 ˆ − p) ˆ

n ,

(13)

luottamusväli 331

missä

p ˆ = y/n

.Haluammemäärittääotoskoonniin, ettäestimaatin

p ˆ = y/n

maksimivirheon

ε = z α/2

p p(1 ˆ − p)/n ˆ

.Koska

p ˆ

ontuntematonennenkoetta,

siitäeiole hyötyä otoskoonmäärittämisessä.Jostiedetään, että

p

:narvoon

noin

p

taikorkeintaan

p

, niinsillointarvittavaotoskoko

n = z α/2 2 p (1 − p )

ε 2 .

Jos meillä ei ole riittävän luotettavaa ennakkoarviota

p

:n arvosta, voidaan

käyttää varovaista (riittävän suurta)otoskoon arviota

n = z α/2 22 ,

sillä

p(1 − p) ≤ 1/4

kaikilla

p ∈ [0, 1]

.

12.5 Mediaanin jakaumasta vapaa

luottamusväli

Olkoon

X 1 , X 2 , . . . , X n

otosjatkuvastajakaumasta,jotaeitarkemmintunne- ta. Muodostetaan nyt jakauman mediaanille luottamusväli. Huomattakoon,

että jakauman odotusarvo ei ole välttämättä olemassa. Kun luottamusväli

muodostetaan jakaumaa koskevien varsin niukkojen oletusten varassa, me-

netelmää sanotaan jakaumasta vapaaksi. Luottamusvälin muodostamisessa

käytetäänjärjestyssuureita.

Olkoon

X (1) , X (2) , . . . , X (n)

järjestetty otos,jossa siis

X (1) > X (2) > · · · >

X (n)

.Mediaanin

m

luottamusväliksivoidaanajatellaesimerkiksihavaintojen vaihteluväliä

(X (1) , X (n) )

, missä

X (1)

on pienin ja

X (n)

suurin havaintoarvo.

Välinluottamustasoonsillointodennäköisyys

P (X (1) < m < X (n) )

,missä

m

onmääritelmänsämukaanjakauman

50

%:nfraktiili

π 0.5

eli

P (X < m) = 0.5

.

Otoksen

X 1 , X 2 , . . . , X n

avullavoidaanmääritelläriippumattomatsatunnais- muuttujat

I 1 , I 2 , . . . , I n

siten, että

I j = 1,

kun

X j < m

ja muutoin

I j = 0

.

Onnistumistenlukumäärä

L = I 1 + I 2 + · · · + I n

onsiismediaaniapienempien

havaintojen lukumääräja

L ∼ Bin(n, 1/2)

.

Olkoonesimerkiksi

n = 5

.Joskaikkihavainnotovatmediaaniapienempiä

(

L = 5

)taikaikkihavainnotovatmesiaaniasuurempia(

L = 0

),niinmediaani

ei olevälillä

(X (1) , X (5) )

.Muutoin mediaanion välillä

(X (1) , X (5) )

. Näin siis

P (X (1) < m < X (5) ) = 1 − P (L = 0) − P (L = 5)

= 1 − (1/2) 5 − (1/2) 5 = 15/16

ja

(x (1) , x (5) )

on

94

%:n luottamusväli (

15/16 ≈ 0.94

).

(14)

Yleisesti välin

(X (1) , X (n) )

luottamustasoon

P (X (1) < m < X (n) )) = 1 − P (L = 0) − P (L = n)

=

n − 1

X

k=1

n k

(1/2) k (1/2) n k

= 1 − (1/2) n − (1/2) n = 1 − (1/2) n 1 .

Kasvattamallaotoskokoasaadaantodennäköisyys

P (X (1) < m < X (n) )

mieli-

valtaisenlähelleykköstä.Onkuitenkinhuomattava,ettämyösvälin

(x (1) , x (n) )

pituus kasvaa

n

:n kasvaessa. Lyhempiävälejä(tarkempia estimaatteja) saa- daankäyttämälläjotainmuutajärjestyssuureisiinperustuvaaväliä

(X (i) , X (j) )

,

missä

i < j

.Esimerkiksivoitaisiinkokeillaväliä

(X (2) , X (n − 1) )

tai

(X (3) , X (n − 2) )

.

Vastaavallapäättelylläkuin edelläsaadaan välin

(X (i) , X (j) )

luottamustaso

P (X (i) < m < X (j) )) =

j − 1

X

k=i

n k

(1/2) k (1/2) n k = 1 − α.

Edellä esitettyä menetelmää voidaan käyttää minkä tahansa jatkuvan

jakauman prosenttipisteen

π p

luottamusvälin määrittämiseen. Medianin ta- pauksessa käytetty onnistumistodennäköisyys vain korvataan onnistumisto-

dennäköisyydellä

P (X < π p ) = p

.

12.6 Yhden selittäjän lineaarinen

regressiomalli

12.6.1 Ehdollinen normaalimalli

Oletetaan, että satunnaismuuttujat

Y 1

,...,

Y n

ovat riippumattomatja

(12.6.1)

Y i ∼ N(α + βx i , σ 2 ), 1 ≤ i ≤ n.

Havaittu aineistomuodostuu

n

:stä arvoparista

(x 1 , y 1 )

, ...,

(x n , y n )

.Ennus-

temuuttujan

x

arvot

x 1

, ...,

x n

ajatellaan tunnetuiksi vakioiksi. Regressio- funktioon siismuotoa

E(Y | x) = α + βx

ja kaikilla satunnaismuuttujilla

Y i

on sama varianssi

σ 2

. Malli (12.6.1) voi-

daan myöslausua muodossa

Y i = α + βx i + ε i , 1 ≤ i ≤ n,

missä

ε 1

, ...,

ε n

ovat riippumattomatja

ε i ∼ N(0, σ 2 )

,

1 ≤ i ≤ n

.

(15)

regressiomalli 333

Havaintojen

Y 1

,...,

Y n

yhteisjakauman tiheysfunktio on

f (y 1 , . . . , y n | α, β, σ 2 ) =

n

Y

i=1

f 1 (y i | α, β, σ 2 )

=

n

Y

i=1

√ 1

2π σ exp

− 1

2 (y i − α − βx i ) 2

= (2πσ 2 ) n/2 exp

− 1 2σ 2

n

X

i=1

(y i − α − βx i ) 2

.

Tästä nähdään, että uskottavuusfunktio on

L(α, β, σ 2 ) = (2πσ 2 ) n/2 exp

− 1 2σ 2

n

X

i=1

(y i − α − βx i ) 2

ja logaritmoitu uskottavuusfunktio on

(12.6.2)

l(α, β, σ 2 ) = − n

2 log(2πσ 2 ) − 1 2σ 2

n

X

i=1

(y i − α − βx i ) 2 .

Funktiosta(12.6.2) voidaan ratkaista parametrien

α, β

ja

σ 2

suurimman

uskottavuuden estimaattorit

β ˆ =

n

X

i=1

(x i − x) ¯ S xx Y i , ˆ

α = ¯ Y − β ˆ x ¯

ja

ˆ

σ 2 = 1 n

n

X

i=1

(Y i − α ˆ − βx ˆ i ) 2 ,

missä

x ¯

onkoevakioiden

x 1 , . . . , x n

ja

Y ¯

on havaintojen

Y 1 , . . . , Y n

keskiarvo

sekä

S xx = P n

i=1 (x i − x) ¯ 2

. Estimaattorit

α ˆ

ja

β ˆ

ovatharhattomia, mutta

σ ˆ 2

on

σ 2

:n harhainen estimaattori.Sen sijaan estimaattori

S 2 = n

n − 2 σ ˆ 2 = 1 n − 2

n

X

i=1

(Y i − α ˆ − βx ˆ i ) 2

on

σ 2

harhaton estimaattori. Jotta voidaan esittää näihin estimaattoreihin perustuvat estimointi ja testausmenettelyt, täytyy tuntea estimaattoreiden

otantajakaumat. Otantajakaumia koskevat tulokset on esitetty seuraavassa

lauseessa.

Lause 12.1 Normaalimallissa (12.6.1) estimaattoreiden

α, ˆ β ˆ

ja

σ ˆ 2

otanta-

jakaumat ovat

ˆ

α ∼ N(α, σ 2 nS xx

n

X

i=1

x 2 i ), β ˆ ∼ N(β, σ 2 S xx

),

missä

Cov( ˆ α, β) = ˆ − σ 2 x ¯ S xx

.

(16)

Lisäksi,

( ˆ α, β) ˆ

ja

S 2

ovat riippumattomat ja

(n − 2)S 2

σ 2 ∼ Khi2(n − 2).

Näiden jakaumatulosten avulla voidaan johtaa parametreilleluottamusvälit

tässä luvussa esitettyjen periaatteidenmukaisesti.

12.6.2 Yksinkertainen lineaarinen regressio

Lineaarisessa regressiossa oletetaan,että vastemuuttuja riippuulineaarisesti

selittäjistä.Malli onmuotoa

Y i = α + βx i + ε i , 1 ≤ i ≤ n,

missä

Y i

on havaittava satunnaismuuttuja ja

ε i

on virhetermi,

α

ja

β

ovat

tuntemattomia vakioitaja

x 1

, ...,

x n

ovat tuntemattomiakoevakioita. Ole- tamme, että

E(ε i ) = 0

, joten

(12.6.3)

E(Y i ) = α + βx i .

Itse asiassa (12.6.3)onehdollinen odotusarvo

E(Y i | x i ) = α + βx i .

Oletetaan, että regressiofunktio on lineaarinen, mutta ei tehdä normaali-

suusoletusta kuten edellisessä alaluvussa. Pienimmän neliösumman keinolla

saadaanparametrien estimaateiksi

β ˆ =

P (x i − x)y ¯ i

P (x i − x) ¯ 2 = s xy

s 2 x = rs x s y

s 2 x = s y

s x · r ˆ

α = ¯ y − β ˆ x, ¯

missä

s xy

onotoskovarianssija

s 2 x

sekä

s 2 y

ovatotosvariansseja.Voidaanosoit- taa, että

α ˆ

ja

β ˆ

ovat minimivarianssisiakaikkien

α

:nja

β

:nlineaaristen har- hattomien estimaattorien joukossa. Voidaan osoittaa, että tässäkin tapauk-

sessa estimaattorit

α ˆ

ja

β ˆ

noudattavat likimain normaalijakaumaa suuril- la

n

:n arvoilla. Siksi normaalijakauman avulla voidaan johtaa likimääräiset luottamusvälit.

Viittaukset