9.6.1 Markovinja T²eby²evin epäyhtälöt sekäsuurten luku-
jen laki. . . 263
9.6.2 Jenseninepäyhtälö . . . 265
9.6.3 Stokastinensuppeneminen . . . 266
9.6.4 Suppeneminen jakaumamielessä . . . 268
10 Uskottavuuspäättelyn perusteet 273 10.1 Uskottavuuden määritelmä . . . 273
10.1.1 Diskreetit mallit. . . 275
10.1.2 Jatkuvatmallit . . . 275
10.2 Esimerkkejä . . . 276
10.3 Uskottavuuksien yhdistäminen . . . 276
10.4 Yhteys Bayesilaiseen lähestymistapaan . . . 283
10.5 Uskottavuussuhde . . . 283
10.6 Uskottavuusfunktion maksimi ja kaarevuus . . . 284
10.7 Uskottavuuden invarianssi . . . 287
10.7.1 Uskottavuus uudessa parametrisoinnissa . . . 288
10.8 Pistesuureen jakauma . . . 289
10.9 Suurimmanuskottavuuden menetelmä . . . 292
10.9.1 Odotettu informaatioja kokeiden suunnittelu . . . 292
10.9.2 Pistefunktionja informaatiofunktion ominaisuuksia . . 293
10.9.3 Cramérin ja Raon alaraja . . . 295
10.9.4 Suurimman uskottavuuden estimaattorinominaisuuksia296 11 Piste-estimointi 299 11.1 Piste-estimaattoreiden ominaisuuksia . . . 299
11.1.1 Harhattomuus . . . 299
11.1.2 Tehokkuus . . . 300
11.1.3 Tarkentuvuus . . . 304
11.2 Estimointimenetelmiä. . . 305
11.2.1 Momenttimenetelmä . . . 305
11.2.2 Bayesin menetelmä . . . 306
11.2.3 Suurimman uskottavuuden estimaattorin (SUE) omi- naisuuksia . . . 307
11.3 Delta-menetelmä . . . 308
11.4 Tyhjentävyys . . . 310
11.4.1 Perusidea . . . 310
11.4.2 Tekijälause . . . 311
11.4.3 Minimaalinen tyhjentävyys . . . 312
11.5 Eksponentiaalinen perhe . . . 316
12 Väliestimointi 321 12.1 Keskiarvojen luottamusvälit . . . 321
12.1.1 Napasuureet . . . 326
12.3 Suhteellisten osuuksienluottamusvälit. . . 329
12.4 Otoskoko. . . 330
12.5 Mediaaninjakaumasta vapaa luottamusväli . . . 331
12.6 Yhden selittäjänlineaarinen regressiomalli . . . 332
12.6.1 Ehdollinen normaalimalli. . . 332
12.6.2 Yksinkertainen lineaarinen regressio . . . 334
13 Hypoteesien testaus 335 13.1 Testisuureet ja
p
-arvot . . . . . . . . . . . . . . . . . . . . . . 33613.2 Testien arviointi. . . 337
13.2.1 Testin voimakkuus . . . 338
13.2.2 Testin konstruointiyksinkertaisethypoteesit . . . 339
13.3 Uskottavuussuhdetestit: Yksinkertaiset hypoteesit . . . 342
13.3.1 Yksi parametri . . . 342
13.3.2 Useita parametreja . . . 346
13.4 Uskottavuusfunktion avulla konstruoituja testisuureita . . . 347
13.5 Uskottavuussuhdetestit: Yhdistetyt hypoteesit . . . 348
13.5.1
p
-arvonmäärittäminen . . . 34913.5.2 Kaksiparametria, joistatoista testataan . . . 350
13.5.3 Homogeenisuuden testaus . . . 351
13.5.4 Binomitodennäköisyyksien testaaminen . . . 355
13.5.5 Multinomitodennäköisyyksien testaaminen . . . 357
13.5.6 Riippumattomuudentestaus kontingenssitaulukoissa . . 359
Väliestimointi
Estimaatteihinliittyyainatiettyepävarmuus,jokajohtuumm.otosvaihtelus-
ta.Josestimaattori onharhaton ja sen varianssipieni, voidaanestimaattien
odottaa osuvan lähelle parametrin arvoa. Väliestimoinnissa ilmoitetaan vä-
li, jolle parametrin arvon arvioidaan kuuluvan, ja lisäksi ilmoitetaan väliin
liittyvä luottamus tai varmuuden aste. Tässä luvussa tarkastellaan lutotta-
musvälejä. Merkitään otosta
X 1 , . . . , X n lihavoidulla isollakirjaimella X
ja
havaittua otosarvoa x 1 , . . . , x n lihavoidulla pikkukirjaimella x
. Aloitamme
väliestimaatin määritelmällä.
x
. Aloitamme väliestimaatin määritelmällä.Määritelmä 12.1 Olkoon
X
otos jostainjakaumastaF
jaθ = θ(F )
onsenreaaliarvoinenparametri. Onhavaittu
X = x
.Parametrinθ
väliestimaattori onmikätahansasellainenotoksentunnuslukuparil( X )
jau( X )
,ettäl( x ) ≤ u( x )
kaikilla mahdollisillaotosarvoillaX = x
. Havaittu väli[l( x ), u( x )]
onθ
:nväliestimaatti ja[l( X ), u( X )]
väliestimaattori.Merkitään lyhyesti
l( X ) = L, l( x ) = l, u( X ) = U
jau( x ) = u
. Olemmekiinnostuneita siitä, onko parametri
θ
välillä[l, u]
eli peittääkö väli para-metrin arvon. Parametrin
θ
arvo onkiinteä ja väliestimaatti saadaanjonkin satunnaiskokeen tuloksena.TodennäköisyysP F [L ≤ θ ≤ U]
onväliestimaattorin
[L, U]
peitetodennäköisyys.MerkintäP F tarkoittaa,että
todennäköisyys lasketaan jakaumastaF
, josta otos on tehty. Satunnaisväliä
[L, U]
sanotaanparametrinθ
luottamusväliksiluottamustasolla(1 − α)100
%,jos
P F [L ≤ θ ≤ U] ≥ 1 − α, 0 < α < 1,
kaikilla
θ ∈ Θ
. Luottamusvälinpeitetodennäköisyys riippuutavallisesti esti- moitavanparametrinθ
arvosta.12.1 Keskiarvojen luottamusvälit
Olkoon
X 1 , . . . , X n otos jakaumasta, jonka keskiarvo on µ
ja varianssi σ 2 )
.
Tarkastelemme luottamusvälinmuodostamista keskiarvolle
µ
.Esimerkki 12.1 Olkoon
X 1 , . . . , X notosnormaalijakaumastaN(µ, σ 2 )
.Otos-
keskiarvo
X ¯ ∼ N(µ, σ 2 /n)
on jakauman tuntemattoman keskiarvonµ
har-haton estimaattori. Muodostamme
X ¯
:n avulla tuntemattomalleµ
:lle luot-tamusvälin, kun varianssi
σ 2 = σ 2 0 tunnetaan. Voimme normaalijakauman
avulla määrittääsellaisenluvun z α/2, että
P ( − z α/2 ≤ X ¯ − µ σ 0 / √
n ≤ z α/2 ) = 1 − α.
Huomaa, että
P (Z ≥ z α/2 ) = P (Z ≤ − z α/2 ) = α/2
.Jos esimerkiksi1 − α = 0.95
, niinz α/2 = z 0.025 = 1.96
. Todennäköisyys, että satunnaisväli[ ¯ X − z α/2
σ 0
√ n , X ¯ + z α/2
σ 0
√ n ]
sisältää tuntemattoman keskiarvon
µ
on1 − α
.Kun otos on havaittu ja saatu havaintoarvot
x 1 , . . . , x n, voidaan laskea
µ
:nestimaattix ¯ = 1 n P n
i=1 x i
. Siitä saadaantunnettu väli[¯ x − z α/2
σ 0
√ n , x ¯ + z α/2
σ 0
√ n ],
jota sanotaan
µ
:n100(1 − α)
%:n luottamusväliksi. Lukua1 − α
tai vas-taavasti prosenttilukua
100(1 − α)
% sanotaan välin luottamustasoksi tai luottamuskertoimeksi. Jos esimerkiksix ¯ = 3.25, σ = 1
jan = 20
, niin3.25 ± 1.96 √ 1 20 = [2.81, 3.69]
onµ
:n95
%:n luottamusväli.Vaikkaeivoitaisikaanolettaa,ettäotosonnormaalijakaumasta,voidaansilti
usein saada luottamusvälin likiarvo. Keskeisen rajaväittämän nojalla
X ¯ − µ σ/ √
n
noudattaa likimainnormaalijakaumaa
N(0, 1)
, kunn
onsuuri. SilloinP ( − z α/2 ≤ X ¯ − µ
σ 0 / √
n ≤ z α/2 ) ≈ 1 − α.
ja väli
[¯ x − z α/2
σ 0
√ n , x ¯ + z α/2
σ 0
√ n ],
onlikimain
100(1 − α)
%:nluottamusväli.Likiarvontäsmällisyysriippuuotos- koostan
ja jakaumasta, josta otos onperäisin.Jos
σ 2 ontuntematonja otoskokokohtuullisensuuri(n ≥ 30
),noudattaa
X ¯ − µ S/ √
n
likimainnormaalijakaumaa,vaikka otos ei ole peräisin normaalijakau-masta.Koskaotosvarianssi
S 2 onσ 2:ntarkentuvaestimaattori,eliS 2 −→ P σ 2
S 2 −→ P σ 2
otoskoon
n
kasvaessa, seuraa tulos keskeisestä rajaväittämästä ja Slutskyn lauseesta (Lause9.22). Josperusjakauma, jostaotostehdään, onesimerkiksivoimakkaasti vino, saattaa vielä otoskoko
30
olla liian pieni, jotta likiarvoEsimerkki 12.2 Jos otos onnormaalijakaumasta
N(µ, σ 2 )
, niinT = X ¯ − µ
S/ √ n
noudattaa
t
-jakaumaa vapausasteinn − 1
. Silloint
-jakaumastavapausasteinn − 1
voidaanmäärittäälukut α/2;n − 1 siten, että
P ( − t α/2;n − 1 ≤ X ¯ − µ S/ √
n ≤ t α/2;n − 1 ) = 1 − α.
Otoksesta laskettujen estimaattien
x ¯
jas 2 perusteella saadaan µ
:n 100(1 − α)
%:n luottamusväli
(12.1.1)
[¯ x − t α/2;n − 1
√ s
n , x ¯ + t α/2;n − 1
√ s n ].
Jos eivoida otaksua otoksen olevannormaalijakaumasta,onväli(12.1.1)
vain likimain
µ
:n100(1 − α)
%:n luottamusväli. Likiarvo ei ole herkkä poik-keamisellenormaalisuusoletuksesta.
Joissainsovelluksissatarvitaanvainesimerkiksi
µ
:nalarajan(ylärajan)arvio.Olkoonotos normaalijakaumasta
N(µ, σ 2 )
. SilloinP ( X ¯ − µ
σ/ √
n ≤ z α ) = 1 − α
taivastaavasti
P [ ¯ X − z α
√ σ
n ≤ µ] = 1 − α.
Kun
X ¯
:n arvo on havaittu, saadaaµ
:n yksipuolinen100(1 − α)
%:n luotta-musväli
(¯ x − z α √ σ
n , ∞ ).Tämä yksipuolinenväliantaa µ
:llealarajan.
Usein luottamusvälivoidaanmuodostaalaskennallisestihelpoimminsuu-
rimman uskottavuuden estimaattorin jakauman likiarvon avulla. Tuloksen
(11.2.2) nojalla suurimman uskottavuuden estimaattori noudattaa asymp-
toottisesti normaalijakaumaa.Välin
"
θ ˆ ± c p I(ˆ θ)
#
peitetodennäköisyys on
P θ θ ˆ − c
p I(ˆ θ) ≤ θ ≤ θ ˆ + c p I(ˆ θ)
!
= P θ
− c ≤ (ˆ θ − θ) q
I (ˆ θ) ≤ c
.
Tuloksen (11.2.4) mukaan
P θ
− c ≤ (ˆ θ − θ) q
I(ˆ θ) ≤ c
≈ P ( − c ≤ Z ≤ c),
missä
Z ∼ N(0, 1)
.Jos peitetodennäköisyydeksi asetetaan0.95
, niinväli(12.1.2)
"
θ ˆ − 1.96 p I(ˆ θ)
, θ ˆ + 1.96 p I (ˆ θ)
#
on
θ
:nluottamusväli,jonkaluottamustasoonlikimain95
%:n,koskaP ( − 1.96 ≤ Z ≤ 1.96) = 0.95
.Esimerkki 12.3 Oletetaan, että jakaumasta
Bin(100, θ)
onsaatu havaintox = 17
. Lasketaanθ
:n likimääräinen95
%:n luottamusväli. Nytθ
:n suurim-man uskottavuuden estimaattion
θ ˆ = x/n = 0.17
jal(θ) − l(ˆ θ) = 17 log θ + 83 log(1 − θ) + 45.581, 0 < θ < 1.
Laskemalla voidaan todeta, että
l(θ) − l(ˆ θ) ≥ log 0.147
, kun0.105 ≤ θ ≤ 0.251
. Tämä onθ
:n14.7
%:n uskottavuusväli ja likimain95
%:n luottamus-väli.
Informaatiofunktio on
I(θ) = x
θ 2 + n − x
(1 − θ) 2 , 0 < θ < 1.
Sijoittamallainformaatiofunktioon
θ = ˆ θ
saadaanI(ˆ θ) = x
θ ˆ 2 + n − x (1 − θ) ˆ 2 = n
θ ˆ + n
1 − θ ˆ = n θ(1 ˆ − θ) ˆ .
Nyt (12.1.2):nmukaan
θ ˆ ± 1.96
s θ(1 ˆ − θ) ˆ
n = 0.17 ± 0.0736
on
θ
:n likimääräinen95
%:n luottamusväli. Väli ei kuitenkaan ole uskotta- vuusväli,sillävälinalarajan0.096
suhteellinenuskottavuusR(0.096) = 0.072
onpaljonpienempi kuinylärajan
0.244
suhteellinenuskottavuusR(0.244) =
0.200
.Esimerkki 12.4 Oletetaan, että
X ∼ Bin(3, θ)
. Silloinl(θ) = x log θ + (3 − x) log(1 − θ)
= 3[ˆ θ log θ + (1 − θ) log(1 ˆ − θ)]
jal(ˆ θ) = 3[ˆ θ log ˆ θ + (1 − θ) log(1 ˆ − θ)], ˆ
missä
θ ˆ = x/3
ja0 ≤ θ ≤ 1
. Estimaattoriθ ˆ
voi saada arvot0
,1 3
,2 3
ja1
.Parametrin
10
%:n uskottavuusväli onuv(x; 10 %) = { θ | l(θ) − l(ˆ θ) ≥ log 0.1 } .
Jos esimerkiksi
x = 1
, niinuv(x; 10 %) = { θ | log θ + 2 log(1 − θ) ≥ − 0.39 }
= [0.015, 0.869].
Eri
x
:n arvoillasaadaan seuraavatθ
:n10
%:n uskottavuusvälituv(0) = [0, 0.536], uv(1) = [0.015, 0.869], uv(2) = [0.131, 0.985], uv(3) = [0.464, 1].
Todennäköisyys, että väli peittää parametrin todellisen arvon, riippuu nyt
parametrin arvosta.
− 1
− 2 r(θ)
θ
1/3 2/3 1
r(θ) = log(0.1) x = 3 x = 0 x = 1 x = 2
Kuvio 12.1. Logaritmoitu normitettu uskottavuusfunktio
r(θ) = l(θ) − l(ˆ θ)
, kunx = 0, 1, 2
ja3
.Normaalijakaumaan perustuvan likiarvon avulla johdettu tavanomainen
95
%:n luottamusvälionmuotoal V (ˆ θ) = ˆ θ ± 1.96
s θ(1 ˆ − θ) ˆ 3 .
Koska
θ ˆ
:nmahdollisetarvotovat0
,1 3
,2 3
ja1
,niinmahdollisetluottamusvälit ovat0, [0.061, 0.605], [0.395, 0.939]
ja1.
Havaintoarvoilla
X = 0
jaX = 3
väli degeneroituu yhdeksi pisteeksi. Kun0 < θ < 0.061
tai0.939 < θ < 1
, on luottamusvälinpeitetodennäköisyys0
.12.1.1 Napasuureet
Olkoon
X 1 , . . . , X notostasajakaumastaTas(0, θ)
jaolkoonY = X (n)havain-
tojen maksimi. Muodostetaan tuntemattomalle parametrille
θ
väliestimaat- tori. Tarkastellaankahtavaihtoehtoa:[Y, aY ], a > 1;
[Y, Y + b], b > 0,
missä
a
jab
ovatannettujavakioita. Ensimmäisenvälinpeitetodennäköisyys onP (θ ∈ [Y, aY ]) = P (Y ≤ θ ≤ aY ) = P 1
a ≤ Y θ ≤ 1
.
Koska
Y
:n tiheysfunktio onf Y (y) = ny n − 1 /θ n, 0 ≤ y ≤ θ
, niin satunnais-
muuttujan
T = Y /θ
tiheysfunktio onf T (t) = nt n − 1, 0 ≤ t ≤ 1
. Siksi peite-
todennäköisyys on
P 1
a ≤ T ≤ 1
= Z 1
1/a
nt n − 1 dt = 1 − 1
a n
.
Peitetodennäköisyys eiriipu
θ
:sta ja siksivälin[Y, aY ]
luottamustasoon1 − (1/a) n kaikillaθ > 0
.
Toisen välinpeitetodennäköisyys on
P (θ ∈ [Y, Y + b]) = P (Y ≤ θ ≤ Y + b)
= P
1 − b
θ ≤ T ≤ 1
= Z 1
1 − b/θ
nt n − 1 dt = 1 −
1 − b θ
n
.
Tässä tapauksessa peitetodennäköisyys riippuuparametrista
θ
.Sanommesatunnaismuuttujaa
T = t(ˆ θ; θ)
napasuureeksi(pivotalquantity taipivot),josT
:njakauma eiriipu parametristaθ
. Tässäθ ˆ = ˆ θ(X 1 , . . . , X n )
on
θ
:nestimaattori.Napasuureenavullavoidaansiiskonstruoidaluottamus- välejä, joiden peitetodennäköisyys eiriipu estimoitavasta parametrista.Esimerkki 12.5 Tarkastellaan nyt normaalijakauman
N(µ, σ 2 )
parametrinσ 2 väliestimointia.Koska
V = (n − 1)S 2
σ 2 ∼ Khi2(n − 1)
onnapasuure, niin
1 − α = P (a ≤ V ≤ b), a < b
= P
a
(n − 1)S 2 ≤ 1
σ 2 ≤ b (n − 1)S 2
= P
(n − 1)S 2
b ≤ σ 2 ≤ (n − 1)S 2 a
on
σ 2:n luottamusvälin[ (n − b 1)S 2 , (n − a 1)S 2 ]
luottamustaso.
12.2 Kahden keskiarvon erotuksen luottamus-
välit
Olkoot
X 1 , . . . , X njaY 1 , . . . , Y mkaksiriippumatontaotosta,joistaensimmäi-
nenonnormaalijakaumastaN(µ X , σ X 2 )
jatoinennormaalijakaumastaN(µ Y , σ Y 2 )
.
N(µ X , σ X 2 )
jatoinennormaalijakaumastaN(µ Y , σ Y 2 )
.Oletetaan, että varianssit
σ X 2 ja σ 2 Y tunnetaan. Koska otokset ovat riippu-
mattomat, niinmyös otoskeskiarvot
X ¯
jaY ¯
ovat riippumattomatja niiden jakaumat ovatX ¯ ∼ N(µ X , σ 2 X /n)
jaY ¯ ∼ N(µ Y , σ Y 2 /m)
. Otoskeskiarvojen erotuksenW = ¯ X − Y ¯
jakaumaonN(µ X − µ Y , σ 2 X /n + σ 2 Y /m)
jaP − z α/2 ≤ ( ¯ X − Y ¯ ) − (µ X − µ Y )
p σ X 2 /n + σ Y 2 /n ≤ z α/2
!
= 1 − α.
Kun havainnot on tehty, saadaan havaitut otoskeskiarvot
x ¯
jay ¯
ja keskiar-vojen erotuksen
100(1 − α)
%:n luottmusvälion[¯ x − y ¯ − z α/2 σ W , x ¯ − y ¯ + z α/2 σ W ],
missä
σ W on W
:nhajonta.
Jos variansseja
σ X 2 ja σ Y 2 ei tunneta, mutta otoskoot n
ja m
ovat suuret,
n
jam
ovat suuret,niinvarianssit
σ X 2 ja σ 2 Y voidaan korvata varianssien harhattomillaestimaa-
teillas 2 x ja s 2 y.Silloin saadaanlikimääräinen100(1 − α)
%:n luottmusväli
s 2 x ja s 2 y.Silloin saadaanlikimääräinen100(1 − α)
%:n luottmusväli
100(1 − α)
%:n luottmusväli¯
x − y ¯ − z α/2 σ W , x ¯ − y ¯ + z α/2 s W ,
missä
s W = q s 2 x
n + s m 2 y
onW
:n hajonnan estimaatti.Tarkastellaanseuraavaksikahdennormaalijakaumankeskiarvojenerotuk-
senluottamusvälinmäärittämistä,kunvarianssejaeitunnetajaotoskootovat
pienet.Olkoon
X 1 , . . . , X n otosnormaalijakaumastaN(µ X , σ 2 X )
ja Y 1 , . . . , Y m
normaalijakaumasta
N(µ Y , σ Y 2 )
ja otokset ovat toisistaan riippumattomat.Käsitellään ensin tilannetta, jossa voidaan olettaa
σ X 2 = σ Y 2 = σ 2. Silloin
satunnaismuuttuja
Z = X ¯ − Y ¯ − (µ X − µ Y ) q σ 2
n + σ m 2
noudattaa normaalijakaumaa
N(0, 1)
.Koskaotokset ovattoisistaanriippumattomat, niin
U = (n − 1)S X 2
σ 2 + (m − 1)S Y 2 σ 2
onkahdenriippumattoman
Khi2
-jakaumaanoudattavansatunnaismuuttujan summa jaU ∼ Khi2(n + m − 2)
. Määritemän mukaanT = Z
U/(n + m − 2)
noudattaa
t
-jakaumaavapausasteinn + m − 2
.Kun tähän sijoitetaanedellä esitetytZ
:njaU
:n lausekkeet, saadaanT = X ¯ − Y ¯ − (µ X − µ Y ) S P
q 1 n + m 1
,
missä
S P = s
(n − 1)S X 2 + (m − 1)S Y 2
n + m − 2 .
Nyt
P (t α/2;n+m − 2 ≤ T ≤ t α/2;n+m − 2 ) = 1 − α
ja siksi
P | X ¯ − Y ¯ − (µ X − µ Y ) | ≤ t α/2;n+m − 2 S P
r 1 n + 1
m
= 1 − α.
Jos
x, ¯ y ¯
jas P ovat satunnaismuuttujien X, ¯ Y ¯
ja S P javaitut arvot,niin saa-
daan
(µ X − µ Y )
:n100(1 − α)
%:n luottamusväli[¯ x − y ¯ − t α/2;n+m − 2 s P
r 1 n + 1
m , x ¯ − y ¯ + t α/2;n+m − 2 s P
r 1 n + 1
m ].
Jostunnetaanvarianssiensuhde
σ X 2 /σ 2 Y,voidaankeskiarvojenerotukselle
(µ X − µ Y )
johtaa luottamusvälit
-jakaumanavullavastaavastikuintilantees- saσ 2 X = σ Y 2. Jos kuitenkaan varianssien suhdetta ei tunneta, tarkastellaan suuretta
W = ( ¯ X − Y ¯ ) − (µ X − µ Y ) p S X 2 /n + S Y 2 /m .
Jos
n
jam
ovattarpeeksisuuria, niinW
noudattaa likimainnormaalijakau- maa jaP (z α/2 ≤ W ≤ z α/2 ) ≈ 1 − α.
Jos
n
jam
eivätolekovinsuuria,käyteetäänt
-jakaumaanperustuvaaWelhinlikiarvoa. Lasketaan
r = (s 2 x /n + s 2 y /m) 2
(s 2 x /n) 2
n − 1 + (s m 2 y /m) − 1 2
ja
r
pyöristetään alspäin lähimpään kokonaislukuun (= ⌊ r ⌋
). Silloin(µ X − µ Y )
:n likimäärin100(1 − α)
%:n luottamusväli on¯
x − y ¯ ± t α/2; ⌊ r ⌋
q
s 2 x /n + s 2 y /m.
Joissakin sovelluksissa mittaukset
X
jaY
ovat toisistaan riippuvat. Mi-tataan esimerkiksi
n
:n henkilön paino ennen ja jälkeen laihdutuskuurin ja saadaan mittaukset(X 1 , Y 1 ), (X 2 , Y 2 ), . . . , (X n , Y n )
, joka on otos kaksiulot-teisesta jakaumasta. Silloin eri mittausparit
(X i , Y i )
ja(X j , Y j ), i 6 = j,
ovattoisistaan riippumattomat, mutta mittaukset
X i ja Y i ovat riippuvia. Muo-
dostetaanerotukset
D i = X i − Y i , i = 1, 2, . . . , n
.Usein voidaanolettaa,ettäD 1 , D 2 , . . . , D nonotosnormaalijakaumastaN(µ X − µ Y , σ D 2 )
,missäσ D 2 onero-
tusten varianssi. Erityisesti, jos
(X 1 , Y 1 ), (X 2 , Y 2 ), . . . , (X n , Y n )
on otos kak-siulotteisesta normaalijakaumasta
N (µ X , µ Y , σ X , σ Y , ρ)
, niinD 1 , D 2 , . . . , D n
onotosnormaalijakaumasta
N(µ X − µ Y , σ D 2 )
.Silloin(µ X − µ Y )
:nluottamus-väli voidaan muodostaa suureen
T = D ¯ − (µ X − µ Y ) S D / √
n
avulla, missä
D ¯
on erotusten otoskeskiarvo jaS D 2 erotusten otosvarianssi.
Erotuksen
µ X − µ Y ) 100(1 − α
%:n luottamusväliond ¯ ± t α/2;n − 1 s d
√ n
missä
d ¯
onhavaintojen keskiarvo jas d niiden hajonta.
12.3 Suhteellisten osuuksien luottamusvälit
Olkoon
X 1 , X 2 , . . . , X n otos Bernoullin jakaumasta Ber(p)
. Silloin onnistu-
misten lukumäärä
Y = X 1 + · · · X n noudattaa Binomijakaumaa Bin(n, p)
.
Otoskeskiarvo
Y /n
on parametrinp
harhaton estimaattori.SuureY − np
p np(1 − p) = Y /n − p p p(1 − p)/n
noudattaakeskeisenrajaväittämännojallalikimainnormaalijakaumaa
N(0, 1)
,kun
n
ontarpeeksi suuri.Voimme siisolettaa, että(12.3.1)
P − z α/2 ≤ Y /n − p
p p(1 − p)/n ≤ z α/2
≈ 1 − α,
josta saadaan
P Y
n − z α/2
r p(1 − p)
n ≤ p ≤ Y
n + z α/2
r p(1 − p) n
≈ 1 − α.
Koska epäyhtälön päätepisteissä esiintyy estimoitava tuntematon parametri
p
, eitästä tuloksesta saada suoraan luottamusväliä.Tarvitaan toinenlikiar- vo, korvataan päätepisteissäp
harhattomalla estimaatorillaY /n
. Suurellahavaintojen lukumäärällä
n
pitää edelleen paikkansa, ettäP Y
n − z α/2
r (Y /n)(1 − Y /n)
n ≤ p ≤ Y
n + z α/2
r (Y /n)(1 − Y /n) n
≈ 1 − α.
Jos havaitaan
Y = y
, niin suurillan
:n arvoillap
:n likimääräinen100(1 − α)
%:n luottamusväli ony
n ± z α/2
r (y/n)(1 − y/n)
n .
Muodostamme nyt luottamusvälin kahden onnistumistodennäköisyyden
p 1 ja p 2 erotuksellep 1 − p 2. Oletetaan, että onnistumistenlukumäärät Y 1 ja
p 1 − p 2. Oletetaan, että onnistumistenlukumäärät Y 1 ja
Y 2 kahdessa riippumattomassakokeessa noudattavat binomijakaumaa siten,
että Y i ∼ Bin(n i , p i ), i = 1, 2
. Satunnaismuuttujat Y 1 ja Y 2 ovat siis riippu-
Y 2 ovat siis riippu-
mattomat. Koska
Y i /n i on p i:n, i = 1, 2
harhaton estimaattori ja Y 1 ja Y 2
i = 1, 2
harhaton estimaattori jaY 1 ja Y 2
ovatriippumattomat,niin
Y 1 /n 1 − Y 2 /n 2 onp 1 − p 2:nharhaton estimaattori
ja
Var(Y 1 /n 1 − Y 2 /n 2 ) = p 1 (1 − p 1 ) n 1
+ p 2 (1 − p 2 ) n 2
.
Voidaanosoittaa, että suure
(Y 1 /n 1 − Y 2 /n 2 ) − (p 1 − p 2 ) p p 1 (1 − p 1 )/n 1 + p 2 (1 − p 2 )/n 2
noudattaa likimain normaalijakaumaa
N(0, 1)
, kunn
on suuri. Jos nimittä-jässä
p 1 ja p 2 korvataan estimaattoreillaan,on
P ( − z α/2 ≤ (Y 1 /n 1 − Y 2 /n 2 ) − (p 1 − p 2 )
p Y 1 /n 1 (1 − Y 1 /n 1 )/n 1 + Y 2 /n 2 (1 − Y 2 /n 2 )/n 2
≤ z α/2 ) ≈ 1 − α.
suurilla
n
:narvoilla.Tästäsaadaanerotuksenp 1 − p 2 likimain100(1 − α)
%:n
luottamusväli
y 1 n 1 − y 2
n 2 ± z α/2
s
y 1 (1 − y 1 ) n 1
+ y 2 (1 − y 2 ) n 2
.
12.4 Otoskoko
Jos haluamme, että odotusarvon
µ
luottamusväli,x ¯ ± z α/2 (σ/ √ n)
, ei olepidempikuin annettu väli
x ¯ ± ε
, niinasetetaanε = z α/2 σ
√ n ,
jostaseuraan = z α/2 2 σ 2 ε 2 .
Suuretta
ε = z α/2 √ n σ kutsutaanuseinestimaatinmaksimivirheeksi.Suhteellisen
osuuden p
likimäärin100(1 − α)
%:nluottamusvälion
ˆ p ± z α/2
r p(1 ˆ − p) ˆ
n ,
luottamusväli 331
missä
p ˆ = y/n
.Haluammemäärittääotoskoonniin, ettäestimaatinp ˆ = y/n
maksimivirheon
ε = z α/2
p p(1 ˆ − p)/n ˆ
.Koskap ˆ
ontuntematonennenkoetta,siitäeiole hyötyä otoskoonmäärittämisessä.Jostiedetään, että
p
:narvoonnoin
p ∗ taikorkeintaan p ∗, niinsillointarvittavaotoskoko
n = z α/2 2 p ∗ (1 − p ∗ )
n = z α/2 2 p ∗ (1 − p ∗ )
ε 2 .
Jos meillä ei ole riittävän luotettavaa ennakkoarviota
p
:n arvosta, voidaankäyttää varovaista (riittävän suurta)otoskoon arviota
n = z α/2 2 4ε 2 ,
sillä
p(1 − p) ≤ 1/4
kaikillap ∈ [0, 1]
.12.5 Mediaanin jakaumasta vapaa
luottamusväli
Olkoon
X 1 , X 2 , . . . , X notosjatkuvastajakaumasta,jotaeitarkemmintunne- ta. Muodostetaan nyt jakauman mediaanille luottamusväli. Huomattakoon,
että jakauman odotusarvo ei ole välttämättä olemassa. Kun luottamusväli
muodostetaan jakaumaa koskevien varsin niukkojen oletusten varassa, me-
netelmää sanotaan jakaumasta vapaaksi. Luottamusvälin muodostamisessa
käytetäänjärjestyssuureita.
Olkoon
X (1) , X (2) , . . . , X (n) järjestetty otos,jossa siisX (1) > X (2) > · · · >
X (n).Mediaaninm
luottamusväliksivoidaanajatellaesimerkiksihavaintojen
vaihteluväliä (X (1) , X (n) )
, missä X (1) on pienin ja X (n) suurin havaintoarvo.
X (n) suurin havaintoarvo.
Välinluottamustasoonsillointodennäköisyys
P (X (1) < m < X (n) )
,missäm
onmääritelmänsämukaanjakauman
50
%:nfraktiiliπ 0.5eliP (X < m) = 0.5
.
Otoksen
X 1 , X 2 , . . . , X navullavoidaanmääritelläriippumattomatsatunnais-
muuttujat I 1 , I 2 , . . . , I n siten, että I j = 1,
kun X j < m
ja muutoin I j = 0
.
I j = 1,
kunX j < m
ja muutoinI j = 0
.Onnistumistenlukumäärä
L = I 1 + I 2 + · · · + I nonsiismediaaniapienempien
havaintojen lukumääräja
L ∼ Bin(n, 1/2)
.Olkoonesimerkiksi
n = 5
.Joskaikkihavainnotovatmediaaniapienempiä(
L = 5
)taikaikkihavainnotovatmesiaaniasuurempia(L = 0
),niinmediaaniei olevälillä
(X (1) , X (5) )
.Muutoin mediaanion välillä(X (1) , X (5) )
. Näin siisP (X (1) < m < X (5) ) = 1 − P (L = 0) − P (L = 5)
= 1 − (1/2) 5 − (1/2) 5 = 15/16
ja
(x (1) , x (5) )
on94
%:n luottamusväli (15/16 ≈ 0.94
).Yleisesti välin
(X (1) , X (n) )
luottamustasoonP (X (1) < m < X (n) )) = 1 − P (L = 0) − P (L = n)
=
n − 1
X
k=1
n k
(1/2) k (1/2) n − k
= 1 − (1/2) n − (1/2) n = 1 − (1/2) n − 1 .
Kasvattamallaotoskokoasaadaantodennäköisyys
P (X (1) < m < X (n) )
mieli-valtaisenlähelleykköstä.Onkuitenkinhuomattava,ettämyösvälin
(x (1) , x (n) )
pituus kasvaa
n
:n kasvaessa. Lyhempiävälejä(tarkempia estimaatteja) saa- daankäyttämälläjotainmuutajärjestyssuureisiinperustuvaaväliä(X (i) , X (j) )
,missä
i < j
.Esimerkiksivoitaisiinkokeillaväliä(X (2) , X (n − 1) )
tai(X (3) , X (n − 2) )
.Vastaavallapäättelylläkuin edelläsaadaan välin
(X (i) , X (j) )
luottamustasoP (X (i) < m < X (j) )) =
j − 1
X
k=i
n k
(1/2) k (1/2) n − k = 1 − α.
Edellä esitettyä menetelmää voidaan käyttää minkä tahansa jatkuvan
jakauman prosenttipisteen
π p luottamusvälin määrittämiseen. Medianin ta- pauksessa käytetty onnistumistodennäköisyys vain korvataan onnistumisto-
dennäköisyydellä
P (X < π p ) = p
.12.6 Yhden selittäjän lineaarinen
regressiomalli
12.6.1 Ehdollinen normaalimalli
Oletetaan, että satunnaismuuttujat
Y 1,..., Y n ovat riippumattomatja
(12.6.1)
Y i ∼ N(α + βx i , σ 2 ), 1 ≤ i ≤ n.
Havaittu aineistomuodostuu
n
:stä arvoparista(x 1 , y 1 )
, ...,(x n , y n )
.Ennus-temuuttujan
x
arvotx 1, ..., x n ajatellaan tunnetuiksi vakioiksi. Regressio-
funktioon siismuotoa
E(Y | x) = α + βx
ja kaikilla satunnaismuuttujilla
Y i on sama varianssi σ 2. Malli (12.6.1) voi-
daan myöslausua muodossa
Y i = α + βx i + ε i , 1 ≤ i ≤ n,
missä
ε 1, ..., ε n ovat riippumattomatja ε i ∼ N(0, σ 2 )
, 1 ≤ i ≤ n
.
ε i ∼ N(0, σ 2 )
,1 ≤ i ≤ n
.regressiomalli 333
Havaintojen
Y 1,...,Y n yhteisjakauman tiheysfunktio on
f (y 1 , . . . , y n | α, β, σ 2 ) =
n
Y
i=1
f 1 (y i | α, β, σ 2 )
=
n
Y
i=1
√ 1
2π σ exp
− 1
2σ 2 (y i − α − βx i ) 2
= (2πσ 2 ) − n/2 exp
− 1 2σ 2
n
X
i=1
(y i − α − βx i ) 2
.
Tästä nähdään, että uskottavuusfunktio on
L(α, β, σ 2 ) = (2πσ 2 ) − n/2 exp
− 1 2σ 2
n
X
i=1
(y i − α − βx i ) 2
ja logaritmoitu uskottavuusfunktio on
(12.6.2)
l(α, β, σ 2 ) = − n
2 log(2πσ 2 ) − 1 2σ 2
n
X
i=1
(y i − α − βx i ) 2 .
Funktiosta(12.6.2) voidaan ratkaista parametrien
α, β
jaσ 2 suurimman
uskottavuuden estimaattorit
β ˆ =
n
X
i=1
(x i − x) ¯ S xx Y i , ˆ
α = ¯ Y − β ˆ x ¯
jaˆ
σ 2 = 1 n
n
X
i=1
(Y i − α ˆ − βx ˆ i ) 2 ,
missä
x ¯
onkoevakioidenx 1 , . . . , x n ja Y ¯
on havaintojen Y 1 , . . . , Y n keskiarvo
sekä
S xx = P n
i=1 (x i − x) ¯ 2
. Estimaattoritα ˆ
jaβ ˆ
ovatharhattomia, muttaσ ˆ 2
on
σ 2:n harhainen estimaattori.Sen sijaan estimaattori
S 2 = n
n − 2 σ ˆ 2 = 1 n − 2
n
X
i=1
(Y i − α ˆ − βx ˆ i ) 2
on
σ 2 harhaton estimaattori. Jotta voidaan esittää näihin estimaattoreihin perustuvat estimointi ja testausmenettelyt, täytyy tuntea estimaattoreiden
otantajakaumat. Otantajakaumia koskevat tulokset on esitetty seuraavassa
lauseessa.
Lause 12.1 Normaalimallissa (12.6.1) estimaattoreiden
α, ˆ β ˆ
jaσ ˆ 2 otanta-
jakaumat ovat
ˆ
α ∼ N(α, σ 2 nS xx
n
X
i=1
x 2 i ), β ˆ ∼ N(β, σ 2 S xx
),
missäCov( ˆ α, β) = ˆ − σ 2 x ¯ S xx
.
Lisäksi,
( ˆ α, β) ˆ
jaS 2 ovat riippumattomat ja
(n − 2)S 2
σ 2 ∼ Khi2(n − 2).
Näiden jakaumatulosten avulla voidaan johtaa parametreilleluottamusvälit
tässä luvussa esitettyjen periaatteidenmukaisesti.
12.6.2 Yksinkertainen lineaarinen regressio
Lineaarisessa regressiossa oletetaan,että vastemuuttuja riippuulineaarisesti
selittäjistä.Malli onmuotoa
Y i = α + βx i + ε i , 1 ≤ i ≤ n,
missä
Y i on havaittava satunnaismuuttuja ja ε i on virhetermi, α
ja β
ovat
α
jaβ
ovattuntemattomia vakioitaja
x 1, ..., x n ovat tuntemattomiakoevakioita. Ole-
tamme, että E(ε i ) = 0
, joten
E(ε i ) = 0
, joten(12.6.3)
E(Y i ) = α + βx i .
Itse asiassa (12.6.3)onehdollinen odotusarvo
E(Y i | x i ) = α + βx i .
Oletetaan, että regressiofunktio on lineaarinen, mutta ei tehdä normaali-
suusoletusta kuten edellisessä alaluvussa. Pienimmän neliösumman keinolla
saadaanparametrien estimaateiksi
β ˆ =
P (x i − x)y ¯ i
P (x i − x) ¯ 2 = s xy
s 2 x = rs x s y
s 2 x = s y
s x · r ˆ
α = ¯ y − β ˆ x, ¯
missä
s xy onotoskovarianssijas 2 xsekäs 2 y ovatotosvariansseja.Voidaanosoit-
taa, että α ˆ
jaβ ˆ
ovat minimivarianssisiakaikkienα
:nja β
:nlineaaristen har-
hattomien estimaattorien joukossa. Voidaan osoittaa, että tässäkin tapauk-
s 2 y ovatotosvariansseja.Voidaanosoit-
taa, että α ˆ
jaβ ˆ
ovat minimivarianssisiakaikkienα
:nja β
:nlineaaristen har-
hattomien estimaattorien joukossa. Voidaan osoittaa, että tässäkin tapauk-
sessa estimaattorit