7 Moniuloteiset jakaumat 183
7.1 Kaksiulotteisetjakaumat . . . 183
7.1.1 Reunajakaumat ja ehdollisetjakaumat . . . 188
7.1.2 Ehdollisenodotusarvonominaisuuksia . . . 194
7.1.3 Hierarkkiset mallitja yhdistetyt jakaumat . . . 197
7.1.4 KaksiulotteinenBernoullin jakauma . . . 198
7.1.5 Satunnaismuuttujien funktion jakauma . . . 199
7.2 Satunnaismuuttujien funktion odotusarvo. . . 200
7.2.1 Momentit . . . 201
7.2.2 Satunnaisvektorin momenttifunktio . . . 202
7.3 Riippumattomatsatunnaismuuttujat . . . 203
7.3.1 Riippumattomatkokeet . . . 204
7.3.2 Samoinjakautuneet riippumattomat(SJR) satunnais- muuttujat . . . 205
7.3.3 Riippumattomiensatunnaismuuttujien funktio . . . 205
7.4 Multinomijakaumajamoniulotteinenhypergeometrinenjakau- ma . . . 206
7.5 Kahden muuttujan normaalijakauma . . . 208
7.5.1 Standardimuoto . . . 208
7.5.2 Korreloivat muuttujat . . . 209
7.6 Satunnaisvektoreiden muunnokset . . . 209
7.6.1 Yleinen kahden muuttujan normaalijakauma . . . 214
7.6.2 Studentin
t
-jakauma,F
-jakaumaja beta-jakauma . . . 216Yhteenveto . . . 219
Harjoituksia . . . 223
8 Johdanto tilastolliseen päättelyyn 227 8.1 Tilastollinenongelma . . . 227
8.2 Tilastollisetmallit. . . 230
8.3 Estimoinnista . . . 239
8.4 Uskottavuussuhde . . . 241
9 Otantajakaumat 243 9.1 Riippumattomatsatunnaismuuttujat . . . 243
9.2 Riippumattomiensatunnaismuuttujiensumman jakauma . . . 246
9.3 Normaalijakaumaanliittyvätjakaumat . . . 251
9.3.1 Summan ja neliösumman jakauma. . . 251
9.3.2
t
-jakaumajaF
-jakauma . . . . . . . . . . . . . . . . . 2529.4 Keskeinen rajaväittämä . . . 254
9.4.1 Jakaumienlikiarvotnormaalijakaumanavulla . . . 256
9.4.2 Momenttifunktion rajafunktiot . . . 257
9.5 Järjestyssuureet . . . 259
9.5.1 Maksimija minimi . . . 260
9.5.2 Järjestyssuureen
X (k) jakauma . . . . . . . . . . . . . . 261
9.6 Suppenemiskäsitteet . . . 262
Johdanto tilastolliseen päättelyyn
8.1 Tilastollinen ongelma
Tilastollisessapäättelykasitteleejohtopäätöstentekoahavainnoista,joihinsi-
sältyy epävarmuuttajasatunnasivaihtelua.Tässäprosessissa käytetään apu-
natodennäköisyyteen perustuvaatilastollistamallintamista.Eioleitsestään
selvää, että tuollaisesta aiheesta voidaan esittää mitään täsmällistä tai tie-
teellistä.Tilastotieteessäkinonomaksuttuerilaisialähestymistapojaepävar-
muuden käsittelyyn, jotkavoidaan jaotellakahteen pääkoulukuntaan: Baye-
silaiseen ja frekventistiseen. Tässä luvussa esitellään uskottavuuden (uskot-
tavuusfunktio) käsite, joka on kummankin edellä mainitun lähestymistavan
keskeinen peruskäsite.
Esimerkki 8.1(Päättely vs. päätäntä) Oletetaan, että taudin
T
totea-miseksionolemassahyvätesti.Testintilastollinenkäyttäytyminenonkuvat-
tu Taulukossa 8.1 Potilaalle tehtiin testi, jonka tulos oli
+
. Lääkäri saattaaTaulukko 8.1. Testi taudin
T
toteamiseksi. Tuloksen+/−
todennä-köisyydet.
Testin tulos
+ −
Tauti on 0.95 0.05
Eitautia 0.02 0.98
tehdä yhden seuraavista johtopäätöksistä (tainiiden negaation):
1. Potilaalla eitodennäköisesti oletautia
T
.2. Potilasta pitäisi hoitaaikäänkuinhänellä olisitauti
T
.3. Testin tulos vahvistaa hypoteesia, että potilaalla ontauti
T
.Johtopäätöstä
1
voidaan tarkastella laskemalla todennäkäisyysP (T |+)
, jostestin tulos
+
(VastaavastiP (T |−)
). Todennäköisyys riippuu siitä, miten harvinaisesta taudistaon kyse. JosP (T )
on hyvin pieni, niinmyösP (T |+)
onpieni.Johtopäätöksen
1
pätevyys riippuusiisratkaisevastitaudinT
prio-ritodennäköisyydestä
P (T )
.Lääkärilläon vaihtoehtoiset hypoteesit:A: Potilaalla ontauti
T
.B: Potilaalla eioletautia
T
.Edelläesitetytlääkärin johtopäätökset
1 − 3
voidaanmuotoillamyösseuraa-vasti:
1. Uskonhypoteesin
B
olevantosi.2. Minun pitäisitoimia ikäänkuin
A
olisitosi.3. Testitulos
+
ontodiste hypoteesinA
puolestaB
:tä vastaan.Lääkärin tekemät päätelmät ovat vastauksiakolmeenyleiseen kysymykseen:
1. Mitäminun pitäisiuskoa nyt, kun minullaontämä havainto?
2. Mitäminun pitäisitehdä nyt, kun minullaontämä havainto?
3. Miten tekemäni havainto vaikuttaa hypoteesien
A
jaB
uskottavuu- teents.vahvistaakotaiheikentääköhavaintoA
:nuskottavuutta jaB
:nsuhteen?
Tämän kurssin kannalta tyyppiä
3
oleva kysymys on keskeisin. Esimerkiksi raportoitaessa tieteellisen tutkimuksen tuloksia, pohditaan tavallisesti juurityypin
3
kysymyksiä.Esimerkki 8.2(Aspiriinitutkimus) Taulukon 8.2 tulokset ovat peräisin
tutkimuksesta, jossaselvitettiin,ehkäiseeköaspiriini aivohalvauksia jasydä-
ninfarkteja (infartus myoardii autus) (Steering Committee of the Phy-
siians'HealthStudyResearhGroup1989).Tutkimuksessa satunnaistettiin
22071
tervettähenkilöäaspiriiniryhmäänjalumeryhmään.Aspiriiniryhmään kuuluvat saivat päivittäin pienen annoksen aspiriinia ja lumeryhmään kuu-luvat vastaavasti lumetabletin. Henkilöiden terveydentilaa seurattiin keski-
määrin
5
vuotta. Asetelma on satunnaistettu kliininen koe, jossa tutkittiin aspiriininkäytönvaikutustasydäninfarktikuolleisuuteen.Tutkimukseenosal-listuneeteivät tienneet, kumpaanryhmään he kuuluivat.
Pääkysymys onsiistämä: Onkoaspiriinistahyötyä sydäninfarktinehkäi-
syssä?Aspiriiniryhmässäonvähemmän sydäninfarktejakuinlumeryhmässä,
139
vastaan239
. Mitätämä todistaa, mitä luvuista voidaan päätellä? Onkotodistusaineisto kyllin vahva, jotta voimme vastata kysymykseen? Aivohal-
vauksia oli kuitenkinenemmän aspiriiniryhmässä:
119
vastaan98
. OnkotuoTaulukko8.2.Aspiriininkäytönmahdollinenaivohalvauksiajasydä-
ninfarkteja ehkäisevävaikutus.
Ryhmä Sydänkohtaus Aivohalvaus Yhteensä
Aspiriini 139 119 11037
Lume 239 98 11034
Yhteensä 378 217 22071
eromerkitsevä?Tällaisiinkysymyksiinvastaaminenedellyttäätilastollistaeli
stokastista mallia, joka kuvaa havintojenstokastista käyttäytymistä.
Suhteellinen riski
139/11037
239/11034 = 0.58
oneräsvakiintunutkeinovertaillakahtasuhteellistaosuutta.Aspiriininhyö-
ty suhteellisena riskinä ilmaistuna on
0.58
. Jos suhteellinen riski olisi1
, setarkoittaisi, että aspiriinillaei olevaikutusta. Ykköstä selvästi pienempi ar-
vo osoittaa, että aspiriinistaon hyötyä. Onko siis
0.58
tarpeeksi paljon yk-köstä pienempi? Tässä esimerkissävoidaan olettaa binomimalli,jossa sydä-
ninfarktiin sairastuneiden lukumäärä aspiriiniryhmässä noudattaa binomi-
jakaumaa
Bin(θ A , n A )
ja lumeryhmässä binomijakaumaaBin(θ L , n L )
, missän A = 11037, n L = 11034
jatodennäköisyydetθ Asekäθ L ovattuntemattomia
parametreja. Tuntematonsuhteellinen riskion θ A /θ L ≡ θ SR.
θ A /θ L ≡ θ SR.
Olemmesiislaskeneetsuhteellisenriskinestimaatin
θ ˆ SR = 0.58
.Siiheneioleliitetty mitäänarvonluotettavuudesta kertovaa mittaa,joten seei yksin
pysty vastaamaanalkuperäiseenkysymykseen.Antaakokoeniinpaljoninfor-
maatiota,ettävoimmeestimaatin
θ ˆ SRperusteellaväittääθ SR:nolevanpaljon
pienempi kuin
1
. Ajatellaan, että olisi tehty10
kertaa laajempi koe ja olisihavaittu
1390
vastaan2390
sydänkohtausta. Silloin jälleen olisiθ ˆ SR = 0.58
,mutta intuitiivisesti tämän kokeen tulos tuntuu vakuuttavammalta. Pelkkä
estimaatin arvo ei riitä, vaan siihen pitää liittää jokin estimaatin täsmälli-
syyttäkuvaavamitta,jonkaavullavoimmearvioidaestimaatinluotettavuut-
ta. Tämä on tilastollisenpäättelynperusongelma: Miten havaintojen avulla
voidaantehdä tuntemattomia parametreja koskeviapäteviä päätelmiä?
Jos esimerkiksi todennäköisyys sairastua johonkin tautiin muuttuu jos-
sainväestössävaikkapatodennäköisyydestä
0.0001
todennäköisyyteen0.0010
,onmuutos suhteellisesti ottaen erittäinsuuri. Jonkin tavallisen tapahtuman
kohdalla yhtä suuri todennäköisyyden muutos, esimerkiksi todennäköisyy-
destä
0.2001
todennäköisyyteen0.2010
ei olemerkittävä. Samoillatodennä- köisyyksien muutoksilla lähellä ääripäitä0
ja1
on usein suurempi merkityskuin vaihtelualueen keskivaiheilla. Todennäköisyyksien suhteen avulla voi-
daan tarkastellasuhteellista muutosta.
Taulukosta 8.2 laskettu suhteellinen riski
θ SR = θ A /θ L ,
voi teoreettisestisaadaminkätahansaei-negatiivisenarvon.Todennäköisyyksienarvoilla
θ A = 0.0010
jaθ L = 0.0001
suhteellinen riski onθ SR = 0.0010/0.0001 = 10
ja ar-voilla
θ A = 0.2010
jaθ L = 0.2001
suhteellinenriskionθ SR = 0.2010/0.2001 = 1.004.
Taulukko 8.3. Sairastumistodennäköisyys aspiriiniyhmässäon
θ A ja
lumeryhmässä
θ L. Indikaattori Y = 1
, kun henkilöllä on infarkti ja
muutoin
Y = 0
, jotenP (Y = 1|
Aspiriiniryhmä) = θ A ja P (Y = 1|
Lumeryhmä) = θ L.
Y
1 0 Yhteensä
Aspiriini
θ A 1 − θ A 1.0
Lume
θ L 1 − θ L 1.0
Sairastumistodennäköisyydenestimaattiaspiriiniyhmässäon
θ ˆ A = 139/11037 = 0.012594
jalumeryhmässäθ ˆ L = 239/11034 = 0.021660
,jotenθ ˆ L = 1.719892 ˆ θ A
ja
θ ˆ L − θ ˆ A = 0.009066
.8.2 Tilastolliset mallit
Tilastotiedekehitteleemenetelmiä,joidenavullavoidaanoppiahavainnoista.
Tilastollisessa mallintamisessa havaintoja tarkastellaan satunnaiskokeen tu-
loksena, satunnaisilmiönä. Ajatelkaamme, että havainnot ovat"mustan laa-
tikon"tuottamia. Syötemuuttujien arvovektori
x = (x 1 , . . . , x p )
(selittävät muuttujat,riippumattomatmuuttuja) työnnetäänlaatikkoonja saadaantu-loksen vastemuuttujien (riippuvat muuttujat, selitettävät muuttujat) arvot
y = (y 1 , . . . , y m )
:x −→
luonto−→ y
Laatikon sisällä luontoliittää jonkin funktion avullaselittävät muuttujat ja
vasteet yhteen. Havaintojen analysoinnin tavoitteet voidaan karkeati jakaa
kahteen ryhmään:
Ennustaminen.Mallillahalutaan ennustaa, mitävastemuuttujanarvo-
ja saadaantulevaisuuden syötteillä.
Tietoriippuvuuksista.Halutaansaadaselvyyssiitä,millätavoinluonto
onliittänyt yhteen syötteet ja vastemuuttujat.
Tilastollisettulokset janäkemykset voidaantäsmällisimminilmaistama-
tematiikan keinoin, mutta yhteys havaintoihin ja tieteelliseen päättelyyn on
ominaistatilastotieteelliselleajattelutavalle.Monettilastollisettuloksetovat
syntyneet ja syntyvät vastauksena melko konkreettisiin kysymyksiin, joihin
ei aina oleolemassa yleistä eleganttia ratkaisua. Tällaisten ongelmien valta-
va määrä tekee vaikeaksi kehittää kaiken kattavaa teoriaa, vaikka toisaalta
yhteisiä yleisiä periaatteita voidaan esittää. Periaatteet voidaan kuitenkin
kiteyttää tilastollisenmallin käsitteeseen.
Parametrinen mallintaminen
Parametrisessa lahestymistavassa oletetaan mustanlaatikonsisälle jokin ha-
vaintojagereroivatodennäköisyysmalli.Havaintojenmallionesimerkiksimuo-
toa
(8.2.1) vaste
= f (
selittäjät,satunnaisvirhe, parametrit),
missä funktion
f
yleinen matemaattinen muoto oletetaan tunnetuksi. Funk- tio riippuu kuitenkin yleensä tuntemattomista parametreista, jotka on es-timoitava havainnoista. Sen jälkeen mallia voidaan käyttää riippuvuuksien
tarkasteluun taiennustamiseen.
Musta laatikkovoisi näyttää esimerkiksi seuraavalta:
x −→
lineaarinen regressio−→ y
Tässä siis ajatellaan, että lineaarinen regressiomalli kuvaa riittävän hyvin
vasteen
y
riippuvuutta selittäjistäx
. Silloin siisf
on1.
asteen polynomi(parametrien suhteen). Mallin pätevyys pyritään vahvistamaan havaintojen
avullatekemälläesimerkiksiyhteensopivuustestejäjatarkastelemallahavain-
toihin sovitetun mallin residuaaleja.
Esimerkki 8.3 Oletetaan,ettäriippumattomathavainnot
Y 1 , Y 2 , . . . , Y nnou-
dattavat normaalijakaumaa
N(µ i , σ 2 )
,missäE(Y i ) = µ i , i = 1, . . . , n
. Olete-taanlisäksi,että
E(Y i )
riippuulineaarisestiselittävästä muuttujastax
,joten(8.2.2)
µ i = α + βx i , 1 ≤ i ≤ n.
Mallivoidaan kirjoittaamyösmuodossa
Y i = µ i + V i ,
missä
V i = Y i − E(Y i )
. VirhetermiV i noudattaa normaalijakaumaaN(0, σ 2 )
.
Esimerkki 8.4 CountRumfordBaierilainenoliensimmäisiä,jokatekiläm-
pöfysiikankokeita.Vuonna1798hän tekikokeen, jossakanuunan putkikuu-
mennettiin
130 ◦ F
lämpötilaan(◦ F = ◦ C ×1.8+32).Sittenputken annettiin
jäähtyäja lämpötilamitattiintietyinväliajoin.Ulkolämpötilakokeen aikana
oli
60 ◦ F
. Newtonin jäähtymislakisanoo, ettäd f /d t = −θ(f − t 0 )
, missät 0
onulkolämpötila.Silloin putken lämpötilanhetkellä
t
pitäisi ollaf (t, θ) = 60 + 70 e − θt .
Kun mittauksiatehdään käytännössä, havainnot eivätaivan täsmällises-
ti toteuta lakia. Poikkeamat tulkitaan mittausvirheiksi. Tilastollinen malli,
jossa mittausvirheetotetaan huomioon, onmuotoa
(8.2.3)
Y = f (t, θ) + ǫ,
missä
f(t, θ) = 60 + 70 e − θt. Mittausvirhe ǫ
on satunnaismuuttuja, jonka
odotusarvoE(ǫ)
oletetaan nollaksi.
Mittausvirheetnoudattavatyleensäerittäinhyvinnormaalijakaumaa,sik-
si tilastollistapäättelyä ajatellen oletetaankin tavallisesti, että
ǫ
noudattaanormaalijakaumaa.Näillätilastollisillaoletuksillamalli(8.2.3)voidaanluon-
nehtiaseuraavasti:
Y ∼ N(60 + 70 e − θt , σ 2 ).
Varsinainen fysikaalisesti kiinnostava estimoitavaparametri on
θ
jaσ 2 koe-
järjestelyyn liittyvä virhevarianssi.
Esimerkki 8.5 Tutkitaanvirranvoimakkuuden(ampeereina)vaikutustahit-
sauksessa syntyvän hitsaussauman minimiläpimittaan (Aineisto: The Wel-
ding Institute, Abingdon, P.M.E.Altham). Virran voimakkuus (
x
) on selit-tävämuuttujajasyntyvänhitsaussauman minimiläpimitta(
y
)onselitettävä muuttuja. Kokeilaanaineistoonlineaaristaregressiomallia.Y i = α + βx i + V i , i = 1, . . . , n,
missä
x i:t ovat vakioita, E(V i ) = 0
ja V i ⊥ ⊥ V j, kun i 6= j
. Aineistossa on
i 6= j
. Aineistossa on21
havaintoa, elin = 21
. Kuviossa 8.1 on aineistoon sovitettu pienimmänneliösumman menetelmälläsuora.
Call:
lm(formula = y ~ x)
Residuals:
Min 1Q Median 3Q Max
-0.42623 -0.07282 0.01637 0.08269 0.34586
Coeffiients:
Estimate Std. Error t value Pr(>|t|)
(Interept) -9.45427 0.65526 -14.43 1.09e-11 ***
x 1.65793 0.07531 22.01 5.53e-15 ***
---
Signif. odes: 0 `***' 0.001 `**' 0.01 `*' 0.05 `.' 0.1 ` ' 1
Residual standard error: 0.2012 on 19 degrees of freedom
Multiple R-squared: 0.9623, Adjusted R-squared: 0.9603
F-statisti: 484.6 on 1 and 19 DF, p-value: 5.529e-15
Tutkittaessa tarkemmin mallin residuaaleja voidaan havaita kvadraattinen
trendi, mikäviittaasiihen, että kannattaa kokeilla kvadraattista mallia
Y i = α + βx i + γx 2 i + V i , i = 1, . . . , n.
Myös
2.
asteen termin kertoimen estimaattiˆ γ
on tilastollisesti merkitsevä ja mallin selitysaste on0.9761
. Kun lasketaan estimaattienβ ˆ
jaγ ˆ
välinenkorrelaatio, saadaanmelko tarkkaan
−1
.Mitä tästä pitäisi päätellä?8.0 8.5 9.0 9.5
3.5 4.0 4.5 5.0 5.5 6.0 6.5
Virrankulutus (amp)
Sauman minimile v e ys (mm)
Sauman minimileveyden riippuvuus virrankulutuksesta
Kuvio 8.1.Hitsauksessa käytetynvirran voimakkuudella (ampeeria)
selitetäänsyntyvän hitsaussaumanminimiläpimittaa.
Esimerkissä8.3oletettiin,ettähavainnotnoudattavatnormaalijakaumaa.
Esimerkissä 8.5 ei tällaistaoletusta tehty. Kun aineistoonsovitetaan regres-
siomallia, on valittava parametrien estimointimenetelmä. Tavanomainen lä-
hestymistapa on sovittaa pienimmän neliösumman suora aineistoon. Siinä
minimoidaanneliösumma
(8.2.4)
g (α, β) =
n
X
i=1
(y i − α − βx i ) 2
parametrien
α
jaα
suhteen. Minimi saavutetaan pienimmän neliösumman ratkaisullaˆ
α = ¯ y − β ˆ x ¯ β ˆ = S xy
S xx
,
(8.2.5)
missä
S xx = P n
i=1 (x i − x) ¯ 2
jaS xy = P n
i=1 (x i − x)(y ¯ i − y) ¯ . Matriisimuodossa lausekkeen (8.2.4) minimoivaratkaisu (8.2.5) on
(8.2.6)
α ˆ β ˆ
= ( X T X ) −1 X T y,
missä
X =
1 1 · · · 1 x 1 x 2 · · · x n
T
ja
y = y 1 y 2 · · · y n T
.
Huomattakoon,ettäpienimmänneliösummanratkaisu (8.2.5)onlineaarinen
estimaattori.Selittäjänarvota
x 1 , . . . , x novatvakioitajahavainnotY 1 , . . . , Y n
satunnaismuuttujia.Esimerkiksi
β ˆ
voidaankirjoittaaβ ˆ =
n
X
i=1
(x i − x) ¯ S xx
Y i .
Estimaattori
β ˆ
on siishavaintojenY 1 , . . . , Y n lineaarinen yhdiste
β ˆ =
n
X
i=1
b i Y i ,
missä kertoimet
b i = (x S i −¯ xx x) , 1 ≤ i ≤ n,
ovat vakioita. Sama asia näh-dään tietysti yleisemmin lausekkeesta (8.2.6), missä havaintovektori
y
ker-rotaanvakiomatriisilla
( X T X ) − 1 X T. Pienimmänneliösummanestimaattorit ovatmyös harhattomiaja ne ovatoptimaalisialineaaristenharhattomienes-
timaattoreidenjoukossa: niilläon pieninvarianssi harhattomienlineaaristen
estimaattoreiden luokassa (Gaussin ja Markovin lause). Sanomme, että sel-
lainen estimaattori onparas lineaarinen harhaton estimaattori (Best Linear
Unbiased Estimator,BLUE).
Pienimmänneliösumman(pns)estimointimenetelmässäminimoidaankva-
draattinentappiofunktio(8.2.4).On tunnettua,ettäpoikkeavillahavainnoil-
la on suuri vaikutus pns-estimaatteihin. Jos minimointikriteeriksi valitaan
absoluuttipoikkeamien summa
n
X
i=1
|y i − α − βx i |,
saadaan pienimpien absoluuttipoikkeamien estimaatit. Nämä estimaatit ei-
vät ole yhtä herkkiä poikkeavien havaintojen vaikutukselle. Sanomme, et-
tä pienimmän absoluuttipoikkeaman estimaattori on robustimpi kuin pns-
estimaattori. Robustin regression käsite perustuu lineaaristen harhattomien
estimaattoreiden luokkaa laajempaan estimaattoriluokkaan, jossa minimoi-
daan funktio
n
X
i=1
ψ(y i − α − βx i )
σ ,
missä
ψ
on tappiofunktio jaσ
on skaalaustekijä. Kunψ(x) = x 2, on ky-
seessä tavallinenpns-regressioja pienimmänabsoluuttipoikkeamanregressio
saadaan, kun
ψ(x) = |x|
. Huber (1975)esitti yleisen tappiofunktionψ c (x) =
( x 2 , |x| ≤ c 2c|x| − c 2 |x| > c.
Funktio
ψ c (x)
on siiskvadraattinenvälillä[−c, c]
ja lineaarinen tämänvälin ulkopuolella.Esimerkki 8.6 Oletetaan, että havainnot
Y 1 , Y 2 , . . . , Y n noudattavatmallia
(8.2.7) Y i = βx i + V i , 1 ≤ i ≤ n,
missä
E(Y i ) = βx i ⇔ E(V i ) = 0, Var(Y i ) = σ 2 , 1 ≤ i ≤
jaY i ⊥ ⊥ Y j , i 6=
j
. Mallissa ei ole siis vakiotermiä ja sovitesuorat kulkevat origon kautta.Parametrin
β
pienimmän neliösummanestimaattori on(8.2.8)
β ˆ =
n
X
i=1
x i
S xx
Y i ,
missä nyt
S xx = P n i=1 x 2 i .
Tarkastellaannyt estimaattorin(8.2.8) optimaalisuutta.Estimaattorion
harhaton, koska
E( ˆ β) =
n
X
i=1
x i
S xx E (Y i ) = β S xx
n
X
i=1
x i x i = β.
Olkoon
β ˜ = P n
i=1 d i Y i
jokinβ
:nlineaarinenharhatonestimaattori,missäsiisd 1 , . . . , d n ovatvakioita. Harhattomuudesta seuraa,että
E( ˜ β) =
n
X
i=1
d i E(Y i ) = (
n
X
i=1
d i x i )β = β
kaikilla
β
:narvoilla,jotenP n
i=1 d i x i = 1.Kirjoitetaankertoimetd i
muodossa
d i = g i + e i, missä g i = x i /S xx , 1 ≤ i ≤ n,
ovat pienimmän neliösumman
estimaattorin (8.2.8) kertoimet. Silloin
P n
i=1 e i x i = 0, koska β ˆ
:n ja β ˜
:n har-
hattomuuden perusteella
P n
i=1 d i x i = P n
i=1 g i x i = 1.Nyt
Var( ˜ β) =
n
X
i=1
d 2 i Var(Y i ) =
n
X
i=1
(g i + e i ) 2 σ 2
= σ 2 (
n
X
i=1
g 2 i +
n
X
i=1
e 2 i + 2
n
X
i=1
e i g i )
= σ 2 (
n
X
i=1
g 2 i +
n
X
i=1
e 2 i ),
sillä
P n
i=1 e i g i = ( P n
i=1 e i x i )/S xx = 0,koskaP n
i=1 e i x i = 0.Olipa siisβ ˜
mikä
tahansa
β
:n lineaarinen harhaton estimaattorimallissa (8.2.7),niinVar( ˆ β) ≤ Var( ˜ β).
Algoritminen mallintaminen
Algoritminen lähestymistapa on saavuttanut suosiota ja sovellusmahdolli-
suuksia tietokoneiden laskentakapasiteetin kasvun myötä. Tässä ajatteluta-
vassa mustan laatikon sisältö on monimutkainen ja tuntematon. Funktion
matemaattista suljetun muodon lauseketta ei tunneta. Sen sijaan funktio
f (x)
pyritään määrittämään algoritmisesti algoritmi laskeex
:n perusteel-la ennusteita
y
:lle.Algoritmi siis pyritään muokkaamaan sellaiseksi, että se antaa hyviä ennusteita. Musta laatikkonäyttäisitältä:x −→
tuntematon−→ y
Esimerkiksi neuroverkot kuuluvat tähän kategoriaan. Mallinpätevyyttä ar-
vioidaan ennustevirheen avulla.
Tavallisesti havaintojenvaihtelu jaetaan systemaattiseenosaan ja satun-
naisosaanjahavintoarvojenajatellaanmuodostuvannäistäkahdesta kompo-
nentista additiivisesti:
havainnot
= f (
selittävät muuttujat,parametrit) +
satunnaisosa=
systemaattinen osa+
satunnaisosa.
Esitys (8.2.1)onitse asiassavarsinyleinen, jokasalliimonimutkaisetkinvai-
kutusmekanismit.Yksinkertaistaviaoletuksiakuitenkintarvitaan,jottamal-
lit pystytään ymmärtämään ja analysoimaan. Havaintojen oletetaan olevan
peräisin jostain jakaumaperheestä, tavallisimmin ns. parametrisesta jakau-
maperheestä. Systemaattinen osa on esimerkiksi havaintojen
Y 1, Y 2, ..., Y n
Y n
odotusarvoja
E(Y i )
,1 ≤ i ≤ n
, koskeva oletus, joka lausutaan vaikkaparegressiofunktiona.Tavallisestiodotusarvoriippuujoistainselittävistämuut-
tujista (eli kovariaatista). Tilastollisen mallin voidaan sanoa olevan havain-
tojenyhteisjakaumaaja systemaattista osaa koskevien oletusten joukko.
Ehdollinen odotusarvo
Kokeellisessa tilanteessa selittäjä
x
on koevakio. Tutkija päättää, milläx
:narvoilla hän tekee havaintoja riippuvasta muuttujasta
Y
. Esimerkiksi tör- mäystestissä valitaan törmäysnopeudetx 1 , . . . , x n. Näillä selittäjän arvoil-
la mitataan vastemuuttujan (tai vastemuuttujien) arvot. Regressioanalyy-
sia käytetään kuitenkin myös ei-kokeellisessa tilanteessa, jossa tutkijaei voi
kontrolloida
x
:n arvoja. Silloin x on satunnaismuuttuja, jonka arvo havain- noidaan usein samanaikaisesti vastemuuttujankanssa. On huomattava, ettäregressiomallissa(8.2.2) tarkastellaan ehdollistaodotusarvoa
E(Y |x) = µ(x),
missä
Y
:n ehdollisen odotusarvon oletetaan olevanx
:n linearinen funktioµ(x) = α + βx
. Suoran kertoimetα
jaβ
ovat tuntemattomia parametreja, jotka estimoidaan havainnoista.Parametrinen jakaumaperhe
Tilastotieteen oppikirjoissa lähdetään tavallisesti liikkeelle melko teknises-
ti. Sanotaan, että havainnot
Y 1 , . . . , Y n ovat otos jostain tuntenmattomasta
jakaumasta F
,missä F
onsiisjakaumankertymäfunktio. Tavallisesti jakau-
masta tehdään joitain oletuksia. Tilanne voi olla esimerkiksi sellainen, että
jakauma voidaan oletettaa symmetriseksi. Tällä kurssilla käytetään useim-
miten parametrista lähestymistapaa. Silloin jakauman ajatellaan kuuluvan
johonkin parametriseen jakaumaperheeseen
F = { F (x; θ), θ ∈ Θ }
missä
F (x; θ)
onkertymäfunktio jokaisellakiinnitetylläθ
:n arvolla.Käsittelemissämmepäättelyongelmissaoperoimmetavallisestitiheysfunk-
tioiden avulla, joten jakaumaperhe on silloin suoraviivaisempaa luonnehtia
tiheysfunktioiden joukkona
F = { f (x; θ), θ ∈ Θ }.
Suure
θ
onsiisparametri jasen arvojoukkoΘ
onparametriavaruus.Valitse- mallayksiparametrinθ
arvosaadaantäysinmäärättyjakauma.Edelläolem-menähneet,että
θ
voiriippuaselittävienmuuttujiearvoista.Kunparametrinθ
arvo valitaan havaintojen perusteella, saadaanθ
:n piste-estimaatti. Para- metrin(parametrien) arvonmäärittämistä havaintojen perusteella sanotaanpiste-estimoinniksi.
Esimerkki 8.7 Tarkastellaan auto-onnettomuuksien vakavuusastetta, kun
selittäjänä on kuljettajan ikä. Usein väitetään, että nuoret kuljettajat ai-
heuttavat keskimääräistä enemmän vakavia onnettomuuksia.
Taulukko8.4.Vakavienonnettomuuksienlukumääräalueella
A
tam-mikuussavuonna2000.
Yli21-vuotiaat Alle 21-vuotiaat
Kuolemaan
johtaneet
Muut
Kuolemaan
johtaneet
Muut
Y 1 Y 2 Y 3 Y 4
11 62 4 7
Oletetaan,ettäonnettomuuksienlukumääräkuukaudessanoudattaaPois-
sonin jakaumaa
Poi(λ)
. Tarkastellaan neljää onnettomuustyyppiä, jotka on määritelty kuljettajan iän ja onnettomuuden vakavuusasteen mukaan. On-nettomuuksien lukumäärien
Y i , 1 ≤ i ≤ 4,
eri kategorioissa oletetaan nou- dattavantoisistaan riippumattaPoissoninjakaumaaPoi(λ i )
. Oheisessa tau-lukossa on annettu eräs aineisto. Silloin esimerkiksi kuolemaan johtaneiden
onnettomuuksienlukumäärä
Y 3 alle21-vuotiaidenryhmässänoudattaaPois-
sonin jakaumaa Poi(λ 3 )
. Parametrit λ 1, λ 2, λ 3 ja λ 4 ovat satunnaismuuttu-
jien Y 1, Y 2, Y 3 ja Y 4 odotusarvoja. Odotusarvo λ i kertoo onnettomuusasteen
λ 2, λ 3 ja λ 4 ovat satunnaismuuttu-
jien Y 1, Y 2, Y 3 ja Y 4 odotusarvoja. Odotusarvo λ i kertoo onnettomuusasteen
λ 4 ovat satunnaismuuttu-
jien Y 1, Y 2, Y 3 ja Y 4 odotusarvoja. Odotusarvo λ i kertoo onnettomuusasteen
Y 2, Y 3 ja Y 4 odotusarvoja. Odotusarvo λ i kertoo onnettomuusasteen
Y 4 odotusarvoja. Odotusarvo λ i kertoo onnettomuusasteen
i
.kategoriassa.Vastaavastiesimerkiksiyli21-vuotiaidenonnettomuusasteonλ 1 + λ 2 jaalle21-vuotiaidenλ 3 + λ 4.Merkitäänθ 1 = λ 1 + λ 2 jaθ L = λ 3 + λ 4.
θ 1 = λ 1 + λ 2 jaθ L = λ 3 + λ 4.
Näin todennäköisyys, että yli 21-vuotias aiheuttaa kohtalokkaan onnetto-
muuden, on
π 1 = λ 1
λ 1 + λ 2
ja alle21-vuotiaantodennäköisyys aiheuttaa kohtalokas onnettomuus on
π 2 = λ 3 λ 3 + λ 4
.
Nelikko
(θ 1 , π 1 , θ 2 , π 2 )
muodostaa uuden parametrisoinnin, joka saattaa olla tulkinnallisesti selkeämpi ja mielenkiintoisempikuin alkuperäinen.Esimerkki 8.8 Tarkastellaan nyt logistista regressiomallia, kun havainnot
noudattavatbinomijakaumaa.Tarkastellaanlentokoneidenrakennuksessakäy-
tettävienmetallinkiinnittimienpuristuskestävyyttä.Aineistoonkirjasta"Int-
rodutionto LinearRegression Analysisi"(Montgomery& Pek, 1982). Pai-
nekuormitus
x
on selittävä muuttuja, jonka arvo kasvaa 2500:sta 4300:aan200:n yksikön(psi) välein. Yksikkö psi(Pounds perSquare Inh)onpaunaa
(naulaa)/perneliötuuma)ja pauna = 425 g.Aineistossa
n =
testattavien kiinnittimienlkmannetulla kuormituksellay =
särkyvien kiinnittimienlkmannetulla kuormituksella.Oletetaan, että särkyvien kiinnittimien lukumäärät noudattavat binomija-
kaumaa
Y i ∼ Bin(n i , π i ), i = 1, . . . , 10
ja
Y i ⊥ ⊥ Y j ,
kuni 6= j
. Mallinnetaan parametrienπ i arvojen riippuvuutta
kuormituksen määristä, joitaon10
. Logistinenmallionmuotoa
log( π i 1 − π i
) = α + βx i , 1 ≤ i ≤ 10,
missä
x 1 , . . . , x 10 ovatkuormituksenmääriä.Funktiolog( 1 π i
− π i )onyleistetyis- sälineaarisissa malleissans. logit-linkki.Selitettävänä muuttujanaonsärky-
vien kiinnittimiensuhteellinen osuus
p = r/n
.Call:
glm(formula = p ~ kuorma, family = binomial, weights = n)
Deviane Residuals:
Min 1Q Median 3Q Max
-0.29475 -0.11129 0.04162 0.08847 0.35016
20 30 40 50
0.2 0.4 0.6 0.8
Kuorma
Rikk oontumistodennäk öisyydet
Logistisen regressiomallin sovitus
Kuvio 8.2. Metallinkiinnittimien rikkoontumistodennäköisyys kuor-
mituksenfunktiona.
Coeffiients:
Estimate Std. Error z value Pr(>|z|)
(Interept) -5.33971 0.54569 -9.785 <2e-16 ***
kuorma 0.15484 0.01575 9.829 <2e-16 ***
---
Signif. odes: 0 `***' 0.001 `**' 0.01 `*' 0.05 `.' 0.1 ` ' 1
(Dispersion parameter for binomial family taken to be 1)
Null deviane: 112.83207 on 9 degrees of freedom
Residual deviane: 0.37192 on 8 degrees of freedom
AIC: 49.088
Number of Fisher Soring iterations: 3
8.3 Estimoinnista
Tarkastelemme nyt satunnaismuuttujia, joiden todennäköisyysfunktion (tai
tiheysfunktion) funktionaalinen muoto tunnetaan, mutta jakauma riippuu
jostain tuntemattomasta parametrista
θ
. Parametrinθ
mahdolliset arvotkuuluvat johonkin annettuun joukkoon
Θ
, jota kutsutaan parametriavaruu- deksi.Tiedetään esimerkiksi,että jonkintuotteen elinaikaX
noudattaa eks-ponenttijakaumaa
f(x; θ) = 1
θ e −x/θ , 0 < x < ∞,
missä
θ ∈ Θ = { θ | 0 < θ < ∞ }
. ParametriavaruusΘ
on siis positiivisten reaalilukujenjoukko. HaluammevalitafunktioperheestäF = { f (x; θ), θ ∈ Θ }
yhden tiheysfunktion,jokaesittääparhaiten tuotteen elinaikaa. Valitaansiis
yksi parametrin
θ
arvo eli parametrinθ
piste-estimaatti, joka määrittää ja- kauman.Parametrinarvoarvioidaaneliestimoidaanhavaintojenperusteella.Teem-
me jakaumasta havainnon
X = x
ja estimoimme parametrinθ
arvon ha-vainnon
x
perusteella. Parametrinθ
estimoimiseen käytettävää otosfunktio- taT (X)
kutsutaan parametrinθ
estimaattoriksi ja estimaattorinT (X)
ar-voa
t = T (x)
kutsutaan parametrinθ
estimaatiksi. Estimaattori pyritään valitsemaan siten, että se antaa hyviä arvioita parametristaθ
.Esimerkki 8.9 Estimoidaan ehdokkaan
A
kannattajien suhteellinen osuusθ
eräässäsuuressa kaupungissa.Valitaankaupunginäänioikeutetuistasatun- naisestin
henkilöä,joiltatiedustellaanheidänkantaansaehdokkaastaA
. Ol-koon
X
ehdokkaanA
kannattajienlukumäärä otoksessa.Koska populaation koko onsuuriverrattuna otoskokoonn
, voidaanolettaa, ettäX ∼ Bin(n, θ)
,missä
θ
ontodennäköisyys,ettäsatunnaisestivalittuhenkilökannattaaA
:ta.Binomijakaumaanoudattavansatunnaismuuttujan
X
todennäköisyysfunktio onmuotoaf (x; n, θ) = n
x
θ x (1 − θ) n − x , x = 0, 1, . . . , n; 0 ≤ θ ≤ 1.
Binomijakauman parametriavaruus on
Θ = { θ | 0 ≤ θ ≤ 1 }
. Tehtävänäm- me on määrittääθ
:n estimaattoriT (X)
siten, että havaitun arvonX = x
perusteellasaadaanhyvä
θ
:npiste-estimaattiT (x)
.HavainnonX = x
toden-näköisyys on
(8.3.1)
P (X = x; θ) =
n x
θ x (1 − θ) n − x .
Erästapamäärittää
θ
:nestimaattiontarkastellatodennäköisyyttäP (X = x; θ)
parametrinθ
funktionaja etsiä sellainenθ
:n arvo,että havainnonx
to-dennäköisyyssaavuttaamaksiminsa.Voidaanosoittaa,ettähavainnon
X = x
todennäköisyys maksimoituu, kun
θ = x/n
. Tätä estimaattia kutsutaanθ
:nsuurimman uskottavuuden estimaatiksi ja sitämerkitään
θ ˆ = x n .
8.4 Uskottavuussuhde
Todennäköisyyden (8.3.1) lausekkeessa tekijä
n x
ei riipu parametrista
θ
.Uskottavuusfunktio onparametrin
θ
funktio ja merkitsemme(8.4.1)
L(θ) = f(x; θ),
missä
f (x; θ)
on todennäköisyysfunktio jaf (x; θ)
on siis havainnonX = x
todennäköisyys. Uskottavuussuhteen
(8.4.2)
L(θ 1 )
L(θ 2 ) = f(x; θ 1 ) f(x; θ 1 ) ,
avullavertaillaankahdenparametrinarvon
θ 1 jaθ 2 suhteellistauskottavuut-
ta, kun on havaittu X = x
. Uskottavuuspäättelyn perusta on uskottavuus-
suhde. Silloinuskottavuusfunktio
X = x
. Uskottavuuspäättelyn perusta on uskottavuus- suhde. Silloinuskottavuusfunktio(8.4.3)
L(θ) = c · f (x; θ),
antaa samat uskottavuussuhteet kuin (8.4.1), kun vakio
c
ei riipu paramet-rista
θ
. Sen sijaanc
voi riippua havainnostax
. Monesti vakioc
pyritään va-litsemaan siten, että
L(θ)
:lle saadaan yksinkertainen lauseke. Uskottavuus- funktioon perustuvatpäätelmät eivät siisriipu vakionc
valinnasta.Tavallisesti uskottavuusfunktio tulee olemaan useiden tekijöiden tulo ja
mm. siitä syystä on osoittautunut käteväksi työskennellä uskottavuusfunk-
tion logaritminavulla.Logaritmoituuskottavuusfunktio
l(θ)
onuskottavuus- funktion luonnollinen logaritmieli(8.4.4)
l(θ) = log L(θ).
Esityksestä (8.4.3)seuraa, että
l(θ) = log c + log f(x; θ),
missävakio
c
eisiisriipuθ
:sta.Jatkossakinkaikkilogaritmitovatluonnollisia logaritmeja,elleitoisin mainita.Suurimman uskottavuuden estimaatti(SUE)
θ ˆ
on se parametrinθ
arvo,jokamaksimoihavainnon
x
todennäköisyydenf (x; θ)
.Samaarvoθ ˆ
maksimoimyösfunktiot
L(θ)
jal(θ)
.Suurimmanuskottavuudenestimaattiθ ˆ
onsiisus-kottavuusfunktion ja logaritmoidunuskottavuusfunktion maksimikohta.Ta-
vallisestitarkastellaanlogaritmoituauskottavuusfunktiota,koskaseonusein
matemaattisestiyksinkertaisempi kuin uskottavuusfunktio. Logaritmoidulla
uskottavuusfunktiollaonmyösteoreettisestimerkittävätilastollinentulkinta.
Esimerkki 8.10 Tarkastellaan edelleen Esimerkkiä 8.9, jossa havaintojen
todennäköisyysfunktio on
f (x; θ) = n x
θ x (1 − θ) n − x. Kun uskottavuusfunk-
tiossa (8.4.1) valitaanvakionarvoksi c = 1 n
x
,saadaan esitysmuoto
L(θ) = θ x (1 − θ) n−x , 0 ≤ θ ≤ 1.
Tässäuskottavuusfunktionesityksessä eioleturhiavakiotekijöitä.Tätäus-
kottavuusfunktionesitysmuotoakutsutaanmyösuskottavuusfunktionytimek-
si. Esitämme uskottavuusfunktion usein tässä ydinmuodossa. Logaritmoitu
uskottavuusfunktio on
l(θ) = x log θ + (n − x) log(1 − θ), 0 < θ < 1.
Parametrin
θ
suurimman uskottavuuden estimaattion siis seθ
:n arvo, jokamaksimoifunktion
l(θ)
.Huomattakoon,ettäl(θ)
eiolemääriteltyvälin[0, 1]
päätepisteissä,mutta