X (k) jakauma . . . . . . . . . . . . . . 261

(1)

7 Moniuloteiset jakaumat 183

7.1 Kaksiulotteisetjakaumat . . . 183

7.1.1 Reunajakaumat ja ehdollisetjakaumat . . . 188

7.1.2 Ehdollisenodotusarvonominaisuuksia . . . 194

7.1.3 Hierarkkiset mallitja yhdistetyt jakaumat . . . 197

7.1.4 KaksiulotteinenBernoullin jakauma . . . 198

7.1.5 Satunnaismuuttujien funktion jakauma . . . 199

7.2 Satunnaismuuttujien funktion odotusarvo. . . 200

7.2.1 Momentit . . . 201

7.2.2 Satunnaisvektorin momenttifunktio . . . 202

7.3 Riippumattomatsatunnaismuuttujat . . . 203

7.3.1 Riippumattomatkokeet . . . 204

7.3.2 Samoinjakautuneet riippumattomat(SJR) satunnais- muuttujat . . . 205

7.3.3 Riippumattomiensatunnaismuuttujien funktio . . . 205

7.4 Multinomijakaumajamoniulotteinenhypergeometrinenjakau- ma . . . 206

7.5 Kahden muuttujan normaalijakauma . . . 208

7.5.1 Standardimuoto . . . 208

7.5.2 Korreloivat muuttujat . . . 209

7.6 Satunnaisvektoreiden muunnokset . . . 209

7.6.1 Yleinen kahden muuttujan normaalijakauma . . . 214

7.6.2 Studentin

t

^-jakauma,

F

^-jakauma^ja beta-jakauma . . . 216

Yhteenveto . . . 219

Harjoituksia . . . 223

8 Johdanto tilastolliseen päättelyyn 227 8.1 Tilastollinenongelma . . . 227

8.2 Tilastollisetmallit. . . 230

8.3 Estimoinnista . . . 239

8.4 Uskottavuussuhde . . . 241

9 Otantajakaumat 243 9.1 Riippumattomatsatunnaismuuttujat . . . 243

9.2 Riippumattomiensatunnaismuuttujiensumman jakauma . . . 246

9.3 Normaalijakaumaanliittyvätjakaumat . . . 251

9.3.1 Summan ja neliösumman jakauma. . . 251

9.3.2

t

^-jakauma^ja

F

^-jakauma ^. ^. ^. ^. ^. ^. ^. ^. ^. ^. ^. ^. ^. ^. ^. ^. ^. ²⁵²

9.4 Keskeinen rajaväittämä . . . 254

9.4.1 Jakaumienlikiarvotnormaalijakaumanavulla . . . 256

9.4.2 Momenttifunktion rajafunktiot . . . 257

9.5 Järjestyssuureet . . . 259

9.5.1 Maksimija minimi . . . 260

9.5.2 Järjestyssuureen

X (k)

^jakauma ^. ^. ^. ^. ^. ^. ^. ^. ^. ^. ^. ^. ^. ^. ²⁶¹

9.6 Suppenemiskäsitteet . . . 262

(2)

Johdanto tilastolliseen päättelyyn

8.1 Tilastollinen ongelma

Tilastollisessapäättelykasitteleejohtopäätöstentekoahavainnoista,joihinsi-

sältyy epävarmuuttajasatunnasivaihtelua.Tässäprosessissa käytetään apu-

natodennäköisyyteen perustuvaatilastollistamallintamista.Eioleitsestään

selvää, että tuollaisesta aiheesta voidaan esittää mitään täsmällistä tai tie-

teellistä.Tilastotieteessäkinonomaksuttuerilaisialähestymistapojaepävar-

muuden käsittelyyn, jotkavoidaan jaotellakahteen pääkoulukuntaan: Baye-

silaiseen ja frekventistiseen. Tässä luvussa esitellään uskottavuuden (uskot-

tavuusfunktio) käsite, joka on kummankin edellä mainitun lähestymistavan

keskeinen peruskäsite.

Esimerkki 8.1(Päättely vs. päätäntä) Oletetaan, että taudin

T

^totea-

miseksionolemassahyvätesti.Testintilastollinenkäyttäytyminenonkuvat-

tu Taulukossa 8.1 Potilaalle tehtiin testi, jonka tulos oli

+

^. ^Lääkäri ^saattaa

Taulukko 8.1. Testi taudin

T

toteamiseksi. Tuloksen

+/−

^todennä-

köisyydet.

Testin tulos

+ −

Tauti on 0.95 0.05

Eitautia 0.02 0.98

tehdä yhden seuraavista johtopäätöksistä (tainiiden negaation):

1. Potilaalla eitodennäköisesti oletautia

T

^.

2. Potilasta pitäisi hoitaaikäänkuinhänellä olisitauti

T

^.

3. Testin tulos vahvistaa hypoteesia, että potilaalla ontauti

T

^.

(3)

Johtopäätöstä

1

^voidaan ^tark^astella ^laskemalla todennäkäisyys

P (T |+)

^, ^jos

testin tulos

+

^(V^astaavasti

P (T |−)

^). ^Todennäköisyys riippuu siitä, miten harvinaisesta taudistaon kyse. Jos

P (T )

^on ^hyvin ^pieni, ⁿⁱⁱⁿ^myös

P (T |+)

onpieni.Johtopäätöksen

1

^pätevyys ^riippuu^siisratkaisevastitaudin

T

^prio-

ritodennäköisyydestä

P (T )

^.^{Lääkärillä}^on vaihtoehtoiset hypoteesit:

A: Potilaalla ontauti

T

^.

B: Potilaalla eioletautia

T

^.

Edelläesitetytlääkärin johtopäätökset

1 − 3

^voidaan^muotoilla^myös^seuraa-

vasti:

1. Uskonhypoteesin

B

^olevan^tosi.

2. Minun pitäisitoimia ikäänkuin

A

^olisi^tosi.

3. Testitulos

+

^on^todiste ^hypoteesin

A

^puolesta

B

^:tä ^vastaan.

Lääkärin tekemät päätelmät ovat vastauksiakolmeenyleiseen kysymykseen:

1. Mitäminun pitäisiuskoa nyt, kun minullaontämä havainto?

2. Mitäminun pitäisitehdä nyt, kun minullaontämä havainto?

3. Miten tekemäni havainto vaikuttaa hypoteesien

A

^ja

B

uskottavuu- teents.vahvistaakotaiheikentääköhavainto

A

^:nuskottavuutta ja

B

^:n

suhteen?

Tämän kurssin kannalta tyyppiä

3

^oleva ^kysymys ^on ^keskeisin. Esimerkiksi raportoitaessa tieteellisen tutkimuksen tuloksia, pohditaan tavallisesti juuri

tyypin

3

kysymyksiä.

Esimerkki 8.2(Aspiriinitutkimus) Taulukon 8.2 tulokset ovat peräisin

tutkimuksesta, jossaselvitettiin,ehkäiseeköaspiriini aivohalvauksia jasydä-

ninfarkteja (infartus myoardii autus) (Steering Committee of the Phy-

siians'HealthStudyResearhGroup1989).Tutkimuksessa satunnaistettiin

22071

^tervettä^henkilöäaspiriiniryhmäänjalumeryhmään.Aspiriiniryhmään kuuluvat saivat päivittäin pienen annoksen aspiriinia ja lumeryhmään kuu-

luvat vastaavasti lumetabletin. Henkilöiden terveydentilaa seurattiin keski-

määrin

5

^vuotta. ^Asetelma ^on satunnaistettu kliininen koe, jossa tutkittiin aspiriininkäytönvaikutustasydäninfarktikuolleisuuteen.Tutkimukseenosal-

listuneeteivät tienneet, kumpaanryhmään he kuuluivat.

Pääkysymys onsiistämä: Onkoaspiriinistahyötyä sydäninfarktinehkäi-

syssä?Aspiriiniryhmässäonvähemmän sydäninfarktejakuinlumeryhmässä,

139

^vastaan

239

^. ^Mitä^tämä ^todistaa, ^mitä ^luvuista ^voidaan ^päätellä? ^Onko

todistusaineisto kyllin vahva, jotta voimme vastata kysymykseen? Aivohal-

vauksia oli kuitenkinenemmän aspiriiniryhmässä:

119

^vastaan

98

^. ^Onko^tuo

(4)

Taulukko8.2.Aspiriininkäytönmahdollinenaivohalvauksiajasydä-

ninfarkteja ehkäisevävaikutus.

Ryhmä Sydänkohtaus Aivohalvaus Yhteensä

Aspiriini 139 119 11037

Lume 239 98 11034

Yhteensä 378 217 22071

eromerkitsevä?Tällaisiinkysymyksiinvastaaminenedellyttäätilastollistaeli

stokastista mallia, joka kuvaa havintojenstokastista käyttäytymistä.

Suhteellinen riski

139/11037

239/11034 = 0.58

oneräsvakiintunutkeinovertaillakahtasuhteellistaosuutta.Aspiriininhyö-

ty suhteellisena riskinä ilmaistuna on

0.58

^. ^Jos suhteellinen riski olisi

1

^, ^se

tarkoittaisi, että aspiriinillaei olevaikutusta. Ykköstä selvästi pienempi ar-

vo osoittaa, että aspiriinistaon hyötyä. Onko siis

0.58

^tarpeeksi ^paljon ^yk-

köstä pienempi? Tässä esimerkissävoidaan olettaa binomimalli,jossa sydä-

ninfarktiin sairastuneiden lukumäärä aspiriiniryhmässä noudattaa binomi-

jakaumaa

Bin(θ A , n A )

^ja lumeryhmässä binomijakaumaa

Bin(θ L , n L )

^, ^missä

n A = 11037, n L = 11034

^jatodennäköisyydet

θ A

^sekä

θ L

^ovattuntemattomia parametreja. Tuntematonsuhteellinen riskion

θ _A /θ _L ≡ θ _SR

^.

Olemmesiislaskeneetsuhteellisenriskinestimaatin

θ ˆ SR = 0.58

^.^Siihen^ei

oleliitetty mitäänarvonluotettavuudesta kertovaa mittaa,joten seei yksin

pysty vastaamaanalkuperäiseenkysymykseen.Antaakokoeniinpaljoninfor-

maatiota,ettävoimmeestimaatin

θ ˆ SR

perusteellaväittää

θ SR

^:n^olevan^paljon

pienempi kuin

1

^. Ajatellaan, että olisi tehty

10

^kertaa ^laajempi ^koe ^ja ^olisi

havaittu

1390

^vastaan

2390

sydänkohtausta. Silloin jälleen olisi

θ ˆ SR = 0.58

^,

mutta intuitiivisesti tämän kokeen tulos tuntuu vakuuttavammalta. Pelkkä

estimaatin arvo ei riitä, vaan siihen pitää liittää jokin estimaatin täsmälli-

syyttäkuvaavamitta,jonkaavullavoimmearvioidaestimaatinluotettavuut-

ta. Tämä on tilastollisenpäättelynperusongelma: Miten havaintojen avulla

voidaantehdä tuntemattomia parametreja koskeviapäteviä päätelmiä?

Jos esimerkiksi todennäköisyys sairastua johonkin tautiin muuttuu jos-

sainväestössävaikkapatodennäköisyydestä

0.0001

todennäköisyyteen

0.0010

^,

onmuutos suhteellisesti ottaen erittäinsuuri. Jonkin tavallisen tapahtuman

kohdalla yhtä suuri todennäköisyyden muutos, esimerkiksi todennäköisyy-

destä

0.2001

todennäköisyyteen

0.2010

^ei ^olemerkittävä. Samoillatodennä- köisyyksien muutoksilla lähellä ääripäitä

0

^ja

1

^on ^usein ^suurempi ^merkitys

kuin vaihtelualueen keskivaiheilla. Todennäköisyyksien suhteen avulla voi-

daan tarkastellasuhteellista muutosta.

Taulukosta 8.2 laskettu suhteellinen riski

θ SR = θ A /θ L ,

^voi teoreettisesti

(5)

saadaminkätahansaei-negatiivisenarvon.Todennäköisyyksienarvoilla

θ A = 0.0010

^ja

θ L = 0.0001

suhteellinen riski on

θ SR = 0.0010/0.0001 = 10

^ja ^ar-

voilla

θ A = 0.2010

^ja

θ L = 0.2001

suhteellinenriskion

θ SR = 0.2010/0.2001 = 1.004.

Taulukko 8.3. Sairastumistodennäköisyys aspiriiniyhmässäon

θ _A

^ja

lumeryhmässä

θ L

^. Indikaattori

Y = 1

^, ^kun ^henkilöllä ^on ^infarkti ^ja

muutoin

Y = 0

^, ^joten

P (Y = 1|

Aspiriiniryhmä

) = θ _A

^ja

P (Y = 1|

^Lumeryhmä

) = θ _L

^.

Y

1 0 Yhteensä

Aspiriini

θ A 1 − θ A 1.0

Lume

θ L 1 − θ L 1.0

Sairastumistodennäköisyydenestimaattiaspiriiniyhmässäon

θ ˆ A = 139/11037 = 0.012594

^jalumeryhmässä

θ ˆ L = 239/11034 = 0.021660

^,^joten

θ ˆ L = 1.719892 ˆ θ A

ja

θ ˆ L − θ ˆ A = 0.009066

^.

8.2 Tilastolliset mallit

Tilastotiedekehitteleemenetelmiä,joidenavullavoidaanoppiahavainnoista.

Tilastollisessa mallintamisessa havaintoja tarkastellaan satunnaiskokeen tu-

loksena, satunnaisilmiönä. Ajatelkaamme, että havainnot ovat"mustan laa-

tikon"tuottamia. Syötemuuttujien arvovektori

x = (x 1 , . . . , x p )

(selittävät muuttujat,riippumattomatmuuttuja) työnnetäänlaatikkoonja saadaantu-

loksen vastemuuttujien (riippuvat muuttujat, selitettävät muuttujat) arvot

y = (y 1 , . . . , y m )

^:

x −→

^luonto

−→ y

Laatikon sisällä luontoliittää jonkin funktion avullaselittävät muuttujat ja

vasteet yhteen. Havaintojen analysoinnin tavoitteet voidaan karkeati jakaa

kahteen ryhmään:

Ennustaminen.Mallillahalutaan ennustaa, mitävastemuuttujanarvo-

ja saadaantulevaisuuden syötteillä.

Tietoriippuvuuksista.Halutaansaadaselvyyssiitä,millätavoinluonto

onliittänyt yhteen syötteet ja vastemuuttujat.

Tilastollisettulokset janäkemykset voidaantäsmällisimminilmaistama-

tematiikan keinoin, mutta yhteys havaintoihin ja tieteelliseen päättelyyn on

ominaistatilastotieteelliselleajattelutavalle.Monettilastollisettuloksetovat

syntyneet ja syntyvät vastauksena melko konkreettisiin kysymyksiin, joihin

ei aina oleolemassa yleistä eleganttia ratkaisua. Tällaisten ongelmien valta-

va määrä tekee vaikeaksi kehittää kaiken kattavaa teoriaa, vaikka toisaalta

yhteisiä yleisiä periaatteita voidaan esittää. Periaatteet voidaan kuitenkin

kiteyttää tilastollisenmallin käsitteeseen.

(6)

Parametrinen mallintaminen

Parametrisessa lahestymistavassa oletetaan mustanlaatikonsisälle jokin ha-

vaintojagereroivatodennäköisyysmalli.Havaintojenmallionesimerkiksimuo-

toa

(8.2.1) vaste

= f (

selittäjät,satunnaisvirhe, parametrit

),

missä funktion

f

^yleinen matemaattinen muoto oletetaan tunnetuksi. Funk- tio riippuu kuitenkin yleensä tuntemattomista parametreista, jotka on es-

timoitava havainnoista. Sen jälkeen mallia voidaan käyttää riippuvuuksien

tarkasteluun taiennustamiseen.

Musta laatikkovoisi näyttää esimerkiksi seuraavalta:

x −→

lineaarinen regressio

−→ y

Tässä siis ajatellaan, että lineaarinen regressiomalli kuvaa riittävän hyvin

vasteen

y

riippuvuutta selittäjistä

x

^. ^Silloin ^siis

f

^on

1.

^asteen ^polynomi

(parametrien suhteen). Mallin pätevyys pyritään vahvistamaan havaintojen

avullatekemälläesimerkiksiyhteensopivuustestejäjatarkastelemallahavain-

toihin sovitetun mallin residuaaleja.

Esimerkki 8.3 Oletetaan,ettäriippumattomathavainnot

Y 1 , Y 2 , . . . , Y n

^nou-

dattavat normaalijakaumaa

N(µ i , σ ² )

^,missä

E(Y i ) = µ i , i = 1, . . . , n

^. ^Olete-

taanlisäksi,että

E(Y i )

^riippuulineaarisestiselittävästä muuttujasta

x

^,^joten

(8.2.2)

µ i = α + βx i , 1 ≤ i ≤ n.

Mallivoidaan kirjoittaamyösmuodossa

Y _i = µ _i + V _i ,

missä

V i = Y i − E(Y i )

^. ^Virhetermi

V i

^noudattaa normaalijakaumaa

N(0, σ ² )

^.

Esimerkki 8.4 CountRumfordBaierilainenoliensimmäisiä,jokatekiläm-

pöfysiikankokeita.Vuonna1798hän tekikokeen, jossakanuunan putkikuu-

mennettiin

130 ^◦ F

lämpötilaan(

◦ F = ^◦ C ×1.8+32

^).^Sitten^putken ^annettiin

jäähtyäja lämpötilamitattiintietyinväliajoin.Ulkolämpötilakokeen aikana

oli

60 ^◦ F

^. ^Newtonin jäähtymislakisanoo, että

d f /d t = −θ(f − t 0 )

^, ^missä

t 0

onulkolämpötila.Silloin putken lämpötilanhetkellä

t

^pitäisi ^olla

f (t, θ) = 60 + 70 e ⁻ ^θt .

Kun mittauksiatehdään käytännössä, havainnot eivätaivan täsmällises-

ti toteuta lakia. Poikkeamat tulkitaan mittausvirheiksi. Tilastollinen malli,

jossa mittausvirheetotetaan huomioon, onmuotoa

(8.2.3)

Y = f (t, θ) + ǫ,

(7)

missä

f(t, θ) = 60 + 70 e ⁻ ^θt

^. Mittausvirhe

ǫ

^on satunnaismuuttuja, jonka odotusarvo

E(ǫ)

^oletetaan ^nollaksi.

Mittausvirheetnoudattavatyleensäerittäinhyvinnormaalijakaumaa,sik-

si tilastollistapäättelyä ajatellen oletetaankin tavallisesti, että

ǫ

^noudattaa

normaalijakaumaa.Näillätilastollisillaoletuksillamalli(8.2.3)voidaanluon-

nehtiaseuraavasti:

Y ∼ N(60 + 70 e ⁻ ^θt , σ ² ).

Varsinainen fysikaalisesti kiinnostava estimoitavaparametri on

θ

^ja

σ ²

^koe-

järjestelyyn liittyvä virhevarianssi.

Esimerkki 8.5 Tutkitaanvirranvoimakkuuden(ampeereina)vaikutustahit-

sauksessa syntyvän hitsaussauman minimiläpimittaan (Aineisto: The Wel-

ding Institute, Abingdon, P.M.E.Altham). Virran voimakkuus (

x

⁾ ^on ^selit-

tävämuuttujajasyntyvänhitsaussauman minimiläpimitta(

y

⁾^onselitettävä muuttuja. Kokeilaanaineistoonlineaaristaregressiomallia.

Y i = α + βx i + V i , i = 1, . . . , n,

missä

x i

^:t ^ovat ^vakioita,

E(V i ) = 0

^ja

V i ⊥ ⊥ V j

^, ^kun

i 6= j

^. Aineistossa on

21

^havaintoa, ^eli

n = 21

^. ^Kuviossa ^8.1 ^on ^aineistoon ^sovitettu ^pienimmän

neliösumman menetelmälläsuora.

Call:

lm(formula = y ~ x)

Residuals:

Min 1Q Median 3Q Max

-0.42623 -0.07282 0.01637 0.08269 0.34586

Coeffiients:

Estimate Std. Error t value Pr(>|t|)

(Interept) -9.45427 0.65526 -14.43 1.09e-11 ***

x 1.65793 0.07531 22.01 5.53e-15 ***

---

Signif. odes: 0 `***' 0.001 `**' 0.01 `*' 0.05 `.' 0.1 ` ' 1

Residual standard error: 0.2012 on 19 degrees of freedom

Multiple R-squared: 0.9623, Adjusted R-squared: 0.9603

F-statisti: 484.6 on 1 and 19 DF, p-value: 5.529e-15

Tutkittaessa tarkemmin mallin residuaaleja voidaan havaita kvadraattinen

trendi, mikäviittaasiihen, että kannattaa kokeilla kvadraattista mallia

Y i = α + βx i + γx ² _i + V i , i = 1, . . . , n.

Myös

2.

^asteen ^termin ^kertoimen ^estimaatti

ˆ γ

^on tilastollisesti merkitsevä ja mallin selitysaste on

0.9761

^. ^Kun ^lasketaan estimaattien

β ˆ

^ja

γ ˆ

^välinen

korrelaatio, saadaanmelko tarkkaan

−1

^.^Mitä ^tästä ^pitäisi ^päätellä?

(8)

8.0 8.5 9.0 9.5

3.5 4.0 4.5 5.0 5.5 6.0 6.5

Virrankulutus (amp)

Sauman minimile v e ys (mm)

Sauman minimileveyden riippuvuus virrankulutuksesta

Kuvio 8.1.Hitsauksessa käytetynvirran voimakkuudella (ampeeria)

selitetäänsyntyvän hitsaussaumanminimiläpimittaa.

Esimerkissä8.3oletettiin,ettähavainnotnoudattavatnormaalijakaumaa.

Esimerkissä 8.5 ei tällaistaoletusta tehty. Kun aineistoonsovitetaan regres-

siomallia, on valittava parametrien estimointimenetelmä. Tavanomainen lä-

hestymistapa on sovittaa pienimmän neliösumman suora aineistoon. Siinä

minimoidaanneliösumma

(8.2.4)

g (α, β) =

n

X

i=1

(y i − α − βx i ) ²

parametrien

α

^ja

α

^suhteen. ^Minimi saavutetaan pienimmän neliösumman ratkaisulla

ˆ

α = ¯ y − β ˆ x ¯ β ˆ = S xy

S xx

,

(8.2.5)

missä

S xx = P n

i=1 (x i − x) ¯ ²

^ja

S xy = P n

i=1 (x i − x)(y ¯ i − y) ¯

^. Matriisimuodossa lausekkeen (8.2.4) minimoivaratkaisu (8.2.5) on

(8.2.6)

α ˆ β ˆ

= ( X ^T X ) ⁻¹ X ^T y,

missä

X =

1 1 · · · 1 x 1 x 2 · · · x n

T

ja

y = y 1 y 2 · · · y n T

.

(9)

Huomattakoon,ettäpienimmänneliösummanratkaisu (8.2.5)onlineaarinen

estimaattori.Selittäjänarvota

x 1 , . . . , x n

^ovat^vakioita^ja^havainnot

Y 1 , . . . , Y n

satunnaismuuttujia.Esimerkiksi

β ˆ

^voidaan^kirjoittaa

β ˆ =

n

X

i=1

(x i − x) ¯ S xx

Y i .

Estimaattori

β ˆ

^on ^siishavaintojen

Y 1 , . . . , Y n

lineaarinen yhdiste

β ˆ =

n

X

i=1

b i Y i ,

missä kertoimet

b i = ^(x _S ⁱ ^−¯ _xx ^x) , 1 ≤ i ≤ n,

^ovat ^vakioita. ^Sama ^asia ^näh-

dään tietysti yleisemmin lausekkeesta (8.2.6), missä havaintovektori

y

^ker-

rotaanvakiomatriisilla

( X ^T X ) ⁻ ¹ X ^T

^. ^Pienimmänneliösummanestimaattorit ovatmyös harhattomiaja ne ovatoptimaalisialineaaristenharhattomienes-

timaattoreidenjoukossa: niilläon pieninvarianssi harhattomienlineaaristen

estimaattoreiden luokassa (Gaussin ja Markovin lause). Sanomme, että sel-

lainen estimaattori onparas lineaarinen harhaton estimaattori (Best Linear

Unbiased Estimator,BLUE).

Pienimmänneliösumman(pns)estimointimenetelmässäminimoidaankva-

draattinentappiofunktio(8.2.4).On tunnettua,ettäpoikkeavillahavainnoil-

la on suuri vaikutus pns-estimaatteihin. Jos minimointikriteeriksi valitaan

absoluuttipoikkeamien summa

n

X

i=1

|y i − α − βx i |,

saadaan pienimpien absoluuttipoikkeamien estimaatit. Nämä estimaatit ei-

vät ole yhtä herkkiä poikkeavien havaintojen vaikutukselle. Sanomme, et-

tä pienimmän absoluuttipoikkeaman estimaattori on robustimpi kuin pns-

estimaattori. Robustin regression käsite perustuu lineaaristen harhattomien

estimaattoreiden luokkaa laajempaan estimaattoriluokkaan, jossa minimoi-

daan funktio

n

X

i=1

ψ(y i − α − βx i )

σ ,

missä

ψ

^on tappiofunktio ja

σ

^on skaalaustekijä. Kun

ψ(x) = x ²

^, ^on ^ky-

seessä tavallinenpns-regressioja pienimmänabsoluuttipoikkeamanregressio

saadaan, kun

ψ(x) = |x|

^. ^Huber ⁽¹⁹⁷⁵⁾^esitti ^yleisen tappiofunktion

ψ c (x) =

( x ² , |x| ≤ c 2c|x| − c ² |x| > c.

Funktio

ψ c (x)

^on ^siiskvadraattinenvälillä

[−c, c]

^ja lineaarinen tämänvälin ulkopuolella.

(10)

Esimerkki 8.6 Oletetaan, että havainnot

Y 1 , Y 2 , . . . , Y n

noudattavatmallia (8.2.7)

Y i = βx i + V i , 1 ≤ i ≤ n,

missä

E(Y i ) = βx i ⇔ E(V i ) = 0, Var(Y i ) = σ ² , 1 ≤ i ≤

^ja

Y i ⊥ ⊥ Y j , i 6=

j

^. ^Mallissa ^ei ^ole ^siis vakiotermiä ja sovitesuorat kulkevat origon kautta.

Parametrin

β

^pienimmän neliösummanestimaattori on

(8.2.8)

β ˆ =

n

X

i=1

x i

S xx

Y i ,

missä nyt

S xx = P n i=1 x ² _i .

Tarkastellaannyt estimaattorin(8.2.8) optimaalisuutta.Estimaattorion

harhaton, koska

E( ˆ β) =

n

X

i=1

x i

S _xx E (Y i ) = β S _xx

n

X

i=1

x i x i = β.

Olkoon

β ˜ = P n

i=1 d i Y i

^jokin

β

^:nlineaarinenharhatonestimaattori,missäsiis

d 1 , . . . , d n

^ovat^vakioita. Harhattomuudesta seuraa,että

E( ˜ β) =

n

X

i=1

d i E(Y i ) = (

n

X

i=1

d i x i )β = β

kaikilla

β

^:n^arvoilla,^joten

P n

i=1 d i x i = 1

^.Kirjoitetaankertoimet

d i

^muodossa

d _i = g _i + e _i

^, ^missä

g _i = x _i /S _xx , 1 ≤ i ≤ n,

^ovat ^pienimmän neliösumman estimaattorin (8.2.8) kertoimet. Silloin

P n

i=1 e i x i = 0

^, ^koska

β ˆ

^:n ^ja

β ˜

^:n ^har-

hattomuuden perusteella

P n

i=1 d i x i = P n

i=1 g i x i = 1

^.^Nyt

Var( ˜ β) =

n

X

i=1

d ² _i Var(Y i ) =

n

X

i=1

(g i + e i ) ² σ ²

= σ ² (

n

X

i=1

g ² _i +

n

X

i=1

e ² _i + 2

n

X

i=1

e i g i )

= σ ² (

n

X

i=1

g ² _i +

n

X

i=1

e ² _i ),

sillä

P n

i=1 e i g i = ( P n

i=1 e i x i )/S xx = 0,

^koska

P n

i=1 e i x i = 0

^.^Olipa ^siis

β ˜

^mikä

tahansa

β

^:n lineaarinen harhaton estimaattorimallissa (8.2.7),niin

Var( ˆ β) ≤ Var( ˜ β).

(11)

Algoritminen mallintaminen

Algoritminen lähestymistapa on saavuttanut suosiota ja sovellusmahdolli-

suuksia tietokoneiden laskentakapasiteetin kasvun myötä. Tässä ajatteluta-

vassa mustan laatikon sisältö on monimutkainen ja tuntematon. Funktion

matemaattista suljetun muodon lauseketta ei tunneta. Sen sijaan funktio

f (x)

^pyritään määrittämään algoritmisesti algoritmi laskee

x

^:n ^perusteel-

la ennusteita

y

^:lle.^Algoritmi ^siis ^pyritään muokkaamaan sellaiseksi, että se antaa hyviä ennusteita. Musta laatikkonäyttäisitältä:

x −→

^tuntematon

−→ y

Esimerkiksi neuroverkot kuuluvat tähän kategoriaan. Mallinpätevyyttä ar-

vioidaan ennustevirheen avulla.

Tavallisesti havaintojenvaihtelu jaetaan systemaattiseenosaan ja satun-

naisosaanjahavintoarvojenajatellaanmuodostuvannäistäkahdesta kompo-

nentista additiivisesti:

havainnot

= f (

^selittävät ^muuttujat,^parametrit

) +

satunnaisosa

=

systemaattinen osa

+

satunnaisosa

.

Esitys (8.2.1)onitse asiassavarsinyleinen, jokasalliimonimutkaisetkinvai-

kutusmekanismit.Yksinkertaistaviaoletuksiakuitenkintarvitaan,jottamal-

lit pystytään ymmärtämään ja analysoimaan. Havaintojen oletetaan olevan

peräisin jostain jakaumaperheestä, tavallisimmin ns. parametrisesta jakau-

maperheestä. Systemaattinen osa on esimerkiksi havaintojen

Y 1

^,

Y 2

^, ^.^.^.^,

Y n

odotusarvoja

E(Y i )

^,

1 ≤ i ≤ n

^, ^koskeva ^oletus, ^joka ^lausutaan ^vaikkapa

regressiofunktiona.Tavallisestiodotusarvoriippuujoistainselittävistämuut-

tujista (eli kovariaatista). Tilastollisen mallin voidaan sanoa olevan havain-

tojenyhteisjakaumaaja systemaattista osaa koskevien oletusten joukko.

Ehdollinen odotusarvo

Kokeellisessa tilanteessa selittäjä

x

^on ^koevakio. ^T^utkija ^päättää, ^millä

x

^:n

arvoilla hän tekee havaintoja riippuvasta muuttujasta

Y

^. Esimerkiksi tör- mäystestissä valitaan törmäysnopeudet

x 1 , . . . , x n

^. ^Näillä ^selittäjän ^arvoil-

la mitataan vastemuuttujan (tai vastemuuttujien) arvot. Regressioanalyy-

sia käytetään kuitenkin myös ei-kokeellisessa tilanteessa, jossa tutkijaei voi

kontrolloida

x

^:n ^arvoja. ^Silloin ^x ^on satunnaismuuttuja, jonka arvo havain- noidaan usein samanaikaisesti vastemuuttujankanssa. On huomattava, että

regressiomallissa(8.2.2) tarkastellaan ehdollistaodotusarvoa

E(Y |x) = µ(x),

missä

Y

^:n ^ehdollisen odotusarvon oletetaan olevan

x

^:n ^linearinen ^funktio

µ(x) = α + βx

^. ^Suoran ^kertoimet

α

^ja

β

^ovat tuntemattomia parametreja, jotka estimoidaan havainnoista.

(12)

Parametrinen jakaumaperhe

Tilastotieteen oppikirjoissa lähdetään tavallisesti liikkeelle melko teknises-

ti. Sanotaan, että havainnot

Y 1 , . . . , Y n

^ovat ^otos ^jostain tuntenmattomasta jakaumasta

F

^,^missä

F

^on^siis^jakaumankertymäfunktio. Tavallisesti jakaumasta tehdään joitain oletuksia. Tilanne voi olla esimerkiksi sellainen, että

jakauma voidaan oletettaa symmetriseksi. Tällä kurssilla käytetään useim-

miten parametrista lähestymistapaa. Silloin jakauman ajatellaan kuuluvan

johonkin parametriseen jakaumaperheeseen

F = { F (x; θ), θ ∈ Θ }

missä

F (x; θ)

^onkertymäfunktio jokaisellakiinnitetyllä

θ

^:n ^arvolla.

Käsittelemissämmepäättelyongelmissaoperoimmetavallisestitiheysfunk-

tioiden avulla, joten jakaumaperhe on silloin suoraviivaisempaa luonnehtia

tiheysfunktioiden joukkona

F = { f (x; θ), θ ∈ Θ }.

Suure

θ

^on^siis^parametri ^ja^sen ^arvojoukko

Θ

^onparametriavaruus.Valitse- mallayksiparametrin

θ

ârvo^saadaan^täysin^määrätty^jakauma.Êdelläôlem-

menähneet,että

θ

^voi^riippuaselittävienmuuttujiearvoista.Kunparametrin

θ

^arvo ^valitaan havaintojen perusteella, saadaan

θ

^:n piste-estimaatti. Para- metrin(parametrien) arvonmäärittämistä havaintojen perusteella sanotaan

piste-estimoinniksi.

Esimerkki 8.7 Tarkastellaan auto-onnettomuuksien vakavuusastetta, kun

selittäjänä on kuljettajan ikä. Usein väitetään, että nuoret kuljettajat ai-

heuttavat keskimääräistä enemmän vakavia onnettomuuksia.

Taulukko8.4.Vakavienonnettomuuksienlukumääräalueella

A

^tam-

mikuussavuonna2000.

Yli21-vuotiaat Alle 21-vuotiaat

Kuolemaan

johtaneet

Muut

Kuolemaan

johtaneet

Muut

Y ₁ Y ₂ Y ₃ Y ₄

11 62 4 7

Oletetaan,ettäonnettomuuksienlukumääräkuukaudessanoudattaaPois-

sonin jakaumaa

Poi(λ)

^. ^Tarkastellaan neljää onnettomuustyyppiä, jotka on määritelty kuljettajan iän ja onnettomuuden vakavuusasteen mukaan. On-

nettomuuksien lukumäärien

Y _i , 1 ≤ i ≤ 4,

^eri kategorioissa oletetaan nou- dattavantoisistaan riippumattaPoissoninjakaumaa

Poi(λ i )

^. ^Oheisessa ^tau-

lukossa on annettu eräs aineisto. Silloin esimerkiksi kuolemaan johtaneiden

(13)

onnettomuuksienlukumäärä

Y 3

^alle21-vuotiaidenryhmässänoudattaaPois- sonin jakaumaa

Poi(λ 3 )

^. ^Parametrit

λ 1

^,

λ 2

^,

λ 3

^ja

λ 4

^ovat satunnaismuuttujien

Y 1

^,

Y 2

^,

Y 3

^ja

Y 4

odotusarvoja. Odotusarvo

λ i

^kertoo onnettomuusasteen

i

^.kategoriassa.Vastaavastiesimerkiksiyli21-vuotiaidenonnettomuusasteon

λ 1 + λ 2

^ja^alle21-vuotiaiden

λ 3 + λ 4

^.^Merkitään

θ 1 = λ 1 + λ 2

^ja

θ L = λ 3 + λ 4

^.

Näin todennäköisyys, että yli 21-vuotias aiheuttaa kohtalokkaan onnetto-

muuden, on

π 1 = λ 1

λ 1 + λ 2

ja alle21-vuotiaantodennäköisyys aiheuttaa kohtalokas onnettomuus on

π ₂ = λ ₃ λ 3 + λ 4

.

Nelikko

(θ 1 , π 1 , θ 2 , π 2 )

^muodostaa ^uuden parametrisoinnin, joka saattaa olla tulkinnallisesti selkeämpi ja mielenkiintoisempikuin alkuperäinen.

Esimerkki 8.8 Tarkastellaan nyt logistista regressiomallia, kun havainnot

noudattavatbinomijakaumaa.Tarkastellaanlentokoneidenrakennuksessakäy-

tettävienmetallinkiinnittimienpuristuskestävyyttä.Aineistoonkirjasta"Int-

rodutionto LinearRegression Analysisi"(Montgomery& Pek, 1982). Pai-

nekuormitus

x

^on ^selittävä ^muuttuja, ^jonka ^arvo ^kasvaa ^2500:sta ^4300:aan

200:n yksikön(psi) välein. Yksikkö psi(Pounds perSquare Inh)onpaunaa

(naulaa)/perneliötuuma)ja pauna = 425 g.Aineistossa

n =

testattavien kiinnittimienlkmannetulla kuormituksella

y =

^särkyvien kiinnittimienlkmannetulla kuormituksella.

Oletetaan, että särkyvien kiinnittimien lukumäärät noudattavat binomija-

kaumaa

Y i ∼ Bin(n i , π i ), i = 1, . . . , 10

ja

Y i ⊥ ⊥ Y j ,

^kun

i 6= j

^. Mallinnetaan parametrien

π i

^arvojen riippuvuutta kuormituksen määristä, joitaon

10

^. ^Logistinen^malli^on^muotoa

log( π _i 1 − π i

) = α + βx _i , 1 ≤ i ≤ 10,

missä

x 1 , . . . , x 10

^ovatkuormituksenmääriä.Funktio

log( ₁ ^π ⁱ

− π i )

^onyleistetyis- sälineaarisissa malleissans. logit-linkki.Selitettävänä muuttujanaonsärky-

vien kiinnittimiensuhteellinen osuus

p = r/n

^.

Call:

glm(formula = p ~ kuorma, family = binomial, weights = n)

Deviane Residuals:

Min 1Q Median 3Q Max

-0.29475 -0.11129 0.04162 0.08847 0.35016

(14)

20 30 40 50

0.2 0.4 0.6 0.8

Kuorma

Rikk oontumistodennäk öisyydet

Logistisen regressiomallin sovitus

Kuvio 8.2. Metallinkiinnittimien rikkoontumistodennäköisyys kuor-

mituksenfunktiona.

Coeffiients:

Estimate Std. Error z value Pr(>|z|)

(Interept) -5.33971 0.54569 -9.785 <2e-16 ***

kuorma 0.15484 0.01575 9.829 <2e-16 ***

---

Signif. odes: 0 `***' 0.001 `**' 0.01 `*' 0.05 `.' 0.1 ` ' 1

(Dispersion parameter for binomial family taken to be 1)

Null deviane: 112.83207 on 9 degrees of freedom

Residual deviane: 0.37192 on 8 degrees of freedom

AIC: 49.088

Number of Fisher Soring iterations: 3

8.3 Estimoinnista

Tarkastelemme nyt satunnaismuuttujia, joiden todennäköisyysfunktion (tai

tiheysfunktion) funktionaalinen muoto tunnetaan, mutta jakauma riippuu

jostain tuntemattomasta parametrista

θ

^. ^Parametrin

θ

mahdolliset arvot

(15)

kuuluvat johonkin annettuun joukkoon

Θ

^, ^jota ^kutsutaan parametriavaruu- deksi.Tiedetään esimerkiksi,että jonkintuotteen elinaika

X

^noudattaa ^eks-

ponenttijakaumaa

f(x; θ) = 1

θ e ^−x/θ , 0 < x < ∞,

missä

θ ∈ Θ = { θ | 0 < θ < ∞ }

^. Parametriavaruus

Θ

^on ^siis positiivisten reaalilukujenjoukko. Haluammevalitafunktioperheestä

F = { f (x; θ), θ ∈ Θ }

yhden tiheysfunktion,jokaesittääparhaiten tuotteen elinaikaa. Valitaansiis

yksi parametrin

θ

^arvo ^eli ^parametrin

θ

piste-estimaatti, joka määrittää jakauman.

Parametrinarvoarvioidaaneliestimoidaanhavaintojenperusteella.Teem-

me jakaumasta havainnon

X = x

^ja ^estimoimme ^parametrin

θ

^arvon ^ha-

vainnon

x

perusteella. Parametrin

θ

estimoimiseen käytettävää otosfunktio- ta

T (X)

^kutsutaan ^parametrin

θ

estimaattoriksi ja estimaattorin

T (X)

^ar-

voa

t = T (x)

^kutsutaan ^parametrin

θ

estimaatiksi. Estimaattori pyritään valitsemaan siten, että se antaa hyviä arvioita parametrista

θ

^.

Esimerkki 8.9 Estimoidaan ehdokkaan

A

kannattajien suhteellinen osuus

θ

^eräässä^suuressa kaupungissa.Valitaankaupunginäänioikeutetuistasatun- naisesti

n

^henkilöä,^joiltatiedustellaanheidänkantaansaehdokkaasta

A

^. ^Ol-

koon

X

^ehdokkaan

A

kannattajienlukumäärä otoksessa.Koska populaation koko onsuuriverrattuna otoskokoon

n

^, ^voidaan^olettaa, ^että

X ∼ Bin(n, θ)

^,

missä

θ

^ontodennäköisyys,ettäsatunnaisestivalittuhenkilökannattaa

A

^:ta.

Binomijakaumaanoudattavansatunnaismuuttujan

X

todennäköisyysfunktio onmuotoa

f (x; n, θ) = n

x

θ ^x (1 − θ) ⁿ ⁻ ^x , x = 0, 1, . . . , n; 0 ≤ θ ≤ 1.

Binomijakauman parametriavaruus on

Θ = { θ | 0 ≤ θ ≤ 1 }

^. Tehtävänäm- me on määrittää

θ

^:n estimaattori

T (X)

^siten, ^että ^havaitun ^arvon

X = x

perusteellasaadaanhyvä

θ

^:npiste-estimaatti

T (x)

^.^Havainnon

X = x

^toden-

näköisyys on

(8.3.1)

P (X = x; θ) =

n x

θ ^x (1 − θ) ⁿ ⁻ ^x .

Erästapamäärittää

θ

^:n^estimaatti^ontarkastellatodennäköisyyttä

P (X = x; θ)

^parametrin

θ

^funktiona^ja ^etsiä ^sellainen

θ

^:n ^arvo,^että ^havainnon

x

^to-

dennäköisyyssaavuttaamaksiminsa.Voidaanosoittaa,ettähavainnon

X = x

todennäköisyys maksimoituu, kun

θ = x/n

^. ^Tätä estimaattia kutsutaan

θ

^:n

suurimman uskottavuuden estimaatiksi ja sitämerkitään

θ ˆ = x n .

(16)

8.4 Uskottavuussuhde

Todennäköisyyden (8.3.1) lausekkeessa tekijä

n x

ei riipu parametrista

θ

^.

Uskottavuusfunktio onparametrin

θ

^funktio ^ja merkitsemme

(8.4.1)

L(θ) = f(x; θ),

missä

f (x; θ)

^on todennäköisyysfunktio ja

f (x; θ)

^on ^siis ^havainnon

X = x

todennäköisyys. Uskottavuussuhteen

(8.4.2)

L(θ 1 )

L(θ 2 ) = f(x; θ 1 ) f(x; θ 1 ) ,

avullavertaillaankahdenparametrinarvon

θ 1

^ja

θ 2

suhteellistauskottavuut- ta, kun on havaittu

X = x

^. Uskottavuuspäättelyn perusta on uskottavuussuhde. Silloinuskottavuusfunktio

(8.4.3)

L(θ) = c · f (x; θ),

antaa samat uskottavuussuhteet kuin (8.4.1), kun vakio

c

^ei ^riipu ^paramet-

rista

θ

^. ^Sen ^sijaan

c

^voi ^riippua havainnosta

x

^. ^Monesti ^vakio

c

^pyritään ^va-

litsemaan siten, että

L(θ)

^:lle ^saadaan yksinkertainen lauseke. Uskottavuus- funktioon perustuvatpäätelmät eivät siisriipu vakion

c

valinnasta.

Tavallisesti uskottavuusfunktio tulee olemaan useiden tekijöiden tulo ja

mm. siitä syystä on osoittautunut käteväksi työskennellä uskottavuusfunk-

tion logaritminavulla.Logaritmoituuskottavuusfunktio

l(θ)

^onuskottavuus- funktion luonnollinen logaritmieli

(8.4.4)

l(θ) = log L(θ).

Esityksestä (8.4.3)seuraa, että

l(θ) = log c + log f(x; θ),

missävakio

c

^ei^siis^riipu

θ

^:sta.Jatkossakinkaikkilogaritmitovatluonnollisia logaritmeja,elleitoisin mainita.

Suurimman uskottavuuden estimaatti(SUE)

θ ˆ

^on ^se ^parametrin

θ

^arvo,

jokamaksimoihavainnon

x

todennäköisyyden

f (x; θ)

^.^Sama^arvo

θ ˆ

^maksimoi

myösfunktiot

L(θ)

^ja

l(θ)

^.^Suurimmanuskottavuudenestimaatti

θ ˆ

^on^siis^us-

kottavuusfunktion ja logaritmoidunuskottavuusfunktion maksimikohta.Ta-

vallisestitarkastellaanlogaritmoituauskottavuusfunktiota,koskaseonusein

matemaattisestiyksinkertaisempi kuin uskottavuusfunktio. Logaritmoidulla

uskottavuusfunktiollaonmyösteoreettisestimerkittävätilastollinentulkinta.

Esimerkki 8.10 Tarkastellaan edelleen Esimerkkiä 8.9, jossa havaintojen

todennäköisyysfunktio on

f (x; θ) = ⁿ _x

θ ^x (1 − θ) ⁿ ⁻ ^x

^. ^Kun uskottavuusfunk- tiossa (8.4.1) valitaanvakionarvoksi

c = 1 _n

x

,saadaan esitysmuoto

L(θ) = θ ^x (1 − θ) ^n−x , 0 ≤ θ ≤ 1.

(17)

Tässäuskottavuusfunktionesityksessä eioleturhiavakiotekijöitä.Tätäus-

kottavuusfunktionesitysmuotoakutsutaanmyösuskottavuusfunktionytimek-

si. Esitämme uskottavuusfunktion usein tässä ydinmuodossa. Logaritmoitu

uskottavuusfunktio on

l(θ) = x log θ + (n − x) log(1 − θ), 0 < θ < 1.

Parametrin

θ

^suurimman uskottavuuden estimaattion siis se

θ

^:n ^arvo, ^joka

maksimoifunktion

l(θ)

^.Huomattakoon,että

l(θ)

^ei^ole^määritelty^välin

[0, 1]

päätepisteissä,mutta

L(θ)

^on.

X (k) jakauma . . . . . . . . . . . . . . 261

t

F

t

F

X (k)

T

+

T

+/−

+ −

T

T

T

1

P (T |+)

+

P (T |−)

P (T )

P (T |+)

1

T

P (T )

T

T

1 − 3

B

A

+

A

B

A

B

A

B

3

3

22071

5

139

239

119

98

139/11037

239/11034 = 0.58

0.58

1

0.58

Bin(θ A , n A )

Bin(θ L , n L )

n A = 11037, n L = 11034

θ A

θ L

θ A /θ L ≡ θ SR

θ ˆ SR = 0.58

θ ˆ SR

θ SR

1

10

1390

2390

θ ˆ SR = 0.58

0.0001

0.0010

0.2001

0.2010

0

1

θ SR = θ A /θ L ,

θ A = 0.0010

θ L = 0.0001

θ SR = 0.0010/0.0001 = 10

θ A = 0.2010

θ L = 0.2001

θ SR = 0.2010/0.2001 = 1.004.

θ A

θ L

Y = 1

Y = 0

P (Y = 1|

θ _A /θ _L ≡ θ _SR

θ _A

) = θ _A

) = θ _L

N(µ i , σ ² )

Y _i = µ _i + V _i ,

N(0, σ ² )

130 ^◦ F

◦ F = ^◦ C ×1.8+32

60 ^◦ F

f (t, θ) = 60 + 70 e ⁻ ^θt .

f(t, θ) = 60 + 70 e ⁻ ^θt

Y ∼ N(60 + 70 e ⁻ ^θt , σ ² ).

σ ²

Y i = α + βx i + γx ² _i + V i , i = 1, . . . , n.