• Ei tuloksia

X (k) jakauma . . . . . . . . . . . . . . 261

N/A
N/A
Info
Lataa
Protected

Academic year: 2022

Jaa "X (k) jakauma . . . . . . . . . . . . . . 261 "

Copied!
17
0
0

Kokoteksti

(1)

7 Moniuloteiset jakaumat 183

7.1 Kaksiulotteisetjakaumat . . . 183

7.1.1 Reunajakaumat ja ehdollisetjakaumat . . . 188

7.1.2 Ehdollisenodotusarvonominaisuuksia . . . 194

7.1.3 Hierarkkiset mallitja yhdistetyt jakaumat . . . 197

7.1.4 KaksiulotteinenBernoullin jakauma . . . 198

7.1.5 Satunnaismuuttujien funktion jakauma . . . 199

7.2 Satunnaismuuttujien funktion odotusarvo. . . 200

7.2.1 Momentit . . . 201

7.2.2 Satunnaisvektorin momenttifunktio . . . 202

7.3 Riippumattomatsatunnaismuuttujat . . . 203

7.3.1 Riippumattomatkokeet . . . 204

7.3.2 Samoinjakautuneet riippumattomat(SJR) satunnais- muuttujat . . . 205

7.3.3 Riippumattomiensatunnaismuuttujien funktio . . . 205

7.4 Multinomijakaumajamoniulotteinenhypergeometrinenjakau- ma . . . 206

7.5 Kahden muuttujan normaalijakauma . . . 208

7.5.1 Standardimuoto . . . 208

7.5.2 Korreloivat muuttujat . . . 209

7.6 Satunnaisvektoreiden muunnokset . . . 209

7.6.1 Yleinen kahden muuttujan normaalijakauma . . . 214

7.6.2 Studentin

t

-jakauma,

F

-jakaumaja beta-jakauma . . . 216

Yhteenveto . . . 219

Harjoituksia . . . 223

8 Johdanto tilastolliseen päättelyyn 227 8.1 Tilastollinenongelma . . . 227

8.2 Tilastollisetmallit. . . 230

8.3 Estimoinnista . . . 239

8.4 Uskottavuussuhde . . . 241

9 Otantajakaumat 243 9.1 Riippumattomatsatunnaismuuttujat . . . 243

9.2 Riippumattomiensatunnaismuuttujiensumman jakauma . . . 246

9.3 Normaalijakaumaanliittyvätjakaumat . . . 251

9.3.1 Summan ja neliösumman jakauma. . . 251

9.3.2

t

-jakaumaja

F

-jakauma . . . . . . . . . . . . . . . . . 252

9.4 Keskeinen rajaväittämä . . . 254

9.4.1 Jakaumienlikiarvotnormaalijakaumanavulla . . . 256

9.4.2 Momenttifunktion rajafunktiot . . . 257

9.5 Järjestyssuureet . . . 259

9.5.1 Maksimija minimi . . . 260

9.5.2 Järjestyssuureen

X (k)

jakauma . . . . . . . . . . . . . . 261

9.6 Suppenemiskäsitteet . . . 262

(2)

Johdanto tilastolliseen päättelyyn

8.1 Tilastollinen ongelma

Tilastollisessapäättelykasitteleejohtopäätöstentekoahavainnoista,joihinsi-

sältyy epävarmuuttajasatunnasivaihtelua.Tässäprosessissa käytetään apu-

natodennäköisyyteen perustuvaatilastollistamallintamista.Eioleitsestään

selvää, että tuollaisesta aiheesta voidaan esittää mitään täsmällistä tai tie-

teellistä.Tilastotieteessäkinonomaksuttuerilaisialähestymistapojaepävar-

muuden käsittelyyn, jotkavoidaan jaotellakahteen pääkoulukuntaan: Baye-

silaiseen ja frekventistiseen. Tässä luvussa esitellään uskottavuuden (uskot-

tavuusfunktio) käsite, joka on kummankin edellä mainitun lähestymistavan

keskeinen peruskäsite.

Esimerkki 8.1(Päättely vs. päätäntä) Oletetaan, että taudin

T

totea-

miseksionolemassahyvätesti.Testintilastollinenkäyttäytyminenonkuvat-

tu Taulukossa 8.1 Potilaalle tehtiin testi, jonka tulos oli

+

. Lääkäri saattaa

Taulukko 8.1. Testi taudin

T

toteamiseksi. Tuloksen

+/−

todennä-

köisyydet.

Testin tulos

+ −

Tauti on 0.95 0.05

Eitautia 0.02 0.98

tehdä yhden seuraavista johtopäätöksistä (tainiiden negaation):

1. Potilaalla eitodennäköisesti oletautia

T

.

2. Potilasta pitäisi hoitaaikäänkuinhänellä olisitauti

T

.

3. Testin tulos vahvistaa hypoteesia, että potilaalla ontauti

T

.

(3)

Johtopäätöstä

1

voidaan tarkastella laskemalla todennäkäisyys

P (T |+)

, jos

testin tulos

+

(Vastaavasti

P (T |−)

). Todennäköisyys riippuu siitä, miten harvinaisesta taudistaon kyse. Jos

P (T )

on hyvin pieni, niinmyös

P (T |+)

onpieni.Johtopäätöksen

1

pätevyys riippuusiisratkaisevastitaudin

T

prio-

ritodennäköisyydestä

P (T )

.Lääkärilläon vaihtoehtoiset hypoteesit:

A: Potilaalla ontauti

T

.

B: Potilaalla eioletautia

T

.

Edelläesitetytlääkärin johtopäätökset

1 − 3

voidaanmuotoillamyösseuraa-

vasti:

1. Uskonhypoteesin

B

olevantosi.

2. Minun pitäisitoimia ikäänkuin

A

olisitosi.

3. Testitulos

+

ontodiste hypoteesin

A

puolesta

B

:tä vastaan.

Lääkärin tekemät päätelmät ovat vastauksiakolmeenyleiseen kysymykseen:

1. Mitäminun pitäisiuskoa nyt, kun minullaontämä havainto?

2. Mitäminun pitäisitehdä nyt, kun minullaontämä havainto?

3. Miten tekemäni havainto vaikuttaa hypoteesien

A

ja

B

uskottavuu- teents.vahvistaakotaiheikentääköhavainto

A

:nuskottavuutta ja

B

:n

suhteen?

Tämän kurssin kannalta tyyppiä

3

oleva kysymys on keskeisin. Esimerkiksi raportoitaessa tieteellisen tutkimuksen tuloksia, pohditaan tavallisesti juuri

tyypin

3

kysymyksiä.

Esimerkki 8.2(Aspiriinitutkimus) Taulukon 8.2 tulokset ovat peräisin

tutkimuksesta, jossaselvitettiin,ehkäiseeköaspiriini aivohalvauksia jasydä-

ninfarkteja (infartus myoardii autus) (Steering Committee of the Phy-

siians'HealthStudyResearhGroup1989).Tutkimuksessa satunnaistettiin

22071

tervettähenkilöäaspiriiniryhmäänjalumeryhmään.Aspiriiniryhmään kuuluvat saivat päivittäin pienen annoksen aspiriinia ja lumeryhmään kuu-

luvat vastaavasti lumetabletin. Henkilöiden terveydentilaa seurattiin keski-

määrin

5

vuotta. Asetelma on satunnaistettu kliininen koe, jossa tutkittiin aspiriininkäytönvaikutustasydäninfarktikuolleisuuteen.Tutkimukseenosal-

listuneeteivät tienneet, kumpaanryhmään he kuuluivat.

Pääkysymys onsiistämä: Onkoaspiriinistahyötyä sydäninfarktinehkäi-

syssä?Aspiriiniryhmässäonvähemmän sydäninfarktejakuinlumeryhmässä,

139

vastaan

239

. Mitätämä todistaa, mitä luvuista voidaan päätellä? Onko

todistusaineisto kyllin vahva, jotta voimme vastata kysymykseen? Aivohal-

vauksia oli kuitenkinenemmän aspiriiniryhmässä:

119

vastaan

98

. Onkotuo

(4)

Taulukko8.2.Aspiriininkäytönmahdollinenaivohalvauksiajasydä-

ninfarkteja ehkäisevävaikutus.

Ryhmä Sydänkohtaus Aivohalvaus Yhteensä

Aspiriini 139 119 11037

Lume 239 98 11034

Yhteensä 378 217 22071

eromerkitsevä?Tällaisiinkysymyksiinvastaaminenedellyttäätilastollistaeli

stokastista mallia, joka kuvaa havintojenstokastista käyttäytymistä.

Suhteellinen riski

139/11037

239/11034 = 0.58

oneräsvakiintunutkeinovertaillakahtasuhteellistaosuutta.Aspiriininhyö-

ty suhteellisena riskinä ilmaistuna on

0.58

. Jos suhteellinen riski olisi

1

, se

tarkoittaisi, että aspiriinillaei olevaikutusta. Ykköstä selvästi pienempi ar-

vo osoittaa, että aspiriinistaon hyötyä. Onko siis

0.58

tarpeeksi paljon yk-

köstä pienempi? Tässä esimerkissävoidaan olettaa binomimalli,jossa sydä-

ninfarktiin sairastuneiden lukumäärä aspiriiniryhmässä noudattaa binomi-

jakaumaa

Bin(θ A , n A )

ja lumeryhmässä binomijakaumaa

Bin(θ L , n L )

, missä

n A = 11037, n L = 11034

jatodennäköisyydet

θ A

sekä

θ L

ovattuntemattomia parametreja. Tuntematonsuhteellinen riskion

θ AL ≡ θ SR

.

Olemmesiislaskeneetsuhteellisenriskinestimaatin

θ ˆ SR = 0.58

.Siihenei

oleliitetty mitäänarvonluotettavuudesta kertovaa mittaa,joten seei yksin

pysty vastaamaanalkuperäiseenkysymykseen.Antaakokoeniinpaljoninfor-

maatiota,ettävoimmeestimaatin

θ ˆ SR

perusteellaväittää

θ SR

:nolevanpaljon

pienempi kuin

1

. Ajatellaan, että olisi tehty

10

kertaa laajempi koe ja olisi

havaittu

1390

vastaan

2390

sydänkohtausta. Silloin jälleen olisi

θ ˆ SR = 0.58

,

mutta intuitiivisesti tämän kokeen tulos tuntuu vakuuttavammalta. Pelkkä

estimaatin arvo ei riitä, vaan siihen pitää liittää jokin estimaatin täsmälli-

syyttäkuvaavamitta,jonkaavullavoimmearvioidaestimaatinluotettavuut-

ta. Tämä on tilastollisenpäättelynperusongelma: Miten havaintojen avulla

voidaantehdä tuntemattomia parametreja koskeviapäteviä päätelmiä?

Jos esimerkiksi todennäköisyys sairastua johonkin tautiin muuttuu jos-

sainväestössävaikkapatodennäköisyydestä

0.0001

todennäköisyyteen

0.0010

,

onmuutos suhteellisesti ottaen erittäinsuuri. Jonkin tavallisen tapahtuman

kohdalla yhtä suuri todennäköisyyden muutos, esimerkiksi todennäköisyy-

destä

0.2001

todennäköisyyteen

0.2010

ei olemerkittävä. Samoillatodennä- köisyyksien muutoksilla lähellä ääripäitä

0

ja

1

on usein suurempi merkitys

kuin vaihtelualueen keskivaiheilla. Todennäköisyyksien suhteen avulla voi-

daan tarkastellasuhteellista muutosta.

Taulukosta 8.2 laskettu suhteellinen riski

θ SR = θ A /θ L ,

voi teoreettisesti

(5)

saadaminkätahansaei-negatiivisenarvon.Todennäköisyyksienarvoilla

θ A = 0.0010

ja

θ L = 0.0001

suhteellinen riski on

θ SR = 0.0010/0.0001 = 10

ja ar-

voilla

θ A = 0.2010

ja

θ L = 0.2001

suhteellinenriskion

θ SR = 0.2010/0.2001 = 1.004.

Taulukko 8.3. Sairastumistodennäköisyys aspiriiniyhmässäon

θ A

ja

lumeryhmässä

θ L

. Indikaattori

Y = 1

, kun henkilöllä on infarkti ja

muutoin

Y = 0

, joten

P (Y = 1|

Aspiriiniryhmä

) = θ A

ja

P (Y = 1|

Lumeryhmä

) = θ L

.

Y

1 0 Yhteensä

Aspiriini

θ A 1 − θ A 1.0

Lume

θ L 1 − θ L 1.0

Sairastumistodennäköisyydenestimaattiaspiriiniyhmässäon

θ ˆ A = 139/11037 = 0.012594

jalumeryhmässä

θ ˆ L = 239/11034 = 0.021660

,joten

θ ˆ L = 1.719892 ˆ θ A

ja

θ ˆ L − θ ˆ A = 0.009066

.

8.2 Tilastolliset mallit

Tilastotiedekehitteleemenetelmiä,joidenavullavoidaanoppiahavainnoista.

Tilastollisessa mallintamisessa havaintoja tarkastellaan satunnaiskokeen tu-

loksena, satunnaisilmiönä. Ajatelkaamme, että havainnot ovat"mustan laa-

tikon"tuottamia. Syötemuuttujien arvovektori

x = (x 1 , . . . , x p )

(selittävät muuttujat,riippumattomatmuuttuja) työnnetäänlaatikkoonja saadaantu-

loksen vastemuuttujien (riippuvat muuttujat, selitettävät muuttujat) arvot

y = (y 1 , . . . , y m )

:

x −→

luonto

−→ y

Laatikon sisällä luontoliittää jonkin funktion avullaselittävät muuttujat ja

vasteet yhteen. Havaintojen analysoinnin tavoitteet voidaan karkeati jakaa

kahteen ryhmään:

Ennustaminen.Mallillahalutaan ennustaa, mitävastemuuttujanarvo-

ja saadaantulevaisuuden syötteillä.

Tietoriippuvuuksista.Halutaansaadaselvyyssiitä,millätavoinluonto

onliittänyt yhteen syötteet ja vastemuuttujat.

Tilastollisettulokset janäkemykset voidaantäsmällisimminilmaistama-

tematiikan keinoin, mutta yhteys havaintoihin ja tieteelliseen päättelyyn on

ominaistatilastotieteelliselleajattelutavalle.Monettilastollisettuloksetovat

syntyneet ja syntyvät vastauksena melko konkreettisiin kysymyksiin, joihin

ei aina oleolemassa yleistä eleganttia ratkaisua. Tällaisten ongelmien valta-

va määrä tekee vaikeaksi kehittää kaiken kattavaa teoriaa, vaikka toisaalta

yhteisiä yleisiä periaatteita voidaan esittää. Periaatteet voidaan kuitenkin

kiteyttää tilastollisenmallin käsitteeseen.

(6)

Parametrinen mallintaminen

Parametrisessa lahestymistavassa oletetaan mustanlaatikonsisälle jokin ha-

vaintojagereroivatodennäköisyysmalli.Havaintojenmallionesimerkiksimuo-

toa

(8.2.1) vaste

= f (

selittäjät,satunnaisvirhe, parametrit

),

missä funktion

f

yleinen matemaattinen muoto oletetaan tunnetuksi. Funk- tio riippuu kuitenkin yleensä tuntemattomista parametreista, jotka on es-

timoitava havainnoista. Sen jälkeen mallia voidaan käyttää riippuvuuksien

tarkasteluun taiennustamiseen.

Musta laatikkovoisi näyttää esimerkiksi seuraavalta:

x −→

lineaarinen regressio

−→ y

Tässä siis ajatellaan, että lineaarinen regressiomalli kuvaa riittävän hyvin

vasteen

y

riippuvuutta selittäjistä

x

. Silloin siis

f

on

1.

asteen polynomi

(parametrien suhteen). Mallin pätevyys pyritään vahvistamaan havaintojen

avullatekemälläesimerkiksiyhteensopivuustestejäjatarkastelemallahavain-

toihin sovitetun mallin residuaaleja.

Esimerkki 8.3 Oletetaan,ettäriippumattomathavainnot

Y 1 , Y 2 , . . . , Y n

nou-

dattavat normaalijakaumaa

N(µ i , σ 2 )

,missä

E(Y i ) = µ i , i = 1, . . . , n

. Olete-

taanlisäksi,että

E(Y i )

riippuulineaarisestiselittävästä muuttujasta

x

,joten

(8.2.2)

µ i = α + βx i , 1 ≤ i ≤ n.

Mallivoidaan kirjoittaamyösmuodossa

Y i = µ i + V i ,

missä

V i = Y i − E(Y i )

. Virhetermi

V i

noudattaa normaalijakaumaa

N(0, σ 2 )

.

Esimerkki 8.4 CountRumfordBaierilainenoliensimmäisiä,jokatekiläm-

pöfysiikankokeita.Vuonna1798hän tekikokeen, jossakanuunan putkikuu-

mennettiin

130 F

lämpötilaan(

◦ F = C ×1.8+32

).Sittenputken annettiin

jäähtyäja lämpötilamitattiintietyinväliajoin.Ulkolämpötilakokeen aikana

oli

60 F

. Newtonin jäähtymislakisanoo, että

d f /d t = −θ(f − t 0 )

, missä

t 0

onulkolämpötila.Silloin putken lämpötilanhetkellä

t

pitäisi olla

f (t, θ) = 60 + 70 e θt .

Kun mittauksiatehdään käytännössä, havainnot eivätaivan täsmällises-

ti toteuta lakia. Poikkeamat tulkitaan mittausvirheiksi. Tilastollinen malli,

jossa mittausvirheetotetaan huomioon, onmuotoa

(8.2.3)

Y = f (t, θ) + ǫ,

(7)

missä

f(t, θ) = 60 + 70 e θt

. Mittausvirhe

ǫ

on satunnaismuuttuja, jonka odotusarvo

E(ǫ)

oletetaan nollaksi.

Mittausvirheetnoudattavatyleensäerittäinhyvinnormaalijakaumaa,sik-

si tilastollistapäättelyä ajatellen oletetaankin tavallisesti, että

ǫ

noudattaa

normaalijakaumaa.Näillätilastollisillaoletuksillamalli(8.2.3)voidaanluon-

nehtiaseuraavasti:

Y ∼ N(60 + 70 e θt , σ 2 ).

Varsinainen fysikaalisesti kiinnostava estimoitavaparametri on

θ

ja

σ 2

koe-

järjestelyyn liittyvä virhevarianssi.

Esimerkki 8.5 Tutkitaanvirranvoimakkuuden(ampeereina)vaikutustahit-

sauksessa syntyvän hitsaussauman minimiläpimittaan (Aineisto: The Wel-

ding Institute, Abingdon, P.M.E.Altham). Virran voimakkuus (

x

) on selit-

tävämuuttujajasyntyvänhitsaussauman minimiläpimitta(

y

)onselitettävä muuttuja. Kokeilaanaineistoonlineaaristaregressiomallia.

Y i = α + βx i + V i , i = 1, . . . , n,

missä

x i

:t ovat vakioita,

E(V i ) = 0

ja

V i ⊥ ⊥ V j

, kun

i 6= j

. Aineistossa on

21

havaintoa, eli

n = 21

. Kuviossa 8.1 on aineistoon sovitettu pienimmän

neliösumman menetelmälläsuora.

Call:

lm(formula = y ~ x)

Residuals:

Min 1Q Median 3Q Max

-0.42623 -0.07282 0.01637 0.08269 0.34586

Coeffiients:

Estimate Std. Error t value Pr(>|t|)

(Interept) -9.45427 0.65526 -14.43 1.09e-11 ***

x 1.65793 0.07531 22.01 5.53e-15 ***

---

Signif. odes: 0 `***' 0.001 `**' 0.01 `*' 0.05 `.' 0.1 ` ' 1

Residual standard error: 0.2012 on 19 degrees of freedom

Multiple R-squared: 0.9623, Adjusted R-squared: 0.9603

F-statisti: 484.6 on 1 and 19 DF, p-value: 5.529e-15

Tutkittaessa tarkemmin mallin residuaaleja voidaan havaita kvadraattinen

trendi, mikäviittaasiihen, että kannattaa kokeilla kvadraattista mallia

Y i = α + βx i + γx 2 i + V i , i = 1, . . . , n.

Myös

2.

asteen termin kertoimen estimaatti

ˆ γ

on tilastollisesti merkitsevä ja mallin selitysaste on

0.9761

. Kun lasketaan estimaattien

β ˆ

ja

γ ˆ

välinen

korrelaatio, saadaanmelko tarkkaan

−1

.Mitä tästä pitäisi päätellä?

(8)

8.0 8.5 9.0 9.5

3.5 4.0 4.5 5.0 5.5 6.0 6.5

Virrankulutus (amp)

Sauman minimile v e ys (mm)

Sauman minimileveyden riippuvuus virrankulutuksesta

Kuvio 8.1.Hitsauksessa käytetynvirran voimakkuudella (ampeeria)

selitetäänsyntyvän hitsaussaumanminimiläpimittaa.

Esimerkissä8.3oletettiin,ettähavainnotnoudattavatnormaalijakaumaa.

Esimerkissä 8.5 ei tällaistaoletusta tehty. Kun aineistoonsovitetaan regres-

siomallia, on valittava parametrien estimointimenetelmä. Tavanomainen lä-

hestymistapa on sovittaa pienimmän neliösumman suora aineistoon. Siinä

minimoidaanneliösumma

(8.2.4)

g (α, β) =

n

X

i=1

(y i − α − βx i ) 2

parametrien

α

ja

α

suhteen. Minimi saavutetaan pienimmän neliösumman ratkaisulla

ˆ

α = ¯ y − β ˆ x ¯ β ˆ = S xy

S xx

,

(8.2.5)

missä

S xx = P n

i=1 (x i − x) ¯ 2

ja

S xy = P n

i=1 (x i − x)(y ¯ i − y) ¯

. Matriisimuodossa lausekkeen (8.2.4) minimoivaratkaisu (8.2.5) on

(8.2.6)

α ˆ β ˆ

= ( X T X ) −1 X T y,

missä

X =

1 1 · · · 1 x 1 x 2 · · · x n

T

ja

y = y 1 y 2 · · · y n T

.

(9)

Huomattakoon,ettäpienimmänneliösummanratkaisu (8.2.5)onlineaarinen

estimaattori.Selittäjänarvota

x 1 , . . . , x n

ovatvakioitajahavainnot

Y 1 , . . . , Y n

satunnaismuuttujia.Esimerkiksi

β ˆ

voidaankirjoittaa

β ˆ =

n

X

i=1

(x i − x) ¯ S xx

Y i .

Estimaattori

β ˆ

on siishavaintojen

Y 1 , . . . , Y n

lineaarinen yhdiste

β ˆ =

n

X

i=1

b i Y i ,

missä kertoimet

b i = (x S i −¯ xx x) , 1 ≤ i ≤ n,

ovat vakioita. Sama asia näh-

dään tietysti yleisemmin lausekkeesta (8.2.6), missä havaintovektori

y

ker-

rotaanvakiomatriisilla

( X T X ) 1 X T

. Pienimmänneliösummanestimaattorit ovatmyös harhattomiaja ne ovatoptimaalisialineaaristenharhattomienes-

timaattoreidenjoukossa: niilläon pieninvarianssi harhattomienlineaaristen

estimaattoreiden luokassa (Gaussin ja Markovin lause). Sanomme, että sel-

lainen estimaattori onparas lineaarinen harhaton estimaattori (Best Linear

Unbiased Estimator,BLUE).

Pienimmänneliösumman(pns)estimointimenetelmässäminimoidaankva-

draattinentappiofunktio(8.2.4).On tunnettua,ettäpoikkeavillahavainnoil-

la on suuri vaikutus pns-estimaatteihin. Jos minimointikriteeriksi valitaan

absoluuttipoikkeamien summa

n

X

i=1

|y i − α − βx i |,

saadaan pienimpien absoluuttipoikkeamien estimaatit. Nämä estimaatit ei-

vät ole yhtä herkkiä poikkeavien havaintojen vaikutukselle. Sanomme, et-

tä pienimmän absoluuttipoikkeaman estimaattori on robustimpi kuin pns-

estimaattori. Robustin regression käsite perustuu lineaaristen harhattomien

estimaattoreiden luokkaa laajempaan estimaattoriluokkaan, jossa minimoi-

daan funktio

n

X

i=1

ψ(y i − α − βx i )

σ ,

missä

ψ

on tappiofunktio ja

σ

on skaalaustekijä. Kun

ψ(x) = x 2

, on ky-

seessä tavallinenpns-regressioja pienimmänabsoluuttipoikkeamanregressio

saadaan, kun

ψ(x) = |x|

. Huber (1975)esitti yleisen tappiofunktion

ψ c (x) =

( x 2 , |x| ≤ c 2c|x| − c 2 |x| > c.

Funktio

ψ c (x)

on siiskvadraattinenvälillä

[−c, c]

ja lineaarinen tämänvälin ulkopuolella.

(10)

Esimerkki 8.6 Oletetaan, että havainnot

Y 1 , Y 2 , . . . , Y n

noudattavatmallia (8.2.7)

Y i = βx i + V i , 1 ≤ i ≤ n,

missä

E(Y i ) = βx i ⇔ E(V i ) = 0, Var(Y i ) = σ 2 , 1 ≤ i ≤

ja

Y i ⊥ ⊥ Y j , i 6=

j

. Mallissa ei ole siis vakiotermiä ja sovitesuorat kulkevat origon kautta.

Parametrin

β

pienimmän neliösummanestimaattori on

(8.2.8)

β ˆ =

n

X

i=1

x i

S xx

Y i ,

missä nyt

S xx = P n i=1 x 2 i .

Tarkastellaannyt estimaattorin(8.2.8) optimaalisuutta.Estimaattorion

harhaton, koska

E( ˆ β) =

n

X

i=1

x i

S xx E (Y i ) = β S xx

n

X

i=1

x i x i = β.

Olkoon

β ˜ = P n

i=1 d i Y i

jokin

β

:nlineaarinenharhatonestimaattori,missäsiis

d 1 , . . . , d n

ovatvakioita. Harhattomuudesta seuraa,että

E( ˜ β) =

n

X

i=1

d i E(Y i ) = (

n

X

i=1

d i x i )β = β

kaikilla

β

:narvoilla,joten

P n

i=1 d i x i = 1

.Kirjoitetaankertoimet

d i

muodossa

d i = g i + e i

, missä

g i = x i /S xx , 1 ≤ i ≤ n,

ovat pienimmän neliösumman estimaattorin (8.2.8) kertoimet. Silloin

P n

i=1 e i x i = 0

, koska

β ˆ

:n ja

β ˜

:n har-

hattomuuden perusteella

P n

i=1 d i x i = P n

i=1 g i x i = 1

.Nyt

Var( ˜ β) =

n

X

i=1

d 2 i Var(Y i ) =

n

X

i=1

(g i + e i ) 2 σ 2

= σ 2 (

n

X

i=1

g 2 i +

n

X

i=1

e 2 i + 2

n

X

i=1

e i g i )

= σ 2 (

n

X

i=1

g 2 i +

n

X

i=1

e 2 i ),

sillä

P n

i=1 e i g i = ( P n

i=1 e i x i )/S xx = 0,

koska

P n

i=1 e i x i = 0

.Olipa siis

β ˜

mikä

tahansa

β

:n lineaarinen harhaton estimaattorimallissa (8.2.7),niin

Var( ˆ β) ≤ Var( ˜ β).

(11)

Algoritminen mallintaminen

Algoritminen lähestymistapa on saavuttanut suosiota ja sovellusmahdolli-

suuksia tietokoneiden laskentakapasiteetin kasvun myötä. Tässä ajatteluta-

vassa mustan laatikon sisältö on monimutkainen ja tuntematon. Funktion

matemaattista suljetun muodon lauseketta ei tunneta. Sen sijaan funktio

f (x)

pyritään määrittämään algoritmisesti algoritmi laskee

x

:n perusteel-

la ennusteita

y

:lle.Algoritmi siis pyritään muokkaamaan sellaiseksi, että se antaa hyviä ennusteita. Musta laatikkonäyttäisitältä:

x −→

tuntematon

−→ y

Esimerkiksi neuroverkot kuuluvat tähän kategoriaan. Mallinpätevyyttä ar-

vioidaan ennustevirheen avulla.

Tavallisesti havaintojenvaihtelu jaetaan systemaattiseenosaan ja satun-

naisosaanjahavintoarvojenajatellaanmuodostuvannäistäkahdesta kompo-

nentista additiivisesti:

havainnot

= f (

selittävät muuttujat,parametrit

) +

satunnaisosa

=

systemaattinen osa

+

satunnaisosa

.

Esitys (8.2.1)onitse asiassavarsinyleinen, jokasalliimonimutkaisetkinvai-

kutusmekanismit.Yksinkertaistaviaoletuksiakuitenkintarvitaan,jottamal-

lit pystytään ymmärtämään ja analysoimaan. Havaintojen oletetaan olevan

peräisin jostain jakaumaperheestä, tavallisimmin ns. parametrisesta jakau-

maperheestä. Systemaattinen osa on esimerkiksi havaintojen

Y 1

,

Y 2

, ...,

Y n

odotusarvoja

E(Y i )

,

1 ≤ i ≤ n

, koskeva oletus, joka lausutaan vaikkapa

regressiofunktiona.Tavallisestiodotusarvoriippuujoistainselittävistämuut-

tujista (eli kovariaatista). Tilastollisen mallin voidaan sanoa olevan havain-

tojenyhteisjakaumaaja systemaattista osaa koskevien oletusten joukko.

Ehdollinen odotusarvo

Kokeellisessa tilanteessa selittäjä

x

on koevakio. Tutkija päättää, millä

x

:n

arvoilla hän tekee havaintoja riippuvasta muuttujasta

Y

. Esimerkiksi tör- mäystestissä valitaan törmäysnopeudet

x 1 , . . . , x n

. Näillä selittäjän arvoil-

la mitataan vastemuuttujan (tai vastemuuttujien) arvot. Regressioanalyy-

sia käytetään kuitenkin myös ei-kokeellisessa tilanteessa, jossa tutkijaei voi

kontrolloida

x

:n arvoja. Silloin x on satunnaismuuttuja, jonka arvo havain- noidaan usein samanaikaisesti vastemuuttujankanssa. On huomattava, että

regressiomallissa(8.2.2) tarkastellaan ehdollistaodotusarvoa

E(Y |x) = µ(x),

missä

Y

:n ehdollisen odotusarvon oletetaan olevan

x

:n linearinen funktio

µ(x) = α + βx

. Suoran kertoimet

α

ja

β

ovat tuntemattomia parametreja, jotka estimoidaan havainnoista.

(12)

Parametrinen jakaumaperhe

Tilastotieteen oppikirjoissa lähdetään tavallisesti liikkeelle melko teknises-

ti. Sanotaan, että havainnot

Y 1 , . . . , Y n

ovat otos jostain tuntenmattomasta jakaumasta

F

,missä

F

onsiisjakaumankertymäfunktio. Tavallisesti jakau- masta tehdään joitain oletuksia. Tilanne voi olla esimerkiksi sellainen, että

jakauma voidaan oletettaa symmetriseksi. Tällä kurssilla käytetään useim-

miten parametrista lähestymistapaa. Silloin jakauman ajatellaan kuuluvan

johonkin parametriseen jakaumaperheeseen

F = { F (x; θ), θ ∈ Θ }

missä

F (x; θ)

onkertymäfunktio jokaisellakiinnitetyllä

θ

:n arvolla.

Käsittelemissämmepäättelyongelmissaoperoimmetavallisestitiheysfunk-

tioiden avulla, joten jakaumaperhe on silloin suoraviivaisempaa luonnehtia

tiheysfunktioiden joukkona

F = { f (x; θ), θ ∈ Θ }.

Suure

θ

onsiisparametri jasen arvojoukko

Θ

onparametriavaruus.Valitse- mallayksiparametrin

θ

arvosaadaantäysinmäärättyjakauma.Edelläolem-

menähneet,että

θ

voiriippuaselittävienmuuttujiearvoista.Kunparametrin

θ

arvo valitaan havaintojen perusteella, saadaan

θ

:n piste-estimaatti. Para- metrin(parametrien) arvonmäärittämistä havaintojen perusteella sanotaan

piste-estimoinniksi.

Esimerkki 8.7 Tarkastellaan auto-onnettomuuksien vakavuusastetta, kun

selittäjänä on kuljettajan ikä. Usein väitetään, että nuoret kuljettajat ai-

heuttavat keskimääräistä enemmän vakavia onnettomuuksia.

Taulukko8.4.Vakavienonnettomuuksienlukumääräalueella

A

tam-

mikuussavuonna2000.

Yli21-vuotiaat Alle 21-vuotiaat

Kuolemaan

johtaneet

Muut

Kuolemaan

johtaneet

Muut

Y 1 Y 2 Y 3 Y 4

11 62 4 7

Oletetaan,ettäonnettomuuksienlukumääräkuukaudessanoudattaaPois-

sonin jakaumaa

Poi(λ)

. Tarkastellaan neljää onnettomuustyyppiä, jotka on määritelty kuljettajan iän ja onnettomuuden vakavuusasteen mukaan. On-

nettomuuksien lukumäärien

Y i , 1 ≤ i ≤ 4,

eri kategorioissa oletetaan nou- dattavantoisistaan riippumattaPoissoninjakaumaa

Poi(λ i )

. Oheisessa tau-

lukossa on annettu eräs aineisto. Silloin esimerkiksi kuolemaan johtaneiden

(13)

onnettomuuksienlukumäärä

Y 3

alle21-vuotiaidenryhmässänoudattaaPois- sonin jakaumaa

Poi(λ 3 )

. Parametrit

λ 1

,

λ 2

,

λ 3

ja

λ 4

ovat satunnaismuuttu- jien

Y 1

,

Y 2

,

Y 3

ja

Y 4

odotusarvoja. Odotusarvo

λ i

kertoo onnettomuusasteen

i

.kategoriassa.Vastaavastiesimerkiksiyli21-vuotiaidenonnettomuusasteon

λ 1 + λ 2

jaalle21-vuotiaiden

λ 3 + λ 4

.Merkitään

θ 1 = λ 1 + λ 2

ja

θ L = λ 3 + λ 4

.

Näin todennäköisyys, että yli 21-vuotias aiheuttaa kohtalokkaan onnetto-

muuden, on

π 1 = λ 1

λ 1 + λ 2

ja alle21-vuotiaantodennäköisyys aiheuttaa kohtalokas onnettomuus on

π 2 = λ 3 λ 3 + λ 4

.

Nelikko

(θ 1 , π 1 , θ 2 , π 2 )

muodostaa uuden parametrisoinnin, joka saattaa olla tulkinnallisesti selkeämpi ja mielenkiintoisempikuin alkuperäinen.

Esimerkki 8.8 Tarkastellaan nyt logistista regressiomallia, kun havainnot

noudattavatbinomijakaumaa.Tarkastellaanlentokoneidenrakennuksessakäy-

tettävienmetallinkiinnittimienpuristuskestävyyttä.Aineistoonkirjasta"Int-

rodutionto LinearRegression Analysisi"(Montgomery& Pek, 1982). Pai-

nekuormitus

x

on selittävä muuttuja, jonka arvo kasvaa 2500:sta 4300:aan

200:n yksikön(psi) välein. Yksikkö psi(Pounds perSquare Inh)onpaunaa

(naulaa)/perneliötuuma)ja pauna = 425 g.Aineistossa

n =

testattavien kiinnittimienlkmannetulla kuormituksella

y =

särkyvien kiinnittimienlkmannetulla kuormituksella.

Oletetaan, että särkyvien kiinnittimien lukumäärät noudattavat binomija-

kaumaa

Y i ∼ Bin(n i , π i ), i = 1, . . . , 10

ja

Y i ⊥ ⊥ Y j ,

kun

i 6= j

. Mallinnetaan parametrien

π i

arvojen riippuvuutta kuormituksen määristä, joitaon

10

. Logistinenmallionmuotoa

log( π i 1 − π i

) = α + βx i , 1 ≤ i ≤ 10,

missä

x 1 , . . . , x 10

ovatkuormituksenmääriä.Funktio

log( 1 π i

− π i )

onyleistetyis- sälineaarisissa malleissans. logit-linkki.Selitettävänä muuttujanaonsärky-

vien kiinnittimiensuhteellinen osuus

p = r/n

.

Call:

glm(formula = p ~ kuorma, family = binomial, weights = n)

Deviane Residuals:

Min 1Q Median 3Q Max

-0.29475 -0.11129 0.04162 0.08847 0.35016

(14)

20 30 40 50

0.2 0.4 0.6 0.8

Kuorma

Rikk oontumistodennäk öisyydet

Logistisen regressiomallin sovitus

Kuvio 8.2. Metallinkiinnittimien rikkoontumistodennäköisyys kuor-

mituksenfunktiona.

Coeffiients:

Estimate Std. Error z value Pr(>|z|)

(Interept) -5.33971 0.54569 -9.785 <2e-16 ***

kuorma 0.15484 0.01575 9.829 <2e-16 ***

---

Signif. odes: 0 `***' 0.001 `**' 0.01 `*' 0.05 `.' 0.1 ` ' 1

(Dispersion parameter for binomial family taken to be 1)

Null deviane: 112.83207 on 9 degrees of freedom

Residual deviane: 0.37192 on 8 degrees of freedom

AIC: 49.088

Number of Fisher Soring iterations: 3

8.3 Estimoinnista

Tarkastelemme nyt satunnaismuuttujia, joiden todennäköisyysfunktion (tai

tiheysfunktion) funktionaalinen muoto tunnetaan, mutta jakauma riippuu

jostain tuntemattomasta parametrista

θ

. Parametrin

θ

mahdolliset arvot

(15)

kuuluvat johonkin annettuun joukkoon

Θ

, jota kutsutaan parametriavaruu- deksi.Tiedetään esimerkiksi,että jonkintuotteen elinaika

X

noudattaa eks-

ponenttijakaumaa

f(x; θ) = 1

θ e −x/θ , 0 < x < ∞,

missä

θ ∈ Θ = { θ | 0 < θ < ∞ }

. Parametriavaruus

Θ

on siis positiivisten reaalilukujenjoukko. Haluammevalitafunktioperheestä

F = { f (x; θ), θ ∈ Θ }

yhden tiheysfunktion,jokaesittääparhaiten tuotteen elinaikaa. Valitaansiis

yksi parametrin

θ

arvo eli parametrin

θ

piste-estimaatti, joka määrittää ja- kauman.

Parametrinarvoarvioidaaneliestimoidaanhavaintojenperusteella.Teem-

me jakaumasta havainnon

X = x

ja estimoimme parametrin

θ

arvon ha-

vainnon

x

perusteella. Parametrin

θ

estimoimiseen käytettävää otosfunktio- ta

T (X)

kutsutaan parametrin

θ

estimaattoriksi ja estimaattorin

T (X)

ar-

voa

t = T (x)

kutsutaan parametrin

θ

estimaatiksi. Estimaattori pyritään valitsemaan siten, että se antaa hyviä arvioita parametrista

θ

.

Esimerkki 8.9 Estimoidaan ehdokkaan

A

kannattajien suhteellinen osuus

θ

eräässäsuuressa kaupungissa.Valitaankaupunginäänioikeutetuistasatun- naisesti

n

henkilöä,joiltatiedustellaanheidänkantaansaehdokkaasta

A

. Ol-

koon

X

ehdokkaan

A

kannattajienlukumäärä otoksessa.Koska populaation koko onsuuriverrattuna otoskokoon

n

, voidaanolettaa, että

X ∼ Bin(n, θ)

,

missä

θ

ontodennäköisyys,ettäsatunnaisestivalittuhenkilökannattaa

A

:ta.

Binomijakaumaanoudattavansatunnaismuuttujan

X

todennäköisyysfunktio onmuotoa

f (x; n, θ) = n

x

θ x (1 − θ) n x , x = 0, 1, . . . , n; 0 ≤ θ ≤ 1.

Binomijakauman parametriavaruus on

Θ = { θ | 0 ≤ θ ≤ 1 }

. Tehtävänäm- me on määrittää

θ

:n estimaattori

T (X)

siten, että havaitun arvon

X = x

perusteellasaadaanhyvä

θ

:npiste-estimaatti

T (x)

.Havainnon

X = x

toden-

näköisyys on

(8.3.1)

P (X = x; θ) =

n x

θ x (1 − θ) n x .

Erästapamäärittää

θ

:nestimaattiontarkastellatodennäköisyyttä

P (X = x; θ)

parametrin

θ

funktionaja etsiä sellainen

θ

:n arvo,että havainnon

x

to-

dennäköisyyssaavuttaamaksiminsa.Voidaanosoittaa,ettähavainnon

X = x

todennäköisyys maksimoituu, kun

θ = x/n

. Tätä estimaattia kutsutaan

θ

:n

suurimman uskottavuuden estimaatiksi ja sitämerkitään

θ ˆ = x n .

(16)

8.4 Uskottavuussuhde

Todennäköisyyden (8.3.1) lausekkeessa tekijä

n x

ei riipu parametrista

θ

.

Uskottavuusfunktio onparametrin

θ

funktio ja merkitsemme

(8.4.1)

L(θ) = f(x; θ),

missä

f (x; θ)

on todennäköisyysfunktio ja

f (x; θ)

on siis havainnon

X = x

todennäköisyys. Uskottavuussuhteen

(8.4.2)

L(θ 1 )

L(θ 2 ) = f(x; θ 1 ) f(x; θ 1 ) ,

avullavertaillaankahdenparametrinarvon

θ 1

ja

θ 2

suhteellistauskottavuut- ta, kun on havaittu

X = x

. Uskottavuuspäättelyn perusta on uskottavuus- suhde. Silloinuskottavuusfunktio

(8.4.3)

L(θ) = c · f (x; θ),

antaa samat uskottavuussuhteet kuin (8.4.1), kun vakio

c

ei riipu paramet-

rista

θ

. Sen sijaan

c

voi riippua havainnosta

x

. Monesti vakio

c

pyritään va-

litsemaan siten, että

L(θ)

:lle saadaan yksinkertainen lauseke. Uskottavuus- funktioon perustuvatpäätelmät eivät siisriipu vakion

c

valinnasta.

Tavallisesti uskottavuusfunktio tulee olemaan useiden tekijöiden tulo ja

mm. siitä syystä on osoittautunut käteväksi työskennellä uskottavuusfunk-

tion logaritminavulla.Logaritmoituuskottavuusfunktio

l(θ)

onuskottavuus- funktion luonnollinen logaritmieli

(8.4.4)

l(θ) = log L(θ).

Esityksestä (8.4.3)seuraa, että

l(θ) = log c + log f(x; θ),

missävakio

c

eisiisriipu

θ

:sta.Jatkossakinkaikkilogaritmitovatluonnollisia logaritmeja,elleitoisin mainita.

Suurimman uskottavuuden estimaatti(SUE)

θ ˆ

on se parametrin

θ

arvo,

jokamaksimoihavainnon

x

todennäköisyyden

f (x; θ)

.Samaarvo

θ ˆ

maksimoi

myösfunktiot

L(θ)

ja

l(θ)

.Suurimmanuskottavuudenestimaatti

θ ˆ

onsiisus-

kottavuusfunktion ja logaritmoidunuskottavuusfunktion maksimikohta.Ta-

vallisestitarkastellaanlogaritmoituauskottavuusfunktiota,koskaseonusein

matemaattisestiyksinkertaisempi kuin uskottavuusfunktio. Logaritmoidulla

uskottavuusfunktiollaonmyösteoreettisestimerkittävätilastollinentulkinta.

Esimerkki 8.10 Tarkastellaan edelleen Esimerkkiä 8.9, jossa havaintojen

todennäköisyysfunktio on

f (x; θ) = n x

θ x (1 − θ) n x

. Kun uskottavuusfunk- tiossa (8.4.1) valitaanvakionarvoksi

c = 1 n

x

,saadaan esitysmuoto

L(θ) = θ x (1 − θ) n−x , 0 ≤ θ ≤ 1.

(17)

Tässäuskottavuusfunktionesityksessä eioleturhiavakiotekijöitä.Tätäus-

kottavuusfunktionesitysmuotoakutsutaanmyösuskottavuusfunktionytimek-

si. Esitämme uskottavuusfunktion usein tässä ydinmuodossa. Logaritmoitu

uskottavuusfunktio on

l(θ) = x log θ + (n − x) log(1 − θ), 0 < θ < 1.

Parametrin

θ

suurimman uskottavuuden estimaattion siis se

θ

:n arvo, joka

maksimoifunktion

l(θ)

.Huomattakoon,että

l(θ)

eiolemääriteltyvälin

[0, 1]

päätepisteissä,mutta

L(θ)

on.

Viittaukset

LIITTYVÄT TIEDOSTOT

Vaikuttaisi siis siltä, että mikäli kyseessä on ` × k- ruudukko, kun ei ole olemassa mitään ykköstä suurem- paa kokonaislukua, jolla voisi jakaa sekä luvun ` että k niin,

Olkoon G äärellinen ryhmä, jolla on vain yksi maksimaalinen aliryhmä.. Osoita, että G on syklinen ja sen kertaluku on jonkin

(Vihje: a-kohdassa

b) K¨ aytt¨ aen vuoden 2004 kokonaisvienti¨ a kantalukuna saadaan viennin prosentuaa- linen jakauma toimialoittain viimeiseen

Pohjaneli¨ on l¨ avist¨ aj¨ an puolikas ja pyramidin korkeus ovat kateetteja suorakulmaisessa kolmiossa, jonka hypotenuusa on sivus¨ arm¨ a.. y-akseli jakaa nelikulmion

Satunnaismuuttujien X ja Y yhteisjakauma on kaksiulotteinen Ber- noullin jakauma (Alaluku 7.1.4).. Olkoon X osuman et¨

Myöskään Rion biodiversiteettisopimus ei määrit- tele näkökohtien soveltamiseen mitään ehdotonta hierarkiaa (Asetus biologista... Toisaalta voidaan esittää myös,

Siihen multimedia soveltuukin hyvin tarjoamalla mahdollisuuden havainnollistaa opetet- tavaa asiaa jollooin aiheesta voidaan antaa monipuolinen kuva.. Esimerkiksi