• Ei tuloksia

¨a¨a Tilastollisenp ttelynperusteet,MTTTP5Luentorunko,lukuvuosi2018-2019

N/A
N/A
Info
Lataa
Protected

Academic year: 2022

Jaa "¨a¨a Tilastollisenp ttelynperusteet,MTTTP5Luentorunko,lukuvuosi2018-2019"

Copied!
56
0
0

Kokoteksti

(1)

Tilastollisen p¨a¨attelyn perusteet, MTTTP5 Luentorunko, lukuvuosi 2018 - 2019

Raija Lepp¨ al¨ a

25. syyskuuta 2018

(2)

Sis¨ alt¨ o

1 Johdanto 2

2 Todenn¨ak¨oisyyslaskentaa 4 2.1 Satunnaisilmi¨o ja tapahtuma 4 2.2 Klassinen todenn¨ak¨oisyys 5

2.3 Todenn¨ak¨oisyyslaskennan aksioomat ja laskus¨a¨ant¨oj¨a 6 2.4 Kombinatoriikkaa 9

3 Todenn¨ak¨oisyysjakaumia 12

3.1 Satunnaismuuttuja ja todenn¨ak¨oisyysjakauma 12 3.2 Diskreetti satunnaismuuttuja 14

3.3 Jatkuva satunnaismuuttuja 15

3.4 Odotusarvon ja varianssin ominaisuuksia 16 3.5 Joitain todenn¨ak¨oisyysjakaumia 19

3.5.1 Bernoulli-jakauma 19 3.5.2 Binomijakauma 20

3.5.3 Diskreetti tasajakauma 21 3.5.4 Jatkuva tasajakauma 22 3.5.5 Normaalijakauma 22

4 Satunnaisotos, otossuure ja otosjakauma 28 4.1 Satunnaisotos 28

4.2 Otossuureet ja otosjakaumat 29 5 Parametrien estimointi 32 5.1 Piste-estimointi 32

5.2 Luottamusv¨alej¨a 34

5.2.1 Populaation odotusarvon luottamusv¨ali 34 5.2.2 Prosentuaalisen osuuden luottamusv¨ali 37

5.2.3 Kahden populaation odotusarvojen erotuksen luottamusv¨ali 38 5.2.4 SPSS -ohjeita 40

6 Hypoteesien testaus 41 6.1 Erilaisia testej¨a 44

6.1.1 Yhden populaation odotusarvoa koskeva p¨a¨attely 44

6.1.2 Yhdess¨a populaatiossa tietyn tyyppisten alkioiden prosentuaalista osuutta koskeva p¨a¨attely 46

6.1.3 Kahden jakauman sijainnin vertailu 47 6.2 SPSS -ohjeita 49

(3)

Luku 1 Johdanto

Tilastollinen analyysi voidaan jakaa karkeasti kuvailevaan (descriptive) analyysiin ja tilastolliseen p¨a¨attelyyn (statistical inference). Kuvaileva tilastotiede pyrkii kuvailemaan tietoaineiston sis¨alt¨o¨a erilaisten graafisten esitysten ja tunnuslukujen sek¨a taulukoiden avulla. Kuvailevaan tilastotieteeseen tutustuttiin tilastotieteen johdantokurssilla.

Opintojaksolla tilastollisen p¨a¨attelyn perusteet perehdyt¨a¨an tilastolliseen p¨a¨at- telyyn, johon jo alustavasti tutustuttiinkin johdantokurssilla. Empiirisiss¨a tutki- muksissa on k¨ayt¨oss¨a satunnaisotos populaatiosta. Otoksen perusteella pyrit¨a¨an tekem¨a¨an johtop¨a¨atelmi¨a koko populaatiosta. Voidaan haluta arvioida vaikka- pa populaation keskiarvoa (Esim. 1.0.1) tai pyrit¨a¨an selvitt¨am¨a¨an milloin voi- daan sanoa ehdollisten otoskeskiarvojen perusteella, ett¨a populaatioissa keskiar- vot poikkeavat toisistaan (Esim. 1.0.2).

Esimerkki 1.0.1 Halutaan selvitt¨a¨a potilaiden sairaalassaolop¨aivien keskim¨a¨a- r¨aist¨a aikaa. Tutkitaan asiaa tekem¨all¨a 100 potilaan satunnaisotos ja saadaan oheiset analyysitulokset.

Statistics

Mean 4.530

Std. Deviation 3.678

Std. Error of Mean 0.3682

95% Confidence Interval of the Mean upper 5.135

lower 3.925

n 100

Test mean = value

hypothesized value 5 actual estimate 4.530

t-Test

test statistic −1.28 prob >|t| 0.201

Esimerkki 1.0.2 Ovatko tyt¨ot ja pojat syntyess¨a¨an keskim¨a¨arin samanpainoi- sia? Er¨a¨ast¨a aineistosta (http://mtl.uta.fi/tilasto/tiltp aineistoja/saidit.sav,http:

//mtl.uta.fi/tilasto/tiltp aineistoja/saidit.xls, n = 120) laskettuna poikien pai- non keskiarvo oli 3640.46 ja tytt¨ojen 3451.27. Otoskeskiarvojen erotus oli siis 189.19. Voidaanko t¨am¨an perusteella yleist¨a¨a ja sanoa, ett¨a pojat ovat syntyes-

(4)

Analyysin tuloksia:

Means and Standard Deviations level number mean std dev pojat 65 3640.46 438.24 tyt¨ot 55 3451.27 523.28

t-Test df prob >|t|

2.156 118 0.033

Tilastollisten p¨a¨atelmien teko perustuukin satunnaisotoksesta m¨a¨ariteltyjen tun- nuslukujen (kuten esim. otoskeskiarvojen) todenn¨ak¨oisyysjakaumiin. Johtop¨a¨a- telm¨at tehd¨a¨an erilaisten tilastollisten testien ja analysointimenetelmien avulla.

T¨allaiseen p¨a¨attelyyn sis¨altyy tietty¨a ep¨avarmuutta, jota pyrit¨a¨an hallitsemaan k¨aytt¨aen hyv¨aksi todenn¨ak¨oisyyslaskentaa ja erilaisia todenn¨ak¨oisyysjakaumia.

Opintojaksolla tilastollisen p¨a¨attelyn perusteet tutustutaankin aluksi todenn¨a- k¨oisyyslaskentaan, todenn¨ak¨oisyysjakaumiin sek¨a otosjakaumiin sek¨a niiden k¨ayt- t¨o¨on tilastollisessa p¨a¨attelyss¨a. T¨am¨an j¨alkeen vuorossa on tilastollisen p¨a¨attelyn perusk¨asitteiden esittely. K¨ayd¨a¨an l¨api estimointiin liittyvi¨a k¨asitteit¨a, luotta- musv¨alej¨a sek¨a tutustutaan joihinkin tilastollisiin testeihin.

T¨am¨a moniste ei sis¨all¨a kovin laajaa kokoelmaa esimerkeist¨a, mutta lis¨aesimerk- kej¨a l¨oytyy opetuksen toteutuksen yhteydess¨a julkaistavasta luentomateriaalis- ta. Opiskelun tukena voi my¨os k¨aytt¨a¨a opintojakson www-sivuston materiaalin, kirjallisuusluettelossa esitetty¨a oheiskirjallisuutta sek¨a t¨ass¨a monisteessa olevia linkkej¨a.

(5)

Luku 2

Todenn¨ ak¨ oisyyslaskentaa

2.1 Satunnaisilmi¨ o ja tapahtuma

Esimerkki 2.1.1 Heitett¨aess¨a rahaa ei tiedet¨a saadaanko kruuna vai klaava.

Tiedet¨a¨an, ett¨a molemmat vaihtoehdot ovat yht¨a todenn¨ak¨oisi¨a. Heitett¨aess¨a noppaa tiedet¨a¨an, ett¨a saadaan silm¨aluku 1, 2, 3, 4, 5 tai 6, mutta ei tiede- t¨a etuk¨ateen silm¨alukua. Tiedet¨a¨an, ett¨a jokaisen silm¨aluvun todenn¨ak¨oisyys on sama. Kortin vet¨aminen sekoitetusta korttipakasta, lottoaminen, veikkaaminen, bussin saapuminen pys¨akille ja p¨aiv¨an s¨a¨a ovat my¨os esimerkkej¨a ilmi¨oist¨a, joihin liittyy ep¨avarmuutta.

Satunnaisilmi¨o on mik¨a tahansa ilmi¨o, johon liittyy useita eri tulosmahdollisuuk- sia sek¨a ep¨avarmuutta ilmi¨on tuloksesta. Puhutaan my¨os satunnaiskokeesta.

Satunnaisilmi¨o¨on liittyvien kaikkien mahdollisten tulosten joukkoa kutsutaanpe- rusjoukoksi (otosavaruudeksi) E. K¨ayt¨ann¨oss¨a ollaan kiinnostuneita joistain pe- rusjoukon osajoukoista (sek¨a niiden esiintymistodenn¨ak¨oisyyksist¨a). Perusjoukon osajoukko on nimelt¨a¨antapahtuma. Tapahtumia merkit¨a¨an A, B,C, . . .

Esimerkki 2.1.2 Rahanheitto

E = ”kaikki mahdolliset tulokset” ={kruuna, klaava}.

Tapahtumia: A = ”saadaan kruuna” ={kruuna}, B = ”saadaan klaava” ={klaava}.

Nopanheitto

E ={1,2,3,4,5,6}.

Tapahtumia: A = ”saadaan parillinen” ={2,4,6}, B ={1},

C ={1,2,3},

D = ”saadaan suurempi kuin 4” ={5,6}.

(6)

Kortin vet¨aminen sekoitetusta korttipakasta E = ”kaikki kortit”.

Tapahtumia: A = ”saadaan pata”, B = ”saadaan kuningas”, C = ”saadaan punainen ¨ass¨a”.

Lottoaminen (40 palloa, joista arvotaan palauttamatta 7)

E = ”kaikki mahdolliset lottorivit”, joita on 18643560 (ks. kombinatoriikka).

Tapahtumia: A = ”saadaan 7 oikein”, B = ”saadaan 6 oikein”, C = ”ei saada yht¨a¨an oikein”.

Veikkaaminen (13 kohdetta, joissa jokaisessa 3 vaihtoehtoa)

E = ”kaikki mahdolliset rivit”, joita on 1594323 (ks. kombinatoriikka).

Tapahtumia: A = ”saadaan 13 oikein”, B = ”saadaan 12 oikein”, C = ”ei saada yht¨a¨an oikein”.

2.2 Klassinen todenn¨ ak¨ oisyys

Olkoon tarkasteltavan satunnaisilmi¨on perusjoukossan tulosta, jotka ovatkaikki yht¨a mahdollisia. Olkoon tapahtumaanAliittyvi¨a tuloksiakkappaletta (0≤k ≤ n). T¨all¨oin tapahtuman A todenn¨ak¨oisyys

P(A) = k n. Esimerkki 2.2.1 Rahanheitto

A = ”saadaan kruuna”, P(A) = 1 2. Nopanheitto

A= ”saadaan parillinen” ={2,4,6}, P(A) = 3

6, B ={1}, P(B) = 1

6,

D= ”suurempi kuin 4” ={5,6}, P(D) = 2

6.

(7)

Lottoaminen

A = ”saadaan 7 oikein”,

P(A) = 1

kaikkien rivien lkm = 1 18643560, B = ”saadaan 6 oikein”,

P(B) = rivien lkm, joissa 6 oik.

kaikkien rivien lkm.

Klassisen todenn¨ak¨oisyyden (voidaan liitt¨a¨a vain ¨a¨arellisiin perusjoukkoihin) yh- teydess¨a lukujennjak m¨a¨aritt¨aminen ei aina ole yksinkertaista. Joudutaan usein k¨aytt¨am¨a¨an hyv¨aksi kombinatoriikkaa.

Tapahtuman A todenn¨ak¨oisyys voidaan my¨os m¨a¨aritell¨a arvoksi, jota tapahtu- man suhteellinen frekvenssi l¨ahestyy satunnaiskoetoistojen m¨a¨ar¨a¨a kasvatettaes- sa.

2.3 Todenn¨ ak¨ oisyyslaskennan aksioomat ja laskus¨ a¨ ant¨ oj¨ a

Matemaattisesti m¨a¨ariteltyn¨a todenn¨ak¨oisyys on joukkofunktio P, joka liitt¨a¨a jo- kaiseen satunnaisilmi¨on tapahtumaan A reaaliluvun P(A), jota sanotaan tapah- tumanA todenn¨ak¨oisyydeksi ja joka toteuttaa tietyt aksioomat.

Aksiooma 1 Jos A on mik¨a tahansa satunnaisilmi¨on tapahtuma, niin 0≤ P(A)≤1.

Aksiooma 2 P(E) = 1. T¨all¨oin kyseess¨a varma tapahtuma.

JosA ja B ovat kaksi saman satunnaisilmi¨on tapahtumaa, niin m¨a¨aritell¨a¨an nii- den yhdiste

A∪B = ”A tai B tai molemmat tapahtuvat”

ja leikkaus

A∩B = ”A ja B molemmat tapahtuvat”.

Sanotaan, ett¨a tapahtumat A ja B ovat erillisi¨a, jos ne molemmat eiv¨at voi ta- pahtua samanaikaisesti eli A∩B =∅(mahdoton tapahtuma).

Aksiooma 3 Jos tapahtumatAjaBovat erillisi¨a, eliA∩B =∅, niinP(A∪B) = P(A) +P(B).

(8)

Esimerkki 2.3.1 Nopanheitto

A = ”saadaan parillinen” ={2,4,6}, P(A) = 3

6,

B = ”saadaan ykk¨onen” ={1}, P(B) = 1

6,

A∪B = ”saadaan parillinen tai ykk¨onen”, A∩B =∅, joten P(A∪B) =P(A) +P(B).

Laskus¨a¨ant¨o 1 Mahdottoman tapahtuman todenn¨ak¨oisyys on nolla:

P(∅) = 0.

M¨a¨aritell¨a¨an A:n komplementtitapahtuma

AC = ”A ei tapahdu”

Laskus¨a¨ant¨o 2

P(AC) = 1−P(A).

Esimerkki 2.3.2 Nopanheitto

A= ”silm¨aluku pienempi kuin 6”, AC = ”silm¨aluku 6”,

P(A) = 1−P(AC) = 1−1 6.

Esimerkki 2.3.3 Tarkastellaan vakioveikkausrivin t¨aytt¨amist¨a t¨aysin satunnai- sesti. Olkoon A= ”saadaan korkeintaan 11 oikein”.

P(A) = 1−P(AC) = 1−P(saadaan 12 tai 13 oikein).

Laskus¨a¨ant¨o 3 Jos tapahtumatA1,A2, . . . , Ak ovat pareittain erillisi¨a eli mit- k¨a¨an kaksi tapahtumaa eiv¨at voi esiinty¨a samanaikaisesi, niin

P(A1∪A2∪ · · · ∪Ak) =P(A1) +P(A2) +· · ·+P(Ak).

Esimerkki 2.3.4 Vedet¨a¨an kortti sekoitetusta pakasta. Laske todenn¨ak¨oisyys, ett¨a kortti on ruutu-, hertta- tai ristikortti. (Vast. 3952)

Laskus¨a¨ant¨o 4 (yleinen yhteenlaskus¨a¨ant¨o) JosAjaB ovat saman satunnaisil- mi¨on tapahtumia, niin

P(A∪B) =P(A) +P(B)−P(A∩B).

(9)

Esimerkki 2.3.5 Vedet¨a¨an kortti sekoitetusta pakasta. Laske todenn¨ak¨oisyys, ett¨a kortti on patakortti tai ¨ass¨a.

P(kortti pata tai ¨ass¨a) =P(kortti pata) +P(kortti ¨ass¨a)−P(kortti pata¨ass¨a)

= 13 52+ 4

52− 1 52 = 16

52.

M¨a¨aritell¨a¨anA:n ehdollinen todenn¨ak¨oisyys ehdolla B: OlkootA jaB saman sa- tunnaisilmi¨on tapahtumia siten, ett¨aP(B)>0. T¨all¨oin tapahtumanAehdollinen todenn¨ak¨oisyys ehdolla, ett¨a tiedet¨a¨an tapahtuman B esiintyneen on

P(A|B) = P(A∩B) P(B) .

Esimerkki 2.3.6 Nopanheitossa on saatu pariton silm¨aluku. Mik¨a on silm¨alu- vun 5 todenn¨ak¨oisyys? A = {5}, B = {1, 3, 5},

P(A|B) = P(A∩B)

P(B) = 1/6 3/6 = 1

3. Laskus¨a¨ant¨o 5 (yleinen kertolaskus¨a¨ant¨o) Jos P(B)>0, niin

P(A∩B) =P(B)P(A|B).

TapahtumatA ja B ovat (tilastollisesti, stokastisesti) riippumattomia, jos P(A | B) = P(A). T¨all¨oin siis B:n tapahtuminen tai tapahtumatta j¨a¨aminen ei vaiku- ta A:n tapahtumisen todenn¨ak¨oisyyteen ja A:n tapahtuminen tai tapahtumatta j¨a¨aminen ei vaikuta B:n tapahtumisen todenn¨ak¨oisyyteen.

Jos tapahtumatA ja B ovat riippumattomia, niin P(A∩B) = P(A)P(B).

Tapahtumien riippumattomuus voidaan yleist¨a¨a: Tapahtumat A1, A2, . . . , Ak

ovat riippumattomia, jos mink¨a¨an niist¨a tapahtuminen tai tapahtumatta j¨a¨ami- nen ei vaikuta muiden tapahtumien todenn¨ak¨oisyyksiin. T¨all¨oin

P(A1∩A2∩ · · · ∩Ak) =P(A1)P(A2)· · ·P(Ak).

Riippumattomuusk¨asite ja esitetty todenn¨ak¨oisyyden laskukaava voidaan yleist¨a¨a my¨os eri satunnaisilmi¨oiden v¨alille, jolloin tapahtumat voivat olla eri satunnaisil- mi¨oist¨a. Puhutaan yhdistetyst¨a satunnaisilmi¨ost¨a.

Esimerkki 2.3.7 Heitet¨a¨an noppaa kaksi kertaa.

A= ”1. heiton silm¨aluku 5”

B = ”2. heiton silm¨aluku 5”, A ja B ovat riippumattomat, joten

P(”saadaan 5 molemmilla heitoilla”)

=P(”1. heiton silm¨aluku 5”)P(”2. heiton silm¨aluku 5”) = 16 1

6

(10)

Esimerkki 2.3.8 Heitet¨a¨an noppaa kolme kertaa (toistetaan samaa satunnaisil- mi¨ot¨a).

A1 = ”1. heiton silm¨aluku pariton”

A2 = ”2. heiton silm¨aluku pariton”

A3 = ”3. heiton silm¨aluku pariton”

P(”saadaan kaikilla heitoilla pariton”)

=P(”1. heitolla pariton”)P(”2. heitolla pariton”)P(”3. heitolla pariton”) = 1 8

2.4 Kombinatoriikkaa

Tarkastellaan satunnaisilmi¨ot¨a, jonka voidaan ajatella syntyv¨an K:ssa eri vai- heessa (yhdistetty satunnaisilmi¨o). Oletetaan, ett¨a i:nness¨a vaiheessa on ni eri tulosmahdollisuutta. T¨all¨oin yhdistetyll¨a satunnaisilmi¨oll¨a on n1n2· · ·nK eri tu- losta.

Esimerkki 2.4.1 Kuinka monta vakioveikkausrivi¨a voidaan muodostaa? Mon- tako sellaista, joissa ei yht¨a¨an oikeaa? (Vast. 313= 1594323, 213= 8192)

Esimerkki 2.4.2 Kuinka moneen erilaiseen jonoon henkil¨ot A, B ja C voidaan j¨arjest¨a¨a? (Vast. 3·2·1)

Edell¨a muodostettiin kirjainten permutaatiot. Jonon mit¨a tahansa uutta j¨arjes- tyst¨a sanotaan permutaatioksi.

Kuinka moneen erilaiseen j¨arjestykseen n erilaista alkiota voidaan asettaa? Eri- laisia j¨arjestyksi¨a (permutaatioita) on

n(n−1)(n−2)· · ·2·1 = n! (n-kertoma).

M¨a¨aritell¨a¨an 0! = 1.

Kuinka moneen erilaiseen j¨arjestykseenn:st¨a erilaisesta alkiosta valitutk alkiota voidaan j¨arjest¨a¨a?

Erilaisia j¨arjestyksi¨a (permutaatioita) on

n(n−1)(n−2)· · ·(n−k+ 1) = n!

(n−k)!.

Olkoon n erilaista alkiota. T¨all¨oin k:n alkion osajoukkoja eli kombinaatioita voi- daan muodostaa

n!

k!(n−k)! = n

k

(lue: n yli k:n)

kappaletta. T¨am¨a luku on ns. binomikerroin. Kombinaatio on siis alkioiden jouk- ko, jossa j¨arjestyksell¨a ei ole v¨ali¨a.

(11)

Esimerkki 2.4.3 Kuinka monta erilaista lottorivi¨a?

40 7

= 40!

(40−7)!7! = 18643560 Kuinka monta sellaista, jossa kaikki v¨a¨arin?

33 7

= 33!

(33−7)!7! = 4272048 Kuinka monta sellaista, jossa k oikein?

7 k

40−7 7−k

Montako sellaista vakioveikkausrivi¨a, jossa k oikein?

13 k

·213−k

Esimerkki 2.4.4 Kuinka monta erilaista jonoa 5 henkil¨o¨a voi muodostaa? Ent¨a 10 henkil¨o¨a? (Vast. 5! = 120, 10! = 3628800)

Esimerkki 2.4.5 Kuinka moneen eri j¨arjestykseen korttipakan 52 korttia voi asettaa? (Vast. 52!)

Esimerkki 2.4.6 Valitaan luvuista 1, 2, 3, 4, 5, 6 kaksi lukua satunnaisesti pa- lauttamatta lukua valinnan j¨alkeen. Kyse siis yksinkertaisesta satunnaisotonnas- ta (YSO) palauttamatta. Muodosta kaikki mahdolliset otokset (populaation os- ajoukkoja, jossa j¨arjestyksell¨a ei merkityst¨a) ja m¨a¨arit¨a otoksen suurin alkio sek¨a sen eri arvojen todenn¨ak¨oisyydet.

6 2

= 6!

4!2! = 15 otosta

otokset Max

1 2 2

1 3 3

1 4 4

1 5 5

1 6 6

2 3 3

2 4 4

2 5 5

2 6 6

3 4 4

3 5 5

3 6 6

4 5 5

4 6 6

5 6 6

P(Max = 2) = 1 15 P(Max = 3) = 2

15 P(Max = 4) = 3

15 P(Max = 5) = 4

15 P(Max = 6) = 5

15

(12)

Esimerkki 2.4.7 Kuten edell¨a, mutta otanta systemaattisella otannalla.

otokset Max

1 4 4

2 5 5

3 6 6

P(Max = 4) =P(Max = 5) =P(Max = 6) = 1 3

(13)

Luku 3

Todenn¨ ak¨ oisyysjakaumia

3.1 Satunnaismuuttuja ja todenn¨ ak¨ oisyysjakauma

Funktiota, joka liitt¨a¨a yksik¨asitteisen reaaliluvun jokaiseen tarkasteltavan satun- naisilmi¨on perusjoukon tulokseen, sanotaan satunnaismuuttujaksi. Eri tuloksiin liittyvi¨a reaalilukuja sanotaan satunnaismuuttujan arvoksi. Jatkossa merkit¨a¨an (useimmiten) satunnaismuuttujia isoin kirjaimin (X, Y, Z, . . . ) ja satunnais- muuttujan arvoja pienin kirjaimin (x, y, z, . . . ).

Esimerkki 3.1.1 Satunnaisilmi¨o nopanheitto. Satunnaismuuttuja X = saatu silm¨aluku.

Esimerkki 3.1.2 Heitet¨a¨an kolikkoa nelj¨a kertaa. M¨a¨aritell¨a¨an satunnaismuut- tujaX = klaavojen lukum¨a¨ar¨a heittosarjassa. Etuk¨ateen ei tiedet¨a montako klaa- vaa saadaan, mutta voidaan laskea eri arvojen todenn¨ak¨oisyydet. T¨ass¨a satun- naismuuttujan X mahdolliset arvot ovat 0, 1, 2, 3 ja 4. Erilaisia heittosarjoja on kaikkiaan 16.

heittosarja klaavojen lkm heittosarja klaavojen lkm

Kl, Kl, Kl, Kl 4 Kr, Kl, Kl, Kr 2

Kr, Kl, Kl, Kl 3 Kl, Kr, Kl, Kr 2

Kl, Kr, Kl, Kl 3 Kr, Kl, Kr, Kl 2

Kl, Kl, Kr, Kl 3 Kl, Kr, Kr, Kr 1

Kl, Kl, Kl, Kr 3 Kr, Kl, Kr, Kr 1

Kl, Kl, Kr, Kr 2 Kr, Kr, Kl, Kr 1

Kr, Kr, Kl, Kl 2 Kr, Kr, Kr, Kl 1

Kl, Kr, Kr, Kl 2 Kr, Kr, Kr, Kr 0

P(X = 0) = 1

16, P(X = 1) = 4

16, P(X = 2) = 6 16, P(X = 3) = 4

16, P(X = 4) = 1 16.

Esimerkki 3.1.3 Satunnaisilmi¨on¨a veikkaaminen (13 kohdetta, joissa jokaisessa 3 vaihtoehtoa). T¨all¨oin voidaan m¨a¨aritell¨a satunnaismuuttuja X = oikein veikat-

(14)

tujen kohteiden lukum¨a¨ar¨a. X voi saada arvoja 0, 1, 2, . . . , 13. N¨aiden arvojen todenn¨ak¨oisyydet voidaan laskea (ks. binomijakauma).

Esimerkiss¨a3.1.2ilmoitettiin satunnaismuuttujan mahdolliset arvot ja eri arvojen todenn¨ak¨oisyydet. T¨all¨oin muodostettiin satunnaismuuttujan todenn¨ak¨oisyysja- kauma.

Satunnaismuuttuja voi olla joko jatkuva tai diskreetti. Edellisiss¨a esimerkeiss¨a satunnaismuuttujat olivat diskreettej¨a. Satunnaismuuttujaa sanotaan diskreetik- si, jos se voi saada arvokseen ¨a¨arellisen m¨a¨ar¨an erisuuria arvoja tai ¨a¨arett¨om¨an m¨a¨ar¨an siten, ett¨a arvot ovat numeroitavissa positiivisia kokonaislukuja k¨aytt¨aen.

Muulloin satunnaismuuttuja on jatkuva.

Diskreetin satunnaismuuttujan todenn¨ak¨oisyysjakauma voidaan usein (ainakin periaatteessa) muodostaa kuten esimerkiss¨a 3.1.2 Jatkuvien muuttujien yhtey- dess¨a todenn¨ak¨oisyysjakauma m¨a¨aritell¨a¨an jatkuvan funktion avulla. Funktiota, joka m¨a¨aritt¨a¨a satunnaismuuttujan todenn¨ak¨oisyysjakauman kutsutaan tiheys- funktioksi, merk. f(x). Diskreetin muuttujan yhteydess¨a puhutaan pistetodenn¨a- k¨oisyyksist¨a.

Satunnaismuuttujan X kertym¨afunktio F m¨a¨aritell¨a¨an F(x) =P(X ≤x).

Kertym¨afunktion arvo pisteess¨a x kertoo siis todenn¨ak¨oisyyden sille, ett¨a satun- naismuuttujan X arvo on ≤x.

Kertym¨afunktion ominaisuuksia:

1. F(−∞) = 0, F(∞) = 1

2. P(a < X ≤b) = F(b)−F(a), (a < b)

3. Jos X jatkuva, niin F(a) = P(X ≤a) =P(X < a).

4. P(X > a) = 1−P(X≤a) = 1−F(a)

5. Jos X jatkuva satunnaismuuttuja, niin F0(x) =f(x).

Esimerkki 3.1.4 Heitet¨a¨an kolikkoa nelj¨a kertaa. OlkoonX = klaavojen luku- m¨a¨ar¨a heittosarjassa. M¨a¨arit¨a ja piirr¨a X:n kertym¨afunktio. Laske P(X < 0), P(X ≤0), P(X <2.5) jaP(X ≤4).

F(x) =P(X ≤x),

P(X <0) = 0, P(X ≤0) = 1 16,

P(X <2.5) =P(X = 0) +P(X = 1) +P(X = 2) = 11 16, P(X ≤4) = 1.

(15)

Kertym¨afunktio on nyt porrasfunktio, joka voidaan piirt¨a¨a todenn¨ak¨oisyyksien P(X ≤0) = 1

16, P(X ≤1) = 5

16, P(X ≤2) = 11 16, P(X ≤3) = 15

16, P(X ≤4) = 1 avulla.

3.2 Diskreetti satunnaismuuttuja

Olkoon diskreetin satunnaismuuttujanX mahdolliset arvotx1,x2, . . . , ja n¨aiden arvojen todenn¨ak¨oisyydet p1,p2, . . . T¨all¨oin satunnaismuuttujanX todenn¨ak¨oi- syysjakauma m¨a¨aritell¨a¨an pistetodenn¨ak¨oisyyksien

P(X =xi) =

(pi, i= 1,2, . . .

0 muulloin, miss¨a p1+p2+· · ·= 1, perusteella.

Esimerkki 3.2.1 Heitet¨a¨an noppaa. M¨a¨aritell¨a¨anX = saatu silm¨aluku.

Todenn¨ak¨oisyysjakauma:

P(X = 1) =P(X = 2) =· · ·=P(X = 6) = 1 6 Kertym¨afunktio:

F(x) =P(X ≤x) =

















0, x <1

1

6, 1≤x <2

2

6, 2≤x <3 ...

6

6, x≥6

Samalla tavalla kuin empiiristen jakaumien yhteydess¨a jakaumaa voitiin kuvailla tunnuslukujen avulla, voidaan my¨os teoreettisia todenn¨ak¨oisyysjakaumin kuva- ta samantyyppisill¨a tunnusluvuilla, jotka m¨a¨aritell¨a¨an todenn¨ak¨oisyysjakauman avulla.

Empiirisen jakauman keskiarvoa vastaavaksi tunnusluvuksi todenn¨ak¨oisyysjakau- man (populaation) yhteydess¨a m¨a¨aritell¨a¨an jakauman odotusarvo (populaation keskiarvo) sek¨a otosvarianssia ja keskihajontaa vastaaviksi (populaation) varians- si ja keskihajonta.

Olkoon diskreetin satunnaismuuttujan X mahdolliset arvot x1, x2, . . . , xk ja n¨aiden arvojen todenn¨ak¨oisyydet p1, p2, . . . , pk.

(16)

T¨all¨oin satunnaismuuttujan X odotusarvo E(X) m¨a¨aritell¨a¨an E(X) =p1x1+p2x2+· · ·+pkxk=µ sek¨avarianssi Var(X)

Var(X) = E[(X−µ)2] =

k

X

i=1

pi(xi−E(X))2 =

k

X

i=1

pi(xi−µ)22 ja keskihajonta

Sd(X) = p

Var(X) =σ Huom. Edell¨a k voi siis olla my¨os ¨a¨aret¨on.

Esimerkki 3.2.2 Heitet¨a¨an noppaa. M¨a¨aritell¨a¨anX = saatu silm¨aluku. M¨a¨arit¨a E(X) ja Var(X).

P(X = 1) =· · ·=P(X = 6) = 1 6 E(X) = 1· 1

6+ 2·1

6 +· · ·+ 6· 1 6 = 3.5 Var(X) = (1−3.5)2· 1

6 + (2−3.5)2· 1

6+· · ·+ (6−3.5)2 ·1 6 = 35

12

Esimerkki 3.2.3 M¨a¨aritell¨a¨an rahanheitossa X = 1, jos saadaan kruuna, 0 muulloin. LaskeE(X) ja Var(X).

P(X = 1) =P(X = 0) = 1 2 E(X) = 1· 1

2 + 0· 1 2 = 1

2 Var(X) =

1− 1

2 2

· 1 2 +

0− 1

2 2

· 1 2 = 1

4

3.3 Jatkuva satunnaismuuttuja

Olkoon jatkuvan satunnaismuuttujanX tiheysfunktiof. Jottaf olisi tiheysfunk- tio onf(x)≥0, jokaisellax:n arvolla sek¨aR

−∞f(x) dx= 1 elif(x):n jax-akselin v¨aliin j¨a¨av¨a pinta-ala = 1. Tiheysfunktio kuvaa siis ykk¨osen suuruisen todenn¨a- k¨oisyysmassan jakaumaa. T¨all¨oin X:n odotusarvoE(X) m¨a¨aritell¨a¨an

E(X) = Z

−∞

xf(x) dx=µ, sek¨a varianssi Var(X)

Var(X) =E[(x−µ)2] = Z

−∞

x−E(X)2

f(x) dx=σ2

(17)

ja keskihajonta

Sd =p

Var(X) =σ.

Odotusarvo kuvaa jakauman keskikohtaa ja varianssi mittaa miten tiiviisti toden- n¨ak¨oisyysmassa on keskittynyt odotusarvon ymp¨arille (vrt. empiiriset jakaumat).

Olkoon X jatkuva satunnaismuuttuja sek¨aa ja b reaalilukuja (a≤b), t¨all¨oin P(X ≤a) =P(X < a) =F(a) =

Z a

−∞

f(x) dx, P(X ≥a) =P(X > a) = 1−P(X ≤a) = 1−F(a),

P(a < X < b) =P(a≤X < b) =P(a < X ≤b) =P(a≤X ≤b)

=F(b)−F(a).

Esimerkki 3.3.1 OlkoonX satunnaisesti v¨alilt¨a [0,1] valittu reaaliluku. T¨all¨oin f(x)=1. M¨a¨arit¨a X:n tiheysfunktio sek¨a kertym¨afunktio. Laske lis¨aksi P(X >

0.25), P(0.5≤X ≤0.75), P(X ≤a). Laske viel¨a E(X) ja Var(X).

F(x) =P(X ≤x) =





x·1 =x, 0≤x≤1 0, x <0 1, x >1

P(X >0.25) = 1−P(X ≤0.25) = 1−F(0.25) = 1−0.25 = 0.75, P(0.5≤X ≤0.75) =F(0.75)−F(0.5) = 0.75−0.5 = 0.25,

E(X) = Z 1

0

1·xdx= 1

2 −0 = 1 2, Var(X) =

Z 1 0

f(x)(x−1 2)2dx

= Z 1

0

1·(x− 1

2)2dx= Z 1

0

(x2−x+1

4) dx= 1 12.

OlkoonE(X) =µja Var(X) = σ2. T¨all¨oin muuttujaXstandardoidaan tekem¨all¨a muunnos

Z = (X−µ) σ .

3.4 Odotusarvon ja varianssin ominaisuuksia

Odotusarvon ominaisuuksia:

1. E(a) = a, a vakio

2. E(aX +b) = aE(X) +b, X satunnaismuuttuja ja a, b vakioita (aX +b my¨os satunnaismuuttuja)

(18)

3. OlkootX1,X2, . . . ,Xnsatunnaismuuttujia, jolloin my¨osX1+X2+· · ·+Xn on satunnaismuuttuja ja

E(X1+X2+· · ·+Xn) = E(X1) +E(X2) +· · ·+E(Xn) 4. Jos satunnaismuuttujat X ja Y ovat riippumattomia, niin

E(XY) = E(X)E(Y).

Satunnaismuuttujien riippumattomuus m¨a¨aritell¨a¨an vastaavalla tavalla kuin ta- pahtumien riippumattomuuskin. Diskreetin satunnaismuuttujan yhteydess¨a: Sa- tunnaismuuttujat ovat riippumattomia, joss

P(X =xi, Y =yj) =P(X =xi)(Y =yj), ∀i, j Varianssin ominaisuuksia:

1. Var(a) = 0, a vakio

2. Var(X) =E(X2)−(E(X))2

3. Var(aX+b) =a2Var(X),a, b vakioita 4. Sd(aX+b) =|a|Sd(X), a,b vakioita

5. Jos satunnaismuuttujat X1,X2, . . . , Xn ovat riippumattomia, niin Var(X1+X2+· · ·+Xn) = Var(X1) + Var(X2) +· · ·+ Var(Xn) 6. Olkoot X ja Y satunnaismuuttujia. T¨all¨oin

Var(X±Y) = Var(X) + Var(Y)±2 Cov(X, Y), miss¨a Cov(X, Y) = E

X − E(X)

Y − E(Y)

= σXY on satunnais- muuttujien X ja Y v¨alinen kovarianssi, joka on nolla, jos X ja Y ovat riippumattomia. Kovarianssi liittyy muuttujien X ja Y yhteisjakaumaan.

Satunnaismuuttujien X ja Y v¨alinen korrelaatiokerroin ρXY = Cov(X, Y)

Sd(X) Sd(Y).

Esimerkki 3.4.1 Olkoon E(X) = µ ja Var(X) = σ2. M¨a¨aritell¨a¨an Z = (X − µ)/σ. LaskeE(Z) ja Var(Z).

E(Z) =E

(X−µ) σ

= 1

σ E(X)−µ

= 1

σ(µ−µ) = 0, Var(Z) = Var

(X−µ) σ

= 1

σ2 Var(X−µ) = 1

σ2Var(X) = 1.

Esimerkki 3.4.2 OlkootX jaY riippumattomia satunnaismuuttujia sek¨a m¨a¨a- ritell¨a¨an Z = X−Y. Olkoon Sd(X) = σX ja Sd(Y) = σY sek¨a E(X) = µX ja E(Y) =µY. Laske Z:n odotusarvo ja keskihajonta.

E(Z) =E(X−Y) = E(X)−E(Y) = µX −µY, Var(Z) = Var(X−Y) = Var(X) + Var(−Y)

= Var(X) + (−1)2Var(Y) =σX2Y2, Sd(Z) =

q

σ2XY2.

(19)

Esimerkki 3.4.3 Olkoot X1, X2, . . . , Xn riippumattomia satunnaismuuttujia siten, ett¨aE(Xi) = µja Var(Xi) = σ2. M¨a¨aritell¨a¨anY = (X1+X2+· · ·+Xn)/n.

Laske E(Y) ja Var(Y).

E(Y) =E 1

n(X1+X2+· · ·+Xn)

= 1

nE(X1+X2+· · ·+Xn)

= 1

n E(X1) +E(X2) +· · ·+E(Xn)

= 1

n ·n·µ=µ, Var(Y) = Var

1

n(X1+X2+· · ·+Xn)

= 1

n 2

Var(X1) +· · ·+ Var(Xn)

= 1

n 2

· n·σ2 = σ2 n .

Esimerkki 3.4.4 Sijoitat 1000 euroa. Mahdollisia sijoituskohteita A ja B, jois- sa molemmissa pienin sijoitusm¨a¨ar¨a 500 euroa. Olkoon X = tuotto 100 euron sijoituksesta A:han, Y = tuotto 100 euron sijoituksesta B:hen. Olkoon lis¨aksi P(X = −5) = 0.4, P(X = 20) = 0.6, P(Y = 0) = 0.6, P(Y = 25) = 0.4 sek¨a sijoitukset toisistaan riippumattomia. Miten sijoittaisit?

Mahdolliset vaihtoehdot:

1. 1000 euroa A:han, 2. 1000 euroa B:hen, 3. 500 euroa kumpaankin.

E(X) =−5·0.4 + 20·0.6 = 10, E(Y) = 0·0.6 + 25·0.4 = 10,

Var(X) = 0.4(−5−10)2+ 0.6(20−10)2 = 150, Var(Y) = 0.6(0−10)2+ 0.4(25−10)2 = 150.

Olkoon W tuotto sijoituksesta.

1. W = 10X: E(10X) = 10·E(X) = 100, Var(10X) = 102Var(X) = 15000.

2. W = 10Y : E(10Y) = 10·E(Y) = 100, Var(10Y) = 102Var(Y) = 15000.

3. W = 5X+ 5Y : E(W) = E(5X) +E(5Y) = 5E(X) + 5E(Y) = 100, Var(W) = 52Var(X) + 52Var(Y) = 7500.

Vaihtoehto 3 on paras.

Esimerkki 3.4.5 Sijoitetaan 1000 euroa. Mahdollisia kohteita A ja B. Olkoon X = 1 euron tuotto kohteesta A, Y = 1 euron tuotto kohteesta B. Olkoon X ja Y riippumattomia sek¨a E(X) = E(Y) = µ ja Var(X) = Var(Y) = σ2. Miten sijoitat?

(20)

Sijoitetaan kohteeseen Aα euroa ja kohteeseen B (1000−α) euroa. TuottoW = α·X+ (1000−α)Y.

E(W) = αE(X) + (1000−α)E(Y) = αµ+ (1000−α)µ= 1000µ, siis ei riipu α:sta!

Var(W) = Var(αX) + Var (1000−α)Y

2Var(X) + (1000−α)2Var(Y)

2(2α2−2000α+ 1000000).

Josα = 0, niin Var(W) = 1000000σ2. Jos α= 1000, niin Var(W) = 1000000σ2. Minimoidaan f(α) = 2α2−2000α+ 1000000.

f0(α) = 4α−2000 = 0⇐⇒α= 500 T¨all¨oin Var(W) = 500000σ2.

Kannattaa sijoittaa 500 euroa molempiin, koska t¨all¨oin tuotolla on pienin varians- si.

3.5 Joitain todenn¨ ak¨ oisyysjakaumia

3.5.1 Bernoulli-jakauma

Tarkastellaan satunnaisilmi¨ot¨a, jossa joko onnistutaan (A) tai ep¨aonnistutaan (AC). M¨a¨aritell¨a¨an satunnaismuuttuja X siten, ett¨a

X =

(1, jos onnistutaan 0, jos ep¨aonnistutaan.

Olkoon lis¨aksi

P(A) =P(X = 1) =p,

P(AC) =P(X = 0) =q= 1−p.

T¨all¨oin sanotaan, ett¨a X noudattaa Bernoulli-jakaumaa parametrilla p. Merki- t¨a¨an X ∼Ber(p).

JosX ∼Ber(p), niin

E(X) =p ja Var(X) = p(1−p) =pq.

Esimerkki 3.5.1

• Rahanheitto

• Veikkauksessa yhden kohteen arvaaminen

• Nopanheitto onnistumisena silm¨aluvun 6 saaminen

(21)

3.5.2 Binomijakauma

Tarkastellaan vakioveikkausta. M¨a¨aritell¨a¨an satunnaismuuttuja X = oikein ar- vattujen kohteiden kokonaislukum¨a¨ar¨a. Teht¨av¨an¨a on m¨a¨aritt¨a¨a X:n todenn¨a- k¨oisyysjakauma. T¨all¨oin p¨a¨adyt¨a¨an nk. binomijakaumaan.

Olkoon satunnaisilmi¨oss¨a onnistumisen todenn¨ak¨oisyys p. Toistetaan t¨at¨a satun- naisilmi¨ot¨a n kertaa. M¨a¨aritell¨a¨an X = onnistumisten kokonaislukum¨a¨ar¨a. T¨al- l¨oin sanotaan, ett¨aX noudattaa binomijakaumaa parametrein n ja p. Merkit¨a¨an X ∼Bin(n, p). Jos X ∼Bin(n, p), niin

P(X =k) = n

k

pk(1−p)n−k, k = 0,1, . . . , n ja

E(X) =np sek¨a Var(X) =np(1−p) =npq.

Binomijakaumaa noudattava satunnaismuuttuja m¨a¨aritell¨a¨an siis itse asiassa Ber- noulli-jakaumaa noudattavien satunnaismuuttujien summana. OlkoonXi ∼Ber(p), jolloin toistettaessa Bernoulli-koettan kertaa, onnistumisten kokonaislukum¨a¨ar¨a voidaan m¨a¨aritell¨a

X =X1+X2+· · ·+Xn

ja t¨all¨oin siis X ∼Bin(n, p).

T¨am¨an summamuuttujan avulla saadaan laskettua binomijakauman odotusarvo ja varianssi.

Esimerkki 3.5.2 Veikataan satunnaisesti yksi rivi. M¨a¨aritell¨a¨anX = oikein ar- vattujen kohteiden kokonaislukum¨a¨ar¨a. M¨a¨arit¨aX:n jakauma sek¨a sen odotusar- vo. Laske P(X = 0), P(X = 13), P(X >11), P(X >3).

X ∼Bin

13,1 3

, P(X =k) =

13 k

1 3

k 2 3

13−k

, P(X = 0) =

13 0

1 3

0 2 3

13−0

= 2

3 13

, P(X = 13) =

13 13

1 3

13 2 3

13−13

= 1

3 13

, P(X = 12) =

13 12

1 3

12 2 3

13−12

=· · · ≈0.000016, P(X = 11) =

13 11

1 3

11 2 3

13−11

=· · · ≈0.000196, P(X >11) =P(X = 12) +P(X = 13).

(22)

Esimerkki 3.5.3 Pelaat yst¨av¨asi kanssa peli¨a, jossa heitet¨a¨an rahaa. Jos tulee klaava, saat yst¨av¨alt¨asi euron, jos tulee kruuna, annat yst¨av¨allesi euron. On hei- tetty rahaa 20 kertaa ja olet tappiolla 14 euroa eli on tullut 17 kruunaa ja 3 klaa- vaa. Onko syyt¨a tutkia rahaa tarkemmin? Jos raha harhaton, niin X = klaavo- jen lukum¨a¨ar¨a 20 heitossa ∼Bin 20,12

. Mill¨a todenn¨ak¨oisyydell¨a olet v¨ahint¨a¨an 14 euroa tappiolla?

X ∼Bin

20,1 2

, P(X =k) = 20

k 1

2 k

1−1 2

20−k

= 20

k 1

2 20

,

P(X ≤3) = P(X = 0 tai X = 1 taiX = 2 tai X = 3)

=P(X = 0) +P(X = 1) +P(X = 2) +P(X = 3)

= 20

0

+ 20

1

+ 20

2

+ 20

3

1 2

20

= 20!

0! 20! + 20!

1! 19! + 20!

2! 18! + 20!

3! 17!

1 2

20

= (1 + 20 + 190 + 1140) 1

2 20

= 1351· 1

2 20

.

On siis sattunut tapahtuma, jonka todenn¨ak¨oisyys on hiukan yli 1/1000 tai peliss¨a oleva raha on harhainen ja antaa kruunan useammin kuin klaavan.

3.5.3 Diskreetti tasajakauma

Noppaa heitett¨aess¨a voidaan m¨a¨aritell¨a satunnaismuuttuja X = silm¨aluku. X:n mahdolliset arvot ovat 1, 2, 3, 4, 5, 6 ja jokaisen esiintymistodenn¨ak¨oisyys 1/6.

T¨at¨a jakaumaa kutsutaan diskreetiksi tasajakaumaksi v¨alill¨a (1,6).

Jos satunnaismuuttujanX arvot ovat kokonaislukuja

a, a+ 1, a+ 2, a+ 3, . . . , a+ (n−1) =b

ja kukin n:st¨a arvo yht¨a todenn¨ak¨oinen, niin sanotaan, ett¨a X noudattaa dis- kreetti¨a tasajakaumaa v¨alill¨a (a, b). Merkit¨a¨an X ∼Tasd(a, b). T¨all¨oin

E(X) = a+b

2 ja Var(X) = n2−1 12 . Esimerkki 3.5.4 Nopanheitto.

X ∼Tasd(1,6), E(X) = 1 + 6

2 = 3.5, Var(X) = 62−1 12 = 35

12. Esimerkki 3.5.5 Olkoon X yksinumeroinen satunnaisluku. Mahdolliset arvot ovat siis 0, 1, 2, . . . , 9 ja jokaisen arvon todenn¨ak¨oisyys 1/10. T¨all¨oin X ∼ Tasd(0,9), E(X) = (0 + 9)/2 ja Var(X) = (102−1)/12.

(23)

3.5.4 Jatkuva tasajakauma

Satunnaismuuttuja noudattaa jatkuvaa tasajakaumaa v¨alill¨a [a, b], jos sen tiheys- funktiof on

f(x) =

 1

b−a, kun a≤x≤b;

0, muulloin.

Merkit¨a¨an X ∼Tas(a, b). T¨all¨oin E(X) = a+b

2 , Var(X) = (b−a)2 12 . Esimerkki 3.5.6 Aiemmat esimerkit

X ∼Tas(0,1), E(X) = 1 + 0

2 = 0.5, Var(X) = (1−0)2

12 = 1

12. 3.5.5 Normaalijakauma

Seuraava todenn¨ak¨oisyysjakauma on tilastotieteess¨a hyvin keskeinen. Tarkastel- laan jatkuvaa satunnaismuuttujaaX, joka voi saada arvokseen kaikki reaaliluvut.

SatunnaismuuttujaX noudattaa normaalijakaumaa parametreinµjaσ2 (σ >0), jos sen tiheysfunktio on

f(x) = 1 σ√

2πe12[(x−µ)/σ]2, −∞< x < ∞.

T¨all¨oin E(X) = µja Var(X) = σ2. Merkit¨a¨an X ∼N(µ, σ2).

Jos X ∼ N(µ, σ2), niin sen tiheysfunktio on yksihuippuinen jakauma, symmet- rinen odotusarvon suhteen varianssin kertoessa jakauman levitt¨aytymisest¨a odo- tusarvon ymp¨arille.

JosX ∼N(0,1), niin sen tiheysfunktio on f(x) = 1

√2πe12x2, −∞< x <∞.

Kyseess¨a nk. standardoitu normaalijakauma. Usein merk. Z ∼ N(0,1), f(z) = φ(z) ja F(z) = P(Z ≤z) = Φ(z).

Normaalijakauman tiheysfunktion integraaliafunktiota (kertym¨afunktiota) ei tun- neta. Standardoidun normaalijakauman kertym¨afunktion Φ(z) = P(Z ≤ z) ar- voja on taulukoitu. Taulukoiden avulla voidaan laske erilaisia todenn¨ak¨oisyyksi¨a.

Normaalijakauman symmetrisyydest¨a seuraa, ett¨a Φ(z) = 1−Φ(−z).

(24)

Esimerkki 3.5.7 Olkoon Z ∼ N(0,1). Laske P(Z ≤ 1), P(Z ≤ 1.1), P(Z ≤ 1.14), P(Z ≤ -1), P(Z ≤0), P(−1≤Z ≤1), P(−2≤Z ≤2), P(−3≤Z ≤3).

P(Z ≤1) = Φ(1) = 0.8413, P(Z ≤1.1) = Φ(1.1) = 0.8643, P(Z ≤1.14) = Φ(1.14) = 0.8729,

P(Z ≤ −1) = 1−Φ(1) = 1−0.8413 = 0.1587, P(Z ≤0) = 0.5,

P(−1≤Z ≤1) = Φ(1)−Φ(−1) = Φ(1)− 1−Φ(1)

= Φ(1)−1 + Φ(1) = 2Φ(1)−1 = 0.6826, P(−2≤Z ≤2) = Φ(2)−Φ(−2) = Φ(2)− 1−Φ(2)

= 2Φ(2)−1 = 0.9544,

P(−3≤Z ≤3) = Φ(3)−Φ(−3) = Φ(3)− 1−Φ(3)

= 2Φ(3)−1 = 0.9974.

Esimerkki 3.5.8 OlkoonZ ∼N(0,1). M¨a¨arit¨az, kun a) Φ(z) = 0.75 b) Φ(z) = 0.26.

P(Z ≤z) = 0.75 =⇒z ≈0.67, a)

P(Z ≤z) = 0.26⇐⇒P(Z ≤ −z) = 1−0.26 = 0.74 b)

=⇒ −z = 0.64 =⇒z =−0.64.

Jos X ∼ N(µ, σ2), niin P(X ≤ a) voidaan laskea k¨aytt¨aen standardoitua nor- maalijakaumaa, sill¨a on osoitettavissa, ett¨a josX ∼N(µ, σ2), niin

Z = X−µ

σ ∼N(0,1).

Jos siis X ∼N(µ, σ2), niin P(X ≤a) = P

X−µ

σ ≤ a−µ σ

= Φ

a−µ σ

, P(X ≥a) = 1−P(X ≤a) = 1−P

X−µ

σ ≤ a−µ σ

= 1−Φ

a−µ σ

ja

P(a≤X ≤b) =P(X ≤b)−P(X ≤a)

=P

X−µ

σ ≤ b−µ σ

−P

X−µ

σ ≤ a−µ σ

= Φ

b−µ σ

−Φ

a−µ σ

.

(25)

Esimerkki 3.5.9 Sinulla on sijoitusvaihtoehdot A ja B. Oletat, ett¨a sijoitusten tuottoprosentit noudattavat normaalijakaumia odotusarvoina 10.4 ja 11.0 sek¨a hajontoina 1.2 ja 4.0. Haluat tehd¨a sijoituksen, jolla on todenn¨ak¨oisemp¨a¨a saada v¨ahint¨a¨an 10 prosentin tuotto. Kumman sijoitusvaihtoehdon valitset?

X = tuotto sijoituksesta A,X ∼N(10.4,1.22) Y = tuotto sijoituksesta B, Y ∼N(11.0,4.02)

P(X ≥10) = 1−P(X ≤10) = 1−Φ(10−10.41.2 ) = 1−Φ(−0.33) = 1−(1−Φ(0.33)) = 0.6293.

P(Y ≥10) = 1−P(Y ≤10) = 1−Φ(10−114 ) = 1−Φ(−0.25) = 1−(1−Φ(0.25)) = 0.5987.

Valitaan sijoitusvaihtoehto A, koska siin¨a suurempi todenn¨ak¨oisyys saada v¨ahin- t¨a¨an 10 % tuotto.

Esimerkki 3.5.10 Laske todenn¨ak¨oisyydet, ett¨a normaalijakaumassa satunnais- muuttujan arvo on korkeitaan

a) hajonnan p¨a¨ass¨a odotusarvosta,

b) kahden hajonnan p¨a¨ass¨a odotusarvosta, c) kolmen hajonnan p¨a¨ass¨a odotusarvosta.

X ∼N(µ, σ2).

P(−σ ≤X−µ≤σ) =P

−σ

σ ≤ X−µ σ ≤ σ

σ a)

= Φ(1)−Φ(−1) =· · ·= 0.6826

P(−2σ ≤X−µ≤2σ) =P

−2σ

σ ≤ X−µ σ ≤ 2σ

σ b)

= Φ(2)−Φ(−2) =· · ·= 0.9544

P(−3σ ≤X−µ≤3σ) =P

−3σ

σ ≤ X−µ σ ≤ 3σ

σ c)

= Φ(3)−Φ(−3) =· · ·= 0.9974 Normaalijakaumaan liittyvi¨a keskeisi¨a teoreettisia tuloksia:

1. Jos X ∼N(µ, σ2), niinaX +b ∼N(aµ+b, a2σ2), (a,b vakioita).

2. Jos X1,X2, . . . , Xn ovat riippumattomia jaXi ∼N(µi, σi2), niin X1 +X2+· · ·+Xn∼N(µ12+· · ·+µn, σ2122+· · ·+σn2).

(26)

3. Keskeinen raja-arvolause: Olkoon X1, X2, . . . ,Xn riippumattomia satun- naismuuttujia, joista kukin noudattaa omaa jakaumaansa. OlkoonE(Xi) = µi ja Var(Xi) = σ2i, i = 1,2, . . . , n. T¨all¨oin (hyvin yleisten ehtojen valli- tessa) satunnaismuuttuja X1 + X2 + · · · +Xn noudattaa likimain nor- maalijakaumaa (kun n riitt¨av¨an iso) parametrein µ12 +· · · +µn ja σ1222+· · ·+σ2n.

Esimerkki 3.5.11 Olkoot X1, X2, X3 ja X4 riippumattomia ja kukin Xi ∼ N(0,1). M¨a¨aritell¨a¨anX = (X1+X2+X3+X4)/4. Laske P(X ≥1).

E(X) = 1

4E(X1+X2+X3+X4)

= 1

4 E(X1) +E(X2) +E(X3) +E(X4)

= 0, Var(X) =

1 4

2

Var(X1+X2 +X3+X4)

= 1

4 2

Var(X1) + Var(X2) + Var(X3) + Var(X4)

= 1

4 2

·4·1 = 1 4, X ∼N

0,1

4

,

P(X ≥1) = 1−P(X ≤1)

= 1−P

X−0

1/2 ≤ 1−0 1/2

= 1−Φ(2) = 0.0228.

Olkoot X1,X2, . . . , Xn riippumattomia ja kukin Xi ∼N(µ, σ2), niin t¨all¨oin X = X1+X2+. . .+Xn

n ∼N

µ,σ2

n

.

Otoskeskiarvon jakauma on siis normaalijakauma (ks. otosjakaumat)! VaikkaXi:t eiv¨at olisikaan normaalisti jakautuneita, niin X olisi likimain normaalisti jakau- tunut keskeisen raja-arvolauseen perusteella.

Binomijakaumaa voidaan approksimoida normaalijakaumalla. JosX ∼Bin(n, p), niin silloinhan X = X1 +X2 +· · ·+Xn, miss¨a Xi ∼ Ber(p). Keskeisen raja- arvolauseen mukaan (jos n on riitt¨av¨an suuri) X noudattaa likimain normaalija- kaumaa parametrein np ja npq. Approksimaatio on hyv¨a, jos n on suuri ja p ei ole kovin pieni eik¨a suuri.

Esimerkki 3.5.12 Henkil¨o osallistuu tenttiin, jossa sataan v¨aitteeseen vastataan v¨aitteen olevan tosi tai ep¨atosi ja vain toinen vaihtoehto on oikea. Jos henkil¨o vastaa kaikkiin kohtiin valitsemalla vaihtoehdon aina t¨aysin satunnaisesti, niin mill¨a todenn¨ak¨oisyydell¨a h¨an saa korkeintaan 60 oikeaa vastausta?

(27)

X = oikeiden vastausten lkm.

X ∼Bin

100,1 2

, E(X) = 100· 1

2 = 50, Var(X) = 100· 1 2· 1

2 = 25, P(X ≤60) =

60

X

k=0

100 k

1 2

k 1 2

100−k

=

60

X

k=0

100 k

1 2

100

≈0.9824

(laskettu Excel:ill¨a),

X likimain∼ N(50,25), jolloin P(X ≤60)≈Φ

60−50

√25

= Φ(2) = 0.9772.

Kun binomijakaumaa approksimoidaan normaalijakaumalla, niin diskreetti¨a ja- kaumaa arvioidaan jatkuvalla. Paremman arvion saamiseksi voidaan tehd¨a nk.

jatkuvuuskorjaus. Arvioitaessa P(X ≤a), miss¨aa on kokonaisluku, lasketaankin P(X ≤a+ 0.5). T¨ass¨a esimerkiss¨a

P(X ≤60) ≈Φ

60.5−50

√25

= Φ(2.1) = 0.9821.

Esimerkki 3.5.13 Levykaupan omistaja arvioi, ett¨a 20 % asiakkaista suorittaa ostoksen. Laske todenn¨ak¨oisyys, ett¨a 180 asiakkaan joukosta ainakin 45 suorittaa ostoksen (binomijakaumaa voidaan approksimoida normaalijakaumalla).

X = ostosten suorittajien lkm.

X ∼Bin(180,0.2), E(X) = 180·0.2 = 36, Var(X) = 180·0.2·0.8 = 28.8, P(X ≥45) = 1−P(X ≤44) = 1−

44

X

k=0

180 k

0.2k·0.8180−k

= 1−0.94054 = 0.059458 (laskettu Excel:ill¨a) Nyt X likimain∼ N(36,28.8), jolloin

P(X ≥45) = 1−P(X ≤44)≈1−Φ

44.5−36

√28.8

= 1−Φ(1.58) = 0.0571.

Ilman jatkuvuuskorjausta:

P(X≥45) = 1−P(X ≤44)≈1−Φ

44−36

√28.8

= 0.0681.

Esimerkki 3.5.14 GMAT-testi¨a k¨aytet¨a¨an useiden yliopistojen p¨a¨asykokeena.

Kokeen tuloksen on todettu noudattavan normaalijakaumaa odotusarvona 525 ja keskihajontana 100. Sadan yliopistoon pyrkij¨an ryhm¨a osallistui ennen p¨a¨a- sykoetta valmennuskurssille. P¨a¨asykokeessa heid¨an GMAT-testin keskiarvo oli 541.4. Menestyiv¨atk¨o he p¨a¨asykokeessa muita paremmin?

(28)

X = testipistem¨a¨ar¨a,X ∼N(525,1002) X ∼N(525,1001002)

P(X ≥541.4) = 1−P(X ≤541.4) = 1−Φ(541.5−52510 ) = 1−Φ(1,64) = 0.0505.

Eiv¨at menestyneet paremmin kuin muut, koska ei ole harvinaista saada otoskes- kiarvoa, joka suurempi kuin 541.4 silloin, kun menestyminen tavanomaista.

Esimerkki 3.5.15 Oletetaan, ett¨a opiskelijoiden ¨alykkyysosam¨a¨ar¨a∼N(µ,225).

Kuinka suuri otos tarvitaan, kun halutaan, ett¨a otoskeskiarvo poikkeaa µ:st¨a kor- keintaan ±2 pistett¨a todenn¨ak¨oisyydell¨a 0.99?

X ∼N(µ,225), X ∼N

µ,225 n

, P(−2≤X−µ≤2) = P

− 2 15/√

n ≤ X−µ 15/√

n ≤ 2 15/√

n

= Φ 2√

n 15

−Φ

−2√ n 15

= Φ 2√

n 15

1−Φ 2√

n 15

= 2Φ 2√

n 15

−1 = 0.99

⇐⇒Φ 2√

n 15

= 1.99

2 = 0.995 ⇐⇒ 2√ n

15 = 2.58⇐⇒n= 2.582·152

22 ≈374.

(29)

Luku 4

Satunnaisotos, otossuure ja otosjakauma

Kun populaatio on hyvin suuri tai ¨a¨aret¨on ei tietenk¨a¨an voida tutkia koko popu- laatiota. T¨all¨oin tilastolliset johtop¨a¨atelm¨at, jotka koskevat populaation eli pe- rusjoukon (¨a¨arellinen tai ¨a¨aret¨on) ominaisuuksia tehd¨a¨an otoksen avulla. Jotta erilaisten otoksesta laskettujen tunnuslukujen luotettavuutta voidaan arvioida otos valitaan poimimalla se todenn¨ak¨oisyysotannalla. Todenn¨ak¨oisyysotannassa kaikki mahdollisetn alkion otokset voidaan luetella, tunnetaan jokaisen mahdol- lisen otoksen poimintatodenn¨ak¨oisyys ja otokset poimitaan n¨aiden todenn¨ak¨oi- syyksien mukaan sek¨a tiedet¨a¨an, miten otoksen perusteella yleistet¨a¨an tulokset koko populaatioon.

Jatkossa tarkastellaan yksinkertaisella satunnaisotannalla tehtyyn otokseen liit- tyvi¨a tuloksia. Lis¨aksi ollaan kiinnostuneita vain yhdest¨a populaation alkioihin liittyv¨ast¨a ominaisuudesta, muuttujasta.

Yksinkertainen satunnaisotos (YSO) poimitaan siten, ett¨a jokaisellanalkion suu- ruisella otoksella on yht¨a suuri todenn¨ak¨oisyys tulla poimituksi. K¨ayt¨ann¨oss¨a ei muodosteta kaikkianalkion osajoukkoja, joista sitten satunnaisesti valitaan yksi, vaan alkiot poimitaan yksi kerrallaan kunnes otoskoko on n. YSO voidaan tehd¨a joko palauttamatta tai palauttaen.

4.1 Satunnaisotos

OlkoonX1, X2, . . . , Xnn:n satunnaismuuttujan jono. T¨at¨a jonoa sanotaansatun- naisotokseksi, josXi:t ovat riippumattomia ja noudattavat samaa jakaumaa.

Sanonta ”X1, X2, . . . , Xn on satunnaisotos N(µ, σ2):sta” tarkoittaa sit¨a, ett¨a jo- kainen Xi ∼N(µ, σ2) ja Xi:t ovat riippumattomia.

Kun ¨a¨arett¨om¨ast¨a populaatiosta tehd¨a¨an otanta yksinkertaisella satunnaisotan- nalla (palauttaen tai palauttamatta) ja tarkastellaan yht¨a tietty¨a muuttujaa (ti- lastoyksik¨on ominaisuutta), on kyse satunnaisotoksesta. Jos populaatio on ¨a¨arel- linen YSO palauttaen johtaa satunnaisotokseen, mutta palauttamatta ei, koska riippumattomuusoletus ei ole voimassa. Kuitenkin, jos populaatio on suuri YSO palauttamattakin johtaa l¨ahes riippumattomiin satunnaismuuttujiin.

(30)

Satunnaisotos m¨a¨aritell¨a¨an siis satunnaismuuttujien perusteella. N¨am¨a satun- naismuuttujat saavat arvot, kun otos on tehty. Siis otoksen tekemisen j¨alkeen satunnaisotokselle saadaan arvot, jotka vaihtelevat otoksesta toiseen.

Satunnaismuuttujista muodostetut funktiot ovat satunnaismuuttujia, joten my¨os satunnaisotoksesta muodostetut funktiot ovat satunnaismuuttujia.

Esimerkki 4.1.1 OtoskeskiarvoX = n1(X1+X2+· · ·+Xn) on satunnaismuut- tuja, joka saa arvon kun otos on tehty. Arvo vaihtelee otoksesta toiseen.

Esimerkki 4.1.2 OtosvarianssiS2 = n−11 Pn

i=1(Xi−X)2 on on satunnaismuut- tuja, joka saa arvon tehdyn otoksen perusteella.

4.2 Otossuureet ja otosjakaumat

Satunnaisotoksen avulla m¨a¨aritelty¨a funktiota, joka siis on satunnaismuuttuja, kutsutaan otossuureeksi. Koska otossuure on satunnaismuuttuja, liittyy siihen todenn¨ak¨oisyysjakauma. Otossuureen todenn¨ak¨oisyysjakaumasta k¨aytet¨a¨an ni- mityst¨aotanta- tai otosjakauma.

Tarkasteltavan otossuureen todenn¨ak¨oisyysjakauma pyrit¨a¨an m¨a¨aritt¨am¨a¨an, jol- loin saadaan selville miten otossuure voi vaihdella otoksesta toiseen. T¨am¨a aut- taa, kun olemme kiinnostuneita populaatioon liittyvist¨a arvioista perustaen ar- viot otokseen.

Joidenkin otossuureiden otosjakaumia:

1. Otoskeskiarvon jakauma tunnetaan silloin kun, otos on normaalijakaumas- ta. Jos X1, X2, . . . , Xn on satunnaisotosN(µ, σ2):sta, niin t¨all¨oin

X ∼N

µ,σ2 n

.

Lis¨aksi voidaan keskeisen raja-arvolauseen perusteella sanoa, ett¨a (otos- koon ollessa riitt¨av¨an suuri) otoskeskiarvo on likimain normaalisti jakau- tunut, vaikka satunnaisotos olisi per¨aisin jostain muusta kuin normaalija- kaumasta.

Otoskeskiarvon hajontaa σ/√

n sanotaan otoskeskiarvon keskivirheeksi.

2. Olkoon p viallisten prosenttiosuus otoksessa. Jos populaatiossa on π % viallisia, niin

p∼N

π, π(100−π) n

, likimain.

Otossuureen p hajontaa

qπ(100−π)

n sanotaan p:n keskivirheeksi.

(31)

3. Olkoon X1, X2, . . . , Xn satunnaisotos N(µ1, σ12):sta ja Y1, Y2, . . . , Ym sa- tunnaisotos N(µ2, σ22):sta. T¨all¨oin

X ∼N

µ121 n

, Y ∼N

µ222 m

, X−Y ∼N

µ1−µ212 n +σ22

m

. Otoskeskiarvojen erotuksen keskivirhe on

qσ21 n + σm22.

Esimerkki 4.2.1 OlkoonX1, X2, . . . , X10satunnaisotos normaalijakaumasta pa- rametrein 0 ja 1. Laske P(−1≤X1 ≤1) jaP(−1≤X ≤1).

Xi ∼N(0,1), i= 1, . . . ,10,

P(−1≤X1 ≤1) = Φ(1)−Φ(−1) =. . .= 0.6826, X ∼N

0, 1

10

, P(−1≤X ≤1) =P

−1−0

p1/10 ≤ X−0

p1/10 ≤ 1−0 p1/10

= Φ(√

10)−Φ(−√

10) = 2Φ(√

10)−1≈1.

Esimerkki 4.2.2 Er¨a¨an tilastotoimiston mukaan v¨aest¨oss¨a keski-ik¨aisten mies- ten verenpaineen keskiarvo on 128 ja keskihajonta 15. Halutaan selvitt¨a¨a, poik- keaako keski-ik¨aisten yritysjohtajien verenpaineen keskiarvo koko v¨aest¨on vastaa- vasta. Mitataan 72 yritysjohtajan verenpaineet ja saadaan keskiarvoksi 130.5.

Olkoon X = verenpaine, X ∼N(128,152), X ∼N(128,15722), likimain

P(X ≥130.5) = 1−P(X ≤130.5) = 1−Φ(130.5−128

15/

72 ) = 1−Φ(1.41) = 0.0793.

Ei voida ajatella, ett¨a yritysjohtajien verenpaineen keskiarvo olisi korkeampi kuin koko v¨aest¨on, koska ei ole koko v¨aest¨ost¨a tehdyss¨a 72 alkion otoksessa harvinaista saada otoskeskiarvoa, joka on yli yritysjohtajilta mitatun.

Esimerkki 4.2.3 Olet todistamassa oikeudessa, jossa v¨aitet¨a¨an er¨a¨an pelipaikan ruletin toimivan v¨a¨arin. Ruletissa on 37 numeroa, joiden kaikkien pit¨aisi olla yht¨a todenn¨ak¨oisi¨a. Pelipaikka voittaa numerolla nolla. Olet saanut selville, ett¨a 3700 kertaa rulettia py¨oritett¨aess¨a nollia tuli 140. Millaisen todistuksen annat oikeudessa?

Olkoon X = nollien lukum¨a¨ar¨a py¨oritett¨aess¨a 3700 kertaa.

Jos ruletti toimii oikein, niin X ∼ Bin(3700, 1/37), E(X) = 100, Var(X) = 3700(1/37)(36/37). T¨all¨oin X ∼ N(100, 3600/37), likimain.

P(X ≥140) = 1−P(X ≤139)≈ 1−Φ(√139−100

3600/37) = 1−Φ(3.95) ≈0. T¨am¨a on siis l¨ahes mahdotonta. Todistat, ett¨a pelipaikan ruletti toimii v¨a¨arin.

(32)

Esimerkki 4.2.4 Koneiden A ja B pit¨aisi valmistaa keskim¨a¨arin samanmittai- sia tankoja. Molempien koneiden tuotannossa tankojen pituuksissa X ja Y on jonkin verran vaihtelua. Vaihtelua voidaan luonnehtia normaalijakaumalla, jonka varianssi on 0.2. Ep¨aill¨a¨an kuitenkin koneen A tuottavan keskim¨a¨arin pidempi¨a tankoja. Tutkitaan asiaa valitsemalla satunnaisesti koneen A tuotannosta 20 ja koneen B tuotannosta 10 tankoa. Koneen A tuotannosta valittujen tankojen kes- kipituudeksi saatiin 40.0 ja koneelta B valittujen 39.5. Onko ep¨aily aiheellinen?

Kone A: Xi ∼N(µ,0.2), i= 1, . . . ,20, Kone B: Yi ∼N(µ,0.2), i= 1, . . . ,10, X ∼N

µ,0.2

20

, Y ∼N

µ,0.2 10

, E(X−Y) =µ−µ= 0,

Var(X−Y) = Var(X) + (−1)2Var(Y) = 0.03.

Siis X−Y ∼N(0,0.03), joten

P(X−Y ≥0.5) = 1−P(X−Y ≤0.5) = 1−Φ

0.5−0

√0.03

= 1−Φ(2.89) = 0.0019.

Ep¨aily on aiheellinen, koska jos koneet tuottaisivat keskim¨a¨arin samanmittaisia tankoja, niin olisi harvinaista saada otokset, joiden keskiarvojen erotus olisi suu- rempi kuin 0.5.

(33)

Luku 5

Parametrien estimointi

5.1 Piste-estimointi

Estimointion populaation tuntemattoman parametrin arviointia sopivan otossuu- reen avulla. N¨ain teht¨aess¨a puhutaanpiste-estimoinnista. Esimerkiksi voidaan es- timoida populaation odostusarvoa otoskeskiarvolla, populaation varianssia otos- varianssilla.

Esimerkki 5.1.1 Olkoon populaatiossaπ % viallisia. Pyrit¨a¨an arvioimaan π:t¨a otoksen perusteella. OlkoonX1, X2, . . . , Xnsatunnaisotos ko. populaatiosta. M¨a¨a- ritell¨a¨an

Xi =

(1, jos alkio viallinen;

0, jos alkio viaton.

N¨ain siisXi ∼Ber 100π

, jolloinE(Xi) = 100π ja Var(Xi) = 100π 1−100π

. Viallisten kokonaislukum¨a¨ar¨a otoksessa on X =X1+X2+· · ·+Xn.

Luonnollinen arvio π:lle olisi vastaava luku otoksessa eli viallisten prosenttiosuus otoksessa

p= 100X

n = 100(X1+X2+· · ·+Xn)

n .

Kun p on otossuure, jolla estimoidaan π:t¨a, sanotaan, ett¨a p on π:n estimaat- tori. Kun otos on tehty, voidaan p:lle laskea arvo eli estimaatti. Otossuureen p odotusarvo ja varianssi:

E(p) =E

100X n

= 100

n E(X1+· · ·+Xn) = 100

n ·n· π 100 =π, Var(p) = Var

100X n

= 100

n 2

Var(X1 +· · ·+Xn)

= 100

n 2

·n· π 100

1− π

100

= π(100−π)

n .

Koska E(p) = π, niin sanotaan, ett¨a p on π:n harhaton estimaattori. Harhat- tomuus tarkoittaa siis sit¨a, ett¨a estimaattori antaa keskim¨a¨arin oikeita arvoja.

Otossuureenp hajontaa sanotaan otoksen prosenttiosuuden keskivirheeksi.

(34)

Keskeisen raja-arvolauseen perusteella voidaan sanoa, ett¨a p∼N

π, π(100−π) n

, likimain.

Saatiin siis selville otossuureenp otosjakauma.

Yksi tapa estimoida populaation parametri on tehd¨a se otoksesta lasketun vas- taavan tunnusluvun avulla (analogiaperiaate):

estimoitava parametri estimaattori

odotusarvo otoskeskiarvo

populaation varianssi otosvarianssi populaation mediaani otosmediaani

”viallisten”%-osuus populaatiossa ”viallisten”%-osuus otoksessa

On tietysti monenlaisia otossuureita, joita voitaisiin k¨aytt¨a¨a parametrien esti- moinnissa. Estimaattorille asettaa kuitenkin erilaisia vaatimuksia. Harhattomuus on yksi estimaattorin toivottu ominaisuus.

Olkoon θ populaation tuntematon, estimoitava parametri ja ˆθ sen estimaattori.

T¨all¨oin sanotaan, ett¨a ˆθ onθ:n harhaton estimaattori, jos E(ˆθ) = θ.

Harhattomuuden lis¨aksi estimaattorilla toivotaan olevan pienin mahdollinen va- rianssi. Jos estimaattori on harhaton ja sill¨a on pienin varianssi parametrin kaik- kien harhattomien estimaattoreiden joukossa, sanotaa estimaattoria harhatto- maksi minimivarianssiseksi estimaattoriksi elitehokkaimmaksi estimaattoriksi.

Kahdesta parametrin harhattomasta estimaattorista on tehokkaampi se, jolla on pienempi varianssi. Otoskoon kasvaessa toivotaan estimoinnin tarkentuvan eli es- timaattorin jakauman keskittyv¨an yh¨a tiiviimmin estimoitavan parametrin ymp¨a- rille. Jos estimaattorin varianssi l¨ahenee nollaa otoskoon kasvaessa rajatta, sano- taan, ett¨a estimaattori on tarkentuva. Luonnollinen vaatimus tietenkin estimaat- torille on my¨os se, ett¨a k¨aytet¨a¨an kaikki otoksessa oleva informaation hyv¨aksi.

Esimerkki 5.1.2 Otoskeskiarvo X on jakauman odotusarvon µ harhaton esti- maattori, koska E(X) = µ. Aiemmin on my¨os todettu, ett¨a Var(X) = σ2/n.

Lis¨aksi voidaan osoittaa, ett¨a normaalijakauman tapauksessa µ:n harhattomien estimaattoreiden joukossa otoskeskiarvolla on pienin varianssi.

Esimerkki 5.1.3 OlkoonX1, X2, . . . , Xn satunnaisotos populaatiosta, jonka va- rianssi on σ2. Voidaan osoittaa, ett¨a otosvarianssi S2 = n−11 Pn

i=1(Xi −X)2 on σ2:n harhaton estimaattori eli E(S2) =σ2.

Vaikka otosvarianssi onkin populaation varianssin harhaton estimaattori, niin otoshajonta ei yleens¨a ole populaation hajonnan harhaton estimaattori.

On olemassa monenlaisia estimointimenetelmi¨a edell¨a esitellyn lis¨aksi, mm. pie- nimm¨an neli¨osumman menetelm¨a, maximum likelihood -menetelm¨a.

(35)

5.2 Luottamusv¨ alej¨ a

Piste-estimointi tuottaa siis (otoksen teon j¨alkeen) yhden luvun, jolla arvioidaan estimoitavaa parametria. Estimointiin liittyy tietysti aina ep¨avarmuutta. Usein halutaankin m¨a¨ar¨at¨a yksitt¨aisen arvon sijaan v¨ali, jolla arvellaan tuntemattoman parametrin olevan. T¨all¨oin puhutaan v¨aliestimoinnista. V¨aliestimoinnissa muo- dostetaan nk. luottamusv¨ali vastaavan piste-estimaattorin ja piste-estimaattorin otantajakauman keskihajonnan eliestimaattorin keskivirheen avulla.

Olkoon A ja B satunnaisotoksen perusteella m¨a¨ariteltyj¨a satunnaismuuttujia.

V¨ali (A, B) on parametrin θ 100(1−α) %:n luottamusv¨ali, jos P(A≤θ ≤B) = 1−α.

Kyseess¨a on siis satunnaisv¨ali, joka sis¨alt¨a¨a populaation tuntemattoman estimoi- tavan parametrin todenn¨ak¨oisyydell¨a 1−α. Kun otos on tehty, voidaan A:lle ja B:lle laskea arvot. N¨ain saadaan v¨ali (a, b), joka joko sis¨alt¨a¨a parametrin θ tai ei sis¨all¨a. V¨alist¨a (a, b) k¨aytet¨a¨an my¨os nimityst¨a luottamusv¨ali. Koska p¨a¨attely halutaan tehd¨a melko suurella varmuudella, valitaan α esim. 0.05 tai 0.01. T¨al- l¨oin siis m¨a¨aritet¨a¨an 95 %:n tai 99 %:n luottamusv¨ali. Luottamustaso on 0.95 tai 0.99.

M¨a¨aritell¨a¨an standardoituun normaalijakaumaan liittyv¨a merkint¨a, jota tarvitaan mm. luottamusv¨alien m¨a¨aritt¨amisess¨a. Olkoon Z ∼ N(0,1). M¨a¨aritell¨a¨an zα si- ten, ett¨aP(Z ≥zα) =α. Samoinzα/2siten, ett¨aP(Z ≥zα/2) =α/2. Esimerkiksi z0.05= 1.64 jaz0.05/2 =z0.025 = 1.96.

Graafisesti, ks.http://mtl.uta.fi/tilasto/tiltp2/syksy2004/zalfa.pdf.

5.2.1 Populaation odotusarvon luottamusv¨ali

Esimerkki 5.2.1 Halutaan arvioida poikien keskim¨a¨ar¨aist¨a syntym¨apituutta.

Otoksessa 65 pojan syntym¨apituuden keskiarvo oli 50.95 cm ja keskihajonta 1.97 cm (SAIDIT -aineisto). Miten voisi arvioida poikapopulaation keskiarvoa?

Seuraavaksi arvioidaan normaalijakauman odotusarvoa, kun tunnetaan populaa- tion varianssi. N¨ainh¨an ei tietysti voida poikien keskipituuden arvioinissa edell¨a olettaa.

Olkoon nytX1, X1, . . . , XnsatunnaisotosN(µ, σ2):sta, miss¨aσ2 tunnettu. T¨all¨oin Z = X−µ

σ/√

n ∼N(0,1), jolloin

P

−1.96≤ X−µ σ/√

n ≤1.96

= 0.95.

Kirjoittamalla lausuttu tapahtuma toiseen muotoon saadaan P

X−1.96 σ

√n ≤µ≤X+ 1.96 σ

√n

= 0.95

(36)

Voidaan sanoa, ett¨a ep¨ayht¨al¨ot toteutuvat todenn¨ak¨oisyydell¨a 0.95.

V¨ali¨a (X−1.96σ/√

n, X + 1.96σ/√

n) sanotaan µ:n 95 %:n luottamusv¨aliksi.

Luottamusv¨alin m¨a¨aritelm¨ass¨a X on siis satunnaismuuttuja, jonka arvot vaihte- levat otoksesta toiseen. Havaitun otoksen perusteella saadaan kiinte¨a v¨ali, jota my¨os kutsutaan luottamusv¨aliksi.

T¨am¨an s¨a¨ann¨on mukaan laskettu v¨ali pit¨a¨a sis¨all¨a¨an 95 %:n todenn¨ak¨oisyydel- l¨a tuntemattoman populaatiokeskiarvon µ. Poimittaessa monta otosta ja lasket- taessa joka kerta edell¨a esitetty luottamusv¨ali, niin luottamusv¨aleist¨a n. 95 % on sellaisia, jotka sis¨alt¨av¨at µ:n.

Vastaavalla tavalla kuin 95 %:n luottamusv¨ali, voidaan muodostaa my¨os 99 %:n luottamusv¨ali.

Yleisesti, jos 0 < α < 1 (tavallisesti 0.05 tai 0.01), niin 100(1−α) %:n luotta- musv¨ali populaation odotusarvolle µ, kun varianssi tunnettu, on

X±zα/2 σ

√n.

Esimerkki 5.2.2 Sokerin pussituskone tuottaa pusseja, joiden paino vaihtelee normaalijakauman mukaisesti keskihajontana 2.5 g. Koneeseen tehd¨a¨an s¨a¨at¨oj¨a ja punnitaan 20 pussia. N¨aiden keskipainoksi saadaan 1002 g. Voidaanko p¨a¨atell¨a, ett¨a pussituskone tuottaa s¨a¨at¨ojen j¨alkeen keskim¨a¨arin kilon pusseja?

Odotusarvonµ luottamusv¨ali, kun σ tunnettu X±zα/2 σ

√n

Nytx= 1002,σ= 2.5,n = 20,α= 0.05, zα/2 = 1.96, joten 95 %:n luottamusv¨ali µ:lle on

1002±1.96· 2.5

√20,

Saatu luottamusv¨ali (1000.9, 1003.1) ei sis¨all¨a kiloa. P¨a¨atell¨a¨an, ett¨a kone ei tuota keskim¨a¨arin kilon pusseja. Sama p¨a¨attely tehd¨a¨an 99 %:n luottamusv¨alin (1000.6, 1003.4) perusteella

Edell¨a esitetyss¨a oletettiin, ett¨a meill¨a on satunnaisotos normaalijakaumasta, jol- loin otoskeskiarvon jakauma on my¨os normaalijakauma. Esitetty¨a luottamusv¨alin laskukaavaa voidaan kuitenkin k¨aytt¨a¨a otoskoon ollessa suuri siin¨akin tapauk- sessa, ett¨a satunnaisotos on per¨aisin jostain muusta kuin normaalijakaumasta.

T¨all¨oinh¨an keskeisen raja-arvolauseen perusteella otoskeskiarvon jakauma on li- kimain normaalijakauma.

Edell¨a esitetyss¨a oletettiin my¨os, ett¨a jakauman varianssi on tunnettu. K¨ayt¨an- n¨oss¨a harvemmin tietysti populaation varianssia tunnetaan. T¨all¨oin se onkin es- timoitava otoksen perusteella k¨aytt¨aen otosvarianssia.

Viittaukset

LIITTYVÄT TIEDOSTOT

Todista

[r]

5. Kirjoitetaan k¨ arkeen n¨ aiss¨ a s¨ armiss¨ a olevien lukujen summa ja tehd¨ a¨ an t¨ am¨ a jokaiselle kuution k¨ arjelle. Onko mahdollista, ett¨ a jokaisessa kuution

Suorakulmion muotoisesta levyst¨ a, jonka sivut ovet 630 mm ja 480 mm, valmis- tetaan suorakulmaisen s¨ armi¨ on muotoinen astia leikkaamalla levyn nurkista pois yht¨ asuuret neli¨

Viidentoista arvan joukossa on kolme, joilla voittaa 10 euroa, ja nelj¨a, joilla.. voittaa

2.4.5 Kuinka moneen eri järjestykseen korttipakan 52 korttia voidaan asettaa.

Oletetaan, ett¨ a 400000 henkil¨ olle tehd¨ a¨ an perusteellinen l¨ a¨ aketieteel- linen tutkimus.. Aikaisempien tutkimusten perusteella 3/4 tutkituista l¨ ap¨

Jos tehd¨ a¨ an suuri m¨ a¨ ar¨ a riippumattomia Bernoullin kokeita, joissa onnistumisto- denn¨ ak¨ oisyys on hyvin pieni, niin silloin Lauseen 4.10 mukaan onnistumisten lukum¨