• Ei tuloksia

Pankin omavaraisuusasteen mallittaminen

N/A
N/A
Info
Lataa
Protected

Academic year: 2022

Jaa "Pankin omavaraisuusasteen mallittaminen"

Copied!
61
0
0

Kokoteksti

(1)

mallintaminen

Pro gradu-tutkielma

Aki Summanen

163564

Itä-Suomen yliopisto

15. toukokuuta 2012

(2)

1 Johdanto 1

2 Todennäköisyysteoria 2

2.1 Satunnaisuusja todennäköisyys . . . 2

2.2 Ehdollinen todennäköisyys jariippumattomuus . . . 4

3 Satunnaismuuttuja 9 3.1 Yksiulotteinen satunnaismuuttuja . . . 9

3.2 Satunnaismuuttujan momentit . . . 15

3.3 Usean satunnaismuuttujanmomentit . . . 22

3.4 Ehdollinen odotusarvo . . . 27

4 Regressioanalyysi 29 4.1 Menetelmä . . . 29

4.2 Mallinarviointi . . . 33

4.2.1 Varianssien vertailu . . . 33

4.2.2 Parametrin merkitsevyys . . . 35

4.2.3 Mallinmerkitsevyys . . . 37

5 Pankkitoiminnan riskit 39 5.1 Vakavaraisuusriski. . . 39

5.2 Vähimmäisomavaraisuusaste . . . 40

5.2.1 Vahvuudet . . . 41

5.2.2 Heikkoudet . . . 42

5.3 Baselinkomitea . . . 42

6 Tutkimuksen toteutus 45 6.1 Aineiston esittely . . . 45

6.2 Omavaraisuusasteen johtaminen . . . 49

6.3 Muuttujien valintaja mallin luominen . . . 50

7 Tulokset 52 7.1 Tase-erien mallinnus . . . 52

7.2 Vaihteluvälien muokkaaminen . . . 54

8 Pohdinta 57

(3)

Työssä harjoitellaan pankin riskienhallintaan liittyvän käsitteen, omavarai-

suusasteen,matemaattistamallintamistakäyttäen yksinkertaisia tilastollisia

menetelmiä. Työn alkuosa lähtee liikkeelle todennäköisyyden määrittelemi-

sestä, josta seurataan satunnaismuuttujien määrittelyyn, sekä niiden omi-

naisuuksien käsittelemiseen. Lopulta esitellään mallinnuksessa käytettävän

regressioanalyysinmatemaattisetperusteetsekätyössäsovelletut,mallinlaa-

dulliseen arviointiin käytettävät suureet. Matematiikassa regressioanalyysia

kutsutaan pienimmän neliösumman -menetelmäksi.

Talous- ja tilastotieteessä menetelmästä käytetään nimitystä regressio-

analyysi.Työssäpankinomavaraisuusastettamallinnetaansentase-erienavul-

la sekä tutkitaan, millä edellytyksillä mallinnettu omavaraisuusaste laskee

Baselin komitean (BCBS) suositteleman 3% vähimmäisomavaraisuusasteen

alapuolelle, jolloin pankin sanottaisiin olevan kriisissä. Mallinnuksen tavoit-

teena on tutkia tase-eristä mahdollisesti löytyviä riskitekijöitäpankin vaka-

varaisuudelle.

Perinteisesti vakavaraisuutta on mallinnettu käyttäen selittävinä muut-

tujina makrotalouden suureita, kuten inaatiotai työttömyys. Tämän työn

eräänä tavoitteena on tutkia voidaanko kyseistä riskiä havainnoida pankin

tilinpäätöstietojen avulla. Aineistona työssä käytetään Nordea -konsernin

osavuosikatsauksistalöytyviätasetietoja,jotkaovatjulkisestiluettavissakon-

sernin verkkosivuilta löytyvistä osavuosikatsauksista.

Mallinnusperustuuolettamukseen,ettäsekätase-erätettäomavaraisuus-

aste ajatellaansatunnaisestivaihteleviksi. Tällöinniitä voidaan pitääsatun-

naismuuttujina. Luvussa 5.1 määritellään lyhyesti jokainen tase-erä siten,

että lukijallesyntyy käsitysniidenmerkityksestä. Luvussa 6esitelläänohjel-

misto, jonka avulla mallinnus toteutetaan. Mallinnuksen tulokset avataan

luvussa 7 sekä esitellään vaihtoehtoisten skenaarioiden aikaansaamat muu-

tokset omavaraisuusasteessa.

(4)

Tässäluvussaesitellääntodennäköisyysteorianaksioomat,elitosiksioletetut

lauseet,sekämääritelläänniintodennäköisyysfunktiokuinehdollinentoden-

näköisyys ja riippumattomuus. Luvunsisältö onviitteistä[4,s. 1℄,[8,s.13-

31℄ ja [20, s.20 -54℄.

2.1 Satunnaisuus ja todennäköisyys

Satunnaiskoe on koe, jonka yksittäistä tulosta

e

ei ennen kokeen suorit-

tamista varmuudella voida määrittää. Jokaista tällaista mahdollista satun-

naiskokeen tulosta

e

kutsutaan alkeistapaukseksi. Perusjoukko(otosavaruus)

on satunnaiskokeen kaikkien mahdollisten alkeistapausten muodostama joukko. Tapahtuma

E

on perusjoukon

osajoukko. Tapahtuman

E

sano-

taan sattuvan, jos satunnaiskokeen tulos

e ∈ E

, eli kun jokin tapahtumaan liittyväalkeistapahtumasattuu.Koskasatunnaiskokeentulostaeivoiennalta

varmastitietää, niintällöinpuhutaan tapahtumien todennäköisyyksistä.

Eräs keino määrittää todennäköisyys on tapahtuman suhteellisen esiin-

tymistiheydenlaskeminen.Toistetaansatunnaiskoetta,jonkaotosavaruutena

on

S

.Jokaista sattunutta tapahtumaa

E ⊆ S

kohti määritellään

n(E)

, joka

on tapahtuman

E

sattumien lukumäärä kun koetta on toistettu

n

kertaa.

Tällöin todennäköisyys voidaan kirjoittaamuodossa

Tapahtuman

E

todennäköisyys

= lim

n→∞

n(E) n .

Vaikka määritelmä on yksinkertainen ja intuitiivisesti hyväksyttävä, niinse

on kuitenkin ongelmallinen.Jos koe on toistettu

n

kertaa, elitapahtuma

E

on sattunut

n(E)

kertaa, niin voidaanko olla varmoja siitä, että toistojen

kasvaessa rajatta,

n → ∞

, raja-arvo lähestyy aiemmin saatua lukua

n(E)

?

Edelleen, miten esimerkiksi voidaan olla varmoja, että toistettaessa satun-

naiskoettauseaankertaan,raja-arvolähestyyaina samaalukua?Oletuksena

kyseinen raja-arvoonaivanliianmutkikas.

Edellistenongelmientakiaonkeksittävämielekkäämpitapamääritelläto-

dennäköisyys.Tämävoidaantoteuttaaolettamallasatunnaiskoe,jonkaotos-

avaruus on

.

Aksiooma 2.1.1. (Kolmogorovin aksioomat) Jokaiselle otosavaruuden

tapahtumalle

E

on olemassa luku

P (E)

, joka toteuttaa seuraavat ehdot.

(5)

0 ≤ P (E) ≤ 1

2.

P (Ω) = 1

3. Kaikille tapahtumille

E 1 , E 2 , . . .

, joille

E i ∩ E j = ∅

kaikilla

i 6 = j

pätee

P

[

i=1

E i

!

=

X

i=1

P (E i )

Aksioomat on nimetty venäläisen matemaatikon Andrei Kolmogorovin

mukaan. Funktioita

P

kutustaan todennäköisyysfunktioksi, jos se toteuttaa edellä esitetyt aksioomat.

Aksioomienavullavoidaanaloittaatodennäköisyysteorianrakentaminen.

Osoitetaan seuraavaksi muutama todennäköisyysteorian (perus)lause edellä

esitettyjen aksioomien avulla.

Lause 2.1.2.

P ( ∅ ) = 0.

Todistus. Olkoon

A

otosavaruuden

osajoukko. Tällöin

A ∪ A c = Ω

, missä

A c

onjoukon

A

komplementti. Aksioomien2. ja 3.nojalla

P (A ∪ A c ) = P (A) + P (A c ) = 1.

Koska

∅ = Ω c

, niin asettamalla

A = Ω

edellinen yhtälö voidaan kirjoittaa

muodossa

P ( ∅ ) = 1 − P (Ω) = 0.

Tyhjän joukon todennäköisyyden määrittäminen on olennaisen tärkeää

todennäköisyysteorian kannalta. Intuitiivisesti triviaalin lauseen osoittami-

nen toimiitärkeänä työkaluna useissa eritapauksissa.

Lause 2.1.3. Olkoon

E 1 , . . . , E n

erillisiä tapahtumia. Tällöin

P (E 1 ∪ · · · ∪ E n ) = P (E 1 ) + · · · + P (E n ).

(6)

Todistus. Olkoon

E n+1 = E n+2 = . . . = ∅

.Tällöin

P (E 1 ∪ · · · ∪ E n ) = P

[

n=1

E n

!

=

X

k=1

P (E k )

=

n

X

k=1

P (E k ) + 0 = P (E 1 ) + · · · + P (E n ).

Lause 2.1.4. Jos

A 1 , A 2 , . . .

ovat tapahtumia, niin

P

[

n=1

A n

!

X

n=1

P (A n ).

Todistus. Olkoon

B 1 = A 1

ja

B n = A c 1 ∩ · · · ∩ A c n−1 ∩ A n

kaikille

n ≥ 2

.

Tällöin

B i ∩ B j = ∅

kaikilla

i 6 = j

, ja

S ∞

n=1 B n = S ∞

n=1 A n

jolloin

P

[

n=1

A n

!

= P

[

n=1

B n

!

=

X

n=1

P (B n ).

Koska

B n ⊆ A n

, niin

P (B n ) ≤ P (A n )

, josta väite seuraa.

Lausetta2.1.4 kutsutaan usein Boolen epäyhtälöksi. Epäyhtälöä voidaan

käyttää mielivaltaistentapahtumien yhdisteiden todennäköisyyksien arvioi-

miseen. Luvussa 2.2 esitetty lause 2.2.3 antaa työkalun edellä mainittujen

yhdisteiden todennäköisyyksien tarkempaanmäärittämiseen.

2.2 Ehdollinen todennäköisyys ja riippumattomuus

Useintarkasteltaessajotaintiettyäsatunnaisilmiötätarkastelijallaonolemas-

sasellaistatietoa,jokamuuttaahalutunilmiönsattumistodennäköisyyttäjol-

laintavalla.Tätävartenmääritelläänseuraavaksiehdollinentodennäköisyys.

Vaikka ennakkotietoa ei olisikaan olemassa, niin ehdollinen todennäköisyys

on työkalu, jokahelpottaa haluttujentodennäköisyyksien laskemista.

(7)

näköisyys tapahtuman

A

sattumiselle silläehdolla, että tapahtuma

B

on jo

sattunut. Ehdollistatodennäköisyyttämerkitään

P (A | B) = P (A ∩ B)

P (B) ,

(2.1)

ja luetaan 'tapahtuman

A

todennäköisyys ehdolla

B

'.

Avataan edellistämääritelmää hiemanymmärtämisen lisäämiseksi.Ehto

P (A | B)

tarkoittaa, että tapahtuman

B

sattuessa, myös

A

sattuu. Tällöin

taas toteutuujokinalkeistapahtuma

a

siten,että

a ∈ A ∩ B

.Toisaalta,koska

tiedetään,että

B

onsattunut,niinsiitäontulluttarkasteltavantilanteenuusi otosavaruus. Nyt siis todennäköisyyttä

P (A ∩ B )

verrataan todennäköisyy- teen

P (B )

.Huomioitavaasiaon,ettäyhtälö2.1onmielekäsvainkun

P (B) >

0

, jolloin myös ehdollinen todennäköisyys on määritelty. Otetaan esimerkki ehdollisen todennäköisyyden käytöstä.

Esimerkki 2.2.2. Heitetään kolikkoa kaksi kertaa. Oletetaan, että yhdellä

heitolla todennäköisyys saada kruuna tai klaava on

1 / 2

, eli heitto on täysin

sattumanvarainen sekäheitettävä kolikko 'reilu'.Jos tiedetään, että kahdes-

ta heitosta ainakin toisessa saatiin kruuna, niin millä todennäköisyydellä

molemmillaheitoillatulikruuna?

Nyt kaikki mahdolliset alkeistapaukset, elisatunnaiskokeen otosavaruus,

on

Ω = { (kr, kr), (kr, kl), (kl, kr), (kl, kl) }

,missäkrtarkoittaakruunaa,jakl

klaavaa. Koska kaikki alkeistapaukset ovat yhtä todennäköisiä, niin kunkin

todennäköisyyson

1 / 4

.Määritellääntapahtuma

A =

"molemmatheitotovat kruunia", joka sisältääalkeistapauksen

(kr, kr)

, ja tapahtuma

B =

"ainakin toinenheittoonkruuna",jokasisältääalkeistapaukset

(kr, kr), (kr, kl), (kl, kr)

.

Tällöin ehdollinen todennäköisyys

P (A | B) = P (A ∩ B) P (B) =

1 / 4

3 / 4

= 1 3 .

Aivankutenedelläfunktioita

P

kutsuttiintodennäköisyysfunktioksi,niin voidaan määritellätodennäköisyysfunktio

P ( ·| B)

.Funktion ontoteutettava vastaavataksioomatkuinedellä,muttaehdolla

B

.Lähempitarkastelusivuu-

tetaan, katso esimerkiksi [8, s.24℄ tai [20, s. 67-69℄.

SeuraavaksikootaanrakennuspalikoitaniinsanotunBayesinyhtälönmuo-

dostamiseksi. Yhtälön taustalla on ajatussatunnaiskokeesta, jossa tapahtu-

ma

A

onsattunut, jaollaan kiinnostuneitasiitäsattuiko samallatapahtuma

(8)

B k

. Aluksi oletetaan sekä

A

että

B

tapahtumiksi. Tapahtuma

A

voidaan

esittää muodossa

A = (A ∩ B) ∪ (A ∩ B c ).

Koska

AB

ja

AB c

ovaterillisiä tapahtumia,niinlauseen2.2.3 ja yhtälön 2.1 nojallatodennäköisyys tapahtumalle

A

voidaan kirjoittaamuodossa

P (A) = P (A ∩ B ) + P (AB c )

= P (A | B)P (B ) + P (A | B c )P (B c )

= P (A | B)P (B ) + P (A | B c )[1 − P (B)].

(2.2)

Yhtälön 2.2 nojallavoidaan todeta, että todennäköisyys tapahtumalle

A

on

tapahtumien"

A

ehdolla

B

",ja "

A

ehdollaei-

B

"painotettu keskiarvo, missä molemmatehdollisettodennäköisyydetsaavatsenverranpainoarvoakuinon

sillätapahtumalla,johon verrataan.

Yhtälö 2.1 voidaan yleistää tilanteeseen, jossa on

n

kappaletta ehdollis-

tavia tapahtumia.Oletetaan,että toisistaanpareittanerillisilletapahtumille

B 1 , . . . , B n

päteeehto

n

[

i=1

B i = Ω.

Tämäonainatoteutettavissaesimerkiksisiten,että

B n = (B 1 ∪ . . . ∪ B n−1 ) c

.

Tapahtuma

A

voidaankirjoittaatapahtumien

B i

avullasiten, että

A =

n

[

i=1

AB i .

Koskatapahtumat

AB i

ovatmyöspareittainerillisiä,niinyhtälön2.2nojalla

P (A) =

n

X

i=1

P (A ∩ B i )

=

n

X

i=1

P (A | B i )P (B i ).

(2.3)

Oletetaan nyt, että tapahtuma

A

onsattunut, ja halutaan määrittäätoden-

(9)

näköisyystapahtuman

B k

sattumiselle.Yhtälöiden2.1ja2.3 nojallasaadaan

P (B k | A) = P (B k ∩ A) P (A)

= P (A | B k )P (B k )

n

X

i=1

P (A | B i )P (B i )

.

(2.4)

Edellä on usein oletettu, että tapahtumat

A i

ovat pareittain erillisiä

kaikilla

i

.Jos näin eiole, niinvoidaankotodennäköisyyttä

P (A 1 ∪ . . . ∪ A n )

arvioidamuutenkuinkäyttämällälausetta2.1.4.Seuraavaksiesitelläänlause

ja sen seuraus, jotka tässä yhteydessä jätetään todistamatta, joiden avulla

edellinen todennäköisyys saadaanlaskettua.

Lause 2.2.3. Olkoon

A 1 , . . . , A n

tapahtumia. Tällöin

P (A 1 ∪ . . . ∪ A n ) =

n

X

i=1

P (A i ) − X

i<j

P (A i ∩ A j )

+ X

i<j<k

P (A i ∩ A j ∩ A k ) − · · · + ( − 1) n+1 P (A 1 ∩ . . . ∩ A n ).

Seuraus 2.2.4. Olkoon

A

ja

B

tapahtumia. Tällöin

P (A ∪ B ) = P (A) + P (B) − P (A ∩ B).

Toisinaanontilanteita,joissajosattuneellatapahtumallaeiolevaikutus-

ta kiinnostuksen kohteena olevantapahtuman sattumistodennäköisyyteen.

Määritelmä 2.2.5. Jos tapahtumalla B ei ole vaikutusta tapahtuman

A

todennäköisyyteen, eli

P (A | B) = P (A),

(2.5)

niintapahtumia

A

ja

B

kutsutaanriippumattomiksi.Vastaavastitällöinmyös

P (B | A) = P (B )

.

Olettaen,että

P (B) > 0

,niinmääritelmän2.2.5nojallayhtälö2.1voidaan kirjoittaariippumattomilletapahtumille muodossa

P (A ∩ B) = P (A)P (B).

(2.6)

Lasketaan yksi esimerkki, missä tapahtumat oletetaan toisistaan riip-

pumattomiksi.

(10)

Esimerkki 2.2.6. Olkoon tapahtumat

A

ja

B

riippumattomia, joille on voimassa todennäköisyysfunktio

P

siten, että

P (A) = 0.5

ja

P (B ) = 0.2

.

Määritelmän 2.2.5 nojalla

P (A | B) = P (A) = 0.5

. Nyt yhtälön 2.1 nojalla

P (A | B) = P (A) = 0.5 = P (A ∩ B)

0.2 ⇔ P (A ∩ B ) = 0.1.

Kielellisesti voi olla hankalaa ymmärtää mitä eroa on erillisillä ja riip-

pumattomillatapahtumilla.Tästäsyystätodistetaanseuraavanesimerkkiteh-

tävänväitteet, jotka toivottavastiselkeyttävätlukijalle kyseisen asian.

Esimerkki2.2.7. Olkoon

A

ja

B

tapahtumia,joilleonvoimassa

P (A) > 0

ja

P (B) > 0

.Osoitetaan,ettäjos

A, B

ovaterillisiätapahtumia,niin

A, B

eivät

ole riippumattomia. Lisäksi osoitetaan, että jos

A, B

ovat riippumattomia tapahtumia,niin

A, B

eivätoleerillisiä.

i. Oletetaan, että

A ∩ B = ∅

. Oletus tarkoittaa sitä, että tapahtumat

A

ja

B

ovat erillisiä, eli

P (A ∩ B) = 0

. Tällöin ehdollinen toden-

näköisyys

P (A | B ) = P P (A∩B) (B) = 0

(määritelmä 2.2.1), sillä tapahtuma

B

onjosattunut. Tämä onristiriidassamääritelmän2.2.5kanssa, sillä

P (A | B) = P (A) > 0

,eli

A

ja

B

eivät ole riippumattomia.

ii. Oletetaan,ettätapahtumat

A

ja

B

ovatriippumattomia,eli

P (A | B) = P (A)

. Tällöintapahtuma

B

on sattunut, ja tapahtuma

A

voi ollasat-

tunut todennäköisyydellä

P (A)

, jolloin

P (A ∩ B) > 0

, eli

A ∩ B 6 = ∅

,

jolloinne eivät ole erillisiä.

(11)

Tässä luvussa tutustutaan satunnaismuuttujiin ja niiden tiettyihin, työssä

tarvittaviinmomentteihin,elisuureisiinsekäniidenavullamääriteltyynkor-

relaatiokertoimeen. Luvun teoria on peräisin viitteistä [6, s. 15℄, [8, s. 46 -

125℄, [15,s. 51& 237℄, [20, s. 90- 214℄ ja [22, s. 35&103 -05℄

3.1 Yksiulotteinen satunnaismuuttuja

Luvussa 2 esitetty todennäköisyysteoria on pohjana tutustuttaessa satun-

naismuuttujiin,elifunktioihin, joiden arvot määrätyvätsatunnaisestiniiden

lähtöjoukkona toimivientapahtumiensattumistodennäköisyyksienmukaan.

Määritelmä 3.1.1. Satunnaismuuttuja onsellainenreaaliarvoinen funktio,

jonkamäärittelyjoukkona toimiisatunnaiskokeen otosavaruus.

Toisin sanoen, sellaista funktiota

X

, jonka määrittelyjoukon

tapahtu-

miin

ω

on liitetty todennäköisyysfunktio

P

, kutsutaan satunnaisfunktioksi.

Tällöin todennäköisyys on yhdistetty myös funktion

X

arvoihin

X(ω)

.

Määritelmä3.1.2. Satunnaismuuttujan

X

kertymäfunktio

F

onmääritelty

kaikillereaaliluvuille

−∞ < b < ∞

siten, että

F X (b) = P { X ≤ b } .

Kertymäfunktion

F

avulla voidaan vastata useisiin satunnaismuuttujan

X

todennäköisyyksiä koskeviin kysymyksiin. Esimerkiksi

P { a < X ≤ b } = F X (b) − F X (a)

kaikille

a < b

. Tämä voidaan osoittaa kirjoittamalla tapahtuma

{ X ≤ b }

kahdenerillisen tapahtuman,

{ X ≤ a }

ja

{ a < X ≤ b }

unionina

{ X ≤ b } = { X ≤ a } ∪ { a < X ≤ b } .

Tällöin

P { X ≤ b } = P { X ≤ a } + P { a < X ≤ b }

⇔ P { a < X ≤ b } = P { X ≤ b } − P { X ≤ a }

= F X (b) − F X (a).

Kertymäfunktiollevoidaanosoittaaseuraavatehdot,jotkatässäjätetään

todistamatta.

(12)

Lause 3.1.3. Jos

X

onsatunnaismuuttuja, niinsen kertymäfunktiolle

F (x)

on osoitettavissa seuraavat ominaisuudet:

(a)

F X (x)

on ei-vähenevä, eli

F X (x) ≤ F X (y)

kun

x ≤ y

.

(b)

F X ( −∞ ) ≡ lim x→−∞ F X (x) = 0, F (+ ∞ ) ≡ lim x→+∞ F X (x) = 1

.

()

F X (x)

on oikelta jatkuva, eli

lim

b→b 0 + F X (b) = F X (b 0 )

jokaiselle

b > b 0

.

Satunnaismuuttujat voidaan luokitella kolmeen pääryhmään: diskreet-

teihin, jatkuviin sekä sekatyyppisiin. Satunnaismuuttujan

X

sanotaan ole-

vandiskreetti, jos sen lähtöjoukko onäärellinentai numeroituva. Tällaiselle

satunnaismuuttujalle voidaan määritellä todennäköisyysfunktio, tai toden-

näköisyysmassa

p

:

p(x) = P { X = x } .

(3.1)

Esimerkki 3.1.4. Olkoon funktio

X

diskreettisatunnaismuuttuja, jolla on määrittelyjoukko

Ω = { x 1 , x 2 , x 3 , x 4 , x 5 }

sekä määrittelyjoukonalkioihin lii- tetyt todennäköisyydet

P [X = x i ] > 0

, kaikille

i = 1, . . . , 5

. Kuvassa 1 on

diskreetin satunnaismuuttujan

X

todennäköisyysjakauma ja kuvassa 2 on sen kertymäfunktio.

Kuva1: Diskreetin satunnaismuuttujantodennäköisyysjakauma.

(13)

Kuva 2:Satunnaismuuttujan

X

kertymäfuntio

F X

.

Diskreetinsatunnaismuuttujankertymäfunktiovoidaanesittääjokopaloit-

tain määriteltynäfunktiona taisiten, että

F X (x) = X

x ≤x

p X (x ),

(3.2)

missätodennäköisyydet

p X (x ) > 0

.Edellinenvoidaantulkitamyösdiskreetin

satunnaismuuttujanmääritelmäksi.

Esimerkissä 3.1.4 esitettiin tyypillinen esimerkki diskreetin satunnais-

muuttujan todennäköisyysjakaumasta ja kertymäfunktiosta. Matemaatikot

ovat kehittäneet lukuisia diskreettejä todennäköisyysjakaumia tai kertymä-

funktioita. Erilaisia jakaumia tarvitaan tutkittaessa erilaisia ilmiöitä. Esi-

merkkinä erityisistädiskreeteistä jakaumista esitelläänBernoullin jakauma.

Määritelmä 3.1.5. Satunnaismuuttuja

X

noudattaa Bernoullinjakaumaa,

jos

P [X = x] = p X (x) =

p x (1 − p) 1−x x = 0, 1

0 muulloin

jollekin

p ∈ [0, 1]

Määritelmän3.1.5funktion

p X

ontoteutettavaAksioomat1,2ja3,jotta sen voidaan sanoa olevan todennäköisyysfunktio. Tämä on lähes itsestään

(14)

selvää. Koska

p ∈ [0, 1]

, niin

p X (0) = 1 − p ∈ [0, 1]

sekä

p X (1) = p ∈ [0, 1]

.

Lisäksi

P 2

i=1 p X (x i ) = 1 − p + p = 1

,ja väite ontodistettu.

Edelläesitettiinuseampikinmääritelmädiskreetillesatunnaismuuttujalle.

Jatkuvasatunnaismuuttujamääritelläänvainyhdellätavalla,jokaonanalogi-

nen yhtälön 3.2 kanssa.

Määritelmä 3.1.6. Satunnaismuuttujan

X

sanotaanolevanjatkuva,jos on

olemassasellainenfunktio

f X

, että kertymäfunktio

F X

voidaanesittää muo-

dossa

F X (x) = Z x

−∞

f X (y)dy,

missä

x ∈ ( −∞ , ∞ )

.

Tällaistafunktiota

f X

kutsutaansatunnaismuuttujan

X

tiheysfunktioksi.

Jatkuvan satunnaismuuttujan kertymäfunktio määritellään siis tiheysfunk-

tion integraalina.Seuraavalause on siten intuitiivinenseuraus tästä.

Lause 3.1.7. Jos kertymäfunktio

F

on kaikkialla derivoituva, niin

F (x) = d

dx F = f(x),

silloin kun

f

on funktion

F

tiheysfunktio.

Edellä todettiin, että kertymäfunktion

F

avulla voidaan vastata toden-

näköisyyttäkoskeviinkysymyksiin.Jatkuvansatunnaismuuttujantapaukses-

sa funktio

f

toimiivastaavalla tavalla.Todennäköisyys sille, että satunnais- muuttujan

X

arvo onvälillä

[a, b]

saadaanyhtälöstä

P { a ≤ X ≤ b } = Z b

a

f X (x)dx.

(3.3)

Asettamalla

b = a

yhtälöön3.3 saadaan

P { X = a } =

Z a a

f X (x)dx = 0,

joten jatkuvallesatunnaismuuttujalle

P { X < a } = P { X ≤ a } = F (a) = Z a

−∞

f X (x)dx.

Tämätarkoittaa,ettäjatkuvansatunnaismuuttujanyksittäisenarvontoden-

näköisyys oletetaannollaksi.

(15)

Esimerkki3.1.8. Olkoon

X

jatkuvasatunnaismuuttuja,jonkatiheysfunktio

f X

, kuva 3,on

f X (x) = 3

4 ( − x 2 + 2x) 0 ≤ x ≤ 2

0 muulloin

Kuva3: Satunnaismuuttujan

X

tiheysfunktio

f X

.

Kertymäfunktion arvo

F X (a)

on tällöin

F X (a) =

0 a < 0

1

4 ( − a 3 + 3a 2 ) 0 ≤ a < 2

1 a ≥ 2

Tarkastetaan onko määritelty funktio

f

todella tiheysfunktio. Jotta näin on, niin

lim x→∞ F X (x) = lim x→∞ R x

−∞ f X (x)dx = 1

. Koska funktio

f

saa

nollastapoikkeaviaarvojavainvälillä

(0, 2)

,niinriittäätarkastellaintegraalia

R 2

0 f X (x)dx

.

Z 2 0

f X (x)dx = 1 4

2

.

0

( − x 3 + 3x 2 )

= 1

4 ( − 8 + 12)

= 1

4 ∗ 4 = 1

(16)

Kuva 4:Satunnaismuuttujan

X

kertymäfuntio

F X

.

Funktio

f

siis kelpaa satunnaismuuttujan

X

tiheysfunktioksi, joten

F

on

siten sen kertymäfunktio, kuva4.

Kuten diskreettejä, niin myös jatkuvia satunnaismuuttujia on lukuisia

erilaisia, joistaesimerkkinä eksponenttijakauma.

Määritelmä3.1.9. Josjatkuvansatunnaismuuttujan

X

tiheysfunktio,jollekin

λ > 0

, onmuotoa

f X (x) =

λe −λx x ≥ 0 0 x < 0 ,

niinsen sanotaan olevaneksponentiaalisesti jakautunut.

Määritelmän3.1.9funktio

f X

ontiheysfunktiovain,jos

F (+ ∞ ) = 1

.Nyt,

Määritelmän 3.1.2 merkinnöillä:

F (+ ∞ ) = lim

a→+∞ F X (a) = lim

a→+∞

Z a 0

λe −λx dx

= lim

a→+∞

a

.

0

− e −λx = lim

a→+∞ − e −λa + e −λ0

= 0 + 1 = 1

Diskreetinja jatkuvansatunnaismuuttujan lisäksionolemassasekatyyp-

pisiä satunnaismuuttujia.

(17)

funktio onmuotoa

F = c 1 F d + c 2 F ac ,

missä

c 1 , c 2 > 0, c 1 + c 2 = 1

ja

F d

on diskreetin ja

F ac

jatkuvan satunnais-

muuttujankertymäfunktio.

Määritelmän3.1.10mukainensatunnaismuuttujaonmukanavainkuriosi-

teetin vuoksi, eikäsiihen tässä työssä enääpalata.

3.2 Satunnaismuuttujan momentit

Käytännönsovelluksia vartenonhyödyllistäpuhuasatunnaismuuttujanmo-

mentista.Momenttionsatunnaismuuttujansuure.Esimerkkimomentinsovelta-

misesta on jostakin tuotteesta saatu keskimääräinen voitto. Eräs tärkeim-

mistä satunnaismuuttujiinliitetyistämomenteistaon sen odotusarvo.

Määritelmä 3.2.1. Satunnaismuuttujan

X

odotusarvo

EX

onmuotoa

EX =

Z ∞

−∞

xf X (x)dx

olettaen, että kyseinen integraalion olemassa,ja että se onäärellinen.

Huomautus 3.2.2. Tässä työssä satunnaismuuttujienmomentit määritellään

jatkuville funktioille. Diskreettien satunnaismuuttujien momentit määritel-

lään vastaavilla ehdoilla, mutta siten, että integraali

R ∞

−∞

vaihdetaan sum-

maan

P ∞

i=1

sekä tiheysfunktio

f X (x)

todennäköisyysfunktioon

p X (x i )

. Disk-

reetin satunnaismuuttujanodotusarvoon siten muotoa

EX =

X

i=1

x i p X (x i ).

Diskreetille satunnaismuuttujalle sen odotusarvo

EX

on painotettu keskiar-

vo arvoista

x i

, jossa 'painona' on arvon

x i

sattumistodennäköisyys

p X (x i )

.

Jos satunnaismuuttujan kaikilla tapahtumilla on sama todennäköisyys, eli

p X (x i ) = 1/N

, missä

N

on tapahtumien lukumäärä, niinodotusarvo vastaa aritmeettista keskiarvoa

X ¯

:

EX =

N

X

i=1

x i 1 N = 1

N

N

X

i=1

x i = ¯ X

(18)

Lause 3.2.3. Jos

f

on satunnaismuuttujan

X

tiheysfunktio, niin tällöin reaaliarvoisen funktion

g

odotusarvo

E[g(X)] = Z ∞

−∞

g (x)f X (x)dx.

Lausetta ei tässä todisteta. Mielenkiintoinen todistus löytyy viitteestä

[20℄.

Osoitetaan seuraavaksi eräitä tärkeitä odotusarvon laskemiseen liittyviä

ominaisuuksia.

Lause 3.2.4. Olkoon

X

satunnaismuuttuja ja

c 6 = 0

vakio. Lisäksi, olkoot

g(X), g 1 (X)

ja

g 2 (X)

reaaliarvoisia funktioita, joille on olemassa odotusar- vot. Tällöin

1.

E(c) = c

;

2.

E(cg(X)) = cEg(X)

;

3.

E(g 1 (X) + g 2 (X)) = Eg 1 (X) + Eg 2 (X)

;

4.

Eg 1 (X) ≤ Eg 2 (X)

, jos

g 1 (x) ≤ g 2 (x)

kaikilla

x

;

5.

| Eg(X) | ≤ E | g(X) |

.

Todistus.

1.

E(c) = R ∞

−∞ cf X (x)dx = c R ∞

−∞ f X (x)dx = c

2.

E(cg(X)) = R ∞

−∞ cg(x)f X (x)dx = c R ∞

−∞ g (x)f X (x)dx = cEg(X)

3.

E(g 1 (X) + g 2 (X)) = Z ∞

−∞

[g 1 (x) + g 2 (x)]f X (x)dx

= Z ∞

−∞

g 1 (x)f X (x)dx + Z ∞

−∞

g 2 (x)f X (x)dx

= Eg 1 (X) + Eg 2 (X)

(19)

4. Jos

f(x) ≤ g(x)

kaikilla

x ∈ R

, niin

Z

R

f(x)dx ≤ Z

R

g(x)dx.

Tällöin siis

Eg 1 (X) = Z ∞

−∞

g 1 (x)f X (x)dx

≤ Z ∞

−∞

g 2 (x)f X (x)dx = Eg 2 (X).

5. Josfunktio

f

onintegroituvajoukossa R,niinmyös

| f |

on, jolloinniille

on voimassa integraalien kolmioepäyhtälö:

Z

R

f ≤

Z

R | f | .

Täten siis

| Eg (X) | =

Z ∞

−∞

g (x)f X (x)dx

≤ Z ∞

−∞ | g (x)f X (x) | dx

= Z ∞

−∞ | g (x) | f X (x)dx = E | g(X) | .

Edelläsaaduttuloksetovaterittäinhyödyllisiäapuvälineitäerisatunnais-

muuttujienmomenttien ominaisuuksien selvittämiseksi.

Määritelmä 3.2.5. Satunnaismuuttujan

X

n. keskusmomentti on

µ n ≡ E[X − EX] n

Tärkeitä keskusmomentteja ovat ainakin toinen

µ 2 ≡ E[X − EX] 2

ja

kolmas keskusmomentti

µ 3 ≡ E[X − EX] 3

. Edellistä kutsutaan satunnais-

muuttujan

X

varianssiksi, ja jälkimmäistäsen vinoudeksi.

(20)

Olkoon

Y = h(X)

satunnaismuuttuja, missä

h(X) = (X − EX) 2

, jolla

onodotusarvo.Tällöin määritelmän3.2.1 nojalla sen odotusarvo onmuotoa

EY = E[(X − EX) 2 ] = Z ∞

−∞

[x − EX] 2 f X (x)dx.

Edellä määritellyn funktion

h(X)

odotusarvo onsiis satunnaismuuttujan

X

varianssi.

Satunnaismuuttujan momenttien laskeminen voi olla työlästä, etenkin

suurten aineistojen kohdalla. Tästä syystä on, mahdollisuuksien mukaan,

mielekästä käyttää jo laskettuja momenttejahyväksi määritettäessäuusia.

Lemma 3.2.6.

V ar(X) = EX 2 − [EX] 2

.

Todistus.

V ar(X) = E[X − EX] 2

= E(X 2 − 2XEX + [EX] 2 )

= EX 2 − 2EXEX + [EX] 2

= EX 2 − [EX] 2 .

Satunnaismuuttujanvarianssionsiissen neliönodotusarvonjaodotusar-

vonneliön erotus.

Lause 3.2.7.

V ar(aX + b) = a 2 V ar(X)

.

Todistus.

V ar(aX + b) = E[(aX + b) − E(aX + b)] 2

= E[aX + b − E(aX) − b] 2

= E[a(X − EX)] 2

= a 2 E[X − EX] 2

= a 2 V ar(X).

Jatkossa odotusarvolle ja varianssille käytetään lyhyempiä merkintöjä

siten, että

µ = EX

ja

σ 2 = V ar(X)

. Lisäksi määritellään vielä keskiha- jonta

σ(X) = p

V ar(X)

.

(21)

Lause 3.2.8. Olkoon

X = X−E(X) σ(X)

satunnaismuuttuja. Tällöin

EX = 0

ja

V ar(X ) = 1

.

Todistus. Käytetään satunnaismuuttujan

X

odotusarvolle

EX

,keskihajon- nalle

σ(X)

sekävarianssille

V ar(X)

edellämääriteltyjämerkintöjätodistuk- sen selkeyttämiseksi.Nyt siis

EX = µ

,

σ(X) = σ

ja

V ar(X) = σ 2

.

i.

EX = E

X − E(X) σ(X)

= E

X − µ σ

= E 1

σ (X − µ)

= 1

σ E(X − µ)

= 1

σ [E(X) − µ] = 1

σ [µ − µ] = 0

ii.

V ar(X ) = V ar

X − E(X) σ(X)

= V ar

X − µ σ

= V ar 1

σ (X − µ)

= 1

σ 2 V ar(X − µ)

= V ar(X) σ 2 = σ 2

σ 2 = 1.

Edelläesitettyäsatunnaismuuttujaa

X

kutsutaanstandardisoiduksisatun- naismuuttujaksi.Tällöinminkätahansasatunnaismuuttujanjakaumasaadaan

odotusarvonja varianssinosaltayhtäläisiksi.Tämähelpottaaesimerkiksi sa-

tunnaismuuttujienvertailua.Tunnetuintällainenjakaumaontodennäköises-

ti standardinormaalijakauma

N (0, 1)

Tärkeitä jakaumia

Monet tutkitut satunnaisilmiöt näyttävät noudattavan niin sanottua nor-

maalijakaumaa. Tästä syystä se onerittäintärkeäfunktio tutkittaessa mitä

erilaisempia ilmiöitä.Myös tämäntyönempiirinen analyysiperustuu oletta-

mukseen normaalistijakautuneista satunnaisilmiöistä.

(22)

Määritelmä 3.2.9. Olkoon

X

satunnaismuuttuja,jonkaodotusarvo

EX = µ

ja varianssi

V ar(X) = σ 2

ovat olemassa. Jos satunnaismuuttujan

X

ti-

heysfunktio on muotoa

f(x) = 1

√ 2πσ e 1 2 ( x−µ σ ) 2 ,

niin sen sanotaan olevan normaalisti jakautunut, ja sitä merkitään

X ∼ N (µ, σ 2 )

.

Jotta tiedetään, että edellä määritelty

f

todella on tiheysfunktio, niin on näytettävä, että

R ∞

−∞ f (x) = 1

. Eräs todistus on viitteessä [20℄, mutta

tässäsitäeikäydäläpi.Osoitetaanseuraavaksieräsnormaalijakaumantärkeä

ominaisuus.

Esimerkki3.2.10. Jossatunnaismuuttuja

X

onnormaalijakautunutodotus- arvolla

µ

ja varianssilla

σ 2

,niinsatunnaismuuttuja

Y = αX + β

onnormaa-

lijakautunutodotusarvolla

αµ + β

ja varianssilla

α 2 σ 2

.

Oletetaan,että

α > 0

. Tällöin

F Y (a) = P { Y ≤ a }

= P { αX + β ≤ a }

= P { X ≤ a − β α }

= F X

a − β α

.

Koska satunnaismuuttuja

X

on normaalijakautunut, niin kertymäfunktion

F

arvo pisteessä

a−β α

saadaan määritelmän 3.2.9 mukaisen tiheysfunktion määrätystäintegraalista siten, että

F X

a − β α

=

Z (a−β)/α

−∞

√ 1

2πσ e 1 2 ( x−µ σ ) 2 dx.

Tekemälläintegraaliinmuuttujanvaihto

y = αx + β

,saadaan

F Y (a)

,jokasaa

esityksen

F Y (a) = Z a

−∞

√ 1

2πασ e 1 2 [y−(αµ+β)]2

α 2 σ 2 dy.

(23)

Koska kertymäfunktion arvo

F Y (a) = R a

−∞ f Y (y)dy

, niintiheysfunktio

f Y (y) = 1

√ 2πασ e 1 2 [y−(αµ+β)]2 α 2 σ 2 ,

elisatunnaismuuttuja

Y

onnormaalijakautunutparametreilla

αµ+β

ja

α 2 σ 2

.

Edellinentodistus ontärkeäsiksi,ettäsen perusteellavoidaanmääritellä

niin sanottu normaalijakauman standardimuoto. Lauseen 3.2.8 nojalla, jos

satunnaismuuttuja

X

on normaalijakautunutparametreilla

µ

ja

σ 2

, niin sa-

tunnaismuuttuja

Y = (X − µ)/σ

on normaalijakautunut parametreilla

0

ja

1

, ja merkitään

Y ∼ N (0, 1)

.

Huomautus 3.2.11. Lause 3.2.8 ei totea mitään standardisoidun satunnais-

muuttujanjakaumasta.Edellisenesimerkinnojallavoidaantodeta,että nor-

maalijakautunutsatunnaismuuttuja pitää tällöin"muotonsa".

Vaikkaoletusilmiöidennormaalijakautuneisuudestapitäisikinpaikkansa,

niinharvoinmielekkäänkokoinentutkimusaineistoonjakautunuttäsmälleen

sen mukaisesti. Oletuksena tällöin on, että jakauman varianssi on sitä suu-

rempi,mitäpienemmästäaineistostaonkyse.Tätävartenmääritelläänjakau-

ma, joka muistuttaa muodoltaan normaalijakaumaa, ja joka itse asiassa lä-

hestyy sitä kunaineiston kokokasvaa.

Määritelmä 3.2.12. Gammafunktio

Γ

on kaikillereaaliluvuille

n > 0 Γ(n) ≡

Z ∞ 0

x n−1 e −x dx = 2 Z ∞

0

y 2n−1 e −y 2 dy.

Gammafunktiolleon osoitettavissa yhtäsuuruus

Γ(n) = (n − 1)!

. Tässä

sitä käytetään määritettäessä jakaumia, joiden avulla tutkitaan regressio -

mallin parametrienluotettavuutta.

Määritelmä 3.2.13. Satunnaismuuttuja

X

on Student'in t-jakauma va-

pausasteella

n

,jos jollekin

n > 0, n ∈ R + f X (x) = Γ n+1 2

√ nπ Γ n 2

1 1 + x n 2 (n+1)/2

Määritelmää 3.2.13 käytetään laskettaessa kertymäfunktion arvoja va-

pausastetta

n

olevillet-jakaumille.Koskamääritelmänmukaant-jakaumaon

(24)

satunnaismuuttujan

X

tiheysfunktio,niinsenontoteutettavamääritelmässä 3.1.6 annetut ehdot. Näiden ehtojen osoittaminen ei tässä ole mielekästä,

joten se sivuutetaan. Edellä määritelty jakauma

f

muodostaa funktioper- heen.

Määritelmä3.2.14. Satunnaismuuttujan

X

jakaumansanotaanolevan

F − jakauma F (n 1 , n 2 )

,

n 1 , n 2 ∈ N

jos sen kertymäfunktio

f

onmuotoa

f X (x) =

 

 

Γ ( n 1+ 2 n 2 ) n n 1 2

n 1 /2

Γ ( n 2 1 ) Γ ( n 2 2 )

x (1/2)(n 1 −2 1+ n n 1

2 x (1/2)(n 1 + n 2) 0 < x < ∞

0

muulloin

.

,

F-jakaumaonkahdenparametrin,

n 1 , n 2

,määrittelemäfunktioperhe.Kuten määritelmästävoihavaita,niinparametrienjärjestykselläonmerkitystäjakau-

man määrittelyssä.Tämänkäänjakaumankohdallaeiosoitetasen kelpaavan

kertymäfunktioksi, vaan sen oletetaan kelpaavan.

3.3 Usean satunnaismuuttujan momentit

Edellä on käsitelty yksittäisen eli yksiulotteisen satunnaismuuttujan mo-

mentteja.Käytännönsovelluksissaollaankuitenkinuseinkiinnostuneitakah-

den tai useamman satunnaismuuttujan keskinäisistä riippuvuuksista. Tästä

syystä laajennammekäsittelynkoskemaan satunnaismuuttujienyhdistettyjä

momentteja,taimoniulotteisensatunnaismuuttujanmomentteja. Aloitetaan

esittelemällä lauseelle 3.2.3 analoginen tulos, joka tässä yhteydessä jätetään

todistamatta.

Lause3.3.1. Olkoon

(X 1 , . . . , X n )

n-ulotteinensatunnaismuuttuja,jaolkoon

E[g(X 1 , . . . , X n )]

olemassa. Tällöin

Eg(X 1 , . . . , X n ) =

Z ∞

−∞ · · · Z ∞

−∞

g(x 1 , . . . , x n )f X 1 ,...,X n (x 1 , . . . , x n )dx 1 . . . dx n .

Ennen käsittelyn ulottamista n-ulotteisten satunnaismuuttujien muihin

momentteihinotetaankatsaustilanteeseen,jossaollaankiinnostuneitasatun-

naismuuttujientapahtumienyhtäaikaisestasattumisestajasentodennäköisyy-

destä.

(25)

Määritelmä 3.3.2. Satunnaismuuttujien

X

ja

Y

sanotaanolevanyhteisesti

jatkuvia, jos kaikille reaaliluvuille

x

ja

y

on olemassa funktio

f (x, y)

, jonka

kaikillereaalilukuparijoukoille

C ⊂ R 2

onvoimassa yhtälö.

P { (X, Y ) ∈ C } = Z

C

f(x, y)dxdy.

Funktiota

f (x, y)

kutsutaan satunnaismuuttujien

X

ja

Y

yhdistetyksi ti- heysfunktioksi.

On olemassa tilanteita, joissa tarkastellaan kahta eri satunnaismuuttu-

jaa yhdessä, mutta niillä ei ole vaikutusta toisiinsa. Tällöin tilanne vastaa

määritelmän 2.2.5 tilannetta,eli:

Määritelmä3.3.3. Olkoonsatunnaismuuttujilla

X

ja

Y

yhdistettytiheysfunk- tio

f (x, y)

, sekä reunatiheysfunktiot

f X (x)

ja

f Y (y)

. Satunnaismuuttujia

X

ja

Y

sanotaan tilastollisestiriippumattomiksijos ja vain jos

f(x, y) = f X (x)f Y (y)

kaikille

x ∈ X, y ∈ Y

.

Lauseen 3.3.1 ja määritelmän 3.3.3 nojalla kahden riippumattoman sa-

tunnaismuuttujan odotusarvolle saadaanseuraava lauseke.

Propositio 3.3.4. Jos satunnaimuuttujat

X 1

ja

X 2

ovat riippumattomia, niin mielivaltaisillefunktioille

g

ja

h

on voimassa yhtälö

E[g(X)h(Y )] = Eg(X)Eh(Y ).

Todistus.

E[g(X)h(Y )] = Z ∞

−∞

Z ∞

−∞

g (x)h(y)f (x, y)dxdy

= Z ∞

−∞

Z ∞

−∞

g (x)h(y)f X (x)f Y (y)dxdy

= Z ∞

−∞

g(x)f X (x)dx Z ∞

−∞

h(y)f Y (y)dy

= Eg(x)Eh(y).

(26)

Määritelmä3.3.5. Olkoon

(X 1 , X 2 )

kaksiulotteinensatunnaismuuttuja.Mää- ritelläänkaikilleei-negatiivisillekokonaisluvuille

n 1 , n 2

luku

µ n 1 ,n 2 = E { (X 1 − EX 1 ) n 1 (X 2 − EX 2 ) n 2 }

olettaen, että odotusarvo on olemassa. Lukua

µ n 1 ,n 2

kutsutaan satunnais-

muuttujien

(X 1 , X 2 )

yhdistetyksi keskusmomentiksi , jonka kertaluokka on

n 1 + n 2

.

Esimerkki3.3.6. OlkoonX

= (X 1 , X 2 )

kaksiulotteinensatunnaismuuttuja.

Määritelmän 3.3.5 nojalla

i.

µ 1,0 = µ 0,1 = 0

. Osoitetaan, että

µ 1,0 = 0

.Nyt

µ 1,0 = E { (X 1 − EX 1 ) 1 (X 2 − EX 2 ) 0 }

= E { (X 1 − EX 1 ) · 1 }

= EX 1 − EX 1 = 0.

Vastaavastivoidaanosoittaa, että

µ 0,1 = 0

.

ii.

µ 2,0 = V ar(X 1 )

ja

µ 0,2 = V ar(X 2 )

. Kuten edellä, niin kohdassa ii.

riittää näyttää vain toinen tapaus. Osoitetaan, että

µ 2,0 = V ar(X 1 )

.

Tällöin

µ 2,0 = E { (X 1 − EX 1 ) 2 (X 2 − EX 2 ) 0 }

= E { (X 1 − EX 1 ) 2 · 1 }

= V ar(X 1 ).

iii.

µ 1,1 = E { (X 1 − EX 1 )(X 2 − EX 2 ) }

. Tällaistatoisen kertaluokan,

µ 1,1

,

yhdistettyä keskusmomenttia kutsutaan satunnaismuuttujien

X 1 , X 2

kovarianssiksi, ja se merkitään

cov(X 1 , X 2 )

.

Esimerkin 3.3.6 kohdassa iii. esitetty määritelmä kovarianssille voidaan

laskea auki, jolloin saadaan käyttökelpoisempi yhtälö kovarianssin määrit-

tämiseksi.

Cov(X 1 , X 2 ) = E { (X 1 − EX 1 )(X 2 − EX 2 ) }

= E[X 1 X 2 − EX 1 X 2 − X 1 EX 2 + EX 1 EX 2 ]

= E(X 1 X 2 ) − EX 1 EX 2 − EX 1 EX 2 + EX 1 EX 2

= E(X 1 X 2 ) − EX 1 EX 2 .

(27)

Proposition3.3.4nojalla

Cov(X 1 , X 2 ) = 0

,jossatunnaismuuttujat

X 1 , X 2

ovat riippumattomia. Kuitenkaan ei voida sanoa, että satunnaismuuttujat

ovat riippumattomia, jos niiden kovarianssi on nolla. Katso esimerkiksi [8,

th. 5.3.11℄.

Edelläesiteltykovarianssi tuleekäyttöönesimerkiksi laskettaessa kahden

mielivaltaisensatunnaismuuttujansumman varianssia.

V ar(X 1 + X 2 ) = E

[X 1 + X 2 − E(X 1 + X 2 )] 2

= E

[X 1 + X 2 − EX 1 − EX 2 ] 2

= E

[(X 1 − EX 1 ) + (X 2 − EX 2 )] 2

= E

(X 1 − EX 1 ) 2 + (X 2 − EX 2 ) 2 +2(X 1 − EX 1 )(X 2 − EX 2 )

= E

(X 1 − EX 1 ) 2 + E

(X 2 − EX 2 ) 2 +2E

(X 1 − EX 1 )(X 2 − EX 2 )

= V ar(X 1 ) + V ar(X 2 ) + 2Cov(X 1 , X 2 ).

Satunnaismuuttujien summan varianssi on siis yksittäisten varianssien

summa lisättynä kahdella kovarianssilla. Odotusarvot

EX 1 , EX 2 ∈ R

, ja voivat numeroarvoltaan vaihdella suuresti. Tällöin myös kovarianssin arvo

voivaihdellasuuresti. Tällaisellatiedollavoiollahankalavertaillaesimerkik-

sisitäkumpisatunnaismuuttuja,

A

vai

B

,korreloienemmänsatunnaismuut- tujan

C

kanssa. Tätä varten määritellään kerroin, jonka avulla vertailu on- nistuu.

Määritelmä3.3.7. Satunnaismuuttujien

X 1 , X 2

korrelaatiokerroin onmuo- toa

ρ(X 1 , X 2 ) = Cov(X 1 , X 2 ) σ(X 1 )σ(X 2 ) .

Määritelmän 3.3.7 korrelaatiokertoimella on loistava ominaisuus, jonka

vuoksi sen käyttö on hyödyllistä vertailtaessa korrelaatioiden suuruuksia.

Kerroin saa nimittäinarvoja vain väliltä

[ − 1, 1]

.

Lause 3.3.8. Korrelaatiokertoimelle

ρ

onosoitettavissaseuraavatominaisu- udet:

1.

− 1 ≤ ρ(X 1 , X 2 ) ≤ 1

(28)

2.

ρ(X 1 , X 2 ) = 1 ⇔ X σ(X 2 −EX 2 ) 2 = X σ(X 1 −EX 1

1 )

3.

ρ(X 1 , X 2 ) = − 1 ⇔ X σ(X 2 −EX 2 ) 2 = − X σ(X 1 −EX 1 ) 1

Todistus. Todistetaan tässä kohta 1. Muut kohdat katso [8,s. 123℄.

1. Oletetaan,ettäsatunnaismuuttujilla

X 1 , X 2

onolemassavarianssit

σ X 2 1 , σ X 2 2

.

Tällöin

0 ≤ V ar X 1

σ X 1

+ X 2

σ X 2

= V ar(X 1 )

σ X 2 1 + V ar(X 2 )

σ X 2 2 + 2Cov(X 1 , X 2 ) σ X 1 σ X 2

= 1 + 1 + 2 Cov(X 1 , X 2 ) σ X 1 σ X 2

= 2[1 + ρ(X 1 , X 2 )],

josta voidaan ratkaista, että

− 1 ≤ ρ(X 1 , X 2 )

. Vastaavasti

0 ≤ V ar X 1

σ X 1

− X 2

σ X 2

= V ar(X 1 )

σ 2 X 1 + V ar(X 2 )

( − σ X 2 ) 2 − 2Cov(X 1 , X 2 ) σ X 1 σ X 2

= 1 + 1 − 2 Cov(X 1 , X 2 ) σ X 1 σ X 2

= 2[1 − ρ(X 1 , X 2 )],

josta saadaan

ρ(X 1 , X 2 ) ≤ 1

.

Korrelaatiokerroinmittaasatunnaismuuttujienlineaaristasuhdetta.Tämä

tarkoittaa sitä, positiivisella kertoimella muuttujan

X 1

kasvaessa myös

X 2

kasvaa,javastaavastinegatiivisellakertoimellapäinvastoin.Lisäksimitälähem-

mäsvälinpäätepisteitäkerroinon,niinsitävoimakkaampionriippuvuus,kun

taas arvo

0

indikoi riippumattomuutta.

(29)

Luvun lopuksiesitälläänsatunnaismuuttujienehdollinenodotusarvo.Työssä

tutkitaan selitettävää muuttujaa

X

selittävillä muuttujilla

Y i

, ja erityisesti selitetään odotusarvoa

EX

muuttujilla

Y i

.

Määritelmä 3.4.1. Jos ehdollinen kertymäfunktio

F X|Y (x | y)

on jatkuva,

niinsatunnaismuuttujan

X

ehdollinen odotusarvo ehdolla

Y

on

E[X | Y = y] =

Z ∞

−∞

xf X |Y (x | y)dx

Huomioitavaaon,ettäodotusarvo

E[X | Y = y]

onvainpaljasluku,mutta

E(X | Y )

onsatunnaismuuttuja.

Lause3.4.2. Olettaen,ettäsuuretovatolemassa,niinmielivaltaisillediskreeteille

satunnaismuuttujille on voimassa yhtälö

EX = E[E(X | Y )].

Luvussa2.2esiteltymääritelmä2.2.1ehdollinentodennäköisyys onsovel-

lettevissa myös satunnaismuuttujien odotusarvoille. Oletetaan, että satun-

naismuuttujilla

X

ja

Y

on yhdistetty todennäköisyysjakauma. Tällöin sat- unnaismuuttujalle

X

on määritelty ehdollinen todennäköisyysfunktio

p X |Y

ehdolla

Y = y

siten,että

p X|Y (x | y) = P { X = x | Y = y } = p(xy)

p Y (y) .

(3.4)

Todistus. Lauseen todistamiseksionosoitettava,että ehto

EX = X

y

E[X | Y = y]P { Y = y }

(30)

X

y

E[X | Y = y]P { Y = y } = X

y

X

x

xP { X = x | Y = y } P { Y = y }

= X

y

X

x

x P { X = x, Y = y }

P { Y = y } P { Y = y }

= X

y

X

x

xP { X = x, Y = y }

= X

x

x X

y

P { X = x, Y = y }

= X

x

xP { X = x }

= EX

Lauseen 3.4.2 osoittama ominaisuus on vastaava kuin luvussa 2.2 es-

itetyllä yhtälöllä 2.2. Nimittäin,satunnaismuuttujan

X

odotusarvo voidaan

määritellä niiden satunnaismuuttujan

Y

tapahtumien todennäköisyyksien 'painotettuna odotusarvona', joille

X

on ehdollistettu.

(31)

Tässä luvussa on lyhyt kuvaus työssä käytetystä menetelmästä, eli regres-

sioanalyysista.Lisäksi esitellääntässä työssä käytetyt, regression tuottaman

mallinarviointiintarvittavatkäsitteet.Luvunteoriaonperäisinviitteistä[5℄,

[9℄, [12℄, [13℄, [15℄, [17℄, [19℄ ja [23℄

4.1 Menetelmä

Regressioanalyysi on tilastollinenmenetelmä, jolla estimoidaan paras mah-

dollinenselittävienmuuttujien

x i

yhdistelmäennustettaessaselitettäväämuut- tujaa

y

. Matematiikassa vastaavaa menetelmää kutsutaan nimellä pienim- män neliösumman menetelmä. Tämäntyönmallinnuksessakäytetäänerityi-

sesti lineaaristaregressiota. Yksinkertainen lineaarinen regressioonmuotoa

y = β 0 + β 1 x,

missä

y

onselitettävämuuttuja,

x

onselittävämuuttuja ja

β 0 , β 1

, jotkaovat

sovitettavatparametrit.Usean selittäjänregressiossa selittäviämuuttujiaon

useampia. Yleisesti kirjoitettuna

y = β 0 + β 1 x 1 + . . . + β p x p .

Puhuttaessa lineaarisesta regressiosta tarkoitetaan parametrien lineaari-

suutta,jokaonyksiniinkutsutuistaGauss-Markovinehdoista,jotkakuvaavat

ideaalisenregressiomallin.Lineaarisuusoletusvoidaanesittäämyösehdollise-

na todennäköisyytenä

E(Y |X ) = X β,

missä

X

tarkoittaa kaikkien selittävien muuttujien muodostamaa matriisia ja

β

on parametrivektori. Tällöin yksittäisen selittävän muuttujan

X i

yk-

sikkömuutos onvakio

β i

koko tarkastelujaksonyli. Toisin sanoen

∂E(Y |X )

∂X i

= β i .

Reaalimaailmanilmiöitätutkittaessa onhuomioitava,ettäluotumallion

aina (karkea) kuvaus alkuperäisestä ilmiöstä. Tämä tarkoittaa, että kaikkia

ilmiöönliittyviätekijöitäei ole edes mahdollista saati mielekästä sisällyttää

(32)

vatussaregressiossa tällaistavirheen mahdollisuuttaei oleotettuhuomioon.

Sitä kutsutaan tällön deterministiseksi.

Edellinen merkitsee siis sitä, että luodun mallin arvot eroavat tutkitun

aineiston havaintoarvoista. Tämä ei kuitenkaan tarkoita etteikö mielekästä

mallia olisi löydettävissä. On tyydyttävä malliin, joka on mahdollisimman

lähellä alkuperäistä aineistoa.Kun malliei täysin vastaa alkuperäistä tilan-

netta,niinsiihensanotaansisältyvänvirhettä.Kunhavaintopiste

y i

onetäisyy-

den

r

päässämallin arvosta

y ˆ i

, eli

r i = | y i − y ˆ i | ,

(4.1)

niinparametri

r

onmallinsisältämävirhe1,jotakutsutaanjäännökseksi,eng.

residual.

Ylimääräytyvä, eli ei-deterministinen, usean selittäjän regressio kirjoite-

taan muodossa

y = β 0 + β 1 x 1 + . . . + β p x p + r.

Jättämälläylläolevasta yhtälöstäpoisjäännöstermi

r

saadaanyhtälössä 4.1

esiintyvä

y ˆ

,eli

ˆ

y = β 0 + β 1 x 1 + . . . + β p x p .

Mahdollisimmanhyväänmalliinpäästään minimoimallajäännös

r

.Jään-

nöksen matriisiyhtälöonmuotoa

r = Y − X β.

Jäännösvektorin

r

pituus määritetäänEukleideen vektorinormilla

k r k 2 =

n

X

i=1

r i 2

! 1/2

,

jota minimoidaan.Tästä ilmeisestinimitys pienin neliösumma.

Huomautus 4.1.1. Euklidinennormi on arkielämästäkaikille tuttu etäisyys-

mitta, missäkahden tasonpisteen

x 1 , x 2

välinen etäisyys

y

onmääritetty nii-

den neliöiden summanneliöjuurena, eli

y = q

x 2 1 + x 2 2 .

1

Tilastollinen virhe tarkoittaamittaustuloksen jatutkittavan suureen 'todellisen' ar-

von erotusta, eikäse ole mittaajan havaittavissa.Jäännös on mallin antaman arvon ja

mittaustuloksen välinenerotus.

(33)

Normion yleistettävissä

n

-ulotteisiinavaruuksiin, jolloinse saa muodon

y = q

x 2 1 + x 2 2 + . . . + x 2 n .

Määritelmä 4.1.2. Olkoon

X β = Y

ylimääräytyväjoukkoyhtälöitä,missä

X

on

m × n

matriisi,

m > n

. Pienimmän neliösumman menetelmä minimoi Euklidisennorminjäännösvektorin

r

.Toisinsanoen

β

onoptimointiongelman

min β k r k 2 = min

β k Y − X β k 2

ratkaisu.

Lause 4.1.3. Jos matriisin

X

sarakevektorit ovat lineaarisesti riippumatto- mia, niinmatriisi

( X T X ) −1

on olemassa, jolloin optimointi ongelmalla

min β k Y − X β k 2

on yksikäsitteinen ratkaisu

X T X β = X T Y.

Todistus sivuutetaan, katso [9, s. 235 -236℄.

Otetaan seuraavaksi yksinkertainen esimerkki pienimmän neliösumman

käytöstä.

Esimerkki 4.1.4. Olkoon havaintoaineistona kolme tason pistettä

z 1 = (1, 6), z 2 = (2, 7)

ja

z 3 = (3, 10)

. Oletetaan, että mitattua ilmiötä voidaan

kuvata suoralla

y = β 0 + β 1 · x

.Jäännöksen matriisiyhtälösaa siten muodon

r = Y − X β =

 6 7 10

 −

 1 1 1 2 1 3

 β 0

β 1

.

Lauseen4.1.3nojallavirheterminminimisaadaanyksikäsitteisestiratkaistua,

josmatriisin

A

sarakevektoritovatlineaarisestiriippumattomia,eli

( X T X ) −1

on olemassa.Huomataan, että tässä tapauksessa näin on. Tällöin

X T =

1 1 1 1 2 3

, X T X = 3 6

6 14

.

(34)

Matriisi

( X T X ) −1

on olemassa ja, ratkaisemalla esimerkiksi Gauss-Jordan -menetelmällä,on muotoa

( X T X ) −1 = 7

3 − 1

− 1 1 2

.

Yhtälöryhmän

X T X β = X T Y

ratkaisuksi saadaan

β = ( X T X ) −1 X T Y = 11

2 3

.

Ilmiötäparhaiten kuvaavasuoranyhtälö onsiismuotoa

y = 2x + 11 3

.

Kuva 5: Havaintopisteet

z i , i = 1, 2, 3

sekä PNS-sovitettu suora

y

.

Näinonsaatu jäännösvektori

r =

 1/3

− 2/3 2/3

 ,

jolloinsen pituus

k r k 2 = 1

.

Luvun lopuksi esitelläänjo edellä mainitutGauss-Markov ehdot.

Määritelmä4.1.5. SeuraaviaehtojakutsutaanGauss-Markovehdoiksiuse-

an selittäjänregressiossa.

(35)

y = β 0 + β 1 x 1 + . . . + β k x k + r,

missä

β 0 , β 1 , . . . , β k

ovattuntemattomiaparametreja,ja

r

on"näkymätön"

satunnainen virhetermi.

2. Satunnaisotanta: On olemassa satunnaisotos, jossa on

n

havaintoa,

{ (x i1 , x i2 , . . . , x in , y i ) : i = 1, 2, . . . , n }

, jotkaseuraavatoletuksesta 1.

3. ei-Kollineaariset muuttujat: Selittävät muuttuja eivät saa olla vakioi-

ta, eikä yksikään selittävä muuttuja saa ollatäydellisessä lineaarisessa

riippuvuussuhteessa toiseenselittävään muuttujaan.

4. Ehdollinen odotusarvo: Virhetermin

r

ehdollinen odotusarvo on nolla

kaikillaselittävien muuttujanarvoilla.Toisin sanoen

E(r | x 1 , x 2 , . . . , x k ) = 0.

5. Homoskedastisuus:Virhetermin

r

varianssionvakiokaikillaselittävien muuttujan arvoilla,eli

V ar(r | x 1 , x 2 , . . . , x k ) = σ 2 .

Nämä ehdot ovat olettamuksia, jotka toteutuessaan kuvaavat ideaalisen

regressiomallin.Koskatodellisuuseiuseinkaanvastaateoriaa,niinnäitäolet-

tamuksia eipidetä ehdottomina,vaan sellaisina, joitakohtion hyväpyrkiä.

4.2 Mallin arviointi

Edelläesitettypienimmänneliösummanmatemaattinentarkastelueiotakan-

taa saadunmallintilastollisistaominaisuuksista.Mallinhyvyyttä arvioidaan

erilaisilla tilastollisilla suureilla. Tässä työssä tehtyjä sovitteita on arvioitu

kolmen erisuureen avulla.Ne ovatselitysaste,

R 2

, t-testi ja F-statistiikka.

4.2.1 Varianssien vertailu

Muokkaamallayhtälöä 4.1saadaanhavaintoarvo

y i

kirjoitettuasovitetun ar- von

y ˆ i

ja jäännöstermin

r i

summana

y i = ˆ y i + ˆ r i .

Viittaukset

LIITTYVÄT TIEDOSTOT

1. Hajota identiteetin vasemman puoleinen matriisi kahden matriisin tu- loksi ja käytä Binet-Cauchy

Kertaa ryhm¨ an, renkaan, kokonaisalueen, kunnan sek¨ a karakteristikan m¨ a¨ aritelm¨ at... 5..

Oletetaan, että kommutaattori [a, b] kommutoi alkion a kanssa.. Oletetaan, että [a, b] kommutoi alkioiden a ja

Vastauksia tehtäviin voi lähettää sähköpostilla osoitteeseen aleksis.koski@helsinki., tai postitse osoitteeseen Aleksis Koski, Helsinginkatu 19 A 36, 00500 Helsin- ki..

Osoita, että yhden alkion sisältävä joukko voi muodostaa laskutoimi- tuksen kanssa

Tätä varten laajennetaan reaalilukujen joukkoa R kahdella pisteellä : ∞, −∞.. Siis ∞, −∞ eivät ole

Korttipakasta otetaan hertat

Yhdensuuntaiset