Kurssin asema opetuksessa

(1)

582421 Satunnaisalgoritmit

kev¨at 2009 Jyrki Kivinen

(2)

Kurssin asema opetuksessa

• laajuus 8 op

• kelpaa syvent¨aviin opintoihin algoritmien ja koneoppimisen (ja vanhalla algoritmien) erikoistumislinjalla.

• esitietoina perustiedot todennäköisyyslaskennasta sekä algoritmien suunnittelusta ja analyysista

• aiheena todenn¨ak¨oisyyslaskennan soveltaminen algoritmien suunnittelussa ja analyysissa

• todennäköisyyslaskennan sovelluksia koneoppimiseen käsitellään

lukuisilla muilla erikoistumislinjan kursseilla (Johdatus koneoppimiseen, Todenn¨ak¨oisyysmallit, Unsupervised Machine Learning jne.)

• todennäköisyyslaskennan teoriaa käsitellään matematiikan kursseilla

• todennäköisyyslaskennan kannalta soveltavaa, tietojenkäsittetieteen

(3)

Kurssin suorittaminen ja arvostelu

Maksimipistemäärä 60 pistettä:

• kaksi kurssikoetta 24 + 24 = 48 pistett¨a

• laskuharjoitukset 12 pistett¨a

Läpipääsyraja noin 30 pistettä, arvosanan 5/5 raja noin 50 pistettä.

Laskuharjoitukset alkavat toisella luentoviikolla. Harjoitusteht¨avien ratkaisut palautetaan kirjallisesti ennen laskuharjoitustilaisuutta. Menettelyn

yksityiskohdat ja määräajat ilmoitetaan kurssin verkkosivulla. Kunkin tehtävän ratkaisu arvostellaan asteikolla 0–3:

1 jotain järkevää yritystä

2 oikeansuuntainen melko pitkälle viety yritys 3 silmämääräisesti suunnilleen oikea ratkaisu

Laskuharjoitusteht¨avien kokonaispisteet skaalataan kurssipisteiksi seuraavasti:

• 0 % maksimipisteist¨a antaa 0 pistett¨a

• 80 % (tai yli) maksimipisteist¨a antaa 12 pistett¨a

(4)

Oppimateriaali

Opiskelijoilla oletetaan olevan käytössään kurssikirja

M. Mitzenmacher, E. Upfal: Probability and Computing.

Viittaukset kurssikirjaan n¨aiss¨a muistiinpanoissa on esitetty tyyliin [M&U Thm 3.2].

Luentomateriaali ilmestyy kurssin kotisivulle, mutta ei ole tarkoitettu itseopiskeluun (yksityiskohtia sivuutetaan jne.).

Myös laskuharjoitustehtävinä käytetään kirjan harjoitustehtäviä.

(5)

Miksi satunnaisuutta

Satunnaisuus on tärkeä väline luonnonilmiöiden ym. mallintamisessa.

Satunnaisuutta tarvitaan algoritmien suunnittelussa ja analyysissa:

• satunnaisalgoritmit (randomized): algoritmin toiminta samalla syötteellä vaihtelee riippuen algoritmin sisäisestä satunnaisuudesta (”rahanheitoista”)

• algoritmin toimintaympäristö voi olla satunnainen (keskimääräisen tapauksen (average case) analyysi, tietoliikenne, . . . )

Todennäköisyyslaskenta on voimakas yleistyökalu kaikkiin tällaisiin tilanteisiin.

(6)

Satunnaisuuden avulla voidaan saada algoritmi, joka on deterministiseen algoritmiin verrattuna

• nopeampi tai muistinkulutukseltaan pienempi tai

• helpompi toteuttaa.

Perustekniikoita/tilanteita:

• satunnaisotanta, Monte Carlo -menetelm¨at

• satunnaishaku, simuloitu j¨a¨ahdytys

• sormenj¨alkitekniikat.

Tietyissä tilanteissa satunnaisuus on välttämätöntä että saadaan ylipäänsä hyväksyttävä ratkaisu:

• vastustajan hämääminen (kryptografia, pelit)

• hajautetut j¨arjestelm¨at: kuorman tasapainotus, johtajan valinta jne.

Satunnaistamalla voidaan vähentää algoritmin herkkyyttä “häiriöille”:

(7)

Tyypillisi¨ a kysymyksi¨ a

Yleensä satunnaisalgoritmit antavat jollain todennäköisyydellä väärän vastauksen.

• jos vastaus on kyllä/ei: mikä on virhetodennäköisyys

• jos vastaus on numeerinen tms.: mikä on suuren virheen todennäköisyys.

Jotkin satunnaisalgoritmit (ns. Las Vegas -algoritmit) antavat aina oikean vastauksen, mutta suoritusaika on satunnainen.

• Mik¨a on suoritusajan odotusarvo?

• Mikä on todennäköisyys, että suoritusaika ylittää tietyn rajan?

(8)

Kurssin sis¨ alt¨ oluonnos

1. Todenn¨ak¨oisyys (kertausta)

2. Diskreetit satunnaismuuttujat (kertausta) 3. Satunnaismuuttujan momentit

4. Chernoffin rajat 5. Pallot ja uurnat

6. ”Probabilistinen menetelm¨a”

7. Markovin ketjut

8. Jatkuvat satunnaismuuttujat, Poisson-prosessit 9. Monte Carlo -menetelm¨at

(9)

1. Todenn¨ ak¨ oisyys

Olkoon Ω mielivaltainen joukko ja F ⊆ P(Ω) jokin kokoelma sen

osajoukkoja. (Tässä P(Ω) on siis joukon Ω potenssijoukko.) Kuvaus Pr : F → R _on _todenn¨_aköisyysmitta [M&U Def. 1.2], jos

1. Pr(E) ≥ 0 kaikilla E ∈ F (positiivisuus), 2. Pr(Ω) = 1 ja

3. jos E1, E2, E3, . . . on jono erillisi¨a joukkoja (eli E_i ∩ E_j = ∅ kun i 6= j) ja Ei ∈ F kaikilla i, niin

Pr

[∞

i=1

Ei

!

= X∞

i=1

Pr(Ei) (numeroituva additiivisuus).

(10)

Jotta todennäköisyysmitalle juuri asetetut ehdot ylipäänsä olisivat mielekkäitä, sen määrittelyjoukolla F täytyy olla tiettyjä

sulkeumaominaisuuksia.

Osajoukkokokoelma F ⊆ P(Ω) on σ-algebra, jos 1. Ω ∈ F

2. jos A ∈ F niin A ∈ F, miss¨a A = Ω − A

3. jos jonolla A1, A2, A3, . . . p¨atee A_i ∈ F kaikilla i ∈ {1,2,3, . . .}, niin [∞

i=1

Ai ∈ F.

Huom. tässä ei oleteta mitään joukkoperheen {A_i | i ∈ I } yhdisteestä

∪i∈IAi, jos I on ylinumeroituva.

(11)

Todennäköisyysavaruus on nyt kolmikko (Ω,F,Pr), missä 1. otosavaruus Ω on mielivaltainen joukko

2. F ⊆ P(Ω) on σ-algebra perusjoukkona Ω 3. Pr : F → R _{on todenn¨}_ak¨oisyysmitta.

Otosavaruutta kutsutaan my¨os perusjoukoksi.

Perusjoukon Ω osajoukot E ⊆ Ω ovat tapahtumia ja joukot E ∈ F erityisesti alkeistapahtumia eli mitallisia joukkoja.

Jos φ on jokin perusjoukon alkioiden ominaisuus, merkit¨a¨an lyhyesti Pr(φ(x)) = Pr({x ∈ Ω | φ(x)}); esim. Pr(g(x) = 3) tarkoittaa

todennäköisyyttä Pr({x ∈ Ω | g(x) = 3}).

(12)

Esimerkki 1.1: Jos Ω on äärellinen, |Ω| = n ∈ N, niin joukon Ω symmetrinen (eli tasainen) todennäköisyysavaruus on kolmikko (Ω,P(Ω),Pr), missä Pr(E) = |E|/n kaikilla E ⊆ Ω.

Yleisemmin jos todennäköisyysavaruus on muotoa (Ω,P(Ω),Pr), missä Ω on

¨

aärellinen tai numeroituvasti ääretön, sitä sanotaan diskreetiksi. Diskretti todennäköisyysavaruus voidaan määritellä antamalla kaikki yksittäisten alkioiden todennäköisyydet Pr({x}), x ∈ Ω. 2

Jatkossa tarvitaan lähinnä diskreettejä tn-avaruuksia. Sen takia jätämme yleensä myös mainitsematta muotoa ”jos E ∈ F” olevia oletuksia (joiden pitäisi muutenkin olla yleensä asiayhteydestä selviä).

Toisinaan on kuitenkin hy¨odyllist¨a tarkastella numeroituvassakin Ω muitakin σ-algebroja kuin P(Ω).

(13)

Esimerkki 1.2: Olkoon Ω = R _ja _F _suppein _σ-algebra, joka sisältää kaikki suljetut välit [a, b], a, b ∈ R_{. T¨}_am¨_an σ-algebran alkioita sanotaan

Borel-joukoiksi.

Määritellään välin [a, b] todennäköisyydeksi välin [a, b] ∩[0,1] pituus. Muiden Borel-joukkojen todennäköisyydet seuraavat todennäköisyysmitan

määritelmästä. Tämä on osavälin [0,1] symmetrinen todennäköisyysmitta.

Huom. kaikilla x ∈ R _p¨_{atee Pr(}_{_x_}) = 0, joten minkä tahansa numeroituvan joukon todennäköisyys on 0. Tästä ei seuraa mitään ylinumeroituvien

joukkojen todenn¨ak¨oisyyksille. 2

Tuntuisi ehkä yksinkertaisemmalta, jos tässä voitaisiin valita F = P(R_{), eli} kaikkien reaalilukujoukkojen todennäköisyydet olisivat määriteltyjä. Tämä ei kuitenkaan ole mahdollista: jos em. funktio Pr yritetään laajentaa koko

joukkoon P(R), niin kaikkia todennäköisyysmitan ehtoja ei saada pysymään voimassa. Käytännössä ei juuri ole tarvetta muille kuin Borel-joukoille.

(14)

Yhdisteen todenn¨ ak¨ oisyys

Määritelmistä seuraa suoraan, että mille tahansa kahdelle alkeistapahtumalle pätee

Pr(E ∪ F) = Pr(E) + Pr(F) − Pr(E ∩ F).

Samoin mille tahansa numeroituvalle I ja jonolle alkeistapahtumia Ei, i ∈ I p¨atee

Pr [

i∈I

Ei

!

≤ X

i∈I

Pr(Ei).

(”union bound”; [M&U Lemma 1.2]). Tämä epäyhtälö on erittäin yleiskäyttöinen, mutta toisinaan turhan löysä.

Kun |I| = n ∈ N, niin yhdisteen tarkka todenn¨ak¨oisyys saadaan kaavasta Pr [

E_i

!

=

n

X(−1)^k+1 X

Pr





\ E_j





(15)

Laskemalla edellisen kaavan summaa vain johonkin rajaan k < n saakkaa saadaan vuorotellen yl¨a- ja alarajoja:

Jos ℓ on pariton, niin Pr [

i∈I

Ei

!

≤

ℓ

X

k=1

(−1)^k⁺¹ X

J⊆I,|J|=k

Pr





\

j∈J

Ej



.

Jos ℓ on parillinen, niin Pr [

i∈I

Ei

!

≥

ℓ

X

k=1

(−1)^k⁺¹ X

J⊆I,|J|=k

Pr





\

j∈J

Ej





(Bonferronin epäyhtälöt).

(16)

Riippumattomuus

Kaksi alkeistapahtumaa E ja F ovat riippumattomia [M&U Def. 1.3], jos Pr(E ∩ F) = Pr(E) Pr(F).

Yleisemmin alkeistapahtumat E1, . . . , E_k ovat riippumattomia, jos kaikilla I ⊆ {1, . . . , k} p¨atee

Pr \

i∈I

E_i

!

= Y

i∈I

Pr(E_i).

Alkeistapahtumat E1, . . . , E_k ovat pareittain riippumattomia, jos kaikilla i 6= j alkeistapahtumat Ei ja Ej ovat riippumattomia

Huom. riippumattomuus on aidosti vahvempi vaatimus kuin pareittainen riippumattomuus.

Jos Pr(F) > 0, niin tapahtuman E todenn¨ak¨oisyys ehdolla F on Pr(E | F) = Pr(E ∩F)

.

(17)

Kahden todennäköisyysavaruuden (Ω1,F¹,Pr1) ja (Ω2,F²,Pr2) tulo on (Ω₁,F¹,Pr₁) × (Ω₂,F²,Pr₂) = (Ω₁ × Ω₂,F¹ × F²,Pr₁×Pr₂) missä

F¹ × F² = {E × F | E ∈ F¹, F ∈ F² } ja

(Pr₁×Pr₂)(E × F) = Pr₁(E) × Pr₂(F).

Tärkeä erikoistapaus on tn-avaruuden n-kertainen tulo itsensä kanssa (Ω,F,Pr)ⁿ = (Ωⁿ,Fⁿ,Prⁿ). Jos alkuperainen tn-avaruus esittää jotain

satunnaiskoetta, sen n-kertainen tulo itsensä kanssa esittää n riippumatonta toistoa samasta kokesta. Tällöin usein myös tulomitasta Prⁿ käytetään

yksinkertaisesti (ja epätäsmällisesti) merkintää Pr.

(18)

Esimerkki 1.3: Oletetaan annetuksi kaksi aliohjelmaa F ja G, jotka laskevat kokonaislukufunktiot f ja g. Funktioista f ja g tiedetään vain, että ne ovat korkeintaan d-asteisia polynomeja. Tehtävänä on päätellä, päteekö f = g.

Jos f = g, niin f(x) − g(x) = 0 kaikilla x.

Jos f 6= g, niin f − g on korkeintaan d-asteinen polynomi joka ei ole

identtisesti nolla, joten f(x) − g(x) = 0 p¨atee korkeintaan d arvolla x ∈ N_. Erityisesti joukossa {1, . . . , rd} mill¨a tahansa r ∈ N on ainakin (r − 1)d alkiota x, joilla f(x) − g(x) 6= 0.

(19)

Saadaan seuraava perusalgoritmi:

1. Valitse satunnainen x ∈ {1, . . . , rd}. 2. Jos f(x) − g(x) 6= 0, tulosta ”eri”.

3. Muuten tulosta ”samat”.

Edell¨a olevan perusteella

• jos f = g, algoritmi tulostaa aina ”samat” ja

• jos f 6= g, algoritmi tulostaa ”eri” ainakin todennäköisyydellä (r − 1)d/(rd) = 1 − 1/r.

Algoritmilla on siis yksipuolinen virhetodenn¨ak¨oisyys korkeintaan 1/r.

(20)

Tehd¨a¨an nyt k riippumatonta toistokoetta seuraavasti:

1. Valitse toisistaan riippumatta satunnaiset x1, . . . , x_k joukosta {1, . . . , rd}.

2. Jos f(x_i) − g(x_i) 6= 0 ainakin yhdell¨a i, tulosta ”eri”.

3. Muuten tulosta ”sama”.

Jos f = g, saadaan taas aina vastaus ”sama”. Jos f 6= g ja vastaus on

”sama”, on k kertaa toisistaan riippumatta sattunut tapahtuma, jonka todennäköisyys on kork. 1/r. Tämän todennäköisyys on siis korkeintaan (1/r)^k.

Toistokokeita suorittamalla virhetodenn¨ak¨oisyys saadaan siis eksponentiaalista vauhtia kohti nollaa. 2

(21)

Kokonaistodenn¨ ak¨ oisyys

[M&U Thm. 1.6]

Olkoot Ei, i ∈ I, numeroituva kokoelma erillisi¨a tapahtumia s.e. ∪i∈IEi = Ω.

Suoraan määritelmistä saadaan kokonaistodennäköisyydelle kaava Pr(B) = X

i∈I

Pr(B ∩Ei) = X

i∈I

Pr(B | Ei) Pr(Ei). T¨at¨a voidaan soveltaa esim. viivytetyn valinnan tekniikalla:

Halutaan osoittaa esim. Pr(x ∈ B) ≤ ǫ.

Jaetaan x sopivalla tavalla kahteen komponenttiin x = (x1, x2). Ajatellaan, ett¨a ”ensin” valitaan x1, ja ”vasta my¨ohemmin” x2.

Osoitetaan, että miten tahansa x1 valitaankin, niin aina todennäköisyys valita x2 siten, että (x1, x2) ∈ B pätee, on korkeintaan ǫ.

Sovelletaan kokonaistodenn¨ak¨oisyyden kaavaa valitsemalla I = komponentin x1 arvojoukko E_i = {(x1, x2) | x1 = i}.

(22)

Esimerkki 1.4: [M&U Thm. 1.4] On annettu n × n-matriisit A, B ja C. Halutaan tarkistaa, päteekö AB = C, ilman että tarvitsee laskea

matriisituloa AB.

Menetellään samaan tapaan kuin edellisessä esimerkissä:

1. Valitse satunnainen r _{∈ {}0,1}ⁿ. 2. Jos ABr ₆= Cr, tulosta ”erisuuret”.

3. Muuten tulosta ”yht¨asuuret”.

Olkoon D = AB − C. Väitetään, että jos D ei ole nollamatriisi, niin Dr ₆= 0 pätee ainakin todennäköisyydellä 1/2.

(23)

Merkitään D = (dij). Oletetaan, että D 6= 0; olkoon dpq 6= 0.

Jos Dr = 0_{, p¨}atee siis erityisesti

n

X

j=1

dpjrj = 0, mist¨a voidaan ratkaista

rq = −d⁻_pq¹X

j6=q

dpjrj.

Ajatellaan ensin valituksi r^′ = (r1, . . . , rq−1, r_q+1, . . . , rn) ja tarkastellaan sitten puuttuvan komponentin rq valintaa. Koska vektorin r^′ valinta kiinnitt¨a¨a

lausekkeelle

−d⁻_pq¹ X

j6=q

d_pjr_j

jonkin arvon v, niin todennäköisyys tapahtumalle rq = v on korkeintaan 1/2 (koska rq ∈ {0,1}). Lykätyn valinnan periaatteella siis nähdään, että

Pr(Dr = 0) ≤ 1 2.

(24)

Bayesin s¨ a¨ ant¨ o

[M&U Thm. 1.7]

Edelleen suoraan määritelmistä saadaan Pr(Ej | B) = Pr(E_j ∩ B)

Pr(B) = Pr(B | E_j) Pr(E_j) P

iPr(B | E_i) Pr(E_i) missä jälleen (E_i) ovat erillisiä.

Tyypillinen tulkinta on, että kaavan mukaan päivitetään uskomuksia kun on saatu uutta dataa:

• Tapahtumat E_j esitt¨av¨at erilaisia toisensa poissulkevia hypoteeseja tyyliin Ei = ”teoria numero i on tosi”.

• Tapahtuma B kuvaa jotain havaintoa, mittausdataa tms.

• Pr(Ej) on a priori -todennäköisyys, joka mittaa uskoamme hypoteesiin Ej ennen kuin mitään dataa on havaittu.

• Pr(B | Ej) mittaa, kuinka hyvin hypoteesi Ej ”selitt¨a¨a” datan B.

(25)

Esimerkki 1.5: On annettu kolme kolikkoa, joista kaksi on tasapainoisia ja yhdellä (emme tiedä millä) kruunan todennäköisyys on 2/3.

Laitamme kolikot satunnaiseen järjestykseen ja heitämme niitä. Saamme tulokset (1: kruuna, 2: kruuna, 3: klaava).

Millä todennäköisyydellä kolikko 1 on epätasapainoinen?

Soveltamalla Bayesin kaavaa saadaan vastaus 2/5. 2

Huom. Kaavan nimittäjä ei riipu hypoteesista Ej. Jos halutaan vain verrata eri hypoteesien a posteriori -todennäköisyyksi, voidaan unohtaa vakio Pr(B) ja kirjoittaa

Pr(Ej | B) ∝ Pr(B | Ej) Pr(Ej).

Toisaalta monissa koneoppimissovelluksissa nimenomaan tekij¨an Pr(B) laskeminen on kriittinen laskennallinen ongelma.

(26)

Satunnainen minimileikkausalgoritmi

[M&U luku 1.4]

Olkoon G = (V, E) yhten¨ainen suuntaamaton moniverkko (multigraph).

Tavallisesta verkosta poiketen moniverkossa kahden solmun v¨alill¨a saa olla useita kaaria.

Kaarijoukko C ⊆ E on (moni)verkon leikkaus, jos (V, E − C) ei ole yhtenäinen. Minimileikkaus on pienimmän mahdollisen määrän kaaria sisältävä leikkaus.

Kaaren (u, v) kutistaminen korvaa solmut u ja v yhdell¨a uudella solmulla.

Kaari (u, v) (tai kaikki nämä kaaret, jos niitä on useita) poistuvat verkosta.

Muut kaaret säilyvät, ja solmuihin u tai v liittyvät kaaret liitetään uuteen niitä korvaavaan solmuun.

Jos C on leikkaus alkuperäisessä verkossa ja (u, v) 6∈ C, niin C on leikkaus myös kutistamisen jälkeen. Toisaalta missään tapauksessa kutistaminen ei

(27)

Tarkastellaan seuraavaa algoritmia:

1. Valitse verkosta jokin kaari (u, v) siten, että kunkin kaaren todennäköisyys tulla valituksi on sama.

2. Kutista kaari (u, v).

3. Jos verkossa on vähintään kolme solmua, palaa kohtaan 1.

4. Muuten tulosta verkossa j¨aljell¨a olevat kaaret.

Olkoon C jokin minimileikkaus. Edellä esitetystä seuraa, että jos algoritmi ei koskaan valitse joukon C kaarta kutistettavaksi, se tuottaa oikean

lopputuloksen.

Mikä on tämän suotuisan tapauksen todennäköisyys?

(28)

Olkoon Ei tapahtuma, että iteraatiossa i kutistettava kaari ei ole joukossa C, ja Fi = ∩ⁱ_j=1Ei. Haluamme siis alarajan todennäköisyydelle Pr(Fn−2), missä n = |V |.

Olkoon k = |C| minimileikkauksen koko. Tällöin erityisesti jokaisen solmun aste on ainakin k, joten verkossa on vähintään kn/2 kaarta. Siis

Pr(E1) = |E| − |C|

|E| ≥ 1 − k

nk/2 = 1 − 2 n.

Yleisemmin jos vaiheeseen i − 1 asti on mennyt hyvin, niin C on edelleen verkon minimileikkaus, koska kutistaminen ei luo uusia leikkauksia. Solmujen määrä on kuitenkin vähentynyt, joten äskeinen argumentti antaa

Pr(Ei | Fi−1) ≥ 1 − 2

n − i + 1.

(29)

Saadaan

Pr(Fn−2) = Pr(En−2 ∩Fn−3)

= Pr(En−2 | Fn−3) Pr(Fn−3)

= . . .

= Pr(E_n₋2 | F_n₋3) Pr(E_n₋3 | F_n₋4). . .Pr(E2 | F1) Pr(F1)

≥

n−2

Y

i=1

1 − 2

n − i+ 1

=

n − 2 n

n − 3 n − 1

. . .

3 5

2 4

1 3

= 2

n(n − 1).

(30)

Joka tapauksessa algoritmi siis tuottaa leikkauksen, ja ainakin todennäköisyydellä 2/(n(n − 1)) minimileikkauksen.

Toistetaan algoritmia m kertaa ja valitaan saaduista leikkauksista pienin.

Todennäköisyys, että ei saatu minimileikkausta, on korkeintaan

1 − 2

n(n − 1) m

≤ exp

− 2m n(n − 1)

miss¨a on arvioitu 1 − x ≤ e⁻^x.

Jos valitaan esim. m = n(n − 1) lnn, rajaksi virhetodenn¨ak¨oisyydelle tulee 1/n². 2

(31)

2. Satunnaismuuttujat

Olkoon (Ω,F,Pr) todenn¨ak¨oisyysavaruus. Reaaliarvoinen funktio X: Ω → R on satunnaismuuttuja, jos {s ∈ Ω | X(s) ≤ a} ∈ F kaikilla a ∈ R_.

Satunnaismuuttuja on diskreetti, jos sen arvojoukko on numeroituva.

Myöhemmin tarkastelemme myös jatkuvia satunnaismuuttujia, joiden arvoalue on ylinumeroituva. Tässä luvussa kuitenkin oletataan aina, että tarkasteltavat satunnaismuuttujat ovat diskreettejä.

Yleensä todennäköisyyttä Pr({s ∈ Ω | X(s) = a}) merkitään lyhyesti Pr(X = a) jne. Diskreetin satunnaismuuttujan jakauma (joka sisältää kaiken, mitä satunnaismuuttujasta voisi haluta käytännössä tietää) tulee määrätyksi, kun annetaan luvut Pr(X = a) kaikilla a ∈ R_.

(32)

Jono satunnaismuuttujia (X1, . . . , X_k) on riippumaton, jos kaikilla I ⊆ {1, . . . , k} ja kaikilla x1, . . . , x_k ∈ R _p¨_atee

Pr(∩ⁱ∈I(X_i = x_i)) = Y

i∈I

Pr(X_i = x_i).

Olkoon V satunnaismuuttujan X arvoalue. Jos summa P

x∈V |x|Pr(X = x) suppenee, niin satunnaismuuttujan odotusarvo on

E_[_X_{] =} X

x∈V

xPr(X = x).

Muuten odotusarvo ei ole määritelty, mitä usein merkitään E_[X_{] =} _∞_.

(33)

Odotusarvo on lineaarinen [M&U Thm. 2.1]: kaikilla a, b ∈ R _ja satunnaismuuttujilla X, Y p¨atee

E_[aX ₊ _bY_{] =} _aE_[X_{] +}_bE_[Y _].

Lineaarisuus ei suoraan yleisty äärettömiin summauksiin. Milloin pätee E

" _∞ X

i=1

X_i

#

= X∞

i=1

E_[X_i_]

on ei-triviaali ongelma. Eräs riittävä ehto on, että kaikki odotusarvot E_[_|_X_i_|_] ovat määriteltyjä ja P_∞

i=1E_[_|_X_i_|] suppenee.

Jos X ja Y ovat riippumattomia, p¨atee lis¨aksi E_[_XY _{] =} E_[_X_]E_[_Y _]_.

(34)

Jensenin ep¨ ayht¨ al¨ o

[M&U luku 2.1.2]

Määritelmistä seuraa suoraan tärkeä perusominaisuus E_[X²_] _≥ ₍E_[X])²_.

(Yhtäsuuruus ei yleensä päde, koska X ei ole riippumaton itsestään.) Tämä on erikoistapaus Jensenin epäyhtälöstä.

Funktio f : [a, b] → R _on _konveksi _jos

f(λx1 + (1 − λ)x2) ≤ λf(x1) + (1 − λ)f(x2) kaikilla a ≤ x1, x2 ≤ b ja 0 ≤ λ ≤ 1.

Jos f on kahdesti derivoituva, se on konveksi joss f^′′(x) ≥ 0 kaikilla x.

Lause 3.1 [Jensen]: Jos f on konveksi, niin E_[f_(X_)] _≥ _f₍E_[X]) kaikilla satunnaismuuttujilla X. 2

(35)

Binomijakauma

[M&U luku 2.2]

Satunnaismuuttuja Y noudattaa Bernoulli-jakaumaa parametrilla p jos Pr(Y = 1) = p ja Pr(Y = 0) = 1 − p.

Selv¨asti E_[_Y _{] =} _p_.

Satunnaismuuttuja X noudattaa binomijakaumaa parametreilla n ja p, merkit¨a¨an X ∼ Bin(n, p), jos se on n riippumattoman Bernoulli-muuttujan summa:

Pr(X = j) = _n j

p^j(1 − p)ⁿ⁻^j, j = 0, . . . , n.

Odotusarvon lineaarisuudesta seuraa

E_[X_{] =} _np.

(36)

Ehdollinen odotusarvo

[M&U luku 2.3]

Kun Y ja Z ovat satunnaismuuttujia, Y :n arvojoukko on V , ja z ∈ R_, merkit¨a¨an

E_[_Y _| _Z ₌ _z_{] =} X

y∈V

yPr(Y = y | Z = z).

Esimerkki 2.2: Olkoot X1 ja X2 riippumattomien nopanheittojen tulokset ja X = X1 + X2. T¨all¨oin E_[X _| _X₁ _{= 3] = 6}¹

2 ja E_[X₁ _| _X _{= 4] = 1} _· ¹

3 + 2 · 1

3 + 3 · 1

3 = 2.

2 Kaikille satunnaismuuttujille X ja Y p¨atee

E_[_X_{] =} X

y∈V

E_[_X _| _Y ₌ _y_{] Pr(}_Y ₌ _y₎

(37)

Ehdollinen odotusarvo E_[Y _| _Z_{] on} satunnaismuuttuja joka määritellään seuraavasti:

Olkoot Y ja Z satunnaismuuttujia otosavaruudessa Ω (eli funktioita Ω → R_).

Nyt E_[_Y _| _Z_{] : Ω} _→ R on satunnaismuuttuja, jolla

E_[Y _| _{Z](ω) =} E_[Y _| _Z ₌ _Z_(ω)]

kaikilla ω ∈ Ω.

Esimerkki 2.3: Olkoon taas X = X1 + X2, miss¨a X1 ja X2 ovat riippumattomia nopanheittoja. Nyt

E_[X _| _X₁_{] =} _X₁ _{+ 3}¹ 2.

2 Ehdollinen odotusarvo noudattaa tavallisen odotusarvon perusominaisuuksia:

E_[_X₁ ₊ _X₂ _| _Z_{] =} E_[_X₁ _| _Z_{] +} E_[_X₂ _| _Z_] _{jne. Lis¨}_aksi E_[Y _{] =} E_[E_[Y _| _Z_]].

(38)

Esimerkki 2.4: Haarautuvat prosessit.

Tarkastellaan tilannetta, jossa prosessi suorittaa jotain tietty¨a aliohjelmaa.

T¨am¨a aliohjelma voi puolestaan luoda uusia samanlaisia prosesseja.

Oletetaan, että yhden prosessin elinaikanaan luomien uusien prosessien lukumäärä on Bin(n, p)-jakautunut. Kun lähdetään liikkeelle yhdestä prosessista, niin odotusarvoisesti kuinka monta prosessia kaikkiaan käynnistyy?

Olkoon Yi prosessien lukumäärä ”sukupolvessa” i. Siis Y0 = 1 ja

Y1 ∼ Bin(n, p). Kiinnitetään nyt i, ja merkitään sukupolven i prosessin numero k jälkeläisten lukumäärää Z_k. Siis Z_k ∼ Bin(n, p).

(39)

Tarkastellaan ehdollisia odotusarvoja:

E_[Y_i _| _Y_i₋₁ ₌ _y_i₋₁_{] =} E

"_y_i₋₁ X

k=1

Z_k | Y_i₋1 = y_i₋1

#

= E

"_y_i₋₁ X

k=1

Z_k

#

= yi−1np

koska Z_k ja Y_i₋1 ovat riippumattomia. Siis E_[Y_i _| _Y_i₋₁_{] =} _npY_i₋₁_{, joten} E_[_Y_i_] ₌ E_[E_[_Y_i _| _Y_i₋₁_{]] =} E_[_npY_i₋₁_{] =} _npE_[_Y_i₋₁_]_.

Koska Y0 = 1, induktiolla saadaan E_[_Y_i_{] = (}_np₎ⁱ. Prosessien kokonaismäärän odotusarvo on

E



 X

i≥0

Yi



 = X

i≥0

(np)ⁱ joka on ¨a¨arellinen joss np < 1. 2

(40)

Geometrinen jakauma

[M&U luku 2.4]

Satunnaismuuttuja X noudattaa geometrista jakaumaa parametrilla p, merkit¨a¨an X ∼ Geom(p), jos

Pr(X = n) = (1 − p)ⁿ⁻¹p, n = 1,2, . . . .

Siis X ilmaisee tarvittavien yritysten määrää, että riippumattomassa

toistokokeessa saadaan ensimmäinen onnistuminen, kun yksittäisen kokeen onnistumistodennäköisyys on p.

Geometrisella jakaumalla on unohdusominaisuus

Pr(X = n + k | X > k) = Pr(X = n). Jakauman odotusarvo on

E_[X_{] =} ¹ p.

(41)

Tapa 1: Käytetään kaavaa

E_[_X_{] =}

∞

X

i=1

Pr(X ≥ i),

joka p¨atee olettaen, ett¨a X saa vain ei-negatiivisia kokonaislukuarvoja.

Kun X ∼ Geom(p), niin

Pr(X ≥ i) =

∞

X

n=i

(1− p)ⁿ⁻¹p = (1 − p)ⁱ⁻¹. Siis

E_[X_{] =} X∞

i=1

(1 − p)ⁱ⁻¹ = 1 p.

(42)

Tapa 2: Käytetään unohdusominaisuutta. Olkoon X = min{i | Y_i = 1}, missä satunnaismuuttujat Y_i, i = 1,2, . . ., ovat riippumattomia

Bernoulli(p)-jakautuneita.

Tunnetun perusominaisuuden mukaan

E_[X_{] =} E_[X _| _Y₁ _{= 0] Pr(Y}₁ _{= 0) +} E_[X _| _Y₁ _{= 1] Pr(Y}₁ _{= 1).}

Nyt Pr(Y1 = 1) = p, ja X = 1 aina kun Y1 = 1. Toisaalta Y1 = 0 tarkoittaa samaa kuin X > 1. Unohdusominaisuuden mukaan

Pr(X = n + 1 | X > 1) = Pr(X = n) eli, kun merkit¨a¨an Z = X + 1,

Pr(X = m | X > 1) = Pr(X = m − 1) = Pr(Z = m), m ≥ 2. Siis E_[_X _| _{X >} _{1] =} E_[_Z_{] =} E_[_X] + 1. Saadaan

E_{[X] = (1} ₋ _p)(E_{[X] + 1) +} _p,

(43)

Esimerkki 2.5: Kortinkerääjän ongelma [M&U luku 2.4.1]

Muropakkauksessa on aina yksi keräilykortti. Kortteja on n erilaista. Kuinka monta muropakettia pitää ostaa, että saadaan koko sarja?

Olkoon kyseinen satunnaismuuttuja X. Olkoon X_i niiden pakkausten määrä, jotka ostettiin sinä aikana, kun tasan i−1 erilaista korttia oli jo löydetty. Siis

X =

n

X

i=1

X_i.

Kun i − 1 korttia on löydetty, todennäköisyys saada uusi kortti seuraavasta pakkauksesta on pi = (n − i + 1)/n. Siis Xi ∼ Geom(pi).

(44)

Saadaan

E_[_X_{] =}

n

X

i=1

E_[_X_i_]

=

n

X

i=1

1 p_i

=

n

X

i=1

n n− i + 1

= n

n

X

j=1

1 j

= nH(n), miss¨a H(n) = Pn

i=1(1/i). Tunnetusti [M&U Lemma 2.10]

lnn ≤ H(n) ≤ lnn + 1, nähdään

(45)

Esimerkki 2.6: Pikaj¨arjest¨aminen (quicksort) [M&U luku 2.5]

Tarkastellaan algoritmin satunnaistettua versiota:

Quicksort(S[1..n])

Jos n ≤ 1, niin palauta S.

Valitse satunnainen i ∈ {1, . . . , n}. Olkoon x = S[i].

Jaa S kahteen osalistaan:

Listaan L alkiot, jotka ovat pienempi¨a kuin x. Listaan H alkiot, jotka ovat suurempia kuin x.

Palauta [Quicksort(L), x,Quicksort(H)].

Alkiota x sanotaan jakoalkioksi (pivot).

Pahin tapaus: jakoalkio aina listan suurin tai pienin alkio. Tarvitaan n(n − 1)/2 = Θ(n²) vertailua.

(46)

Keskimääräinen tapaus: Olkoon X satunnaisen Quicksortin tekemien vertailujen lukumäärä.

Olkoot taulukon S luvut suuruusjärjestyksessä y1, . . . , yn. Merkitään Xij = 1, jos suorituksen aikana alkioita yi ja yj verrataan, muuten Xij = 0. Koska mitään alkioparia ei verrata kahdesti, niin

X =

n−1

X

i=1 n

X

j=i+1

X_ij.

Kiinnitetään i < j. Hetken miettiminen osoittaa, että X_ij = 1, jos ja vain jos joko y_i tai y_j on ensimmäinen joukosta Y îj = {y_i, y_i+1, . . . , y_j₋1, y_j } valittu jakoalkio. Koska kaikki jakoalkiot ovat yhtä todennäköisiä,

E_[_X_ij_{] = Pr(}_X_ij _{= 1) =} ²

j − i + 1.

(47)

Nyt voidaan laskea

E_{[X] =}

n−1

X

i=1 n

X

j=i+1

2 j − i + 1

=

n−1

X

i=1

n−i+1

X

k=2

2 k

=

n

X

k=2

n+1−k

X

i=1

2 k

=

n

X

k=2

(n + 1 − k)2 k

= (n + 1)

n

X

k=2

2

k − 2(n − 1)

= (2n + 2)H(n) − 4n.

Siis vertailuja tehd¨a¨an odotusarvoisesti E_[X_{] = 2n}_ln_n _{+ Θ(n).}

(48)

Tarkastellaan vielä yksinkertaista determinististä versiota: jakoalkioksi valitaan aina listan ensimmäinen alkio x = S[1].

Jos nyt oletetaan, että syöte on satunnaisessa järjestyksessä (ja kaikkien järjestysten todennäköisyydet samat) niin algoritmi tekee keskimäärin samat 2nlnn + Θ(n) vertailua kuin edellä.

Tämä nähdään kuten yllä. Nyt alkiot y_i ja y_j tulevat vertailluksi, jos jompi kumpi niistä on syötteessä ennen muita joukon Y îj alkioita.

Huom. tässä siis keskiarvo on syötteiden, ei algoritmin satunnaisvalintojen yli. Tämä edellyttää oletusta syötteen jakaumasta. Haluttaessa voidaan

tietysti lis¨at¨a algoritmiin esiprosessointi, joka sekoittaa listan satunnaisesti. 2

(49)

3. Momentit ja poikkeamat

Pelkkä odotusarvo ei yleensä ole kovin tyhjentävä kuvaus

satunnaismuuttujan jakaumasta. Seuraava askel jakauman kuvaamisessa on tyypillisesti keskihajonnan laskeminen.

Hajontalukujen avulla voidaan myös todistaa ”häntärajoja” eli arvioida todennäköisyyttä, että saadaan hyvin suuri (tai pieni) arvo. Nämä ovat etenkin tietojenkäsittelyssä (mutta myös tilastotieteessä) usein juuri ne suureet, joista ollaan ensisijaisesti kiinnostuneita.

(50)

Yksinkertaisin arviointitekniikka perustuu Markovin epäyhtälöön [M&U Thm. 3.1]: jos X ei saa negatiivisia arvoja, niin

Pr(X ≥ a) ≤ E_[_X_] a . Todistus:

E_[_X_{] =} X

x

xPr(X = x)

= X

x<a

xPr(X = x) + X

x≥a

xPr(X = x)

≥ 0 + aX

x≥a

Pr(X = x)

miss¨a summaukset rajoitetaan X:n arvoalueeseen. 2

(51)

Esimerkki 3.1: Heitetään symmetristä rahaa n kertaa. Millä todennäköisyydellä tulee ainakin 3n/4 kruunaa?

Jos X on kruunien lukumäärä, niin X ≥ 0 ja E_[X_{] =} _{n/2. Siis} Pr(X ≥ 3n/4) ≤ n/2

3n/4 = 2 3.

Tämä on erittäin karkea arvio, jossa siis ei vielä käytetty lainkaan hyväksi tietoja jakauman hajonnasta. (Jo yksinkertaisella symmetriatarkastelulla näkee, että kyseinen todennäköisyys on alle 1/2.) 2

(52)

Momentit ja varianssi

[M&U luku 3.2]

Satunnaismuuttujan X k:s momentti on E_[_X^k_].

Satunnaismuuttujan X varianssi on

Var_[_X_{] =} E_[(_X ₋ E_[_X_])²_] ja keskihajonta

σ[X] = p

Var_[_X_]_. Satunnaismuuttujien X ja Y kovarianssi on

Cov_{(X, Y} _{) =} E_[(X ₋ E_[X_])(Y ₋ E_[Y _])].

Määritelmistä ja odotusarvon lineaarisuudesta seuraa suoraan Var_[_X_{] =} E_[_X²_] ₋ ₍E_[_X_])²

Var_[_X ₊ _Y _{] =} Var_[_X_{] +}Var_[_Y _{] + 2}Cov_[_{X, Y} _]_.

(53)

Jos X ja Y ovat riippumattomia niin

E_[_XY _{] =} E_[_X_]E_[_Y _] Cov_{(X, Y}_{) = 0}

Var_[X ₊ _Y _{] =} Var_{[X] +} Var_[Y _]

Nämä yleistyvät induktiolla useamman satunnaismuuttujan summalle ja tulolle.

Esimerkki 3.2: Jos X_i ∼ Bernoulli(p), niin suoraan laskemalla saadaan Var_[_X_i_{] =} _p₍₁₋ _p₎_.

Siis jos X on n riippumattoman Bernoulli(p)-satunnaismuuttujan summa eli X ∼ Bin(n, p), niin

Var_{[X] =} _np(1₋ _p).

2

(54)

Tˇ sebyˇ sevin ep¨ ayht¨ al¨ o

[M&U luku 3.3]

Lause 3.3: Mille tahansa a > 0 p¨atee

Pr(|X − E_[_X_]_{| ≥} _a₎ _≤ Var_[X]

a² .

Todistus: Kirjoitetaan arvioitava todenn¨ak¨oisyys muotoon Pr(|X − E_[_X_]_{| ≥} _a_{) = Pr((}_X ₋ E_[_X_])² _≥ _a²₎

ja sovelletaan ei-negatiiviseen satunnaismuuttujaan Y = (X − E_[X_])² Markovin epäyhtälöä:

Pr(Y ≥ a²) ≤ E_[Y _]

a² = Var_[X_] a² .

2

(55)

Esimerkki 3.4: Tarkastellaan samaa tilannetta kuin Markovin epäyhtälön yhteydessä: Symmetristä rahaa heitetään n kertaa. Millä todennäköisyydellä kruunien lukumäärä X on ainakin 3n/4?

Koska X on binomijakautunut, saadaan E_[X_{] =} _{n/2 ja} Var_[_X_{] =} _n¹

2(1 − ¹₂) = n/4. Siis Pr(

^X ⁻

n 2 ^≥

n

4) ≤ Var_[X_]

(n/4)² = 4 n. Tilanteen symmetrisyyden takia

Pr(

^X ⁻

n 2 ^≥

n

4) = 2 Pr(X − n

2 ≥ n 4), joten

Pr(X ≥ 3n

4 ) ≤ 2 n.

(Tämäkin on itse asiassa erittäin löysä raja, paljon parempi saadaan pian käyttämällä Chernoffin rajoja.) 2

(56)

Esimerkki 3.5: Kortinkerääjän ongelma (jatkoa Esimerkkiin 2.5).

Tarvittavien muropakkausten lukumäärän X odotusarvoksi saatiin nH(n).

Siis Markovin epäyhtälöstä seuraa

Pr(X ≥ 2nH(n)) ≤ 1 2.

Tˇsebyˇsevin epäyhtälön laskemiseksi tarvitaan varianssi Var_[_X]. Muistetaan että X = Pn

i=1Xi miss¨a Xi ∼ Geom(pi) ja pi = (n − i + 1)/n.

Satunnaismuuttujan X ∼ Geom(p) varianssi on tunnetusti Var_{[X] =} ¹ ⁻ ^p

p² .

Satunnaismuuttujat X_i ovat riippumattomia, joten Var_[X_{] =}

n

X

i=1

Var_[X_i_].

(57)

Arvioimalla Var_[X_i_] _≤ _1/p²

i saadaan

n

X

i=1

Var_[_X_i_] _≤

n

X

i=1

n n − i+ 1

²

≤ n²

∞

X

i=1

1

i² = π²n² 6 . Siis Tˇsebyˇsevin epäyhtälöstä seuraa

Pr(|X − nH(n)| ≥ nH(n)) ≤ π²n²/6

(nH(n))² = O

1 (logn)²

.

Tämäkään ei ole kovin tiukka arvio. Todennäköisyys että askeleeseen n(c + lnn) mennessä ei ole löydetty korttia i on

1 − 1 n

n(c+lnn)

≤ exp(−(c + lnn)).

Todennäköisyys että jotakin korttia ei ole löydetty askeleeseen n(c + lnn) mennessä on siis korkeintaan nexp(−(c + lnn)) = e⁻^c. Sijoittamalla c = lnn saadaan

Pr(X ≥ 2nlnn) ≤ 1 n.

(58)

Satunnaistettu mediaanialgoritmi

[M&U luku 3.4]

Tarkastellaan yksinkertaisuuden vuoksi tapausta, jossa joukossa S on pariton määrä erisuuria lukuja. Joukon S mediaani on siis joukon S järjestyksessä (⌈n/2⌉):s alkio, missä n = |S|.

Mediaani voidaan määrittää yksinkertaisesti järjestämällä joukko ajassa O(nlogn). Ongelmalle tunnetaan myös (monimutkaisehko) ajassa O(n) toimiva deterministinen algoritmi. Seuraavassa esitellään yksinkertainen ajassa O(n) toimiva satunnaisalgoritmi.

Ideana on valita sopivalla satunnaismenetelmällä ”alaraja” d ∈ S ja ”yläraja”

u ∈ S siten, että suurella todennäköisyydellä 1. mediaani on lukujen d ja u välissä ja

2. lukujen d ja u välissä on vain vähän joukon S lukuja.

(59)

Kun sivuutetaan toistaiseksi lukujen d ja u valintaperusteet, saadaan seuraava algoritmi:

1. Valitse d ja u.

2. Muodosta joukko C = {x ∈ S | d ≤ x ≤ u} sek¨a laske ℓ_d = |{x ∈ S | x < d}| ja ℓu = |{x ∈ S | u < x}|.

3. Jos ℓ_d > n/2 tai ℓu > n/2 niin ep¨aonnistu.

4. Jos |C| > 4n^3/4 niin ep¨aonnistu.

5. Muuten j¨arjest¨a joukko C ja palauta sen (⌊n/2⌋ − ℓ_d + 1):s alkio.

(60)

Jos alkioiden d ja u valinta tapahtuu ajassa O(n), niin koko algoritmin aikavaatimus on selv¨asti O(n).

Jos algoritmi ei ep¨aonnistu, se tuottaa selv¨asti oikean vastauksen.

Toistamalla sit¨a kunnes onnistutaan saadaan siis Las Vegas -algoritmi, joka antaa aina oikea lopputuloksen mutta toisinaan vie paljon aikaa.

Analyysin mielenkiintoinen kohta on määrätä d ja u siten, että epäonnistumistodennäköisyys on pieni.

(Jätetään jatkossa pyöristys merkitsemättä.)

(61)

Lukujen d ja u valintamenetelm¨a on seuraava:

1. Valitse (moni)joukko R ⊆ S poimimalla tasaisesta jakaumasta (takaisinpanolla) n^3/4 alkiota.

2. J¨arjest¨a joukko R.

3. Nyt d on järjestyksessä (¹₂n^3/4 − n^1/2):s joukon R alkio ja u järjestyksessä (¹₂n^3/4 + n^1/2):s.

(62)

Intuitiivisesti joukon R mediaani, eli järjestyksessä (¹₂n^3/4):s alkio, on samalla estimaatti koko joukon S mediaanille. Ensimmäinen epäonnistumishaara

vastaa tilannetta, jossa t¨am¨a estimaatti on mennyt pahasti pieleen.

Alkioiden d ja u v¨alill¨a on 2n^1/2 joukon R alkiota, joten jos otanta on ollut

”tasaista”, niiden välillä on 2n^1/2(n/n^3/4) = 2n^3/4 joukon S alkiota. Toinen epäonnistumishaara vastaa tilannetta, että otos on sattunut epätasaisesti.

Luvut n³^/⁴, n¹^/² jne. määräytyvät siitä, millaisia arvioita otantatarkkuudelle tunnetaan. (Toisin sanoen ne on valittu siten, että seuraavat todistukset menevät läpi.)

(63)

Analysoidaan nyt epäonnistumistodennäköisyys täsmällisesti. Olkoon m joukon S mediaani ja k = |R| = n^3/4. Muodostetaan kolme tapahtumaa:

E¹ : |{r ∈ R | r ≤ m}| < k

2 − n^1/2 E² : |{r ∈ R | r ≥ m}| < k

2 − n^1/2 E³ : |C| > 4k.

Tapahtuma E³ vastaa selv¨asti toista ep¨aonnistumisehtoa.

Tapahtumat E¹ ja E² vastaavat tilanteita m < d ja m > u eli yhdessä kattavat ensimmäisen epäonnistumisvaihtoehdon.

(64)

Todennäköisyyden Pr(E¹) arvioimiseksi merkitään Y1 = |{r ∈ R | r ≤ m}|. Siis Y1 = Pk

i=1X_i miss¨a X_i =

1 jos i:s otos on korkeintaan m 0 muuten.

Korkeintaan mediaanin kokoisia alkioita joukossa S on (n− 1)/2 + 1

kappaletta, joten Y1 ∼ Bin(k, p) miss¨a p = 1/2 + 1/(2n). Siis E_[Y₁_] _≥ _{k/2 ja} Var_[Y₁_{] =} _k

1

2 + 1 2n

1

2 − 1 2n

< k 4. Sovelletaan Tˇsebyˇsevin epäyhtälöä:

Pr(E¹) ≤ Pr(|Y1 − E_[Y₁_]_| _{> n}^1/2₎ _≤ Var_[Y₁_]

n ≤ 1

4n⁻^1/4.

(65)

Samoin nähdään

Pr(E²) ≤ 1

4n⁻^1/4.

Tapahtumaa E³ varten erotellaan kaksi osatapausta:

E^3,1 : |{c ∈ C | c > m}| ≥ 2k E^3,2 : |{c ∈ C | c < m}| ≥ 2k.

Jos |C| > 4k, niin ainakin toinen näistä pätee. Tapaukset ovat symmetriset.

Tarkastellaan tapausta E^3,1. Tällöin alkion u järjestysnumero joukossa S on ainakin n/2 + 2k. Siis alkio u ja sitä suuremmat otoksen R alkiot kuuluvat n/2 − 2k suurimman alkion joukkoon joukossa S. Alkion u määritelmän perusteella näitä on k/2 − n^1/2 kappaletta.

(66)

Merkit¨a¨an Xi =

1 jos i:s otos kuuluu n/2 − 2k suurimman alkion joukkoon joukossa S 0 muuten

ja X = Pk

i=1Xi. Taas X on binomijakautunut, E_{[X] =} ^k

2 − 2n¹^/² ja

Var_[_X_{] =} _k 1

2 − 2n⁻¹^/⁴ 1

2 + 2n⁻¹^/⁴

< k 4 joten

Pr(E³^,¹) ≤ Pr(|X − E_[X]_{| ≥} _n^1/2₎ _≤ Var_[X_]

n < 1

4n⁻^1/4. Siis kaikkiaan epäonnistumistodennäköisyys on korkeintaan

Pr(E¹) + Pr(E²) + Pr(E³¹) + Pr(E³ ¹) < n⁻^1/4.

(67)

4. Chernoffin rajat

”Chernoffin raja” on yleisnimi joukolle epäyhtälöitä, jotka kertovat satunnaismuuttujan keskittymisestä odotusarvonsa ympärille.

Perusesimerkki: Kun X ∼ Bin(n, p), niin kaikilla 0 < δ ≤ 1 p¨atee Pr

X − np np ≥ δ

≤ exp

−1

3npδ²

. Tästä seuraa esim. että todennäköisyydellä 1/2

X ≤ np + p

3npln 2.

Tätä rajaa voidaan (a) tarkentaa ja (b) yleistää.

Seuraavassa käydään läpi tämäntyyppisiä rajoja, niiden todistuksia ja sovelluksia.

(68)

Momenttigeneroiva funktio

[M&U luku 4.1]

Satunnaismuuttujan X momenttigeneroiva funktio on M_X(t) = E_[e^tX_]

(mikäli tämä odotusarvo on äärellinen). Derivoimalla momenttigeneroiva funktio origossa n kertaa saadaan satunnaismuuttujan n:s momentti:

Lause 4.1: Jos MX(t) on määritelty jossain origon ympäristössä t ∈ (−δ, δ), niin

E_[Xⁿ_{] =} _M⁽ⁿ⁾

X (0) kun n = 1,2, . . ..

Todistus: Momenttigeneroiva funktio on siis M_X(t) = X

x

Pr(X = x) exp(tx).

Annettujen ehtojen vallitessa se voidaan derivoida termeitt¨ain:

M⁽ⁿ⁾(t) = X

Pr(X = x)xⁿexp(tx).

(69)

Esimerkki 4.2: Kun X ∼ Geom(p), niin E_[e^tX_{] =}

X∞

k=1

(1 − p)^k⁻¹pe^tk

= p

1 − p X∞

k=1

((1 − p)e^t)^k

= p

1 − p

1

1 − (1− p)e^t − 1

mist¨a derivoimalla saadaan

M_X^′ (t) = pe^t

(1− (1− p)e^t)² M_X^′′(t) = 2p(1 − p)e^2t

(1− (1− p)e^t)³ + pe^t

(1 − (1 − p)e^t)².

Sijoittamalla t = 0 saadaan tutut tulokset E_[_X_{] = 1}_/p _ja E_[_X²_{] = (2} ₋ _p₎_/p²_.

(70)

Voidaan osoittaa (mutta tällä kurssilla ei osoiteta), että momenttigeneroiva funktio (tai kaikki momentit) spesifioi todennäköisyysmuuttujan jakauman yksikäsitteisesti:

Lause 4.3: Jos X ja Y ovat satunnaismuuttujia, joille jollain δ > 0 p¨atee M_X(t) = M_Y(t) kaikilla −δ < t < δ, niin satunnaismuuttujilla X ja Y on sama jakauma. 2

Tätä voidaan käyttää esim. kahden satunnaismuuttujan tulon jakauman määrittämiseen yhdessä seuraavan kanssa:

Lause 4.4: Jos X ja Y ovat riippumattomia, niin M_X+Y(t) = M_X(t)M_Y(t).

Todistus: Tällöin myös e^tX ja e^tY ovat riippumattomia, joten E_[e^t(X+Y⁾_{] =} E_[e^tX_e^tY_{] =} E_[e^tX_]E_[e^tY_].

(71)

Chernoffin rajojen johto

[M&U luku 4.2.1]

Idea on soveltaa Markovin epäyhtälöä satunnaismuuttujaan e^tX sopivalla t. Siis

Pr(X ≥ a) = Pr(e^tX ≥ e^ta) ≤ E_[e^tX_] e^ta mill¨a tahansa t > 0, eli erityisesti

Pr(X ≥ a) ≤ min

t>0

E_[e^tX_] e^ta .

Valitsemalla negatiivinen t epäyhtälön suunta vaihtuu, joten Pr(X ≤ a) ≤ min

t<0

E_[e^tX_] e^ta .

Idean soveltamiseen tarvitaan arvio momenttigeneroivalle funktiolle E_[e^tX_{] ja} sopiva t:n arvo.

Usein esitetään rajoja, joissa t on hieman epäoptimaalinen, jolloin saadaan ymmärrettävämpiä kaavoja.

(72)

Yleisimmin k¨aytetyss¨a versiossa X = Pn

i=1Xi, miss¨a Xi ∼ Bernoulli(p_i) ovat riippumattomia. Satunnaismuuttujia Xi sanotaan Poisson-toistokokeiksi. Jos jakaumat ovat identtiset, p_i = p kaikilla i, puhutaan Bernoulli-toistokokeista.

Merkit¨a¨an µ = E_[X_{] =} Pn

i=1p_i. Yritämme arvioida todennäköisyyksiä Pr(X ≥ (1 + δ)µ) ja Pr(X ≤ (1 − δ)µ).

Arvioidaan ensin yksitt¨aisten toistokokeiden momenttigeneroivaa funktiota:

M_Xi(t) = pie^t^·¹ + (1 − pi)e^t^·⁰ = 1 + pi(e^t − 1) ≤ exp(pi(e^t − 1)), missä on taas sovellettu epäyhtälöä 1 + z ≤ e^z. Tästä saadaan

M_X(t) =

n

Y

i=1

M_Xi(t) ≤ exp

n

X

i=1

pi(e^t − 1)

!

= exp (e^t − 1)µ .

Johdamme seuraavaksi erikseen rajat todennäköisyyksille, että X on hyvin suuri tai hyvin pieni.

(73)

Todistetaan ensin perusraja, joka on (suhteellisen) tiukka mutta hankala.

Tästä voidaan sitten johtaa yhsinkertaistettuja (ja löysempiä) versioita.

Lause 4.5: Kaikille δ > 0 p¨atee

Pr(X ≥ (1 + δ)µ) <

e^δ

(1 + δ)^1+δ µ

.

Todistus: Kuten edellä todettiin, kun t > 0, Markovin epäyhtälöstä saadaan Pr(X ≥ (1 + δ)µ) = Pr(e^tX ≥ e^t(1+δ^)µ) ≤ E_[e^tX_]

exp(t(1 + δ)µ). Valitaan t = ln(1 + δ), jolloin

E_[e^tX_] _≤ _exp((e^t ₋ _{1)µ) = e}^δµ ja

exp(t(1 + δ)µ) = (1 + δ)^(1+δ)µ. 2

(74)

Seuraava on usein k¨aytetty yksinkertaistus:

Lause 4.6: Kun 0 < δ ≤ 1, niin

Pr(X ≥ (1 + δ)µ) ≤ exp(−µδ²/3).

Todistus: Riitt¨a¨a siis osoittaa

e^δ

(1 + δ)^1+δ ≤ e⁻^δ²^/3

eli yhtäpitävästi (ottamalla logaritmi puolittain) f(δ) ≤ 0, missä f(δ) = δ − (1 + δ) ln(1 + δ) + 1

3δ².

(75)

Derivoidaan:

f(δ) = δ − (1 + δ) ln(1 + δ) + 1 3δ² f^′(δ) = −ln(1 + δ) + 2

3δ f^′′(δ) = − 1

1 + δ + 2 3.

Nyt f^′′(δ) < 0 välillä 0 ≤ δ < 1/2, eli f^′(δ) pienenee. Toisaalta f^′′(δ) > 0 välillä 1/2 < δ < 1, eli f^′(δ) kasvaa.

Koska f^′(0) = 0 ja f^′(1) = 2/3 − ln 2 ≈ 2/3 − 0,69 < 0, pätee f^′(δ) ≤ 0 välillä 0 ≤ δ ≤ 1.

Koska f(0) = 0, p¨atee f(δ) ≤ 0 kaikilla 0 < δ < 1. 2

(76)

Toinen tapa yksinkertaistaa rajaa on seuraava:

Lause 4.7: Kun R ≥ 6µ, niin

Pr(X ≥ R) ≤ 2⁻^R.

Todistus: Merkit¨a¨an R = (1 + δ)µ, jolloin δ = R/µ − 1 ≥ 5. Saadaan e^δ

(1 + δ)^1+δ ^µ

≤

e 1 + δ

(1+δ)µ

≤ _e 6

R

≤ 2⁻^R. 2

(77)

Tarkastellaan sitten todennäköisyyttä, että X on hyvin pieni.

Lause 4.8: Kaikilla 0 < δ < 1 p¨atee

Pr(X ≤ (1− δ)µ) ≤

e⁻^δ (1 − δ)¹⁻^δ

µ

.

Todistus: Kuten aiemmin, kaikilla t < 0 p¨atee Pr(X ≤ (1− δ)µ) ≤ E_[e^tX_]

e^t⁽¹⁻^δ⁾^µ ≤ exp((e^t − 1)µ) exp(t(1− δ)µ). Haluttu arvio saadaan sijoittamalla t = ln(1 − δ). 2

(78)

T¨at¨a voidaan arvioida kuten toisessakin tapauksessa:

Lause 4.9: Kaikilla 0 < δ < 1 p¨atee

Pr(X ≤ (1− δ)µ) ≤ exp(−µδ²/2).

Todistus: Samalla tekniikalla kuin tapaus ”(1 +δ)”, yksityiskohdat sivuutetaan. 2

Arviot voidaan yhdist¨a¨a:

Korollaari 4.10: Kaikilla 0 < δ < 1 p¨atee

Pr(|X − µ| ≤ δµ) ≤ 2 exp(−µδ²/3).

2

(79)

Rahanheitto

[M&U luku 4.2.2]

Heitetään symmetristä rahaa n kertaa. Siis µ = n/2. Millainen raja pätee todennäköisyydellä 2/n (siis hyvin todennäköisesti)?

Halutaan exp(−(n/2)δ²/3) = 1/n, mist¨a δ = p

(6 lnn)/n. Sijoittamalla t¨am¨a rajaan saadaan

Pr

^X ⁻

n 2 ^≥

1 2

√6nlnn

≤ 2 n. Siis melko varmasti poikkeamat ovat O(√

nlogn).

Verrataan Tˇsebyˇsevin epäyhtälöllä saatuun arvioon Pr

^X ⁻

n 2 ^≥

n 4

≤ 4 n.

Jos otetaan Chernoff-arvio samalle virheen suuruudelle, saadaan Pr

^X ⁻

n 2 ^≥

n 4

≤ 2e⁻^n/24

(80)

Sovellus: parametrin estimointi

[M&U luku 4.2.3]

Suoritetaan riippumattomia toistoja tuntemattomasta (mutta samana pysyv¨ast¨a) jakaumasta Bernoulli(p). Halutaan arvioida parametria p.

Olkoon X = Pn

i=1Xi onnistumisten lukumäärä n toistossa ja ˜p = X/n. Selvästi E_[˜_{p] =} _µ/n ₌ _{p. Mit¨}a voidaan sanoa virhetodennäköisyyksistä?

V¨ali [˜p − δ,p˜+ δ] on (1− γ)-luottamusv¨ali parametrille p, jos Pr(p ∈ [˜p − δ,p˜+ δ]) ≥ 1 − γ.

Tulkinta: Nähtyämme koesarjan, jonka onnistumisfrekvenssi on ˜p, meillä on

”luottamus” 1 − γ siihen, että oikea parametri p on välillä [˜p − δ,p˜+ δ]. Jos näin ei olisi, niin havaitunlaisten koesarjojen todennäköisyys olisi alle γ.

Huom. p on vakio, sillä ei ole mitään todennäköisyyttä (ellemme sitten oleta jotain priorijakaumaa ja tee bayeslaista analyysia).