• Ei tuloksia

Kausaalivaikutukset

Kausaalimalliin kohdistuvat interventiot muokkaavat sen kuvaamien muuttu-jien välisiä funktionaalisia suhteita. Interventiot määritellään do(·)-operaat-torilla, joka poistaa tiettyjä funktioita mallista ja korvaa ne vakiofunktioilla vaikuttamatta malliin muilla tavoilla. Jokainen kausaalimalliinM kohdistuva interventio do(X=x) tuottaa siten alimallin Mx =hU,V,Fx, P(U)i, missä joukko Fx saadaan korvaamalla funktio fXF jokaista muuttujaa XX kohden vakiofunktiolla, joka tuottaa aina interventiondo(X=x) määräämän arvon x. KoskaMx on kausaalimalli, on joukolla Fx yksikäsitteinen ratkaisu, mikä takaa yksikäsitteisen ratkaisun olemassaolon myös jokaiselle muuttujal-le VV. Tämä tarkoittaa sitä, että jokainen havaittu muuttuja on edelleen esitettävissä ainoastaan havaitsemattomien muuttujien avulla alimallissaMx. Tällöin on mielekästä tarkastella, kuinka joukkoa Vkoskevat todennäköisyy-det muuttuvat intervention seurauksena.

Määritelmä (Kausaalivaikutus, Shpitser ja Pearl (2006b)). Olkoot kausaa-limalli M = hU,V,F, P(U)i ja muuttujajoukot Y,XV. Intervention do(X=x) kausaalivaikutus joukkoon Y mallissa M on muuttujajoukon Y yhteisjakauma alimallissa Mx, josta käytetään merkintääP(Y|do(X=x)) = Px(Y).

Jokaista interventiotado(X=x) kohden tulee ollaP(x|P a(X)G\X)>0.

Tämä rajoite takaa, että jakaumaPx(V) ja sen marginaalijakaumat ovat aina hyvin määritellyt. Rajoite on luonnollinen, sillä ei ole mielekästä pakottaa muuttujajoukonXarvoja sellaisiksi, joita ei voi havaita. Tällaisen intervention jakaumasta ei voida tehdä päätelmiä aineiston perusteella.

Kirjallisuudessa (esim. Holland, 1986 ja Rubin, 1974) kausaalivaikutus määritellään joskus edellisestä määritelmästä poikkeavalla tavalla. Kausaali-vaikutus on luonnollista määritellä keskimääräisenä kausaalivaikutuksena di-kotomisille muuttujille Y ja X

P(Y = 1|do(X = 1))−P(Y = 1|do(X = 0)).

Jos kausaalivaikutuksella tarkoitetaan juuri lauseketta Px(Y), on keskimää-räinen kausaalivaikutus tällöin kahden kausaalivaikutuksen erotus. Reaaliselle satunnaismuuttujalleY ja dikotomiselle satunnaismuuttujalleX keskimääräi-nen kausaalivaikutus määritellään odotusarvojen erotuksena

E[Y|do(X = 1)]−E[Y|do(X = 0)].

Jos sekäY ettäXovat reaalisia, niin keskimääräinen kausaalivaikutus voidaan määritellä derivaattana

d

dxE[Y|do(X =x)],

mikäli tämä on olemassa. Jatkossa kausaalivaikutuksella kuitenkin tarkoite-taan intervention määräämää yhteisjakaumaa Px(Y).

Tehtäessä päätelmiä interventioista, ei muuttujien välillä vallitsevia funk-tionaalisia suhteita tarvitse aina määrittää tarkasti, eikä tämä aina ole edes mahdollista. Usein riittää, että tiedossa on joitakin kausaalisia suhteita ja tilastollista informaatiota tutkittavasta ilmiöstä. Tällöin nämä oletukset voi-daan koota taustalla olevaa kausaalimallia vastaavaksi graafiksi sekä havainto-ja koskeviksi todennäköisyyksiksi. Vaarana on kuitenkin se, että kiinnostavaa kausaalivaikutusta ei aina voida määrittää yksikäsitteisesti, sillä sama graafi voi vastata useampaa kuin yhtä kausaalimallia, ja on mahdollista, että kaik-kia kiinnostavia muuttujia ei ole pystytty mittaamaan. Seuraava määritelmä karakterisoi kausaalimallista tehtyjen oletusten riittävyyden.

Määritelmä(Kausaalivaikutuksen identifioituvuus, Shpitser ja Pearl (2006b) 2).Olkoot graafiG=hV,Eija muuttujajoukotYjaX. Interventiondo(X=x) kausaalivaikutus muuttujajoukkoonY, jolleY∩X=∅, onidentifioituva graa-fissa G jos Px1(Y) =Px2(Y) jokaiselle parille kausaalimallejaM1 ja M2, joille P1(V) = P2(V) jaP1(x|P a(X)G\X)>0.

Määritelmän avulla ei voida yleensä suoraan todeta kausaalivaikutuksen identifioituvuutta, sillä on harvoin mahdollista varmistaa, ettäPx1(Y) = Px2(Y) jokaiselle parille kausaalimallejaM1 jaM2, joiden havaittujen muuttujien yh-teisjakaumat ovat samat. Määritelmän avulla voidaan kuitenkin todeta iden-tifioitumattomuus määrittelemällä kausaalimallit M1 ja M2, joille P1(V) = P2(V), mutta Px1(Y) 6=Px2(Y). Identifioituvuus määritellään joskus yllä ole-vasta määritelmästä poikkeavalla tavalla (esim. Angrist, Imbens ja Rubin, 1996). Jatkossa identifioituvuutta käsitellään kuitenkin määritelmän mukai-sesti yleisellä tasolla.

Seuraava esimerkki perustuu konstruktioon, jonka esittivät Shpitser ja Pearl (2006b). Tarkastellaan kuvan 5 graafia G ja muuttujan X kausaali-vaikutusta muuttujaan Y. Muuttujan Y voidaan ajatella olevan esimerkiksi jokin kiinnostava vastemuuttuja ja muuttujanX jokin prediktori. Lisäksi vas-teeseen ja prediktoriin vaikuttaa jokin havaitsematon satunnaismuuttuja U. Shpitser ja Pearl toteavat, että havaittujen muuttujien reunajakaumien po-sitiivisuus voidaan aina taata esimerkin tilanteessa, mutta eivät osoita tätä suoraan. Laajennetaan konstruktiota siten, ettäP(X)>0 kaikilla muuttujan X arvoilla jaP(Y)>0 kaikilla muuttujan Y arvoilla kummassakin mallissa.

Kuva 5: Yksinkertainen graafi, jossa kausaalivaikutus Px(y) ei identifioidu Määritellään kausaalimallitM1 ja M2 seuraavasti: kummassakin mallissa asetetaanU ∼Tas({0,1}) jafX(u) = u, jotenP1(X = 1) =P2(X = 1) = 0.5.

Mallissa M1 funktiofY(u, x) määritellään siten, että fY(u, x) =

(u+ 2x) mod 2, kun u= 1 (u+x) mod 2, kun u= 0.

Koska muuttujanX arvo määräytyy deterministisesti satunnaismuuttujan U arvosta, niin muuttujan Y arvot määräytyvät mallissa M1 seuraavasti: jos u= 1, niin

fY(u, x) = (u+ 2x) mod 2 = (u+ 2fX(u)) mod 2 = (u+ 2u) mod 2 = 1.

Jos u= 0, niin

fY(u, x) = (u+x) mod 2 = (u+fX(u)) mod 2 = (u+u) mod 2 = 0.

Siis P1(Y = 1) = 0.5. Mallissa M2 vastaava funktio fY(u) määritellään siten, että fY(u) =u. Tällöin P2(Y = 1) = 0.5.

Johdetaan seuraavaksi havaittujen muuttujien yhteisjakaumat kummas-sakin mallissa. Mallissa M2 muuttujien X ja Y arvot on asetettu suoraan

satunnaismuuttujan U arvoksi, joten P2(X, Y) = 0.5 jos X = Y. Muussa tapauksessaP2(X, Y) = 0. Edellä osoitettiin, että muuttujaY saa myös mal-lissa M1 satunnaismuuttujan U arvon. Koska muuttujanX arvo on asetettu satunnaismuuttujan U arvoksi molemmissa malleissa, on P1(X, Y) = 0.5 jos X =Y. Muussa tapauksessa P1(X, Y) = 0.

Havaittujen muuttujien yhteisjakaumille pätee siisP1(X, Y) =P2(X, Y).

Jos satunnaismuuttujaan X kohdistetaan nyt interventio do(X =x), niin se muuntaa funktion fX(u) = u vakiofunktioksi fx(u) = x kummassakin mal-lissa. Interventio ei vaikuta satunnaismuuttujan Y jakaumaan mallissa M2, sillä muuttujan Y arvot määräytyvät suoraan muuttujan U arvoista, jolloin Px2(Y = 1) = 0.5. Mallissa M1 interventio puolestaan muuntaa muuttujan Y jakaumaa. Jos tehty interventio oli do(X = 1), niin

fY(u,1) =

(u+ 2) mod 2, kun u= 1 (u+ 1) mod 2, kun u= 0.

Siis Y saa arvon 1 riippumatta muuttujanU arvosta. Jos tehty interventio oli do(X = 0), niin

fY(u,0) =

u mod 2, kun u= 1 u mod 2, kun u= 0,

eli fY(u,0) =u. Interventiot do(X = 1) ja do(X = 0) ovat hyvin määritellyt kummassakin kausaalimallissa, sillä sekäP1(X =x)>0 ettäP2(X =x)>0 kaikilla muuttujan X arvoilla x, ja havaittujen muuttujien yhteisjakaumat ovat samat. Kausaalivaikutukset eivät kuitenkaan ole samat, sillä

P11(Y = 1) = 16= 0.5 =P12(Y = 1),

jolloin kausaalivaikutus Px(Y) ei ole identifioituva graafissa G.

3 Kausaalilaskenta

Kausaalivaikutuksista on haastavaa tehdä päätelmiä käyttäen ainoastaan iden-tifioituvuuden määritelmää. Kausaalivaikutusten identifioituvuutta voidaan kuitenkin lähestyä myös interventioiden kautta. Judea Pearl määritteli edel-lisessä luvussa esitellyn do(·)-operaattorin tulkinnan pohjalta päättelysään-nöstön, jota kutsutaan kausaalilaskennaksi (do calculus, ks. Pearl, 2009, sivut 85-86 ja Pearl, 1995).

Kausaalilaskennan tavoitteena on esittää kausaalivaikutuksenPx(y) lause-ke ainoastaan havaittuja muuttujia koslause-kevien todennäköisyyksien avulla. Kau-saalivaikutus on identifioituva, mikäli tällainen esitystapa on mahdollista saa-vuttaa päättelysääntöjen iteratiivisella soveltamisella. Tämä tulos on suora seuraus identifioituvuuden määritelmästä, sillä havaittujen muuttujien jakau-mat oletetaan yhtäsuuriksi kaikille tarkasteltaville kausaalimalleille.

3.1 Laskusäännöt

OlkootX,YjaZmielivaltaisia pareittain erillisiä solmujoukkoja kausaalimal-liaM vastaavassa graafissaG. MerkinnälläGX tarkoitetaan graafia, joka saa-daan graafistaG poistamalla kaikki solmujoukkoonX saapuvat särmät. Mer-kinnälläGX tarkoitetaan graafia, joka saadaan graafistaGpoistamalla kaikki solmujoukostaXlähtevät särmät. MerkinnälläGX,Ztarkoitetaan graafia, joka saadaan graafistaG poistamalla kaikki solmujoukkoon X saapuvat särmät ja kaikki solmujoukostaZ lähtevät särmät. Olkoon nyt P kausaalimallin M ha-vaittujen ja havaitsemattomien muuttujien yhteisjakauma. Tällöin seuraavat säännöt ovat voimassa (Pearl, 1995):

1. Havaintojen lisääminen ja poistaminen

Px(y|z,w) =Px(y|z), jos (Y |= Z|X,W)G

X eli jos muuttujatY ovat riippumattomia muuttu-jista Z ehdolla X ja W graafissa G, josta on poistettu solmujoukkoon X saapuvat särmät.

2. Toiminnan ja havainnon vaihtaminen

Px,z(y|w) =Px(y|z,w), jos (Y |= Z|X,W)G

X,Z eli jos muuttujat Y ovat riippumattomia muut-tujista ZehdollaX jaWgraafissaG, josta on poistettu solmujoukkoon X saapuvat särmät ja solmujoukosta Z lähtevät särmät.

3. Toiminnan lisääminen ja poistaminen

Px,z(y|w) = Px(y|w),

jos (Y |= Z|X,W)G

X,Z(W) eli jos muuttujatYovat riippumattomia muut-tujista ZehdollaX jaWgraafissaG, josta on poistettu solmujoukkoon X saapuvat särmät ja solmujoukkoon Z(W) saapuvat särmät, missä

Z(W) =Z\An(W)G

X

eliZ(W) sisältää joukon Zne solmut, jotka eivät kuulu joukkoonW ja eivät ole minkään joukon W solmun havaittuja esivanhempia graafissa G, josta on poistettu solmujoukkoonX saapuvat särmät.

Sääntö 1 yhdistää d-separoituvuuden ja intervention do(X = x) synnyt-tämän todennäköisyysjakauman toisiinsa. Graafissa G vallitsevat ehdolliset riippumattomuudet säilyvät, sillä muuttujajoukkoon X liittyvien funktioiden korvaaminen vakiofunktioilla ei synnytä uusia riippuvuuksia muiden muuttu-jien välille. Kun sääntö 2 on voimassa, niin interventiolla do(Z=z) on sama vaikutus joukkoon Y kuin passiivisella havainnolla Z =z. Säännön 3 avulla voidaan lisätä tai poistaa interventioita vaikuttamatta muuttujaaYkoskeviin todennäköisyyksiin.

Kausaalilaskennan säännöt voidaan johtaa hyödyntäen d-separoituvuutta edellä esiintyvissä graafeissa sekä soveltamalla do(·)-operaattorin määritel-mää. Pearl esitti todistukset näille kolmelle säännölle (ks. Pearl, 1995). Kausaa-lilaskenta on myös osoitettu täydelliseksi, eli sen avulla voidaan johtaa kaik-kien identifioituvien kausaalivaikutusten jakaumat (Shpitser ja Pearl, 2006b, Huang ja Valtorta, 2006).