• Ei tuloksia

Latenttiin muuttujamalliin perustuva ordinaatiomenetelmä

N/A
N/A
Info
Lataa
Protected

Academic year: 2022

Jaa "Latenttiin muuttujamalliin perustuva ordinaatiomenetelmä"

Copied!
55
0
0

Kokoteksti

(1)

Latenttiin muuttujamalliin perustuva ordinaatiomenetelm¨ a

Jenni Niku

Tilastotieteen pro gradu

Jyv¨ askyl¨ an yliopisto

Matematiikan ja tilastotieteen laitos

25. tammikuuta 2015

(2)

JYV ¨ ASKYL ¨ AN YLIOPISTO

Matematiikan ja tilastotieteen laitos

Jenni Niku: Latenttiin muuttujamalliin perustuva ordinaatiomenetelm¨ a

Tilastotieteen pro gradu -tutkielma, 31 sivua + liitteit¨ a 21 sivua, 25. tammikuuta 2015

Tiivistelm¨ a

Ordinaatiomenetelmiss¨ a useita vastemuuttujia sis¨ alt¨ av¨ an aineiston informaatio py- rit¨ a¨ an tiivist¨ am¨ a¨ an muutamaan muuttujaan, joista muodostetaan ordinaatiokuva.

Klassiset ordinaatiomenetelm¨ at ottavat huomioon aineiston ominaisuudet vain et¨ ai- syysmitan ja aineiston muunnosten valinnassa, jolloin ne eiv¨ at tarjoa mahdollisuutta oletusten ja menetelm¨ an sopivuuden tarkasteluun. T¨ ass¨ a tutkielmassa tarkastellaan yleistetty¨ a lineaarista latenttien muuttujien mallia ordinaatiomenetelm¨ an¨ a. Mene- telm¨ assa vastemuuttujien informaatio tiivistet¨ a¨ an kahteen latenttiin muuttujaan, jois- ta ordinaatiokuva muodostetaan. Mallin parametrit estimoidaan suurimman uskot- tavuuden menetelm¨ all¨ a, ja uskottavuusfunktiolle johdetaan Laplacen approksimaatio yleisen eksponentiaalisen perheen jakauman tapauksessa.

Latenttia muuttujamallia sovelletaan kahteen ekologian aineistoon, ja havainnol- listetaan menetelm¨ an mahdollistamia informaatiokriteerien k¨ aytt¨ o¨ a mallinvalinnas- sa sek¨ a j¨ a¨ ann¨ ostarkasteluja oletusten tarkistamiseksi. Simulointikokeilla verrataan la- tenttia muuttujamallia klassisiin ordinaatiomenetelmiin. Tulosten perusteella voidaan todeta, ett¨ a riitt¨ av¨ an hyvilla alkuarvojen valinnalla latentti muuttujamalli toimii or- dinaatiomenetelm¨ an¨ a v¨ ahint¨ a¨ an yht¨ a hyvin tai paremmin kuin mik¨ a¨ an vertailtavista klassisista menetelmist¨ a, jotka toimivat vaihtelevalla menestyksell¨ a aineistosta riip- puen.

Avainsanat: Eksponentiaalinen jakaumaperhe, Laplacen approksimaatio, latentti

muuttuja, moniulotteinen skaalaus, korrespondenssianalyysi, p¨ a¨ akoordinaattianalyysi.

(3)

Sis¨ alt¨ o

1 Johdanto 1

2 Klassiset ordinaatiomenetelm¨ at 2

2.1 Moniulotteinen skaalaus . . . . 2

2.2 P¨ a¨ akoordinaattianalyysi . . . . 3

2.3 Korrespondenssianalyysi . . . . 3

2.4 Klassisten ordinaatiomenetelmien ongelmia . . . . 4

3 Latentti muuttujamalli 7 3.1 Dikotominen vaste . . . . 8

3.2 Lukum¨ a¨ ar¨ avaste . . . . 8

4 Implementointi 9 4.1 Latentin muuttujamallin uskottavuusfunktio . . . . 9

4.2 Laplacen approksimaatio . . . . 10

4.3 Laplacen approksimaatio latenttien muuttujien mallin uskottavuus- funktiolle . . . . 11

4.4 Bernoulli-jakautuneet vastemuuttujat . . . . 12

4.5 Poisson-jakautuneet vastemuuttujat . . . . 13

4.6 Negatiivibinomijakautuneet vastemuuttujat . . . . 14

4.7 Dunn-Smyth residuaalit ja informaatiokriteerit . . . . 15

5 Sovelluksia 17 5.1 Muurahaiset . . . . 17

5.2 H¨ am¨ ah¨ akit . . . . 20

6 Simulointikokeita 25 7 Pohdintaa 30 Viitteet 31 Liite A Derivaatat 32 A.1 Bernoulli-jakautuneille vastemuuttujille . . . . 32

A.2 Poisson-jakautuneille vastemuuttujille . . . . 33

A.3 Negatiivibinomijakautuneille vastemuuttujille . . . . 33

A.4 Derivaatat selitt¨ av¨ at muuttujat sis¨ alt¨ av¨ alle mallille . . . . 34

Liite B Et¨ aisyysmittoja 36

Liite C R-koodi 37

(4)

1 Johdanto

Ordinaatiomenetelm¨ at ovat yleisesti k¨ aytettyj¨ a ekologiassa, kun halutaan visualisoi- da moniulotteista aineistoa mataladimensioisessa muodossa. Usein halutaan kuvata lajiston samankaltaisuutta eri paikoissa. T¨ all¨ oin ordinaation tavoitteena on tiivist¨ a¨ a useita vastemuuttujia sis¨ alt¨ av¨ an aineiston informaatio vain kahteen muuttujaan, joi- den perusteella muodostetaan sirontakuvio. Sirontakuviossa toisiaan l¨ ahell¨ a olevat paikat tulkitaan olevan tutkittavan asian kannalta samankaltaisia. Ordinaatiomene- telm¨ a¨ a sanotaan rajoittamattomaksi, kun k¨ aytet¨ a¨ an vain vastemuuttujista koostuvaa aineistoa.

Perinteiset ordinaatiomenetelm¨ at, kuten moniulotteinen skaalaus (multidimensio- nal scaling, MDS), p¨ a¨ akoordinaattianalyysi (principal coordinate analysis, PCoA) ja oikaistu korrespondenssianalyysi (detrended correspondence analysis, DCA), ovat al- goritmipohjaisia tekniikoita. MDS-menetelm¨ ass¨ a ordinaatiokuvan pisteiden paikkoja p¨ aivitet¨ a¨ an iteratiivisesti, kunnes niiden parittaiset et¨ aisyydet vastaavat mahdolli- simman hyvin vastaavien paikkojen v¨ alisi¨ a et¨ aisyyksi¨ a. Et¨ aisyydell¨ a tarkoitetaan jo- takin aineiston mittauspaikkojen havainnoista laskettua erilaisuutta tai et¨ aisyytt¨ a kuvaavaa mittaa. PCoA-menetelm¨ ass¨ a sovelletaan singulaariarvohajotelmaa parittai- sia eroavaisuuksia kuvaavalle matriisille. Korrespondenssianalyysi¨ a voidaan ajatella kyseisen¨ a menetelm¨ an¨ a, jossa k¨ aytet¨ a¨ an χ

2

-et¨ aisyysmittaa, ja DCA-menetelma taas on muunnelma t¨ ast¨ a. Luvussa 2 k¨ asitell¨ a¨ an klassisia menetelmi¨ a tarkemmin.

Perinteisiss¨ a ordinaatiomenetelmiss¨ a aineiston ominaisuudet, esimerkiksi keskiar- vo-varianssi -suhde, pyrit¨ a¨ an ottamaan huomioon et¨ aisyysmitan ja muunnosten va- linnassa. Menetelmien ongelmana on se, ett¨ a esimerkiksi j¨ a¨ ann¨ ostarkastelujen avulla ei voida tarkistaa valintojen sopivuutta tutkittavana olevalle aineistolle. Koska eri valinnat voivat tuottaa hyvin erilaisia tuloksia, saatetaan p¨ a¨ aty¨ a harhaanjohtaviin tuloksiin.

Malliperusteinen l¨ ahestymistapa korjaa perinteisten ordinaatiomentelmien ongel- mia mahdollistaen j¨ a¨ ann¨ osten analysoinnin oletusten tarkistamiseksi, ja antaa ty¨ okalu- ja sopivimman mallin valitsemiseen. Artikkelissa (Hui et al., 2014) on esitelty malli- pohjaisia l¨ ahestymistapoja ordinaatiomenetelm¨ alle. Yksi n¨ aist¨ a on malli, jossa vastei- den odotusarvoa selitet¨ a¨ an latenteilla muuttujilla. N¨ aiden muuttujien arvot jokaiselta mittauspaikalta voidaan ajatella olevan koordinaatit, jotka kuvaavat kunkin paikan sijaintia ordinaatiokuvassa.

Edell¨ a mainitussa artikkelissa latenttia muuttujamallia on estimoitu suurimman

uskottavuuden menetelm¨ all¨ a EM-algoritmin ja Monte Carlo -integroinnin avulla. Las-

kenta oli kuitenkin melko hidasta jo pienill¨ a aineistoilla. T¨ am¨ an ty¨ on tarkoituksena

on laskea Laplacen approksimaatio kyseisen mallin uskottavuusfunktiolle, kun vas-

temuuttujat noudattavat eksponentiaalisen jakaumaperheen jakaumaa, ja soveltaa

menetelm¨ a¨ a kahteen ekologian aineistoon. Lis¨ aksi mallia laajennetaan lis¨ a¨ am¨ all¨ a se-

litt¨ av¨ at muuttujat malliin. Lopuksi mallipohjaista menetelm¨ a¨ a verrataan klassisiin

ordinaatiomenetelmiin simulointikokeiden avulla.

(5)

2 Klassiset ordinaatiomenetelm¨ at

Oletetaan aineiston olevan n × p matriisi, jonka solun (i, j) havainto on y

ij

. Aineis- to koostuu esimerkiksi n havaintopaikasta, joista jokaiselta on mitattu p muuttujaa.

Tavoitteena on tiivist¨ a¨ a aineiston informaatio paikkojen samankaltaisuudesta muuta- maan muuttujaan, joiden perusteella tehd¨ a¨ an p¨ a¨ atelm¨ at. Ennen laskentaa aineistolle voidaan tehd¨ a tarvittaessa my¨ os muunnoksia kuten standardointi. T¨ ass¨ a luvussa esi- tell¨ a¨ an muutamia yleisimpi¨ a klassisia ordinaatiomenetelmi¨ a perustuen kirjan Expe- rimental Design and Data Analysis for Biologists (Quinn ja Keough, 2002) lukuihin 15, 17, ja 18.

2.1 Moniulotteinen skaalaus

Moniulotteinen skaalaus, MDS, on k¨ aytetyin rajoittamaton ordinaatiomenetelm¨ a eko- logiassa. Muodostetaan paikkojen erilaisuutta kuvaava matriisi siten, ett¨ a lasketaan jokaisen kahden paikan v¨ alinen et¨ aisyys k¨ aytt¨ aen aineistoon soveltuvaa et¨ aisyysmittaa.

Merkit¨ a¨ an paikkojen h ja i v¨ alist¨ a et¨ aisyytt¨ a d

hi

, jolloin et¨ aisyysmatriisi on [d

hi

]

n×n

. Yksi usein k¨ aytetty mitta on Bray-Curtis -et¨ aisyys:

d

hi

=

p

P

k=1

|y

hk

− y

ik

|

p

P

k=1

(y

hk

+ y

ik

) .

Muita et¨ aisyysmittoja on esitelty liitteess¨ a B. Seuraavaksi valitaan akselien lukum¨ a¨ ar¨ a q. T¨ am¨ an j¨ alkeen paikkojen q-ulotteisen avaruuden koordinaateille asetetaan l¨ aht¨ oar- vot. Merkit¨ a¨ an paikkaa h vastaavia koordinaatteja x

h1

, . . . , x

hq

ja siirret¨ a¨ an n¨ ait¨ a koordinaatteja siten, ett¨ a jokaisella askeleella koordinaattien v¨ alisten euklidisten et¨ ai- syyksien d ˜

hi

= kx

h

− x

i

k ja aineistosta laskettujen et¨ aisyyksien d

hi

yhteensopivuus paranee. Kun se ei en¨ a¨ a parane, parhaat sijainnit ordinaatiokuvassa on saavutettu.

Yhteensopivuutta voidaan mitata esimerkiksi Kruskalin stressiarvolla

S = v u u u u t

P

h,i

( ˜ d

hi

− d

hi

)

2

P

h,i

( ˜ d

hi

)

2

,

joka saa arvon nolla, jos yhteensopivuus on t¨ aydellinen. Mit¨ a pienempi stressiarvo on, sit¨ a parempi on yhteensopivuus.

Ep¨ ametrisess¨ a moniulotteisessa skaalauksessa (NMDS) aineistosta laskettujen et¨ ai- syyksien d

ij

sijaan k¨ aytet¨ a¨ an niiden j¨ arjestyslukuja. MDS-menetelm¨ a olettaa, ett¨ a et¨ aisyyksien d

ij

ja koordinaattien v¨ alisten et¨ aisyyksien d ˜

ij

suhde on lineaarinen, mut- ta n¨ ain ei aina v¨ altt¨ am¨ att¨ a ole. NMDS menetelm¨ ass¨ a oletetaan ainoastaan, ett¨ a edell¨ a mainittu suhde on monotoninen, eli

d ˜

hi

= f (d

hi

),

(6)

miss¨ a f : R

+

→ R

+

on tuntematon monotoninen funktio. Koska tiedet¨ a¨ an vain, ett¨ a d ˜

hi

≤ d ˜

h0i0

, kun d

hi

< d

h0i0

, lasketaan j¨ arjestysluvut molemmille et¨ aisyyksille. T¨ all¨ oin stressiarvo perustuu n¨ aihin j¨ arjestyslukuihin (Kruskal, 1964).

2.2 P¨ a¨ akoordinaattianalyysi

Esitell¨ a¨ an p¨ a¨ akoordinaattianalyysi, (PCoA), vaiheittain. Muodostetaan aluksi et¨ aisyys- matriisi [d

hi

]

n×n

. Kuten aineistollekin, my¨ os t¨ alle voidaan tarvittaessa tehd¨ a joitakin muunnoksia esimerkiksi negatiivisten ominaisarvojen v¨ altt¨ amiseksi. J¨ alleen et¨ aisyytt¨ a kuvaavan mitan voi vapaasti valita. Lis¨ aksi tehd¨ a¨ an kaksinkertainen keskistys

d

hi

= d

hi

− d

h.

− d

.i

+ d,

miss¨ a d

h.

on rivin h, d

.i

sarakkeen i ja d koko matriisin keskiarvo. Merkit¨ a¨ an muunnos- ten j¨ alkeen saatua et¨ aisyysmatriisia D := [d

hi

]

n×n

. Matriisille D sovellamme singulaa- riarvohajotelmaa, joka on nyt symmetriselle matriisille my¨ os ominaisarvohajotelma

D = UΛU

−1

, (1)

miss¨ a Λ on n × n diagonaalimatriisi, jonka diagonaalilla on matriisin D ominaisar- vot (λ

1

, . . . , λ

n

). Matriisin U sarake i, u

i

, on ominaisarvoa λ

i

vastaava ominaisvektori.

Suurin osa et¨ aisyysmatriisin D informaatiosta sis¨ altyy muutamaa suurinta ominaisar- voa vastaaviin ominaisvektoreihin. Ordinaatiokuva muodostetaan kahta suurinta omi- naisarvoa vastaavista vektoreista ominaisarvojen neli¨ ojuurilla skaalaamisen j¨ alkeen.

2.3 Korrespondenssianalyysi

Korrespondenssianalyysi, (CA), on samankaltainen kuin p¨ a¨ akoordinaattianalyysi. Aluk- si aineistolle tehd¨ a¨ an standardointi

˜

y

ij

= y

ij

− e

ij

√ r

i

√ c

j

,

miss¨ a y

ij

on muuttujan j havainto paikassa i, e

ij

on kyseisen havainnon odotettu arvo, r

i

on rivisumma ja c

j

on sarakesumma. Et¨ aisyyten¨ a k¨ aytet¨ a¨ an χ

2

-mittaa

d

hi

= v u u t

p

X

k=1

(˜ y

hk

/r

h

− y ˜

ik

/r

i

)

2

c

k

.

Merkit¨ a¨ an et¨ aisyysmatriisia D := [d

hi

]

n×n

, ja t¨ alle sovellamme ominaisarvohajotelmaa (1) ominaisarvojen ja ominaisvektoreiden l¨ oyt¨ amiseksi. Ordinaatiokuva muodoste- taan ominaisvektoreista kuten PCoA-menetelm¨ ass¨ a. Oikaistu korrespondenssianalyy- si, (DCA), on nimens¨ a mukaisesti kehittyneempi versio korrespondenssianalyysist¨ a.

CA-menetelm¨ all¨ a syntyneess¨ a ordinaatiokuvassa on usein havaittavissa k¨ ayr¨ am¨ ainen

(7)

tai hevosenkenk¨ am¨ ainen muoto, joka ei johdu aineiston rakenteesta, vaan itse mene- telm¨ ast¨ a. DCA-menetelm¨ all¨ a pyrit¨ a¨ an korjaamaan t¨ at¨ a v¨ a¨ aristym¨ a¨ a. Siin¨ a ensimm¨ ai- nen akseli jaetaan osiin, joiden lukum¨ a¨ ar¨ an voi tutkija m¨ a¨ aritt¨ a¨ a, ja osiot skaala- taan siten, ett¨ a kaikkien osioiden toisen akselin vastaavien arvojen keskiarvot ovat yht¨ asuuret. T¨ at¨ a toistetaan muutellen samalla osien v¨ alisi¨ a rajoja jokaisella kierrok- sella. (Hill ja Gauch Jr, 1980).

2.4 Klassisten ordinaatiomenetelmien ongelmia

Klassisissa ordinaatiomenetelmiss¨ a ongelmia tuottavat et¨ aisyysmitan valinta ja ai- neistolle teht¨ av¨ at muunnokset, koska ei ole juurikaan olemassa diagnostisia keino- ja tarkistaa, mitk¨ a valinnat ovat sopivimpia k¨ asitelt¨ av¨ an¨ a olevalle aineistolle. N¨ ain ollen p¨ a¨ at¨ okset on usein tehty perustuen uskomuksiin kuten aiempaan empiiriseen n¨ aytt¨ o¨ on sen sijaan, ett¨ a ne perustuisivat itse aineistoon. Ep¨ asopivista valinnoista saattaa seurata esimerkiksi aineistoon sopimaton keskiarvo-varianssi -suhde. T¨ am¨ a taas voi aiheuttaa ordinaatiokuvan sijaintien trendin sekoittumisen hajonnan vaihte- luun ja sen seurauksena harhaanjohtavia tuloksia.

Sovelletaan klassisia ordinaatiomenetelmi¨ a muurahaisaineistoon (Stoklosa et al.,

2014), jota tarkastellaan my¨ ohemmin luvussa 5.1. Aineistossa on 18 muurahaislajin

lukum¨ a¨ ari¨ a 20 paikalta. Kuvassa 1 on sovellettu t¨ alle aineistolle NMDS-menetelm¨ a¨ a

eri et¨ aisyysmitan ja muunnosten valinnoilla. K¨ aytetyt et¨ aisyysmitat ja Wisconsin-

standardointi on m¨ a¨ aritelty liitteess¨ a B. Ordinaatiokuvia vertailemalla voidaan ha-

vaita selvi¨ a poikkeamia: Kuvissa C ja D ei erotu klustereita juurikaan, kun taas ku-

vassa B erottuu selkeimmin kolme isompaa ryhmittym¨ a¨ a. My¨ os ryhmien kokoonpanot

vaihtelevat suuresti. Esimerkiksi kuvien A ja B yl¨ areunan klusterit sis¨ alt¨ av¨ at osittain

toisistaan poikkeavia paikkoja. Kolmanneksi, yksitt¨ aisten paikkojen sijainti suhtees-

sa muihin vaihtelee huomattavasti. Esimerkiksi paikka 20 n¨ ahd¨ a¨ an kuvassa B olevan

selke¨ asti erill¨ a¨ an muista, kun taas kuvassa A se on l¨ ahell¨ a paikkoja 7 ja 18 ja kuvas-

sa D melko l¨ ahell¨ a paikkaa 12. Ongelmana menetelm¨ ass¨ a on se, ettei tunneta keinoa

tutkia, mik¨ a kuva vastaa tai on l¨ ahimp¨ an¨ a todellisuutta.

(8)

−0.5 0.0 0.5

−0.4−0.20.00.20.4

A

dimensio 1

dimensio 2

2 1

3

4 5

6

7

9 8

10 11

12

13 14

15 16 17

18 19

20

−1.0 −0.5 0.0 0.5

−0.50.00.5

B

dimensio 1

dimensio 2

1

2 3

4 5

6 7

8

910

11 12

13

14 15

16

17 18 19

20

−1.0 −0.5 0.0 0.5

−0.50.00.5

C

dimensio 1

dimensio 2

1

2 3

4 5

6 7

8

9

10 11

12 13

14 15

16

17 18 19

20

−0.4 −0.2 0.0 0.2 0.4 0.6

−0.4−0.20.00.20.40.6

D

dimensio 1

dimensio 2

1

2 3

4 5

6 7

8 9

10

11 13 12

14 15

16

17 18

19

20

Kuva 1: NMDS menetelm¨ an tuottamia ordinaatiokuvia muurahaisaineistolle seu- raavilla et¨ aisyysmitoilla ja aineiston muunnoksilla: A. Bray-Curtis-et¨ aisyys alku- per¨ aiselle aineistolle, B. Bray-Curtis-et¨ aisyys Wisconsin-standardoidulle aineistolle, C. Canberra-et¨ aisyys Wisconsin-standardoidulle aineistolle, D. Euklidinen et¨ aisyys logaritmiselle aineistolle.

PCoA- ja DCA-menetelmiss¨ a valintatilanteita ei ole yht¨ a monta kuin moniulot-

teisen skaalauksen tapauksessa, mutta menetelm¨ at tuottavat j¨ alleen kaksi hyvin eri-

laista ordinaatiokuvaa (Kuva 2). Nytk¨ a¨ an ei voi mitenk¨ a¨ an testata, kuinka hyvin tai

huonosti menetelm¨ at toimivat kyseess¨ a olevalla aineistolla.

(9)

−0.4 −0.2 0.0 0.2 0.4

−0.4 −0.2 0.0 0.2 0.4 0.6

PCoA

dimensio 1

dimensio 2

1 2

3 4 5

6

7

9 8

10

11 12

13 14

15

16 17

18 19

20

−0.5 0.0 0.5 1.0

−0.6 −0.2 0.2 0.4 0.6 0.8

DCA

dimensio 1

dimensio 2

1

2 3

4

5

6 7

8

9 10

11 12

13 14

15

16

17

18 19

20

Kuva 2: Vasemmalla PCoA menetelm¨ an tuottama ordinaatiokuva muurahaisaineis-

tolle, ja oikealla vastaava DCA-menetelm¨ all¨ a.

(10)

3 Latentti muuttujamalli

M¨ a¨ aritell¨ a¨ an latentti muuttujamalli ordinaatiomenetelm¨ alle kuten Hui et al. (2014) artikkelissaan sen esittelev¨ at. Mallinnetaan vastemuuttujia y

ij

, i = 1, . . . , n, j = 1, . . . , p, yleistetyll¨ a lineaarisella latenttien muuttujien mallilla. Vaste voi olla esimer- kiksi tietyn lajin j lukum¨ a¨ ar¨ ahavainto mittauspaikalla i tai indikaattori, havaittiinko lajia kyseisell¨ a paikalla. Vastemuuttujat ehdolla latentit muuttujat oletetaan noudat- tavan eksponentiaalisen perheen jakaumaa odotusarvolla E(y

ij

) = µ

ij

. Odotusarvoa muuttujalle j paikassa i selitet¨ a¨ an q:lla latentilla muuttujalla

g

j

ij

) = α

i

+ β

j

+ z

0i

γ

j

, i = 1, . . . , n, j = 1, . . . , p, (2) miss¨ a γ

0j

= [γ

j1

, . . . , γ

jq

], z

i

on q-dimensioinen latenttien muuttujien arvojen vekto- ri paikassa i ja g

j

(·) on linkkifunktio. Oletetaan, ett¨ a z

i

∼ N

q

(0, I) ja muuttujat z

1

, . . . , z

n

ovat riippumattomia. Mallissa α

i

kuvaa paikkakohtaista tasoa paikalla i ja β

j

muuttujakohtaista tasoa muuttujalle j . Kerroin γ

j

kuvaa lajin j yhteytt¨ a latent- teihin muuttujiin z

i

. Ordinaatiomenetelmill¨ a k¨ ayt¨ amme kahta latenttia muuttujaa (q = 2), jotka toisiaan vasten kuvattuna tuottavat halutun ordinaatiokuvan. T¨ all¨ oin latenttien muuttujien arvot z

0i

= (z

i1

, z

i2

) vastaavat paikan i koordinaatteja ordinaa- tiokuvassa. Voidaan olla kiinnostuneita my¨ os siit¨ a, mitk¨ a lajit ovat paikkojen suhteen samankaltaisia. T¨ all¨ oin piirret¨ a¨ an lajeille ordinaatiokuva, jossa lajin j koordinaatteja vastaa arvot γ

j

. T¨ at¨ a tapausta ei kuitenkaan nyt k¨ asitella tarkemmin.

Sammel et al. (1997) esittiv¨ at artikkelissaan latentin muuttujamallin diskreeteille ja jatkuville vasteille. Ehdotettu malli mahdollisti my¨ os taustamuuttujien mukanao- lon. Jos aineistossa on taustamuuttujia k¨ aytett¨ aviss¨ a, ne voidaan my¨ os t¨ ass¨ a lis¨ at¨ a latenttiin muuttujamalliin (2), joka saa silloin muodon

g(µ

ij

) = α

i

+ β

j

+ z

0i

γ

j

+ x

0i

δ

j

, i = 1, . . . , n, j = 1, . . . , p, (3) miss¨ a δ

j

= [δ

j1

, . . . , δ

jm

]

0

ja x

i

= [x

i1

, . . . , x

im

]

0

on paikan i taustamuuttujien arvot.

Kertoimet δ

j

kuvaavat taustamuuttujien vaikutusta lajin j odotusarvoon.

Vasteen ehdollinen jakauma voidaan kirjoittaa yleisess¨ a eksponentiaalisen perheen jakauman muodossa

f

j

(y

ij

|z

i

) = exp n

y

ij

a

j

ij

) + b

j

ij

) + c

j

(y

ij

) o

, (4)

miss¨ a funktiot a

j

(·), b

j

(·) ja c

j

(·) riippuvat valitusta jakaumasta (Dobson, 2002) ja µ

ij

= g

j−1

i

+ β

j

+ z

0i

γ

j

).

Mallipohjaisella l¨ ahestymistavalla on merkitt¨ avi¨ a etuja verrattuna klassisiin or-

dinaatiomenetelmiin. Sovittamalla latentti muuttujamalli aineistoon voidaan tutkia

mallin sopivuutta aineistoon sek¨ a keskiarvo-varianssi -suhteen oikeellisuutta j¨ a¨ ann¨ osa-

nalyysin avulla. Mallin oletusten voimassaoloa voidaan tutkia esimerkiksi kuvaamal-

la j¨ a¨ ann¨ okset ja ennusteet toisiaan vasten. J¨ a¨ ann¨ ostarkastelujen perusteella voidaan

selvitt¨ a¨ a, onko aineistossa ylihajontaa, linkkifunktion sopivuutta sek¨ a mahdollisten

poikkeavien havaintojen olemassaoloa. J¨ a¨ ann¨ ostarkastelujen lis¨ aksi latentti muuttu-

jamalli antaa ty¨ okaluja mallinvalintaan sek¨ a hypoteesien testaukseen (ks. luku 4.7).

(11)

3.1 Dikotominen vaste

Oletetaan dikotominen vaste y

ij

∈ {0, 1}, jolle y

ij

∼ Bernoulli(µ

ij

), miss¨ a µ

ij

= P (y

ij

= 1) = E(y

ij

).

Linkkifunktiona g

j

(·) k¨ aytet¨ a¨ an logit-funktiota. Eksponentiaalisen perheen esitys (4) Bernoullin jakaumalle parametrilla µ

ij

saadaan, kun asetetaan

a

j

ij

) = log

µ

ij

1 − µ

ij

, b

j

ij

) = log(1 − µ

ij

), c

j

(y

ij

) = 0.

3.2 Lukum¨ a¨ ar¨ avaste

Lukum¨ a¨ ar¨ avasteet oletetaan usein Poisson-jakautuneiksi, y

ij

∼ Poisson(µ

ij

), ja link- kifunktioksi valitaan logaritmifunktio. Poisson-jakauma saadaan kaavasta (4), kun tehd¨ a¨ an valinnat

a

j

ij

) = log µ

ij

, b

j

ij

) = −µ

ij

, c

j

(y

ij

) = − log(y

ij

!).

Poisson-jakautuneen vastemuuttujan varianssille p¨ atee V ar(y

ij

) = µ

ij

, mutta eko- logian aineistojen tapauksessa t¨ am¨ a on usein ep¨ arealistinen oletus. Jos aineiston ha- jonta on suurta suhteessa odotusarvoon, voidaan k¨ aytt¨ a¨ a negatiivista binomijakau- maa, jonka varianssi on V ar(y

ij

) = µ

ij

j

µ

2ij

, miss¨ a µ

ij

on vastemuuttujan odotusar- vo ja φ

j

on lajikohtainen dispersioparametri. Negatiivinen binomijakauma ei sellaise- naan ole eksponentiaalisen perheen jakauma, mutta jos ajatellaan dispersioparametri φ

j

kiinte¨ an¨ a, sille saadaan eksponentiaalisen perheen esitys valitsemalla

a

j

ij

) = log

µ

ij

1/φ

j

+ µ

ij

, b

j

ij

) = − 1

φ

j

log(1 + φ

j

µ

ij

), c

j

(y

ij

) = log

Γ(y

ij

+ 1/φ

j

) y

ij

! Γ(1/φ

j

)

.

(12)

4 Implementointi

4.1 Latentin muuttujamallin uskottavuusfunktio

T¨ ass¨ a ty¨ oss¨ a tarkastellaan mallin (2) parametrien θ = {α, β, γ, φ} estimointia suu- rimman uskottavuuden menetelm¨ all¨ a. Jos k¨ aytet¨ a¨ an mallia (3), θ = {α, β, γ, δ , φ}, prosessi etenee vastaavasti. Oletetaan, ett¨ a muuttujat y

ij

ovat ehdollisesti riippumat- tomia ehdolla latentit muuttujat, jolloin niiden yhteisjakauma on

p

Y

j=1

f

j

(y

ij

|z

i

; θ)

miss¨ a f

j

(y

ij

|z

i

; θ) on muuttujan y

ij

ehdollinen tiheysfunktio eksponentiaalisesta ja- kaumaperheest¨ a. Koska latenttien muuttujien oletettiin olevan standardinormaalija- kautuneita ja riippumattomia, niiden yhteisjakauman tiheysfunktio h(z

i

) on moniu- lotteinen normaalijakauma odotusarvolla µ = 0 ja kovarianssimatriisilla Σ = I

q

, eli

h(z

i

) = 1 (2π)

q2

exp

− 1 2 z

0i

z

i

.

Vastemuuttujien y

i

ja latenttien muuttujien z

i

yhteisjakauma on siis f (y

i

, z

i

) =

p

Y

j=1

f

j

(y

ij

|z

i

; θ)h(z

i

).

Latenttien muuttujien arvoja z

i

ei havaita, mutta niiden jakauma tunnetaan. Vaste- muuttujien marginaalijakauma saadaan integroimalla latenttien muuttujien yli, ts.

f

θ

(y

i

) =

Z "

p

Y

j=1

f

j

(y

ij

|z

i

; θ)

#

h(z

i

) dz

i

, (5)

miss¨ a y

i

= [y

i1

, . . . , y

ip

]

0

, θ = {α, β, γ, φ}, α = [α

1

, . . . , α

n

]

0

, β = [β

i

, . . . , β

p

]

0

, γ = [γ

1

, . . . , γ

p

] ja φ = [φ

1

, . . . , φ

p

]

0

.

Sek¨ a paikkojen havainnot y

1

, . . . , y

n

ett¨ a latentit muuttujat z

1

, . . . , z

n

ovat riip- pumattomia, joten uskottavuusfunktio on marginaalijakaumien (5) tulo. Logaritmi- nen uskottavuusfunktio saa t¨ all¨ oin muodon

l(θ; y) = (6)

n

X

i=1

log Z "

p

Y

j=1

exp n

y

ij

a

j

ij

) + b

j

ij

) + c

j

(y

ij

) o

# 1 (2π)

q2

exp

− 1 2 z

0i

z

i

dz

i

.

Tavoitteena on siis maksimoida logaritminen uskottavuusfunktio (6) parametrien θ

suhteen. T¨ am¨ an ratkaiseminen analyyttisesti on mahdotonta, joten k¨ aytet¨ a¨ an apuna

Laplacen approksimaatiota integraalille (5).

(13)

4.2 Laplacen approksimaatio

Esitell¨ a¨ an Laplacen approksimaation teoriaa yksi- ja moniulotteisissa tilanteissa mu- kaellen kirjaa Statistical Models (Davison, 2003). Tarkastellaan ensin yksiulotteista integraalia

I

n

= Z

e

−nh(u)

du, (7)

miss¨ a h(u) on sile¨ a konveksi funktio, jolla on minimi pisteess¨ a u = ˜ u. T¨ all¨ oin sen derivaatoille p¨ atee dh(˜ u)/du = 0 ja d

2

h(˜ u)/du

2

> 0. Merkit¨ a¨ an h

k

= d

k

h(˜ u)/du

k

, k = 2, . . . . Taylorin sarja funktiolle h m¨ a¨ aritell¨ a¨ an

T (u) = h(˜ u) +

X

k=1

h

k

k! (u − u) ˜

k

. (8)

Kun u on l¨ ahell¨ a minimipistett¨ a u, Taylorin sarja antaa approksimaation ˜ h(u) .

= h(˜ u) + 1

2 h

2

(u − u) ˜

2

. (9)

Sijoitetaan t¨ am¨ a integraaliin (7), jolloin saadaan sille approksimaatio

I

n

.

= exp(−nh(˜ u))

Z

−∞

exp(−nh

2

(u − u) ˜

2

/2) du

= exp(−nh(˜ u))

Z

−∞

exp(−z

2

/2)

du dz

dz

= 2π

nh

2

1/2

exp(−nh(˜ u)).

Ensimm¨ aisen yht¨ asuuruuden kohdalla tehd¨ a¨ an muuttujanvaihto z = (nh

2

)

1/2

(u − u), ˜

ja toinen yht¨ asuuruus toteutuu, koska normaalijakauman tiheysfunktio integroituu arvoon yksi. Tarkemmin

I

n

= 2π

nh

2

1/2

exp(−nh(˜ u)) × {1 + O(n

−1

)},

miss¨ a O(n

−1

) on termi, joka l¨ ahestyy nollaa samassa suhteessa termin n

−1

kanssa, kun n kasvaa. Laplacen approksimaatio integraalille I

n

on siis

I ˜

n

= 2π

nh

2

1/2

exp(−nh(˜ u)). (10)

Moniulotteisen integraalin tapauksessa

(14)

I

n

= Z

e

−nh(u)

du, (11)

u on q-vektori, h(u) on j¨ alleen sile¨ a konveksi funktio ja funktion h(u) minimi saavu- tetaan kohdassa u = u. T¨ ˜ all¨ oin u ˜ toteuttaa yht¨ al¨ on

∂h(˜ u)

∂u = 0.

ja

h

2

:= ∂

2

h(u)

∂u∂u

0

u=˜u

on positiivisesti definiitti.

Merkit¨ a¨ an u

0

= [u

1

, . . . , u

q

]. Kun u kuuluu arvon u ˜ ymp¨ arist¨ o¨ on, funktiolle h saadaan Taylorin sarjasta approksimaatio

h(u) .

= h( u) + ˜ 1

2! (u − u) ˜

0

h

2

(u − u). ˜

Kuten edell¨ a, moniulotteisen normaalijakauman tiheytt¨ a hy¨ odynt¨ aen saadaan inte- graalille (11) Laplacen approksimaatio

I ˜

n

= 2π

n

q/2

|h

2

|

−1/2

exp(−nh( u)), ˜ (12) miss¨ a |h

2

| on Hessian-matriisin h

2

determinantti.

4.3 Laplacen approksimaatio latenttien muuttujien mallin us- kottavuusfunktiolle

Esitet¨ a¨ an nyt Laplacen approksimaation sovellus latenttien muuttujien mallille (Hu- ber et al., 2004). Marginaalijakauman (5) voi kirjoittaa muodossa

f

θ

(y

i

) = Z

e

p·Q(θ,zi,yi)

dz

i

, (13)

miss¨ a

Q(θ, z

i

, y

i

) = 1 p

"

p

X

j=1

y

ij

a

j

ij

) + b

j

ij

) + c

j

(y

ij

)

− z

0i

z

i

2 − q

2 log(2π)

#

. (14)

Soveltamalla Laplacen approksimaatiota saamme f

θ

(y

i

) =

2π p

q/2

(det(−U( z ˆ

i

)))

−1/2

exp(pQ(θ, z ˆ

i

, y

i

))(1 + O(p

−1

)),

miss¨ a

(15)

U(ˆ z

i

) = ∂

2

Q(θ, z

i

, y

i

)

∂z

0i

∂z

i

zi=ˆzi

= − 1

p Γ(θ, z ˆ

i

), Γ(θ, z

i

) =

p

X

j=1

2

(−y

ij

a

j

ij

) − b

j

ij

))

∂z

0i

∂z

i

+ I

q

(15)

ja z ˆ

i

on Q-funktion maksimi latenttien muuttujien suhteen.

Laplacen approksimaatio logaritmiselle uskottavuusfunktiolle (6) on

˜ l(θ; y) =

n

X

i=1

− 1

2 log det (Γ(θ, z ˆ

i

)) +

p

X

j=1

y

ij

a

j

ij

) + b

j

ij

) + c

j

(y

ij

)

− z ˆ

0i

z ˆ

i

2

! . (16) Maksimoidaan logaritminen uskottavuusfunktio quasi-Newton -menetelm¨ all¨ a (Broy- den, 1967). T¨ at¨ a varten lasketut derivaatat muuttujien α, β, γ ja φ suhteen l¨ oytyv¨ at liitteest¨ a B. Asetetaan rajoite γ

12

= 0, jolloin γ m¨ a¨ ar¨ aytyy yksik¨ asitteisesti, lukuun- ottamatta rivien etumerkkej¨ a. Laskentaprosessi etenee seuraavasti:

1. Valitaan alkuarvot parametreille θ ja latenteille muuttujille z

i

. 2. Maksimoidaan uskottavuus (16) malliparametrien {α, β, γ} suhteen.

3. Maksimoidaan uskottavuus (16) dispersioparametrien φ suhteen.

4. Maksimoidaan Q-funktio latenttien muuttujien z

i

, i = 1, . . . , n, suhteen.

5. Toistetaan kohtia 2-4 kunnes uskottavuusfunktion (16) arvo ei en¨ a¨ a muutu.

Nelj¨ as kohta voidaan vaihtoehtoisesti toteuttaa ennustamalla latenttien muuttujien z

i

arvot MAP-menetelm¨ all¨ a (modal/maximum a posteriori), (Skrondal ja Rabe-Hesketh, 2004, luku 7). Mallin parametrien varianssit saadaan tarvittaessa numeerisesti laske- tun Hessian-matriisin k¨ a¨ anteismatriisista. Seuraavaksi lasketaan Laplacen approksi- maatiot uskottavuusfunktiolle, kun vastemuuttujat ovat Bernoulli-, Poisson- tai ne- gatiivibinomijakautuneita. Liitteess¨ a C on toteutettu n¨ aiden mallien implementointi ja estimointi R-kielell¨ a.

4.4 Bernoulli-jakautuneet vastemuuttujat

Vastemuuttujille oletetaan y

ij

|z

i

∼ Bernoulli(µ

ij

). Linkkifunktioksi g(·) valitaan logit- funktio, jolloin latentti muuttujamalli (2) on

logit(µ

ij

) = α

i

+ β

j

+ z

0i

γ

j

, i = 1, . . . , n, j = 1, . . . , p.

Nyt vastemuuttujan odotusarvolle p¨ atee

µ

ij

= exp(α

i

+ β

j

+ z

0i

γ

j

)

1 + exp(α

i

+ β

j

+ z

0i

γ

j

) .

(16)

Muuttujan y

ij

ehdollinen tiheysfunktio ehdolla z

i

on

f (y

ij

|z

i

; θ) = exp y

ij

i

+ β

j

+ z

0i

γ

j

) − log(1 + exp(α

i

+ β

j

+ z

0i

γ

j

)) . Bernoullijakautuneiden vasteiden tapauksessa funktio (14) on

Q(θ, z

i

, y

i

) = 1

p

"

p

X

j=1

y

ij

i

+ β

j

+ z

0i

γ

j

) − log 1 + exp(α

i

+ β

j

+ z

0i

γ

j

)

− z

0i

z

i

2 − q

2 log(2π)

# .

Lasketaan gammamatriisi:

Γ(θ, z

i

) =

p

X

j=1

2

(−y

ij

i

+ β

j

+ z

0i

γ

j

) + log 1 + e

αij+z0iγj

)

∂z

0i

∂z

i

+ I

q

=

p

X

j=1

∂z

0i

−y

ij

γ

j

+

1 + e

αij+z0iγj

−1

e

αij+z0iγj

γ

j

+ I

q

=

p

X

j=1

e

αij+z0iγj

1 + e

αij+z0iγj

γ

j

γ

0j

− e

αij+z0iγj

2

γ

j

γ

0j

1 + e

αij+z0iγj

2

+ I

q

=

p

X

j=1

e

αij+z0iγj

1 + e

αij+z0iγj

2

γ

j

γ

0j

+ I

q

Laplacen approksimaatio logaritmiselle uskottavuusfunktiolle on nyt

˜ l(θ; y) =

n

X

i=1

− 1

2 log det

p

X

j=1

exp(α

i

+ β

j

+ z ˆ

0i

γ

j

)

(1 + exp(α

i

+ β

j

+ z ˆ

0i

γ

j

))

2

γ

j

γ

0j

+ I

q

!

+

p

X

j=1

y

ij

i

+ β

j

+ z ˆ

0i

γ

j

) − log 1 + exp(α

i

+ β

j

+ z ˆ

0i

γ

j

)

− z ˆ

0i

z ˆ

i

2

! ,

miss¨ a z ˆ

i

on Q-funktion maksimi.

4.5 Poisson-jakautuneet vastemuuttujat

Lasketaan Laplacen approksimaatio uskottavuusfunktiolle, kun oletetaan vastemuut- tujille y

ij

|z

i

∼ Poisson(µ

ij

). Linkkifunktioksi g(·) valitaan logaritmifunktio, jolloin latentti muuttujamalli (2) saa muodon

log(µ

ij

) = α

i

+ β

j

+ z

0i

γ

j

, i = 1, . . . , n, j = 1, . . . , p. (17) Nyt

µ

ij

= exp(α

i

+ β

j

+ z

0i

γ

j

),

ja muuttujan y

ij

ehdollinen tiheysfunktio ehdolla z

i

on

(17)

f(y

ij

|z

i

) = exp(y

ij

i

+ β

j

+ z

0i

γ

j

) − exp(α

i

+ β

j

+ z

0i

γ

j

) − log(y

ij

!)). (18) Funktio (14) Poisson-jakautuneille vastemuuttujille on

Q(θ, z

i

, y

i

) = (19)

1 p

"

p

X

j=1

y

ij

i

+ β

j

+ z

0i

γ

j

) − exp(α

i

+ β

j

+ z

0i

γ

j

) − log(y

ij

!)

− z

0i

z

i

2 − q

2 log(2π)

# . Lasketaan gammamatriisi (15):

Γ(θ, z

i

) =

p

X

j=1

2

−y

ij

i

+ β

j

+ z

0i

γ

j

) + exp(α

i

+ β

j

+ z

0i

γ

j

)

∂z

0i

∂z

i

+ I

q

=

p

X

j=1

exp(α

i

+ β

j

+ z

0i

γ

j

j

γ

0j

+ I

q

.

Laplacen approksimaatio logaritmiselle uskottavuusfunktiolle on nyt

˜ l(θ; y) =

n

X

i=1

− 1

2 log det

p

X

j=1

exp(α

i

+ β

j

+ z ˆ

0i

γ

j

j

γ

0j

+ I

q

!

+

p

X

j=1

y

ij

i

+ β

j

+ z ˆ

0i

γ

j

) − exp(α

i

+ β

j

+ z ˆ

0i

γ

j

) − log(y

ij

!)

− z ˆ

0i

z ˆ

i

2

! , miss¨ a z ˆ

i

on funktion (19) maksimi.

4.6 Negatiivibinomijakautuneet vastemuuttujat

Vastemuuttujille oletetaan y

ij

|z

i

∼ NB(µ

ij

, φ

j

), jolloin E(y

ij

) = µ

ij

ja

V ar(y

ij

) = µ

ij

+ φ

j

µ

2ij

.

Linkkifunktioksi g(·) valitaan logaritmi-funktio, jolloin latentti muuttujamalli (2) on kuten Poisson-jakauman tilanteessa (17). Muuttujan y

ij

ehdollinen tiheysfunktio voi- daan kirjoittaa muodossa

f (y

ij

|z

i

) = exp y

ij

i

+ β

j

+ z

0i

γ

j

) −

y

ij

+ 1 φ

j

log 1 + φ

j

exp(α

i

+ β

j

+ z

0i

γ

j

) + y

ij

log φ

j

+ log Γ

y

ij

+ 1 φ

j

− log y

ij

! − log Γ 1

φ

j

!

.

(18)

Funktio (14) on negatiiviselle binomijakaumalle Q(θ, z

i

, y

i

) = 1

p

"

p

X

j=1

log f (y

ij

|z

i

) − z

0i

z

i

2 − q

2 log(2π)

# . Lasketaan gammamatriisi:

Γ(θ, z

i

)

=

p

X

j=1

2

−y

ij

i

+ β

j

+ z

0i

γ

j

) +

y

ij

+

φ1

j

log 1 + φ

j

e

αij+z0iγj

∂z

0i

∂z

i

+ I

q

=

p

X

j=1

y

ij

+ 1 φ

j

2

log 1 + φ

j

e

αij+z0iγj

∂ z

0i

∂ z

i

+ I

q

=

p

X

j=1

y

ij

+ 1 φ

j

∂z

0i

φ

j

e

αij+z0iγj

1 + φ

j

e

αij+z0iγj

γ

j

+ I

q

=

p

X

j=1

y

ij

+ 1 φ

j

φ

j

e

αij+z0iγj

(1 + φ

j

e

αij+z0iγj

− φ

j

e

αij+z0iγj

)

(1 + φ

j

e

αij+z0iγj

)

2

γ

j

γ

0j

+ I

q

=

p

X

j=1

y

ij

+ 1 φ

j

φ

j

e

αij+z0iγj

(1 + φ

j

e

αij+z0iγj

)

2

γ

j

γ

0j

+ I

q

.

Laplacen approksimaatio logaritmiselle uskottavuusfunktiolle on nyt

˜ l(θ; y) =

n

X

i=1

− 1

2 log det

p

X

j=1

y

ij

+ 1 φ

j

φ

j

exp(α

i

+ β

j

+ z ˆ

0i

γ

j

)

(1 + φ

j

exp(α

i

+ β

j

+ z ˆ

0i

γ

j

))

2

γ

j

γ

0j

+ I

q

!

+

p

X

j=1

y

ij

i

+ β

j

+ z ˆ

0i

γ

j

) −

y

ij

+ 1 φ

j

log 1 + φ

j

exp(α

i

+ β

j

+ z ˆ

0i

γ

j

)

+ y

ij

log φ

j

+ log Γ

y

ij

+ 1 φ

j

− log y

ij

! − log Γ 1

φ

j

− z ˆ

0i

z ˆ

i

2

! .

4.7 Dunn-Smyth residuaalit ja informaatiokriteerit

Mallinvalinnassa k¨ aytet¨ a¨ an informaatiokriteereit¨ a AIC ja BIC, jotka m¨ a¨ aritell¨ a¨ an AIC = 2 · #(parametrit) − 2 · ll

ja

BIC = log(n) · #(parametrit) − 2 · ll, miss¨ a ll tarkoittaa logaritmisen uskottavuusfunktion arvoa.

J¨ a¨ ann¨ ostarkasteluja varten m¨ a¨ aritell¨ a¨ an residuaalit. Kun vastemuuttujat eiv¨ at ole

(19)

normaalijakautuneita, Pearsonin residuaalit ovat usein ei-normaalisia ja niiden va- rianssit ovat erisuuria. Erityisesti ongelmia ilmenee diskreeteill¨ a vasteilla, kun yk- sitt¨ aisten arvojen m¨ a¨ ar¨ at ovat pieni¨ a. Esimerkkin¨ a ovat Poisson-jakautuneet vasteet pienell¨ a odotusarvolla. K¨ aytet¨ a¨ an siis Dunn-Smyth-residuaaleja riippumattomien vas- teiden regressiomalleille (Dunn ja Smyth, 1996). M¨ a¨ aritell¨ a¨ an havainnolle (i, j) Dunn- Smyth-j¨ a¨ ann¨ os

r

ij

= Φ

−1

(u

ij

F

ij

(y

ij

; ˆ µ

ij

, φ) + (1 ˆ − u

ij

)F

ij

(y

ij

; ˆ µ

ij

, φ)), ˆ (20)

miss¨ a Φ(·) on standardi normaalijakauman ja F

ij

(y; µ

ij

, φ) muuttujan y

ij

jakauman

kertym¨ afunktio ja F

ij

(y) on raja-arvo, kun l¨ ahestyt¨ a¨ an arvoa F

ij

(y) negatiiviselta

puolelta. Luku u

ij

on generoitu (0, 1)-tasajakaumasta. Dunn-Smyth-residuaalit ovat

normaalijakautuneita, kun mallin yhteensopivuus aineiston kanssa on hyv¨ a.

(20)

5 Sovelluksia

5.1 Muurahaiset

Tarkastellaan muurahaisaineistoa, joka sis¨ alt¨ a¨ a usealta paikalta mitattujen muura- haislajien lukum¨ a¨ ari¨ a. Aineisto on ker¨ atty eukalyptusmetsist¨ a Kaakkois-Australiasta (Stoklosa et al., 2014). Alkuper¨ aisess¨ a aineistossa havaintopaikkoja oli 30 ja muu- rahaislajeja 35, mutta aineistoa pienennettiin siten, ett¨ a todella suuria lukuja sek¨ a todella paljon nollia sis¨ alt¨ av¨ at paikat ja lajit rajattiin pois. K¨ aytett¨ av¨ a¨ an aineistoon j¨ ai n = 20 havaintopaikkaa ja p = 18 muurahaislajia. Kuvassa 3 on piirretty laatikko- kuviot jokaisen paikan muurahaisten lukum¨ a¨ arille. Aineistosta on kuvan perusteella vaikea havaita selkeit¨ a ryhmittymi¨ a, mutta paikkoja, joissa eri muurahaislajeja on havaittu p¨ a¨ aosin hyvin v¨ ah¨ an tai ei ollenkaan, n¨ aytt¨ aisi olevan paikat 1, 3, 11, 12 ja

0 50 100 150 200

paikka

muurahaisten lkm

497 857

280

267

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20

Kuva 3: Muurahaisaineisto. Havaintopaikat on numeroitu 1-20, ja jokaisen pai-

kan havannoista on piirretty laatikkokuvio. Lajihavainnot, jotka ovat suuruudeltaan

enemm¨ an kuin 200, on merkitty kuvaan mustalla kolmiolla ja havainnon arvolla niiden

vieress¨ a.

(21)

16. Runsaammin muurahaisia n¨ aytt¨ aisi olevan paikoissa 7, 8, 10 ja 15. Kuvasta ei kuitenkaan n¨ ahd¨ a, ovatko lajit, joita on paljon, samoja eri paikoissa.

Sovitetaan latentti muuttujamalli (2) aineistoon sek¨ a Poisson- ett¨ a negatiivibi- nomijakaumaoletuksella NMDS-menetelm¨ ast¨ a saadut arvot alkuarvoina. Mallinva- lintakriteerien tarkastelemiseksi sovitetaan molemmat n¨ aist¨ a malleista my¨ os ilman paikkaparametria α

i

. Merkit¨ a¨ an latenttia muuttujamallia Poisson-jakaumaoletuksella LVM-P ja negatiivibinomijakaumaoletuksella LVM-NB. Tutkitaan informaatiokritee- rien avulla, mik¨ a edell¨ a mainituista malleista sopii aineistoon parhaiten. Taulukos- ta 1 n¨ ahd¨ a¨ an, ett¨ a sek¨ a AIC- ett¨ a BIC-arvon perusteella paras malli on sellainen, jossa vasteet ovat negatiivibinomijakautuneita. Lis¨ aksi molemmilla jakaumilla malli on parempi, kun paikkaparametri on mukana. Kuvassa 4 on parhaan mallin ordinaa- tiokuva muurahaisaineistolle. Kuvasta n¨ ahd¨ a¨ an, ett¨ a esimerkiksi paikat 6, 8 − 10 ja 17 ovat l¨ ahell¨ a toisiaan, jolloin niiden voidaan tulkita olevan lajistoltaan kesken¨ a¨ an samankaltaisia. Lis¨ aksi on havaittavissa muutamia pienempi¨ a ryhmi¨ a. T¨ allaisia ovat esimerkiksi joukko {1, 3, 7, 20} ja sen l¨ ahell¨ a ryhm¨ at {16, 18, 19} ja {2, 11, 14} sek¨ a paikat 4 ja 5. Edell¨ a mainituista ryhmist¨ a selke¨ ammin erottuvat kuitenkin paikat 12 ja 13, jotka ovat l¨ ahell¨ a toisiaan, ja paikka 15, joka n¨ aytt¨ aisi olevan erill¨ a¨ an muista.

Taulukko 1: AIC- ja BIC-arvot eri jakaumaoletuksilla ja paikkaparametrilla tai ilman muurahaisaineistolle. Pienimm¨ at informaatiokriteerien arvot on tummennettu.

Menetelm¨ a Paikkaparametri AIC BIC

LVM-P kyll¨ a 4679 4753

ei 5194 5248

LVM-NB kyll¨ a 2015 2106

ei 2067 2139

−1.0 −0.5 0.0 0.5 1.0

−1.0−0.50.00.51.0

LV1

LV2

1

2 3 4

5

6 7

8 9

10 11

1312

14

15

16

17 18 19

20

Kuva 4: Muurahaisaineiston ordinaatiokuva negatiivibinomijakaumaoletuksella.

(22)

Tarkastellaan viel¨ a eri jakaumaoletuksilla muodostettujen mallien diagnostiikkaa.

Muodostetaan j¨ a¨ ann¨ oskuvat, joissa Dunn-Smyth-j¨ a¨ ann¨ okset on kuvattu lineaaristen ennusteiden suhteen, ja piirret¨ a¨ an residuaalien kvantiilikuviot (Kuva 5). Poisson- jakauman j¨ a¨ ann¨ oskuvasta voidaan n¨ ahd¨ a, ett¨ a ennusteiden kasvaessa my¨ os j¨ a¨ ann¨ okset kasvavat, mik¨ a viittaa ylihajontaan aineistossa. Kvantiilikuvasta puolestaan voidaan sanoa, ett¨ a j¨ a¨ ann¨ okset eivat ole normaalijakautuneita, koska ne eiv¨ at lainkaan osu suoralle niin kuin pit¨ aisi. Negatiivibinomijakautuneille vasteille sen sijaan j¨ a¨ ann¨ okset n¨ aytt¨ av¨ at melko tasaisesti sijoittuvan nollan ymp¨ arist¨ o¨ on riippumatta ennusteiden suuruudesta. My¨ os kvantiilikuviossa j¨ a¨ ann¨ okset ovat hyvin suoralla. N¨ am¨ a havainnot tukevat negatiivibinomijakaumaoletuksen paremmuutta, sill¨ a Dunn-Smyth-j¨ a¨ ann¨ okset ovat normaalijakautuneita, kun malli on hyv¨ a.

−4 −2 0 2 4 6

−5 0 5

LVM−P

Lineaariset ennusteet

Dunn−Smyth−jäännökset

−4 −2 0 2 4 6

−2 −1 0 1 2

LVM−NB

Lineaariset ennusteet

Dunn−Smyth−jäännökset

−3 −2 −1 0 1 2 3

−5 0 5

Teoreettiset kvantiilit

Dunn−Smyth−jäännökset

−3 −2 −1 0 1 2 3

−2 −1 0 1 2

Teoreettiset kvantiilit

Dunn−Smyth−jäännökset

Kuva 5: Muurahaisaineiston Dunn-Smyth-residuaalit ja n¨ aiden kvantiilikuva latentille

muuttujamallille Poisson-jakaumaoletuksella (vasen sarake) ja negatiivibinomijakau-

maoletuksella (oikea sarake).

(23)

5.2 H¨ am¨ ah¨ akit

Tarkastellaan h¨ am¨ ah¨ akkiaineistoa, joka on ker¨ atty Haagissa, Alankomaissa (van der Aart ja Smeenk-Enserink, 1974). Aineistossa on n = 28 mittauspaikalta otettu n¨ ayt- teet, joista on laskettu p = 12 eri lajin h¨ am¨ ah¨ akkej¨ a. Sovitetaan latentti muuttuja- malli h¨ am¨ ah¨ akkiaineistolle, ja tehd¨ a¨ an vastaavat tarkastelut kuin muurahaisaineis- tolle. Kuvassa 6 aineiston kunkin paikan havainnoille on piirretty laatikkokuvio, josta voidaan jo n¨ ahd¨ a eroja paikkojen v¨ alill¨ a. Esimerkiksi numeroita 1 − 7 sek¨ a 13 − 14 vastaavilla paikoilla h¨ am¨ ah¨ akkej¨ a on havaittu huomattavasti enemm¨ an kuin esimer- kiksi paikoilla 9 − 11 ja 15 − 21, kun paikat on numeroitu 1 − 28.

0 20 40 60 80 100 120

paikka

hämähäkkien lkm

135

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28

Kuva 6: H¨ am¨ ah¨ akkiaineisto. Havaintopaikat on numeroitu 1-28, ja jokaisen paikan

havainnoista on piirretty laatikkokuvio.

(24)

Kun sovitetaan latentti muuttujamalli h¨ am¨ ah¨ akeille, taulukosta 2 n¨ ahd¨ a¨ an, ett¨ a sek¨ a AIC- ett¨ a BIC-kriteerien perusteella negatiivinen binomijakauma on sopivampi jakaumaoletus kuin Poisson-jakauma, ja paikkaparametrin sis¨ alt¨ av¨ a malli on parempi.

Informaatiokriteerien ero ei kuitenkaan ole yht¨ a suuri kuin muurahaisaineistolla, joten tarkastellaan sek¨ a LVM-P- ett¨ a LVM-NB-mallien tuottamia ordinatiokuvia (Kuva 7).

Molempien mallien ordinaatiokuvat ovat melko samanlaiset. Poisson-mallilla oikean yl¨ akulman klusteri on hieman tiiviimpi kuin negatiivisen binomijakauman tapaukses- sa, ja paikkojen 9−12 muodostama ryhm¨ a erottuu selvemmin. Molemmissa paikka 25 erottuu muista ja paikkojen 15 − 21 sek¨ a 8 muodostama ryhm¨ a on selke¨ asti erill¨ a¨ an muista. Kuten jo kuvasta 6 havaittiin, paikat 1 − 7 ja 13 − 14, joissa havaittiin paljon h¨ am¨ ah¨ akkej¨ a, ovat l¨ ahell¨ a toisiaan my¨ os ordinaatiokuvissa.

Taulukko 2: H¨ am¨ ah¨ akkiaineiston AIC- ja BIC-arvot eri malleille.

Menetelm¨ a Paikkaparametri AIC BIC

LVM-P kyll¨ a 1691 1776

ei 1797 1845

LVM-NB kyll¨ a 1477 1578

ei 1522 1586

−1.5 −1.0 −0.5 0.0 0.5 1.0 1.5

−1.0 −0.5 0.0 0.5 1.0

LVM−P

LV1

LV2

2 1 4 3

5 6

7 8

9 1110 13 12

14 15 1617

19201821 2322 24

25

26

27 28

−1.0 −0.5 0.0 0.5 1.0

−1.0 −0.5 0.0 0.5 1.0

LVM−NB

LV1

LV2

1 2

3 54

6 7

8

9 1110 13 12

14 15

16 17

1918 20

21

22 23

24 25

26

27 28

Kuva 7: Vasemmalla latentin muuttujamallin Poisson-jakaumaoletuksella tuottama h¨ am¨ ah¨ akkiaineiston ordinaatiokuva, ja oikealla vastaava negatiivibinomijakaumaole- tuksella.

Tarkastelemalla j¨ a¨ ann¨ oskuvia ja kvantiilikuvia (Kuva 8) voidaan tehd¨ a sama p¨ a¨ a-

(25)

telm¨ a jakaumaoletusten paremmuudesta, kuin informaatikriteerien perusteella. Pois- son-jakaumaoletuksella j¨ a¨ ann¨ oskuvassa on selv¨ asti havaittavissa viuhkamainen kuvio, eli kun ennusteet ovat suurempia my¨ os j¨ a¨ ann¨ osten vaihtelu kasvaa. Kun havaintojen oletetaan olevan negatiivisesta binomijakaumasta, sek¨ a j¨ a¨ ann¨ os- ett¨ a kvantiilikuvio n¨ aytt¨ av¨ at huomattavasti paremmalta. Poisson-jakautunut malli sopii huonommin ai- neistoon, mutta sen tuottamassa ordinaatiokuvassa eri ryhm¨ at erottuvat selke¨ ammin kuin negatiivibinomijakautuneilla vasteilla. Poisson-jakaumaoletuksella syntyv¨ an or- dinaatiokuvan ryhm¨ at saattavat olla virheellisesti liian selkeit¨ a, koska mallissa hajon- ta on liian pient¨ a verrattuna todelliseen tilanteeseen.

−10 −5 0 5

−4 −2 0 2 4

LVM−P

Lineaariset ennusteet

Dunn−Smyth−jäännökset

−10 −5 0 5

−2 −1 0 1 2

LVM−NB

Lineaariset ennusteet

Dunn−Smyth−jäännökset

−3 −2 −1 0 1 2 3

−4 −2 0 2 4

Teoreettiset kvantiilit

Dunn−Smyth−jäännökset

−3 −2 −1 0 1 2 3

−2 −1 0 1 2

Teoreettiset kvantiilit

Dunn−Smyth−jäännökset

Kuva 8: Dunn-Smyth-j¨ a¨ ann¨ okset ja kvantiilikuvio h¨ am¨ ah¨ akkiaineistolle Poisson- (va-

sen sarake) ja negatiivibinomijakaumaoletuksella (oikea sarake).

(26)

Laajennetaan seuraavaksi latenttia muuttujamallia, ja lis¨ at¨ a¨ an malliin selitt¨ av¨ at muuttujat kuten kaavassa (3). Ordinaatiomenetelm¨ an¨ a k¨ ayt¨ on lis¨ aksi malli sovel- tuu nyt selitt¨ ajien lajikohtaisten vaikutusten tutkimiseen. K¨ aytet¨ a¨ an kahta selitt¨ av¨ a¨ a muuttujaa, jotka ovat numeerisia muuttujia havaintopaikkojen olosuhteista: muuttu- ja soil.dry kuvaa maaper¨ an kuivamassan m¨ a¨ ar¨ a¨ a ja reflection kuvaa maaper¨ an pinnan heijastusta taivaaseen. Sovitetaan malli (3) negatiivibinomijakaumaoletuksella ilman paikkaparametria, ja verrataan sit¨ a tavalliseen yleistettyyn lineaariseen malliin

g(µ

ij

) = β

j

+ x

0i

δ

j

, i = 1, . . . , n, j = 1, . . . , p. (21) Edellinen malli eroaa mallista (3) latenttien muuttujien osalta. Mallissa (21) oletetaan lajien olevan riippumattomia, kun taas latentti muuttujamalli huomioi mahdollisen korrelaation.

Edell¨ a esitetty yleistetty lineaarinen malli, (GLM), negatiivibinomijakaumaole- tuksella sovitetaan R-ohjelmiston mvabund-paketin manyglm-funktiolla. AIC- ja BIC- kriteerien perusteella latentti muuttujamalli on parempi kuin malli (21) (Taulukko 3).

Kuvasta 9 n¨ ahd¨ a¨ an, ett¨ a lajikohtaisten vakioden β

j

ja kertoimien δ

j

estimaatit tarkas- telluilla malleilla ovat l¨ ahes samoja muutamaa lajia lukuunottamatta. Parametrien keskihajonnoissa sen sijaan l¨ oytyy eroja. Latentin muuttujamallin parametrien luot- tamusv¨ alit ovat suurimmalla osalla lajeista selke¨ asti pienemm¨ at tai yht¨ a pienet kuin tavallisessa yleistetyss¨ a lineaarisessa mallissa. Ainoastaan lajien nelj¨ a ja viisi osal- la parametreista luottamusv¨ alit ovat selke¨ asti suuremmat latentilla muuttujamallilla.

N¨ aist¨ a kahdesta lajista my¨ os havaintoja oli hyvin v¨ ah¨ an, mik¨ a saattaa olla osasyyn¨ a eroille parametrien hajonnassa. Selitt¨ ajien lis¨ a¨ amisen johdosta latentteihin muuttu- jiin sis¨ altyv¨ a havaitsematon informaatio muuttuu, kun osa siit¨ a havaitaan nyt eri paikoilta mitatuissa selitt¨ aviss¨ a muuttujissa.

Taulukko 3: H¨ am¨ ah¨ akkiaineiston AIC- ja BIC-arvot selitt¨ aj¨ at sis¨ alt¨ av¨ alle latentille muuttujamallille ja tavalliselle yleistetylle lineaariselle mallille.

Menetelm¨ a AIC BIC

GLM-NB 1542 1606

LVM-NB 1427 1523

(27)

2 4 6 8 10 12

−30−20−100

laji

β

2 4 6 8 10 12

0510

laji δsoil.dry

2 4 6 8 10 12

−1012345

laji δreflection

GLM LVM

Kuva 9: Latentin muuttujamallin (ympyr¨ at) ja yleistetyn lineaarisen mallin (kolmiot) selitt¨ ajien kertoimet lajeittain, kun vasteet oletetaan negatiivibinomijakautuneiksi.

Janat ovat parametrien luottamusv¨ alit.

(28)

6 Simulointikokeita

Verrataan seuraavaksi latenttia muuttujamallia klassisiin ordinaatiomenetelmiin si- mulointikokeiden avulla. Simuloidaan havaintoja h¨ am¨ ah¨ akkiaineistoa vastaavasta la- tentista muuttujamallista Poisson- ja negatiivibinomijakaumaoletuksilla. Mallin para- metrit saatiin sovittamalla latentti muuttujamalli h¨ am¨ ah¨ akkiaineistoon kuten luvussa 5.2. Simulointeja tehtiin jokaiselle mallille 500 kertaa. Kullekin aineistolle sovelletaan klassisia menetelmi¨ a NMDS, PCoA ja DCA sek¨ a sovitetaan latentti muuttujamalli eri alkuarvoilla ordinaatiokuvan muodostamiseksi. Alkuarvoina latenteille muuttujille k¨ aytet¨ a¨ an yht¨ a klassisista menetelmist¨ a, sill¨ a ne antoivat hyvin samanlaisia tuloksia testatessa. Lis¨ aksi k¨ aytet¨ a¨ an satunnaisia alkuarvoja. Ne saadaan, kun ensin gene- roidaan kaksiulotteisesta standardista normaalijakaumasta n havaintoa, jotka ajatel- laan vastaavan koordinaatteja ordinaatiossa. T¨ am¨ a tehd¨ a¨ an kymmenen kertaa, ja ku- hunkin simulaatioon sovitetaan yleistetty lineaarinen regressiomalli jokaiselle lajille, selitt¨ ajin¨ a n¨ am¨ a koordinaatit. Ne koordinaatit, joilla saadaan mallille pienin AIC- arvo, valitaan latenttien muuttujien alkuarvoiksi. Kyseisen regressiomallin paramet- reista saadaan alkuarvot my¨ os parametreille. R-koodissa (Liite C) t¨ am¨ an toteuttaa start.values-niminen funktio.

Estimoidut ordinaatiokuvat rotatoidaan ja skaalataan todellista ordinaatiokuvaa vastaavaan asetelmaan R-ohjelmiston vegan-paketin procrustes-funktiolla. N¨ ain es- timoitua ordinaatiota verrataan todelliseen ordinaatioon Procrustes-virheen avulla, joka on

Procrustes Error =

n

X

i=1 q

X

r=1

(z

ir,f itted

− z

ir,true

)

2

. (22) T¨ ass¨ a z

ir,f itted

on sovitetun mallin Procrustes-rotatoidun ordinaation koordinaatti pai- kalla i latentille muuttujalle r ja z

ir,true

on vastaavan koordinaatin ja latentin muut- tujan todellinen arvo.

Ensimm¨ aisen¨ a simuloidaan latenttiin muuttujamalliin perustuvasta Poisson-jakau-

masta 500 aineistoa. Verrataan klassisia menetelmi¨ a MDS, PCoA ja DCA LVM-

P-malliin PCoA ja normaalijakauman alkuarvoilla. Kuvasta 10 havaitaan, ett¨ a la-

tentti muuttujamalli PCoA menetelm¨ an alkuarvoilla antaa parempia tuloksia kuin

mik¨ a¨ an klassinen menetelm¨ a. Kun alkuarvoina on normaalijakaumasta generoidut

luvut, vaihtelua on hyvin paljon. Enimm¨ akseen kyll¨ a saavutetaan yht¨ a hyvi¨ a tulok-

sia kuin PCoA-alkuarvoilla, mutta v¨ alill¨ a huonompia tuloksia kuin mik¨ a¨ an klassinen

menetelm¨ a tuottaa.

(29)

51015202530

LVM Poisson

51015202530510152025305101520253051015202530

DCA PCoA NMDS LVM−P: PCoA LVM−P: s.v.

Kuva 10: H¨ am¨ ah¨ akkiaineiston LVM-P-mallista simuloinnin tuottamien Procrustes- virheiden laatikkokuviot vertailtaville menetelmille. LVM-P: PCoA tarkoittaa LVM- P-menetelm¨ a¨ a PCoA-menetelm¨ an antamat ordinaatiopisteet alkuarvoina ja LVM-P:

s.v. vastaavaa normaalijakaumasta generoiduilla alkuarvoilla.

Vastaavasti simuloidaan negatiivisesta binomijakaumasta 500 kertaa sek¨ a h¨ am¨ a-

h¨ akki- ett¨ a muurahaisaineistoon perustuvista malleista ja verrataan samoja klassi-

sia menetelmi¨ a kuin edellisess¨ a simuloinnissa LVM-NB-malliin eri alkuarvoilla. Kun

tarkastellaan h¨ am¨ ah¨ akkiaineistoon perustuvaa simulointia, kuvasta 11 n¨ ahd¨ a¨ an, ett¨ a

klassisista ordinaatiomenetelmist¨ a DCA tuottaa jonkin verran huonompia tuloksia

kuin muut menetelm¨ at. Latentti muuttujamalli PCoA-alkuarvoilla n¨ aytt¨ aisi olevan

hieman parempi kuin PCoA- ja NMDS-menetelm¨ at. Latentti muuttujamalli normaa-

lijakaumasta generoiduilla alkuarvoilla tuottaa hyvin vaihtelevia tuloksia. Muurahais-

aineistoon perustuvassa simuloinnissa latentti muuttujamalli molemmilla alkuarvoil-

la on parhaiden menetelmien joukossa (Kuva 12). DCA- ja PCoA-menetelm¨ at ovat

selkeasti huonompia, mutta t¨ all¨ a kertaa NMDS-menetelm¨ a n¨ aytt¨ aisi toimivan yht¨ a

hyvin kuin latentti muuttujamalli.

Viittaukset