Latenttiin muuttujamalliin perustuva ordinaatiomenetelm¨ a
Jenni Niku
Tilastotieteen pro gradu
Jyv¨ askyl¨ an yliopisto
Matematiikan ja tilastotieteen laitos
25. tammikuuta 2015
JYV ¨ ASKYL ¨ AN YLIOPISTO
Matematiikan ja tilastotieteen laitos
Jenni Niku: Latenttiin muuttujamalliin perustuva ordinaatiomenetelm¨ a
Tilastotieteen pro gradu -tutkielma, 31 sivua + liitteit¨ a 21 sivua, 25. tammikuuta 2015
Tiivistelm¨ a
Ordinaatiomenetelmiss¨ a useita vastemuuttujia sis¨ alt¨ av¨ an aineiston informaatio py- rit¨ a¨ an tiivist¨ am¨ a¨ an muutamaan muuttujaan, joista muodostetaan ordinaatiokuva.
Klassiset ordinaatiomenetelm¨ at ottavat huomioon aineiston ominaisuudet vain et¨ ai- syysmitan ja aineiston muunnosten valinnassa, jolloin ne eiv¨ at tarjoa mahdollisuutta oletusten ja menetelm¨ an sopivuuden tarkasteluun. T¨ ass¨ a tutkielmassa tarkastellaan yleistetty¨ a lineaarista latenttien muuttujien mallia ordinaatiomenetelm¨ an¨ a. Mene- telm¨ assa vastemuuttujien informaatio tiivistet¨ a¨ an kahteen latenttiin muuttujaan, jois- ta ordinaatiokuva muodostetaan. Mallin parametrit estimoidaan suurimman uskot- tavuuden menetelm¨ all¨ a, ja uskottavuusfunktiolle johdetaan Laplacen approksimaatio yleisen eksponentiaalisen perheen jakauman tapauksessa.
Latenttia muuttujamallia sovelletaan kahteen ekologian aineistoon, ja havainnol- listetaan menetelm¨ an mahdollistamia informaatiokriteerien k¨ aytt¨ o¨ a mallinvalinnas- sa sek¨ a j¨ a¨ ann¨ ostarkasteluja oletusten tarkistamiseksi. Simulointikokeilla verrataan la- tenttia muuttujamallia klassisiin ordinaatiomenetelmiin. Tulosten perusteella voidaan todeta, ett¨ a riitt¨ av¨ an hyvilla alkuarvojen valinnalla latentti muuttujamalli toimii or- dinaatiomenetelm¨ an¨ a v¨ ahint¨ a¨ an yht¨ a hyvin tai paremmin kuin mik¨ a¨ an vertailtavista klassisista menetelmist¨ a, jotka toimivat vaihtelevalla menestyksell¨ a aineistosta riip- puen.
Avainsanat: Eksponentiaalinen jakaumaperhe, Laplacen approksimaatio, latentti
muuttuja, moniulotteinen skaalaus, korrespondenssianalyysi, p¨ a¨ akoordinaattianalyysi.
Sis¨ alt¨ o
1 Johdanto 1
2 Klassiset ordinaatiomenetelm¨ at 2
2.1 Moniulotteinen skaalaus . . . . 2
2.2 P¨ a¨ akoordinaattianalyysi . . . . 3
2.3 Korrespondenssianalyysi . . . . 3
2.4 Klassisten ordinaatiomenetelmien ongelmia . . . . 4
3 Latentti muuttujamalli 7 3.1 Dikotominen vaste . . . . 8
3.2 Lukum¨ a¨ ar¨ avaste . . . . 8
4 Implementointi 9 4.1 Latentin muuttujamallin uskottavuusfunktio . . . . 9
4.2 Laplacen approksimaatio . . . . 10
4.3 Laplacen approksimaatio latenttien muuttujien mallin uskottavuus- funktiolle . . . . 11
4.4 Bernoulli-jakautuneet vastemuuttujat . . . . 12
4.5 Poisson-jakautuneet vastemuuttujat . . . . 13
4.6 Negatiivibinomijakautuneet vastemuuttujat . . . . 14
4.7 Dunn-Smyth residuaalit ja informaatiokriteerit . . . . 15
5 Sovelluksia 17 5.1 Muurahaiset . . . . 17
5.2 H¨ am¨ ah¨ akit . . . . 20
6 Simulointikokeita 25 7 Pohdintaa 30 Viitteet 31 Liite A Derivaatat 32 A.1 Bernoulli-jakautuneille vastemuuttujille . . . . 32
A.2 Poisson-jakautuneille vastemuuttujille . . . . 33
A.3 Negatiivibinomijakautuneille vastemuuttujille . . . . 33
A.4 Derivaatat selitt¨ av¨ at muuttujat sis¨ alt¨ av¨ alle mallille . . . . 34
Liite B Et¨ aisyysmittoja 36
Liite C R-koodi 37
1 Johdanto
Ordinaatiomenetelm¨ at ovat yleisesti k¨ aytettyj¨ a ekologiassa, kun halutaan visualisoi- da moniulotteista aineistoa mataladimensioisessa muodossa. Usein halutaan kuvata lajiston samankaltaisuutta eri paikoissa. T¨ all¨ oin ordinaation tavoitteena on tiivist¨ a¨ a useita vastemuuttujia sis¨ alt¨ av¨ an aineiston informaatio vain kahteen muuttujaan, joi- den perusteella muodostetaan sirontakuvio. Sirontakuviossa toisiaan l¨ ahell¨ a olevat paikat tulkitaan olevan tutkittavan asian kannalta samankaltaisia. Ordinaatiomene- telm¨ a¨ a sanotaan rajoittamattomaksi, kun k¨ aytet¨ a¨ an vain vastemuuttujista koostuvaa aineistoa.
Perinteiset ordinaatiomenetelm¨ at, kuten moniulotteinen skaalaus (multidimensio- nal scaling, MDS), p¨ a¨ akoordinaattianalyysi (principal coordinate analysis, PCoA) ja oikaistu korrespondenssianalyysi (detrended correspondence analysis, DCA), ovat al- goritmipohjaisia tekniikoita. MDS-menetelm¨ ass¨ a ordinaatiokuvan pisteiden paikkoja p¨ aivitet¨ a¨ an iteratiivisesti, kunnes niiden parittaiset et¨ aisyydet vastaavat mahdolli- simman hyvin vastaavien paikkojen v¨ alisi¨ a et¨ aisyyksi¨ a. Et¨ aisyydell¨ a tarkoitetaan jo- takin aineiston mittauspaikkojen havainnoista laskettua erilaisuutta tai et¨ aisyytt¨ a kuvaavaa mittaa. PCoA-menetelm¨ ass¨ a sovelletaan singulaariarvohajotelmaa parittai- sia eroavaisuuksia kuvaavalle matriisille. Korrespondenssianalyysi¨ a voidaan ajatella kyseisen¨ a menetelm¨ an¨ a, jossa k¨ aytet¨ a¨ an χ
2-et¨ aisyysmittaa, ja DCA-menetelma taas on muunnelma t¨ ast¨ a. Luvussa 2 k¨ asitell¨ a¨ an klassisia menetelmi¨ a tarkemmin.
Perinteisiss¨ a ordinaatiomenetelmiss¨ a aineiston ominaisuudet, esimerkiksi keskiar- vo-varianssi -suhde, pyrit¨ a¨ an ottamaan huomioon et¨ aisyysmitan ja muunnosten va- linnassa. Menetelmien ongelmana on se, ett¨ a esimerkiksi j¨ a¨ ann¨ ostarkastelujen avulla ei voida tarkistaa valintojen sopivuutta tutkittavana olevalle aineistolle. Koska eri valinnat voivat tuottaa hyvin erilaisia tuloksia, saatetaan p¨ a¨ aty¨ a harhaanjohtaviin tuloksiin.
Malliperusteinen l¨ ahestymistapa korjaa perinteisten ordinaatiomentelmien ongel- mia mahdollistaen j¨ a¨ ann¨ osten analysoinnin oletusten tarkistamiseksi, ja antaa ty¨ okalu- ja sopivimman mallin valitsemiseen. Artikkelissa (Hui et al., 2014) on esitelty malli- pohjaisia l¨ ahestymistapoja ordinaatiomenetelm¨ alle. Yksi n¨ aist¨ a on malli, jossa vastei- den odotusarvoa selitet¨ a¨ an latenteilla muuttujilla. N¨ aiden muuttujien arvot jokaiselta mittauspaikalta voidaan ajatella olevan koordinaatit, jotka kuvaavat kunkin paikan sijaintia ordinaatiokuvassa.
Edell¨ a mainitussa artikkelissa latenttia muuttujamallia on estimoitu suurimman
uskottavuuden menetelm¨ all¨ a EM-algoritmin ja Monte Carlo -integroinnin avulla. Las-
kenta oli kuitenkin melko hidasta jo pienill¨ a aineistoilla. T¨ am¨ an ty¨ on tarkoituksena
on laskea Laplacen approksimaatio kyseisen mallin uskottavuusfunktiolle, kun vas-
temuuttujat noudattavat eksponentiaalisen jakaumaperheen jakaumaa, ja soveltaa
menetelm¨ a¨ a kahteen ekologian aineistoon. Lis¨ aksi mallia laajennetaan lis¨ a¨ am¨ all¨ a se-
litt¨ av¨ at muuttujat malliin. Lopuksi mallipohjaista menetelm¨ a¨ a verrataan klassisiin
ordinaatiomenetelmiin simulointikokeiden avulla.
2 Klassiset ordinaatiomenetelm¨ at
Oletetaan aineiston olevan n × p matriisi, jonka solun (i, j) havainto on y
ij. Aineis- to koostuu esimerkiksi n havaintopaikasta, joista jokaiselta on mitattu p muuttujaa.
Tavoitteena on tiivist¨ a¨ a aineiston informaatio paikkojen samankaltaisuudesta muuta- maan muuttujaan, joiden perusteella tehd¨ a¨ an p¨ a¨ atelm¨ at. Ennen laskentaa aineistolle voidaan tehd¨ a tarvittaessa my¨ os muunnoksia kuten standardointi. T¨ ass¨ a luvussa esi- tell¨ a¨ an muutamia yleisimpi¨ a klassisia ordinaatiomenetelmi¨ a perustuen kirjan Expe- rimental Design and Data Analysis for Biologists (Quinn ja Keough, 2002) lukuihin 15, 17, ja 18.
2.1 Moniulotteinen skaalaus
Moniulotteinen skaalaus, MDS, on k¨ aytetyin rajoittamaton ordinaatiomenetelm¨ a eko- logiassa. Muodostetaan paikkojen erilaisuutta kuvaava matriisi siten, ett¨ a lasketaan jokaisen kahden paikan v¨ alinen et¨ aisyys k¨ aytt¨ aen aineistoon soveltuvaa et¨ aisyysmittaa.
Merkit¨ a¨ an paikkojen h ja i v¨ alist¨ a et¨ aisyytt¨ a d
hi, jolloin et¨ aisyysmatriisi on [d
hi]
n×n. Yksi usein k¨ aytetty mitta on Bray-Curtis -et¨ aisyys:
d
hi=
p
P
k=1
|y
hk− y
ik|
p
P
k=1
(y
hk+ y
ik) .
Muita et¨ aisyysmittoja on esitelty liitteess¨ a B. Seuraavaksi valitaan akselien lukum¨ a¨ ar¨ a q. T¨ am¨ an j¨ alkeen paikkojen q-ulotteisen avaruuden koordinaateille asetetaan l¨ aht¨ oar- vot. Merkit¨ a¨ an paikkaa h vastaavia koordinaatteja x
h1, . . . , x
hqja siirret¨ a¨ an n¨ ait¨ a koordinaatteja siten, ett¨ a jokaisella askeleella koordinaattien v¨ alisten euklidisten et¨ ai- syyksien d ˜
hi= kx
h− x
ik ja aineistosta laskettujen et¨ aisyyksien d
hiyhteensopivuus paranee. Kun se ei en¨ a¨ a parane, parhaat sijainnit ordinaatiokuvassa on saavutettu.
Yhteensopivuutta voidaan mitata esimerkiksi Kruskalin stressiarvolla
S = v u u u u t
P
h,i
( ˜ d
hi− d
hi)
2P
h,i
( ˜ d
hi)
2,
joka saa arvon nolla, jos yhteensopivuus on t¨ aydellinen. Mit¨ a pienempi stressiarvo on, sit¨ a parempi on yhteensopivuus.
Ep¨ ametrisess¨ a moniulotteisessa skaalauksessa (NMDS) aineistosta laskettujen et¨ ai- syyksien d
ijsijaan k¨ aytet¨ a¨ an niiden j¨ arjestyslukuja. MDS-menetelm¨ a olettaa, ett¨ a et¨ aisyyksien d
ijja koordinaattien v¨ alisten et¨ aisyyksien d ˜
ijsuhde on lineaarinen, mut- ta n¨ ain ei aina v¨ altt¨ am¨ att¨ a ole. NMDS menetelm¨ ass¨ a oletetaan ainoastaan, ett¨ a edell¨ a mainittu suhde on monotoninen, eli
d ˜
hi= f (d
hi),
miss¨ a f : R
+→ R
+on tuntematon monotoninen funktio. Koska tiedet¨ a¨ an vain, ett¨ a d ˜
hi≤ d ˜
h0i0, kun d
hi< d
h0i0, lasketaan j¨ arjestysluvut molemmille et¨ aisyyksille. T¨ all¨ oin stressiarvo perustuu n¨ aihin j¨ arjestyslukuihin (Kruskal, 1964).
2.2 P¨ a¨ akoordinaattianalyysi
Esitell¨ a¨ an p¨ a¨ akoordinaattianalyysi, (PCoA), vaiheittain. Muodostetaan aluksi et¨ aisyys- matriisi [d
hi]
n×n. Kuten aineistollekin, my¨ os t¨ alle voidaan tarvittaessa tehd¨ a joitakin muunnoksia esimerkiksi negatiivisten ominaisarvojen v¨ altt¨ amiseksi. J¨ alleen et¨ aisyytt¨ a kuvaavan mitan voi vapaasti valita. Lis¨ aksi tehd¨ a¨ an kaksinkertainen keskistys
d
∗hi= d
hi− d
h.− d
.i+ d,
miss¨ a d
h.on rivin h, d
.isarakkeen i ja d koko matriisin keskiarvo. Merkit¨ a¨ an muunnos- ten j¨ alkeen saatua et¨ aisyysmatriisia D := [d
∗hi]
n×n. Matriisille D sovellamme singulaa- riarvohajotelmaa, joka on nyt symmetriselle matriisille my¨ os ominaisarvohajotelma
D = UΛU
−1, (1)
miss¨ a Λ on n × n diagonaalimatriisi, jonka diagonaalilla on matriisin D ominaisar- vot (λ
1, . . . , λ
n). Matriisin U sarake i, u
i, on ominaisarvoa λ
ivastaava ominaisvektori.
Suurin osa et¨ aisyysmatriisin D informaatiosta sis¨ altyy muutamaa suurinta ominaisar- voa vastaaviin ominaisvektoreihin. Ordinaatiokuva muodostetaan kahta suurinta omi- naisarvoa vastaavista vektoreista ominaisarvojen neli¨ ojuurilla skaalaamisen j¨ alkeen.
2.3 Korrespondenssianalyysi
Korrespondenssianalyysi, (CA), on samankaltainen kuin p¨ a¨ akoordinaattianalyysi. Aluk- si aineistolle tehd¨ a¨ an standardointi
˜
y
ij= y
ij− e
ij√ r
i√ c
j,
miss¨ a y
ijon muuttujan j havainto paikassa i, e
ijon kyseisen havainnon odotettu arvo, r
ion rivisumma ja c
jon sarakesumma. Et¨ aisyyten¨ a k¨ aytet¨ a¨ an χ
2-mittaa
d
hi= v u u t
p
X
k=1
(˜ y
hk/r
h− y ˜
ik/r
i)
2c
k.
Merkit¨ a¨ an et¨ aisyysmatriisia D := [d
hi]
n×n, ja t¨ alle sovellamme ominaisarvohajotelmaa (1) ominaisarvojen ja ominaisvektoreiden l¨ oyt¨ amiseksi. Ordinaatiokuva muodoste- taan ominaisvektoreista kuten PCoA-menetelm¨ ass¨ a. Oikaistu korrespondenssianalyy- si, (DCA), on nimens¨ a mukaisesti kehittyneempi versio korrespondenssianalyysist¨ a.
CA-menetelm¨ all¨ a syntyneess¨ a ordinaatiokuvassa on usein havaittavissa k¨ ayr¨ am¨ ainen
tai hevosenkenk¨ am¨ ainen muoto, joka ei johdu aineiston rakenteesta, vaan itse mene- telm¨ ast¨ a. DCA-menetelm¨ all¨ a pyrit¨ a¨ an korjaamaan t¨ at¨ a v¨ a¨ aristym¨ a¨ a. Siin¨ a ensimm¨ ai- nen akseli jaetaan osiin, joiden lukum¨ a¨ ar¨ an voi tutkija m¨ a¨ aritt¨ a¨ a, ja osiot skaala- taan siten, ett¨ a kaikkien osioiden toisen akselin vastaavien arvojen keskiarvot ovat yht¨ asuuret. T¨ at¨ a toistetaan muutellen samalla osien v¨ alisi¨ a rajoja jokaisella kierrok- sella. (Hill ja Gauch Jr, 1980).
2.4 Klassisten ordinaatiomenetelmien ongelmia
Klassisissa ordinaatiomenetelmiss¨ a ongelmia tuottavat et¨ aisyysmitan valinta ja ai- neistolle teht¨ av¨ at muunnokset, koska ei ole juurikaan olemassa diagnostisia keino- ja tarkistaa, mitk¨ a valinnat ovat sopivimpia k¨ asitelt¨ av¨ an¨ a olevalle aineistolle. N¨ ain ollen p¨ a¨ at¨ okset on usein tehty perustuen uskomuksiin kuten aiempaan empiiriseen n¨ aytt¨ o¨ on sen sijaan, ett¨ a ne perustuisivat itse aineistoon. Ep¨ asopivista valinnoista saattaa seurata esimerkiksi aineistoon sopimaton keskiarvo-varianssi -suhde. T¨ am¨ a taas voi aiheuttaa ordinaatiokuvan sijaintien trendin sekoittumisen hajonnan vaihte- luun ja sen seurauksena harhaanjohtavia tuloksia.
Sovelletaan klassisia ordinaatiomenetelmi¨ a muurahaisaineistoon (Stoklosa et al.,
2014), jota tarkastellaan my¨ ohemmin luvussa 5.1. Aineistossa on 18 muurahaislajin
lukum¨ a¨ ari¨ a 20 paikalta. Kuvassa 1 on sovellettu t¨ alle aineistolle NMDS-menetelm¨ a¨ a
eri et¨ aisyysmitan ja muunnosten valinnoilla. K¨ aytetyt et¨ aisyysmitat ja Wisconsin-
standardointi on m¨ a¨ aritelty liitteess¨ a B. Ordinaatiokuvia vertailemalla voidaan ha-
vaita selvi¨ a poikkeamia: Kuvissa C ja D ei erotu klustereita juurikaan, kun taas ku-
vassa B erottuu selkeimmin kolme isompaa ryhmittym¨ a¨ a. My¨ os ryhmien kokoonpanot
vaihtelevat suuresti. Esimerkiksi kuvien A ja B yl¨ areunan klusterit sis¨ alt¨ av¨ at osittain
toisistaan poikkeavia paikkoja. Kolmanneksi, yksitt¨ aisten paikkojen sijainti suhtees-
sa muihin vaihtelee huomattavasti. Esimerkiksi paikka 20 n¨ ahd¨ a¨ an kuvassa B olevan
selke¨ asti erill¨ a¨ an muista, kun taas kuvassa A se on l¨ ahell¨ a paikkoja 7 ja 18 ja kuvas-
sa D melko l¨ ahell¨ a paikkaa 12. Ongelmana menetelm¨ ass¨ a on se, ettei tunneta keinoa
tutkia, mik¨ a kuva vastaa tai on l¨ ahimp¨ an¨ a todellisuutta.
−0.5 0.0 0.5
−0.4−0.20.00.20.4
A
dimensio 1
dimensio 2
2 1
3
4 5
6
7
9 8
10 11
12
13 14
15 16 17
18 19
20
−1.0 −0.5 0.0 0.5
−0.50.00.5
B
dimensio 1
dimensio 2
1
2 3
4 5
6 7
8
910
11 12
13
14 15
16
17 18 19
20
−1.0 −0.5 0.0 0.5
−0.50.00.5
C
dimensio 1
dimensio 2
1
2 3
4 5
6 7
8
9
10 11
12 13
14 15
16
17 18 19
20
−0.4 −0.2 0.0 0.2 0.4 0.6
−0.4−0.20.00.20.40.6
D
dimensio 1
dimensio 2
1
2 3
4 5
6 7
8 9
10
11 13 12
14 15
16
17 18
19
20
Kuva 1: NMDS menetelm¨ an tuottamia ordinaatiokuvia muurahaisaineistolle seu- raavilla et¨ aisyysmitoilla ja aineiston muunnoksilla: A. Bray-Curtis-et¨ aisyys alku- per¨ aiselle aineistolle, B. Bray-Curtis-et¨ aisyys Wisconsin-standardoidulle aineistolle, C. Canberra-et¨ aisyys Wisconsin-standardoidulle aineistolle, D. Euklidinen et¨ aisyys logaritmiselle aineistolle.
PCoA- ja DCA-menetelmiss¨ a valintatilanteita ei ole yht¨ a monta kuin moniulot-
teisen skaalauksen tapauksessa, mutta menetelm¨ at tuottavat j¨ alleen kaksi hyvin eri-
laista ordinaatiokuvaa (Kuva 2). Nytk¨ a¨ an ei voi mitenk¨ a¨ an testata, kuinka hyvin tai
huonosti menetelm¨ at toimivat kyseess¨ a olevalla aineistolla.
−0.4 −0.2 0.0 0.2 0.4
−0.4 −0.2 0.0 0.2 0.4 0.6
PCoA
dimensio 1
dimensio 2
1 2
3 4 5
6
7
9 8
10
11 12
13 14
15
16 17
18 19
20
−0.5 0.0 0.5 1.0
−0.6 −0.2 0.2 0.4 0.6 0.8
DCA
dimensio 1
dimensio 2
1
2 3
4
5
6 7
8
9 10
11 12
13 14
15
16
17
18 19
20
Kuva 2: Vasemmalla PCoA menetelm¨ an tuottama ordinaatiokuva muurahaisaineis-
tolle, ja oikealla vastaava DCA-menetelm¨ all¨ a.
3 Latentti muuttujamalli
M¨ a¨ aritell¨ a¨ an latentti muuttujamalli ordinaatiomenetelm¨ alle kuten Hui et al. (2014) artikkelissaan sen esittelev¨ at. Mallinnetaan vastemuuttujia y
ij, i = 1, . . . , n, j = 1, . . . , p, yleistetyll¨ a lineaarisella latenttien muuttujien mallilla. Vaste voi olla esimer- kiksi tietyn lajin j lukum¨ a¨ ar¨ ahavainto mittauspaikalla i tai indikaattori, havaittiinko lajia kyseisell¨ a paikalla. Vastemuuttujat ehdolla latentit muuttujat oletetaan noudat- tavan eksponentiaalisen perheen jakaumaa odotusarvolla E(y
ij) = µ
ij. Odotusarvoa muuttujalle j paikassa i selitet¨ a¨ an q:lla latentilla muuttujalla
g
j(µ
ij) = α
i+ β
j+ z
0iγ
j, i = 1, . . . , n, j = 1, . . . , p, (2) miss¨ a γ
0j= [γ
j1, . . . , γ
jq], z
ion q-dimensioinen latenttien muuttujien arvojen vekto- ri paikassa i ja g
j(·) on linkkifunktio. Oletetaan, ett¨ a z
i∼ N
q(0, I) ja muuttujat z
1, . . . , z
novat riippumattomia. Mallissa α
ikuvaa paikkakohtaista tasoa paikalla i ja β
jmuuttujakohtaista tasoa muuttujalle j . Kerroin γ
jkuvaa lajin j yhteytt¨ a latent- teihin muuttujiin z
i. Ordinaatiomenetelmill¨ a k¨ ayt¨ amme kahta latenttia muuttujaa (q = 2), jotka toisiaan vasten kuvattuna tuottavat halutun ordinaatiokuvan. T¨ all¨ oin latenttien muuttujien arvot z
0i= (z
i1, z
i2) vastaavat paikan i koordinaatteja ordinaa- tiokuvassa. Voidaan olla kiinnostuneita my¨ os siit¨ a, mitk¨ a lajit ovat paikkojen suhteen samankaltaisia. T¨ all¨ oin piirret¨ a¨ an lajeille ordinaatiokuva, jossa lajin j koordinaatteja vastaa arvot γ
j. T¨ at¨ a tapausta ei kuitenkaan nyt k¨ asitella tarkemmin.
Sammel et al. (1997) esittiv¨ at artikkelissaan latentin muuttujamallin diskreeteille ja jatkuville vasteille. Ehdotettu malli mahdollisti my¨ os taustamuuttujien mukanao- lon. Jos aineistossa on taustamuuttujia k¨ aytett¨ aviss¨ a, ne voidaan my¨ os t¨ ass¨ a lis¨ at¨ a latenttiin muuttujamalliin (2), joka saa silloin muodon
g(µ
ij) = α
i+ β
j+ z
0iγ
j+ x
0iδ
j, i = 1, . . . , n, j = 1, . . . , p, (3) miss¨ a δ
j= [δ
j1, . . . , δ
jm]
0ja x
i= [x
i1, . . . , x
im]
0on paikan i taustamuuttujien arvot.
Kertoimet δ
jkuvaavat taustamuuttujien vaikutusta lajin j odotusarvoon.
Vasteen ehdollinen jakauma voidaan kirjoittaa yleisess¨ a eksponentiaalisen perheen jakauman muodossa
f
j(y
ij|z
i) = exp n
y
ija
j(µ
ij) + b
j(µ
ij) + c
j(y
ij) o
, (4)
miss¨ a funktiot a
j(·), b
j(·) ja c
j(·) riippuvat valitusta jakaumasta (Dobson, 2002) ja µ
ij= g
j−1(α
i+ β
j+ z
0iγ
j).
Mallipohjaisella l¨ ahestymistavalla on merkitt¨ avi¨ a etuja verrattuna klassisiin or-
dinaatiomenetelmiin. Sovittamalla latentti muuttujamalli aineistoon voidaan tutkia
mallin sopivuutta aineistoon sek¨ a keskiarvo-varianssi -suhteen oikeellisuutta j¨ a¨ ann¨ osa-
nalyysin avulla. Mallin oletusten voimassaoloa voidaan tutkia esimerkiksi kuvaamal-
la j¨ a¨ ann¨ okset ja ennusteet toisiaan vasten. J¨ a¨ ann¨ ostarkastelujen perusteella voidaan
selvitt¨ a¨ a, onko aineistossa ylihajontaa, linkkifunktion sopivuutta sek¨ a mahdollisten
poikkeavien havaintojen olemassaoloa. J¨ a¨ ann¨ ostarkastelujen lis¨ aksi latentti muuttu-
jamalli antaa ty¨ okaluja mallinvalintaan sek¨ a hypoteesien testaukseen (ks. luku 4.7).
3.1 Dikotominen vaste
Oletetaan dikotominen vaste y
ij∈ {0, 1}, jolle y
ij∼ Bernoulli(µ
ij), miss¨ a µ
ij= P (y
ij= 1) = E(y
ij).
Linkkifunktiona g
j(·) k¨ aytet¨ a¨ an logit-funktiota. Eksponentiaalisen perheen esitys (4) Bernoullin jakaumalle parametrilla µ
ijsaadaan, kun asetetaan
a
j(µ
ij) = log
µ
ij1 − µ
ij, b
j(µ
ij) = log(1 − µ
ij), c
j(y
ij) = 0.
3.2 Lukum¨ a¨ ar¨ avaste
Lukum¨ a¨ ar¨ avasteet oletetaan usein Poisson-jakautuneiksi, y
ij∼ Poisson(µ
ij), ja link- kifunktioksi valitaan logaritmifunktio. Poisson-jakauma saadaan kaavasta (4), kun tehd¨ a¨ an valinnat
a
j(µ
ij) = log µ
ij, b
j(µ
ij) = −µ
ij, c
j(y
ij) = − log(y
ij!).
Poisson-jakautuneen vastemuuttujan varianssille p¨ atee V ar(y
ij) = µ
ij, mutta eko- logian aineistojen tapauksessa t¨ am¨ a on usein ep¨ arealistinen oletus. Jos aineiston ha- jonta on suurta suhteessa odotusarvoon, voidaan k¨ aytt¨ a¨ a negatiivista binomijakau- maa, jonka varianssi on V ar(y
ij) = µ
ij+φ
jµ
2ij, miss¨ a µ
ijon vastemuuttujan odotusar- vo ja φ
jon lajikohtainen dispersioparametri. Negatiivinen binomijakauma ei sellaise- naan ole eksponentiaalisen perheen jakauma, mutta jos ajatellaan dispersioparametri φ
jkiinte¨ an¨ a, sille saadaan eksponentiaalisen perheen esitys valitsemalla
a
j(µ
ij) = log
µ
ij1/φ
j+ µ
ij, b
j(µ
ij) = − 1
φ
jlog(1 + φ
jµ
ij), c
j(y
ij) = log
Γ(y
ij+ 1/φ
j) y
ij! Γ(1/φ
j)
.
4 Implementointi
4.1 Latentin muuttujamallin uskottavuusfunktio
T¨ ass¨ a ty¨ oss¨ a tarkastellaan mallin (2) parametrien θ = {α, β, γ, φ} estimointia suu- rimman uskottavuuden menetelm¨ all¨ a. Jos k¨ aytet¨ a¨ an mallia (3), θ = {α, β, γ, δ , φ}, prosessi etenee vastaavasti. Oletetaan, ett¨ a muuttujat y
ijovat ehdollisesti riippumat- tomia ehdolla latentit muuttujat, jolloin niiden yhteisjakauma on
p
Y
j=1
f
j(y
ij|z
i; θ)
miss¨ a f
j(y
ij|z
i; θ) on muuttujan y
ijehdollinen tiheysfunktio eksponentiaalisesta ja- kaumaperheest¨ a. Koska latenttien muuttujien oletettiin olevan standardinormaalija- kautuneita ja riippumattomia, niiden yhteisjakauman tiheysfunktio h(z
i) on moniu- lotteinen normaalijakauma odotusarvolla µ = 0 ja kovarianssimatriisilla Σ = I
q, eli
h(z
i) = 1 (2π)
q2exp
− 1 2 z
0iz
i.
Vastemuuttujien y
ija latenttien muuttujien z
iyhteisjakauma on siis f (y
i, z
i) =
p
Y
j=1
f
j(y
ij|z
i; θ)h(z
i).
Latenttien muuttujien arvoja z
iei havaita, mutta niiden jakauma tunnetaan. Vaste- muuttujien marginaalijakauma saadaan integroimalla latenttien muuttujien yli, ts.
f
θ(y
i) =
Z "
pY
j=1
f
j(y
ij|z
i; θ)
#
h(z
i) dz
i, (5)
miss¨ a y
i= [y
i1, . . . , y
ip]
0, θ = {α, β, γ, φ}, α = [α
1, . . . , α
n]
0, β = [β
i, . . . , β
p]
0, γ = [γ
1, . . . , γ
p] ja φ = [φ
1, . . . , φ
p]
0.
Sek¨ a paikkojen havainnot y
1, . . . , y
nett¨ a latentit muuttujat z
1, . . . , z
novat riip- pumattomia, joten uskottavuusfunktio on marginaalijakaumien (5) tulo. Logaritmi- nen uskottavuusfunktio saa t¨ all¨ oin muodon
l(θ; y) = (6)
n
X
i=1
log Z "
pY
j=1
exp n
y
ija
j(µ
ij) + b
j(µ
ij) + c
j(y
ij) o
# 1 (2π)
q2exp
− 1 2 z
0iz
idz
i.
Tavoitteena on siis maksimoida logaritminen uskottavuusfunktio (6) parametrien θ
suhteen. T¨ am¨ an ratkaiseminen analyyttisesti on mahdotonta, joten k¨ aytet¨ a¨ an apuna
Laplacen approksimaatiota integraalille (5).
4.2 Laplacen approksimaatio
Esitell¨ a¨ an Laplacen approksimaation teoriaa yksi- ja moniulotteisissa tilanteissa mu- kaellen kirjaa Statistical Models (Davison, 2003). Tarkastellaan ensin yksiulotteista integraalia
I
n= Z
e
−nh(u)du, (7)
miss¨ a h(u) on sile¨ a konveksi funktio, jolla on minimi pisteess¨ a u = ˜ u. T¨ all¨ oin sen derivaatoille p¨ atee dh(˜ u)/du = 0 ja d
2h(˜ u)/du
2> 0. Merkit¨ a¨ an h
k= d
kh(˜ u)/du
k, k = 2, . . . . Taylorin sarja funktiolle h m¨ a¨ aritell¨ a¨ an
T (u) = h(˜ u) +
∞
X
k=1
h
kk! (u − u) ˜
k. (8)
Kun u on l¨ ahell¨ a minimipistett¨ a u, Taylorin sarja antaa approksimaation ˜ h(u) .
= h(˜ u) + 1
2 h
2(u − u) ˜
2. (9)
Sijoitetaan t¨ am¨ a integraaliin (7), jolloin saadaan sille approksimaatio
I
n.
= exp(−nh(˜ u))
∞
Z
−∞
exp(−nh
2(u − u) ˜
2/2) du
= exp(−nh(˜ u))
∞
Z
−∞
exp(−z
2/2)
du dz
dz
= 2π
nh
2 1/2exp(−nh(˜ u)).
Ensimm¨ aisen yht¨ asuuruuden kohdalla tehd¨ a¨ an muuttujanvaihto z = (nh
2)
1/2(u − u), ˜
ja toinen yht¨ asuuruus toteutuu, koska normaalijakauman tiheysfunktio integroituu arvoon yksi. Tarkemmin
I
n= 2π
nh
2 1/2exp(−nh(˜ u)) × {1 + O(n
−1)},
miss¨ a O(n
−1) on termi, joka l¨ ahestyy nollaa samassa suhteessa termin n
−1kanssa, kun n kasvaa. Laplacen approksimaatio integraalille I
non siis
I ˜
n= 2π
nh
2 1/2exp(−nh(˜ u)). (10)
Moniulotteisen integraalin tapauksessa
I
n= Z
e
−nh(u)du, (11)
u on q-vektori, h(u) on j¨ alleen sile¨ a konveksi funktio ja funktion h(u) minimi saavu- tetaan kohdassa u = u. T¨ ˜ all¨ oin u ˜ toteuttaa yht¨ al¨ on
∂h(˜ u)
∂u = 0.
ja
h
2:= ∂
2h(u)
∂u∂u
0u=˜u
on positiivisesti definiitti.
Merkit¨ a¨ an u
0= [u
1, . . . , u
q]. Kun u kuuluu arvon u ˜ ymp¨ arist¨ o¨ on, funktiolle h saadaan Taylorin sarjasta approksimaatio
h(u) .
= h( u) + ˜ 1
2! (u − u) ˜
0h
2(u − u). ˜
Kuten edell¨ a, moniulotteisen normaalijakauman tiheytt¨ a hy¨ odynt¨ aen saadaan inte- graalille (11) Laplacen approksimaatio
I ˜
n= 2π
n
q/2|h
2|
−1/2exp(−nh( u)), ˜ (12) miss¨ a |h
2| on Hessian-matriisin h
2determinantti.
4.3 Laplacen approksimaatio latenttien muuttujien mallin us- kottavuusfunktiolle
Esitet¨ a¨ an nyt Laplacen approksimaation sovellus latenttien muuttujien mallille (Hu- ber et al., 2004). Marginaalijakauman (5) voi kirjoittaa muodossa
f
θ(y
i) = Z
e
p·Q(θ,zi,yi)dz
i, (13)
miss¨ a
Q(θ, z
i, y
i) = 1 p
"
pX
j=1
y
ija
j(µ
ij) + b
j(µ
ij) + c
j(y
ij)
− z
0iz
i2 − q
2 log(2π)
#
. (14)
Soveltamalla Laplacen approksimaatiota saamme f
θ(y
i) =
2π p
q/2(det(−U( z ˆ
i)))
−1/2exp(pQ(θ, z ˆ
i, y
i))(1 + O(p
−1)),
miss¨ a
U(ˆ z
i) = ∂
2Q(θ, z
i, y
i)
∂z
0i∂z
izi=ˆzi
= − 1
p Γ(θ, z ˆ
i), Γ(θ, z
i) =
p
X
j=1
∂
2(−y
ija
j(µ
ij) − b
j(µ
ij))
∂z
0i∂z
i+ I
q(15)
ja z ˆ
ion Q-funktion maksimi latenttien muuttujien suhteen.
Laplacen approksimaatio logaritmiselle uskottavuusfunktiolle (6) on
˜ l(θ; y) =
n
X
i=1
− 1
2 log det (Γ(θ, z ˆ
i)) +
p
X
j=1
y
ija
j(µ
ij) + b
j(µ
ij) + c
j(y
ij)
− z ˆ
0iz ˆ
i2
! . (16) Maksimoidaan logaritminen uskottavuusfunktio quasi-Newton -menetelm¨ all¨ a (Broy- den, 1967). T¨ at¨ a varten lasketut derivaatat muuttujien α, β, γ ja φ suhteen l¨ oytyv¨ at liitteest¨ a B. Asetetaan rajoite γ
12= 0, jolloin γ m¨ a¨ ar¨ aytyy yksik¨ asitteisesti, lukuun- ottamatta rivien etumerkkej¨ a. Laskentaprosessi etenee seuraavasti:
1. Valitaan alkuarvot parametreille θ ja latenteille muuttujille z
i. 2. Maksimoidaan uskottavuus (16) malliparametrien {α, β, γ} suhteen.
3. Maksimoidaan uskottavuus (16) dispersioparametrien φ suhteen.
4. Maksimoidaan Q-funktio latenttien muuttujien z
i, i = 1, . . . , n, suhteen.
5. Toistetaan kohtia 2-4 kunnes uskottavuusfunktion (16) arvo ei en¨ a¨ a muutu.
Nelj¨ as kohta voidaan vaihtoehtoisesti toteuttaa ennustamalla latenttien muuttujien z
iarvot MAP-menetelm¨ all¨ a (modal/maximum a posteriori), (Skrondal ja Rabe-Hesketh, 2004, luku 7). Mallin parametrien varianssit saadaan tarvittaessa numeerisesti laske- tun Hessian-matriisin k¨ a¨ anteismatriisista. Seuraavaksi lasketaan Laplacen approksi- maatiot uskottavuusfunktiolle, kun vastemuuttujat ovat Bernoulli-, Poisson- tai ne- gatiivibinomijakautuneita. Liitteess¨ a C on toteutettu n¨ aiden mallien implementointi ja estimointi R-kielell¨ a.
4.4 Bernoulli-jakautuneet vastemuuttujat
Vastemuuttujille oletetaan y
ij|z
i∼ Bernoulli(µ
ij). Linkkifunktioksi g(·) valitaan logit- funktio, jolloin latentti muuttujamalli (2) on
logit(µ
ij) = α
i+ β
j+ z
0iγ
j, i = 1, . . . , n, j = 1, . . . , p.
Nyt vastemuuttujan odotusarvolle p¨ atee
µ
ij= exp(α
i+ β
j+ z
0iγ
j)
1 + exp(α
i+ β
j+ z
0iγ
j) .
Muuttujan y
ijehdollinen tiheysfunktio ehdolla z
ion
f (y
ij|z
i; θ) = exp y
ij(α
i+ β
j+ z
0iγ
j) − log(1 + exp(α
i+ β
j+ z
0iγ
j)) . Bernoullijakautuneiden vasteiden tapauksessa funktio (14) on
Q(θ, z
i, y
i) = 1
p
"
pX
j=1
y
ij(α
i+ β
j+ z
0iγ
j) − log 1 + exp(α
i+ β
j+ z
0iγ
j)
− z
0iz
i2 − q
2 log(2π)
# .
Lasketaan gammamatriisi:
Γ(θ, z
i) =
p
X
j=1
∂
2(−y
ij(α
i+ β
j+ z
0iγ
j) + log 1 + e
αi+βj+z0iγj)
∂z
0i∂z
i+ I
q=
p
X
j=1
∂
∂z
0i−y
ijγ
j+
1 + e
αi+βj+z0iγj −1e
αi+βj+z0iγjγ
j+ I
q=
p
X
j=1
e
αi+βj+z0iγj1 + e
αi+βj+z0iγjγ
jγ
0j− e
αi+βj+z0iγj2γ
jγ
0j1 + e
αi+βj+z0iγj2+ I
q=
p
X
j=1
e
αi+βj+z0iγj1 + e
αi+βj+z0iγj2γ
jγ
0j+ I
qLaplacen approksimaatio logaritmiselle uskottavuusfunktiolle on nyt
˜ l(θ; y) =
n
X
i=1
− 1
2 log det
p
X
j=1
exp(α
i+ β
j+ z ˆ
0iγ
j)
(1 + exp(α
i+ β
j+ z ˆ
0iγ
j))
2γ
jγ
0j+ I
q!
+
p
X
j=1
y
ij(α
i+ β
j+ z ˆ
0iγ
j) − log 1 + exp(α
i+ β
j+ z ˆ
0iγ
j)
− z ˆ
0iz ˆ
i2
! ,
miss¨ a z ˆ
ion Q-funktion maksimi.
4.5 Poisson-jakautuneet vastemuuttujat
Lasketaan Laplacen approksimaatio uskottavuusfunktiolle, kun oletetaan vastemuut- tujille y
ij|z
i∼ Poisson(µ
ij). Linkkifunktioksi g(·) valitaan logaritmifunktio, jolloin latentti muuttujamalli (2) saa muodon
log(µ
ij) = α
i+ β
j+ z
0iγ
j, i = 1, . . . , n, j = 1, . . . , p. (17) Nyt
µ
ij= exp(α
i+ β
j+ z
0iγ
j),
ja muuttujan y
ijehdollinen tiheysfunktio ehdolla z
ion
f(y
ij|z
i) = exp(y
ij(α
i+ β
j+ z
0iγ
j) − exp(α
i+ β
j+ z
0iγ
j) − log(y
ij!)). (18) Funktio (14) Poisson-jakautuneille vastemuuttujille on
Q(θ, z
i, y
i) = (19)
1 p
"
pX
j=1
y
ij(α
i+ β
j+ z
0iγ
j) − exp(α
i+ β
j+ z
0iγ
j) − log(y
ij!)
− z
0iz
i2 − q
2 log(2π)
# . Lasketaan gammamatriisi (15):
Γ(θ, z
i) =
p
X
j=1
∂
2−y
ij(α
i+ β
j+ z
0iγ
j) + exp(α
i+ β
j+ z
0iγ
j)
∂z
0i∂z
i+ I
q=
p
X
j=1
exp(α
i+ β
j+ z
0iγ
j)γ
jγ
0j+ I
q.
Laplacen approksimaatio logaritmiselle uskottavuusfunktiolle on nyt
˜ l(θ; y) =
n
X
i=1
− 1
2 log det
p
X
j=1
exp(α
i+ β
j+ z ˆ
0iγ
j)γ
jγ
0j+ I
q!
+
p
X
j=1
y
ij(α
i+ β
j+ z ˆ
0iγ
j) − exp(α
i+ β
j+ z ˆ
0iγ
j) − log(y
ij!)
− z ˆ
0iz ˆ
i2
! , miss¨ a z ˆ
ion funktion (19) maksimi.
4.6 Negatiivibinomijakautuneet vastemuuttujat
Vastemuuttujille oletetaan y
ij|z
i∼ NB(µ
ij, φ
j), jolloin E(y
ij) = µ
ijja
V ar(y
ij) = µ
ij+ φ
jµ
2ij.
Linkkifunktioksi g(·) valitaan logaritmi-funktio, jolloin latentti muuttujamalli (2) on kuten Poisson-jakauman tilanteessa (17). Muuttujan y
ijehdollinen tiheysfunktio voi- daan kirjoittaa muodossa
f (y
ij|z
i) = exp y
ij(α
i+ β
j+ z
0iγ
j) −
y
ij+ 1 φ
jlog 1 + φ
jexp(α
i+ β
j+ z
0iγ
j) + y
ijlog φ
j+ log Γ
y
ij+ 1 φ
j− log y
ij! − log Γ 1
φ
j!
.
Funktio (14) on negatiiviselle binomijakaumalle Q(θ, z
i, y
i) = 1
p
"
pX
j=1
log f (y
ij|z
i) − z
0iz
i2 − q
2 log(2π)
# . Lasketaan gammamatriisi:
Γ(θ, z
i)
=
p
X
j=1
∂
2−y
ij(α
i+ β
j+ z
0iγ
j) +
y
ij+
φ1j
log 1 + φ
je
αi+βj+z0iγj∂z
0i∂z
i+ I
q=
p
X
j=1
y
ij+ 1 φ
j∂
2log 1 + φ
je
αi+βj+z0iγj∂ z
0i∂ z
i+ I
q=
p
X
j=1
y
ij+ 1 φ
j∂
∂z
0iφ
je
αi+βj+z0iγj1 + φ
je
αi+βj+z0iγjγ
j+ I
q=
p
X
j=1
y
ij+ 1 φ
jφ
je
αi+βj+z0iγj(1 + φ
je
αi+βj+z0iγj− φ
je
αi+βj+z0iγj)
(1 + φ
je
αi+βj+z0iγj)
2γ
jγ
0j+ I
q=
p
X
j=1
y
ij+ 1 φ
jφ
je
αi+βj+z0iγj(1 + φ
je
αi+βj+z0iγj)
2γ
jγ
0j+ I
q.
Laplacen approksimaatio logaritmiselle uskottavuusfunktiolle on nyt
˜ l(θ; y) =
n
X
i=1
− 1
2 log det
p
X
j=1
y
ij+ 1 φ
jφ
jexp(α
i+ β
j+ z ˆ
0iγ
j)
(1 + φ
jexp(α
i+ β
j+ z ˆ
0iγ
j))
2γ
jγ
0j+ I
q!
+
p
X
j=1
y
ij(α
i+ β
j+ z ˆ
0iγ
j) −
y
ij+ 1 φ
jlog 1 + φ
jexp(α
i+ β
j+ z ˆ
0iγ
j)
+ y
ijlog φ
j+ log Γ
y
ij+ 1 φ
j− log y
ij! − log Γ 1
φ
j− z ˆ
0iz ˆ
i2
! .
4.7 Dunn-Smyth residuaalit ja informaatiokriteerit
Mallinvalinnassa k¨ aytet¨ a¨ an informaatiokriteereit¨ a AIC ja BIC, jotka m¨ a¨ aritell¨ a¨ an AIC = 2 · #(parametrit) − 2 · ll
ja
BIC = log(n) · #(parametrit) − 2 · ll, miss¨ a ll tarkoittaa logaritmisen uskottavuusfunktion arvoa.
J¨ a¨ ann¨ ostarkasteluja varten m¨ a¨ aritell¨ a¨ an residuaalit. Kun vastemuuttujat eiv¨ at ole
normaalijakautuneita, Pearsonin residuaalit ovat usein ei-normaalisia ja niiden va- rianssit ovat erisuuria. Erityisesti ongelmia ilmenee diskreeteill¨ a vasteilla, kun yk- sitt¨ aisten arvojen m¨ a¨ ar¨ at ovat pieni¨ a. Esimerkkin¨ a ovat Poisson-jakautuneet vasteet pienell¨ a odotusarvolla. K¨ aytet¨ a¨ an siis Dunn-Smyth-residuaaleja riippumattomien vas- teiden regressiomalleille (Dunn ja Smyth, 1996). M¨ a¨ aritell¨ a¨ an havainnolle (i, j) Dunn- Smyth-j¨ a¨ ann¨ os
r
ij= Φ
−1(u
ijF
ij(y
ij; ˆ µ
ij, φ) + (1 ˆ − u
ij)F
ij−(y
ij; ˆ µ
ij, φ)), ˆ (20)
miss¨ a Φ(·) on standardi normaalijakauman ja F
ij(y; µ
ij, φ) muuttujan y
ijjakauman
kertym¨ afunktio ja F
ij−(y) on raja-arvo, kun l¨ ahestyt¨ a¨ an arvoa F
ij(y) negatiiviselta
puolelta. Luku u
ijon generoitu (0, 1)-tasajakaumasta. Dunn-Smyth-residuaalit ovat
normaalijakautuneita, kun mallin yhteensopivuus aineiston kanssa on hyv¨ a.
5 Sovelluksia
5.1 Muurahaiset
Tarkastellaan muurahaisaineistoa, joka sis¨ alt¨ a¨ a usealta paikalta mitattujen muura- haislajien lukum¨ a¨ ari¨ a. Aineisto on ker¨ atty eukalyptusmetsist¨ a Kaakkois-Australiasta (Stoklosa et al., 2014). Alkuper¨ aisess¨ a aineistossa havaintopaikkoja oli 30 ja muu- rahaislajeja 35, mutta aineistoa pienennettiin siten, ett¨ a todella suuria lukuja sek¨ a todella paljon nollia sis¨ alt¨ av¨ at paikat ja lajit rajattiin pois. K¨ aytett¨ av¨ a¨ an aineistoon j¨ ai n = 20 havaintopaikkaa ja p = 18 muurahaislajia. Kuvassa 3 on piirretty laatikko- kuviot jokaisen paikan muurahaisten lukum¨ a¨ arille. Aineistosta on kuvan perusteella vaikea havaita selkeit¨ a ryhmittymi¨ a, mutta paikkoja, joissa eri muurahaislajeja on havaittu p¨ a¨ aosin hyvin v¨ ah¨ an tai ei ollenkaan, n¨ aytt¨ aisi olevan paikat 1, 3, 11, 12 ja
0 50 100 150 200
paikka
muurahaisten lkm
497 857
280
267
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
Kuva 3: Muurahaisaineisto. Havaintopaikat on numeroitu 1-20, ja jokaisen pai-
kan havannoista on piirretty laatikkokuvio. Lajihavainnot, jotka ovat suuruudeltaan
enemm¨ an kuin 200, on merkitty kuvaan mustalla kolmiolla ja havainnon arvolla niiden
vieress¨ a.
16. Runsaammin muurahaisia n¨ aytt¨ aisi olevan paikoissa 7, 8, 10 ja 15. Kuvasta ei kuitenkaan n¨ ahd¨ a, ovatko lajit, joita on paljon, samoja eri paikoissa.
Sovitetaan latentti muuttujamalli (2) aineistoon sek¨ a Poisson- ett¨ a negatiivibi- nomijakaumaoletuksella NMDS-menetelm¨ ast¨ a saadut arvot alkuarvoina. Mallinva- lintakriteerien tarkastelemiseksi sovitetaan molemmat n¨ aist¨ a malleista my¨ os ilman paikkaparametria α
i. Merkit¨ a¨ an latenttia muuttujamallia Poisson-jakaumaoletuksella LVM-P ja negatiivibinomijakaumaoletuksella LVM-NB. Tutkitaan informaatiokritee- rien avulla, mik¨ a edell¨ a mainituista malleista sopii aineistoon parhaiten. Taulukos- ta 1 n¨ ahd¨ a¨ an, ett¨ a sek¨ a AIC- ett¨ a BIC-arvon perusteella paras malli on sellainen, jossa vasteet ovat negatiivibinomijakautuneita. Lis¨ aksi molemmilla jakaumilla malli on parempi, kun paikkaparametri on mukana. Kuvassa 4 on parhaan mallin ordinaa- tiokuva muurahaisaineistolle. Kuvasta n¨ ahd¨ a¨ an, ett¨ a esimerkiksi paikat 6, 8 − 10 ja 17 ovat l¨ ahell¨ a toisiaan, jolloin niiden voidaan tulkita olevan lajistoltaan kesken¨ a¨ an samankaltaisia. Lis¨ aksi on havaittavissa muutamia pienempi¨ a ryhmi¨ a. T¨ allaisia ovat esimerkiksi joukko {1, 3, 7, 20} ja sen l¨ ahell¨ a ryhm¨ at {16, 18, 19} ja {2, 11, 14} sek¨ a paikat 4 ja 5. Edell¨ a mainituista ryhmist¨ a selke¨ ammin erottuvat kuitenkin paikat 12 ja 13, jotka ovat l¨ ahell¨ a toisiaan, ja paikka 15, joka n¨ aytt¨ aisi olevan erill¨ a¨ an muista.
Taulukko 1: AIC- ja BIC-arvot eri jakaumaoletuksilla ja paikkaparametrilla tai ilman muurahaisaineistolle. Pienimm¨ at informaatiokriteerien arvot on tummennettu.
Menetelm¨ a Paikkaparametri AIC BIC
LVM-P kyll¨ a 4679 4753
ei 5194 5248
LVM-NB kyll¨ a 2015 2106
ei 2067 2139
−1.0 −0.5 0.0 0.5 1.0
−1.0−0.50.00.51.0
LV1
LV2
1
2 3 4
5
6 7
8 9
10 11
1312
14
15
16
17 18 19
20
Kuva 4: Muurahaisaineiston ordinaatiokuva negatiivibinomijakaumaoletuksella.
Tarkastellaan viel¨ a eri jakaumaoletuksilla muodostettujen mallien diagnostiikkaa.
Muodostetaan j¨ a¨ ann¨ oskuvat, joissa Dunn-Smyth-j¨ a¨ ann¨ okset on kuvattu lineaaristen ennusteiden suhteen, ja piirret¨ a¨ an residuaalien kvantiilikuviot (Kuva 5). Poisson- jakauman j¨ a¨ ann¨ oskuvasta voidaan n¨ ahd¨ a, ett¨ a ennusteiden kasvaessa my¨ os j¨ a¨ ann¨ okset kasvavat, mik¨ a viittaa ylihajontaan aineistossa. Kvantiilikuvasta puolestaan voidaan sanoa, ett¨ a j¨ a¨ ann¨ okset eivat ole normaalijakautuneita, koska ne eiv¨ at lainkaan osu suoralle niin kuin pit¨ aisi. Negatiivibinomijakautuneille vasteille sen sijaan j¨ a¨ ann¨ okset n¨ aytt¨ av¨ at melko tasaisesti sijoittuvan nollan ymp¨ arist¨ o¨ on riippumatta ennusteiden suuruudesta. My¨ os kvantiilikuviossa j¨ a¨ ann¨ okset ovat hyvin suoralla. N¨ am¨ a havainnot tukevat negatiivibinomijakaumaoletuksen paremmuutta, sill¨ a Dunn-Smyth-j¨ a¨ ann¨ okset ovat normaalijakautuneita, kun malli on hyv¨ a.
−4 −2 0 2 4 6
−5 0 5
LVM−P
Lineaariset ennusteet
Dunn−Smyth−jäännökset
−4 −2 0 2 4 6
−2 −1 0 1 2
LVM−NB
Lineaariset ennusteet
Dunn−Smyth−jäännökset
−3 −2 −1 0 1 2 3
−5 0 5
Teoreettiset kvantiilit
Dunn−Smyth−jäännökset
−3 −2 −1 0 1 2 3
−2 −1 0 1 2
Teoreettiset kvantiilit
Dunn−Smyth−jäännökset
Kuva 5: Muurahaisaineiston Dunn-Smyth-residuaalit ja n¨ aiden kvantiilikuva latentille
muuttujamallille Poisson-jakaumaoletuksella (vasen sarake) ja negatiivibinomijakau-
maoletuksella (oikea sarake).
5.2 H¨ am¨ ah¨ akit
Tarkastellaan h¨ am¨ ah¨ akkiaineistoa, joka on ker¨ atty Haagissa, Alankomaissa (van der Aart ja Smeenk-Enserink, 1974). Aineistossa on n = 28 mittauspaikalta otettu n¨ ayt- teet, joista on laskettu p = 12 eri lajin h¨ am¨ ah¨ akkej¨ a. Sovitetaan latentti muuttuja- malli h¨ am¨ ah¨ akkiaineistolle, ja tehd¨ a¨ an vastaavat tarkastelut kuin muurahaisaineis- tolle. Kuvassa 6 aineiston kunkin paikan havainnoille on piirretty laatikkokuvio, josta voidaan jo n¨ ahd¨ a eroja paikkojen v¨ alill¨ a. Esimerkiksi numeroita 1 − 7 sek¨ a 13 − 14 vastaavilla paikoilla h¨ am¨ ah¨ akkej¨ a on havaittu huomattavasti enemm¨ an kuin esimer- kiksi paikoilla 9 − 11 ja 15 − 21, kun paikat on numeroitu 1 − 28.
0 20 40 60 80 100 120
paikka
hämähäkkien lkm
135
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28
Kuva 6: H¨ am¨ ah¨ akkiaineisto. Havaintopaikat on numeroitu 1-28, ja jokaisen paikan
havainnoista on piirretty laatikkokuvio.
Kun sovitetaan latentti muuttujamalli h¨ am¨ ah¨ akeille, taulukosta 2 n¨ ahd¨ a¨ an, ett¨ a sek¨ a AIC- ett¨ a BIC-kriteerien perusteella negatiivinen binomijakauma on sopivampi jakaumaoletus kuin Poisson-jakauma, ja paikkaparametrin sis¨ alt¨ av¨ a malli on parempi.
Informaatiokriteerien ero ei kuitenkaan ole yht¨ a suuri kuin muurahaisaineistolla, joten tarkastellaan sek¨ a LVM-P- ett¨ a LVM-NB-mallien tuottamia ordinatiokuvia (Kuva 7).
Molempien mallien ordinaatiokuvat ovat melko samanlaiset. Poisson-mallilla oikean yl¨ akulman klusteri on hieman tiiviimpi kuin negatiivisen binomijakauman tapaukses- sa, ja paikkojen 9−12 muodostama ryhm¨ a erottuu selvemmin. Molemmissa paikka 25 erottuu muista ja paikkojen 15 − 21 sek¨ a 8 muodostama ryhm¨ a on selke¨ asti erill¨ a¨ an muista. Kuten jo kuvasta 6 havaittiin, paikat 1 − 7 ja 13 − 14, joissa havaittiin paljon h¨ am¨ ah¨ akkej¨ a, ovat l¨ ahell¨ a toisiaan my¨ os ordinaatiokuvissa.
Taulukko 2: H¨ am¨ ah¨ akkiaineiston AIC- ja BIC-arvot eri malleille.
Menetelm¨ a Paikkaparametri AIC BIC
LVM-P kyll¨ a 1691 1776
ei 1797 1845
LVM-NB kyll¨ a 1477 1578
ei 1522 1586
−1.5 −1.0 −0.5 0.0 0.5 1.0 1.5
−1.0 −0.5 0.0 0.5 1.0
LVM−P
LV1
LV2
2 1 4 3
5 6
7 8
9 1110 13 12
14 15 1617
19201821 2322 24
25
26
27 28
−1.0 −0.5 0.0 0.5 1.0
−1.0 −0.5 0.0 0.5 1.0
LVM−NB
LV1
LV2
1 2
3 54
6 7
8
9 1110 13 12
14 15
16 17
1918 20
21
22 23
24 25
26
27 28
Kuva 7: Vasemmalla latentin muuttujamallin Poisson-jakaumaoletuksella tuottama h¨ am¨ ah¨ akkiaineiston ordinaatiokuva, ja oikealla vastaava negatiivibinomijakaumaole- tuksella.
Tarkastelemalla j¨ a¨ ann¨ oskuvia ja kvantiilikuvia (Kuva 8) voidaan tehd¨ a sama p¨ a¨ a-
telm¨ a jakaumaoletusten paremmuudesta, kuin informaatikriteerien perusteella. Pois- son-jakaumaoletuksella j¨ a¨ ann¨ oskuvassa on selv¨ asti havaittavissa viuhkamainen kuvio, eli kun ennusteet ovat suurempia my¨ os j¨ a¨ ann¨ osten vaihtelu kasvaa. Kun havaintojen oletetaan olevan negatiivisesta binomijakaumasta, sek¨ a j¨ a¨ ann¨ os- ett¨ a kvantiilikuvio n¨ aytt¨ av¨ at huomattavasti paremmalta. Poisson-jakautunut malli sopii huonommin ai- neistoon, mutta sen tuottamassa ordinaatiokuvassa eri ryhm¨ at erottuvat selke¨ ammin kuin negatiivibinomijakautuneilla vasteilla. Poisson-jakaumaoletuksella syntyv¨ an or- dinaatiokuvan ryhm¨ at saattavat olla virheellisesti liian selkeit¨ a, koska mallissa hajon- ta on liian pient¨ a verrattuna todelliseen tilanteeseen.
−10 −5 0 5
−4 −2 0 2 4
LVM−P
Lineaariset ennusteet
Dunn−Smyth−jäännökset
−10 −5 0 5
−2 −1 0 1 2
LVM−NB
Lineaariset ennusteet
Dunn−Smyth−jäännökset
−3 −2 −1 0 1 2 3
−4 −2 0 2 4
Teoreettiset kvantiilit
Dunn−Smyth−jäännökset
−3 −2 −1 0 1 2 3
−2 −1 0 1 2
Teoreettiset kvantiilit
Dunn−Smyth−jäännökset
Kuva 8: Dunn-Smyth-j¨ a¨ ann¨ okset ja kvantiilikuvio h¨ am¨ ah¨ akkiaineistolle Poisson- (va-
sen sarake) ja negatiivibinomijakaumaoletuksella (oikea sarake).
Laajennetaan seuraavaksi latenttia muuttujamallia, ja lis¨ at¨ a¨ an malliin selitt¨ av¨ at muuttujat kuten kaavassa (3). Ordinaatiomenetelm¨ an¨ a k¨ ayt¨ on lis¨ aksi malli sovel- tuu nyt selitt¨ ajien lajikohtaisten vaikutusten tutkimiseen. K¨ aytet¨ a¨ an kahta selitt¨ av¨ a¨ a muuttujaa, jotka ovat numeerisia muuttujia havaintopaikkojen olosuhteista: muuttu- ja soil.dry kuvaa maaper¨ an kuivamassan m¨ a¨ ar¨ a¨ a ja reflection kuvaa maaper¨ an pinnan heijastusta taivaaseen. Sovitetaan malli (3) negatiivibinomijakaumaoletuksella ilman paikkaparametria, ja verrataan sit¨ a tavalliseen yleistettyyn lineaariseen malliin
g(µ
ij) = β
j+ x
0iδ
j, i = 1, . . . , n, j = 1, . . . , p. (21) Edellinen malli eroaa mallista (3) latenttien muuttujien osalta. Mallissa (21) oletetaan lajien olevan riippumattomia, kun taas latentti muuttujamalli huomioi mahdollisen korrelaation.
Edell¨ a esitetty yleistetty lineaarinen malli, (GLM), negatiivibinomijakaumaole- tuksella sovitetaan R-ohjelmiston mvabund-paketin manyglm-funktiolla. AIC- ja BIC- kriteerien perusteella latentti muuttujamalli on parempi kuin malli (21) (Taulukko 3).
Kuvasta 9 n¨ ahd¨ a¨ an, ett¨ a lajikohtaisten vakioden β
jja kertoimien δ
jestimaatit tarkas- telluilla malleilla ovat l¨ ahes samoja muutamaa lajia lukuunottamatta. Parametrien keskihajonnoissa sen sijaan l¨ oytyy eroja. Latentin muuttujamallin parametrien luot- tamusv¨ alit ovat suurimmalla osalla lajeista selke¨ asti pienemm¨ at tai yht¨ a pienet kuin tavallisessa yleistetyss¨ a lineaarisessa mallissa. Ainoastaan lajien nelj¨ a ja viisi osal- la parametreista luottamusv¨ alit ovat selke¨ asti suuremmat latentilla muuttujamallilla.
N¨ aist¨ a kahdesta lajista my¨ os havaintoja oli hyvin v¨ ah¨ an, mik¨ a saattaa olla osasyyn¨ a eroille parametrien hajonnassa. Selitt¨ ajien lis¨ a¨ amisen johdosta latentteihin muuttu- jiin sis¨ altyv¨ a havaitsematon informaatio muuttuu, kun osa siit¨ a havaitaan nyt eri paikoilta mitatuissa selitt¨ aviss¨ a muuttujissa.
Taulukko 3: H¨ am¨ ah¨ akkiaineiston AIC- ja BIC-arvot selitt¨ aj¨ at sis¨ alt¨ av¨ alle latentille muuttujamallille ja tavalliselle yleistetylle lineaariselle mallille.
Menetelm¨ a AIC BIC
GLM-NB 1542 1606
LVM-NB 1427 1523
2 4 6 8 10 12
−30−20−100
laji
β
2 4 6 8 10 12
0510
laji δsoil.dry
2 4 6 8 10 12
−1012345
laji δreflection
GLM LVM
Kuva 9: Latentin muuttujamallin (ympyr¨ at) ja yleistetyn lineaarisen mallin (kolmiot) selitt¨ ajien kertoimet lajeittain, kun vasteet oletetaan negatiivibinomijakautuneiksi.
Janat ovat parametrien luottamusv¨ alit.
6 Simulointikokeita
Verrataan seuraavaksi latenttia muuttujamallia klassisiin ordinaatiomenetelmiin si- mulointikokeiden avulla. Simuloidaan havaintoja h¨ am¨ ah¨ akkiaineistoa vastaavasta la- tentista muuttujamallista Poisson- ja negatiivibinomijakaumaoletuksilla. Mallin para- metrit saatiin sovittamalla latentti muuttujamalli h¨ am¨ ah¨ akkiaineistoon kuten luvussa 5.2. Simulointeja tehtiin jokaiselle mallille 500 kertaa. Kullekin aineistolle sovelletaan klassisia menetelmi¨ a NMDS, PCoA ja DCA sek¨ a sovitetaan latentti muuttujamalli eri alkuarvoilla ordinaatiokuvan muodostamiseksi. Alkuarvoina latenteille muuttujille k¨ aytet¨ a¨ an yht¨ a klassisista menetelmist¨ a, sill¨ a ne antoivat hyvin samanlaisia tuloksia testatessa. Lis¨ aksi k¨ aytet¨ a¨ an satunnaisia alkuarvoja. Ne saadaan, kun ensin gene- roidaan kaksiulotteisesta standardista normaalijakaumasta n havaintoa, jotka ajatel- laan vastaavan koordinaatteja ordinaatiossa. T¨ am¨ a tehd¨ a¨ an kymmenen kertaa, ja ku- hunkin simulaatioon sovitetaan yleistetty lineaarinen regressiomalli jokaiselle lajille, selitt¨ ajin¨ a n¨ am¨ a koordinaatit. Ne koordinaatit, joilla saadaan mallille pienin AIC- arvo, valitaan latenttien muuttujien alkuarvoiksi. Kyseisen regressiomallin paramet- reista saadaan alkuarvot my¨ os parametreille. R-koodissa (Liite C) t¨ am¨ an toteuttaa start.values-niminen funktio.
Estimoidut ordinaatiokuvat rotatoidaan ja skaalataan todellista ordinaatiokuvaa vastaavaan asetelmaan R-ohjelmiston vegan-paketin procrustes-funktiolla. N¨ ain es- timoitua ordinaatiota verrataan todelliseen ordinaatioon Procrustes-virheen avulla, joka on
Procrustes Error =
n
X
i=1 q
X
r=1
(z
ir,f itted− z
ir,true)
2. (22) T¨ ass¨ a z
ir,f ittedon sovitetun mallin Procrustes-rotatoidun ordinaation koordinaatti pai- kalla i latentille muuttujalle r ja z
ir,trueon vastaavan koordinaatin ja latentin muut- tujan todellinen arvo.
Ensimm¨ aisen¨ a simuloidaan latenttiin muuttujamalliin perustuvasta Poisson-jakau-
masta 500 aineistoa. Verrataan klassisia menetelmi¨ a MDS, PCoA ja DCA LVM-
P-malliin PCoA ja normaalijakauman alkuarvoilla. Kuvasta 10 havaitaan, ett¨ a la-
tentti muuttujamalli PCoA menetelm¨ an alkuarvoilla antaa parempia tuloksia kuin
mik¨ a¨ an klassinen menetelm¨ a. Kun alkuarvoina on normaalijakaumasta generoidut
luvut, vaihtelua on hyvin paljon. Enimm¨ akseen kyll¨ a saavutetaan yht¨ a hyvi¨ a tulok-
sia kuin PCoA-alkuarvoilla, mutta v¨ alill¨ a huonompia tuloksia kuin mik¨ a¨ an klassinen
menetelm¨ a tuottaa.
51015202530
LVM Poisson
51015202530510152025305101520253051015202530
DCA PCoA NMDS LVM−P: PCoA LVM−P: s.v.