Normaalijakauma - Eksponenttiperheen upotusmenetelmä

Artikkelissa [8] yhten¨a aineistona eksponenttiperheen upotusmenetelm¨a¨an on k¨aytetty jo aikaisemmin t¨ass¨a tutkielmassa esitelty¨a zebra-kalojen aivo-jen neuroneista mitattua aktiivisuustasoa. Esimerkin tavoitteena on mallin-taa et¨aisyyden perusteella l¨ahekk¨ain olevien neuroneiden samankaltaisuut-ta. T¨am¨an aineiston tilanteessa k¨aytet¨a¨an normaalijakaumaa. Havainto x_i on havainnossa i mitattu aktiivisuustaso. Indeksin¨a neuronille i toimii pari i = (γ, t), miss¨a γ kuvaa tietyss¨a sijainnissa olevaa neuronia ja t tietty¨a ai-kaa. Eri mittausaikoja t aineistossa on ollut 3000 eli alkuper¨aisen aineiston dimensio d= 3000 tulee eri mittausaikojen lukum¨a¨ar¨ast¨a.

Eksponenttiperheen upotusmenetelm¨a¨an tarvittava kontekstijoukko tietylle neuronille muodostuu sit¨a l¨ahimp¨an¨a olevista toisista naapurihavainnoista.

K l¨ahint¨a naapuria (KNN) etsit¨a¨an joka neuronille erikseen k¨aytt¨aen palloal-goritmi¨a, joka perustuu neuronien spatiaaliseen et¨aisyyteen kalan aivoissa:

ci ={(m, t)|m ∈KN N(i)}

Aineistossa upotettu vektori ja kontekstivektori ovat samat niill¨a havainnoil-la, jotka kuvaavat samaa neuronia γ eli sijaitsevat samassa sijainnissa. N¨ain ollen eri ajanhetkill¨a t tietty neuroni ei saa eri parametreja vaan paramet-rit jakava rakenne k¨aytt¨a¨a tietylle neuronille samoja parametreja vaikka aika muuttuu. N¨ain ollen upotettu vektori ρ[j] = ρ_γ ∈ R^K ja kontekstivektori α[j] = α_γ ∈ R^K eli neuronit toisistaan erottava indeksi i on pelk¨ast¨a¨an γ.

Regularisaatiossa k¨aytet¨a¨an normaalijakauman tapauksessa l₂ regularisaa-tiota.

Seuraavaksi muokataan gradienttifunktiota normaalijakauman tilanteessa. Gra-dienttifunktio yleisess¨a tilanteessa saatiin muotoon (4.4 ):

∇L(ρ[j],α[j]) =

Sievennet¨a¨an ensiksi gradientin indeksej¨a edellisess¨a kappaleessa kuvatun mukaisesti. Nyt tietyss¨a sijainnissa oleva neuroni jakaa samat parametrit ajan muuttuessa, joten indeksiksi gradientin summaan j¨a¨a pelk¨ast¨a¨an aika.

Yksitt¨aist¨a neuronia kuvaa muuttujaγ. Koko gradientti saadaan muotoon:

∇L(ρ_γ,α_γ) = Normaalijakauman tilanteessa tarvitaan gradienttifunktioiden sievent¨amiseen:

• Tyhjent¨av¨at tunnusluvut t(x_i).

• Tyhjent¨avien tunnuslukujen odotusarvoE[t(x_i)].

• Regularisaatioparametrin gradientti upotetun vektorin ja kontekstivek-torin suhteen eli ∇_ρ_γlogp(ρ_γ) ja ∇_α_γlogp(α_γ).

• Luonnollisen parametrivektorin gradientti upotetun vektorin ja kon-tekstivektorin suhteen eli ∇_ρ_γη_i(x_c_i) ja∇_α_γη_i(x_c_i).

Kun n¨am¨a ovat selvitetty, niin muuttujiksi gradienttiin j¨a¨a ρ_γ ja α_γ.

Normaalijakauman tapauksessa linkkifunktiof_i on identiteettifunktio [8], eli

η_i(x_c_i) =f_i ρ^T_i X

Muokataan ensiksi parametrin ρ_γ suhteen laskettua gradienttia. Sijoitetaan siihen ensimm¨aiseksi linkkifunktio, jolloin:

∇_ρ_γL(ρ_γ,α_γ) = (

Arvo x_γ,t on neuroninγ havaittu arvo ajanhetkell¨at. Derivoimalla saadaan:

L¨ahteess¨a [8] on laskettuna gradientit normaalijakauman tilanteessa ilman v¨alivaiheita. Gradientteja viel¨a lis¨a¨a sievent¨am¨all¨a lopullisiksi muodoiksi tu-lee l¨ahteen [8] mukaan muuttujanρ_γ suhteen:

= 1

Muokataan seuraavaksi muuttujan α_γ suhteen laskettua gradienttia. Linkki-funktion sijoittamisen j¨alkeen saadaan muoto:

∇_α_γL(ρ_γ,α_γ) =

L¨ahteen [8] lopullinen muoto t¨ast¨a gradientista on muotoa:

= 1

N¨aist¨a gradienttien muodoista saadaan laskettua erilliset parametrivektorit α_γ ja ρ_γ jokaiselle neuronille γ k¨aytt¨am¨all¨a SGD-menetelm¨a¨a.

Visualisointi esimerkiss¨a saadaan, kun ensin neuronit ja niiden kontekstina toimivat naapurit elikl¨ahint¨a toista neuronia piirret¨a¨an kuvaan neuroneiden kesken¨aisten et¨aisyyksien perusteella. Yksitt¨aisen neuroninγ kohdalla laske-taan jokaisen sen kontekstijoukkoon kuuluvan neuronin m kanssa upotetun vektorin ja kontekstivektorin sis¨atulo seuraavasti:

ρ^T_mα_m ∈R

T¨am¨an sis¨atulon avulla p¨a¨ast¨a¨an tarkastelemaan yksitt¨aisen neuroninγk¨ ayt-t¨aytymist¨a naapurineuroneiden suhteen. Kuvaan piirret¨a¨an neuroninγ ja jo-kaisen sen kontekstijoukkoon c_γ kuuluvan neuroninmv¨alille viiva, jonka v¨ari valitaan saadun sis¨atulon arvon mukaisesti. Kuvassa 3 on piirrettyn¨a positii-viset arvot vihre¨all¨a ja negatiiviset punaisella. Lis¨aksi viivan l¨apin¨akyvyys on verrattavissa sis¨atulon suuruuteen. Kuvasta voidaan nyt tarkastella neuronin γ suhteellista k¨aytt¨aytymist¨a sen kontekstijoukkoon kuuluvien neuroneiden kanssa.

6 Loppup¨ a¨ atelm¨ at

Tutkielmassa tarkasteltiin ensiksi tunnettujen dimensionpienent¨ amismenetel-mien tekniikoita osittain hyvin yksityiskohtaisesti. Ekspoenttiperhe m¨a¨ariteltiin yksityiskohtaisesti ja siit¨a k¨aytiin my¨os t¨asm¨allisesti l¨api esierkkej¨a normaali-jakauman tilanteessa. Sanaupotuksiin tutustuttiin l¨ahinn¨a esimerkkien kaut-ta. Eksponenttiperheen upotusmenetelm¨an pohjalla oleva teoria eksponentti-perheen ja sanaupotusten osalta k¨aytiin siis tutkielmassa melko tarkasti l¨api.

Eksponenttiperheen upotusmenetelm¨an osalta tutkittiin teoriaa ja laskujen v¨alivaiheita hyvinkin tarkasti eksponenttiperheen yleisess¨a tapauksessa. Esi-merkiksi esiteltiin tarvittavat v¨alivaiheet gradienttien estimaattien laskemi-seksi. Lis¨aksi esiteltiin p¨a¨apiirteitt¨ain esimerkkej¨a eksponenttiperheen upo-tusmenetelm¨ast¨a normaalijakauman sek¨a Bernoulli-jakauman tilanteessa.

Muihin tutkielmassa k¨asiteltyihin menetelmiin verrattuna eksponenttiper-heen upotusmenetelm¨an k¨aytt¨aminen on laskennallisesti haastavampaa. Se vaatii esimerkiksi haasteellisten gradienttien laskemista parametrien selvitt¨amiseksi.

T¨at¨a esimerkiksi p¨a¨akomponenttianalyysi ei vaadi. Eksponenttiperheen upo-tusmenetelm¨a antaa kuitenkin enemm¨an vapauksia aineiston jakaumien suh-teen koska aineiston jakauma voi olla eksponenttiperheen jakaumista mik¨a ta-hansa. Lis¨aksi eksponenttiperheen upotusmenetelm¨a l¨oyt¨a¨a eroja yksitt¨aisten havaintojen v¨alilt¨a ottaen kaikki muut havainnot huomioon eli se ei perustu pelk¨ast¨a¨an muuttujien v¨alisiin lineaarisiin suhteisiin.

Tutkielman alkuper¨ainen tarkoitus oli k¨aytt¨a¨a eksponenttiperheen upotus-menetelm¨a¨a geeniekspressioaaineistojen visualisointiin. Geeniekspressioaineis-tossa on havaintoina soluja, joille on laskettu geeniekspressiotasoja. Tarkoi-tuksena oli saada laskettua jokaiselle aineiston havainnolle eli solulle vektorit ρ ja α ja n¨aiden arvojen avulla visualisoida 2-dimensioinen kuva. Eli yhden solun kaikkien eri geeniekspressiotasojen informaatio olisi tiivistetty kahteen koordinaattiin. Kuvasta olisi mahdollisesti voinut tehd¨a p¨a¨atelmi¨a havain-tojen v¨alisist¨a suhteista, esimerkiksi jos kuvasta olisi pystynyt erottamaan ryhmittymi¨a.

Simuloinnit osoittautuivat kuitenkin liian vaikeiksi. Ongelmia tuli esimerkik-si upotetun vektorin ja kontekstivektorin dimenesimerkik-sioiden kanssa ja sen kans-sa miten k¨ayt¨oss¨a oleva aineisto olisi sopinut malliin. Aineisto oli normaa-lijakautunutta ja kontekstijoukot olisi voinut mahdollisesti laskea havainto-jen kesken¨aisten korrelaatioiden avulla. Parametrit jakava rakenne olisi ehk¨a

saatu siten, ett¨a jokaisella solulla on omat parametrivektorit riippumatta geenist¨a. Parametrit olisivat kuitenkin edelleen vektoreita ja niiden avulla ei v¨altt¨am¨att¨a saada muodostettua 2-dimensioista kuvaa kerralla koko ai-neistosta. Yksitt¨aisen solun suhteita sit¨a l¨ahimpiin muihin soluihin pystyisi mahdollisesti tutkimaan vastaavasti, kuin normaalijakaumaa k¨asittelev¨ass¨a esimerkiss¨a t¨ass¨a tutkielmassa on tehty. Tutkielman valmistuminen alkoi ve-ny¨a, joten tutkielmassa keskityttiin pelk¨ast¨a¨an teoriaan ja esimerkkeihin.

Eksponenttiperheen upotusmenetelm¨a voi tulevaisuudessa olla hyvin hy¨ odyl-linen malli laajojen aineistojen k¨asittelyss¨a ja niiden jakaumien tutkimises-sa ja tulkitsemisestutkimises-sa sek¨a yksitt¨aisten havaintojen v¨alisten suhteiden tutki-misessa. Malli antaa mahdollisuuden tiivist¨a¨a hyvin suuridimensioisten ai-neistojen informaatiota pienemp¨a¨an dimensioon parametrit jakavan raken-teen avulla. Tutkielman teossa haasteita aiheutti eksponenttiperheen upo-tusmenetelm¨ast¨a kertovien l¨ahtiden ja esimerkkikoodin v¨ahyys, joka varmas-ti vaikuttaa t¨ass¨a vaiheessa mallin k¨aytett¨avyyteen ja k¨aytett¨avyyden le-vi¨amiseen. Jos eksponenttiperheen upotusmenetelm¨a¨a tutkitaan enemm¨an ja l¨ahteiden sek¨a esimerkkikoodin m¨a¨ar¨a kasvaa, niin menetelm¨an k¨aytt¨o saattaa yleisty¨a tulevaisuudessa monilla eri aloilla.

Tulevaisuudessa pit¨aisi ehk¨a t¨asm¨allisemmin tarkastella eksponenttiperheen upotusmenetelm¨an teoriaa eri jakaumien tilanteissa ja t¨am¨an j¨alkeen k¨aytt¨a¨a menetelm¨a¨a erilaisten aineistojen analysointiin. Monia menetelmist¨a on ny-kyaikana helppoa k¨aytt¨a¨a tietokoneilla valmiiksi koodattujen ohjelmien avul-la. N¨aiss¨a tapauksissa saattaa kuitenkin k¨aytt¨a¨a menetelmi¨a v¨a¨arin, jos ei ymm¨arr¨a mallin teoriaa. T¨arke¨a¨a olisi ett¨a malleja k¨aytett¨aess¨a k¨aytt¨aj¨a tun-tee tarkasti mallin teorian ja mihin mallia voidaan k¨aytt¨a¨a. Lis¨aksi k¨aytt¨aj¨an tulisi tuntea tutkittavan aineiston luonne. N¨ain osataan valita mahdollisim-man hyvin sopiva menetelm¨a kunkin aineiston tilanteessa ja mahdolliset tu-lokset voidaan tulkita j¨arkeviksi.

L¨ ahdeluettelo

[1] Blei, David M. The Exponential family, Columbia University, 03.11.2015, http://www.cs.columbia.edu/~blei/fogm/2015F/notes/

exponential-family.pdf[Viitattu 24.01.2017].

[2] F. Nielsen and V. Garcia, Statistical exponential families: A digest with flash cards, (Julkaistu 16.05.2011(v2.0)),

https://arxiv.org/pdf/0911.4863v2.pdf [Viitattu 24.01.2017].

[3] Jolliffe, Ian T.Principal Component Analysis, 2002, Springer-Verlag New York, Incorporated

[4] C. Bartenhagen, H. Klein1 , Christian Ruckert1 , Xiaoyi Jiang2 , Mar-tin Dugas1 Comparative study of unsupervised dimension reduction techniques for the visualization of microarray gene expression data, Bartenhagen et al. BMC Bioinformatics 2010, 11:567

[5] C. M. Bishop Pattern recognition and machine learning, 2006, Springer Science+Business Media, LLC

[6] E. Ranta, H. Rita, J. Kouki Biometria, Tilastotiedett¨a ekologeille, 9.pai-nos 2005, Yliopistopaino, Helsinki

[7] Lawrence K. Saul, Sam T. Roweis An Introduction to Locally Linear Embedding,

https://www.cs.nyu.edu/~roweis/lle/papers/lleintro.pdf [Vii-tattu 31.01.2017].

[8] M. Rudolph, F.J.R.Ruiz, S. Mandt, D.M. Blei, Exponential Family Embeddings, 21.11.2016

https://arxiv.org/abs/1608.00778 [Viitattu 01.02.2017].

[9] M. Rudolph, F.J.R.Ruiz, S. Mandt, D.M. Blei, S. Athey, Exponential Family Embeddings: Application to Economics, 12.12.2016

http://franrruiz.github.io/contents/group_talks/

UC3M-Dec2016.pdf [Viitattu 23.03.2017].

[10] M. Rudolph, D.M. Blei, Dynamic Bernoulli Embeddings for Language Evolution, 23.03.2017

https://arxiv.org/abs/1703.08052 [Viitattu 03.07.2017].

[11] In Jae Myung, Tutorial on maximum likelihood estimation,Journal of Mathematical Psychology, 47 (2003), sivut 90-100

http://css-kti.tugraz.at/research/cssarchive/courses/

mathpsy/pkst04/material/TutOnLikelihood.pdf[Viitattu 07.02.2017].

[12] C.J. Oates, S. Mukherjee 06.01.2017 Network Inference and Biolo-gical Dynamics, Ann Appl Stat. 2012 September ; 6(3): 1209–1235.

doi:10.1214/11-AOAS532

[13] F. Emmert-Streib, G.V.Glazko, Network biology: a direct approach to study biological function, 2010, John Wiley + Sons, Inc. WIREs Syst Biol Med 2011 3 379–391 DOI: 10.1002/wsbm.134

http://onlinelibrary.wiley.com/doi/10.1002/wsbm.134/pdf

[14] A. Mandelbaum, A. Shalev, Word Embeddings and Their Use In Sentence Classification Tasks, s. 1-5, 27.10.2016, Hebrew University of Jerusalem

https://arxiv.org/pdf/1610.08229.pdf [Viitattu 28.02.2017].

[15] T. Mikolov, I. Sutskever, K. Chen, G. Corrado, J. Dean, Distribu-ted Representations of Words and Phrases and their Compositionality ,16.10.2013,

https://arxiv.org/pdf/1310.4546.pdf[Viitattu 21.03.2017].

[16] T. Mikolov, K. Chen, G. Corrado, J. Dean,Efficient Estimation of Word Representations in Vector Space, 07.09.2013,

https://arxiv.org/pdf/1301.3781.pdf[Viitattu 22.03.2017].

[17] D. Guthrie, B. Allison, W. Liu, L. Guthrie, Y. Wilks, A Closer Look at Skip-gram Modelling, 2006, NLP Research Group, Department of Computer Science, University of Sheffield

http://www.cs.brandeis.edu/~marc/misc/proceedings/lrec-2006/

pdf/357_pdf.pdf [Viitattu 06.04.2017].

[18] A. Neumaier, Solving ill-conditioned and singular linear systems: a tutorial on regularization , SIAM review 40.3 (1998): 636-666.

[19] T. Evgeniou, M. Pontil, T. Poggio, Regularization Networks and Sup-port Vector Machines , Advances in computational mathematics 13.1 (2000): 1.

In document Eksponenttiperheen upotusmenetelmä (sivua 48-56)