Eksponenttiperheen upotusmenetelmä

(1)

Eksponenttiperheen upotusmenetelm¨ a

Jonna Ikonen

Pro Gradu- tutkielma It¨a-Suomen yliopisto Fysiikan ja

matematiikan laitos Syksy 2017

(2)

Sis¨ alt¨ o

1 Johdanto 1

2 Tarvittavia määritelmiä 3

3 Dimension pienent¨amismenetelmist¨a 6

3.1 P¨a¨akomponenttianalyysi . . . 7

3.2 Moniulotteinen skaalaus . . . 11

3.3 Locally linear embedding . . . 12

3.4 Menetelmien hyvyydest¨a . . . 17

4 Eksponenttiperheen upotusmenetelm¨a 18 4.1 Eksponenttiperhe . . . 18

4.2 Sanaupotukset . . . 23

4.3 Eksponenttiperheen upotusmenetelm¨a . . . 28

4.3.1 Teoriaa . . . 29

4.3.2 Parametrien estimointi . . . 34

5 Esimerkkejä eksponenttiperheen upotusmenetelmän käytöstä 41 5.1 Bernoullin jakauma . . . 41

5.2 Normaalijakauma . . . 43

6 Loppupäätelmät 47

(3)

IT ¨A-SUOMEN YLIOPISTO,

Luonnontieteiden ja mets¨atieteiden tiedekunta, Joensuu Fysiikan ja matematiikan laitos

Matematiikka

Opiskelija, Jonna Ikonen:

Pro gradu-tutkielma 51 s.

Pro gradu- tutkielman ohjaajat: Jukka Tuomela, Ville Hautam¨aki 12.10.2017

Tiivistelm¨ a

Erilaisten data-aineistojen dimension, eli ulottuvuuden, kasvaessa tarvitaan uusia menetelmiä, joiden avulla aineistojen informaation tiivistäminen on- nistuu ilman sen oleellista häviämistä. Tutkielmassa käydään läpi vertailun vuoksi nykyisistä dimensionpienentämismenetelmistä pääkomponenttianalyysi, moniulotteinen skaalaus ja LLE eli locally linear embedding-menetelmä. Tut- kielmassa keskitytään kuitenkin uudempaan eksponenttiperheen upotusme- netelmään ja sen teoriaan. Eksponenttiperheen upotusmenetelmän tarkoitus on upotetun eksponenttiperheen jakauman ja parametrit yhdistävän raken- teen avulla saada tarkasteltavasta aineistosta esiin hyödyllisiä ominaisuuksia. Apuna käytetään myös havaintopisteiden konteksteja. Tutkielman lopus- sa käydään läpi esimerkkejä eksponenttiperheen upotusmenetelmästä sekä bernoull-jakautuneen, että normaalijakautuneen aineiston tapauksessa.

Avainsanat: Eksponenttiperheen upotusmenetelm¨a, Upotettu rakenne, Di- mension pienent¨aminen, Eksponenttiperhe, Sanaupotukset

(4)

UNIVERSITY OF EASTERN FINLAND, Faculty of Science and Forestry, Joensuu Department of Physics and Mathematics Mathematics

Student, Jonna Ikonen:

Master’s Thesis, 51 p.

Supervisors of the Master’s Thesis: Jukka Tuomela, Ville Hautam¨aki 12.10.2017

Abstract

When the dimension of datasets grow, new methods are needed to compress the information without losing anything essential. This thesis compares cur- rent dimension reduction methods: principal component analysis, multidimensional scaling (MDS) and locally linear embedding (LLE), although it is focused on newer exponential family embeddings -method and the theory of it. The function of exponential family embedding method is to get useful features out of data by using embedded exponential family distribution, and parameters sharing structure. Contexts of observations are also used. Finally examples of exponential family embedding method with bernoull-distributed data and normally distributed data are used.

Keywords: Exponential family embeddings, Embedded structure, Dimension reduction, Exponential family, Word embeddings

(5)

Lyhenneluettelo

SGD Stochastic gradient descent-menetelm¨a CBOW Continuous bag of words-malli

LLE Locally linear embedding-menetelm¨a MDS Multidimensional scaling-menetelm¨a PCA Principal component analysis

Symbolit

log Luonnollinen logaritmi

x Reaalilukuisista muuttujista käytetään pieniä kirjaimia x Vektoreista käytetään pieniä paksunnettuja kirjaimia X Matriiseista käytetään paksunnettuja isoja kirjaimia

(6)

1 Johdanto

Tämän tutkielman tarkoituksena on tutustua eksponenttiperheen upotusme- netelmään (exponential family embeddings, EF-EMB) [8]. Tutkielmassa käydään läpi mallin teoriaa ja esimerkkejä mallin käytöstä, sekä verrataan mallia teo- reettiselta näkökannalta muihin käytössä oleviin menetelmiin. Eksponentti- perheen upotusmenetelmä on melko uusi ja siitä kertovan lähdekirjallisuuden määrä on hyvin rajallinen. Eksponenttiperheen upotusmenetelmän tarkoituksena on selvittää hyvin laajojen data-aineistojen ominaisuuksia ja havaintojen jakautumista aineistossa. Eksponenttiperheen upotusmenetelmän tarkoitus on yleistää sanaupotusten (word embeddings) idea myös muunlai- siin moniulotteisiin aineistoihin. Sanaupotusten avulla esitetään esimerkiksi sanoja matriisien avulla muuttamalla ne numeroarvoisiksi vektoreiksi.

Luvussa kaksi käydään läpi muutamia tutkielmassa tarvittavia määritelmiä.

Luvussa kolme esitellään muutamia yleisimpiä menetelmiä, joita käytetään laajojen data-aineistojen visualisointiin aineiston dimensiota pienentämällä.

Yleisimpiin menetelmiin on otettu käsiteltäviksi pääkomponenttianalyysi, moniulotteinen skaalaus ja locally linear embedding-menetelmä. Tarkoituk- sena on tutustua muihin nykyisin enemmän käytössä oleviin menetelmiin ennen eksponenttiperheen upotusmenetelmän käsittelyä vertailun vuoksi.

Luvussa neljä käsitellään eksponenttiperheen upotusmenetelmää ja sen ymmär- tämisen kannalta olennaista taustateoriaa. Aluksi lähdetään liikkeelle yleisen eksponenttiperheen määrittelystä sekä teoriasta ja todistetaan tutkielmassa tarvittavia lauseita. Sen jälkeen kerrotaan taustateoriaa ja muutamia esi- merkkejä sanaupotus-malleista. Tämän jälkeen siirrytään Eksponenttiper- heen upotusmenetelmän teoriaan ja ominaisuuksiin. Ensin määritellään me- netelmän käsitteitä ja jakauma sekä parametrit. Sen jälkeen käydään läpi parametrien estimointi, jossa apuna käytetään regularisaatiota sekä stochastic gradient descent-menetelmää.

Luvussa viisi käsitellään esimerkkejä mallin käytöstä. Ensimmäinen esimerkki on tilanteesta, jossa tutkittava aineisto on Bernoulli-jakautunut ja toisen esimerkin tapauksessa aineisto on normaalijakautunut.

Luvussa kuusi on loppupäätelmiä eksponenttiperheen upotusmenetelmästä ja pohdintaa sen eroista muihin tutkielmassa esiteltyihin menetelmiin verrat- tuna. Lukijan oletetaan osaavan matematiikkaa vähintään aineopintojen laa- juisesti. Erityisesti työssä käytetään matriisilaskentaa ja todennäköisyyslaskentaa.

(7)

(8)

2 Tarvittavia m¨ a¨ aritelmi¨ a

Luvussa käydään läpi tutkielmassa tarvittavia määritelmiä.

Huomautus 2.1. Tutkielmassa kertolaskut matriisien ja vektoreiden välillä tai niillä keskenään ovat normaaleja matriisien välisiä kertolaskuja, ellei toisin mainita. Vektorien välinen pistetulo eli skalaaritulo eli sisätulo määritellään tutkielmassa transpoosin avulla normaalina matriisien välisenä kertolaskuna seuraavasti: jos x ja y ovat vektoreita, niin pistetulo:

x·y=xy^T.

Olkoon X = (X₁, X₂, . . . , X_d) satunnaismuuttujavektori, jossa jokainen X_i on satunnaismuuttuja. Satunnaismuuttujia on yhteensä d kappaletta. Arvot xji ∈R, j = 1, . . . , n ovat havaintoja tästä satunnaismuuttujasta. Tässä ha- vaitun arvonx_ji ensimmäinen indeksij viittaa tiettyyn havaittuun arvoon ja toinen indeksiiviittaa tiettyyn satunnaismuuttujaan, jonka arvo on kyseessä.

Havaintoja on yhteens¨an kappaletta jokaisesta satunnaismuuttujasta.

Määritelmä 2.2. Edellä määritellyn satunnaismuuttujavektorin yksittäisen satunnaismuuttujan X_i odotusarvo E(X_i)∈R määritellään seuraavasti:

E(Xi) =

n

X

j=1

xjipji.

Arvon x_ji ensimm¨ainen alaindeksi j viittaa tiettyyn havaintoon satunnaismuuttujasta ja toinen alaindeksi i tietyyn satunnaismuuttujaan aineistossa.

Arvoa xji vastaava todennäköisyys on pji ja havaintoja on yhteensä n kappaletta.

Huomautus 2.3. Jos aineiston jakaumaa ei täsmällisesti tiedetä, niin satunnaismuuttujan odotusarvon estimaattina käytetään satunnaismuuttujan havaintojen keskiarvoa, jolloin:

E(Xi) = 1 n

n

X

j=1

xji.

Määritelmä 2.4. SatunnaismuuttujavektorinX tietyn satunnaismuuttujan X_i varianssi Var(X_i)∈R on:

Var(X_i) = E((X_i−E(X_i))²) = E((X_i−

n

X

i=1

x_jip_ji)²) =

n

X

i=1

(p_ji(x_ji−

n

X

i=1

x_jip_ji)²).

(9)

Määritelmä 2.5. Kahden satunnaismuuttujanX_i jaX_j välinenkovarianssi Cov(X_i, X_j)∈R määritellään seuraavasti:

Cov(X_i, X_j) = E[(X_i−E(X_i))(X_j−E(X_j))]

=E[X_iX_j−E(X_i)E(X_j)]

=E[X_iX_j−

n

X

k=1

x_kip_ki

! _n X

k=1

x_kjp_kj

! ]

Satunnaismuuttujavektorin X kovarianssimatriisi on muotoa:

Cov(X) = Σ=







Cov(X₁, X₁) Cov(X₁, X₂) . . . Cov(X₁, X_d) Cov(X₁, X₂) Cov(X₂, X₂) . . . Cov(X₂, X_d)

... ... . .. ...

Cov(X1, Xd) Cov(X2, Xd) . . . Cov(Xd, Xd)







Huomautus 2.6. SatunnaismuuttujanX_ikovarianssi itsens¨a kanssa on satunnaismuuttujan varianssi:

Cov(X_i, X_i) =E[(X_i−E(X_i))(X_i−E(X_i))] =E[(X_i−E(X_i))²] = Var(X_i) Lause 2.7. Kovarianssimatriisi voidaan esittää myös seuraavalla tavalla:

Σ=E((X−E(X))(X−E(X))^T)

(10)

Todistus.

Σ=







Cov(X1, X1) Cov(X1, X2) . . . Cov(X1, Xd) Cov(X₁, X₂) Cov(X₂, X₂) . . . Cov(X₂, X_d)

... ... . .. ...

Cov(X₁, X_d) Cov(X₂, X_d) . . . Cov(X_d, X_d)







=







E[(X₁−E(X₁))(X₁−E(X₁))] . . . E[(X₁−E(X₁))(X_d−E(X_d))]

E[(X₁−E(X₁))(X₂−E(X₂))] . . . E[(X₂−E(X₂))(X_d−E(X_d))]

... . .. ...

E[(X1−E(X1))(Xd−E(Xd))] . . . E[(Xd−E(Xd))(Xd−E(Xd))]







=E













X1−E(X1) X₂−E(X₂)

... X_d−E(X_d)







X₁−E(X₁) X₂−E(X₂) . . . X_d−E(X_d)







=E((X−E(X))(X−E(X))^T)

Määritelmä 2.8. Kahden satunnaismuuttujanX_i ja X_j välinen korrelaatio määritellään lausekkeella:

Corr(X_i, X_j) = Cov(X_i, X_j) pVar(X_i)Var(X_j),

missä kovarianssi ja varianssit lasketaan vastaavasti kuin edellisissä määritelmissä.

(11)

3 Dimension pienent¨ amismenetelmist¨ a

Dimension pienenentämismenetelmät (dimensionality reduction methods)pyr- kivät siihen, että dimensioltaan laajojen data-aineistojen visualisointia hel- potetaan pienentämällä aineiston dimensiota ilman, että aineistossa tapahtuu oleellista informaation häviämistä. Dimensio tarkoittaa aineiston eri muuttujien lukumäärää. Aineistoa yritetään käsitellä ja muokata siten, että siitä on helpompi havaita eroja eri havaintojen tai niiden ryhmittymien välillä esimerkiksi muokkaamalla aineisto siten, että se voidaan esittää kaksiulottei- sessa kuvassa. Luvun tarkoitus on tutustuttaa lukija suosituimpiin yleisessä käytössä oleviin dimensionpienentämismenetelmiin ennen kuin seuraavassa kappaleessa siirrytään tutkielmassa käsiteltävään uudempaan menetelmään.

Oletetaan, että aineisto X ⊂R^d ja X ={x₁,x₂, . . . ,x_i, . . . ,x_n}. Aineistoa voidaan ajatella pisteparvena, jossa on n havaintopistettä ja jokainen havainnoista kuuluu R^d avaruuteen. Havaintomatriisina sama aineisto voidaan esittää muodossa:

X = (x₁,x₂, . . . ,x_i, . . . ,x_n)∈R^d×n, jossa jokainen

x_i =





 x_i1 xi2

... x_ij

... x_id





 ,

eli jokainen x_i ∈R^d on vektori. Havaintoja on nyt n kappaletta ja eri muuttujien lukumäärä on d eli aineiston dimensio on d.

Dimension pienenentämismenetelmien tarkoitus on muodostaam-dimensioinen projektio d-dimensioiselle havaintoaineistolle siten, ettäm << d,eli uusi dimensio m on huomattavasti vanhaa dimensiota d pienempi. Dimension pie- nennyksen jälkeen saadaan aineistoY ⊂R^mmissäY ={y₁,y₂, . . . ,y_i, . . . ,y_n}.

Havaintomatriisina Y ∈R^m×n. Luonnollisesti graafinen visualisointi on helpointa, jos pystytään valitsemaanm= 2 taim= 3. Tämä ei kuitenkaan aina onnistu ilman oleellista informaation häviämistä. Luvussa esitellään muuta-

(12)

mia eniten käytettyjä dimensionpienentämismenetelmiä yksi kerrallaan ja näiden menetelmien matemaattisia perusominaisuuksia.

3.1 P¨ a¨ akomponenttianalyysi

Pääkomponenttianalyysi (principal component analysis, PCA)[7] on ominaisvektoreihin perustuva menetelmä, joka on suunniteltu mallintamaan lineaa- rista vaihtelevuutta suurissa havaintoaineistoissa [7]. Pääkomponenttianalyysi on vastaava menetelmä kuin singulaariarvohajotelma (Singular value decom- position, SVD), eri aloilla on totuttu käyttämään eri nimeä menetelmälle.

Pääkomponenttianalyysi voidaan määritellä kahdella eri tavalla, jotka mo- lemmat johtavat samaan algoritmiin [5]. Ensimmäiseksi se voidaan määritellä ortogonaalisena projektiona havaintoainestosta pienempidimensioiseen line- aariavaruuteen siten, että projisoidun aineiston varianssi on maksimoitu [5].

Määritelmässä lasketaan lineaariset projektiot suurimmalle varianssille aineiston kovarianssimatriisin ominaisvektoreista [7]. Tämä käydään tarkemmin läpi alempana. Toiseksi pääkomponenttianalyysi voidaan määritellä line- aarisena projektiona, joka minimoi keskimääräisen virhefunktion projektios- sa. Tämä määritellään keskimääräisenä havaintopisteiden ja niiden projek- tioiden välisinä etäisyyksinä. Pääkomponentianalyysin tulokset ovat samoja molemmilla eri määrittelytavoilla[5].

Seuravaksi käydään tarkemmin läpi ensimmäistä eli varianssin maksimointiin perustuvaa pääkomponenttianalyysin määritelmää. Oletetaan, että havain- toaineistossa X onderi satunnaismuuttujaa ja n eri havaintoa. Kiinnostuk- sen kohteena on varianssi ja kovarianssi tai korrelaatio satunnaismuuttujien välillä. Tarkoituksena on etsiä kuvausZ =A^TX. TässäA⊂R^d×n on joukko vektoreita: A = {α₁,α₂, . . . ,α_m}. Tarkoituksena on etsiä ensin vektori α1 ∈R^d siten, että kuvauksen varianssi Var(α^T₁X) on mahdollisimman suuri, jolloin vakiovektorin α₁ avulla selitetään mahdollisimman suuri osa alku- peräisen aineiston vaihtelusta. Nyt α^T₁X ∈R^1×n[3].

Seuraavaksi etsitään edellisen kuvauksenα^T₁X kanssa korreloimaton kuvaus α^T₂X, siten että etsitään vastaavasti vektori α₂, jolla kuvauksen varianssi saadaan mahdollisimman suureksi [3]. Korreloimattomuus kuvausten välillä tarkoittaa sitä, että

(13)

Corr(α^T₁X,α^T₂X) = 0

⇔Cov(α^T₁X,α^T₂X) =0

Vektoreiden etsimistä jatketaan eteenpäin niin pitkälle kun löydetään vektoreita α_i, joiden muodostama funktio α_iX ei korreloi minkään aikaisem- man kuvauksenα^T_kX kanssa. Funktionα^T_kX sanotaan olevan k:s PC, eli k:s pääkomponentti. Pääkomponenttien tarkoitus on yhdistää samaan kompo- nenttiin useamman alkuperäisen muuttujan vaihtelu. Ensimmäinen pääkompo- nentti selittää mahdollisimman paljon alkuperäisten muuttujien vaihtelusta, jonka lisäksi seuraava pääkomponentti selittää mahdollisimman paljon vaihtelusta, jota ensimmäinen pääkomponentti ei vielä selitä. Edelleen seuraava uusi pääkomponentti selittää aina mahdollisimman suuren osan vaihtelusta, joka on vielä selittämättä[3][6].

Edellä kuvattu kuvaus saadaan selvitettyä ominaisarvojen avulla. Pääkompo- nenttien etsinnässä käytetään apuna havaintoaineiston kovarianssimatriisia Σ, ja lausetta 2.7. Kovarianssimatriisissa on laskettuna kaikkien muuttujien väliset keskinäiset kovarianssit. Kovarianssimatriisi on symmetrinen ne- liömatriisi[3].

Huomautus 3.1. Jos kovarianssimatriisia ei tiedetä, niin sen estimaattina käytetään otoksesta laskettua kovarianssimatriisia. Kovarianssimatriisin sijasta voidaan käyttää myös korrelaatiomatriisia, jossa kovarianssien tilalla on muuttujien välinen korrelaatio. Tämä on suositeltavaa varsinkin jos muuttujat ovat yhteismitattomia. Korrelaatiomatriisin tilanteessa kaikki muuttujat normitetaan siten, että niillä on sama keskiarvo ja hajonta, jolloin muuttujien vaihtelu on samanarvoista [6][3].

Kovarianssimatriisin ominaisarvot λ_k saadaan seuraavasta yhtälöstä:

det(Σ−λ_kI) = 0

Koska kovarianssimatriisi on symmetrinen neli¨omatriisi kaikki ominaisarvot ovat reaalisia.

Ominaisarvojen avulla saadaan ominaisvektoritv_k ∈R^dseuraavasta yhtälöstä:

(14)

(Σ−λ_kI)v_k = 0.

Lause 3.2. Voidaan osoittaa, ett¨a kuvauksen varianssi:

Var(α^T_kX) =α^T_kΣα_k=λ_k,

miss¨a λ_k on kovarianssimatriisin Σ k:nneksi suurin ominaisarvo. N¨ain ollen kovarianssimatriisin Σ suurin ominaisarvo on samalla kuvauksen suurin mahdollinen varianssi.

Todistus. Kuvauksen odotusarvo:

E(α^T_kX) = α^T_kE(X) Joten varianssi:

Var(α^T_kX) = Cov(α^T_kX,α^T_kX)

=E((α^T_kX −E(α^T_kX))(α^T_kX −E(α^T_kX))^T)

=E((α^T_kX −α^T_kE(X))(α^T_kX −α^T_kE(X))^T)

=E((α^T_k(X−E(X))(α^T_k(X−E(X))^T)

=E((α^T_k(X−E(X))((X−E(X))^Tαk)

=α^T_kE((X −E(X))((X −E(X))^T)αk

=α^T_kΣαk

Varianssin maksimi vektorinα_ksuhteen saadaan derivoimalla. Samalla rajoi- tetaanα^T_kα_k= 1 jolloin ehkäistäänkα_kk → ∞. Apuna käytetään Lagrangen kerrointa jota kuvaa muuttuja βk.

F(α_k, β_k) =α^T_kΣα_k+β_k(1−α^T_kα_k).

T¨am¨an derivaataksi saadaan:

∇_α_kF = (Σ+Σ^T)α_k−2β_kα_k Koska Σon symmetrinen matriisi saadaan:

= 2Σα_k−2β_kα_k.

(15)

Kun derivaatta asetetaan nollaksi saadaan kriittiset pisteet yhtälöstä Σα_k =β_kα_k,

joten vektorin α_k täytyy olla matriisin Σ ominaisvektori v_k ja kertoimen β_k täytyy olla matriisin Σk:nneksi suurin ominaisarvo λ_k. Jos yhtälöä vielä kerrotaan vasemmalta puolelta vektorilla α^T_k ja käytetään aikaisempaa rajoitetta α^T_kα_k = 1 saadaan kuvauksen varianssi muotoon:

α^T_kΣα_k=λ_k,

joten varianssi maksimoituu kun α_k on ominaisvektoreista se jolla on suurin ominaisarvo.

Edellisestä saadaan, että k:nnen pääkomponentin α^T_kX vektori α_k saadaan, kun kovarianssimatriisista Σotetaan sen k:nneksi suurimman ominaisarvon λ_k ominaisvektori v_k [3]:

α^T_kX =v^T_kX.

Ominaisarvojen summa on sama kuin kovarianssimatriisin diagonaaliarvo- jen summa. Pääkomponenttien varianssien summa on siis sama kuin alku- peräisten muuttujien varianssien summa ja näin ollen pääkomponentit se- littävät kaiken alkuperäisen havaintomatriisin vaihtelusta. Yksittäisen pääkom- ponentinα_kselittämä osuus voidaan laskea ominaisarvojen avulla seuraavasti [6]:

λ_k Pd

i=1λ_i.

Menetelmän avulla lasketuista pääkomponenteista täytyy erikseen vielä päättää, kuinka monta suurinta otetaan jatkotarkasteluihin mukaan. Yleisenä sääntönä voidaan pitää komponenttien ottamista mukaan, kunnes niiden selittämä ko- konaisvaihtelu ylittää 80−90% kaikesta vaihtelusta. Valittujen komponenttien lukumäärämon aineiston uusi dimensio. Valittujen komponenttien omi- naisvektorit v_k ∈ R^d asetetaan matriisiin V ∈ R^d×m. Nyt uudet havainto- vektorit z_i ∈Rⁿ saadaan kuvauksella

Z =V^TX,

(16)

miss¨a Z ∈ R^m×n on matriisi, josta saadaan m kappaletta uusia havainto- vektoreita z_i. Toisin sanoen alkuper¨aisen aineiston X vektoreiden x_i koordinaatit korvataan vektoreiden z_i koordinaateilla, jolloin projektio saadaan muodostettua[6].

3.2 Moniulotteinen skaalaus

Moniulotteinen skaalaus (multidimensional scaling, MDS)[5] on pääkomponentti- analyysin tapaan ominaisvektoreihin perustuva menetelmä, joka pyrkii mallintamaan havaintojen välistä vaihtelevuutta suurissa havaintoaineistoissa [7]. Sillä pyritään konstruoimaan otosyksikköjen väliset suhteet käyttämällä pelkästään etäisyysmatriisia. Klassisessa MDS-menetelmässä tarkoituksena on laskea aineistolle pienidimensioinen projektio säilyttäen samalla niin hyvin kuin mahdollista parittaiset etäisyydet havaintopisteiden välillä. Jos esimerkiksi tiedämme etäisyydet tiettyjen kaupunkien välillä MDS menetelmä yrittää uudelleen muodostaa kartan, jonka perusteella nämä alkuperäiset etäisyydet on laskettu. Visualisoinnin kannalta uudeksi dimensioksi kannat- taa valita enintään 2 tai 3, jolloin tulkinta on helpointa. MDS-menetelmästä on erilaisia sovelluksia, esimerkiksi klassinen MDS [6], metrinen MDS [6] ja ei-metrinen MDS [6]. Erilaisia laskentamenetelmiä on näin ollen myös monia [7] [6][5].

Klassisessa menetelmässä etäisyys lasketaan Euklidisena etäisyytenä. Lähtökoh- tana menetelmässä on havaintojen i ja j väliset parittaiset etäisyydet q_ij. MDS on iteratiivinen menetelmä, jossa ensiksi arvioidaan uudet koordinaatit ja sitten tiettyjä kriteereitä käyttäen niitä pyritän täsmentämään. Ensiksi päätetään haluttu uusi dimensio m. Menetelmässä arvioidaan ensin kaikkien havaintojen koordinaatit halutussa uudessa dimensiossa ja saatujen koordinaattien avulla lasketaan havaintojen väliset uudet etäisyydet dij. Esimer- kiksi kun uusi dimensio m = 2 etäisyydet arvioitujen uusien koordinaattien (x_i, y_i) ja (x_j, y_j) välillä lasketaan seuraavasti:

d_ij = q

(x_i−x_j)²+ (y_i−y_j)².

Et¨aisyyksien q_ij ja d_ij v¨alille lasketaan regressiosuora. Regressio voi olla esimerkiksi lineaarinen, polynominen tai monotoninen. Lineaarisessa tapauksessa se on muotoa:

d_ij =a+bq_ij +e_ij,

(17)

missä a ja b ovat vakiokertoimia ja e virhetermi. Estimoidun mallin avulla havaitut etäisyydet q_ij skaalataan mahdollisimmann hyvin vastaamaan ar- vioituja etäisyyksiäd_ij testisuureen ST avulla:

ST =

P(d_ij −dˆ_ij)² Pdˆ²_ij

!¹₂

Testisuurretta ST kutsutaan stressiksi (stress formula), koska se arvioi sitä, että kuinka paljon koordinaattien estimaatteja ˆd_ij on muutettava, että uudet etäisyydet dij mahdollisimman hyvin vastaavat alkuperäisiä etäisyyksiä q_ij. Regressiota ja testisuureen laskemista toistetaan, kunnes ei saada enää parempia tuloksia eli kunnes testisuure ei enää pienene. Lopputuloksena saadaan uudet koordinaatit m-ulotteisessa avaruudessa [6].

IM (Isomap)-menetelmä on MDS-menetelmän muunnelma epälineaarisille aineistoille. IM-menetelmä käyttää pisteiden välisenä etäisyytenä euklidi- sen etäisyyden sijasta epälineaarisia polkuja. Menetelmässä muodostetaan ympäristögraafi G, joka on painotettu alkuperäisillä havaintojen välisillä ly- himmillä etäisyyksillä DG ∈ R^n×n k:n lähimmän naapurin kanssa. Graafis- sa solmuina ovat siis alkuperäiset havainnot x_i, i = 1, . . . , n ja jokaisesta havainnosta on piirretty havaintojen välisellä etäisyydellä painotettu kaari k:n lähimmän havainnon kanssa. Tällä tavalla upotus pienempidimensioiseen avaruuteen saadaan valikoimalla vektorit y₁, . . . ,y_m ∈ Rⁿ siten, että alku- peräisten etäisyyksien ja uusien havaintopisteiden parittaisten etäisyyksien erotus on mahdollisimman pieni.

3.3 Locally linear embedding

LLE-menelmä (locally linear embedding)[7] on myös yksi suosituimmista di- mensionpienentämismenetelmistä. Menetelmä laskee dimensioltaan pienen, saman ympäristön säilyttävän aineiston suuri-dimensioisesta lähtöaineistosta.

Menetelmän algoritmi perustuu yksinkertaisiin geometrisiin havaintoihin. Ole- tetaan edelleen, että aineisto on muotoa X ∈ R^n×d ja havainnot ovat otos jostakin sileästä monistosta. Mikäli aineisto on sopiva, eli havainnot ovat hyvin poimittu ympäri monistoa (the manifold is well-sampled), oletetaan että jokainen havaintopiste ja sitä lähimpänä olevat muut havainnot sijait- sevat samassa alueessa monistoa tai alueen lähettyvissä. Näin ollen esimerkiksi kaksidimensioisesta kuvasta voidaan erottaa ryhmiä eli havainnot ovat jakautuneet kuvassa useampaan eri paikkaan siten että paikkojen välillä voidaan nähdä eroja. Näiden alueiden geometria karakterisoidaan kertoimilla

(18)

w_ij, joiden avulla asetetaan uusi paikka jokaiselle alkuper¨aiselle havainnolle sen naapurihavaintojen perusteella.

Yksinkertaisessa LLE-menetelmässä lasketaan ensiksi jokaiselle havainnolle x_i ∈ R^d K kappaletta lähintä toista havaintoa käyttäen mittana Euklidis- ta etäisyyttä. Näiden naapurihavaintojen avulla muodostetaan seuraavaksi virhefunktio tässä tapauksessa seuraavasti:

ε(W) =

n

X

i=1

|x_i−

n

X

j=1

w_ijx_j|²

Yksittäinen painokerroin wij kertoo havaintopisteen j vaikutuksen havain- topisteeseen i. Virhefunktiossa käytössä on kaksi rajoitetta. Ensimmäiseksi kerroinw_ij = 0,jos havainto x_j ei kuulu havainnonx_i naapurustoon, eli K:n lähimmän naapurin joukkoon. Virhefunktiosta selvitetään kertoimiawij ∈R, jotka muodostavat kerroinmatriisin W ∈ R^n×n. Toinen rajoite on, että kerroinmatriisin rivit summautuvat ykköseen, eli:

n

X

j=1

w_ij = 1.

Virhefunktio minimoimalla selvitetään kertoimetw_ij. Tarkastellaan merkintöjen yksinkertaistamisen vuoksi yksittäistä havaintopistettäx_i ∈R^d ja käytetään siitä merkintääx. Tätä havaintopistettä lähimpänä sijaitsevistaK:sta toises- ta havainnoista käytetään merkintää n_j. Nyt virhefunktio tälle yksittäiselle havaintopisteelle voidaan kirjoittaa muotoon:

ε(w) = |x−

K

X

j=1

w_jn_j|².

Koska painot w_j summautuvat ykk¨oseen saadaan:

=|

K

X

j=1

w_j(x−n_j)|²

=

K

X

j=1 K

X

k=1

wjwk(x−nj)^T(x−nk)

(19)

Käytetään vielä loppuosan kovarianssimatriisin alkiosta merkintää C_kj ∈R, jolloin muodoksi tulee:

=

K

X

j=1 K

X

k=1

w_jw_kC_jk

=w₁w₁C₁₁+w₁w₂C₁₂+w₂w₂C₂₂+. . .+w_Kw_KC_KK

=w^TCw

Tässäw = (w1, w2, . . . , wK) ja C ∈R^K×K on kovarianssimatriisi. Virhfunk- tio ε(w) voidaan minimoida käyttämällä Lagrangen kerrointa λ∈R, jolloin funktio on muotoa:

f(w) = 1

2w^TCw

ja käyttäen edelleen ehtoa, että painojen summa on yksi, eli:

K

X

j=1

w_j = 1 ↔1^Tw= 1,

kun 1= (1,1, . . . ,1)∈R^K. Nyt rajoitusehto minimoinnissa on:

g(w) = 1^Tw−1 = 0.

N¨ain ollen optimaalisuusehto on:

∇f(w) +λ∇g(w) = 0

⇔Cw+λ1= 0

⇔w=−λC⁻¹1

⇔1^Tw=−λ1^TC⁻¹1 Rajoitusehtoa käytämällä tästä tulee:

⇔ −λ1^TC⁻¹1= 1

⇔ −λ= 1 1^TC⁻¹1

(20)

Sijoittamalla tämä aikaisempaan yhtälöön saadaan tarkastelun kohteena ol- leelle havaintopisteelle xoptimaaliseksi painoiksi saadaan:

w= C⁻¹1 1^TC⁻¹1

Käytännössä kuitenkin käänteismatriisin laskeminen on yleensä laskennal- liseti työlästä ja hidasta. Tehokkaampi keino virhefunktion minimoimiseen saadaan lineaaristen yhtälöryhmien avulla. Olkoon ˆw = (w, λ) ∈ R^K+1 ja b = (0,0, . . . ,0,1)∈R^K+1. Lisäksi olkoon

Cˆ =

C 1^T 1 0

.

Nyt w ja λ saadaan ratkaisemalla yht¨al¨o:

Cˆwˆ =b

⇔







C11 . . . C1K 1 ... . .. ... ... C_K1 . . . C_KK 1 1 . . . 1 0











 w1

... w_K

λ







=





 0

... 0 1







⇔

K

X

j=1

C_kjw_j =−λ∀k = 1, . . . , K

ja lis¨aksi

K

X

i=1

w_i = 1.

N¨ain saadaan samat arvot painokertoimille kuin edell¨a saatiin.

Painokertoimet, jotka selvitetään tällä tavalla, noudattavat mallin kannalta olennaista symmetriaa. Jokaisen yksittäisen havaintopisteen kanssa kertoimet ovat muuttumattomia siirrolle, kierroille ja uudelleen skaalaukselle havaintopisteiden välillä. Muuttumattomuus kierron ja uudelleen skaalauk- sen tapauksessa seuraa suoraan virhefunktiosta. Muuttumattomuus siirron

(21)

tapauksessa seuraa siitä, että painokertoimien summa on 1. Seuraus tästä symmetriasta on se, että painokertoimet karakterisoivat olennaiset geomet- riset ominaisuudet ryhmien muodosta, jotka monistoon lopulta muodostuvat.

Tarkastellaan seuraavaksi taas koko aineistoa yksittäisen havaintopisteen sijasta. Menetelmän tarkoitus on supistaa aineiston dimensioduuteen reilusti pienempään dimensioon m. Jokainen vektori x_i ∈ R^d projisoidaan vektoriin y_i ∈ R^m koordinaattien perusteella. Uudet koordinaatit saadaan minimoimalla seuraavaksi toinen virhefunktio uusien koordinaatien y_i suhten edelli- sestä virhefunktiosta saatujen kertoimien w_ij avulla:

Φ(Y) =X

i

|y_i−X

j

w_ijy_j|².

Nyt samat kertoimet jotka määritellään alkuperäiselle havaintopisteelle d- dimensioisessa monistossa määrittävät sen paikan myös m-dimensioisessa monistossa. Virhefunktio saadaan määriteltyä muodossa:

Φ(Y) =X

ij

m_ijy_iy^T_j.

Tämä muoto sisältää sisätulon uusista koordinaateista ja matriisin M ∈ R^n×n alkion m_ij ∈R:

m_ij =δ_ij −w_ij −w_ji+X

k

w_kiw_kj.

T¨ass¨aδ_ij = 1 jos i=j ja muuten 0. Koko matriisi M on muotoa:

M =I −W −W^T −W^TW = (I−W)^T(I −W) (3.1) Optimoinnissa käytetään ehtoja, jotka tekevät siitä hyvin asetetun. Koordi- naatteja y_i voidaan siirtää vakioiden avulla ilman, että virhefunktion arvo muuttuu. Näin ollen koordinaatit voidaan keskittää origoon:

X

i

y_i =0.

Huonojen (degenerated) ratkaisujen välttämiseksi asetetaan myös uusien koordinaattivektoreiden varianssi ykköseksi, jolloin:

1 n

X

i

y_iy^T_i =I,

(22)

miss¨aI ∈R^d×d on yksikk¨omatriisi.

Optimaaliset uudet koordinaattivektorit saadaan laskemalla matriisin M ominaisarvoista m+ 1 pienintä ja asettamalla uusiksi koordinaateiksi näitä ominaisarvoja vastaavat ominaisvektoritv_i ∈Rⁿ. Alimmainen matriisin ominaisvektori on ominaisarvoa nollaa vastaava yksikkövektori, jossa kaikki komponentit ovat yhtäsuuria. Tämä vektori jätetään huomioimatta, joka johtaa siihen rajoitukseen, että uusien koordinaattivektoreiden keskiarvo on nolla.

Näin ollen muiden ominaisvektoreiden komponenttien täytyy kohtisuoruu- den takia summautua nollaan. Näin saadaan n-kappaletta m-dimensioisia uusia koordinaattivektoreita y_i ∈ R^m. Koska matriisi M voidaan esittää lauseen 3.1 muodossa, niin sitä ei tarvitse täsmällisesti laskea missään vai- heessa. Ominaisvektoreiden selvittämiseen riittää se, että matriisiW ∈R^n×n on muodostettu, koska kertomalla lauseketta 3.1 molemmin puolin ominais- vektorilla v saadaan [5][7] :

M v= (v−W v)−W^T(v−W v).

3.4 Menetelmien hyvyydest¨ a

Sekä pääkomponenttianalyysi, LLE-menetelmä että MDS-menetelmä ovat yksinkertaisia toteuttaa ja ne eivät vaadi lokaalien minimien laskemista derivoimalla. Tämä selittää sen, että pääkomponenttianalyysi ja MDS ovat laajasti käytettyjä menetelmiä, vaikka niillä on olemassa tiettyjä rajoituk- sia. Nämä rajoitukset johtuvat mallien lineaarisuuteen liittyvistä oletuksis- ta. Jos muuttujien välillä on jokin epälineaarinen suhde, niin esimerkiksi pääkomponenttianalyysissä se jää kokonaan huomaamatta. Tämä johtuu kovarianssimatriisin käytöstä mallissa. Jos muuttujien jakaumista ei tiedetä pääkomponenttianalyysissä mitään, niin pääkomponentit ovat vain toisiaan vasten kohtisuorassa olevia vektoreita, joista ensimmäinen kulkee mahdollisimman läheltä kaikkia havaintopisteitä. Järkevämpi tulkinta kuitenkin saadaan, jos havaintojen tiedetään jakaantuvan normaalisti[7][6].

Aineiston informaation säilyttäminen voi myös olla haastavaa. Esimerkiksi pääkomponenttianalyysin tilanteessa kaikille aineistoille ei pystytä löytämään tarpeeksi pientä uutta dimensiota ilman, että informaatiota oleellisesti häviää.

Jos alkuperäisten muuttujien välillä korrelaatio on pientä, niin silloin ne kaikki yhdessä kuvaavat parhaiten aineiston ominaisuuksia ja pääkomponenttianalyysin käyttäminen ei tuota hyviä tuloksia[6].

(23)

4 Eksponenttiperheen upotusmenetelm¨ a

Edellisessä kappaleessa esiteltiin yleisimpiä käytössä olevia dimensionpie- nentämismenetelmiä, jotka perustuvat mitattavissa oleviin R^d aineistoihin.

Tutkielman tarkoituksena on tutustua tarkemmin eksponenttiperheen upo- tusmenetelmään, (exponential family embeddings, EF-EMB)[8], jossa voidaan käyttää myös muuntyyppisiä aineistoja. Tässä luvussa käydään läpi eksponenttiperheen upotusmenetelmän ominaisuuksia ja malliin liittyvää taustateoriaa. Aluksi lähdetään liikkeelle yleisen eksponenttiperheen määrittelystä, koska eksponenttiperheen upotusmenetelmään tarvitaan eksponenttiperheen teoriaa. Eksponenttiperheen upotusmenetelmä perustuu osittain sanaupotus- malleihin, joten niitä käsitellään myös omassa kappaleessaan. Eksponentti- perheen ominaisuuksien ja sanaupotusmallien jälkeen keskitytään pelkästään eksponenttiperheen upotusmenetelmän määrittelyyn ja ominaisuuksiin.

4.1 Eksponenttiperhe

Määritelmä 4.1. Eksponenttiperhe(Exponential family)on vektorimuuttu- jan ja vektoriparametrin tapauksessa niiden todennäköisyysjakaumien joukko, joiden tiheysfunktiot voidaan esittää sopivien funktioiden avulla seuraavassa muodossa [1][2]:

f(X|θ) = h(x_i)Exp(η(θ)^Tt(x_i)−a(η(θ))) (4.1)

Funktiossa 4.1:

• X on satunnaismuuttuja, jonka ominaisuuksia ja jakaumaa halutaan tutkia ja xi ∈ R^d on havainto satunnaismuuttujasta, my¨ohemmin i= 1, . . . , n.

• Eli jokainen havainto sisältää d dimensioisen mittauksen satunnaismuuttujasta ja havaintoja on yhteensän kappaletta.

• Vektori θ ∈R^t on tarkasteltavana olevan jakauman parametrivektori.

• Dimensiotmääräytyy tarkasteltavan jakauman parametrien lukumäärän mukaan.

(24)

• Funktiot :R^d→R^sontyhjentävät tunnusluvut (sufficient statistics)eli parametrien selvittämiseen tarvittava riittävä vektoriarvoinen funktio.

• Funktiota η:R^t→R^s sanotaan luonnolliseksi parametrivektoriksi.

• Kahdessa edellisessä funktiossa dimensio s määräytyy tarkasteltavan jakauman ja tilanteen mukaan ja on sama luku kummankin funktion tilanteessa.

• h:R^d→R varmistaa että X on oikeassa avaruudessa/mittayksikössä

• a : R^d → R on logaritmin normalisoija (log normalizer), jonka avulla tiheysfunktio integroituu arvoon 1

Eksponenttiperheeseen kuuluvat esimerkiksi normaalijakauma, gammajakau- ma, Poissonjakauma ja Bernoullin jakauma. Eksponenttiperheeseen kuulu- maton jakauma on esimerkiksi Studentin t-jakauma. Eksponenttiperheen avulla voidaan yleistää samoja teoriaan liittyviä ominaisuuksia usealle eri to- dennäköisyysjakaumalle. Esimerkiksi todistaessa jotakin lausetta sitä ei tarvitse erikseen todistaa jokaiselle eri todennäköisyysjakaumalle, vaan voidaan todistaa se päteväksi yleisesti eksponenttiperheen jakaumien tilantessa. Tällöin se pätee jokaiselle eksponenttiperheen jakaumalle. Eksponenttiperheen jakauman sanotaan olevan yksiulotteinen, jos havaintoaineiston dimensio don yksi ja muissa tapauksissa jakauman sanotaan olevan moniulotteinen. Seuraa- vassa esimerkissä käydään läpi, mitä yläpuolella esitetyt eksponenttiperheen funktiot ovat yksiulotteisen normaalijakauman tapauksessa.

Esimerkki 4.2. Normaalijakauma

Parametrivektori on nyt θ = (µ, σ). Normaalijakauman tiheysfunktio on muotoa:

f(x) = 1 σ√

2π exp

−(x−µ)² 2σ²

= 1

√2πexp

log 1

σ

exp −x²

2σ² + xµ σ² − µ²

2σ²

= 1

√2πexp −x²

2σ² +xµ σ² − µ²

2σ² −log(σ)

= 1

√2πexp µ

σ², −1 2σ²

(x, x²)^T − µ²

2σ² −log(σ)

(25)

Tästä muodosta nähdään, että yksiulotteisen normaalijakauman tapauksessa:

• t(x) = x

x²

• η(θ) = _µ

σ²

−_2σ¹2

= η₁

η₂

• h(x) =^√_2π¹

• a(θ) = _2σ^µ²2 + log(σ)

Eksponenttiperheen ominaisuuksista todistetaan seuraavaksi lause, jota tarvitaan my¨ohemmin.

Lause 4.3.

∇_ηa(η) =E_η[t(x)]

Toisin sanoen funktion a(η) derivointi vektorin η suhteen antaa tulokseksi vektorin t(x) ensimm¨aisen momenttivektorin eli odotusarvovektorin [1].

Todistus. Eksponenttiperheen määritelmässäf(x|η) =h(x) exp((η)^Tt(x)− a(η)) on tiheysfunktio, joten sen integraali yli koko määrittelyjoukon saa arvon yksi:

Z

f(x|η)dx= 1

⇔ Z

h(x) exp(η^Tt(x)−a(η))

dx= 1

⇔ Z

h(x) exp(η^Tt(x)) exp(−a(η))

dx= 1

⇔exp(−a(η)) Z

h(x) exp(η^Tt(x))

dx= 1

⇔exp(a(η)) = Z

h(x) exp(η^Tt(x)) dx

⇔a(η) = ln Z

(26)

Derivoimalla t¨at¨a parametrivektorinη suhteen saadaan:

∇_ηa(η) = ∇_ηln Z

Logaritmifunktion derivoimissääntöä käyttämällä päästään muotoon:

∇_ηa(η) = ∇_η R

h(x) exp(η^Tt(x)) dx R (h(x) exp(η^Tt(x)))dx

Ja edelleen yhtälön oikeaa puolta muokkaamalla päästään haluttuun lopul- liseen muotoon:

∇_ηa(η) =

R ∇_ηh(x) exp(η^Tt(x)) dx R (h(x) exp(η^Tt(x)))dx

=

R t(x)h(x) exp(η^Tt(x)) dx exp(a(η))

= Z

t(x)h(x) exp(η^Tt(x)) exp(−a(η)) dx

= Z

t(x)h(x) exp(η^Tt(x)−a(η)) dx

= Z

t(x)f(x|η)dx=E_η[t(x)]

Huomautus 4.4. Vastaavasti funktiona(η) derivoiminen kahdesti vektorin η muuttujien suhteen antaa vektorin t(x) kovarianssimtriisin:

∇²_ηa(η) = Cov_η[t(x)]∈R^s×s

Seuraavassa esimerkissä näytetään, miten lause 4.3 toimii yksiulotteisen normaalijakauman tapauksessa. Apuna on käytetty lähdettä [1].

Esimerkki 4.5. Odotusarvo ja kovarianssimatriisi yksiulotteisen normaalijakauman tapauksessa

Edellisess¨a esimerkiss¨a saatiin normaalijakaumalle:

(27)

η(θ) = _µ

σ²

−_2σ¹2

ja

a(θ) = µ²

2σ² + log(σ).

Ratkaistaan funktiosta η(θ) muuttujatµ ja σ:

η₁ = µ

σ² ↔µ= η₁ σ² η₂ = −1

2σ² ↔σ= r 1

−2η₂ Sijoittamalla η1 ja η2 funktioon a(θ) saadaan:

a(η) = µ²

2σ² + log(σ)

=−η₁²σ⁴

2σ² + log(σ)

=−η₁² 4η₂ +1

2log 1

2η₂

Joten odotusarvovektoriksi saadaan:

∇_ηa(η) =

∂a(η)

∂η₁ ,∂a(η)

∂η₂

= −η₁

2η2

, η²₁ 4η₂² − 1

2η2

= −_σ^µ2

2_2σ⁻¹2

, (_σ^µ2)²

4(_2σ⁻¹2)² − 1 2_2σ⁻¹2

= µ, µ²+σ²

= (E_η[x], E_η[x²]) =E_η[t(x)]

T¨ast¨a saa laskettua x:n varianssin:

Var_η(x) = E(x)²_η−E(x²)_η =µ²−(µ²+σ²) =σ²

(28)

Lasketaan seuraavaksi viel¨a koko kovarianssimatriisi:

∇²_ηa(η) =







∂²a(η)

∂η₁²

∂²a(η)

∂η2∂η1

∂²a(η)

∂η1∂η2

∂²a(η)

∂η²₂







=







−1 2η2

η1

2η²₂

η1

2η²₂ (^−η_2η3²¹ 2

− _2η¹2 2

)







=







−1 2⁻¹

2σ2

µ σ2

2(⁻¹

2σ2)²

µ σ2

2(⁻¹

2σ2)²

−(^µ

σ2)² 2(⁻¹

2σ2)³ − ₂₍−1¹ 2σ2)²







=





σ² 4µσ² 4µσ² ^µ²₂^σ⁴ + 2σ⁴





=





Var_η[x] Cov(x, x²) Cov(x, x²) Varη[x²]





= Cov_η[t(x)].

Nyt eksponenttiperheen määritelmä on tullut tutuksi esimerkkien avulla.

Seuraavaksi siirrytään sanaupotusmallien teoriaan ja niiden jälkeen jatketaan eksponenttiperheen upotusmenetelmän määrittelyyn, jossa seuraavan kerran tarvitaan tässä kappaleessa käsiteltyjä eksponenttiperheen ominaisuuksia.

4.2 Sanaupotukset

Sanaupotusten (word embeddings) [14] määritelmä on yleisimmän käsityksen mukaan erilaisten sanojen esittäminen numeerisessa muodossa. Useimmitten numeerinen esitys on Rⁿ vektori. Tässä tutkielmassa käsiteltävä eksponenttiperheen upotusmenetelmä perustuu sanaupotus malleille, joten seuraavaksi tutustutaan hieman sanaupotus mallien teoriaan. Sanaupotus mallit ovat hyvin toimivia malleja, kun halutaan ottaa selvää semanttisuuden, eli kielen merkityksen, samanlaisuudesta aakkoston eri termien välillä [8].

(29)

Esimerkiksi jos tarkastellaan tekstimuotoista aineistoa ja lasketaan sanoista

”kuningas”, ”mies”ja ”nainen”tehdyill¨a vektoriesityksill¨a seuraava laskutoimitus:

v(”kuningas”)−v(”mies”) +v(”nainen”)

voidaan saada tulokseksi vektori, joka on lähellä sanan ”kuningatar”vektoriesi- tystäv(”kuningatar”). Sovitetut sanaupotukset voivat siis auttaa ymmärtä- mään, ennustamaan ja hahmottamaan kielten rakenteita [14][16].

Ensimm¨aiset teoreettiset perusteet sanaupotuksille ovat 1950-luvun alusta.

Ensimmäiset yritykset käyttää sanojen ominaisuuksia esittämään niiden sa- mankaltaisuutta tehtiin käsin. 1990-luvun alussa otettiin ensimmäisiä ker- toja käyttöön automaattisesti koodattuja sanojen yhteydestä riippuvia ominaisuuksia. Sanaupotukset ovat yleistyneet 2010 luvulla ja nykyaikana sanaupotukset ovat suosituin tutkimusalueluonnollisen kielen käsitelyssä (Na- tural Language Processing, NLP) [14]. Sanaupotuksia ja niiden sovelluksia käytetään myös esimerkiksi automaattisessa puheentunnistuksessa ja tekstin käännöksissä [15]. Viime vuosina koneoppimisen tekniikoiden kehittyessä on tullut mahdolliseksi käyttää yhä monimutkaisempia malleja laajempiin aineistoihin ja nämä monimutkaisemmat mallit tyypillisesti suoriutuvat pa- remmin kuin yksinkertaiset mallit.

Yksinkertainen ja helppo tapa muodostaa sanoista vektoreita on asettaa jokaiselle sanalle x_i vektori Rⁿ avaruuteen, missä n on aakkoston koko. Jo- kaisen aakkoston kirjaimen kohdalla vektori saa arvon nolla kaikissa muissa paikoissa paitsi yhdessä tietyssä indeksissä. Sanojen esittäminen tällä tavalla johtaa usein harvaan aineistoon ja saatetaan tarvita paljon dataa, että esiin saadaan onnistuneesti mitään tilastollisesti järkevää. Tästä tulee tarve muodostaa jatkuva vektoriavaruuden esitys sanoille, joka johtaa aineistoon, jota voidaan hyödyntää erilaisilla malleilla. Tarkemmin sanottuna halutaan semanttisesti samankaltaiset sanat yhdistettyä lähekkäisiin pisteisiin, jotta saadaan esiin hyödyllistä informaatiota sanojen tarkoituksista [14][16].

Sanaupotusmallit voidaan jakaa menetelminä kahteen eri pääkategoriaan.

Ensimmäinen on laskentaan perustuvat menetelmät (count-based methods) ja toinen ennustavat menetelmät (predictive methods). Laskentaan perustuvat menetelmät eivät käytä ennustamista apuna, vaan kaikki tulokset nojaa- vat aineistoista laskettuihin lukuihin. Ennustavat menetelmät taas yrittävät ennustaa sanan sen naapurisanojen avulla suhteessa opittuihin upotettuihin vektoreihin. Molemmille päämenetelmille yhteistä on oletus, että sanat jotka esiintyvät samassa kontekstissa jakavat samantapaisen semanttisuuden [14].

(30)

Eri menetelmiä on useita ja niistä on paljon muunnelmia [8], mutta jokainen niistä kuvastaa samaa pääideaa. Menetelmissä jokainen aakkoston termi on liitetty kahteen vektoriin, upotettuun vektoriin ja kontekstivektoriin. Nämä kaksi vektoria hallitsevat ehdollisia todennäköisyyksiä, jotka yhdistävät joka sanan sitä ympäröivään kontekstiin. Eri menetelmät yhdistävät nämä eri tavalla [8].

Oletuksena kaikilla sanaupotusmenetelmillä on se, että samankaltaisilla sanoilla pitäisi olla samankaltaiset vektorit, eli samankaltaisten sanojen vektoreiden pitäisi korreloida keskenään. Tämä tarkoittaa sitä, että kahden sanan vektorin välinen korrelaatio on lähellä luka yksi. Se, että sanaupotukset ovat yhdistetty niiden kontekstiin kuuluviin sanoihin, nojaa samankaltaisiin ominaisuuksiin, eli samankaltaisilla sanoilla on tapana esiintyä samassa kontekstissa. Esimerkiksi tietyn valtion nimi esiintyy usein samassa yhteydessä sen pääkaupungin nimen kanssa. Tästä voi tulla ongelmaksi, että myös vas- takkaista tarkoittavat sanat korreloivat keskenään. Tämä tarkoittaa siis sitä, että sanojen välillä voidaan havaita negatiivista korrelaatiota eli sanojen vektoreiden välinen korrelaatio saa negatiivisia miinus yhtä lähellä olevia arvo- ja. Negatiivisen korrelaation ongelmaa on korjattu symmetristen rakenteiden avulla [14].

Toinen ominaisuus viimeaikaisissa sanaupotuksissa on se, että ne voidaan rat- kaista lineaarialgebran keinoilla, vaikka upotukset ovat muodostettu epäline- aarisilla menetelmillä [14]. Neuroverkkojen avulla lasketut esitykset sanoille ovat tässä mielessä mielenkiintoisia. Opitut vektorit koodaavat monta kieli- tietellistä riippuvuutta ja ryhmää ja yllättäen monet näistä voidaan esittää li- neaarisina käännöksinä. Esimerkiksi lähteessä [15] aineistona käytetään suurta määrää erilaisia uutisartikkeleita Googlen sisäisestä tietokannasta. Tässä aineistossa seuraava sanojen vektoriesitysten välinen laskutoimitus

v(”M adrid”)−v(”Espanja”) +v(”Ranska”)

on lähempänä sanan Pariisi vektoriesitystäv(”P ariisi”) kuin minkään muun sanan vektoriesitystä samassa aineistossa [15].

Yksi esimerkki sanaupotus mallista on Skip-gram malli, joka on tehokas me- netelmä, kun tarkastellaan sanojen vektoriesityksiä suuresta määrästä epä- muodollista tekstiä. Toisin kun useimmat neuroverkkoihin perustuvat mallit Skip-gram malli ei vaadi lukuisia matriisien kertolaskuja ja on siten lasken- nallisesti tehokkaampi [15]. Kuva 1 havainnollistaa Skip-gram mallin toimin-

(31)

taa.

Kuva 1:Esimerkkikuva Skip-gram mallin toiminnasta. Päämääränä on muodostaa sanoille vektorimuotoiset esitykset, joiden avulla voidaan ennustaa sanan läheisiä sanoja [15].

Skip-gram mallin tarkoituksena on muodostaa sanoille esitykset vektorimuo- dossa ja niiden avulla ennustaa sanan läheisiä sanoja tekstissä. Esimerkiksi sanan ”Volga”vektoriesitystä lähellä voi olla sanojen ”Venäjä”ja ”joki”vektori- esitykset. Tarkemmin ottaen sanoille ennustetaan muita sanoja tietyllä säteellä sanaa aikaisemmin ja sen jälkeen siten että tarkasteluissa voidaan myös hypätä osan sanoista yli [16].

Virkkeellew1w2. . . wm, miss¨a jokainenwi on yksi sana, k-skip-n-gram joukko on:

{w_i₁, w_i₂, . . . , w_i_n|

n

X

j=1

i_j −ij−1 < k},

jossa n on säde joka kertoo kuinka montaa peräkkäistä sanaa tarkastellaan ja k kertoo monenko vierekkäisen sanan yli tarkastelussa voidaan hypätä [17]. Tarkastelu aloitetaan tekstin ensimmäisestä sanasta ja edetään siitä eteenpäin, joten taakse jääviä sanoja nykyisen sanan kanssa ei tarvitse tar- kastella, koska skip-gram joukon alkiot näiden sanojen kanssa on saatu jo kun on tarkasteltu näitä edellisiä sanoja. Esimerkiksi virkkeen

(32)

”U lkona saattaa paistaa huomenna aurinko.”

0-skip-2-gram joukko on:

{(ulkona, saattaa),(saattaa, paistaa),(paistaa, huomenna), (huomenna, aurinko)}

ja 1-skip-2-gram joukko on:

{(ulkona, saattaa),(ulkona, paistaa),(saattaa, paistaa),(saattaa, huomenna), (paistaa, huomenna),(paistaa, aurinko),(huomenna, aurinko)}.

Säteenn kasvattaminen parantaa mallin tuloksia, mutta myös kasvattaa las- kemisen määrää. Esimerkiksi jos virkkeessä on 10 sanaa niin 4-skip-2-gram joukossa 35 alkiota ja 4-skip-3-gram joukossa on jo 80 alkiota. Toisaalta läheiset sanat vaikuttavat tiettyyn sanaan enemmän kuin kaukaisemmat.

Näin ollen kovin suurta etäisyyttä ei välttämättä tarvitse mallissa käyttää parempien tulosten saavuttamiseksi. Samoin ylihypättävien sanojen lukumää- ränk kasvattaminen lisää laskujen määrää. Jos virkkeessä on edelleen 10 sanaa, niin 0-skip-2-gram joukossa on 9 alkiota ja 4-skip-2-gram joukossa jo 35 alkiota [16][15].

Yksi skip-gram mallin vahvuuksista on se, että esimerkiksi kaksisanaisis- ta fraaseista voidaan muodostaa vain yksi vektori. Näin ollen malli pystyy käsittelemään myös kaksisanaiset fraasit, kuten esimerkiksi kaksisanaisen nimen ”Hartwall -areena”, vaikka sanat ”Hartwall”ja ”areena”eivät yksittäin muulloin esinny usein samassa kontekstissa. Tällä tavalla mallista saadaan tarkempi [15].

Toinen esimerkki sanaupotus-mallista on CBOW malli (Continuous Bag of Words), joka toimii päinvastaisesti, kuin Skip-gram-malli. CBOW-malli yrittää ennustaa tiettyä sanaa ympäröivien sanojen perusteella sen sijaan, että tietyn sanan vektoriesityksellä yritettäisiin ennustaa sen läheisiä sanoja [16].

Kuva 2 havainnollistaa tarkemmin CBOW-mallin toimintaa. CBOW-malli on itse asiassa seuraavassa kappaleessa käsiteltävän EF-EMB mallin erikois- tapaus [8].

(33)

Kuva 2: Esimerkkikuva CBOW mallin toiminnasta. Päämääränä on muodostaa tietylle sanalle vektoriesitys sitä ympäröivien sanojen vektoriesitysten perusteella [15].

4.3 Eksponenttiperheen upotusmenetelm¨ a

Luvussa käsitellään eksponenttiperheen upotusmenetelmää (Exponential Fa- mily Embeddings) [8]. Menetelmän tarkoituksena on saada laajojen havain- toaineistojen jakaumista esiin hyödyllisiä ominaisuuksia. Menetelmän avulla yritetään yleistää esimerkiksi edellisessä kappaleessa käsitellyt sanaupotusmallit sanojen lisäksi myös erityyppisille moniulotteisille aineistoille. Apuna käytetään eksponenttiperhettä ja sen ominaisuuksia. Yleistä eksponenttiper- hettä on käsitelty jo edellä kappaleessa 3.1.

Ensiksi määritellään menetelmässä tarvittavat käsitteet ja funktiot. Tämän jälkeen käydään täsmällisesti läpi kuinka menetelmän parametrit saadaan estimoitua. Lähteenä kappaleessa käytetään pääasiassa artikkelia [8].

Motivaationa eksponenttiperheen upotusmenetelmän käytölle pidetään sitä, että on mahdollista hyödyntää samaa menetelmää monenlaisiin aineistoihin silloin, kun näihin aineistoihin liittyvät oletukset pysyvät samoina. Eli siis samaa mallia voidaan käyttää useille eri aineistolle, kunhan ne noudattavat tiettyjä oletuksia. Esimerkiksi tarkasteltavana alana voi olla kielitiede, jolloin aineisto voi olla tekstiä ja indeksinä tietty sana sekä sanan paikka tekstissä. Toinen esimerkki on neurotiede, jolloin indeksinä voidaan esimerkiksi käyttää tiettyä neuronia sekä aikaa ja kiinnostava muuttuja voi olla esimerkiksi neuroneiden aktiivisuustaso eri neuroneissa. Kolmas esimerkki

(34)

on ostotottumusten tutkiminen, jossa indeksinä on tietyn asiakkaan ostos- kori ja siitä löytyvät tuotteet. Tässä tilanteessa kiinnostuksen kohteena voi olla mitä tuotteita ostetaan yleensä samalla ostokerralla. Neljäntenä esimerk- kinä ovat elokuva-arvostelut, missä indeksinä on sekä elokuva, että arvoste- lun antanut henkilö ja kiinnostuksen kohteena on elokuvien keskenäinen pa- remmuusjärjestys. Huomionarvoista tässä esimerkissä on se, että elokuvien paremmuusjärjestykseen vaikuttaa annetun arvosanan lisäksi myös arvosanan antaja. Jos tietty henkilö siis antaa keskimäärin parempia arvosanoja, niin EF-EMB malli ottaa sen huomioon, kun lasketaan lopullista arvosanaa tietylle elokuvalle.

4.3.1 Teoriaa

Eksponenttiperheen upotusmenetelmän mukaan tietyn havaintopisteen ja- kaumaan vaikuttaa ratkaisevasti muu aineisto havaintopisteen kontekstissa, kuten vaikka lähiympäristössä. Eksponenttiperheen upotusmenetelmässä on sanaupotusmallien tavoin myös ajatuksena, että havainnot, joilla on jokin samaa tarkoittava ominaisuus omaavat tyypillisesti myös samantyyppisen kon- tekstin [8][9].

Oletetaan, että eksponenttiperheen upotusmenetelmässä käsiteltävä aineis- to X ⊂ R^d on vastaavaa muotoa kuin luvun 2 alussa esiteltiin. Upotettuun eksponenttiperheeseen tarvitaankontekstifunktiota (context function), ehdol- lista eksponenttijakaumaa sekäupottava rakenne (embedding structure).

Ensiksi määritellään jokaiselle havaintopisteelle konteksti. Olkoon S_n kaikkien havaintojen x_i indeksien joukko eli S_n={1, . . . , n}.

Määritelmä 4.6. Konteksti määrittelee niiden muiden havaintojen joukon, joiden informaatiota käytetään hyväksi, kun määritellään jakaumaa tietyssä havaintopisteessä. Tietyn havainnonx_i kontekstijoukko c_i määritellään jouk- kona muiden havaintojen indeksejä:

c_i ⊂S_n.

Tietyn havainnon xi kontekstiin kuuluvien muiden havaintojen joukkoa eli havainnon kontekstia merkit¨a¨an muuttujalla x_c_i:

x_c_i ={x_i|i∈c_i}.