Neuroverkot akustisen sirontaongelman ratkaisemisessa

(1)

Neuroverkot akustisen sirontaongelman ratkaisemisessa

Jaan Johansson Pro-gradu tutkielma Sovelletun fysiikan koulutusohjelma It¨a-Suomen yliopisto, Sovelletun fysiikan laitos 16. lokakuuta 2018

(2)

IT ¨A-SUOMEN YLIOPISTO, Luonnontieteiden ja mets¨atieteiden tiedekunta Sovelletun fysiikan koulutusohjelma, laskennallinen fysiikka

Jaan Johansson: Neuroverkot akustisen sirontaongelman ratkaisemisessa Pro-gradu tutkielma, 54 sivua

Tutkielman ohjaajat: FT, Timo L¨ahivaara, FT, Tomi Huttunen Lokakuu 2018

Avainsanat: neuroverkko, akustinen sironta, HRTF, 3D-¨a¨ani

Tiivistelm¨a

Ihminen hyödyntää kolmiulotteista (3D) äänen paikantamista jokapäiväisessä elämässä. Korvakuulokkeilla tällainen äänen paikantamiskyky tavallisesti kadote- taan, mutta se on mahdollista saavuttaa keinotekoisesti. Tekemällä kuulokkeista tulevan äänen eri taajuuksille samat muutokset kuin ihmiskeho tekee luonnostaan, saadaan 3D ääni luotua myös kuulokkeisiin. Ihmiskehon muokkaama äänen taajuusspektri tunnetaan nimellä HRTF (Head-Related Transfer Function). Jokaisella ihmisellä on eri muotoinen keho, joten myös jokaisella on yksilöllinen HRTF. Ku- luttajatuotteisiin yksilölle personoitu HRTF saadaan simuloimalla jokaiselle ihmi- selle kehosta siroavan aallon paine. Tällainen simulointi on laskennallisesti raskasta ja tässä tutkielmassa tutkittiin neuroverkkojen hyödyntämistä simuloinnin korvaa- jana. Ihmiskehon sijaan käytettiin helpommin parametrisoitavia ellipsoideja äänen sirottajina. Neuroverkon oli tarkoitus muodostaa HRTF:ta edustava taajuusspektri, kun sille syötetään ellipsoidin puoliakseleiden suuruudet. Myös tarvittavaa opetusdatan määrää taajuusspektrin estimoinnin onnistumiseen tutkittiin. Neuroverkko oppi puoliakseleita vastaavat taajuusspektrit 100:n näytteen opetusjoukolla.

(3)

Sanasto

Sy¨otekerros Input layer

Tulostekerros Output layer

Piilokerros Hidden layer

Sy¨ote Input / Feature / Observation

Ulostulo Output / Label

Opetusdata Training data

Koedata Test data

Kelpuutusdata Validation data

HRTF Head Related Transfer Function

Leveystaso Azimuth

Korkeustaso Elevation

Kynnysarvo Bias

ReLU Rectified Linear Unit

Myötäsyötteinen Feed-Forward

Stokastinen gradienttioptimointialgoritmi, SGD Steepest Gradient Descent

Er¨aalgoritmi Batch Gradient Descent

Osajoukkoalgoritmi Mini-Batch Gradient Descent

Opetus-osajoukko Mini-batch

N¨ayte-er¨a Batch

Opetusaskel Training Step

Sakkofunktio Cost Function

Epokki Epoch

T¨aysin yhdistetty neuroverkko Fully Connected Neural Network

Pudotusmenetelm¨a Dropout

(4)

Sis¨ alt¨ o

1 Johdanto 5

1.1 Akustinen sironnan ratkaiseminen . . . 5

1.2 Simuloinnin korvaaminen neuroverkolla . . . 7

1.3 Tutkielman rakenne . . . 8

2 Neuroverkot 9 2.1 Neuroni . . . 9

2.2 Aktivointifunktiot . . . 10

2.3 Sakkofunktio . . . 11

2.4 Gradient descent . . . 13

2.5 Vastavirta-algoritmi . . . 14

2.6 Optimointialgoritmit . . . 15

2.7 Verkon parametrien alustaminen . . . 18

2.8 Hyperparametrit ja neuroverkon tyyppi . . . 18

2.9 Ylisovittaminen . . . 19

2.10 Regularisointimenetelm¨at . . . 20

3 Yksil¨ollisen HRTF:n opettaminen neuroverkolla 22 3.1 CIPIC-tietokanta . . . 22

3.2 HRTF:n opettaminen antropometrisista mitoista . . . 23

4 Menetelm¨at 25

5 Tulokset 30

6 Pohdinta 42

(5)

1 Johdanto

Kuulo on tärkeässä roolissa ihmisten havainnoidessa ympäristöään. Äänilähteen paikan- taminen on tässä merkityksellistä. Äänen paikantamisen mahdollistavat kumpaankin kor- vaan saapuneen äänen aikaero (Interaural Time Difference, ITD), korviin saapuneiden

äänten voimakkuusero (Interaural Level Difference, ILD) sekä saapuneiden äänten taa- juussisältö (Spectral cue). ITD:n, ILD:n ja taajuussisällön yhteisvaikutusta kuvataan yh- den taajuusspektrin (Head-Related Transfer Function, HRTF) avulla. ITD ja ILD muodostuvat äänilähteen etäisyydestä kummastakin korvasta sekä pään ulkoisista dimensiois- ta. Taajuusspektrin muoto perustuu ihmiskehon taajuusriippuvaan äänen muokkaami- seen. Kuten ITD ja ILD, taajuusspektrikin on erilainen eri suunnissa oleville äänilähteille.

A¨änen taajuussisällön muuttuminen johtuu kehon eri kohdista siroavan äänen ja suoraan korvakäytävään kulkevan äänen interferenssistä, sekä korvassa tapahtuvista äänen reso- nansseista. Spektrin muotoon vaikuttaa erityisesti ulkokorvan muoto [1]. Taajuusspektri ja asetelma sen muodostumiseen on esitetty Kuvassa 1.

Korvakuulokkeilla kuunneltaessa tällainen äänen paikantamiskyky tavallisesti kadote- taan ja ääni kuulostaa tulevan pään sisältä. Uudet sovellukset voisivat kuitenkin hyödyntää kolmiulotteista äänihavainnointia. Virtuaalitodellisuudessa, joka voi sisältää esimerkiksi pelejä tai oppimisympäristön, 3D ääni parantaa kokemusta merkittävästi. Tämän lisäksi myös vanhempaan teknologiaan on mahdollista tuoda uusia elementtejä 3D äänen avulla.

T¨allaisia ovat musiikki ja elokuvat.

Jotta kolmiulotteisen (3D) äänen kuuntelu olisi mahdollista, ääni on suodatettava.

A¨änelle on tehtävä samanlainen muokkaus, minkä keho tekee itse. Taajuusspektrin muodon määrittäminen on hankalin osa 3D äänen muodostamisessa korvakuulokkeille. Ih- misten kehot ovat anatomisesti erilaisia, jolloin ääni siroaa jokaisesta eri tavalla ja jokaisella ihmisellä on yksilöllinen HRTF. HRTF voidaan mitata asettamalla mikrofoni kor- vakäytävän suulle ja mittaamalla eri suunnista toistetun äänen taajuusspektri [2]. Tämä on hankalasti toteutettava menetelmä, kun 3D ääni halutaan käyttöön kuluttajatuot- teisiin. Voidaan myös valita jo olemassa olevista HRTF:stä parhaiten sopiva perustuen ulkokorvan ja pään mittoihin [3], mutta tämä ei vastaa yksilöllistä HRTF:ää.

1.1 Akustinen sironnan ratkaiseminen

A¨änen paikantamisessa tärkeässä roolissa ovat erityisesti HRTF:ssä olevien syvien kuop- pien sijainti taajuusakselilla [1]. Jotta käytetty HRTF saadaan vastaamaan todellista, voidaan korvakäytävän suulla taajuusvaste määrittää simuloimalla sironnut ääni tarkasti muodostetusta 3D mallista. Tämä vaatii akustisen sirontaongelman ratkaisua.

HRTF kuvaa akustisen kokonaispaineen p suuruutta taajuuden funktiona. Kokonais- paine koostuu äänilähteen aiheuttamasta paineesta p_i ilman sirottavaa kappaletta sekä

(6)

(a) (b)

(c)

Kuva 1: HRTF:n mittaamiseksi äänilähteestä toistettu akustinen aalto mitataan mik- rofonilla korvakäytävän suulla. Kuvassa (a) äänilähteestä toistettu aalto saapuu kor- vakäytävän suulle ajassa, joka riippuu aallon kulkemasta matkasta (b). Kuljetun matkan pituus määrittää, mikä on aallon vaihe, kun se saapuu mikrofonille (musta piste).

Eri polkuja pitkin saapuneet aallot ovat eri vaiheessa ja eri voimakkuuksilla, jolloin niiden interferenssi voi olla vahvistavaa tai heikentävää. (c) esittää esimerkki-HRTF:n, jossa aallon paine on taajuusriippuva.

(7)

kappaleesta siroavasta kent¨ast¨a ps

p=pi+ps. (1)

Pistel¨ahteen kentt¨ap_i on

p_i = e^ikr

4πr, (2)

missä k on aaltoluku ja r on etäisyys pistelähteestä. Akustisesti kovasta kappaleesta sironnut kenttä saadaan ratkaisemalla Helmholtzin ongelma [4, 5]

∇²p+k²p= 0. (3)

Sirottavan kappaleen pinnalla käytetään Neumann reunaehtoa

∂p

∂n = 0, (4)

missä ^∂p_∂n on paineen normaalin suuntainen derivaatta. Koska kokonaispaine p koostuu tulevasta paineesta ja sironneesta paineesta, ratkaistavaksi jää

∇²ps+k²ps = 0 (5)

∂p_s

∂n =−∂p_i

∂n (6)

R→∞lim R∂p_s

∂R −ikp_s

= 0, (7)

kun kenttä p_i tunnetaan. Ratkaisun on toteutettava Sommerfieldin ehto (7), jonka mukaan sironnut aalto vaimenee kulkiessaan sirottavasta kappaleesta äärettömyyteen. [5]

Joissakin erikoistapauksissa tämä voidaan ratkaista analyyttisesti sarjakehitelmien avulla [6, 7], mutta yleisissä geometrioissa tulee aina ratkaista numeerisesti. Tässä työssä ratkaisu on tehty numeerisesti käyttäen reunaelementtimenetelmää (Boundary Element Method, BEM) [8].

1.2 Simuloinnin korvaaminen neuroverkolla

Simuloinnissa haasteena on riittävän tarkan sirottavan kappaleen mallin muodostaminen sekä aikaa vievä laskenta. Tämä tutkielma tutkii neuroverkon mahdollista hyödyntämistä laskennallisesti vaativan simuloinnin korvaajaksi. Tavoitteena on opettaa neuroverkko antamaan ulostulona HRTF, kun sille annetaan syötteenä parametrisoitu sirottava kappale.

Neuroverkon toiminta on esitetty Kuvassa 2.

Sirottavana kappaleena käytetään ihmiskehon sijasta eri kokoisia ellipsoideja, jotta pystytään tekemään yksinkertainen geometrinen parametrisointi.

(8)

Sy¨ ote NN Ulostulo

HRTF Neuroverkon opettaminen

Opetetun neuroverkon k¨ aytt¨ o

Sy¨ ote NN HRTF

Virheen m¨a¨aritys Neuroverkon

muokkaaminen

Kuva 2: Neuroverkko halutaan antamaan ulostulona HRTF, kun sille syötetään ihmisen parametrisaatio. Neuroverkon opetusvaiheessa syötteen tuottamaa ulostuloa verrataan todelliseen HRTF:n ja verkkoa muokataan siten, että ulostulon ja HRTF:n välinen virhe pienenee. Opettamisen jälkeen neuroverkkoa voidaan käyttää antamaan HRTF ihmisen parametrisaation perusteella.

1.3 Tutkielman rakenne

Tutkielma koostuu seuraavista kappaleista. Kappaleessa 2 tutustutaan neuroverkkojen toimintaan. Kappaleessa 3 kuvaillaan aiemmin kirjallisuudessa toteutettua neuroverkkojen soveltamista HRTF:n määrittämiseen perustuen ihmisen antropometrisiin mittoihin.

Lisäksi tässä kappaleessa esitetään lyhyesti aiemmasta julkaisusta muokatun menetelmän tulokset. Kappaleessa 4 esitetään menetelmät tämän tutkielman varsinaisen tutkimuksen suorittamiseen. Kappaleessa 5 esitetään tutkimuksen tulokset ja kappaleessa 6 pohditaan tuloksia.

(9)

2 Neuroverkot

Vaikka neuroverkot ovat viimeaikoina yleistyneet, niiden idea on vanha. 1943, Warren S.

McCulloch ja Walter H. Pitts käyttivät yksinkertaista neuroverkkoa mallintamaan tie- totekniikassa käytettyjä loogisia operaatioita AND/OR/NOT [9]. Heidän käyttämänsä neuroverkko oli kuitenkin vain approksimaatio näille operaatioille ja siltä puuttui toinen tärkeä neuroverkkojen ominaisuus, oppiminen. 1949 Donald Hebb kuvasi kirjassaan, miten neuroverkko pystyy oppimaan [10]. Esimmäinen tosielämän ongelmaan sovellettu neuroverkkokin syntyi kymmenen vuotta tämän jälkeen [11]. Laajempi neuroverkkojen yleistymistä ei kuitenkaan tapahtunut tähän aikaan. Seuraava aalto neuroverkkojen suo- siossa tuli 1990-luvulla [12]. Tämän vuosikymmenen aikana yksi suurimmista kehitysas- kelista oli konvoluutioneuroverkkojen (Convolutional neural networks, CNN) keksiminen [13]. Kaikesta huolimatta tällöinkään neuroverkot eivät tulleet nimenä tutuksi laajemmal- le yleisölle. 90-luvulta 2010 luvulle tapahtui kaksi asiaa, jotka mahdollistivat neuroverkkojen laajemman hyödyntämisen. Yksi näistä on tietokoneiden laskentatehon kasvaminen ja erityisestä näytönohjainten kehittyminen ja pilvilaskennan mahdollisuus. Toinen on suuren datamäärän saatavuus internetin yleistymisen myötä, jota tarvitaan neuroverkkojen opettamiseen. Viime vuosina neuroverkkojen saavutukset sekä tutkimuksessa että teknologiateollisuudessa ovat olleet merkittäviä. Tästä kertoo suuret koneoppimiseen liit- tyvien julkaisujen määrät ja esimerkkejä merkittävistä saavutuksista teollisuudessa ovat puheen tunnistamiseen (Speech Recognition) [14, 15] ja kuvien tunnistamiseen (Image Recognition) [16, 17] liittyvät sovellukset.

Perinteisesti tietokone suorittaa ihmisen ohjelmoimat käskyt. Nämä ovat tehokkai- ta menetelmiä, kun tiedetään millaista algoritmia tarvitaan. Algoritmin suunnittelemi- seen tulee ongelma, kun halutaan esimerkiksi tunnistaa kuvassa olevia esineitä. Tähän on hankala suunnitella algoritmia ja siksi tällaisissa tehtävissä hyödynnetään koneoppi- mista. Koneoppimisen tarkoituksena on, että algoritmi oppii itse suoriutumaan halutusta tehtävästä mahdollisimman hyvin. Tällöin ihminen ei määrittele algoritmia vaan se oppii itsenäisesti kaikki yksityiskohdat. Oppimisesta vastaa neuroverkko. [12, 18, 19]

Neuroverkko on tietokonealgoritmi, joka pystyy oppimaan funktioita sille syötetyn datan perusteella. Neuroverkko mukailee ihmisaivojen toimintaa ja se koostuu toisiinsa kytketyistä neuroneista. Tässä kappaleessa tutustutaan neuroverkkojen rakenteeseen ja niiden oppimisprosessiin.

2.1 Neuroni

Neuroverkko koostuu yksittäisistä neuroneista, joiden toiminta mukailee ihmisaivossa olevien neuronien toimintaa. Aivoissa yksittäiset neuronit ovat yhteydessä toisiinsa eri vah- vuisten liitosten avulla ja tämä mahdollistaa aivojen toiminnan. Keinotekoisessa neuro-

(10)

verkossa (artificial neural network) neuronit on jaettu kerroksiin. Kuvassa 3 on neuroverkko, jossa on kolme kerrosta. Ensimmäistä kerrosta sanotaan syötekerrokseksi ja viimeistä ulostulokerrokseksi. Näiden välissä ovat piilokerrokset. Kuvassa näkyvät nuolet kertovat, miten neuronit ovat yhteydessä toisiinsa. Jokaisen kerroksen jokainen neuroni on yhtey- dessä jokaiseen vierekkäisten kerrosten neuroniin.

Jokaisella neuronilla on yksi skalaariarvo. Syötekerroksen neuroneilla tämä arvo määr-

äytyy verkkoon syötettävän datan mukaan. Muiden kerrosten neuroneilla tämä skalaariarvo määräytyy edellisten kerrosten neuronien arvojen ja neuronien välisten yhteyksien mukaan. Neuronien yhteyksien voimakkuutta kuvataan painokertoimilla w_kj^l , jotka ovat yk- silöllisiä jokaiselle neuronien väliselle yhteydelle. Edellä esitetty painokerroin on kerrokses- salolevanj:n neuronin ja kerroksessal−1 olevankneuronin välillä, kun syötekerroksessa l= 1 ja ulostulokerroksessa l =L. Neuronien välisiä yhteyksiä kuvaavien painojen lisäksi jokaiselle neuronille on oma kynnysarvo (bias) b^l_j.

Yksinkertaisimmassa neuroverkossa jokaisella neuronilla suoritetaan laskutoimitus, jossa edellisen kerroksen neuronien arvotx^l−1_k painotetaan painokertoimilla. Neuronin arvoksi tulee 1, jos summa on suurempi kuin kynnysarvo ja 0, jos summa on pienempi kuin kynnystermi

ulostulo=







1, jos Σw^l_kjx^l−1_k ≥b^l_j 0, jos Σw^l_kjx^l−1_k < b^l_j

. (8)

Tällaisia neuroneja kutsutaa perseptroneiksi ja neuroverkkoa, joka koostuu perseptroneis- ta kutsutaan perseptronineuroverkoksi. Todellisuudessa neuroverkoissa ei käytetä perseptroneja, koska niiden binäärisestä arvosta on haittaa opettamisen aikana. Opetettaessa neuroverkkoa, toivottavana ominaisuutena on muutokset syötekerroksessa saavat aikaan jatkuvia muutoksia ulostulokerroksessa. Tämä ei toteudu käytettäessä perseptroneja.

Vaihtoehto perseptroneille on käyttää neuronien arvona summaa Σ_kw^l_kjx^l−1_k +b^l_j. Tällai- nen neuroverkko on lineaarinen funktio nimeltään Linear Regression Model. Vaikka lineaarinen verkko helpottaa oppimista, se pystyy approksimoimaan ainoastaan lineaarisia funktioita. Todellisuudessa valtaosa ongelmista, joihin neuroverkkoja pyritään hyödyntämään, ovat epälineaarisia. Neuroverkon approksimoiva funktio saadaan epälineaariseksi käyttä- mällä aktivointifunktiota (activation function).

2.2 Aktivointifunktiot

Neuroverkon kyky oppia epälineaarisia funktioita mahdollistuu, kun käytetään aktivointifunktiota. Aktivointifunktion halutaan olevan jatkuva, jotta pienet muutokset syötteessä aiheuttavat vain pieniä muutoksia ulostulossa. Kuitenkaan ei haluta lineaarista aktivointifunktiota. Aktivointifunktiona voitaisiin käyttää monenlaisia funktioita, mutta nykyään

(11)

b

¹₁

b

¹₂

b

¹₃

b

²₁

w

_1,3²

w

_2,1¹

Sy¨ otekerros Piilokerros Ulostulokerros

y

x

₂

x

₁

Kuva 3: Esimerkki täysin yhdistetystä neuroverkosta. Siinä on kolme kerrosta: syötekerros, piilokerros ja ulostulokerros. Kaikissa kerroksissa jokainen neuroni on yhdistetty vie- rekkäisten kerrosten neuroneihin.

Linear Unit) R(x)[18]

σ(x) = 1

1 +e^−x (9)

tanh(x) = e^x−e^−x

e^x+e^−x (10)

R(x) = max{0, x}. (11)

Aktivaatiofunktion arvoa neuronin arvollaxkutsutaan aktivaatioksi. Kuvassa 4 on esitetty edellä mainitut aktivointifunktiot. On huomioitava, että aktivaatio voi saada vain tiet- tyjä arvoja. Tämän vuoksi ulostulot on skaalattava, jotta ulostulokerroksen aktivaation on mahdollista saada jokainen ulostulon arvo. Tämä tarkoittaa, että esimerkiksi sigmoidia käytettäessä ulostulokerros on skaalattava välille ]0,1[.

2.3 Sakkofunktio

Neuroverkon opettaminen tarkoittaa painojen ja kynnysarvojen muokkaamista siten että neuroverkon syötextuottaa ulostulokerroksellaLaktivaationa^L(x), joka on mahdollisimman lähellä todellista ulostuloa y. Tämä tarkoittaa optimointiongelman ratkaisua, jossa minimoidaan residuaali||y−a^L(x)||jossakin muodossa.

Neuroverkon opettamiseksi tarvitaan opetusdataa. Opetusdata sisältää syötteitä ja niitä vastaavat ulostulot. Syötteiden syöttämistä neuroverkkoon ja näitä vastaavien ulostulojen laskemista kutsutaan myötäsyötteiseksi (feed-forward) prosessiksi. Sakkofunktiok-

(12)

Kuva 4: Yleisimmin käytetyt aktivointifunktiot sigmoidi, hyperbolinen tangentti ja ReLU sekä näiden derivaattafunktiot.

si voidaan valita residuaalin normin neli¨o

C_x =||y(x)−a^L(x)||². (12) Sigmoidin ja hyperbolisen tangentin derivaatat ovat lähellä nollaa, muualla kuin pis- teen x = 0 läheisyydessä. Tämän seurauksena käytettäessä sigmoidia tai hyperbolista tangenttia aktivointifunktiona ja normin neliötä sakkofunktiona, neuroverkon oppiminen tapahtuu nopeasti, kun verkko on vain vähän väärässä, mutta hitaasti kun verkko on enemmän väärässä. Tämä heikentää verkon kykyä oppia ja johtuu näiden ak- tivointifunktioiden derivaatan suuresta arvosta lähellä nollaa ja pienenevästä arvosta etäännyttäessä nollasta. Tämä ongelma voidaan huomioida käyttämällä sakkofunktiona nk. cross-entropy:ä

C=−1

nΣ_x[ylna^L+ (1−y) ln(1−a^L)]. (13)

(13)

T¨am¨an sakkofunktion derivaatassa painojen ja kynnysarvojen suhteen

∂C

∂w_j = 1

nΣ_xx_j(σ(z)−y) (14)

∂C

∂b = 1

nΣ_x(σ(z)−y) (15)

ei ole σ⁰ termej¨a, jotka aiheuttavat neuroverkon oppimisen hidastumisen. Lis¨aksi sakkoC on suurin, kun aktivaatio ulostulokerroksessa tuottaa suurimman virheen.

2.4 Gradient descent

Oppimisen aikana neuroverkko muuttaa parametrejään w_kj^l ja b^l_k sopivammiksi. Tämä tapahtuu muuttamalla niitä kohti sakkofunktion negatiivista gradienttia. Gradientin ana- lyyttinen laskeminen globaalin minimin löytämiseksi ei ole mahdollista, koska muuttu- jien määrä on liian suuri. Tämän vuoksi opetusjoukon näytettä x vastaavat gradientit on laskettava erikseen jokaiselle ulostulokerroksen neuronille. Sakkofunktion gradienttina käytetään koko opetusjoukon yksittäisille näytteille laskettujen gradienttien keskiarvoa

∇C = 1

nΣ_x∇C_x. (16)

Lasketusta sakkofunktion gradientista saadaan gradientti jokaisessa ulostulokerroksen neu- ronissa sekä painokertoimien että kynnysarvon suhteen. Näille parametreille saadaan nyt laskettua päivitetyt arvot

w^0L_jk =w_jk^L −η ∂C

∂w^L_jk (17)

b^0L_j =b^L_j −η∂C

∂b^L_j . (18)

Tämä eräalgoritmi (Batch gradient descent) [20] muuttaa neuroverkon painoja ja kynny- sarvoja koko opetusjoukon sakkofunktion negatiivisen gradientin suuntaan. Mikäli sakko- funktiossa on useita lokaaleja minimikohtia, verkon oppiminen voi pysähtyä näihin kohtiin (Kuva 5).

Vaihtoehtoinen tapa on päivittää neuroverkon parametreja erikseen jokaisella näytteellä lasketulla sakkofunktiolla käyttäen stokastista gradienttioptimointialgoritmia (Stochastic gradient descent, SGD) [20]. Tällöin yksittäisten näytteiden erilaiset sakkofunktiot saavat neuroverkon muuttamaan parametreja eri tavoin (Kuva 5). Tällöin vähennetään riskiä opettamisen pysähtymiseen lokaaleihin minimeihin. Mutta toisaalta tällöin neuroverkon oppiminen hidastuu, koska yksittäisten näytteiden sakkofunktiot ovat erilaisia, eivätkä approksimoi hyvin koko datan sakkofunktiota ja globaalia minimiä. Kompromissina näille

(14)

Kuva 5: Eräalgoritmi muodostaa lokaaleja minimejä, joihin neuroverkon oppiminen voi pysähtyä. SGD:ssä yksittäisten näytteiden sakkofunktioiden lokaalit minimit ovat eri koh- dissa, jolloin oppimisen pysähtymiseltä ennen globaalia minimiä on mahdollista välttyä.

kahdelle menetelmälle on osajoukkoalgoritmi (mini-batch gradient descent). Tässä mene- telmässä koko opetusjoukosta on valittu osajoukko, jonka näytteille lasketaan sakkofunktion gradientit ja näiden keskiarvoa käytetään parametrien päivittämiseen. Tämän avulla voidaan ehkäistä lokaalien minimien ongelmaa, mutta toisaalta yksittäisten näytteiden sakkofunktiot eivät hidasta opettamista.

Opetus-osajoukko vaihdetaan jokaisen opetusaskeleen (training step) jälkeen. Ope- tusaskeleen aikana yksi näyte tai näytejoukko (batch) syötetään neuroverkkoon ja verkon kaikki parametrit muutetaan negatiivisen gradientin suuntaan. Opetusaskel toistetaan, kunnes kaikkia opetusnäytteitä on käytetty opettamisessa. Kun kaikkia näytteitä on käytetty opettamisessa, on kulunut yksi epokki.

2.5 Vastavirta-algoritmi

Sakkofunktion ja SGD:n avulla saadaan muutettua ulostulokerroksen painoja ja kynny- sarvoja, siten että verkko suoriutuu paremmin. Aiempien kerrosten parametrien muut- tamiseen käytetään vastavirta (backpropagation) -algoritmia [21]. Algoritmi laskee ensin ulostulokerroksen aktivaatioiden virheet δ_j^L jokaiselle neuronille

δ_j^L= ∂C

∂a^L_j σ⁰(z_j^L). (19)

(15)

Ensimm¨ainen termi mittaa sakkofunktion muutoksen j neuronin aktivaation suhteen.

Tähän termiin vaikuttaa valittu sakkofunktio. Toinen termi mittaa, miten j neuronin aktivaatio muuttuu neuronin arvon z_j^L funktiona. Tähän termiin vaikuttaa valittu aktivaatiofunktio.

Kun ulostulokerroksen aktivaatioiden virheet tiedet¨a¨an, virheet jatketaan neuroverkon edelliselle kerroksellel =L−1

δ^L−1 = ((w^L)^Tδ^L)·σ⁰(z^L−1). (20) Tämä yhtälö voidaan yleistää pätemään kaikille kerroksille, jolloin saadaan tietää virhe jokaisella kerroksella. Kerroksen l aktivaatioiden virhe on

δ^l= ((w^l+1)^Tδ^l+1)·σ⁰(z^l). (21) Virheen suuruuden eteneminen kuhunkin edellisen kerroksen neuroniin määräytyy neuronien välisen painon suuruudella eli sillä, miten vahva näiden neuronien liitos on.

SGD tarvitsee sakkofunktion osittaisderivaatat neuroverkon parametrien suhteen. Nämä saadaan neuronin aktivaation virheestä seuraavien yhtälöiden avulla

∂C

∂b^l_j =δ^l_j (22)

∂C

∂w_jk^l =a^l−1_k δ_j^l. (23)

Sijoittamalla nämä yhtälöön (17) ja (18), saadaan päivitettyä kaikki neuroverkon parametrit.

2.6 Optimointialgoritmit

Tähän asti neuroverkon parametrien päivittäminen on tehty muuttamalla niitä sakkofunktion negatiivisen gradientin suuntaan askelparametrin määräämän matkan. Tällainen optimointi johtaa jyrkkiin suunnanmuutoksiin opetuksen aikana. Lisäämällä optimointiin parametrien liikemäärä, saadaan oppimispolkua ja siten opetukseen käytettyä aikaa lyhen- nettyä (kuva 6). Tämä myös pienentää lokaalien minimien vaikutusta. Liikemäärän vaikutus saadaan, kun opetusaskeleessa huomioidaan myös aiemman opetusaskeleen sakkofunktion gradientin suunta. Voidaan ajatella että gradientin määräämä kiihtyvyys muuttaa parametrien edellisen muutoksen liikemäärää samalla tavalla kuin gravitaatio vaikuttaa mäessä vierivän pallon etenemiseen.

Liikemäärän vaikutus saadaan lisäämällä painojen päivittämiseen (17) edellisellä iteraatiolla tehdyn muutoksen sisältävä termi. Käytetään parametreille w^l_jk ja b^l_j yhteistä

(16)

Kuva 6: Liikemäärän lisääminen lisää saman vaikutuksen kuten kappaleen massa mekanii- kassa. Massa saa aikaan edellisellä iteraatiolla käytetyn parametrien muutoksen lisäämisen seuraavan iteraation parametrin arvon estimointiin. Liikemäärää hyödyntämällä on mahdollista vähentää opetukseen käytettyä aikaa.

merkintääθ, jota voidaan käyttää jokaisen painon ja kynnysarvon päivittämiseen. Lisäksi merkitään ^∂C_∂θ = dθ. Tällöin iteraatiolla i päivitetty parametrin θ arvo liikemäärä huo- mioituna on

θ_i =θi−1+η∆θ_i, (24)

miss¨a iteraatiolla itapahtuva muutos parametrissa θ

∆θ_i =β∆θi−1−(1−β)dθ_i. (25)

Kerroin β ja määrittää, miten paljon painotetaan edellisen iteraation liikemäärää.

Optimointialgoritmeissa oppimiskertoimen suuruuden valinnalla on suuri merkitys neuroverkon oppimiseen. Liian suurella arvolla neuroverkon on hankala supeta lähestyttäessä minimikohtia ja liian pieni arvo vaatii liian paljon aikaa supetakseen. Nykyaikaisilla opti- mointialgoritmeilla on mahdollista vaikuttaa liikemäärän merkitykseen ja oppimiskertoimen mukautumiseen opetuksen aikana. AdaGrad [22], RMSProp [23] ja Adam [24] ovat eräitä suosituimpia optimointialgoritmeja [18]. Näillä algoritmeilla on jokaisella omat vah- vuutensa ja heikkoutensa.

AdaGrad mahdollistaa jokaiselle parametrille oman oppimiskertoimen asettamisen ja näiden parametrien muuttamisen omien sakkofunktioiden gradienttien perusteella. Neu- roverkon seuraava parametri θ_i saadaan päivittämällä aiemman iteraation parametria

θ_i =θi−1− η +√

ri

dθ. (26)

(17)

on pieni luku nollalla jakamisen v¨altt¨amiseksi ja ri on aiemmat gradientit huomioiva funktio

r_i =r_i−1+ (dθ)². (27)

r_i kasvaa jokaisella iteraatiolla ja sen vuoksi tämän algoritmin ongelmana on, että sen askelparametri pienenee jokaisella iteraatiolla. Suurin ongelma tämä on lokaalien minimien kohdalla, jossa askelparametri pienenee voimakkaasti ja globaaliin minimiin suppeneminen hidastuu huomattavasti.

RMSProp-algoritmi vastaa AdaGradia muuten kuin oppimiskertoimen mukautumisel- la. RMSProp muuttaa oppimiskerrointa siten että aiempien iteraatioiden sakkofunktiot huomioidaan eksponentiaalisesti pienenevällä painolla. Funktiona r_i käytetään

r_i =ρri−1+ (1−ρ)dθ², (28)

miss¨a ρ on positiivinen luku.

Adam vastaa RMSProp-algoritmia sillä muutoksella, että siinä lisätään liikemäärän vaikutus. Parametrien muutosta edustava termi koostuu kahdesta osasta. Ensimmäinen osa vastaa liikemäärää ja se koostuu aiemman iteraation muutoksen suunnasta mi−1 ja tämänhetkisen iteraation sakkofunktion gradientista dθ

m_i =β₁mi−1+ (1−β₁)dθ. (29) Toinen osa koostuu RMSProp-algoritmin termist¨a

v_i =β₂vi−1 + (1−β₂)dθ². (30) Liikemääräosassa ja RMSProp-osassa on eri painokertoimet β₁ ja β₂, jotka määrittävät aiempien gradienttien ja nykyisen gradientin painotuksen. Adam-algoritmissa termitm_ija v_i alustetaan nolliksi. Tämä aiheuttaa harhan todellisiin arvoihin verrattuna. RMSProp- algoritmissa vastaavaa ongelmaa ei ole huomioitu, mutta Adam käyttää termien m_i ja v_i sijaan korjattuja termejä

˜

m_i = m_i

1−β₁ⁱ (31)

˜

v_i = v_i

1−β₂ⁱ, (32)

missä parametrien β₁ ja β₂ eksponentti on tämänhetkinen iteraatio. Lopullinen Adam- algoritmin parametrien päivitys on

θ_i =θ_i−1−α m˜_i

√˜vi+. (33)

(18)

2.7 Verkon parametrien alustaminen

Ennen ensimmäistä myötäsyötteistä operaatiota kaikki neuroverkon parametrit on alus- tettava. Alustaminen tehdään tavallisesti valitsemalla painoille ja kynnysarvoille satunnai- set arvot jostakin jakaumasta. Jakauma voi olla esimerkiksi normaalijakauma tai tasaja- kauma. Satunnaisesti valituilla parametrin arvojen suuruudella on merkitys syötekerroksen neuroneista lähtevän signaalin etenemiseen neuroverkossa. Liian pienet parametrien arvot aiheuttavat neuroverkossa edetessään signaalin heikkenemisen jokaisella kerroksella ja liian suuret aiheuttavat signaalin kasvamisen jokaisella kerroksella. Xavier-algoritmi [25] valitsee automaattisesti painot sopiviksi ja kynnysarvot alustetaan usein nollaksi.

Algoritmi valitsee kerroksen l painot w^l yleensä normaalijakaumasta tai tasajakaumasta määrittelemällä jakauman varianssin syöte- ja ulostulokerrosten neuronien määrän mukaan. Jakauman varianssi on

Γ(w^l) = 2

n₁ +n_L, (34)

missän₁ on ensimmäisen kerroksen neuronien määrä ja n_L on viimeisen kerroksen neuronien määrä.

Parametrien alustamisella on suuri merkitys neuroverkon oppimiseen. Xavier algorit- mistä on suurin hyöty sigmoidia tai hyperbolista tangenttia neuronien aktivointifunktiona, jolloin vältytään suurten tai pienten arvojen aiheuttamalta pieneltä gradientilta, jonka seurauksena neuroverkko oppii hitaasti. Käytettäessä ReLU:a aktivointifunktiona, sopivampi varianssi Γ painokertoimien jakaumalle on [26]

Γ(w^l) = 2

n_l, (35)

missä n_l on kerroksessa l olevien neuronien lukumäärä.

2.8 Hyperparametrit ja neuroverkon tyyppi

Neuroverkon oppimien parametrien lisäksi käyttäjän on määritettävä hyperparametrit (hyper-parameters). Hyperparametrit valitaan ennen opettamista ja niiden avulla py- sytään vaikuttamaan neuroverkon kykyyn oppia. Näitä parametreja ovat muun muassa neuroverkon rakenteen määrittävät piilokerroksien määrä ja neuronien määrä kussakin kerroksessa sekä SGD:n oppimiskertoimen koko.

Hyperparametrien valitsemiseksi ei ole selviä sääntöjä, mutta neuroverkon sovelluskoh- de on ensimmäinen asia, jossa joudutaan tekemään päätöksiä hyperparametreista. Vielä ennen varsinaisten parametrien määrittämistä joudutaan tekemään valinta, millaista neuroverkkoa halutaan käyttää. Tämän tutkielman tulokset on saatu käyttämällä täysin yh- distettyä neuroverkkoa, mutta mainittakoon että monissa ongelmissa on käytössä kon-

(19)

voluutio neuroverkot (Convolutional Neural Networks, CNN) [13] ja takaisinkytkeytyvä neuroverkko (Recurrent Neural Network, RNN) [18] muun muassa niiden kuvien spatiaa- lisen ja puheen temporaalisen informaation säilyttämisen kyvyn vuoksi.

Neuroverkon tyypin valinnan jälkeen parhaiten sopivien hyperparametrien valinta suoritetaan usein kokeilemalla. Verkon toiminnasta saadaan informaatiota, jonka perusteella saadaan käsitys, millaisia muutoksia parametreihin pitäisi tehdä. Muutokset voivat liit- tyä verkon kykyyn oppia opetusdatan pieniä piirteitä tai liian hitaaseen oppimiseen, joita pystytään säätämään oppimiskertoimen avulla. Tämän lisäksi liian pieni verkon koko voi aiheuttaa sen, ettei se kykene oppimaan haluttua monimutkaista funktiota. Toisaalta isoja verkkoja on hankala opettaa katoavan gradientin (vanishing gradient) ongelman takia [12]. Tämä johtuu siitä, että myöhemmillä kerroksilla parametrit muuttuvat aiempia nopeammin.

Sopivien hyperparametrien löytämiseksi neuroverkon suorituskykyä testataan erilli- sellä datajoukolla, jota kutsutaan kelpuutusdataksi (validation data). Tässä datajoukossa ei ole samoja näytteitä kuin opetusdatassa tai testidatassa, jota käytetään neuroverkon suorituskyvyn mittaamiseen. Neuroverkkoa kutsutaan ylisovitetuksi (overfitting) [27], jos se on opetettu ja toimii hyvin yhdessä datajoukossa, mutta suoriutuu huonosti yleistetyn datan kanssa. Ylisovittamiselta pyritään välttymään hyödyntämällä kelpuutusdataa.

Hyperparametrien automaattista valintaa on myös tutkittu [28]. Sopivimpien hyperparametrien valinta voidaan tehdä esimerkiksi määritetystä diskreetistä parametrijoukosta, tekemällä satunnainen valinta [29] tai gradienttiin pohjautuvalla valinnalla [30].

2.9 Ylisovittaminen

Neuroverkko on funktio, joka approksimoi kuvausta syötteiden ja ulostulojen välillä. Ap- proksimointi suoritetaan parametrien, painojen ja kynnysarvojen avulla. Parametrien määrän kasvaessa ylisovittamisen riski kasvaa. Ylisovittaminen tarkoittaa, että verkko oppii opetusdatan tietyt piirteet, mutta sitä ei pystytä yleistämään tämän datajoukon ulkopuolelle. Samanlainen ilmiö tapahtuu, kun polynomi sovitetaan dataan, jonka data- pisteiden määrä on enintään yksi enemmän kuin polynomin asteluku. Tällöin polynomi saadaan sovitettua dataan täydellisesti, mutta se ei yleensä ole paras kuvaus datalle. Yliso- vittamista tapahtuu herkimmin, kun datajoukko on pieni, eli parametrien määrä on pieni tai neuroverkkoa opetetaan liian pitkään (liian monta epokkia). Ylisovittaminen voidaan huomata tarkastelemalla opetusjoukon ja kelpuutusjoukon sakkofunktion arvoa epokkien funktiona. Neuroverkon oppiessa molempien joukkojen sakkofunktion arvo vähenee, mutta kun tapahtuu ylisovittamista, opetusjoukon sakkofunktion arvo jatkaa vähenemistä ja validaatiojoukon sakkofunktio siirtyy kasvuun.

Kuvassa 7 on kaksi neuroverkon ennustamaa signaalia. N¨aiden signaalien opettamises-

(20)

Kuva 7: Kaksi näytettä ylisovitetusta neuroverkon ulostulosta. a) Näyte opetusdatasta, johon neuroverkko on ylisovitettu voimakkaasti. b) Näyte testidatasta, johon neuroverkko ei kykene ennustamaan oikeaa signaalia.

sa neuroverkolle on annettu kaksi parametria, joiden perusteella sen on pitänyt ennustaa näiden parametrien tuottama signaali. Vasemmanpuolinen näyte oli mukana opetuksessa ja oikeanpuoleinen näyte ei ollut. Tässä tapauksessa huomataan, että neuroverkko on yli- sovittanut voimakkaasti opetusdataan, mutta ei osaa yleistää tämän datan ulkopuolelle.

2.10 Regularisointimenetelm¨ at

Ylisovittamisen ehkäisemiseksi voidaan käyttää regularisointimenetelmiä. Yksi tärkeä keino on käyttää kelpuutusdataa, josta mainittiin aiemmin. Tämä ehkäisee hyperparametrien valinnan ylisovittamisen testidataan. Paras keino ylisovittamisen ehkäisemiseksi on lisätä opetusdataa. Tavallisesti opetusdataa on saatavilla rajallinen määrä ja tämä ei ole mahdollista. Toinen keino on vähentää verkon parametrien määrää pienentämällä neuroverkon kokoa. Tämä menetelmä on suositeltava, mikäli mahdollista mutta pieni neuroverkon koko rajaa pois sovelluskohteet, jotka vaativat tehokkaamman neuroverkon.

Regularisointimenetelmät muokkaavat joko itse neuroverkkoa tai sakkofunktiota siten että on mahdollista välttyä ylisovittamiselta. L2 regularisointi [31] muokkaa sakkofunktiota lisäämällä regularisointitermin sakkofunktioon. Regularisoitu residuaalin normi on [12]

Cx =||y(x)−a^L(x)||²+ λ

2nΣww². (36)

Regularisointitermi sisältää painojen neliöiden summan ja regularisointiparametrinλ >0.

Regularisointi voidaan tehdä muillekin sakkofunktioille. Regularisointitermi määrittää, suosiiko verkko enemmän pieniä painoja vai sakkofunktion minimoimista.

Pudotusmenetelm¨a (Dropout) [32] on toisenlainen regularisointimenetelm¨a. Sakko- funktion muokkaamisen sijaan se muokkaa verkon rakennetta. Muokkaaminen tapahtuu

(21)

poistamalla tilapäisesti osa neuroneista. Tämän jälkeen neuroverkkoa opetetaan jäljelle jääneillä neuroneilla opetus-osajoukolle (Mini-batch). Yhdelle opetus-osajoukolle opettamisen jälkeen poistetut neuronit palautetaan ja uudet poistettavat neuronit valitaan satunnaisesti. Tämä toistetaan koko opetusdatalle. Tämän prosessin aikana ei opeteta koko neuroverkkoa, joten se ei kärsi ylisovittamisesta. Jäljelle jääneistä neuroneista koostuvat neuroverkot ovat ylisovittuneet opetus-osajoukon datalle, jolle ne on opetettu. Neuroverk- ko kokonaisuudessaan ei kuitenkaan ole ylisovitettu, koska sitä ei ole käytetty kaikkine neuroneineen millään opetusjoukolla opettamiseen.

(22)

Kuva 8: CIPIC-tietokannassa k¨aytetyt mitat ihmisen parametrisointiin. (Kuva: V. R. Al- gazi and R. O. Duda and D. M. Thompson. The CIPIC HRTF Database.IEEE Workshop on Applications of Signal Processing to Audio and Acoustics, 21-24 October, 2001.)

3 Yksil¨ ollisen HRTF:n opettaminen neuroverkolla

Neuroverkkoja on aiemmin käytetty yksilöllisen HRTF:n muodostamiseen [34]. Tällöin opetusdata saatiin tietokannasta, jossa on henkilöiden HRTF:ta vastaavat impulssivas- teet. HRTF on korvakäytävään menevän ääniaallon amplitudispektri ihmiskehosta siron- neelle aallolle. Impulssivaste tällöin on taajuustasossa olevan amplitudispektrin informaa- tio ilmaistuna aikatasossa. Tällöin impulssivaste (Head-Related Impulse Response, HRIR) ja HRTF ovat yhteydessä Fourier-muunnoksen avulla. HRIRf(t) saadaan muutettua taa- juustasoon HRTF:ksi ˆf(t) Fourier-muunnoksella

f(ω) =ˆ Z ∞

−∞

f(t)e^−iωtdt, (37)

missä aikatason impulssivaste f(t) muunnetaan taajuuden ω funktioksi. HRTF saadaan aikatasoon Fourier’n käänteismuunnoksella

f(t) = 1 2π

Z ∞

−∞

fˆ(ω)e^iωtdω. (38)

3.1 CIPIC-tietokanta

CIPIC (UC Davis, Center for Image Processing and Integrated Computing) on HRTF:n tutkimiseen luotu tietokanta [33]. Sinne on kerätty kokeellisesti mitattu HRIR 45 koe- henkilöltä 1250 suunnasta 2 metrin etäisyydeltä pään keskipisteestä. Tietokanta sisältää myös koehenkilöistä mitattuja antropometrisia mittoja. Mitat sisältävät pään ja hartioi- den koon sekä erityisesti ulkokorvasta tehtyjä mittoja, joiden oletetaan olevan tärkeitä HRTF:n määrittämiseksi (Kuva 8).

(23)

3.2 HRTF:n opettaminen antropometrisista mitoista

Neuroverkkojen hyödyntämistä HRTF:n muodostamisessa antropometrisiin mittoihin perustuen on tutkittu käyttämällä opetuksessa syötteenä henkilön antropometrisiä mittoja ja ulostulona saman henkilön HRIR [34]. Heidän saamansa tulokset näyttivät lupaavil- ta siinä mielessä, että neuroverkko oppi impulssivasteen suurimpien piikkien paikat ja oli virheeltään pienempi kuin impulssivasteiden keskiarvon virhe. Työssä [34] käytettiin CIPIC-tietokannan 35 koehenkilön dataa, joilla oli kaikki heidän haluamat antropomet- riset mitat sekä HRIR:t.

Tämän tutkielman ensimmäinen askel oli toistaa edellä mainittu koe HRIR:n sijaan HRTF:llä. Tällöin neuroverkko oppisi suoraan HRTF:n sille annettujen antropometristen mittojen perusteella. Tämä tehtiin sen takia, että opittu impulssivaste on mahdollisesti kadottanut paljon taajuusinformaatiota, vaikka sen antama impulssivaste on lähellä haluttua. Sen sijaan HRTF:ta opetettaessa sakkofunktion arvo pienenee taajuusinformaation ollessa oikein.

Neuroverkon opetusjoukoksi valittiin 35 koehenkilöstä 34, jolloin yhtä koehenkilöä käytettiin neuroverkon suoriutumisen mittaamiseen testidatana. Neuroverkolle opetettiin HRTF vain yhdestä suunnasta. Neuroverkon syötteenä oli koehenkilöiden 7 ant- ropometrista mittaa, jotka määrittävät pääosin HRTF:n muodon [35]. Ulostulona oli tämän henkilön HRTF. Koe suoritettiin kaksi kertaa. Molemmissa tapauksissa neuroverkon suorituskykyä mittaava koehenkilö valittiin satunnaisesti, kuitenkin eri henkilö kummassakin tapauksessa. Käytetyssä neuroverkossa oli 5 piilokerrosta, joissa oli 64 neuronia. Kaikkien muiden paitsi ulostulokerroksessa olevien neuroneiden aktivaatiofunktio- na käytettiin ReLU:a. Ulostulokerroksessa käytettiin sigmoidia aktivointifunktiona. As- kelparametri oli 0.001 ja neuroverkko hyödynsi pudotusmenetelmää neuronien verkkoon jättämistodennäköisyydellä 0.9. Neuroverkkoa opetettiin 2000 epokkia. Käytetty neuroverkko vastaa aiemmassa HRIR:n opetuksessa käytettyä. Poikkeuksena ulostulokerroksen aktivointifunktiona käytettiin ReLU:n sijasta sigmoidia, koska sen huomattiin tuottavan parempia oppimistuloksia. Lisäksi käytetty antropometristen mittojen määrä (7) poikke- aa HRIR kokeessa käytetystä 23:sta mitasta.

Kuvassa 9 on kahden erillisen opetetun neuroverkon ennustamat HRTF:t. Lisäksi kuvassa on sakkofunktion arvo verkkojen opettamisen aikana. Näissä kahdessa neuroverkossa oli käytetty satunnaisesti valittuja henkilöitä testidatana.

(24)

Kuva 9: Opetetun neuroverkon ennustama HRTF ja todellinen HRTF kahdelle opetus- joukolle sekä näiden sakkofunktio epokkien funktiona. HRTF:t ovat skaalattuja kymme- nesosaan alkuperäisestä opetuksen vuoksi.

(25)

4 Menetelm¨ at

Tämän tutkielman pääasiallinen tarkoitus oli opettaa neuroverkolle ihmistä yksinkertai- semman ja paremmin parametrisoitavan kappaleen sirottaman ääniaallon taajuusvaste en- nalta määritellyissä pisteissä. Sirottavaksi kappaleeksi valittiin erikokoisia sferoidisia kap- paleita. Ne ovat ellipsoideja, joilla kaksi kolmesta puoliakselista ovat samanpituisia (kuva 12). Mittausasetelmaa muutettiin HRTF:n mittauksesta siten että äänilähteen paikka oli aina 1 mm päässä ellipsoidista positiiviseny-akselin puolella, kun origo oli kappaleen kes- kellä. Lisäksi mittauspisteisteet olivat ellipsoidin ympäröivällä ympyrän pinnalla. Pallo- pinta oli origokeskeinen ja säteeltään 2 m. Mittauspisteitä oli 836. Kuvassa 10 on esitetty simuloinnissa käytetty asetelma, jossa ellipsoidin ympärille on kuvattu mittauspisteet. 0 elevaatio tasossa äänilähde, ellipsoidi ja kaikki tason mittauspisteet on kuvassa 11.

Tässä työssä neuroverkkoja pyritään opettamaan pienellä datamäärällä. Koetta varten simuloitiin BEM:llä 200:sta erikokoisesta ellipsoidista siroava äänikenttä mittauspisteissä.

Jokaiselle mittauspisteelle opetettiin oma neuroverkko antamaan taajuusspektri, kun sille syöttää ellipsoidin puoliakseleiden arvot. Neuroverkon opettaminen tehtiin viidellä eri suuruisella opetusjoukolla. Opetus tehtiin 20, 50, 100, 150 ja 190 ellipsoidilla. Jokaisessa tapauksessa käytettiin 10 ellipsoidia arvioimaan neuroverkon suorituskykyä laskemalla keskiarvo taajuusspektrin suhteelliselle virheelle

C =E

||y−y||ˆ ²

||y||²

, (39)

miss¨a ˆyon neuroverkon approksimaatio taajuusspektrille jayon todellinen taajuusspektri.

yja ˆyovat vektoreita, jotka sisältävät koko testidatan. Sakkofunktion lopulliseksi arvoksi määriteltiin keskiarvo viiden viimeisen epokin virheen arvosta, jotta vähennetään mah- dollisen sakon arvon heilahtelun vaikutusta. Testaukseen käytettyjä näytteitä ei käytetty opettamisessa.

Opettamiseen käytetyn neuroverkon hyperparametrit optimoitiin 100 opetusnäytteellä mittauspisteessä (φ, θ) = (0,90) ja samoja hyperparametreja käytettiin jokaisessa mit- tauspisteessä ja kaikilla opetusdatan määrillä. Neuroverkot olivat täysin yhdistettyjä, ja koostuivat 3 piilokerroksesta, joissa kussakin oli 256 neuronia. Syötekerroksessa oli 2 neuronia puoliakselin arvoille ja ulostulokerroksessa oli 375 neuronia, joka on taajuusspektrin pituus. Askelparametri oli η = 0.001 ja sitä pienennettiin jokaisen epokin jälkeen 0.99 kertaiseksi. Aktivointifunktiona käytettiin jokaisessa piilokerroksessa ReLU:a ja ulostulo kerroksessa sigmoid funktiota. Optimointialgoritmi oli AdamOptimizer.

Jokaisen suunnan keskiarvon lisäksi tarkasteltiin kolmen yksittäisen suunnan suoriu- tumista tarkemmin, jotta on mahdollista nähdä, miten neuroverkon approksimoiva taajuusvaste vertautuu todelliseen taajuusvasteeseen. Ensimmäinen suunta on äänilähteen

(26)

Kuva 10: Mittauspisteet ympäröivät ellipsoidia 2 m säteisellä pallopinnalla.

Kuva 11: Mittausasetelmasta 0-elevaatiotasossa. Kuvaan on merkitty ellipsoidi, äänilähde ja kaikki 0-elevaation mittauspisteet. Ellipsoidi ei ole todellisessa mittakaavassa.

(27)

Kuva 12: Ääniaaltoa sirottavana kappaleena käytettiin ellipsoideja, joiden kaksi puoliakselia ovat samanpituisia. Tällaisia ellipsoideja kutsutaan prolate ja oblate sferoideiksi.

Ne muodostuvat, kun ellipsi pyöräytetään puoliakselinsa ympäri. Prolate sferoidi (vasem- man puoleinen kuva) muodostuu kun pyöräytys tehdään pidemmän puoliakselin ympäri ja oblate sferoidi (oikean puoleinen kuva) muodostuu kun pyöräytys tehdään lyhyemmän puoliakselin ympäri. Ellipsoideille muodostuu tällöin kaksi samanmittaista puoliakselia.

2 neuronia

256 neuronia 256 neuronia 256 neuronia 375 neuronia

Kuva 13: Taajuusspektrin opettamiseen käytetyn neuroverkon rakenne. Syötekerroksessa on kaksi neuronia puoliakselien arvoille ja ulostulokerroksessa on 375 neuronia, joka on taajuusspektrin pituus. Piilokerroksessa on kolme ja jokaisessa on 256 neuronia. Kaikki kerrokset ovat täysin yhdistettyjä.

(28)

θ

ϕ

z

x

y

Kuva 14: Tässä tutkielmassa käytetty koordinaatisto. Leveystason ja korkeustason kulmat on määritelty kuvan mukaisesti siten että kulma (φ, θ) = (0,0) on positiivisen x-akselin suunnassa.

puolelta, (φ, θ) = (+90,0), toinen on äänilähteeseen nähden sivulta, (φ, θ) = (0,0) ja kol- mas on äänilähteeseen nähden vastakkaiselta puolelta (φ, θ) = (−90,0). Kuvassa 14 on tässä kuvassa käytetty koordinaatisto.

Kolmelle suunnalle opettamisen tarkoituksena oli lisäksi tutkia ekstrapolointiongelmaa. Kuvassa 15 on esimerkkinä opettamiseen ja testaukseen käytetyt puoliakseleiden arvot 50 näytteen kokeessa. Kuvasta näkyy opettamiseen käytetyt puoliakselien arvot ja kaksi testivaiheessa käytettyä arvoa. Neuroverkon kykyä ennustaa taajuusspektri tutkittiin, kun puoliakseleiden arvot ovat näytejoukon reunoilla. Tämä tarkoittaa puoliakseleiden arvojen valitsemista läheltä 5 cm tai 15 cm. Näytejoukon koon vaikutusta ekstra- polointiongelmaan tutkittiin käyttämällä eri kokoisia opetusjoukkoja. Opetusjoukkojen koot olivat samat kuin aiemmassa kokeessa: 20, 50, 100, 150 ja 190. Testidataa ei valittu satunnaisesti kuten aiemmin, vaan reunalta valittiin yksi näyte, jonka verkon estimoi- ma taajuusspektri vastaa huonosti todellista 50 näytteellä opetettaessa. Samaa näytettä käytettiin muillakin opetusdatan määrillä. Sakkofunktion arvon kehittymistä seurattiin näillä kahdella näytteellä, kun opetusdatan määrää kasvatettiin.

Todellisuudessa ellipsoidien puoliakseleiden pituudet sisältävät mittauksesta johtu- vaa satunnaista virhettä. Tässä työssä opetettaviin taajuusvasteisiin tai puoliakseleiden pituuksiin ei lisätty kohinaa. Tulokset eivät siis ota kantaa neuroverkon kykyyn sietää mittausvirhettä.

Jokainen tässä työssä käytetty neuroverkko opetettiin käyttäen Python-kielellä toi-

(29)

Kuva 15: Semiakseleiden arvot, joita käytettiin neuroverkon opettamiseen ja testaami- seen, kun tutkittiin ekstrapolointiongelmaa. Punaisella on merkitty neuroverkon opettamiseen käytetyt puoliakseleiden arvot, vihreällä testidatan ekstrapolointinäyte ja mustalla testidatan interpolointinäyte.

mivaa Tensorflow-kirjastoa [36]. Liitteissä 1 ja 2 on luonnokset opettamiseen käytetyistä koodeista.

(30)

5 Tulokset

Kuvissa 16 ja 17 on sakkofunktion keskiarvo viideltä viimeiseltä epokilta, kun opetusdatan määrä on 20, 50, 100, 150 ja 190 näytettä. Kuvassa 18 on edellisille kuville jokaisen suunnan sakon keskiarvo opetusdatan määrän funktiona.

Kuvissa 19 ja 20 on suunnasta (φ, θ) = (0,0), kuvissa 22 ja 23 on suunnasta (φ, θ) = (90,0) ja kuvissa 25 ja 26 on suunnasta (φ, θ) = (0,−90) interpolointi- ja ekstrapo- lointinäytteille todellinen ja neuroverkon ennustama taajuusspektri kaikilla opetusdatan määrillä. Kuvassa 21, 24 ja 27 on näillä jokaisella datamäärällä vastaaville suunnille opetetun verkon sakkofunktion arvo epokkien funktiona.

(31)

Kuva 16: Sakkofunktion arvo jokaisessa mittauspisteessä opetuksen lopussa eri määrällä opetusdataa. Opetusdatan määrä on kuvissa ylimmästä alimpaa 20, 50 ja 100.

(32)

Kuva 17: Sakkofunktion arvo jokaisessa mittauspisteessä opetuksen lopussa eri määrällä opetusdataa. Opetusdatan määrä on kuvissa ylimmästä alimpaa 150 ja 190.

Kuva 18: Keskiarvo kuvien 16 ja 17 datasta opetusdatan koon funktiona.

(33)

Kuva 19: Neuroverkon ennustamat ja todelliset interpolointi- ja ekstrapolointi- taajuusspektrit näytteiden määrillä 20, 50 ja 100 mittauspisteessä (φ, θ) = (0,0).

(34)

Kuva 20: Neuroverkon ennustamat ja todelliset interpolointi- ja ekstrapolointi- taajuusspektrit näytteiden määrillä 150 ja 190 mittauspisteessä (φ, θ) = (0,0).

(35)

Kuva 21: Sakkofunktion arvo 20, 50, 100, 150 ja 190 opetusnäytteellä epokkien funktiona mittauspisteessä (φ, θ) = (0,0).

(36)

Kuva 22: Neuroverkon ennustamat ja todelliset interpolointi- ja ekstrapolointi- taajuusspektrit näytteiden määrillä 20, 50 ja 100 mittauspisteessä (φ, θ) = (90,0).

(37)

Kuva 23: Neuroverkon ennustamat ja todelliset interpolointi- ja ekstrapolointi- taajuusspektrit näytteiden määrillä 150 ja 190 mittauspisteessä (φ, θ) = (90,0).

(38)

Kuva 24: Sakkofunktion arvo 20, 50, 100, 150 ja 190 opetusnäytteellä epokkien funktiona mittauspisteessä (φ, θ) = (90,0).

(39)

Kuva 25: Neuroverkon ennustamat ja todelliset interpolointi- ja ekstrapolointi- taajuusspektrit näytteiden määrillä 20, 50 ja 100 mittauspisteessä (φ, θ) = (−90,0).

(40)

Kuva 26: Neuroverkon ennustamat ja todelliset interpolointi- ja ekstrapolointi- taajuusspektrit näytteiden määrillä 150 ja 190 mittauspisteessä (φ, θ) = (−90,0).

(41)

Kuva 27: Sakkofunktion arvo 20, 50, 100, 150 ja 190 opetusnäytteellä epokkien funktiona mittauspisteessä (φ, θ) = (−90,0).

(42)

6 Pohdinta

Työssä tutkittiin neuroverkkojen soveltuvuutta akustisesta siroamisesta syntyvän taajuusspektrin oppimiseen sirottavan kappaleen parametrisaation perusteella. Lisäksi tutkittiin opetusdatan vaikutusta neuroverkon kykyyn oppia taajuusspektri.

Sirottavana kappaleena käytettiin ellipsoideja, joiden kaksi puoliakselia ovat samanpituisia. Taajuusspektrit mitattiin 836:ssa kappaleen ympäröivässä pallopinnalla olevas- sa pisteessä. Neuroverkolle opetettiin taajuusspektri kussakin pisteessä sirottavan kappaleen puoliakseleiden pituuksien perusteella. Opetettavan neuroverkon hyperparametrit optimoitiin käyttämällä opetukseen 100 näytettä ja mittauspisteenä (φ, θ) = (0,0).

Tämän seurauksena muiden mittauspisteiden taajuusspektrien virhettä saataisiin mahdollisesti pienennettyä optimoimalla neuroverkko jokaiselle mittauspisteelle erikseen. Suu- rin suhteellinen taajuusspektrin virhe on äänilähteen vastakkaisella puolella ellipsoidia (φ, θ) = (−90,0). On yllättävää, että neuroverkon on tällöin todella hankala oppia taajuusspektri. Kuvassa 27 huomataan, ettei sakkofunktio edes lähde suppenemaan kaikilla opetuskerroilla. Tässäkin suunnassa mitattu taajuusspektri on luultavasti mahdollista opettaa neuroverkolle, mikäli verkon rakenne muutetaan tälle suunnalle sopivaksi.

Kuvassa 18 kaikkien suuntien sakkofunktioiden arvojen keskiarvo pienenee datamäärän kasvaessa. Tämä oli haluttu tulos, mutta datan määrällä oletettiin olevan vieläkin suurempi vaikutus.

Opetuksessa käytettiin pientä datamäärää, koska haluttiin tutkia, onko pienellä mää- rällä dataa mahdollista opettaa taajuusspektri ellipsoidista siroavalle aallolle. Sovelluskoh- teena neuroverkolle on taajuusspektrin opettaminen ihmisen korvasta siroavalle äänelle (HRTF). HRTF:n tapauksessa sirottava kappale, eli korva, on paljon monimutkaisempi, joten sen oletetaan vaativan enemmän opetusdataa ja lisäksi datan kerääminen HRTF:n opettamiseen on hidasta, joten siinä joudutaan jokatapauksessa työskentelemään pienen datamäärän kanssa.

Pienen datamäärän käyttäminen tuottaa yleisesti ongelmia, koska uusien näytteiden joukossa on todennäköisemmin näytteitä, joiden kanssa neuroverkko joutuu ekstrapoloimaan. Ekstrapolointiongelmaa haluttiin tutkia valitsemalla ekstrapolointinäyte, jonka puoliakseleiden arvot ovat opetusjoukon reunalta ja vertaamalla tätä interpolointinäytteeseen, jonka puoliakseleiden arvot ovat lähellä keskiarvoja. Näillä näytteillä neuroverkon ap- proksimoivaa taajuusspektriä vertailtiin tarkemmin kolmessa mittauspisteessä. Kahdelle suunnalle kuvissa 19, 20, 22 ja 23 olevat taajuusspektrien approksimaatiot ovat heik- koja pienimmillä datamäärillä ja paranevat datan määrän kasvaessa 100 näytteeseen.

Yllättäen tätä suuremmilla datamäärillä approksimaation paranemista ei tapahtunut. In- terpolointinäytteen ja ekstrapolointinäytteen välillä ei ollut suurta eroa vaikkakin inter- polointinäyte näytti suoriutuvan hieman paremmin leveystasoilla 0^◦ ja 90^◦. Äänilähteen

(43)

varjopuolella olevalla opetussuunnalla neuroverkko ei oppinut taajuusspektriä kummalla- kaan näytteellä. Opetusdatan suurempikaan määrä ei parantanut oppimista tältä suun- nalta.

Tämä interpoloinnin ja ekstrapoloinnin tutkiminen suoritettiin sen vuoksi, että HRTF:n laskemisessa joudutaan mahdollisesti myös ekstrapoloimaan, koska ihmisten korvat ovat eri muotoisia.

Interpoloinnin ja ekstrapoloinnin vaikutuksen tutkimiseen voisi jatkossa ottaa mukaan enemmän näytteitä. Esimerkiksi kaikki näytteet voitaisiin jakaa kahtia interpolointi ja ek- strapolointinäytteisiin. Tällöin olisi mahdollista tutkia esimerkiksi kummankin joukon vir- heiden keskiarvoa, jolloin vältyttäisiin yksittäisen näytteen antamalta satunnaisuudelta.

Jatkossa opetettavien neuroverkkojen määrää on mahdollista vähentää esittämällä data paremmassa muodossa. Data voitaisiin esittää sen pääkomponenttien avulla [37].

Tällöin mittauspisteiden määrä olisi mahdollista pienentää, kun kaikkien taajuusvasteiden esittämiseen tarvitaan vain osasta suunnista määritetyt taajuusvasteet.

Viitteet

[1] B. Xie. Head-Related Transfer Function and Virtual Auditory Display. J. Ross Publishing, Inc., 2013.

[2] W. G. Gardner and K. D. Martin. Hrtf measurements of a kemar. J. Acoust. Soc.

Amer., 97(3907-3908), 1995.

[3] S-N. Yao, T. Collins, and C. Liang. Head-related transfer function selection using neural networks. Archieves of Acoustics, 42(3), 2017.

[4] J. S. Asvestas, J. J. Bowman, P. L. Christiansen, O. Einarsson, R. E. Kleinman, D. L. Sengupta, T. B. A. Senior, F. B. Sleator, P. L. E. Uslenghi, and N. R. Zitron.

Electromagnetic Acoustic Scattering by Simple Shapes. North-Holland Publishing Company, 1969.

[5] F. Ihlenburg. Finite Element Analysis of Acoustic Scattering. Springer, 1998.

[6] R. Adelman, N. A. Gumerov, and R. Duraiswami. Semi-analytical computation of acoustic scattering by spheroids and disks. Acoustic Society of America, 136, 2014.

[7] R. Adelman, N. A. Gumerov, and R. Duraiswami. Software for computing the sphe- roidal wave functions using arbitrary precision arithmetic. arXiv:1408.0074v1, 2014.

[8] S. Järvenpää, T. Huttunen, A. Vanne, M. Malinen, J. Roivainen, and P. Ylä-Oijala.

Fast boundary element simulation of noise emission from vibrating structures. Jour- nal of Structural Mechanics, 49, 2016.

(44)

[9] W. S. McCulloch and W. H. Pitts. A logical calculus of the ideas immanent in nervous activity. Bulletin of Mathematical Biophysics, 5(115-133), 1943.

[10] D. Hebb. The Organization of Behavior A NEUROPSYCHOLOGICAL THEORY.

OHN WILEY and SONS, Inc, 1949.

[11] B. Widrow. Thinking about thinking: The discovery of the lms algorithm. IEEE Signal Processing Magazine, 100, 2005.

[12] M. A. Nielsen. Neural Networks and Deep Learning. Determination Press, 2015.

[13] Y. LeCun, L. Bottou, Y. Bengio, and P. Haffner. Gradient-based learning applied to document recognition. Proceedings of the IEEE, 86(11), 1998.

[14] T. N. Sainath, B. Kingsbury, A-R. Mohamed, G. E. Dahl, G. Saon, H. Soltau, T. Be- ran, A. Y. Aravkin, and B. Ramabhadran. Improvements to deep convolutional neural networks for lvcsr. arXiv:1309.1501v3, 2013.

[15] C-C Chiu, T. N. Sainath, Y. Wu, R. Prabhavalkar, P. Nguyen, Z. Chen, A. Kan- nan, R. J. Weiss, K Rao, E. Gonina, N. Jaitly, B. Li, J. Chorowski, and M. Bacchiani. State-of-the-art speech recognition with sequence-to-sequence models.

arXiv:1712.01769v6, 2018.

[16] A. Krizhevsky, I. Sutskever, and G. E. Hinton. Imagenet classification with deep convolutional neural networks. NIPS’12 Proceedings of the 25th International Con- ference on Neural Information Processing Systems, 1, 2012.

[17] M. D. Zeiler and R. Fergus. Visualizing and understanding convolutional networks.

arXiv:1311.2901v3, 2013.

[18] N. Buduma. Fundamentals of Deep Learning. O’Reilly Media, Inc, 2017.

[19] I. Goodfellow, Y. Bengio, and A. Courville. Deep Learning. MIT Press, 2016.

[20] S. Ruder. An overview of gradient descent optimization algorithms.

arXiv:1609.04747v2, 2017.

[21] D. E. Rumelhart, G. E. Hinton, and R. J. Williams. Learning representations by backpropagation. Nature, 323(9), 1986.

[22] J. Duchi, E. Hazan, and Y. Singer. Adaptive subgradient methods for online learning and stochastic optimization. Journal of Machine Learning Research, 12, 2011.

[23] T. Tijmen and G. Hinton. Coursera: Neural networks for machine learning, lecture

(45)

[24] D. P. Kingma and J. L. Ba. Adam: A method for stochastic optimization.

arXiv:1412.6980v9, 2017.

[25] X. Glorot and Y. Bengio. Understanding the difficulty of training deep feedforward neural networks. Proceedings of the 13th International Conference on Artificial In- telligence and Statistics, 9, 2010.

[26] K. He, X. Zhang, S. Ren, and J. Sun. Delving deep into rectifiers: Surpassing human- level performance on imagenet classification. arXiv:1502.01852v1, 2015.

[27] R. Caruana, S. Lawrence, and L. Giles. Overfitting in neural nets: Backpropagation, conjugate gradient, and early stopping.NIPS’00 Proceedings of the 13th International Conference on Neural Information Processing Systems, 2000.

[28] F. Hutter, J. L¨ucke, and L Schmidt-Thieme. Beyond manual tuning of hyperpara- meters. K¨unstliche Intelligenz, 29(4), 2015.

[29] J. Bergstra and Y. Bengio. Random search for hyper-parameter optimization.Journal of Machine Learning Research, 13, 2012.

[30] P. Frasconi M. Pontil L. Franceschi, M. Donini. Forward and reverse gradient-based hyperparameter optimization. arXiv:1703.01785v3, 2017.

[31] A. Y. Ng. Feature selection, l1 vs. l2 regularization, and rotational invariance. Procee- dings of the twenty-first international conference on Machine learning, 69, 2004.

[32] N. Srivastava, G. Hinton, A. Krizhevsky, I. Sutskever, and R. Salakhutdinov. Dro- pout: A simple way to prevent neural networks from overfitting. Journal of Machine Learning Research, 15(1), 2014.

[33] V. R. Algazi, R. O. Duda, and D. M. Thompson. The cipic hrtf database. IEEE Workshop on Applications of Signal Processing to Audio and Acoustics, 21-24 Octo- ber, 2001.

[34] C. J. Chun, J. M. Moon, G. W. Lee, N. K. Kim, and H. K. Kim. Deep neural network based hrtf personalization using anthropometric measurements. Audio Engineering Society, Convention Paper 9860, 2017.

[35] M. Zhang, R. Kennedy, T. Abhayapala, and W. Zhang. Statistical method to identify key anthropometric parameters in hrtf individualization. 2011 Joint Workshop on Hands-free Speech Communication and Microphone Arrays, 2011.

[36] M. Abadi, A. Agarwal, and P. Barham et.al. Tensorflow: Large-scale machine learning on heterogeneous distributed systems. arXiv, 1603.04467v2, 2016.

(46)

[37] C. Hold, F. Seipel, F. Brinkmann, A. Lykartsis, and S. Weinzierl. Eigen-images of head-related transfer functions. Audio Engineering Society, Convention Paper 9891, 2017.

(47)

Liite1: Python-Koodi kaikkien suuntien opettamiseen

import t e n s o r f l o w a s t f

import m a t p l o t l i b . p y p l o t a s p l t import numpy a s np

from l o a d d a t a h 5 o n e d i r e c t i o n import l o a d d a t a h 5 o n e d i r e c t i o n import random

# Number o f n e u r o n s i n e a c h h i d d e n l a y e r n n o d e s h l 1 = 256

n n o d e s h l 2 = 256 n n o d e s h l 3 = 256

# Number o f n e u r o n s i n i n p u t and o u t p u t l a y e r n f e a t u r e s = 2

n l a b e l s = 375

hm epochs = 200 # Number o f e p o c h s t o r u n TRAINING SPLIT = 100 # Number o f t r a i n i n g s a m p l e s

e t a = 0 . 0 0 1 # L e a r n i n g r a t e

# I n i t i a l i z e v a r i a b l e s f o r i n p u t s and o u t p u t s x = t f . p l a c e h o l d e r ( ’ f l o a t ’ , [ None , n f e a t u r e s ] ) y = t f . p l a c e h o l d e r ( ’ f l o a t ’ )

d e f n e u r a l n e t w o r k m o d e l ( d a t a ) :

# D e f i n e n e t w o r k s t r u c t u r e h i d d e n 1 l a y e r = {

’ w e i g h t s ’ : t f . V a r i a b l e ( 0 . 0 1 ∗ t f . random normal ( [ n f e a t u r e s , n n o d e s h l 1 ] ) ) ,

’ b i a s e s ’ : t f . V a r i a b l e ( 0 . 1 ∗ t f . random normal ( [ n n o d e s h l 1 ] ) )}

h i d d e n 2 l a y e r = {

’ w e i g h t s ’ : t f . V a r i a b l e ( 0 . 0 1 ∗ t f . random normal (

(48)

[ n n o d e s h l 1 , n n o d e s h l 2 ] ) ) ,

’ b i a s e s ’ : t f . V a r i a b l e ( 1 ∗ t f . random normal ( [ n n o d e s h l 2 ] ) )}

h i d d e n 3 l a y e r = {

’ w e i g h t s ’ : t f . V a r i a b l e ( 0 . 0 1 ∗ t f . random normal ( [ n n o d e s h l 2 , n n o d e s h l 3 ] ) ) ,

’ b i a s e s ’ : t f . V a r i a b l e ( 1 ∗ t f . random normal ( [ n n o d e s h l 3 ] ) )}

o u t p u t l a y e r = {

’ w e i g h t s ’ : t f . V a r i a b l e ( 0 . 0 1 ∗ t f . random normal ( [ n n o d e s h l 3 , n l a b e l s ] ) ) ,

’ b i a s e s ’ : t f . V a r i a b l e ( 0 . 1 ∗ t f . random normal ( [ n l a b e l s ] ) )}

# A c t i v a t i o n s i n e a c h l a y e r

l 1 = t f . add ( t f . matmul ( data , h i d d e n 1 l a y e r [ ’ w e i g h t s ’ ] ) , h i d d e n 1 l a y e r [ ’ b i a s e s ’ ] )

l 1 = t f . nn . r e l u ( l 1 )

l 2 = t f . add ( t f . matmul ( l 1 , h i d d e n 2 l a y e r [ ’ w e i g h t s ’ ] ) , h i d d e n 2 l a y e r [ ’ b i a s e s ’ ] )

l 2 = t f . nn . r e l u ( l 2 )

l 3 = t f . add ( t f . matmul ( l 2 , h i d d e n 3 l a y e r [ ’ w e i g h t s ’ ] ) , h i d d e n 3 l a y e r [ ’ b i a s e s ’ ] )

l 3 = t f . nn . r e l u ( l 3 )

o u t p u t = t f . matmul ( l 3 , o u t p u t l a y e r [ ’ w e i g h t s ’ ] ) + o u t p u t l a y e r [ ’ b i a s e s ’ ]

o u t p u t = t f . nn . s i g m o i d ( o u t p u t ) r e t u r n o u t p u t

d e f t r a i n n e u r a l n e t w o r k ( x ) :

(49)

# I n i t i a l i z e c o m p u t a t i o n a l g r a p h s p r e d i c t i o n = n e u r a l n e t w o r k m o d e l ( x )

c o s t = t f . l o s s e s . m e a n s q u a r e d e r r o r ( y , p r e d i c t i o n )

o p t i m i z e r = t f . t r a i n . AdamOptimizer ( l e a r n i n g r a t e=e t a ) . m i n i m i z e ( c o s t ) c o s t t e s t = t f . m e t r i c s . m e a n s q u a r e d e r r o r ( y , p r e d i c t i o n )

# Loop o v e r a l l m e a s u r e m e n t p o i n t s d i r e c t i o n = 1

w h i l e d i r e c t i o n <= 8 3 6 :

# Load t r a i n i n g d a t a and t e s t d a t a .

# b a t c h x and b a t c h y c o n t a i n s a l l d a t a

# t r a i n x and t r a i n y a r e s e l e c t e d f r o m b a t c h x and b a t c h y

# t e s t x and t e s t y a r e s e l e c t e d f r o m b a t c h x and b a t c h y

# T r a i n i n g d a t a and t e s t d a t a h a v e s e p a r a t e s a m p l e s

b a t c h x , b a t c h y = l o a d d a t a h 5 o n e d i r e c t i o n ( d i r e c t i o n ) t r a i n x = b a t c h x [ : TRAINING SPLIT , : ]

t r a i n y = 11 ∗ b a t c h y [ : TRAINING SPLIT , : ] t e s t x = b a t c h x [ 1 9 0 : 2 0 0 , : ]

t e s t y = 11 ∗ b a t c h y [ 1 9 0 : 2 0 0 , : ]

c o s t t e s t s t o r e = [ ] # S t o r e c o s t o f t e s t d a t a w i t h t f . S e s s i o n ( ) a s s e s s :

# I n i t i a l i z e v a r i a b l e s

s e s s . run ( t f . g l o b a l v a r i a b l e s i n i t i a l i z e r ( ) )

s e s s . run ( t f . group ( t f . g l o b a l v a r i a b l e s i n i t i a l i z e r ( ) , t f . l o c a l v a r i a b l e s i n i t i a l i z e r ( ) ) )

f o r epoch i n range( hm epochs ) :

# T r a i n n e t w o r k o v e r e p o c h s

i i = 0

e r r o r t r a i n = 0 e r r o r t e s t = 0

w h i l e i i < TRAINING SPLIT :