HRTF:n opettaminen antropometrisista mitoista

Neuroverkkojen hy¨odynt¨amist¨a HRTF:n muodostamisessa antropometrisiin mittoihin pe-rustuen on tutkittu k¨aytt¨am¨all¨a opetuksessa sy¨otteen¨a henkil¨on antropometrisi¨a mittoja ja ulostulona saman henkil¨on HRIR [34]. Heid¨an saamansa tulokset n¨ayttiv¨at lupaavil-ta siin¨a mieless¨a, ett¨a neuroverkko oppi impulssivasteen suurimpien piikkien paikat ja oli virheelt¨a¨an pienempi kuin impulssivasteiden keskiarvon virhe. Ty¨oss¨a [34] k¨aytettiin CIPIC-tietokannan 35 koehenkil¨on dataa, joilla oli kaikki heid¨an haluamat antropomet-riset mitat sek¨a HRIR:t.

T¨am¨an tutkielman ensimm¨ainen askel oli toistaa edell¨a mainittu koe HRIR:n sijaan HRTF:ll¨a. T¨all¨oin neuroverkko oppisi suoraan HRTF:n sille annettujen antropometristen mittojen perusteella. T¨am¨a tehtiin sen takia, ett¨a opittu impulssivaste on mahdollisesti kadottanut paljon taajuusinformaatiota, vaikka sen antama impulssivaste on l¨ahell¨a halut-tua. Sen sijaan HRTF:ta opetettaessa sakkofunktion arvo pienenee taajuusinformaation ollessa oikein.

Neuroverkon opetusjoukoksi valittiin 35 koehenkil¨ost¨a 34, jolloin yht¨a koehenkil¨o¨a k¨aytettiin neuroverkon suoriutumisen mittaamiseen testidatana. Neuroverkolle opetet-tiin HRTF vain yhdest¨a suunnasta. Neuroverkon sy¨otteen¨a oli koehenkil¨oiden 7 ant-ropometrista mittaa, jotka m¨a¨aritt¨av¨at p¨a¨aosin HRTF:n muodon [35]. Ulostulona oli t¨am¨an henkil¨on HRTF. Koe suoritettiin kaksi kertaa. Molemmissa tapauksissa neuro-verkon suorituskyky¨a mittaava koehenkil¨o valittiin satunnaisesti, kuitenkin eri henkil¨o kummassakin tapauksessa. K¨aytetyss¨a neuroverkossa oli 5 piilokerrosta, joissa oli 64 neu-ronia. Kaikkien muiden paitsi ulostulokerroksessa olevien neuroneiden aktivaatiofunktio-na k¨aytettiin ReLU:a. Ulostulokerroksessa k¨aytettiin sigmoidia aktivointifunktiona. As-kelparametri oli 0.001 ja neuroverkko hy¨odynsi pudotusmenetelm¨a¨a neuronien verkkoon j¨att¨amistodenn¨ak¨oisyydell¨a 0.9. Neuroverkkoa opetettiin 2000 epokkia. K¨aytetty neuro-verkko vastaa aiemmassa HRIR:n opetuksessa k¨aytetty¨a. Poikkeuksena ulostulokerroksen aktivointifunktiona k¨aytettiin ReLU:n sijasta sigmoidia, koska sen huomattiin tuottavan parempia oppimistuloksia. Lis¨aksi k¨aytetty antropometristen mittojen m¨a¨ar¨a (7) poikke-aa HRIR kokeessa k¨aytetyst¨a 23:sta mitasta.

Kuvassa 9 on kahden erillisen opetetun neuroverkon ennustamat HRTF:t. Lis¨aksi ku-vassa on sakkofunktion arvo verkkojen opettamisen aikana. N¨aiss¨a kahdessa neuroverkossa oli k¨aytetty satunnaisesti valittuja henkil¨oit¨a testidatana.

Kuva 9: Opetetun neuroverkon ennustama HRTF ja todellinen HRTF kahdelle opetus-joukolle sek¨a n¨aiden sakkofunktio epokkien funktiona. HRTF:t ovat skaalattuja kymme-nesosaan alkuper¨aisest¨a opetuksen vuoksi.

4 Menetelm¨ at

T¨am¨an tutkielman p¨a¨aasiallinen tarkoitus oli opettaa neuroverkolle ihmist¨a yksinkertai-semman ja paremmin parametrisoitavan kappaleen sirottaman ¨a¨aniaallon taajuusvaste en-nalta m¨a¨aritellyiss¨a pisteiss¨a. Sirottavaksi kappaleeksi valittiin erikokoisia sferoidisia kap-paleita. Ne ovat ellipsoideja, joilla kaksi kolmesta puoliakselista ovat samanpituisia (kuva 12). Mittausasetelmaa muutettiin HRTF:n mittauksesta siten ett¨a ¨a¨anil¨ahteen paikka oli aina 1 mm p¨a¨ass¨a ellipsoidista positiiviseny-akselin puolella, kun origo oli kappaleen kes-kell¨a. Lis¨aksi mittauspisteisteet olivat ellipsoidin ymp¨ar¨oiv¨all¨a ympyr¨an pinnalla. Pallo-pinta oli origokeskeinen ja s¨ateelt¨a¨an 2 m. Mittauspisteit¨a oli 836. Kuvassa 10 on esitetty simuloinnissa k¨aytetty asetelma, jossa ellipsoidin ymp¨arille on kuvattu mittauspisteet. 0 elevaatio tasossa ¨a¨anil¨ahde, ellipsoidi ja kaikki tason mittauspisteet on kuvassa 11.

T¨ass¨a ty¨oss¨a neuroverkkoja pyrit¨a¨an opettamaan pienell¨a datam¨a¨ar¨all¨a. Koetta varten simuloitiin BEM:ll¨a 200:sta erikokoisesta ellipsoidista siroava ¨a¨anikentt¨a mittauspisteiss¨a.

Jokaiselle mittauspisteelle opetettiin oma neuroverkko antamaan taajuusspektri, kun sille sy¨ott¨a¨a ellipsoidin puoliakseleiden arvot. Neuroverkon opettaminen tehtiin viidell¨a eri suuruisella opetusjoukolla. Opetus tehtiin 20, 50, 100, 150 ja 190 ellipsoidilla. Jokaisessa tapauksessa k¨aytettiin 10 ellipsoidia arvioimaan neuroverkon suorituskyky¨a laskemalla keskiarvo taajuusspektrin suhteelliselle virheelle

miss¨a ˆyon neuroverkon approksimaatio taajuusspektrille jayon todellinen taajuusspektri.

yja ˆyovat vektoreita, jotka sis¨alt¨av¨at koko testidatan. Sakkofunktion lopulliseksi arvoksi m¨a¨ariteltiin keskiarvo viiden viimeisen epokin virheen arvosta, jotta v¨ahennet¨a¨an mah-dollisen sakon arvon heilahtelun vaikutusta. Testaukseen k¨aytettyj¨a n¨aytteit¨a ei k¨aytetty opettamisessa.

Opettamiseen k¨aytetyn neuroverkon hyperparametrit optimoitiin 100 opetusn¨aytteell¨a mittauspisteess¨a (φ, θ) = (0,90) ja samoja hyperparametreja k¨aytettiin jokaisessa mit-tauspisteess¨a ja kaikilla opetusdatan m¨a¨arill¨a. Neuroverkot olivat t¨aysin yhdistettyj¨a, ja koostuivat 3 piilokerroksesta, joissa kussakin oli 256 neuronia. Sy¨otekerroksessa oli 2 neu-ronia puoliakselin arvoille ja ulostulokerroksessa oli 375 neuneu-ronia, joka on taajuusspektrin pituus. Askelparametri oli η = 0.001 ja sit¨a pienennettiin jokaisen epokin j¨alkeen 0.99 kertaiseksi. Aktivointifunktiona k¨aytettiin jokaisessa piilokerroksessa ReLU:a ja ulostulo kerroksessa sigmoid funktiota. Optimointialgoritmi oli AdamOptimizer.

Jokaisen suunnan keskiarvon lis¨aksi tarkasteltiin kolmen yksitt¨aisen suunnan suoriu-tumista tarkemmin, jotta on mahdollista n¨ahd¨a, miten neuroverkon approksimoiva taa-juusvaste vertautuu todelliseen taataa-juusvasteeseen. Ensimm¨ainen suunta on ¨a¨anil¨ahteen

Kuva 10: Mittauspisteet ymp¨ar¨oiv¨at ellipsoidia 2 m s¨ateisell¨a pallopinnalla.

Kuva 11: Mittausasetelmasta 0-elevaatiotasossa. Kuvaan on merkitty ellipsoidi, ¨a¨anil¨ahde ja kaikki 0-elevaation mittauspisteet. Ellipsoidi ei ole todellisessa mittakaavassa.

Kuva 12: ¨A¨aniaaltoa sirottavana kappaleena k¨aytettiin ellipsoideja, joiden kaksi puoliak-selia ovat samanpituisia. T¨allaisia ellipsoideja kutsutaan prolate ja oblate sferoideiksi.

Ne muodostuvat, kun ellipsi py¨or¨aytet¨a¨an puoliakselinsa ymp¨ari. Prolate sferoidi (vasem-man puoleinen kuva) muodostuu kun py¨or¨aytys tehd¨a¨an pidemm¨an puoliakselin ymp¨ari ja oblate sferoidi (oikean puoleinen kuva) muodostuu kun py¨or¨aytys tehd¨a¨an lyhyemm¨an puoliakselin ymp¨ari. Ellipsoideille muodostuu t¨all¨oin kaksi samanmittaista puoliakselia.

2 neuronia

256 neuronia 256 neuronia 256 neuronia 375 neuronia

Kuva 13: Taajuusspektrin opettamiseen k¨aytetyn neuroverkon rakenne. Sy¨otekerroksessa on kaksi neuronia puoliakselien arvoille ja ulostulokerroksessa on 375 neuronia, joka on taajuusspektrin pituus. Piilokerroksessa on kolme ja jokaisessa on 256 neuronia. Kaikki kerrokset ovat t¨aysin yhdistettyj¨a.

θ

ϕ

z

x

y

Kuva 14: T¨ass¨a tutkielmassa k¨aytetty koordinaatisto. Leveystason ja korkeustason kulmat on m¨a¨aritelty kuvan mukaisesti siten ett¨a kulma (φ, θ) = (0,0) on positiivisen x-akselin suunnassa.

puolelta, (φ, θ) = (+90,0), toinen on ¨a¨anil¨ahteeseen n¨ahden sivulta, (φ, θ) = (0,0) ja kol-mas on ¨a¨anil¨ahteeseen n¨ahden vastakkaiselta puolelta (φ, θ) = (−90,0). Kuvassa 14 on t¨ass¨a kuvassa k¨aytetty koordinaatisto.

Kolmelle suunnalle opettamisen tarkoituksena oli lis¨aksi tutkia ekstrapolointiongel-maa. Kuvassa 15 on esimerkkin¨a opettamiseen ja testaukseen k¨aytetyt puoliakseleiden arvot 50 n¨aytteen kokeessa. Kuvasta n¨akyy opettamiseen k¨aytetyt puoliakselien arvot ja kaksi testivaiheessa k¨aytetty¨a arvoa. Neuroverkon kyky¨a ennustaa taajuusspektri tutkit-tiin, kun puoliakseleiden arvot ovat n¨aytejoukon reunoilla. T¨am¨a tarkoittaa puoliakselei-den arvojen valitsemista l¨ahelt¨a 5 cm tai 15 cm. N¨aytejoukon koon vaikutusta ekstra-polointiongelmaan tutkittiin k¨aytt¨am¨all¨a eri kokoisia opetusjoukkoja. Opetusjoukkojen koot olivat samat kuin aiemmassa kokeessa: 20, 50, 100, 150 ja 190. Testidataa ei valittu satunnaisesti kuten aiemmin, vaan reunalta valittiin yksi n¨ayte, jonka verkon estimoi-ma taajuusspektri vastaa huonosti todellista 50 n¨aytteell¨a opetettaessa. Samaa n¨aytett¨a k¨aytettiin muillakin opetusdatan m¨a¨arill¨a. Sakkofunktion arvon kehittymist¨a seurattiin n¨aill¨a kahdella n¨aytteell¨a, kun opetusdatan m¨a¨ar¨a¨a kasvatettiin.

Todellisuudessa ellipsoidien puoliakseleiden pituudet sis¨alt¨av¨at mittauksesta johtu-vaa satunnaista virhett¨a. T¨ass¨a ty¨oss¨a opetettaviin taajuusvasteisiin tai puoliakseleiden pituuksiin ei lis¨atty kohinaa. Tulokset eiv¨at siis ota kantaa neuroverkon kykyyn siet¨a¨a mittausvirhett¨a.

Jokainen t¨ass¨a ty¨oss¨a k¨aytetty neuroverkko opetettiin k¨aytt¨aen Python-kielell¨a

toi-Kuva 15: Semiakseleiden arvot, joita k¨aytettiin neuroverkon opettamiseen ja testaami-seen, kun tutkittiin ekstrapolointiongelmaa. Punaisella on merkitty neuroverkon opetta-miseen k¨aytetyt puoliakseleiden arvot, vihre¨all¨a testidatan ekstrapolointin¨ayte ja mustalla testidatan interpolointin¨ayte.

mivaa Tensorflow-kirjastoa [36]. Liitteiss¨a 1 ja 2 on luonnokset opettamiseen k¨aytetyist¨a koodeista.

5 Tulokset

Kuvissa 16 ja 17 on sakkofunktion keskiarvo viidelt¨a viimeiselt¨a epokilta, kun opetusdatan m¨a¨ar¨a on 20, 50, 100, 150 ja 190 n¨aytett¨a. Kuvassa 18 on edellisille kuville jokaisen suunnan sakon keskiarvo opetusdatan m¨a¨ar¨an funktiona.

Kuvissa 19 ja 20 on suunnasta (φ, θ) = (0,0), kuvissa 22 ja 23 on suunnasta (φ, θ) = (90,0) ja kuvissa 25 ja 26 on suunnasta (φ, θ) = (0,−90) interpolointi- ja ekstrapo-lointin¨aytteille todellinen ja neuroverkon ennustama taajuusspektri kaikilla opetusdatan m¨a¨arill¨a. Kuvassa 21, 24 ja 27 on n¨aill¨a jokaisella datam¨a¨ar¨all¨a vastaaville suunnille ope-tetun verkon sakkofunktion arvo epokkien funktiona.

Kuva 16: Sakkofunktion arvo jokaisessa mittauspisteess¨a opetuksen lopussa eri m¨a¨ar¨all¨a opetusdataa. Opetusdatan m¨a¨ar¨a on kuvissa ylimm¨ast¨a alimpaa 20, 50 ja 100.

Kuva 17: Sakkofunktion arvo jokaisessa mittauspisteess¨a opetuksen lopussa eri m¨a¨ar¨all¨a opetusdataa. Opetusdatan m¨a¨ar¨a on kuvissa ylimm¨ast¨a alimpaa 150 ja 190.

Kuva 18: Keskiarvo kuvien 16 ja 17 datasta opetusdatan koon funktiona.

Kuva 19: Neuroverkon ennustamat ja todelliset interpolointi- ja ekstrapolointi-taajuusspektrit n¨aytteiden m¨a¨arill¨a 20, 50 ja 100 mittauspisteess¨a (φ, θ) = (0,0).

Kuva 20: Neuroverkon ennustamat ja todelliset interpolointi- ja ekstrapolointi-taajuusspektrit n¨aytteiden m¨a¨arill¨a 150 ja 190 mittauspisteess¨a (φ, θ) = (0,0).

Kuva 21: Sakkofunktion arvo 20, 50, 100, 150 ja 190 opetusn¨aytteell¨a epokkien funktiona mittauspisteess¨a (φ, θ) = (0,0).

Kuva 22: Neuroverkon ennustamat ja todelliset interpolointi- ja ekstrapolointi-taajuusspektrit n¨aytteiden m¨a¨arill¨a 20, 50 ja 100 mittauspisteess¨a (φ, θ) = (90,0).

Kuva 23: Neuroverkon ennustamat ja todelliset interpolointi- ja ekstrapolointi-taajuusspektrit n¨aytteiden m¨a¨arill¨a 150 ja 190 mittauspisteess¨a (φ, θ) = (90,0).

Kuva 24: Sakkofunktion arvo 20, 50, 100, 150 ja 190 opetusn¨aytteell¨a epokkien funktiona mittauspisteess¨a (φ, θ) = (90,0).

Kuva 25: Neuroverkon ennustamat ja todelliset interpolointi- ja ekstrapolointi-taajuusspektrit n¨aytteiden m¨a¨arill¨a 20, 50 ja 100 mittauspisteess¨a (φ, θ) = (−90,0).

Kuva 26: Neuroverkon ennustamat ja todelliset interpolointi- ja ekstrapolointi-taajuusspektrit n¨aytteiden m¨a¨arill¨a 150 ja 190 mittauspisteess¨a (φ, θ) = (−90,0).

Kuva 27: Sakkofunktion arvo 20, 50, 100, 150 ja 190 opetusn¨aytteell¨a epokkien funktiona mittauspisteess¨a (φ, θ) = (−90,0).

6 Pohdinta

Ty¨oss¨a tutkittiin neuroverkkojen soveltuvuutta akustisesta siroamisesta syntyv¨an taa-juusspektrin oppimiseen sirottavan kappaleen parametrisaation perusteella. Lis¨aksi tut-kittiin opetusdatan vaikutusta neuroverkon kykyyn oppia taajuusspektri.

Sirottavana kappaleena k¨aytettiin ellipsoideja, joiden kaksi puoliakselia ovat saman-pituisia. Taajuusspektrit mitattiin 836:ssa kappaleen ymp¨ar¨oiv¨ass¨a pallopinnalla olevas-sa pisteess¨a. Neuroverkolle opetettiin taajuusspektri kussakin pisteess¨a sirottavan kap-paleen puoliakseleiden pituuksien perusteella. Opetettavan neuroverkon hyperparamet-rit optimoitiin k¨aytt¨am¨all¨a opetukseen 100 n¨aytett¨a ja mittauspisteen¨a (φ, θ) = (0,0).

T¨am¨an seurauksena muiden mittauspisteiden taajuusspektrien virhett¨a saataisiin mah-dollisesti pienennetty¨a optimoimalla neuroverkko jokaiselle mittauspisteelle erikseen. Suu-rin suhteellinen taajuusspektSuu-rin virhe on ¨a¨anil¨ahteen vastakkaisella puolella ellipsoidia (φ, θ) = (−90,0). On yll¨att¨av¨a¨a, ett¨a neuroverkon on t¨all¨oin todella hankala oppia taa-juusspektri. Kuvassa 27 huomataan, ettei sakkofunktio edes l¨ahde suppenemaan kaikil-la opetuskerroilkaikil-la. T¨ass¨akin suunnassa mitattu taajuusspektri on luultavasti mahdollista opettaa neuroverkolle, mik¨ali verkon rakenne muutetaan t¨alle suunnalle sopivaksi.

Kuvassa 18 kaikkien suuntien sakkofunktioiden arvojen keskiarvo pienenee datam¨a¨ar¨an kasvaessa. T¨am¨a oli haluttu tulos, mutta datan m¨a¨ar¨all¨a oletettiin olevan viel¨akin suu-rempi vaikutus.

Opetuksessa k¨aytettiin pient¨a datam¨a¨ar¨a¨a, koska haluttiin tutkia, onko pienell¨a m¨a¨ a-r¨all¨a dataa mahdollista opettaa taajuusspektri ellipsoidista siroavalle aallolle. Sovelluskoh-teena neuroverkolle on taajuusspektrin opettaminen ihmisen korvasta siroavalle ¨a¨anelle (HRTF). HRTF:n tapauksessa sirottava kappale, eli korva, on paljon monimutkaisempi, joten sen oletetaan vaativan enemm¨an opetusdataa ja lis¨aksi datan ker¨a¨aminen HRTF:n opettamiseen on hidasta, joten siin¨a joudutaan jokatapauksessa ty¨oskentelem¨a¨an pienen datam¨a¨ar¨an kanssa.

Pienen datam¨a¨ar¨an k¨aytt¨aminen tuottaa yleisesti ongelmia, koska uusien n¨aytteiden joukossa on todenn¨ak¨oisemmin n¨aytteit¨a, joiden kanssa neuroverkko joutuu ekstrapo-loimaan. Ekstrapolointiongelmaa haluttiin tutkia valitsemalla ekstrapolointin¨ayte, jonka puoliakseleiden arvot ovat opetusjoukon reunalta ja vertaamalla t¨at¨a interpolointin¨aytteeseen, jonka puoliakseleiden arvot ovat l¨ahell¨a keskiarvoja. N¨aill¨a n¨aytteill¨a neuroverkon ap-proksimoivaa taajuusspektri¨a vertailtiin tarkemmin kolmessa mittauspisteess¨a. Kahdelle suunnalle kuvissa 19, 20, 22 ja 23 olevat taajuusspektrien approksimaatiot ovat heik-koja pienimmill¨a datam¨a¨arill¨a ja paranevat datan m¨a¨ar¨an kasvaessa 100 n¨aytteeseen.

Yll¨att¨aen t¨at¨a suuremmilla datam¨a¨arill¨a approksimaation paranemista ei tapahtunut. In-terpolointin¨aytteen ja ekstrapolointin¨aytteen v¨alill¨a ei ollut suurta eroa vaikkakin inter-polointin¨ayte n¨aytti suoriutuvan hieman paremmin leveystasoilla 0^◦ ja 90^◦. ¨A¨anil¨ahteen

varjopuolella olevalla opetussuunnalla neuroverkko ei oppinut taajuusspektri¨a kummalla-kaan n¨aytteell¨a. Opetusdatan suurempikaan m¨a¨ar¨a ei parantanut oppimista t¨alt¨a suun-nalta.

T¨am¨a interpoloinnin ja ekstrapoloinnin tutkiminen suoritettiin sen vuoksi, ett¨a HRTF:n laskemisessa joudutaan mahdollisesti my¨os ekstrapoloimaan, koska ihmisten korvat ovat eri muotoisia.

Interpoloinnin ja ekstrapoloinnin vaikutuksen tutkimiseen voisi jatkossa ottaa mukaan enemm¨an n¨aytteit¨a. Esimerkiksi kaikki n¨aytteet voitaisiin jakaa kahtia interpolointi ja ek-strapolointin¨aytteisiin. T¨all¨oin olisi mahdollista tutkia esimerkiksi kummankin joukon vir-heiden keskiarvoa, jolloin v¨altytt¨aisiin yksitt¨aisen n¨aytteen antamalta satunnaisuudelta.

Jatkossa opetettavien neuroverkkojen m¨a¨ar¨a¨a on mahdollista v¨ahent¨a¨a esitt¨am¨all¨a data paremmassa muodossa. Data voitaisiin esitt¨a¨a sen p¨a¨akomponenttien avulla [37].

T¨all¨oin mittauspisteiden m¨a¨ar¨a olisi mahdollista pienent¨a¨a, kun kaikkien taajuusvasteiden esitt¨amiseen tarvitaan vain osasta suunnista m¨a¨aritetyt taajuusvasteet.

Viitteet

[1] B. Xie. Head-Related Transfer Function and Virtual Auditory Display. J. Ross Publishing, Inc., 2013.

[2] W. G. Gardner and K. D. Martin. Hrtf measurements of a kemar. J. Acoust. Soc.

Amer., 97(3907-3908), 1995.

[3] S-N. Yao, T. Collins, and C. Liang. Head-related transfer function selection using neural networks. Archieves of Acoustics, 42(3), 2017.

[4] J. S. Asvestas, J. J. Bowman, P. L. Christiansen, O. Einarsson, R. E. Kleinman, D. L. Sengupta, T. B. A. Senior, F. B. Sleator, P. L. E. Uslenghi, and N. R. Zitron.

Electromagnetic Acoustic Scattering by Simple Shapes. North-Holland Publishing Company, 1969.

[5] F. Ihlenburg. Finite Element Analysis of Acoustic Scattering. Springer, 1998.

[6] R. Adelman, N. A. Gumerov, and R. Duraiswami. Semi-analytical computation of acoustic scattering by spheroids and disks. Acoustic Society of America, 136, 2014.

[7] R. Adelman, N. A. Gumerov, and R. Duraiswami. Software for computing the sphe-roidal wave functions using arbitrary precision arithmetic. arXiv:1408.0074v1, 2014.

[8] S. J¨arvenp¨a¨a, T. Huttunen, A. Vanne, M. Malinen, J. Roivainen, and P. Yl¨a-Oijala.

Fast boundary element simulation of noise emission from vibrating structures. Jour-nal of Structural Mechanics, 49, 2016.

[9] W. S. McCulloch and W. H. Pitts. A logical calculus of the ideas immanent in nervous activity. Bulletin of Mathematical Biophysics, 5(115-133), 1943.

[10] D. Hebb. The Organization of Behavior A NEUROPSYCHOLOGICAL THEORY.

OHN WILEY and SONS, Inc, 1949.

[11] B. Widrow. Thinking about thinking: The discovery of the lms algorithm. IEEE Signal Processing Magazine, 100, 2005.

[12] M. A. Nielsen. Neural Networks and Deep Learning. Determination Press, 2015.

[13] Y. LeCun, L. Bottou, Y. Bengio, and P. Haffner. Gradient-based learning applied to document recognition. Proceedings of the IEEE, 86(11), 1998.

[14] T. N. Sainath, B. Kingsbury, A-R. Mohamed, G. E. Dahl, G. Saon, H. Soltau, T. Be-ran, A. Y. Aravkin, and B. Ramabhadran. Improvements to deep convolutional neural networks for lvcsr. arXiv:1309.1501v3, 2013.

[15] C-C Chiu, T. N. Sainath, Y. Wu, R. Prabhavalkar, P. Nguyen, Z. Chen, A. Kan-nan, R. J. Weiss, K Rao, E. Gonina, N. Jaitly, B. Li, J. Chorowski, and M. Bacchiani. State-of-the-art speech recognition with sequence-to-sequence models.

arXiv:1712.01769v6, 2018.

[16] A. Krizhevsky, I. Sutskever, and G. E. Hinton. Imagenet classification with deep convolutional neural networks. NIPS’12 Proceedings of the 25th International Con-ference on Neural Information Processing Systems, 1, 2012.

[17] M. D. Zeiler and R. Fergus. Visualizing and understanding convolutional networks.

arXiv:1311.2901v3, 2013.

[18] N. Buduma. Fundamentals of Deep Learning. O’Reilly Media, Inc, 2017.

[19] I. Goodfellow, Y. Bengio, and A. Courville. Deep Learning. MIT Press, 2016.

[20] S. Ruder. An overview of gradient descent optimization algorithms.

arXiv:1609.04747v2, 2017.

[21] D. E. Rumelhart, G. E. Hinton, and R. J. Williams. Learning representations by backpropagation. Nature, 323(9), 1986.

[22] J. Duchi, E. Hazan, and Y. Singer. Adaptive subgradient methods for online learning and stochastic optimization. Journal of Machine Learning Research, 12, 2011.

[23] T. Tijmen and G. Hinton. Coursera: Neural networks for machine learning, lecture

[24] D. P. Kingma and J. L. Ba. Adam: A method for stochastic optimization.

arXiv:1412.6980v9, 2017.

[25] X. Glorot and Y. Bengio. Understanding the difficulty of training deep feedforward neural networks. Proceedings of the 13th International Conference on Artificial In-telligence and Statistics, 9, 2010.

[26] K. He, X. Zhang, S. Ren, and J. Sun. Delving deep into rectifiers: Surpassing human-level performance on imagenet classification. arXiv:1502.01852v1, 2015.

[27] R. Caruana, S. Lawrence, and L. Giles. Overfitting in neural nets: Backpropagation, conjugate gradient, and early stopping.NIPS’00 Proceedings of the 13th International Conference on Neural Information Processing Systems, 2000.

[28] F. Hutter, J. L¨ucke, and L Schmidt-Thieme. Beyond manual tuning of hyperpara-meters. K¨unstliche Intelligenz, 29(4), 2015.

[29] J. Bergstra and Y. Bengio. Random search for hyper-parameter optimization.Journal of Machine Learning Research, 13, 2012.

[30] P. Frasconi M. Pontil L. Franceschi, M. Donini. Forward and reverse gradient-based hyperparameter optimization. arXiv:1703.01785v3, 2017.

[31] A. Y. Ng. Feature selection, l1 vs. l2 regularization, and rotational invariance. Procee-dings of the twenty-first international conference on Machine learning, 69, 2004.

[32] N. Srivastava, G. Hinton, A. Krizhevsky, I. Sutskever, and R. Salakhutdinov. Dro-pout: A simple way to prevent neural networks from overfitting. Journal of Machine Learning Research, 15(1), 2014.

[33] V. R. Algazi, R. O. Duda, and D. M. Thompson. The cipic hrtf database. IEEE Workshop on Applications of Signal Processing to Audio and Acoustics, 21-24 Octo-ber, 2001.

[34] C. J. Chun, J. M. Moon, G. W. Lee, N. K. Kim, and H. K. Kim. Deep neural network based hrtf personalization using anthropometric measurements. Audio Engineering Society, Convention Paper 9860, 2017.

[35] M. Zhang, R. Kennedy, T. Abhayapala, and W. Zhang. Statistical method to identify key anthropometric parameters in hrtf individualization. 2011 Joint Workshop on Hands-free Speech Communication and Microphone Arrays, 2011.

[36] M. Abadi, A. Agarwal, and P. Barham et.al. Tensorflow: Large-scale machine learning on heterogeneous distributed systems. arXiv, 1603.04467v2, 2016.

[37] C. Hold, F. Seipel, F. Brinkmann, A. Lykartsis, and S. Weinzierl. Eigen-images of head-related transfer functions. Audio Engineering Society, Convention Paper 9891, 2017.

Liite1: Python-Koodi kaikkien suuntien opettamiseen

[ n n o d e s h l 1 , n n o d e s h l 2 ] ) ) ,

# I n i t i a l i z e c o m p u t a t i o n a l g r a p h s

# T r a i n n e t w o r k o v e r a l l s a m p l e s

Liite2: Python-Koodi yksitt¨ aisen suunnan opettamiseen

[ n n o d e s h l 1 , n n o d e s h l 2 ] ) ) ,

d i r e c t i o n = 1 # M e a s u r e m e n t p o i n t t h a t i s t r a i n e d

i i += 1

# Compute e r r o r s i n b o t h t r a i n i n g s a m p l e s

, e r r o r t e s t 1 = s e s s . run ( c o s t t e s t , f e e d d i c t ={ x : t e s t x [ 0 , : ] , y : t e s t y [ 0 , : ]})

, e r r o r t e s t 2 = s e s s . run ( c o s t t e s t , f e e d d i c t ={ x : t e s t x [ 1 , : ] , y : t e s t y [ 1 , : ]})

# Compute r e l a t i v e norm o f s q u a r e d e r r o r

t e s t d a t a n o r m = np . l i n a l g . norm ( t e s t y [ 0 , : ] ) r e l a t i v e e r r o r = e r r o r t e s t 1 / t e s t d a t a n o r m c o s t t e s t s t o r e 1 . append ( r e l a t i v e e r r o r )

t e s t d a t a n o r m = np . l i n a l g . norm ( t e s t y [ 1 , : ] ) r e l a t i v e e r r o r = e r r o r t e s t 2 / t e s t d a t a n o r m c o s t t e s t s t o r e 2 . append ( r e l a t i v e e r r o r )

# Log n e t w o r k s t a t e

p r i n t ’ Epoch : ’ , epoch + 1 , ’ / ’ , hm epochs , ’ E r r o r t e s t 1 : ’ , e r r o r t e s t 1 , ’ E r r o r t e s t 2 : ’ , e r r o r t e s t 2

# N e t w o r k s p r e d i c t i o n f o r e a c h t e s t f e a t u r e

t e s t 0 o u t p u t = s e s s . run ( p r e d i c t i o n , f e e d d i c t ={x : t e s t x [ 0 ]}) t e s t 1 o u t p u t = s e s s . run ( p r e d i c t i o n , f e e d d i c t ={x : t e s t x [ 1 ]})

t r a i n n e u r a l n e t w o r k ( x )

In document Neuroverkot akustisen sirontaongelman ratkaisemisessa (sivua 23-54)