• Ei tuloksia

Klassifiointi ongelmana ja menetelmänä

Taulukko 2. Tukivektorikoneen sekaannusmatriisi

3.1 Klassifiointi ongelmana ja menetelmänä

Klassifiointi on isommassa viitekehyksessä ohjattua oppimista. Yksinkertaisia menetelmiä voidaan käyttää kynän ja paperin avulla, kuten potilaan diagnosointia jonkin yksinkertaisen mallin avulla. Monimutkaisemmat tai laajemmat ongelmat ovat tarpeen tehdä tietokoneen avulla. Koneoppiminen sinänsä on ”luonnollisten oppimisprosessien jäljittelemistä keinote-koisten laitteiden ja ohjelmistojen avulla” (Nieminen, 2016, 136). Oppimisprosessia voidaan ohjata kohti tavoitetta tunnetun luokittelun perusteella.

Sen sijaan ohjaamatonta oppimista voidaan käyttää uusien ryhmittelyiden luomisessa, ja aineiston parempaan ymmärrykseen valmiin luokittelun ulkopuolella. Näiden uusien mal-lien avulla taas voidaan tarkentaa ohjattua oppimisprosessia, esimerkiksi sillä, että joidenkin luokkien havaitaan olevan keskenään samankaltaisia ja siten niiden yhdistäminen tarkentaa mallia6. Vastaavasti yhden luokan sisällä voidaan havaita olevan merkittävää keskinäisiä ja kenties myös ristiriitaisia eroavaisuuksia, jolloin luokka on tarpeen pilkkoa.

Hermoverkot pyrkivät mallintamaan luonnollista oppimisprosessia mahdollisimman tarkasti.

Rosenblatt (1958) on luonut erään tunnetun mallin hermoverkoista ja sen sisältämistä neuro-neista. Tämä malli abstraktista neuronista on myös tukivektorikoneiden peruskivi, kuten lu-vussa 3.5 kuvataan. Hermoverkkoja on kehitetty lukuisia erilaisia, jotka soveltuvat erilaisiin

6Jos aineistossa on kaksi keskenään samanlaista ja samankokoista luokkaa, luokittelija valitsee näytteen luokan 50% todennäköisyydellä väärin.

tehtäviin (monipuolisen ja kattavan yleiskatsauksen on tehnyt van Veen ja Leijnen, 2016).

Nieminen (2016) käsittelee erityisesti monikerroksisia hermoverkkoja. Osa hermoverkoista sisältää painotusten lisäksi sisäisen tilan, joka parantaa neuronin muistamiskykyä mallin-nettaessa. Monimutkaisemmat neuronit ovat raskaampia mallintaa, eli ne vaativat enemmän muistia ja suorituskykyä, mutta niillä voidaan saada tehokkaampi malli ja vähemmillä neu-roneilla.

3.1.1 Klassifioinnin määritelmä

Klassifioinnissa on tarkoituksena ”määrittää tyyppi tai luokka jollekin luokittelemattomalle pisteelle” (Zaki ja Meira Jr., 2014, 466). Termipisteon merkityksellinen silloin, kun havain-non muuttujat voidaan ilmaista lukuina, jolloin yksittäinen havainto on piste moniuloittei-sessa avaruudessa. Yleisemmin kyseessä on näyte, havainto tai tapaus, johon liittyy yksi tai useampi muuttuja. Havainto voidaan ajatella olevan vektori moniulotteisessa avaruudessa, jonka dimensio on muuttujien lukumäärä (Breiman, 1984).

Mallin rakennusta varten datasta on varattava koulutusjoukko. Koulutusjoukko koostaa men-neitä havaintoja ja siten toimii esimerkkinä mallin rakennukselle (Breiman, 1984). Koulu-tusjoukkona voi olla koko soveltuva aineisto, tai vain osa siitä. Hyödyllistä on myös jakaa aineisto koulutus- ja testausjoukkoihin. Testausjoukolla varmistetaan syntyneen mallin toi-mivuus. Jos malli ylioppii, se voi oppia koko koulutusaineiston ulkoa, yleistymättä uusille vastaavanlaisille näytteille yhtä tarkasti. Kuvio 2 havainnollistaa tämänlaista tilannetta. Siinä katkoviivat rajaavat sekä sinisten neliöiden että punaisten kolmioiden ryppäät hyvin läheltä, jättäen paljon tyhjää tilaa välimaastoon. Jos luokittelun raja neliöiden ja kolmioiden välillä menee kummankaan katkoviivan kohdalta, luokitellaan koulutusaineiston ulkopuolella raja-vyöhykkeeseen osuvat pisteet todennäköisesti väärin (joko neliöiden tai kolmioiden kustan-nuksella). Yksinkertaisin ja todennäköisesti oikein malli menisi luultavasti rajavyöhykkeen keskeltä. Mitoittumiseen liittyy myös se, miten paljon virheitä siedetään ja mihin suuntaan.

Klassifiointimenetelmän tehtävä on löytää kunkin pisteen ja sitä vastaavan luokan yhteys.

Malli voi lisäksi olla kuvaava tai ennustava: ennustava mallin tehtävä on luokitella uusia datapisteitä, kun taas kuvaava malli kertoo, mitkä ominaisuudet määrittävät kunkin luokan

Kuvio 2. Esimerkki ylioppimisesta.

(Tan, Steinback ja Kumar, 2006). Toisaalta klassifioinnin voi nähdä ennen kaikkea ihmisiä ja organisaatioita hyödyttävänä työkaluna, toisaalta koneen harjoituksena kasvattaa omaa ym-märrystään. Koneelle oppimisprosessi on numeerinen ja ohjelmoitu, joten oppimista joutuu arvioimaan ihminen lopulta. Nämä näkökulmat eivät tietenkään ole toisiaan pois sulkevia.

Koneoppimisen näkökulma keskittyy itse artefaktiin, kun taas isommassa viitekehyksessä se on vain osa tiedonlouhintaprosessia.

Breiman ym. (1984) esittää kaksi määritelmää klassifioinnille: toinen on klassifiointisäännön näkökulmasta, ja toinen on osioinnin näkökulmasta. Olkoon n∈N mitattavien muuttujien lukumäärä, Xn-ulotteinen mittausavaruus, ja 1,2, ...,j=C eri luokittelut, joita on yhteensä j erilaista. Ensimmäinen määritelmä määrittelee funktion d:X →C, joka kuvaa jokaiselle mahdolliselle mittauksellexjonkin luokan joukosta C.

Toinen määritelmä jakaa joukon X J:ksi irralliseksi osajoukoksi, yksi kullekin luokittelulle.

OlkoonA1,A2, ...,Aj,X =SiAi siten, että∀i∈C,x∈Aimittauksenxennustettu luokka on i. Tämä on yhtäpitävä edellisen määritelmän kanssa, jos ja vain jos kuvaus d ja osiointi A tekevät saman jaon, eli∀i∈C,x∈X :x∈Ai↔d(x) =i.

3.1.2 Erilaiset aineistot ja menetelmät

Klassifiointimenetelmiä on useita erityyppisiä: päätöspuihin, sääntöihin, lähimpään naapuri-pisteeseen, Bayesin teoreemaan, hermoverkkoihin ja tukivektoreihin perustuvia. Tässä me-netelmä on jokin teoria tai viitekehys, joka mahdollistaa tietynlaisen klassifioinnin. Algo-ritmi puolestaan on jokin klassifioinnin konkreettinen toteutus tai toteutustapa. Oma mene-telmänsä on yhdistellä muita menetelmiä sopivasti. Bagnall ym. (2017) ryhmittelevät aika-sarjaklassifioijia koko sarjaan, intervalleihin, aallonpätkiin (engl. shapelets), sanakirjoihin perustuviin algoritmeihin.

Aikasarjaklassifiointimenetelmistä esimerkkinä olkoon DTW (Dynamic Time Warping), joka on koko sarjaan perustuva algoritmi, eli se vertailee ”kahden kokonaisen aikasarjan etäisyyt-tä paikalliset häiriöt suodatettuna” (Bagnall ym. 2017). Klassifioivat piirteet voivat siis olla missä tahansa aikasarjaa, kunhan ne löytyvät molemmista vertailtavista. DTW pyrkii sovit-tamaan klassifioitavaa aikasarjaa mallisarjaan litistämällä ja venyttämällä. Siten se soveltuu hyvin aikasarjoihin, jotka etenevät vaihtelevalla nopeudella. DTW:tä on käytetty onnistu-neesti muun muassa aggressiivisen ajotavan tunnistamiseen (Johnson ja Trivedi, 2011).

Osa algoritmeistä toimii eräajossa, osa taas pystyy rakentamaan mallia samaa tahtia, kun uutta tietoa on saatavilla (engl. batch ja online). Eräajoalgoritmit tuottavat kerralla yhden mallin, kun taas iteratiivisesti rakentuvat algoritmit tuottavat useita välivaiheen malleja. Ite-ratiivisen prosessin välivaiheita voi tutkia, ovatko ne yhteneviä ja tasaisesti paranevia (tätä sivuaa mm. Cristianini ja Shawe-Taylor, 2000, 3). Tämän tutkimuksen aineisto on kiinteä, joten siten sitä analysoidaan lähtökohtaisesti eräajotyyppisesti (myös iteratiivisilla menetel-millä). Toisaalta tutkimuskysymyksenä on, voiko mallia käyttää reaaliaikaisesti ajoneuvossa.

Iteratiivista mallia voidaan testata aineistolla siten, että syntyneelle mallille syötetään pieni määrä dataa kerrallaan, ja katsotaan sen tehokkuutta. Toisaalta malli voidaan rakentaa val-miista aineistosta eräajona – riittää, että sitä voidaan käyttää tasaisen datavirran analysointiin.

Toisaalta, jos eräajomalli ei toimi halutun tiedon luokittelussa, niin tuskin iteratiivinenkaan toimii sen paremmin.