3! TIEDONLOUHINNAN TEKNIIKAT JA NIIDEN KÄYTTÖ KAUPAN ALALLA

Tiedonlouhintaan on olemassa useita eri algoritmeja, mutta Ahmed (2004); Carrier ja Povel (2003) sekä Mitra et al. (2002) jaottelevat ne seuraaviin osa-alueisiin: assosiaa-tiot, luokittelu, klusterointi, ennustaminen, regressio, jaksottaisuuden löytäminen¹⁰ ja visualisointi. Osa-alueiden jaottelu ei ole vakiintunutta, joten siihen löytyy kirjallisuu-desta runsaasti eri tapoja. Tässä luvussa esitellään tutkielman kannalta oleellisimmat tekniikat ja kokeellisessa osiossa puolestaan sovelletaan assosiaatioanalyysia kaupan alan tiedonlouhintaongelmaan. Esiteltävät tiedonlouhinnan tekniikat ovat klusterointi, luokittelu ja assosiaatiosäännöt. Tutkielman tarkoituksena ei ole esitellä kattavasti kaikkia tiedonlouhinnan keinoja niiden valtavan määrän vuoksi. Luokittelu ja kluste-rointi ovat suosittuja ja yleisimmin käytettyjä tiedonlouhintatekniikoita ja niistä löytyy suoraviivaisia algoritmeja esitettäväksi esimerkkien avulla. (Giberta et al., 2011, Gor-don et al., 2011; Wu et al., 2007). Assosiaatiosäännöt ovat tutkielman kannalta keskei-sessä roolissa ja niitä tarkastellaan neljännessä luvussa.

Tiedonlouhintatekniikat tulee valita aina liiketoimintaongelman ja datan piirteiden mukaan, koska kaikki työkalut eivät sovellu kaikkiin ongelmiin (Carrier & Povel, 2003). Tämän tutkielman neljäs luku keskittyy transaktiodataan ja sen tutkimiseen tiedonlouhinnan keinoin. Transaktiodataa on saatavilla kaikista kauppaa tekevistä ja niistä tietoa tallentavista järjestelmistä. Käsiteltävässä transaktiodatassa ei ole identi-fioivia tekijöitä, kuten luottokortin numeroita, joten dataa käsitellään anonyyminä.

Tiedonlouhinta ja koneoppiminen ovat läheisesti toisiinsa liittyviä tieteen osa-alueita ja niiden avulla pyritään löytämään datasta uusia informatiivisia hahmoja. Tämän vuoksi koneoppimisen käsitteet on tärkeä tuntea tiedonlouhintaa käsiteltäessä.

10 Jaksottaisuuden löytäminen eli sequence discovery.

oppiminen on tekoälyn osa-alue, joka keskittyy syötedatasta oppiviin systeemeihin ja niiden tutkimiseen. (Livingstone, 2013.) Koneoppiminen liitetään usein suorituskyvyn parantamiseen eli optimointiin (Provost & Fawcett, 2013). Koneoppimista voidaan kuvata risteytyksellä tilastotiedettä ja tietojenkäsittelytiedettä. Tietojenkäsittelytieteis-sä keskitytään ohjelmoimaan manuaalisesti algoritmein koneen toimintaa, kun taas koneoppimisen algoritmit pyrkivät sopeutumaan syötedatan perusteella ja näin mukau-tumaan kohti luotettavampaa lopputulosta. Tilastotieteen avulla pyritään muun muassa päättelemään asioita annetusta datasta tietyllä todennäköisyydellä. Koneoppiminen sisältää erilaisia algoritmeja ja malleja, joilla voidaan tehokkaammin järjestellä, hakea ja analysoida dataa sekä soveltaa näitä joustavasti isompiin systeemeihin. Käytännön esimerkkinä koneoppimisesta voidaan käyttää esimerkiksi shakin pelaamista. Vastak-kain pelaamisessa ovat siis kone ja ihminen. Koneoppimisen algoritmi pyrkii sille ase-tettujen sääntöjen puitteissa oppimaan pelaamisesta ja mukautumalla sen mukaan.

(Bishop, 2006.) Koneoppimisen tehtävät on yleisesti jaoteltu kolmeen ryhmään anne-tun syötteen ja saadun palautteen perusteella: ohjaamaton oppiminen, ohjattu oppimi-nen ja vahvistusoppiminen. Tässä tutkielmassa syvennytään tarkemmin ohjaamatto-maan ja ohjattuun oppimiseen. Vahvistusoppimisessa malli pyrkii kehittymään dy-naamisessa ympäristössä. Vahvistusoppimiseen lukeutuva syväoppiminen¹¹ on kone-oppimisen osa-alue. Syväoppiminen ymmärretään joissain tapauksissa myös neuro-verkoiksi. Yleistason määritelmän mukaan syväoppiminen on joukko koneoppimisen tekniikoita, jotka hyödyntävät useita epälineaarisen informaatioprosessoinnin kerrok-sia ohjattuun tai ohjaamattomaan piirreirrotukseen ja muunnokseen sekä hahmontun-nistukseen ja luokitteluun. Soveltamiskohteita ovat esimerkiksi puheentunnistus ja konenäkö. (Deng & Yu, 2014.)

11 Syväoppiminen eli deep learning tai hierarchical learning.

3.1! Ohjaamaton oppiminen

Ohjaamattomassa oppimisessa mallille ei anneta ulostuloja vaan se hakee rakennetta sille annetuista syötteistä. Tämä voi usein auttaa löytämään erikoisia malleja. Ohjaa-mattoman oppimisen joukkoon kuuluvat esimerkiksi itseorganisoituva kartta¹², assosi-aatiosäännöt ja klusterointi. Assosiassosi-aatiosäännöt ja klusterointi selitetään tulevissa kap-paleissa tarkemmin. Itseorganisoituva kartta on alkuaan Teuvo Kohosen esittelemä neuroverkkomalli. (Kohonen, 1982.) Neuroverkko on laskentayksikkö, joka sisältää toisiinsa tiivisti yhteen yhdistettyjä prosessointiyksiköitä. Nämä prosessointiyksiköt käsittelevät dynaamisesti ja mukautuvasti ulkoisista lähteistä tulevaa tietoa. Neuro-verkkojen oppiminen on ohjattua tai ohjaamatonta. (Caudill, 1989.) ’Helppoja ihmisil-le, vaikeita koneille’ -tyyppiset ongelmat ovat yleisiä neuroverkkojen käyttökohteita ja ne liittyvät usein hahmontunnistukseen. Hahmontunnistus on esimerkiksi kissan ja koiran tunnistaminen kuvasta tai tekstin kääntäminen skannatusta dokumentista digi-taaliseen muotoon. Neuroverkko sisältää yksinkertaisia rinnakkain sijoitettuja lasken-taelementtejä, jotka suorittavat niille annettuja laskentaoperaatioita. Neuroverkko ete-nee kollektiivisesti rinnakkain verkon solmujen läpi. Solmut ovat neuroverkon tapauk-sessa neuroneita. Yksinkertaisesti neuroni lukee syötteen, prosessoi sen ja muodostaa ulostulon. Neuroverkon ominaisuuksista tärkein on sen kyky oppia, mikä tarkoittaa laskentaelementtien sopeutumista annetun datan mukaan. (Russell & Norvig, 1995.) Ohjatun oppimisen neuroverkkomalli, tukivektorikone, esitellään kappaleessa 3.2.1.

3.1.1! Klusterointi

Klusteroinnilla tarkoitetaan prosessia, jossa data ryhmitellään sen ominaisuuksien tai attribuuttien perusteella (McCue, 2007). Klusteri¹³ on joukko alkioita, jotka jakavat keskenään samankaltaisia ominaisuuksia (Mainmon & Roach, 2005). Klusterointi on

12 Itseorganisoituva kartta eli Self-Organizing Map (SOM) tunnetaan myös nimellä Kohonen map tai Kohonen network.

13 Tunnetaan myös nimellä ryväs tai ryhmä.

ohjaamattoman oppimisen menetelmä, jonka avulla pyritään löytämään datajoukosta luonnollisia osajoukkoja tai hahmoja ilman, että joukkoa on määritelty aikaisemmin.

Klusterin alkioita yhdistää samankaltaiset piirteet joiden perusteella niistä muodoste-taan joukko, joka jakaa nämä ominaisuudet keskenään. Toisaalta taas muodostuneiden joukkojen väliset piirteet ovat mahdollisimman erilaisia. (McCue, 2007.) Klusteroin-nissa yksi alkio voi kuulua yhteen klusteriin, jos ei sumeaa logiikka (fuzzy logic) laske-ta mukaan. Sumeassa klusteroinnissa alkio voi kuulua useampaan klusteriin, jossa al-kiolle asetettu arvo määrää, kuinka vahvasti alkio kuuluu kuhunkin klusteriin. Kuvassa 6 on asiakkaita sisältävä datajoukko. X-akselilla on kuvattu asiakkaiden ikä ja Y-akselilla asiakkaiden tulot. Näiden perusteella on suoritettu klusterointi ja muodostu-neet klusterit ovat määritelty eri värein. Klustereissa on ominaisuuksiltaan samankal-taisia alkioita, kuten esimerkiksi punaisessa klusterissa on nuoria asiakkaita, joilla on hyvät tulot ja violetissa klusterissa iäkkäitä ihmisiä, joilla on keskinkertaiset tulot. Eri klusterointimenetelmiä on suuri määrä ja niitä luokitellaan esimerkiksi seuraavaksi esitettävillä tavoilla. (Mainmon & Roach, 2005.)

Kuva 6. Asiakkaita sisältävä datajoukko, jossa klustereiden lukumääräksi on valittu neljä. Klus-tereiden keskipisteitä (centroid) on kuvattu X:llä.

Osittava klusterointi uudelleen sijoittaa alkiot siirtelemällä niitä klusterista toiseen alkaen alkuperäisestä osituksesta. Yleensä tällaiset algoritmit vaativat klustereiden

saavuttamiseksi tarvitaan kattava luettelo kaikista käytettävissä olevista osioista. Tämä ei kuitenkaan yleensä ole mahdollista, sillä optimaalisen ratkaisun tiedetään olevan NP-kova ongelma ja tyhjentävä menetelmä (exhaustive method) ei ole käytännöllinen.

Tällöin käytetään monesti hyödyksi ahnetta heuristiikkaa¹⁴, kuten iteratiivista opti-mointia. Iteratiivinen algoritmi uudelleen sijoittaa datapisteet klustereiden välillä, kun-nes paikallisesti optimaalinen jako on saavutettu. K-means algoritmi on osittava mene-telmä ja se esitellään myöhemmin tässä kappaleessa. (Mainmon & Roach, 2005.) Hierarkkiset menetelmät rakentavat klusterit rekursiivisesti osioimalla ne joko top-down tai bottom-up -menetelmällä. Hierarkkisen klusteroinnin tuloksena saadaan puumainen rakenne, joka esittää alkioiden sisäkkäisen ryhmittelyn. Jakavissa mene-telmissä klustereihin jakaminen aloitetaan siten, että kaikki alkiot kuuluvat samaan klusteriin. Jakamalla klustereita kahtia päästään haluttuun klusterimäärään tai siihen pisteeseen, että kaikki alkiot ovat omassa klusterissaan. Yhdistävissä menetelmissä jokainen alkio on omassa klusterissaan ja klustereita yhdistetään halutun lopputulok-sen saavuttamiseksi. (Jain et al.,1999.)

Mallipohjaisissa menetelmissä datan kuvataan tulevan joukosta todennäköisyysja-kaumia, joista jokainen esittää klusteria. Datan oletetaan siis muodostuvan todennä-köisyysjakaumien pohjalta, joissa jokainen komponentti edustaa eri klusteria. Toisin kuin tavanomaisessa klusteroinnissa, joka tunnistaa joukon alkioita, mallipohjainen klusterointi löytää myös tunnusomaisia piirteitä joka ryhmästä. (Mainmon & Roach, 2005.) Tiheyspohjaisen mallin periaate on klusterin alkioille laskettu tiheys, joka muo-dostuu lähellä sijaitsevien alkioiden lukumäärästä. Näin ollen toisiaan lähellä olevat pisteet kuuluvat samaan klusteriin. Tiheyspohjaisella klusteroinnilla on vahva kohi-nansietokyky. (Jain et al.,1999.) Ristikko- tai ruudustopohjainen klusterointi osittaa havaintoavaruuden äärelliseen arvoon soluja, jotka muodostavat ruudukon (grid), joi-den perusteella klusterit määritellään. Etuna tällaisissa menetelmissä on nopea proses-sointiaika. (Jain et al.,1999.)

14 Ahne heuristiikka eli greedy heuristics. Valitaan seuraavasta vaiheesta pätevin vaihtoehto miettimättä lopullista kokonaisuutta.

Sivulla 38 sijaitsevan kuvan 6 klusterointi on suoritettu k:n keskiarvon (k-means) klus-terointimenetelmällä. K-means algoritmi etenee seuraavalla tavalla:

1.! Valitaan satunnaisesti klustereiden keskipisteet alkioista.

2.! Sijoitetaan alkiot klustereihin sen perusteella, mikä on lähin keskipiste.

3.! Lasketaan keskipiste uudestaan klusterin alkioiden keskiarvon perusteella.

4.! Sijoitetaan taas alkiot lähimmän keskipisteen klusteriin.

Toistetaan kohtia 3 ja 4 niin kauan, kunnes uudelleenjärjestelyä ei enää tapahdu tai iteraatioiden maksimimäärä on saavutettu. Iteraatioiden maksimimäärä asetetaan en-nen klusteroinnin suorittamista. Muuttujat täytyy usein standardoida tai normalisoida ennen käsittelyä. Standardoinnin tuloksena saadaan muuttuja, jonka keskiarvo on 0 ja keskihajonta 1. Kaavassa 1 on esitetty standardointi muuttujalle x.

!_" = $_" − $

(1)

missä !_" on muuttujan standardoitu arvo ja $_" on käsiteltävän muuttujan arvo. $ kuvaa muuttujan keskiarvoa ja & keskihajontaa. Standardoinnissa muuttujan arvosta $_"

vähennetään muuttujan $ keskiarvo ja jaetaan se muuttujan keskihajonnalla &. (Kan-tardzic, 2011.)

3.1.2! Assosiaatiosäännöt

Ostoskorianalyysin perustavanlainen ajatus muodostuu ostoskärrystä, joka on täynnä erilaisia tuotteita kerättynä supermarketista. Korin avulla kuvataan, mitä asiakas on ostanut yhden kauppareissun aikana. Kaikkien asiakkaiden ostoksista koostuva data antaa kiinnostavaa tietoa siitä, mitä asiakkaat ostavat ja milloin. Yleensä ihmiset osta-vat eri tuotteita, eri määrän eri ajankohtina. Ostoskorianalyysissa hyödynnetään dataa asiakkaan tunnistamiseen ja määrittelemään sitä, miksi tietynlaisia tuotteita ostetaan yhdessä. (Apache, 2013.) Käsite ostoskori voi tarkoittaa tiedonlouhinnan kannalta muutakin kuin supermarketissa ostoskärryyn kerättyjä tuotteita. Ostoskori voi olla

myös luottokortti, jolla on vuokrattu auto ja hotellihuone tai asiakkaan käyttämät pankkipalvelut, kuten tilit, lainat ja sijoitukset yhdessä.

Assosiaatioanalyysissä¹⁵ pyritään havaitsemaan yhteyksiä tapahtumien välillä. Lopulta hyödyllisempää olisi kuitenkin löytää datasta jotain odottamatonta kuin sellaista, joka on perusteltavissa maalaisjärjellä, tietämyksellä ja intuitiolla. Löydetyistä assosiaati-oista voidaan kuitenkin ajatella usein eri tavoin. Jos kaupan ostosdatasta löytyy assosi-aatio leivän ja maidon välille, niin saatetaan ajatella, että siinä ei ole mitään outoa.

Maalaisjärjen, intuition ja tietämyksen perusteella voidaan sanoa, että leipää ja maitoa ostetaan usein ja niitä ostetaan myös samalla kertaa usein. (Provost & Fawcett, 2013.) Assosiaatioiden löytäminen on ohjaamattoman oppimisen menetelmä. Assosiaatio-sääntöjen louhinta määritellään seuraavalla tavalla:

Olkoon '(joukko alkioita

' = )_*, )_,, … , )_.

(2) Olkoon / joukko transaktioita

/ = 0_*, 0_,, … , 0_.

(3) Jokainen transaktio on uniikki ja sisältää joukon ' alkioista muodostuvan osajoukon.

Näin ollen assosiaatiosääntö on implikaatio 1 ⇒ 3

(4) missä 1, 3( ⊆ '(ja 1 ∩ 3 = (∅. (Agrawal et al., 1993.) Assosiaatiosääntöihin ja niiden muodostamiseen perehdytään tarkemmin neljännessä luvussa.

15 Tunnetaan myös nimellä co-occurrence grouping, association rule discovery, frequent itemset mining.

3.2! Ohjattu oppiminen

Ohjatussa oppimisessa koneoppimisen mallia opetetaan antamalla sille syötteet ja ulostulot. Näiden perusteella tavoitteena on oppia tunnistamaan säännöt, jotka johtavat lopputulokseen annetuilla syötteillä. Tekniikoista ohjatun oppimisen ryhmään kuulu-vat esimerkiksi lineaariset luokittelijat, bayes-verkot sekä neuroverkoista support vec-tor machine (SVM) eli tukivekvec-torikone. Lineaarinen luokittelu ja tukivekvec-torikone esi-tellään tarkemmin kappaleessa 3.2.1.

Bayes-verkko on suunnattu syklinen verkko, jossa jokaiselle attribuutille on oma solmu. Joukko ehdollisia riippumattomuuksia kuvataan sen solmuissa. Bayesilainen todennäköisyysmalli soveltuu sovellettavaksi tilanteisiin, joihin liittyy epävarmuustekijöitä. Epävarmuutta pyritään vähentämään sillä, että hyödyksi käytetään kaikki saatavilla oleva informaatio. (Langley et al., 1992.)

3.2.1! Luokittelu

Luokitteluongelmalla on useita eri sovelluksia tiedonlouhinnan alalla. Luokittelu pyr-kii oppimaan syötedatan ja opetusdatan välisiä suhteita. Luokittelu on ohjatun oppimi-sen menetelmä ja yleensä luokittelualgoritmit sisältävät kaksi vaihetta. Ensimmäinen vaihe on opetusvaihe, jossa malli rakennetaan opetusdatan pohjalta. Luokittelualgo-ritmin toisessa vaiheessa eli testivaiheessa mallia käytetään luokittelemaan tuntematon testiaineisto. (Aggrawal, 2015.)

Luokittelualgoritmin tulos voidaan muotoilla diskreetillä luokalla (discrete label) tai numeerisella arvolla (numerical score). Diskreetin luokan tapauksessa testitapaus määritellään yhteen luokkaan kuuluvaksi. Jokaiselle testitapauksen alkiolle määritel-lään numeerinen arvo, joka ilmaisee, kuinka vahvasti alkio kuuluu kyseiseen luok-kaan. Jokainen alkio saa siis arvoja kuulumisestaan määriteltyihin luokkiin. Suurim-man arvon saanut luokka voidaan myös diskretisoida. Etuna numeerisen arvon asetta-misella on vertailun mahdollisuus toisia testitapauksia vastaan ja tarvittaessa niiden järjestykseen asettaminen luokkien suhteen. (Aggrawal, 2015.)

Ahmedin (2004) sekä Carrierin ja Povelin (2003) mukaan luokittelu on yksi tunne-tuimista tiedonlouhinnan tekniikoista. Luokittelun tarkoituksena on rakentaa malli, joka lajittelee alkiot ennalta määrättyihin luokkiin alkioiden ominaisuuksien perusteel-la. Yleisesti käytettyjä työkaluja ovat neuroverkot, päätöspuut ja lineaariset luokitteli-jat. Tukivektorikone on lineaarinen luokitin, joka muodostaa piirreavaruuden jakavan päätöspinnan. Tämän päätöspinnan avulla erotetaan marginaalitasot toisistaan. Kahden näytejoukon väliin sijoitettava päätöstaso on mahdollisimman kaukana marginaalita-soista, kuitenkin siten että alkioita ei jää marginaalitasojen väliin. Tukivektorikoneen opetuksen jälkeen tukivektorikoneen tulee osata luokitella annettu syötejoukko.

(Witten & Frank, 2005.) Kuvassa 7 on merkitty punainen tukivektori, joka määrää marginaalitasot ja välissä sijaitsevan mustan päätöstason, sekä luokittelee siniset ja punaiset alkiot eri luokkiin.

Kuva 7. Tukivektorikoneen muodostama klusterointi. Tukivektorikoneen muodostamat margi-naalitasot on muodostettu siten, että välimatka on mahdollisimman suuri, mutta yhtään alkiota ei jää marginaalitasojen väliin. Marginaalitasojen välissä sijaitsee päätöstaso. Tukivektorit rajoitta-vat marginaalitasojen välimatkaa.

Päätöspuu on luokittelija esitettynä puurakenteen avulla. Luokittelu päätöspuussa ta-pahtuu peräkkäisten testien suorittamisella. Päätöspuulle, kuten muillekin luokittelu-menetelmille annetaan syötteeksi näytevektori, joka sisältää määritellyt muuttujat.

Puun kuhunkin sisäsolmuun liittyy attribuuttiarvon testi ja solmun lapset on nimetty näiden testien tuloksien mukaan. (Breiman, 1984.) Kuvassa 8 on yksinkertainen,

bi-näärinen päätöspuu. Puun juuressa annetulle näytevektorille suoritetaan ensimmäinen testi, jonka perusteella edetään seuraavaan lapsisolmuun. Tätä jatketaan niin kauan, kunnes saavutetaan lehtisolmu eli terminaalisolmu. Tällöin luokittelu annetulle näy-tevektorille on suoritettu.

Binääripuut ovat tietorakenteita totuusarvofunktioiden esittämiseen ja ne ottavat syöt-teekseen totuusarvoja. Totuusarvot voidaan esittää muodossa tosi ja epätosi. Totuusar-vot voidaan esittää myös arvoin 1 ja 0. Totuusarvomuuttujat $_*, … , $₇ ovat syötear-voina funktiolle. Juurisolmussa testataan syötearvoja ja tässä tapauksessa esimerkiksi muuttujaa $_*. Kuvassa 8 on kaksi alipuuta, joissa toisessa $_* = 0 ja toisessa $_* = 1.

Myös jokainen alipuista testaa muuttujaa. Lehtisolmuissa ovat myös arvot 0 tai 1, jot-ka määrittelevät tuloksen muuttujien muodostamalle reitille. Kuvan 8 puu toteuttaa konjunktion, jota merkitään $₁(∧($₂ .

Kuva 8. Yksinkertainen binäärinen päätöspuu, joka toteuttaa konjunktion. Konjunktiossa lehti-solmuun arvolla 1 pääsee reittiä, jossa hyväksytään vain totuusarvo 1. Konjunktio voidaan merki-tä matemaattisesti <₌(∧ (<_>, joka toteutuu kun kummatkin sen ehdosta toteutuvat.

Kuva 9. Yksinkertainen lineaariluokittelu suoritettuna asiakkaista muodostetulle luottodatalle.

Kuvassa 9 ja 10 on yksinkertainen asiakkaista muodostettu datajoukko, jossa sinisellä värillä on kuvattu luottokelpoiset asiakkaat ja punaisella sellaiset, joille luottoa ei suo-sitella myönnettäväksi. Harmaalla merkattu alue kuvissa on käytetyn luokittelijan te-kemä jaottelu, jossa harmaan alueen sisällä olevat alkiot ovat niitä, joille luottoa ei tulisi myöntää. Luokittelun idean selventämiseksi kuvissa on käytetty esimerkkinä kahta eri luokittelutekniikkaa. Kuvassa 9 on käytetty yksinkertaista lineaarista luokit-telua, jota luotonmyöntäjä voisi käyttää automaattiseen lainanhakijan luottokelpoisuu-den tunnistamiseen. Kuvasta 9 nähdään, että lineaarinen luokittelu ei sovi ongelmaan täydellisesti, koska ’ei lainaa’ -ryhmä sisältää myös sinisen alkion sekä luottokelpois-ten joukko punaisen alkion. Kuvassa 10 esitetty tekniikka on lähimmän naapurin luo-kittelu, joka soveltuu luotto-ongelmaan paremmin ja luokittelee myös joukoista eril-lään olevat alkiot oikein.

Kuva 10. Lähimmän naapurin (Nearest-Neighbour) luokittelu suoritettuna asiakkaista muodoste-tulle luottodatalle.

Luokittelussa jokainen alkio sisältää joukon ominaisuuksia, jonka mukaan jaottelu pystytään toteuttamaan koneellisesti. Lineaarinen luokittelu on yksinkertaisuudessaan suora viiva 2-ulotteisessa avaruudessa. Olkoon annettu yksi piste $( = ( ($, @), jolloin pisteen luokittelu voidaan ilmaista muodossa:

&)BC(D$ + F@ + G)

(5)

missä D, F ja G ovat vakioita, jotka puolestaan määrittelevät suoran. Funktio palauttaa arvon 1, jos D$( + (F@( + (G on positiivinen ja muuten funktio palauttaa arvon -1. Suo-ran parametrit voidaan valita karkeasti seuraavalla tavalla:

•! Suoran parametrit löydetään koneoppimisen avulla

•! Muodostetaan opetusjoukko (training set) halutun luokittelun perusteella.

•! Etsitään suora, joka parhaiten erottaa opetusjoukon alkiot.

•! Tämän jälkeen täytyy muodostaa matemaattiset vaiheet parhaiten opetusjoukon alkiot erottavalle suoralle.

Luokittelun ja edellisessä kappaleessa esitellyn klusteroinnin välillä on perustavanlaa-tuinen ero. Klusteroinnissa osiin jakaminen eli segmentointi tehdään syötedatan sa-mankaltaisuuksien perusteella ilman ennakkotietoa muodostuvien ryhmien rakentees-ta. Luokittelussa taas segmentointi toteutetaan opetusdatan perusteella, joka määritte-lee luokittelijaan muodostuvat ryhmät tavoitemuuttujan muotoon (target variable).

3.3! Tiedonlouhintatekniikoiden soveltaminen kaupan alan ongelmiin

Markkinoinnissa perusstrategioihin kuuluu asiakkaiden jakaminen samanlaisiin ryh-miin eli segmentteihin. Kaupan alalla luokittelua voidaan käyttää hyväksi usealla eri osa-alueella kuten asiakkuuksienhallinnassa ja markkinoinnissa. Kohdennetussa markkinoinnissa käytetään ominaisuusmuuttujia (feature variable), jotka kuvaavat asiakasta. Ominaisuusmuuttujia voidaan käyttää ennustamaan ostoskäyttäytymistä luokittelun opetustestien perusteella. Luokittelua voidaan hyödyntää myös asiakas-poistuma-analyysissä¹⁶, jonka tarkoitus on määrittää asiakkaat jotka mahdollisesti ovat jättämässä yrityksen palvelut. Markkinoinnin apuna voidaan käyttää myös klusteroin-tia, jonka avulla voidaan löytää uusia kuluttajasegmenttejä kohdennetun markkinoin-nin avuksi. (Han & Kamber, 2001.) Muodostuneiden klustereiden sisällä voidaan tar-kastella väestörakennetta ja ostettuja tuotteita. Klusterointia voidaan myös käyttää apuna paikallisen valikoiman luonnissa. Tuotteista voidaan automaattisesti muodostaa esimerkiksi myyntiä parantavia tuoteprofiileja, kuten esimerkiksi: Klusteri 1 sisältää villasta tehtyjä ja v-aukollisia tuotteita ja ostos on arvoltaan 50–75 euroa. (SAS, 2010.) Ruokakauppojen kulkureitit ja tuotteiden sijoittelu käytävien varsille on yleensä tark-kaan harkittua markkinointia. Larson et al. (2002) mutark-kaan itse matkustuskuviosta kaupan sisällä on tehty vähän tutkimusta. Kuinka asiakkaat kulkevat kaupan läpi? Mil-lä osastoilla vietetään eniten aikaa? Kuljetaanko kauppiaan ennalta määrittelemä ja miettimä reitti läpi vai poiketaanko siitä? Larson et al. tutkimuksessa yksittäisten asi-akkaiden kaupassa kulkemia reittejä analysoitiin ostoskärryihin sijoitetuilla RFID¹⁷ tunnisteilla. Analysointi tapahtui moniulotteisella klusterointialgoritmilla. Esimerkiksi kaupassa vietetty aika oli tutkimuksessa merkittävä tekijä ja ajat luokiteltiin luokkiin lyhyt, keskipitkä ja pitkä. Tutkimuksessa esiintyi 14 erilaista reittityyppiä. (Larson et al., 2002.)

16 Mitkä asiakkaat ovat vaarassa poistua, millä todennäköisyydellä ja miksi.

17 Radio frequency identification on radiotaajuuteen perustuva etätunnistus.

Yleisesti myymälässä hallitsevaksi tavaksi kulkea on ajateltu käytävien edestakaisin mutkittelu, jossa käytäviä kuljetaan päästä päähän ja edetään aina seuraavalle käytä-välle. Tätä kuitenkin esiintyy tutkimuksen analysoinnin tuloksissa todella vähän. Vali-koituja käytäviä ja niiden pohjalta muodostuneita reittejä esiintyy klusteroinnin tulok-sissa paljon useammin. Laajemmin käytäviä koluava asiakas tekee myös todennäköi-semmin pistoja käytäville kuin, että kulkisi ne päästä päähän systemaattisesti. Tutki-muksessa havaittiin myös, että tuotteet jotka on aseteltu käytävän keskelle, saavat huomattavasti vähemmän katseita ja huomiota kuin päätyihin asetellut tuotteet. Muut tutkimuksessa esitetyt havainnot eivät olleet suoraan yleistettävissä.

Toinen kiinnostava tutkimus käsitteli asiakkaiden ostoslistoja. Cumby et al. (2003) muodostivat tutkimuksessaan prototyypin, joka ennustaa asiakkaiden ostoslistoja. Tut-kimuksessa ostoslistojen ennustaminen määriteltiin luokitteluongelmaksi. Tutkimuk-sessa käytettävä prototyyppi nimettiin ”ostosapuriksi” (Shopping assistant). Ostoskär-ryihin on asennettu tietokone, joka esittää näytöltä personoitua informaatiota ja tässä tapauksessa esimerkiksi ehdotetun kauppalistan asiakkaalle. Asiakas tunnistetaan esi-merkiksi kanta-asiakaskortin avulla. Ostoslistojen muodostamisen apuna on kaksi vuotta asiakkaiden ostodataa suuresta päivittäistavaraketjusta, jota käytetään ostoslis-taluokittelijoiden opetukseen. Asiakkaan eteneminen tunnistetaan kaupassa ja käytä-vien kohdalla pääte ilmoittaa kyseiseltä käytävältä löytyvät tuotteet. Vähittäiskaupan toimijoille tällainen tuote tarkoittaa jopa 11 prosentin tuoton kasvua, mutta se avustaa myös paremman asiakaskokemuksen luomisessa ja antaa personoidun kanssakäymisen mahdollisuuden päätteen tai muunlaisen markkinoinnin kautta. (Cumby et al., 2003.) Päivittäistavarakaupoissa kerätään päivittäin suuria määriä asiakkaiden ostosdataa.

Vähittäiskaupan myyjät ovat kiinnostuneet tutkimaan dataa ja löytämään sen pohjalta ostoskäyttäytymismalleja (Kotu & Deshpande, 2014). Seuraavassa luvussa tutustutaan assosiaatiosääntöihin ja niiden soveltamiseen käsiteltäessä vähittäiskaupoista kerättyä ostoskoridataa.

4! ASSOSIAATIOANALYYSIN HYÖDYNTÄMINEN

In document Kehittynyt data-analytiikka vähittäiskaupan alalla (sivua 35-49)