• Ei tuloksia

Kehittynyt data-analytiikka vähittäiskaupan alalla

N/A
N/A
Info
Lataa
Protected

Academic year: 2022

Jaa "Kehittynyt data-analytiikka vähittäiskaupan alalla"

Copied!
84
0
0

Kokoteksti

(1)

Kehittynyt data-analytiikka vähittäiskaupan alalla

Sami Huttunen

Pro gradu -tutkielma

Tietojenkäsittelytieteen laitos Tietojenkäsittelytiede

Joulukuu 2015

(2)

i

ITÄ-SUOMEN YLIOPISTO, Luonnontieteiden ja metsätieteiden tiedekunta, Kuopio Tietojenkäsittelytieteen laitos

Tietojenkäsittelytiede

Opiskelija, Sami Huttunen: Kehittynyt data-analytiikka vähittäiskaupan alalla Pro gradu –tutkielma, 78 s., 2 liitettä (6 s.)

Pro gradu –tutkielman ohjaaja: FT Maija Marttila-Kontio Joulukuu 2015

Avainsanat: Kehittynyt data-analytiikka, assosiaatioanalyysi, tiedonlouhinta, vähit- täiskauppa, ostoskorianalyysi

Tutkielman aiheena on kehittynyt data-analytiikka vähittäiskaupan alalla. Tutkielma kartoittaa kehittyneen data-analytiikan ja tiedonlouhinnan mahdollisuuksia ja käyttöä vähittäiskaupan alalla. Tutkielma on toteutettu yhteistyössä Suomen Kassajärjestel- mät Oy:n kanssa. Tämä tutkielma sisältää esimerkkejä onnistuneista tiedonlouhinta- projekteista ja data-analytiikan käytöstä organisaatioiden päätöksenteon tukena. Tut- kielmassa sovelletaan assosiaatioanalyysia vähittäistavarakaupan myyntipisteen muodostamaan ostosdataan. Tutkielman aineistolle ei ole asetettu ennakkoasetelmia vaan datasta etsitään tiedonlouhinnan keinoin ennen näkemättömiä ja mahdollisesti hyödyllisiä yhteyksiä alkioiden välille.

Digitaalisessa muodossa olevaa tietoa eli dataa muodostuu lukuisista eri lähteistä valtavalla nopeudella. Datan hallintaan ja analysointiin tarvitaan yhä kehittyneempiä menetelmiä ja työkaluja. Dataan perustuvan päätöksenteon esitetään päätyvän halut- tuun lopputulokseen todennäköisemmin kuin yksinomaan intuitioon perustuvan pää- töksenteon. Käytettävät tiedonlouhinnan tekniikat tulee määritellä liiketoiminta-alan ja sen piirteiden mukaan. Yleisimpänä data-analytiikan käyttötarkoituksena pidetään ihmisen käyttäytymisen ymmärtämistä.

Tiedonlouhinnan hyödyntämisestä vähittäiskaupan alalla on runsaasti tutkimusta ja yleensä tutkimus keskittyykin enimmäkseen asiakkuuksienhallintaan. Tässä tutkiel- massa käytettävän tiedonlouhinnan menetelmän avulla syvennytään anonyymiin transaktiodataan, jolloin datasta ei ole identifioitavissa asiakasta. Tutkielman aineisto käsittää pienen vähittäistavarakaupan ostosdataa kerättynä noin kahden vuoden ajal- ta. Tiedonlouhinnan tuloksena datajoukosta voidaan tunnistaa eniten myydyt tuotteet, sekä yhteyksiä eli assosiaatioita myytyjen tuotteiden välille. Saatuja tuloksia voidaan hyödyntää esimerkiksi tuotesijoittelussa, kohdennetussa markkinoinnissa ja tuottei- den lisämyynnissä. Assosiaatiosääntöjä on tulkittava varoen, mutta täsmällisesti käy- tettynä niitä voidaan hyödyntää liiketoimintaa kohentaviin ratkaisuihin.

ACM-luokat (ACM Computing Classification System, 1998 version):

Information systems applications - Data mining,

Information systems applications - Decision support systems; Data analytics, Machine learning - Learning paradigms

(3)

ii

UNIVERSITY OF EASTERN FINLAND, Faculty of Science and Forestry, Kuopio School of Computing

Computer Science

Student, Sami Huttunen: Advanced data analytics in retail sector Master’s Thesis, 78 p., 2 appendixes (6 p.)

Supervisor of the Master’s Thesis: PhD Maija Marttila-Kontio December 2015

Keywords: Advanced analytics, association analysis, data mining, retail, market bas- ket analysis

The subject of the thesis is advanced data analytics in retail sector. The purpose of this study is to identify the opportunities of advanced analytics and data mining in retail sector. The study is carried out in co-operation with the company called Suomen Kassajärjestelmät Oy. Company develops software for POS systems. Thesis involves an experimental study about market basket data collected from small retail store. Thesis includes examples of successful data mining projects in the sector of retail. Data mining is used to find potentially useful information from data.

Data is generated from multiple sources in enormous speed so there is vast amount of data available. Data management and analysis needs more advanced tools and techniques. Data-driven decision making is said to be more accurate than decisions made only by intuition. Business problems define which data mining tools and techniques has to be used. Most common use of analytics is to understand the behavior of human being. Organizations are exploiting data for competitive advantage.

There is a huge number of research in the field of data mining in the retail sector.

Studies are generally conducted in the field of customer relation management. In this study association analysis is made for anonymous market basket data generated by point of sales system. Data has been collected for two years. As a result of data mining most frequent items can be identified. There are also connections or associations between items. The results obtained can be used for example product placement, price optimization and targeted marketing. Association rules must be interpreted with caution but properly used they can be valuable for business.

CR Categories (ACM Computing Classification System, 1998 version):

Information systems applications - Data mining,

Information systems applications - Decision support systems; Data analytics, Machine learning - Learning paradigms

(4)

iii

Sisällysluettelo

1! Johdanto ... 5!

2! Kehittynyt data-analytiikka ja vähittäiskauppa ... 9!

2.1! Mitä on kehittynyt data-analytiikka? ... 10!

2.1.1! Rakenteellinen ja rakenteeton data ... 12!

2.1.2! Big data ... 14!

2.1.3! Big data -työkalut ... 15!

2.1.4! Hadoop ... 16!

2.2! Kehittyneen data-analytiikan jaottelu ... 20!

2.2.1! Kuvaileva analytiikka ja tiedonlouhinta ... 21!

2.2.2! Ennustava analytiikka ... 24!

2.2.3! Optimointi ... 25!

2.3! Data-analytiikka kaupan alalla ... 26!

2.3.1! Nosta keskiostosta ja panosta oikeisiin tuotteisiin ... 28!

2.3.2! Tunne asiakkaasi ... 29!

2.3.3! Markkinoi tehokkaasti ja lisää myyntiä ... 31!

2.3.4! Optimoi toimitusketju ... 33!

3! Tiedonlouhinnan tekniikat ja niiden käyttö kaupan alalla ... 35!

3.1! Ohjaamaton oppiminen ... 37!

3.1.1! Klusterointi ... 37!

3.1.2! Assosiaatiosäännöt ... 40!

3.2! Ohjattu oppiminen ... 42!

3.2.1! Luokittelu ... 42!

3.3! Tiedonlouhintatekniikoiden soveltaminen kaupan alan ongelmiin .... 47!

4! Assosiaatioanalyysin hyödyntäminen päivittäistavarakaupan ostosdataan 49! 4.1! Datan valinta ja kuvailu ... 51!

4.2! Datan esiprosessointi ja muuntaminen ... 52!

4.3! Assosiaatioanalyysi ... 53!

4.3.1! Kattavan joukon muodostaminen ... 56!

4.3.2! Assosiaatiosääntöjen muodostaminen ... 59!

4.4! Tiedonlouhinta ... 61!

5! Pohdinta ja johtopäätökset ... 69!

Viitteet ... 74! Liitteet

Liite 1: Assosiaatiosäännöt järjestettynä tietyn raja-arvon mukaan Liite 2: Kaikki muodostuneet assosiaatiosäännöt

(5)

1! JOHDANTO

The Economist -lehdessä julkaistun artikkelin mukaan maailma sisältää valtavan mää- rän digitaalisessa muodossa olevaa tietoa eli dataa, joka kasvaa alinomaa. Vaikka työ- kaluja datan hallinnointiin, jakamiseen sekä käsittelyyn on runsaasti, ylittää datamäärä jo saatavilla olevan tallennustilan kapasiteetin. (The Economist, 2010a.) Päivittäin dataa arvioidaan syntyvän 15 petatavua1, josta 80 % on rakenteetonta2 dataa (Bates et al., 2009). Carl Pabon mukaan ihmismieli pystyy käsittelemään lähimuistissa kerral- laan seitsemän yksittäistä informaation palasta ja yleisesti vain neljää käsitettä tai nii- den välistä suhdetta. Tämän informaatiotulvan avuksi tarvitaan kehittyneempiä työka- luja ja menetelmiä, joilla tiedon käsittelyä voidaan helpottaa. (The Economist, 2010b.) Kehittyneen data-analytiikan työkalut tarjoavat ratkaisuja alati kasvavan datamäärän tehokkaaseen hyödyntämiseen.

Datan analysointia ja sen hyödyntämistä käytetään päätöksenteon tukena, mutta nyky- ään dataa tulee monesta eri lähteestä ja sitä saadaan hyödynnettyä yhä enemmän kehit- tyneempien työkalujen johdosta. Analyysiin perustuvat päätökset johtavat todennäköi- semmin oikeaan lopputulokseen (Pfeffer & Sutton, 2006; Bonabeau, 2003). Analyy- siin ei kuitenkaan tule tukeutua sellaisenaan, vaan sitä tulee käsitellä osana päätöksen- tekoa. Dataan pohjautuva päätöksenteko (data-driven decision-making) ei ole muita toimintatapoja poissulkeva toimintamalli vaan esimerkiksi intuitiota on joskus käytet- tävä tehtäessä nopeita ratkaisuja. (Provost & Fawcett, 2013.) Datan analysointia hyö- dynnettäessä on ensin kuitenkin merkittävää ymmärtää liiketoiminnan ja organisaation strategian kannalta ongelma, johon vastauksia halutaan löytää. Ongelman määrittelyn jälkeen se tulee miettiä mahdollisena tiedonlouhintaongelmana. (Provost & Fawcett,

1 1000 gigatavua = 1 teratavu ja 1000 teratavua = 1 petatavu.

2 Datasta ei ole tunnistettavissa selkeää rakennetta. Esimerkiksi tekstiä, ääntä, kuvaa (Abiteboul et al.

2009).

(6)

2013.) Tiedonlouhintatekniikat tulee valita liiketoimintaongelman ja datan piirteiden mukaan (Carrier & Povel, 2003).

Tutkielmassa määritellään kehittyneen data-analytiikan käsitteistöä ja esitetään esi- merkkejä sen hyödyntämisestä vähittäiskaupan alalla. Esimerkit kattavat keskiostok- sen nostamista, asiakkuuksienhallintaa, markkinointia, lisämyyntiä, toimitusketjun optimointia sekä tuotetietojen, kuten esimerkiksi hinnan optimoimista. Tutkielmassa tarkastellaan myös tiedonlouhinnan (data mining) tekniikoita ja niiden tuomia mahdol- lisuuksia. Tiedonlouhinnan prosessimalli CRISP (Cross Industry Standard Process for Data Mining) esitellään tiedonlouhinnan yhteydessä toisessa luvussa. (Provost & Faw- cett, 2013.) Tiedonlouhinnan osa-alueista perehdytään klusterointiin, luokitteluun ja assosiaatiosääntöihin. Tiedonlouhinta ja koneoppiminen (machine learning) liittyvät vahvasti toisiinsa. Tiedonlouhinnassa datasta pyritään löytämään mielenkiintoisia hahmoja ja apuna hyödynnetään usein koneoppimisen algoritmeja. Koneoppiminen jaetaan yleisesti kolmeen osa-alueeseen: ohjattu oppiminen, ohjaamaton oppiminen sekä vahvistusoppiminen. Tiedonlouhinnan osa-alueita ja niiden soveltamista kaupan alan ongelmiin tutkitaan tarkemmin kolmannessa luvussa. Tutkielma tarjoaa yleiskat- sauksen kehittyneen data-analytiikan aihealueesta ja siten tutkielma tarjoaa tietoa kai- kille datasta ja sen tarkastelemisesta kiinnostuneille. Tutkielmassa käytettävät termit ovat vapaasti suomennettuja, koska monet alan käsitteistä eivät ole vielä vakiintuneita suomen kielessä. Osassa termeistä on sovellettu Helsingin yliopiston Tietojenkäsittely- tieteen laitoksen (2015) sivujen tarjoamaa tiedonlouhinnan sanastoa.

Älykäs liikkeenjohto eli Business Intelligence (BI), Business Analytics (BA) sekä ke- hittynyt data-analytiikka (advanced analytics tai advanced data analytics) liittyvät vahvasti toisiinsa. Kehittynyt data-analytiikka sisältää BA:n alle sijoittuvat osa-alueet sekä usein myös älykkään liikkeenjohdon toimintamallit. BA mielletään usein samaksi kuin kehittynyt data-analytiikka ja se sisältää tässä tutkielmassa määriteltynä kolme osa-aluetta: kuvaileva analytiikka, ennustava analytiikka ja optimointi. Kuvaileva ana- lytiikka aloittaa tiedonlouhintaprosessin. Sen avulla pyritään määrittelemään liiketoi- mintaongelma, muovaamaan data kerättäväksi ja käytettäväksi liiketoimintaongelman mukaan, sekä punnitsemaan erilaisten mallien rakentamista saatujen tuloksien pohjal- ta. Ennustava analytiikka pyrkii ennustamaan tulevaa historiatiedon pohjalta. (Daven- port & Harris, 2007; Raden, 2010.) Tiedonlouhintaprosessissa kerättyä dataa ja sen

(7)

antamia tuloksia hyödynnetään ennustavien mallien rakentamisessa. Yksinkertaisena esimerkkinä ennustamisesta voidaan käyttää Suomen Ilmatieteenlaitoksen tekemiä sääennusteita. Ennustavassa analytiikassa ei siis pelkästään tutkita historiatietoja, vaan hyödynnetään niitä myös ennakoinnin tukena. Optimoinnissa vaadittavia asioita mi- nimoidaan tai maksimoidaan, jotta haluttu lopputulos saavutetaan mahdollisimman tehokkaasti. Minimointi voi tarkoittaa esimerkiksi kokonaiskustannusten minimoimis- ta tuotteen toimitusketjussa. Kun halutut toimitusketjuun liittyvät muuttujat ovat sel- villä, voidaan muuttujien arvoja säätämällä etsiä optimaalisin lopputulos. Yritykset haluavat esimerkiksi optimoida työajan käyttöä, hintoja, sisäisiä prosesseja ja markki- nointia.

Eri muodossa olevaa dataa muodostuu valtavalla nopeudella lukuisista eri lähteistä, kuten sensoreista ja sosiaalisesta mediasta, jolloin ilmiötä kutsutaan big dataksi. Big datan hallinnointi jakaantuu kolmeen eri kokonaisuuteen, joita ovat: varastointi ja ark- kitehtuuri, datan ja analysoinnin prosessointi sekä itse big data analyysit. (Cohen et al., 2009). Big datan osalta tutkielmassa käsitellään big datan ohjelmointiviitekehys Ha- doop ja sen tärkeimmät aliprojektit HDFS-tiedostojärjestelmä (Hadoop Distributed File System) sekä MapReduce -ohjelmistoarkkitehtuuri. HDFS-tiedostojärjestelmää käytetään big datan tallentamiseen. MapReduce on sovellus suurten tietomäärien rin- nakkaisprosessointiin. (Apache, 2011; Venne, 2009; EMC, 2012.) Big dataan tutustu- taan tarkemmin tutkielman toisessa luvussa.

Tutkielman kokeellisessa osiossa tehdään assosiaatioanalyysi vähittäistavarakaupan ostosdatalle hyödyntäen Mainmonin & Roachin (2005) esittelemiä tiedonlouhinnan vaiheita. Ostosdatalle tehtyä assosiaatioanalyysiä voidaan kutsua myös ostoskoriana- lyysiksi. Ostoskorianalyysin perusidea on ostoskori, joka sisältää yhden ostoskäynnin aikana kerätyt tuotteet. Ostoskorianalyysissä pyritään etsimään usein yhdessä ostetta- via tuotteita, jolloin kyseistä tietoa voidaan hyödyntää esimerkiksi tuotesijoittelussa ja tuotteiden lisämyynnissä. (Apache, 2013.) Tutkielma kartoittaa tiedonlouhinnan mah- dollisuuksia ja kiinnostusta vähittäiskaupan alalla. Analytiikan hyödyntämisestä vähit- täiskaupan alalla on lukuisia onnistuneita menestystarinoita, jotka usein painottuvat suurten yritysten suorittamiin projekteihin. Pienet- ja keskisuuret yritykset ovat kiin- nostuneita hyödyntämään analytiikan työkaluja, mutta harvalta löytyy tietotaitoa to- teuttaa näitä projekteja. (Provost & Fawcett, 2013.) Tutkielma toteutetaan Suomen

(8)

Kassajärjestelmät Oy:lle ja saatuja tuloksia hyödynnetään yrityksen liiketoiminnan kehittämiseen. Tiedonlouhintatekniikaksi on valittu assosiaatioanalyysi, koska jokai- sessa vähittäismyyntiä tekevässä kaupassa on kassapääte, joka tallentaa myyntitilan- teessa tapahtumatietoja. Assosiaatioanalyysissä käytettävät tapahtumatiedot ovat transaktio- eli ostosdataa. Yksi transaktio sisältää yhden tai useamman alkion ja alkio on tässä tapauksessa tuote. Yksi asiakkaan ostoskerta eli käytännössä ostoskuittia kut- sutaan transaktioksi.

Tämä tutkielma kolmesta pääluvusta sekä pohdinnasta. Ensimmäisessä pääluvussa käsitellään kehittynyttä data-analytiikkaa ja datan eri muotoja. Ensimmäisen pääluvun lopuksi esitetään esimerkkejä onnistuneista data-analytiikan projekteista vähittäiskau- pan alalla. Toisessa pääluvussa käsitellään tiedonlouhinnan tekniikoita ja esitetään tutkielman kannalta tärkeimmät tekniikat, sekä niiden hyödyntämistä vähittäiskaupan alalla. Kolmas pääluku sisältää puolestaan tutkielman kokeellisen osion, jossa hyö- dynnetään assosiaatioanalyysiä tarkasteltaessa vähittäistavarakaupan ostosdataa. Lo- puksi pohdinnassa esitetään kokoava näkemys data-analytiikan hyödyntämisestä orga- nisaation päätöksenteon tukena sekä vähittäiskaupan alalla.

(9)

2! KEHITTYNYT DATA-ANALYTIIKKA JA VÄHIT- TÄISKAUPPA

Yritykset kilpailevat ja saavat kilpailuetua analytiikan avulla. Väitetäänkin, että analy- tiikkaa apuna käyttävät yritykset ovat vahvemmassa asemassa kilpailijoihin nähden.

Analytiikan avulla toimivissa yrityksissä toimitusketjuista löydetään optimoinnin mahdollisuudet, kun varastot täyttyvät tuotteista tai päinvastoin tyhjenevät jostain tuot- teista. Yritys tietää, mitä tuotteita asiakas haluaa ja millä hinnalla. Asiakkaan ostos- käyttäytyminen ja ostopäätöksen muodostuminen ovat tiedossa ja yrityksessä tiedoste- taan myös ne asiat, jotka saavat ihmiset muuttamaan ostoskäyttäytymistään. (Daven- port & Harris, 2007.) Yleisin data-analytiikan käyttötarkoitus on ymmärtää ihmisten käyttäytymistä. Organisaatiot ovat kiinnostuneet siitä, mitä markkinoilla tapahtuu tai mitä markkinoilla todennäköisesti tulee tapahtumaan. (Raden, 2010.)

Tässä luvussa käsitellään kehittynyttä data-analytiikkaa ja tutustutaan siihen, kuinka analytiikkaa hyödynnetään vähittäiskaupan alalla. Vähittäiskauppa tarkoittaa kulutta- jille eli loppukäyttäjille suuntautuvaa kauppaa.3 Termiä kehittynyt data-analytiikka voidaan nähdä myös käytettävän ristiin termeillä data-analytiikka, kuvaileva analytiik- ka ja ennustava analytiikka. Tässä tutkielmassa kehittynyt data-analytiikka eli KDA määritellään tarkasti toiminnallisella tasolla ja selitetään, miksi termejä ei tulisi käyttää ristiin. Käytännössä on kuitenkin otettava huomioon, että termit eivät ole täysin va- kiintuneet ja ihmiset eivät välttämättä ymmärrä keskiarvon tai mediaanin käsitettä.

(Raden, 2010.) Kappaleessa 2.1 selitetään, mitä data-analytiikan käsitteellä tarkoite- taan, sekä kuvataan dataa ja sen eri muotoja. Kehittynyt data-analytiikka voidaan ja- otella karkeasti kolmeen osa-alueeseen, jotka esitellään luvussa 2.2. Kappale 2.3 käsit- telee vähittäiskauppaa, sekä data-analytiikkaan ja datan hyödyntämiseen pohjautuvia

3 Sanasto, Kesko Oyj 2015.

(10)

menestystarinoita. Kappaleessa 2.2 selitettävien osa-alueiden käyttämiä tiedonlouhin- nan ja koneoppimisen menetelmiä avataan tekniseltä sisällöltään kolmannessa luvussa.

2.1! Mitä on kehittynyt data-analytiikka?

Päätöksenteon tukena hyödynnettävät datamäärät ovat olleet aluksi hyvin pieniä. De- cision Support System eli DSS oli ensimmäisiä termejä tämän kaltaiselle toiminnalle.

Tuotannon suunnittelun apuna saatettiin esimerkiksi käyttää pientä määrää tietokoneen analysoimaa dataa. Toimintaa kutsuttiin operaatioanalyysiksi, jos analyyseihin sisältyi mitään matemaattista tai tilastollista. Tiedonhallinasta tuli entistä tärkeämpää, koska Enterprise Resource Planning eli ERP ja esimerkiksi Point Of Sales tai Point Of Ser- vice (Oracle, 2014) eli POS alkoivat tuottaa valtavia määriä tietoa. Internetin käytön laajentuminen lisäsi myös tiedon määrän kasvua. Tietokeskeinen toiminta tunnettiin aluksi nimellä Online Analytical Processing eli OLAP. Nykyään käsitteeksi kaikelle edellä mainitulle käytetään termiä Business Intelligence eli BI. (Raden, 2010; Daven- port & Harris, 2007.)

Knowledge Discovery in Databases eli KDD on prosessi, joka etsii hyödyllistä infor- maatiota ja hahmoja4 datasta. KDD tunnetaan myös nimellä tiedonlouhinta. KDD on yleisesti käytetty tekniikka etsittäessä tietoa isosta ja kompleksisesta datajoukosta.

Tiedonlouhinta sisältyy osana KDD-prosessiin useiden muiden toimenpiteiden kanssa.

Tiedonlouhinnan algoritmit mahdollistavat datan käsittelyn, mallien rakentamisen ja hahmojen etsimisen datasta (Mainmon & Roach, 2005; Raden, 2010.)

Data-analyysi on tapa tai prosessi, jonka avulla datasta saadaan erotettua informaatio.

Datan pohjalta voidaan muodostaa myös ennustavia malleja. Ennustava mallintaminen on prosessi, jossa luodaan malli ennustamaan tulevia trendejä ja todennäköisyyksiä tapahtumille. Analyysin suorittamisen ja siitä saadun informaation, sekä muodostettu-

4 Hahmo on datan pohjalta tietyin perustein valittu tai mallin muodostama joukko alkioita.

(11)

jen mallien pohjalta voidaan tehdä johtopäätöksiä perustuen dataan ja sen antamaan informaatioon. Data-analyysi voidaan jakaa Runklerin (2012) mukaan neljään vaihee- seen, jotka ovat: valmistelu, esikäsittely, analyysi, jälkikäsittely. Valmistelun aikana suunnitellaan, mistä data saadaan, miten se saadaan ja kuinka paljon dataa tarvitaan.

Suunnittelu sisältää myös esikäsittelyn, analyysin ja jälkikäsittelyn määrittelyn. Myös tutkimuskysymyksen asettaminen ja arviointi on tärkeää suunnitteluvaiheessa. Datan esikäsittely sisältää datan muuntamisen helposti analysoitavaan ja oikeaan muotoon, jotta analysointivaiheessa ei tulisi ongelmia. Esikäsittelyvaiheessa data puhdistetaan ja sitä korjataan tarvittaessa. Puhdistaminen tarkoittaa virheellisten tietueiden poistamista datasta, jotta ne eivät vääristä lopputulosta. Korjaamisella tarkoitetaan esimerkiksi tyhjien tai virheellisten arvojen muuntamista datan muiden arvojen kanssa sopivaksi.

Lähes jokaisen tiedonlouhintaprojektin analyysivaiheessa käytetään apuna kuvailevaa analytiikkaa, jotta käsiteltävää data opittaisiin tuntemaan paremmin (Mainmon &

Roach, 2005). Nimensä mukaan kuvailevan analytiikan menetelmä ryhmittelee ja se- littää dataa (McCue, 2007). Yksinkertainen datan kuvailu ja visualisointi antavat en- simmäiset näkemykset datasta ja sen luonteesta. Kuvaileva analytiikka voi auttaa po- tentiaalisten hypoteesien asettamisessa, sekä esimerkiksi piilossa olevan informaation löytämisessä. Asiakkaiden iällisen jakauman ja maantieteellisten alueiden perusteella voidaan esimerkiksi kuvailla, mikä osa asiakaskunnasta tulisi ottaa huomioon markki- nointistrategiassa tarkemmin. (Mainmon & Roach, 2005.) Analyysivaihe on tämän tutkielman kannalta tärkein vaihe ja sen käsittelyä jatketaan luvussa 2.2. Jälkikäsitte- lyn avulla tulkitaan saatuja tuloksia, dokumentoidaan niitä ja arvioidaan tuloksia kriit- tisesti. Myös datan mahdollinen jatkokäyttäminen puntaroidaan jälkikäsittelyssä. (Da- venport & Harris, 2007.)

Datan käyttämistä, analysointia ja malleja eri prosessien ja menetelmien kautta laaja- mittaisesti päätöksentekoon yhdistettynä voidaan kutsua siis Business Intelligenceksi eli älykkääksi tiedonhallinnaksi tai älykkääksi liikkeenjohdoksi. Business Intelligence eli BI on prosessi, jossa kerätään, tallennetaan ja analysoidaan dataa. Kerätyn datan pohjalta tehdään valistuneempia liiketoimintaan liittyviä päätöksiä, joissa datan tuoma informaatio on vahvasti mukana. BI:n avulla päätöksentekoon tuodaan nopeutta ja tarkkuutta, jonka pohjalta voidaan parantaa organisaation tehokkuutta ja toimintamal- leja. (Davenport & Harris, 2007.) BI voi sisältää perinteistä raportointia ja visualisoin-

(12)

tia sekä kehittyneempää analytiikkaa johon sisältyy esimerkiksi tiedonlouhintaa ja big dataa. Big dataa käsitellään tarkemmin kappaleessa 2.1.2. BI-prosessissa käytettävää dataa voidaan kerätä sekä sisäisistä että ulkoisista lähteistä. Sisäinen tiedonlähde voi olla esimerkiksi organisaation toiminnanohjausjärjestelmä ja sen sisältämät tiedot.

Ulkoisia lähteitä voivat olla muun muassa sosiaalinen media, tutkimukset ja erilaiset tietorekisterit. (Rouse, 2014.)

Business analytics eli BA on termi, jota käytetään kuvaamaan joko kehittynyttä data- analytiikkaa yksin tai yhdessä älykkään tiedonhallinnan kanssa. BI-prosessissa käyte- tään lähihistorian, sekä nykyhetken dataa ja tehdään johtopäätöksiä niiden pohjalta.

BA taas pyrkii ennustamaan tulevaa kompleksisimpien työkalujen ja mallien avulla.

Näitä työkaluja esitellään tarkemmin kolmannessa luvussa. (Davenport & Harris, 2007.) BA on yleisesti jaettu kolmeen eri osa-alueeseen

1.! Descriptive analytics eli kuvaileva analytiikka, 2.! Predictive analytics eli ennustava analytiikka 3.! Prescriptive analytics tai optimization eli optimointi5

Tästä eteenpäin tutkielmassa käytetään termien suomenkielisiä nimiä, jos lyhennettä ei ole määritelty. Business Analyticsin sisältämät kolme eri osa-aluetta kuvataan tar- kemmin kappaleessa 2.2 ja tässä tutkielmassa niitä käsitellään yleisesti kehittyneen data-analytiikan osa-alueina.

2.1.1! Rakenteellinen ja rakenteeton data

Datan ja sen johdannaisten määritelmät on hyödyllistä tuntea tutustuttaessa data- analytiikkaan tarkemmin. Dataa esiintyy ja sitä kerätään useassa eri muodossa. Ylei- sesti data luokitellaan vapaasti suomennettuna rakenteettomaan, rakenteelliseen ja osarakenteelliseen dataan. Rakenteettoman tai strukturoimattoman (unstructured) da-

5 Raden, 2010.

(13)

tan käsite viittaa siihen, että datasta ei ole nähtävissä tunnistettavaa rakennetta. Raken- teetonta dataa kuvataan myös datana, jota ei voi tallentaa relaatiotietokantojen riveille.

Rakenteettoman datan etu on, että tallennusvaiheessa ei tarvitse huolehtia kuin datan tallentamisesta puuttumatta datan muokkaukseen. Rakenteeton data on yleensä läh- teestä, joka tuottaa runsaasti dataa lyhyessä ajassa. Rakenteeton data on merkkijono, josta ei ole tunnistettavissa rakennetta. Rakenteetonta dataa on esimerkiksi sensoreista tuleva data. Ääni, tekstidokumentti ja kuva ovat myös rakenteetonta dataa. (Abiteboul, 1999.)

Rakenteellinen data on tunnistettavissa siitä, että datassa on määritelty tarkasti, mitä eri osat datassa tarkoittavat. Rakenteellinen data seuraa siis ennalta määrättyä mallia.

Rakenteellista dataa ovat esimerkiksi puhelinnumero ja postiosoite. Relaatiotietokan- nassa säilytettävä data on rakenteellista ja jokainen datarivi luettelee ominaisuuksia yhdestä tietokantarivistä. Tietokannan skeema (schema) täytyy määritellä etukäteen, sillä skeema määrää datan tyypin ja rakenteen sekä sen relaatiot. Datan tehokkaassa prosessoinnissa, tallennuksessa ja selauksessa edesauttaa, jos skeema ja datan rakenne on määritelty kattavasti. Negatiivista ennalta määrätyssä skeemassa on sen joustamat- tomuus. Skeeman rakennetta on kankea muuttaa jälkeenpäin. Esimerkiksi jos määritel- ty tietokantarivi tarvitsee uuden ominaisuuden, täytyy se määritellä koko tietokanta- taululle uudeksi kentäksi. Rakenteellisen datan etuna on datan käsittelyyn ja ylläpitoon löytyvien työkalujen ja tekniikoiden laaja määrä. (Blumberg & Atre, 2003.)

Osarakenteellinen tai semi-strukturoitu (semi-structured) data ei välttämättä tarvitse skeemaa, mutta sille voidaan määritellä sellainen. Osarakenteellisen datan tyypit voi- daan määritellä datan osaksi ja on mahdollista, että datan esiintymällä on enemmän kuin yksi tyyppi. Osarakenteellisen datan etuna on sen mukautuvuus datan monimuo- toisuuteen. Esimerkiksi jotkin kentät voivat kopioitua, data on puutteellista tai sisältää muutoksia. XML (Extensible Markup Language) eli rakenteellinen kuvauskieli on erinomainen esimerkki osarakenteellisesta datasta. DTD (Document Type Definition) tai XMLS (XML schema) ovat rakennemäärittelytapoja, jotka määrittelevät XML- dokumentin rakenteen (Blumberg & Atre, 2003.) Toinen kuvaava esimerkki on JSON (JavaScript Object Notation). JSON on kevyt, tekstipohjainen, kieliriippumaton datan välitysmuoto, jonka avulla voidaan määritellä pienen joukon muotoilusääntöjä raken-

(14)

teellisen datan esittämiseen. JSON esiintyy jossain määrin XML:n korvaajana (Crock- ford, 2006.)

2.1.2! Big data

Viime vuosina käsite big data on saanut osakseen runsaasti huomiota. Miksi dataa kerätään ja miksi se kasvaa big dataksi? Dataa on nykyään halvempaa tallentaa ja sitä syntyy monesta eri paikasta kasvavalla määrällä. Tallennusmahdollisuudet ovat kui- tenkin laajentuneet esimerkiksi pilvipalveluiden myötä. Dataa on myös saatavilla kaikkialta vaivattomasti. Keinot datan hankintaan ovat myös lisääntyneet esimerkiksi mobiililaitteiden yleistymisen myötä. Entä jos perinteiset lähestymistavat ja työkalut eivät riitä käsittelemään dataa tarpeeksi yksinkertaisesti ja data, jota ollaan ottamassa käsittelyyn, ei mahdukaan välimuistiin? Yksi kone ei riitä käsittelemään haluttavaa määrää tietoa ja perinteinen relaatiotietokanta ei pysty käsittelemään tarvittavaa tieto- määrää riittävän nopeasti. Tarvitaan erilaisia ratkaisuja ja lähestymistapoja, jotta kas- vanut datamäärä saadaan käsiteltyä. Big data yhdistää monta eri datan lähdettä, sekä monessa muodossa olevaa dataa prosessoitavaksi mahdollisimman tehokkaasti. (Ku- bick, 2012; Venne, 2009.)

Big dataa kuvaillaan myös ideologiaksi. Fast Forward Labsin perustajan Hilary Man- sonin (Dutcher, 2014) mukaan: ”Big data on sitä, mitä ei ole ennen voitu tehdä”. New York Timesin päätoimittajan David Leonhardtin (Dutcher, 2014) sanoin: ”Big data on todellisuuden käsittelyä”. Big dataan yhdistetään monesti kolme tai jopa seitsemän V- alkuista englanninkielistä termiä (Livingstone, 2013). Useimmiten ainakin seuraavat viisi on esitelty: Velocity, Variety, Volume, Veracity ja Value. Velocity tarkoittaa sitä, kuinka nopeasti dataa syntyy ja sen nopeutta liikkua ympäristössään. Variety tarkoittaa datan muodon vaihtelevuutta. Dataa on siis monessa eri muodossa. Data voi siten olla rakenteellista tai yhtä hyvin rakenteetonta. Volume tarkoittaa yksinkertaisesti sitä, että dataa on paljon. (EMC, 2012.) Veracity kuvaa datan yhdenmukaisuutta ja sitä, että datan tulisi olla ehyttä. Datassa voi kuitenkin esiintyä paljon virheitä ja epänormaaliut- ta. Tämä taas hankaloittaa datan jatkokäsittelyä ja tulkintaa. (TechAmerica Foundati- on, 2012.) Value on yllämainituista käsitteistä tärkein. Value kuvaa sitä piilossa olevaa datan arvoa, joka pitäisi pystyä löytämään käytössä olevilla työkaluilla ja tämän jäl-

(15)

keen esimerkiksi integroimaan BI-prosessiin ja päätöksenteon avuksi. Value sisältää käsitteenä sen, mitä datasta pyritään löytämään muovaamalla data ensiksi kompaktim- paan muotoon. Tällaista dataa Allen Bonde kutsuu small dataksi. Small data on joh- dettu paikallisista tietolähteistä, kuten tietokannoista ja big datasta tai pelkästään toi- sesta edellä mainituista. Small data on organisoitua ja pakattua tietoa useasti myös visuaalisessa muodossa. Small data on helposti ymmärrettävässä muodossa ja valmiik- si prosessoitua, ymmärrettävää ja helposti käytettävää dataa. (Bonde, 2013.)

2.1.3! Big data -työkalut

Informaatioteknologian aikakaudella dataa on tullut saataville valtava määrä eri läh- teistä. Big data ei ole ainoastaan isoa ja suurta, vaan myös nopeasti lisääntyvää ja ra- kenteeltaan vaihtelevaa. Big datan käsittely on erilaista ja monimutkaisempaa koska dataa on paljon, sitä muodostuu jatkuvasti lisää ja se on eri muodoissa. Tämän takia big tarvitsee erilaisia työkaluja ja keinoja, jotta suuri datamäärä saadaan hallittua. Big datan haasteellisuudet liittyvät datan tallentamiseen, varastointiin, etsimiseen, jakami- seen, analysointiin ja visualisointiin. Big datan hallinnointi ja käsittely keskittyvät kolmeen kokonaisuuteen:

1.! Varastointi ja arkkitehtuuri

2.! Datan ja analysoinnin prosessointi 3.! Big data -analyysit

Kehittynyttä data-analytiikkaa voidaan soveltaa big dataan, jolloin analysoitavat data- joukot ovat luonnollisesti suurempia ja moniulotteisempia (Cohen et al., 2009). Big data ja kaikki siihen liittyvä, kuten esimerkiksi työkalut kehittyvät jatkuvasti. Big data on myös tutkimuskohteena hyödyllinen ja suosittu. Tässä luvussa kuvataan joitakin big dataan liittyviä työkaluja ja tekniikoita yleisellä tasolla.

Ensimmäisenä big datan kanssa työskennellessä täytyy miettiä, mihin ja miten laaja datamäärä tallennetaan. Perinteiset tallentamiseen käytetyt työkalut ovat esimerkiksi tietokannat ja tietovarastot. Siellä tallennus tehdään ETL (Extract, Transform, Load) – tyyppisesti. (Bakshi, 2012.) Big datan keräämisessä tekniikkaa kutsutaan nimellä MAD (Magnetic, Agile, Deep). Magnetic -käsite tarkoittaa, että dataa kerätään joka

(16)

puolelta piittaamatta, kuinka paljon sitä on ja missä muodossa se on. Tämä eroaa pe- rinteisestä ETL-keräämisestä siten, että tässä vaiheessa ei tehdä puhdistusta ja yhte- näistämistä (transform) datalle. Agile -käsite tarkoittaa, että datan tulee helposti olla tuotettavissa ja datan tulee olla myös nopeasti adaptoitavissa. Tietovaraston tulee siis nopeasti mukautua muutoksiin jatkuvassa datatulvassa, sekä pitää loogiset ja fyysiset sisällöt synkronoituna. Tähän suureen datamäärään käytetään monesti monimutkaisia tilastotieteen malleja, joten tietovaraston täytyy pystyä mukautumaan nopeisiin kyse- lyihin läpi datajoukon. Deep -käsite kuvaa tätä toimintaa. (Cohen et al., 2009.)

Tallennuksen jälkeen tulee analyyttinen prosessointi. Big datan prosessointiin on neljä vaatimusta. Ensimmäinen on nopea datan lataaminen, mikä tarkoittaa esimerkiksi le- vyn käytöstä tai verkkoliikenteestä johtuvaa viivettä vaikuttaen kyselyihin. Toinen kohta on nopea kyselyiden suorittaminen riippumatta käyttäjien määrästä tai kyselyi- den kompleksisuudesta. Kolmantena on varastoidun tilan tehokas hyötykäyttö eli skaa- lautuvuuden vaatima muisti ja levytila on tarkoin optimoitava. Neljäntenä vaatimukse- na on mukautuvuus erilaisiin työtehtäviin. Tehtävät voivat olla eri sovellusten tai käyt- täjien yhtäaikaista käyttöä sisältäviä tehtäviä, joihin kaikkiin tulee sopeutua. Myös muistin varassa toimivat tietokantaratkaisut antavat analytiikalle joustavuutta ja niitä käytetäänkin big datan kanssa esimerkiksi mallien vertailuun keskenään ennen sopi- vimman mallin käyttöä. (He et al., 2011.) Relaatiotietokannan rajoja rikkomaan on kehitetty NoSQL (Not Only SQL). NoSQL kykenee hallinnoimaan rakenteetonta tai sellaista dataa, jonka alkiolla ei ole relaatiota muihin alkioihin. NoSQL erottaa datan hallinnan ja varastoinnin. Datan hallinnointiin tarkoitetut käskyt kirjoitetaan ohjelma- rajapinnalle, toisin kuin tietyllä kyselykielellä kirjoitettaessa suoraan tietokantaan.

NoSQL tähtää näin ollen skaalautuvuuteen ja mallien joustavuuteen, sekä vaivatto- maan sovellusten tekemiseen ja toteuttamiseen. (Bakshi, 2012.)

2.1.4! Hadoop

Apache Hadoop on Apache Software Foundationin ylätason ohjelmistoprojekti, joka pitää sisällään runsaasti aliprojekteja. Näistä koostuu Hadoop, joka on joukko open source -projekteja. Hadoop on eräänlainen ohjelmointiviitekehys isojen tietomäärien rinnakkaiseen hallintaan. Hadoop tarjoaa datan hallintaan luotettavuutta, skaalautu-

(17)

vuutta ja helppohoitoisuutta. Hadoop on MAD -systeemi ja se tarjoaa implementaation MapReduce-mallille. Tärkeimpänä aliprojektina ovat Hadoopin ydinprojektit HDFS- tiedostojärjestelmä (Hadoop Distributed File System), jota käytetään big datan tallen- nukseen, sekä MapReduce-moduuli, joka on sovellus isojen tietomäärien rinnakkais- prosessointiin. (Apache, 2011; Venne, 2009; EMC, 2012.) Kaksi muuta ydinprojektia ovat Hadoop YARN, jonka avulla hallitaan laskentaresursseja ja ajoitetaan käyttäjän tehtäviä klusterissa, sekä Hadoop Common, joka on ydinkirjastojen ja palveluiden kokoelma (Apache, 2011).

HDFS tarjoaa hajautetun tiedonkäsittelyn mahdollisuuden, joka on optimoitu suurille tiedostoille. Tiedostot jaetaan normaalisti 64 megatavun kokoisiin lohkoihin, jotka jaetaan edelleen klusterisolmuille. Tämän lisäksi data on suojassa virheiltä replikoitu- jen lohkojen vuoksi. Perustapauksessa data replikoidaan kolme kertaa. (Apache, 2013.) HDFS-solmuja on kahden tyyppisiä: datasolmuja ja nimisolmuja. Data on tal- lennettu datasolmuihin ja nimisolmut toimivat säätelijänä ja ohjaajana käyttäjän ja datasolmujen välillä. MapReduce on rinnakkaissovellusmalli, joka perustuu siihen, että koneiden tai resurssien määrää lisätään ennemmin kuin yksittäisen tietokoneen suoritus- tai tallennustilaa. (EMC, 2012.) MapReduce pilkkoo siis tehtävän osiin, jakaa tehtävän osat klustereille ja suorittaa osat rinnakkain, sekä näin ollen pyrkii vähentä- mään suoritukseen käytettävää aikaa (Venne, 2009). HDFS ja MapReduce tarjoavat ratkaisua big datan mittavimpiin hankaluuksiin eli tehokkaaseen tallentamiseen ja kä- sittelyyn.

Ensimmäinen MapReducen vaihe on laittaa syötearvot avain-arvo -pareihin. Map- funktio pilkkoo isot laskennalliset tehtävät pienemmiksi tehtäviksi ja asettaa näille oikeat avain-arvo -parit. Map-funktio siis lajittelee ja ryhmittelee syötearvot. Avain on esimerkiksi sana ja arvo on sanan esiintymismäärä datajoukossa. Tämän tulos anne- taan seuraavaksi reduce-funktiolle, joka yhdistää kaikki saman avaimen sisältävät ar- vot ja tuottaa lopullisen laskentatuloksen. (EMC, 2012; Cuzzocrea et al., 2011.) Ku- vassa 1 sinisellä pohjalla on kuvattu tiedosto, joka sisältää suuren määrän sanoja. Map- funktion tehtävä on asettaa sanat avain-arvo- pareihin. Jokainen avain on yksi sana ja jokainen avain saa arvon 1. Reduce-funktion vaiheessa jokainen sama sana yhdistetään yhteen ja jokaisen avaimen eli sanan arvo vastaa sanojen esiintymislukumäärää tiedos- tossa. (National Science Foundation, 2014.) MapReducella on kahdentyyppisiä pro-

(18)

sesseja: Job tracker ja task tracker. Job tracker -prosessi on vastuussa map- ja reduce- funktioiden lähettämisestä task tracker -prosesseille. Task tracker -prosessit suorittavat tehtävät ja antavat tulokset takaisin job tracker -prosessille. Yleisesti on olemassa yksi job tracker -prosessi klusteria kohden ja yksi tai useampi task tracker -prosessi solmua kohden klusterissa. (Venne, 2009.)

Kuva 1. MapReducen toiminta. (National Science Foundation, 2014)

Kuvassa 2 kuvataan MapReducen ja HDFS:n toiminta yhdessä. Kohta 1 kuvaa suurta datamäärää, kuten esimerkiksi lokidataa tai sensoridataa. HDFS replikoi datan eli tekee siitä samanlaisia ilmentymiä tiedostovirheiden varalle. Sininen, punainen ja vihreä väri kuvaavat näitä replikoituja datasolmuja. Kohdassa 2. käyttäjä suorittaa map- ja reduce- funktiot tietylle datajoukolle ja lähettää ne job tracker -prosessille, joka jakaa tehtävät edelleen task tracker -prosesseille kohdassa 3. Task tracker -prosessi suorittaa map- funktion, joka tuottaa ulostulon ja joka puolestaan tallennetaan HDFS:ään. Kohdassa 4. reduce-funktio suorittaa map-funktion läpikäyneen datan ja tuottaa lopullisen tulok- sen. Yksinkertaisuudessaan tiedostot voidaan ladata HDFS-järjestelmään kopioimalla.

MapReducen tehtävänä on tulkita dataa prosessointiajan puitteissa ilman, että datan prosessointipaikkaan lataamiseen kuluva aika vaikuttaa laisinkaan datan sijaitessa jo HDFS-järjestelmässä. (Herodotou et al., 2011.)

(19)

Kuva 2. HDFS:n ja Map Reducen toiminta yhdessä. Mukailtu lähteestä Elgendy & Elragal, 2014.

Kuvassa 3 on esitetty Hadoopin toimintamalli yleisellä tasolla. Dataa voidaan ladata HDFS:ään monesta eri lähteestä, kuten esimerkiksi sosiaalisesta mediasta tai satelliitin tuottamasta sensoridatasta. Käyttäjä voi MapReducen rutiinien avulla tai muiden kyse- lykielien kuten HiveQL:n kautta hakea dataa visualisoitavaksi tai varastoitavaksi. Täl- löin varastoitu data on jo käsitelty kompaktimpaan ja strukturoidumpaan muotoon.

Kyselyitä voidaan suorittaa MapReducen kautta suoraan, jolloin käyttäjä määrittää itse mapper- ja reducer -funktiot. Hiven kohdalla kyselyjen tekeminen onnistuu SQL- tyyppisen HiveQL-kielen avulla, jolloin Hive hoitaa mapper- ja reducer-funktioiden määrittelemisen MapReduce-ajoon.

(20)

2.2! Kehittyneen data-analytiikan jaottelu

Kehittyneen data-analytiikan työkalut voidaan jaotella monella eri tavalla, mutta tässä tutkielmassa jaottelu tapahtuu BA:n määritelmin kuvailevaan analytiikkaan, ennusta- vaan analytiikkaan sekä optimointiin. Davenport &!Harris erottelevat kehittyneen data- analytiikan ja BI:n väliset suhteet tai toisaalta BI:n ja BA:n väliset eroavaisuudet, jotka on esitetty kuvassa 4. BA:n määritelmä sisältää tarvittaessa BI:n työkaluja ja usein niitä käytetäänkin apuna kehittyneempien data-analytiikan työkalujen kanssa. Daven- port & Harris kuvaavat vihreää osaa kuvasta raportoinniksi ja sinistä osaa analytiikak- si. (Davenport & Harris, 2007.)

Bosen mukaan kehittyneen data-analytiikan menetelmiä ovat esimerkiksi datan-, teks- tin- ja verkonlouhintatyökalut, visualisointi, suositusjärjestelmät, ennustava ja kuvai- leva mallintaminen, optimointi sekä simulointi (Bose, 2008). Monet luetelluista sopi-

Hive%(Analyy,set%

prosessit)%

Hbase%(Tietokanta,%

NoSQL)%

MapReduce%

(Rinnakkainen,%hajauteBu%ohjelmoinDviitekehys)%

HDFS%

(Hadoop%Distributed%File%System,%hajauteBu%

tallennus)% Muita%Hadoop% Hadoop%ydin% tuoBeita%

Lataaja%

MapReduce%

GruDinit%

KäyBäjän% koodi%

KyselykieliG%

rajapinnat%

käyBäjä%

Senosoridata%

Email%

Sosiaalinen%media%

TeksDDedostot%

LogiDedostot%

%

VisualisoinDtyökalut%

Datan%varastoinDratkaisut%(Data%warehouse)%

Kuva 3. Hadoopin toiminta ja siihen liittyvät eri tasojen komponentit. Mukailtu lähteestä Rivas, 2012.

(21)

kerson erottelee BA:n osa-alueet raportointiin, analyyseihin, monitorointiin ja ennus- tamiseen. Näistä ennustaminen (prediction) sisältää ennustavan analytiikan (Predictive Analytics), joka vastaa kuvan 4 kehittynyttä data-analytiikkaa. (Eckerson, 2007.)

2.2.1! Kuvaileva analytiikka ja tiedonlouhinta

Analytiikan hyödyntäminen saa alkunsa yrityksen toiminnassa kuvailevasta analytii- kasta ja sen hyödyntämisestä. Kuvaileva analytiikka onkin menetelmänä BA:n proses- seista tunnetuin ja käytetyin. Kuvailevan analytiikan menetelmä sisältää datan katego- risointia, luokittelua, yhdistelyä ja muovaamista ymmärrettävään muotoon päätöksen- teon tueksi. Kuvaileva analytiikka kokoaa datan yhteen esitettäväksi erilaisina kaavi- oina tai tunnuslukuina. Data voi olla yksinkertaisuudessaan esimerkiksi budjettilas- kelma tai joukko myyntilukuja. Kuvailevan analytiikan avulla datasta voidaan löytää trendejä tai käyttäytymismalleja, kuten esimerkiksi tietyn sukupuolen ja iän perusteella on mahdollista erottaa erilaista ostoskäyttäytymistä. Kuvaileva analytiikka voi avustaa yrityksiä esimerkiksi luokittelemaan asiakkaat tietynlaisiin segmentteihin ja näin ollen hyödyntää datasta saatua informaatiota kampanjoinnissa tai kohdennetussa markki- noinnissa. (Davenport, 2009.) Esimerkiksi seuraaviin kysymyksiin voidaan etsiä vas- tauksia kuvailevan analytiikan avulla: Kuinka paljon oli yrityksen myynti maantieteel- listä jakaumaa tarkasteltaessa? Millä tuotantolaitoksella oli matalin tuottavuus? Kuvai-

Raportoin)*

Suoritusmi/arit*

Slice*and*dice,*drill*down*

Poikkeukset*ja*hälytykset*

Op)moin)*

Simulaa)o*ja*mallintaminen*

Tilastollinen*analyysi*

Ennustavat*mallit*

Kehi/ynyt*

dataA analy)ikka*

Tavallinen*

Business*

Intelligence*

(BI)**

BA*

Kuva 4. Kehittyneen data-analytiikan ja BI:n ero. Mukailtu lähteestä Duffy & Rosenberg, 2007.

(22)

levan analytiikan keinot, kuten keskiarvo, moodi, mediaani, keskijakauma ja histo- grammit ovat usein menettelytapa ennustavien mallien kehittäjille ymmärtää datan luonnetta ja sen piirteitä ennen mallin suunnittelua ja toteutusta. (Eckerson, 2007.) Tiedonlouhinta kuvaa prosessia, jossa syvennytään etsimään tietokannasta mielenkiin- toisia uusia hahmoja sekä datan välillä esiintyviä yhteyksiä. Tiedonlouhinta on myös osa data-analyysiä, jolla pyritään löytämään uutta informaatiota datasta. Tiedonlouhin- ta sisältää eri tapoja etsiä hyödyllistä tietoa suuristakin määristä dataa. Tiedonlouhinta tarkastelee dataa eri näkökulmista, etsii yhteyksiä asioiden välille ja kerää informaati- osta yhteenvedon käytettäväksi esimerkiksi halutun asian tehostamiseen. Tiedon- louhinta voi sisältää myös koneoppimisen työkaluja. Koneoppimisen käsitettä tarkas- tellaan laajemmin kolmannessa luvussa. Tilastotiedettä voidaan ajatella myös eräänä tiedonlouhinnan komponenttina. Tilastotieteen avulla voidaan hahmottamaa datan jakautumia ja esittää data yhdistettynä esimerkiksi keskiarvon avulla. Tilastotieteen erilaiset testit ja luotettavuusarvot tukevat päätelmää löydettyjen hahmojen luotetta- vuudesta ja yleistettävyydestä. Useat kehittyneen data-analytiikan tekniikoista erotta- vat malleja tai hahmoja datasta ja se perustuu pohjimmiltaan juuri tilastotieteen työka- luihin. (Provost & Fawcett, 2013.) Osaavissa käsissä tiedonlouhinta voi avata uusia näkökulmia, sekä antaa tietoa ja ymmärrystä ympäröivästä maailmasta (McCue, 2007).

CRISP (Cross Industry Standard Process for Data Mining) on prosessimalli tiedon- louhinnan toteuttamiselle. CRISP-malli luotiin tiedonlouhinnan prosessin standar- doimiseksi ja helpottamaan kaikkia ammattilaisia, jotka suorittivat tiedonlouhintaa tai toimivat tiedonlouhinnan konsultteina. CRISP-malli onnistui erinomaisesti, koska se perustui käytännönläheisten esimerkkien pohjalta muotoiltuun malliin siitä, kuinka eri ihmiset suorittivat tiedonlouhintaprosessia. Tiedonlouhintatehtävä ei ole epäonnistu- nut, vaikka ongelma ei ratkea ensimmäisellä iterointikerralla. Ensimmäisen iteraatio- kierroksen aikana tiimi on saanut datasta uutta tietoa ja pystyy siten lähestymään on- gelmaa eri näkökulmista. (Provost & Fawcett, 2013.)

Kuvassa 5 esitetään kuusi prosessiin liittyvää vaihetta. Kaksi ensimmäistä ovat liike- toiminnan ja datan ymmärtäminen. Liiketoiminnan ymmärtämisellä tarkoitetaan, että projektille asetetaan päämäärät ja tavoitteet. Alkuun on tärkeää määritellä liiketoimin-

(23)

taongelma ja tämän jälkeen tarkastella ongelmaa tiedonlouhintaongelmana. Tässä vai- heessa määritellään myös alustava suunnitelma asetettujen tavoitteiden saavuttamisek- si. Alustava suunnitelma liittyy läheisesti datan ymmärtämiseen. Datan ymmärtämisen prosessit eivät välttämättä ole lineaarisia. Prosessin alkuvaiheessa on tarpeellista mää- ritellä ratkaistava ongelma, ratkaisun käyttökohde ja tarkoitus. Alkuvaiheessa voidaan esittää esimerkiksi seuraavia kysymyksiä: Mitä tarkalleen ottaen haluamme tehdä?

Miten aiomme sen tehdä? Mitkä osat näistä käyttötapauksista ovat mahdollisia tiedon- louhintamalleja? Datan ymmärtäminen on vaihe, jossa on ratkaisevaa tarkastella datan vahvuuksia ja heikkouksia. Onko data jo kerätty? Mitä varten se on kerätty? Soveltuu- ko se käytettäväksi helposti? Tarvitaanko dataa lisää? Mistä dataa saadaan ja onko se maksullista? (Shearer, 2000.)

Kuva 5. CRISP, tiedonlouhinnan prosessimalli ja sen vaiheet. (Shearer, 2000.)

Datan valmisteleminen pitää sisällään datajoukkojen muodostamisen alkuperäisestä raakadatasta. Data puhdistetaan ja muunnetaan työkaluille sopivaan muotoon. Mallien muodostamiseen keskittyviin työkaluihin voidaan näin ollen syöttää puhdasta ja täs- mällistä dataa. Valmisteleminen sisältää yleensä datan taulukointia, puuttuvien arvojen

data$

Datan$

valmisteleminen$

Mallintaminen$

Liiketoiminnan$

ymmärtäminen$

Käy5ööno5o$

Arvioin8$

Datan$

ymmärtäminen$

(24)

korjaamista ja datan muuntamista eri formaatteihin. Osa työkaluista ottaa vastaan esi- merkiksi vain numeerista dataa. Numeeriset arvot vaativat joskus myös normalisointia, jotta tulokset ovat vertailukelpoisia. Seuraava vaihe eli mallintaminen on säännöllisten hahmojen etsimistä datasta tiedonlouhinnan menetelmiä käyttäen. Tässä vaiheessa valitaan ja testataan useita mallintamistekniikoita tarkoituksenmukaisimman tekniikan löytämiseksi. Tiedonlouhintaongelmien ratkaisuun on useita eri tekniikoita, joten op- timaalisimman keinon tai keinojen löytyminen voi vaatia palaamista datan valmistelu- vaiheeseen. (Shearer, 2000.)

Seuraavassa tiedonlouhinnan prosessin vaiheessa malli tai mallit on valittu ja muodos- tettu. Arviointi sisältää edellisten vaiheiden arvioinnin, jotta malli toteuttaa asetetut tavoitteet. Jokaisesta datajoukosta löytyy hahmoja, mutta ne täytyy jaotella säännölli- sesti ja satunnaisesti esiintyviin joukkoihin. Ennen mallin käyttöönottamista voidaan säästää taloudellisia ja ajankäytöllisiä resursseja, kun malleja testataan rajatulla tes- tiympäristöllä. Mallin muodostamisen ja onnistuneen arvioinnin jälkeen toteutetaan mallin tai mallien käyttöönotto. Tässä mallin vaiheessa yhdistetään saadut lopputulok- set esimerkiksi osaksi organisaation käytäntöjä, päätöksentekoa tai muita toimintamal- leja. Tiedonlouhintaprosessin ja siitä saadun lopputuloksen käyttöönotto voi olla myös asiakkaan tehtävä, jolloin prosessi on suunniteltu, toteutettu ja testattu asiantuntijoiden avulla. (Provost & Fawcett, 2013.)

2.2.2! Ennustava analytiikka

Ennustava analytiikka on enemmän kuin silkkaa tilastotiedettä. Jotkut kutsuvatkin ennustavaa analytiikkaa tilastotieteeksi steroideilla. Terminologia aiheuttaa usein on- gelmia myös ennustavan analytiikan osa-alueella. Konsultit ja kauppiaat käyttävät sekaisin termejä; ennustava analytiikka, kehittynyt analytiikka tai vain analytiikka kuvaillessaan työkaluja tai palveluita, joita he tarjoavat. Kaikki analytiikka ei ole en- nustavaa, joten termien käyttöä ristikkäin tulisi välttää. Ennustava analytiikka voidaan kuitenkin jakaa kahteen alueeseen, joita ovat ohjattu oppiminen ja ohjaamaton oppi- minen. Termit sisältyvät myös kiinteästi koneoppimisen termistöön, jotka esitellään syvemmällä tasolla kolmannessa kappaleessa. (Eckerson, 2007.)

(25)

Wayne Eckerson sijoittaa kehittyneen data-analytiikan työkalut ennustavan analytiikan termin alle. Eckersonin mukaan ennustava analytiikka on joukko BI-tekniikoita, jotka pyrkivät löytämään hahmoja ja yhteyksiä suurista määristä dataa käyttäytymisen ja tapahtumien ennustamiseen. Muihin BI-työkaluihin verrattuna ennustava analytiikka eroaa siten, että se on tulevaisuuteen suuntautuvaa analytiikkaa, joka hyödyntää histo- rian tapahtumia ennakoidakseen tulevaa. (Eckerson, 2007.) Ennustava analytiikka tut- kii historiadatan pohjalta asioiden ennustettavuutta jatkossa etsimällä käyttäytymis- malleja ja hahmoja datan pohjalta. Käytännössä mallien avulla voidaan tarkastella esimerkiksi ensi vuoden väritrendiä lasketteluvaatteiden osalta tai markkinointikam- panjan vaikuttavuutta tietylle asiakassegmentille ennen kampanjoinnin aloittamista.

Kehittyneiden menetelmien käyttö ennustavassa mallintamisessa on yleistä ja se edes- auttaa hahmojen löytymistä isommista datajoukoista. Tiedonlouhinta on yleensä eräs käytettävistä tasoista kehitettäessä ennustavan analytiikan mallia. BI:ssä käytettävät raportointityökalut, sekä kaavioita sisältävä ohjauspaneeli taas ovat omiaan esittämään ennustavasta mallista saatavan informaation mutkattomasti. Yleensä muokattavissa oleva ohjauspaneeli voi sisältää esimerkiksi erilaisia kaavioita ja lisäksi tärkeitä tun- nuslukuja organisaation tärkeäksi luokittelemista asioista. (Raden, 2010.) Ennustavan analytiikan avulla voidaan vastata esimerkiksi seuraaviin kysymyksiin: Mitä tapahtuu, jos tavarantoimittajan hinnat kohoavat 5 % ja kysyntä vähenee 10 %? Mitä odotamme maksavamme polttoaineesta seuraavien kuukausien aikana?

2.2.3! Optimointi

Optimointi on BA:n kolmas osa-alue. Tehtävänä on ennustaa tuleva tapahtuma, jos jonkin tapahtuman aiheuttavat tekijät on selvitetty (Raden, 2010). Osa optimoitavista asioista sisältää liikaa mahdollisia vaihtoehtoja ihmisen käsiteltäväksi järkevästi. Op- timointi tarkoittaa parhaiden mahdollisten vaihtoehtojen valintaa jonkin asian mini- moimiseen tai maksimoimiseen. Esimerkiksi useat yritykset haluavat optimoida palve- lun tai tuotteen hinnan sekä mainonnan maksimoidakseen kokonaistuoton. Pankkiau- tomaatteihin halutaan säilöä optimoitu määrä eri seteleitä saatavuuden, turvallisuuden ja ylläpidon kannalta. Lentoyhtiöiden lippujen hinnoittelussa ei useinkaan nähdä ole- van johdonmukaisuutta, mutta yleensä hinnoittelun taustalla hyödynnetään optimointia

(26)

runsaasti. Kokonaistuotto pyritään maksimoimaan miehistön, huollon, asiakaspalvelun ja muiden tarkalla ajoittamisella ja synkronoimisella keskenään. (Davenport & Harris, 2007.) Ennakoivan ja kuvailevan analytiikan prosesseja voidaan myös käyttää apuna optimoinnissa. Optimoinnin avulla voidaan hakea vastauksia esimerkiksi seuraaviin kysymyksiin: Mikä on paras tapa tuotteiden saavuttamiseen tehtaalta myymälöihin minimoidaksemme kulut? Kuinka paljon tuotantoa tulisi olla, jotta tuotto saataisiin maksimoitua? (Evans, 2012) Yleisesti organisaation sisällä voidaan kysyä: Mikä on parasta, mitä voi tapahtua? (Davenport & Harris, 2007)

2.3! Data-analytiikka kaupan alalla

Kaupan alalla vallitseva kilpailu on kovaa ja kyky erottautua omalaatuisella piirteellä on muodostunut merkittäväksi ominaisuudeksi yrityksille. Tuotteet ja teknologiat saat- tavat muistuttaa jo suurelta osin toisiaan, jolloin erottautumisen kyky näkyy liiketoi- mintaan liittyvien prosessien tehostamisena (Davenport & Harris, 2007). Analytiikasta on muodostunut yksi vahvimmista työkaluista vähittäiskaupalle. Sitä käytetään apuna lukuisiin eri tarkoituksiin, kuten esimerkiksi valikoiman optimointiin, hyllypaikkojen allokointiin, markkinointiin, huijausyrityksiin, hintaoptimointiin, tuotesuositteluun, tuotesuosittelijajärjestelmiin ja tuoteketjun optimointiin (Davenport, 2009)

Tutkimuksien mukaan analyysiin perustuvat päätökset johtavat oikeaan lopputulok- seen todennäköisemmin, kuin pelkkään intuitioon perustuvat (Pfeffer & Sutton, 2006;

Bonabeau, 2003). Provost & Fawcett kutsuvat tätä termillä Data-driven decision- making (DDD) eli dataan pohjautuva päätöksenteko. Markkinoinnin työntekijä voi valita kuitenkin esimerkiksi mainoksen tuotteet puhtaasti perustuen hänen pitkään työ- uraansa ja sen tuomaan varmuuteen. Provost & Fawcett korostaakin, että dataan poh- jautuva päätöksenteko ei ole muita toimintatapoja poissulkeva toimintamalli, vaan intuitiota ja dataan pohjautuvaa päätöksenmuodostusta voidaan käyttää myös yhdessä.

Intuitioon pitää joskus kuitenkin luottaa, kun päätöksenteon on oltava nopeaa. (Provost

& Fawcett, 2013.) Gladwell kuvaa esimerkkiä poliisien tekemistä nopeista johtopää- töksistä, jolloin poliisien pitää päättää nopeasti perustuen intuitioon, ampuuko tämä epäillyn. Intuitioon perustuvia päätöksiä toistettaessa muodostuu kuitenkin dataa, joka

(27)

tekee samoista päätöksistä myöhemmin dataan perustuvia päätöksiä. (Gladwell, 2005.) Kehittyneiden menetelmien takia dataa saadaan yhä erilaisimmista ja monipuolisim- mista lähteistä, kuten asiakasetuohjelmista, myyntipisteistä, verkkokaupasta, mobii- liohjelmista, sosiaalisesta mediasta, valvontakameroista, avoimista kannoista, kuten avoin data -palvelusta6 ja esimerkiksi Nielsenin7 kulutuskäyttäytymisdatasta. Vähit- täiskaupalla on ennennäkemättömät mahdollisuudet saada hyvinkin yksilöllistä ym- märrystä ja tietoa yksittäisestä asiakkaasta. (Pant et al., 2014.) Datan hyödyntäminen on entistä helpompaa tarjolla olevien ohjelmistojen, työkalujen ja asiantuntijuuden avulla. Analytiikka ja sen aktiivinen hyödyntäminen voi olla se keino, mikä erottaa yrityksen muista kilpailijoista. Organisaatiolla voi olla useita ominaisuuksia, joilla se pyrkii erottautumaan kilpailijoistaan. Esimerkiksi henkilöstöresurssipuolella voidaan pyrkiä analysoimaan ja palkkaamaan parhaat henkilöt ja joidenkin yritysten salaisuus on tuottavimpien asiakkaiden löytäminen asiakasmassasta. Mahdollisuuksia on siis runsaasti, mutta tämän taustalla on systemaattinen tiedonkeruu, analytiikka ja ennen kaikkea päätöksen teko pohjautuen analysoidusta datasta saatuun tietoon. (Davenport

& Harris, 2007.)

Vähittäiskaupan analytiikan eduiksi luetellaan muun muassa kilpailuedun saavuttami- sen ja kiinteiden asiakassuhteiden muodostamisen perustuen syvään analytiikkaan ja ymmärrykseen asiakkaasta. Analytiikan ansioituneita puolia on myös mahdollisuus kohdennetun markkinoinnin, kampanjoiden ja tuotetarjousten suuntaamiseen niille asiakkaille, jotka ovat motivoituneet tarttumaan tarjouksiin. Varaston optimointi on kauppiaalle tärkeää, jotta varastossa ei lojuisi ylimääräistä tavaraa (overstock), mutta siten että tuotteet eivät pääse loppumaan (out-of-stock). Varastojen ja inventoinnin optimointi analytiikan avulla voi ratkaista tämän ongelman. Analytiikkaa hyödyntäen voidaan löytää markkinoinnin tuottavimmat sijoituskohteet, kauppojen jakelukeskus- ten optimaalisimmat sijainnit sekä tuotteiden ihanteelliset hinnat. (Davenport, 2009.)

6 Avoimen tiedon ja yhteentoimivuuden palvelu, 2015.

7 Globaali informaatio- ja tutkimusyritys.

(28)

Useat yritykset ovat saaneet huomattavasti tukea analyysin tuomista eduista liiketoi- mintaansa. Esimerkiksi Kroger, yhdysvaltalainen pörssinoteerattu vähittäistavara- kauppa käyttää analytiikkaa apuna tarjouskuponkien suuntaamiseen oikeille kohde- henkilöille. Analytiikan avulla suunnatuista alennuskupongeista käytetään 40 prosent- tia, kun normaalisti toimialalla alennuskupongeista käytetään keskimäärin 2 prosenttia.

Kroger uskoo myös mainosten kasvattaneen kokonaismyyntiä jopa 5 prosenttia. Kana- dalainen vähittäistavarakauppoihin ja luksustavarataloihin keskittynyt Hudson’s Bay jäljitti ensiluokkaisen tietokannan hallinnan ja analytiikan avulla 26 miljoonan dollarin suuruisen petosketjun vain yhtä analyyttista ohjelmaa käyttäen. Vuonna 1999 perustet- tu verkkokaupan vähittäistavarakauppa Overstock.com hyödynsi verkkosivuillaan analytiikkaa käyttävää lahjojen suosittelijajärjestelmää. Asiakkaat, jotka käyttivät tätä suosittelijajärjestelmää, ostivat 2,5 kertaa enemmän, kuin ne jotka eivät käyttäneet suosittelijajärjestelmää. (Davenport, 2007.) Seuraavaksi tutustutaan siihen, miten ana- lytiikka toimii seuraavissa osa-alueissa, joiden toimintaa yritykset pyrkivät kehittä- mään.

2.3.1! Nosta keskiostosta ja panosta oikeisiin tuotteisiin

Assosiaatiosääntö -termi esiteltiin ensimmäisen kerran ostoskorianalyysin yhteydessä Agrawal et al. tutkimuksessa (1993). Assosiaatiosääntojen ja niiden tutkimisen avulla pyritään tavoittamaan yhteyksiä entiteettien välillä tapahtuman aikana, joka sisältää näitä kokonaisuuksia (Provost & Fawcett, 2013). Tyypillinen esimerkki assosiaatio- sääntöjen käytöstä on ostoskorianalyysi (market basket analysis). Ostoskorianalyysi on prosessi, jossa etsitään tuotteiden tai palveluiden välisen ostamisen suhteita. Tämä toimintatapa tutkii asiakkaiden ostoskäyttäytymistä sen perusteella, mitä tuotteita asia- kas kerää ostoskoriinsa ja maksaa yhden ostoskerran aikana. (Dippold & Hruschka, 2012.) Ostoskorianalyysin perusteella voidaan esimerkiksi määritellä assosiaatiosään- tö: ”70 prosenttia asiakkaista, jotka ostivat taskulampun, ostivat myös paristoja ja kynttilöitä”. Ostoskorianalyysi voi esimerkiksi edesauttaa yritystä suunnittelemaan mainontaa täsmällisemmin ja liittämään siihen toisiaan tukevia tuotteita, sekä suunnit- telemaan tuotteiden sijoittelua kaupassa. (Dhanabhakyam, 2011.)

(29)

Ostoskorianalyysin avulla pyritään siihen, että kuitin keskiostoksesta muodostuisi määrällisesti mahdollisimman suuri. Keskiostos tarkoittaa ostosten loppusumman kes- kiarvoa. Mainostettavan tuotteen halutaan kerryttävän myös tukituotteiden määrää samalla kuitilla. Välillä on myös järkevää yhdistää ulkopuolisia datan lähteitä omiin sisäisiin järjestelmiin ja saada näin entistä enemmän dataa käytettäväksi. Avoimet da- talähteet, kuten tilastokeskuksen, väestörekisterikeskuksen ja ilmatieteenlaitoksen avoimen datan tietokannat tarjoavat tähän oivan mahdollisuuden.

ESIMERKKI:

Wal-Mart on suuri yhdysvaltalainen vähittäiskauppaketju, jonka myymälöissä asioi viikos- sa melkein 140 miljoonaa asiakasta. Wal-Martilla on verkkokaupan lisäksi noin 6100 myymälää, jotka ovat levittäytyneet 27 eri maahan. Verkkokauppa mukaan luettuna Wal- Mart palvelee viikoittain yhteensä noin 250 miljoonaa asiakasta. (Wal-Mart Stores, 2014.) Vuonna 2004 hirmumyrsky Frances iski Floridan rannikolle. Viikko ennen tätä Wal-Mart kauppaketjun tietohallintojohtaja Linda M. Dillman tiedotti työntekijöille varautumisesta myrskyyn. Varautuminen tarkoitti tässä tapauksessa datan pohjalta tehtyjä ennustavia ana- lyysejä, jotka perustuivat aikaisempaan hurrikaanin, Charleyn aikana kerättyyn dataan.

Normaalit taskulamput ja vesipullot menivät kaupaksi odotetusti, mutta odottamattomaksi tuotemenestyjäksi paljastui asiantuntijoiden tekemien analyysien perusteella mansikanma- kuinen leivonnainen nimeltä Pop-Tart. Pop-Tarttien myynti kasvoi lähes seitsenkertaisesti verrattuna normaaliin myyntiin. Eniten myyväksi tuotteeksi ennen hirmumyrskyä nousi olut. Analyyseista tehtyjen ratkaisujen perusteella täydennetyt varastot menivätkin yhtiön mukaan hyvin kaupaksi. (Hays, 2004.)

2.3.2! Tunne asiakkaasi

Asiakkuuksienhallinta ja asiakkaan tunnistaminen, sekä identifioiminen ovat käytetty- jä tunnistamisen toimia usealle yritykselle. Tämän avulla esimerkiksi asiakkaan osto- käyttäytymistä voidaan seurata ja sen avulla kehittää ja kohdentaa markkinointia. Asi- akkuuksienhallinta pitää sisällään muutamia pääpiirteitä. (Berry et al., 2011.)

(30)

Potentiaalisen asiakkaan tunnistaminen ja houkuttelu (customer acquisition) on pro- sessi, jossa tunnistetaan potentiaalisia asiakkaita ja pyritään myös tekemään niistä asi- akkaita yritykselle. Tämä tapahtuu yleensä mainostamalla, suoramarkkinoinnilla tai muiden ihmisten suosittelemana. Tiedonlouhinta voi edesauttaa tässä vaiheessa mer- kittävästi. Tärkeitä kysymyksiä tämän prosessin aikana on esimerkiksi: Ketkä ovat potentiaalisia asiakkaita ja milloin tiedetään, että asiakas on saatu varmasti asiakkaak- si? Asiakkuuksien aktivointiprosessissa (customer activation) asiakas täyttää esimer- kiksi verkkosivujen rekisteröintikaavakkeen, vakuutusyhtiön ennakkokyselyn tai asi- akkaalle tehdään luottotietojen tarkastus. Yleisesti ottaen tämä vaihe on liiketoiminnan tarpeisiin keskittyvä operationaalinen prosessi, eikä niinkään analyyttinen prosessi.

Asiakkaan arvon kasvattaminen eli asiakkaan pitäminen ja asiakkuuksien kehittäminen (customer relationship management) on asiakkuuksienhallinnan päätavoite. Tämä si- sältää yleensä termejä kuten up-selling – saada asiakas ostamaan korkealuokkaisia tuotteita ja palveluita, cross-selling – saada asiakas ostamaan muutakin, usage simula- tion – varmistaa, että asiakas tulee takaisin uudestaan ja customer value calculation – tulevaisuuden odotusarvon asettaminen jokaiselle asiakkaalle. Menetetyn asiakkaan takaisinsaanti (winback) tarkoittaa, että entisille arvokkaille asiakkaille tarjotaan syy tulla takaisin aktiiviseksi asiakkaaksi esimerkiksi kohdennettujen etujen ja tarjousten avulla. (Berry et al., 2011.) Asiakkuuksienhallinta sisältää organisaation asiakaslähtöi- sen ajattelutavan, sekä siihen liitettävät tietojärjestelmät ja työkalut. Asiakaslähtöisessä ajattelussa asiakkaat nähdään samankaltaisena yhtiön resurssina, kuten esimerkiksi yhtiön tuotteet tai palvelut. (Livingstone, 2013.)

ESIMERKKI:

Kauppaketju nimeltä Target yhdistää asiakkuksienhallintaprosessissaan useita eri tiedon- lähteitä tarjotakseen parempaa asiakaskokemusta (customer experience). Asiakaskokemus tarkoittaa kaikkien tuotteiden tai palveluiden käytöstä kertyneitä kokemuksia siltä ajalta, kun asiakas on tarjoajan kanssa tekemisissä. Asiakaskokemus on yhteissumma hyvistä ja huonoista kokemuksista liittyen esimerkiksi ostotilanteeseen, käyttöön, hankintaan tai vuo- rovaikutukseen. (Duhigg, 2012.)

(31)

Target yhdistää jokaisen asiakkaan yksilöityyn numeroon, joka on sidottu esimerkiksi mak- sukorttiin tai sähköpostiosoitteeseen. Näin ostostiedoista kertyy tietoa ihmisten ostoskäyt- täytymisestä yksilöllisellä tasolla. Yhdistettynä muuhun tietoon, jota Target kerää tai on os- tanut, syntyy asiakkaista hyvinkin täsmällistä ostoskäyttäytymistietoa. Target päätti eräässä analyysissä tarkastella, mitä Targetin vauvarekisteriin rekisteröityneet naiset ovat ostaneet raskauden aikana tai ennen sitä. Analyysien ajon jälkeen löytyi joitain hyödyllisiä malleja ostettavien tuotteiden ennustamiseen, jos perheeseen on tulossa vauva. Useasti perheen os- toskoriin ajautui esimerkiksi rasvoja. Raskauden toisen kolmanneksen aikana ostettiin eri- tyisesti hajusteettomia rasvoja. Ensimmäisen 20 viikon aikana raskaana olevat naiset osti- vat ravintolisiä kuten magnesiumia, sinkkiä ja kalsiumia. Lähellä laskettua aikaa hajusteet- tomien saippuoiden sekä suurten pumpulipakettien ostaminen lisääntyi yhdessä käsihuuh- teiden kanssa. (Quirck, 2012; Duhigg 2012.)

2.3.3! Markkinoi tehokkaasti ja lisää myyntiä

Kauppiaiden ja muiden kaupan alan ammattilaisten olisi hyödyllistä tiedostaa mainon- nan ja markkinoinnin tehokkuus ja toimivuus, jotta voitaisiin selvittää esimerkiksi, kuinka usein kampanjointia tulisi tehdä, jotta kulut olisi optimoitu parhaalla tavalla.

Cox (2011) luettelee artikkelissaan erilaisia markkinointiin liittyviä osa-alueita. Kiin- teistömarkkinointi (real estate marketing) on oleellinen osa kivijalkakaupan suunnitte- lua. Kivijalkakaupan suunnittelussa pohditaan, minne uudet kaupat kannattaisi sijoittaa tai rakentaa. Tällöin tulee huomioon ottaa esimerkiksi näkyvyys, alueen väestöja- kauma, tavaran saatavuus ja toimitusketju, sekä asiakkaiden sijainti ja tavoitettavuus.

Luova mainosmarkkinointi (creative advertising marketing) syventää perinteistä mai- nosmarkkinointia keskittymällä tarkemmin mainostettaviin tuotteisiin. Mainonnassa otetaan huomioon esimerkiksi, mitä ja minkä värisiä tuotteita tulisi mainostaa ja mitä tukituotteita näiden tuotteiden kanssa olisi hyvä käyttää. Tähän osa-alueeseen sisälly- tetään usein marketing mix-modeling (MMM) eli markkinointimallintamista. Markki- nointimallintaminen kertoo, mitkä markkinointikeinot toimivat ja näin ollen mihin

Viittaukset

LIITTYVÄT TIEDOSTOT

Auktoriteettitiedosto yhdistää myös sisällönkuvailuina käytettävät ilmaisut ja niiden muodot ja lisäksi niiden avulla voidaan erottaa esimerkiksi

Tässä kandidaatintyössä tutkitaan data-analytiikan ja erityisesti käyttäjädatan hyödyntämistä videopelien suunnittelussa. Data-analytiikka on mielenkiintoinen ja ajankohtainen

Digitalisoitumisen tuomat edut näkyvät myös tällä alalla, sillä enenevissä määrin on mahdollista mitata erilaisia parametreja, joiden avulla laitteiden kuntoa voidaan

Kuvista suurimmassa osassa (179 kuvaa) oli kuvattuna yksi ihminen. Iän perusteella kuvissa on yhteensä 811 hahmoa, sukupuolen perusteella 799 ja

Sekä Pearsonin korrelaatiokertoimet että lineaarisen regressioanalyysin tu- lokset empiirisessä analyysissä viittaavat siihen, että tukku- ja vähittäiskaupan alalla

Ohjaileva analytiikka on tasoista hankalin, mutta sen avulla on mahdollista saada käsitys siitä, mitä pitäisi tehdä, jotta voidaan nostaa halutun lopputuloksen

IT-alalla ohjelmistoja toteuttaessa ohjelmistot mahdollistavat monesti laadun ja tuottavuuden seu- rannan käyttäjistä palvelujen sisäisen analytiikan avulla. Asiakkaalle

Mallin tuottamat jäävän kannan arviot ovat uskottavia ja malli mahdollistaa kannan arvion tarkastelun sekä sukupuolen että iän mukaan. Mallia olisi vielä mahdollista