Big Data – Smart Data
Erkki Räsänen
www.langis.fi
www.ecitec.fi
Sisältö
• Datan hyödyntämiseen liittyviä käsitteitä
• CRISP-DM
• Service Stack
• Big, Smart & Actionable Data
• Big Data – mitä se on?
• BD:n eri ilmenemismuotoja
• Kritiikkiä ja hyötyjä
• Milloin ja miten Big Dataa tulee käyttää, milloin ei
• Case
• Smart Data – mitä se on ja mitä se mahdollistaa?
Datan hyödyntämiseen liittyviä käsitteitä
CRISP – DM
Service Stack
CRISP-DM Cross Industrial Platform for Data Mining
CRISP-DM Cross Industrial Platform for Data Mining
Prosessin vaihe Rooli ja tehtävät
Business Understanding Asiakas (ongelman omistajat), analyytikko/asiantuntija → Miten ongelma ilmenee ja kulminoituu, mitä dataa siihen liittyy?
Data Understanding Asiakas, analyytikot, asiantuntijat, kuka tahansa → tutustutaan dataan, muodostetaan datasta yhteinen käsitys. Määritellään hypoteesi.
Data Preparation Analyytikot ja asiantuntijat → Kerätään ja esikäsitellään data analytiikkaa ja mallinnusta varten.
Modeling Analyytikot ja asiantuntijat → Analysoidaan ja mallinnetaan käyttäen useita eri menetelmiä.
Evaluation Asiakas, analyytikot ja asiantuntijat → Tarkastellaan tuloksia
business-näkökulmasta ja päätetään, miten tulokset hyödynnetään.
Deployment Asiakas, asiantuntijat sekä ”concept owner”→ toteutetaan päätetyt toimenpiteet → toimenpiteiden seuranta
CRISP-DM Cross Industrial Platform for Data Mining
• CRISP-DM vaikuttaa hyvin yksinkertaiselta ja ilmeiseltä; tavoitteena aina datan ymmärtäminen ja dataan perustuva päätöksenteko
• Prosessin toteutus on usein hankalaa ja vaatii psykologista pelisilmää
• business-ongelmasta puhuminen, oikeiden ihmisten löytäminen, datan saanti, organisaatiosiilot, yrityksen hierarkia, vastuiden jako...
• Tulosten käytäntöönpano on usein vielä hankalampaa
• poiketaan totutuista tavoista ja joudutaan epämukavuusalueelle
• prosessiin tulee alusta alkaen sitouttaa ne, jotka käytännössä vastaavat toteutuksesta
• Prosessi on iteratiivinen ja vaatii ketterien menetelmien omaksumista
• tulokset voivat alussa vaikuttaa laimeilta, jolloin asiakkaan usko on koetuksella
Service Stack
• Tarve
• Palvelu
• Analytiikka
• Tietokanta
• Tiedonsiirto
• Mittaus
Data
Informaatio
Datan lähde Päätöksenteko
”Vertikaali”
Technology Stack
Vertikaali ja vertikaalinen lähestymistapa
• Vertikaali on kokonaisratkaisu tarvelähtöiseen ongelmaan
• Kun perustarve on tunnistettu oikein, ongelman pysyvästi korjaava palvelukin on helppo määritellä
• Analytiikka → tietokanta → tiedonsiirto → mittaus → datan lähde;
tekniset ongelmat on helppo ratkaista, kunhan perusongelma on tunnistettu.
• Entä horisontaalinen lähestymistapa? Puuhastellaan epärelevanttien
teknisten detaljien kanssa ja/tai kehitetään uutta ja hienoa. Insinöörit
syyllistyvät usein tähän. Perusongelma voi jäädä ratkaisematta.
Big Data Smart Data
Actionable Data
Big Data
Mitä ovat Big Data, Cloud Computing, Fog Computing?
BIG DATA Big Data: yleensä yhdistelmä eri tietolähteistä saatua dataa Joskus, mutta ei läheskään aina, on kyse todella massiivisista datamääristä
Yleensä haasteena (ja tunnusomaisena piirteenä) on datojen erilaisuus ja yhdistämisen vaikeus
“Volume, Velocity, Veracity, Volatility”
Cloud Computing: datankäsittelyn resurssit
ovat saatavana keskitettyinä palveluina Fog Computing: yleensä pienemmän mittakaavan paikallinen ja jossain määrin yhteisöllinen (kollaboratiivinen) palvelu
BIG Data
Globaalin tason
data ja palvelut
BIG Data
• Teollisuus, energia
• Kaupunki-infra, liikenne
• Terveysdata
BIG Data • IoT-järjestelmät
• Dataintensiiviset palvelut
• Pienten/keskisuurten
yritysten mukaantulo
BIG
Data
• Big Dataa
miniatyyrimittakaavassa
• Järjestelmät Big Data
–työkalujen opiskeluun ja hyödyntämiseen
• Mahdollista kenelle tahansa
SparkPi -klustereita
Uusia trendejä...
Huom!
Datan relevanssi Ymmärrys
Toimenpiteet Mittarointi
→ CRISP-DM...
IoT, Big Data ja Digitalisoituminen
• IoT (Internet of Things) on yhä selkeämmin erottumassa tärkeäksi Big Datan
sovellusalueeksi
• IoT:lle luonteenomaista on datalähteiden hajautuneisuus ja eri järjestelmien
monimuotoisuus
• IoT-datan analytiikalta edellytetään usein reaaliaikaisuutta ja automatisointia (data
→ ohjaus → seuranta)
• Analytiikan ja palveluiden automatisointi
→ digitalisaatio
Big Data -kritiikkiä
• Big Data on ollut suunnattoman hypetyksen lähde ja kohde
• Volume, Velocity, Veracity, Volatility - tämä määrittely pätee ainakin osin, mutta on luonut illuusioita; höttöisestäkin datasta saisi hyötyä, kunhan sitä on paljon ja
yritykset vain rupeavat rohkeasti Big Dataa hyödyntämään
• IoT ja Big Data → käytännön konkretia?
• Isojen Big Data –toimijoiden lähestymistapa voi usein olla epäkäytännöllinen
• tarjotaan turhan järeitä työkaluja ongelmiin, jotka kyllä ratkeavat kevyemminkin
• palvelutarjonta on edelleen kallista, vaikka palveluja on saatavilla ketterästi
• ns. ”Solution Sprint” –tarjoama yleistynyt (usein IoT + Big Data –sovellus), mutta
nämäkin ovat usein hirvittävän kalliita
Big Datan tuomia hyötyjä
• Erinomaisia työkaluja, esim. visualisointikirjastoja ja suurten datamäärien laskennan hallintaan tarkoitetut laskenta-alustat;
Hadoop, MapReduce, Spark, R, Scipy, PyTable
• Dataa ja informaatiota koskevan ymmärryksen laajamittainen lisääntyminen
• Tietojärjestelmiä koskevan ymmärryksen lisääntyminen; osataan välttää monoliittisia järjestelmiä, pyritään saamaan datasta hyötyä nopeasti ja tiedostetaan ketterien kehitysmenetelmien hyödyt
• Muita hyötyjä?
Milloin ja miten Big Dataa tulee käyttää?
• Big Data –teknologian käyttöönotto on selvästi edellytys tunnistetulle ja laajamittaiselle tarpeelle
• tietokonepelit; pelaajia mittaroidaan monin eri tavoin maailmanlaajuisesti
• Intian rautatieaikataulujen hallinta (Google Analytics –case)
• Tanskan tuulivoimalat (IBM-case)
• vakuutusyhtiöt → asiakasriskien hallinta esim. käyttäen sosiaalista mediaa tietolähteenä (IBM –case)
• autovuokraamo, jossa valvotaan reaaliaikaisesti 50 000 autoa (ThingWorx –case)
• diagnoosi MRI –kuvauksesta; kolme päivää lyhenee varttituntiin
• Rakennetaan palvelua, jolla on tunnistettu skaalautumispotentiaali
• esim. mittaukset, teollisuuden kunnossapito, ”asset management”, LIMS-järjestelmät, IoT...
• ei lähdetä heti toteuttamaan järeää järjestelmää, Big Data-työkalut toimivat hyvin pienessäkin mittakaavassa (ja edullisesti)
• Big Dataan varautuminen ei välttämättä tuo lisäkustannuksia
• edetään alussa pienimuotoisesti ja ”onnistumisesta toiseen”
Milloin ja miten Big Dataa ei tule käyttää?
• Datan hyödyntämiseen liittyvä perusosaaminen ei ole kunnossa (ml. muut perusasiat)
• osaajat, työkalut, jonkinlainen infrastruktuuri...
• ”Big Data tulee ja me haluamme olla mukana”
• tarpeet ovat sumeita
• datan hyödyntämisen mittakaava on epäselvää
• saatavilla oleva data on höttöä
• asiantuntijoita ei ole kuunneltu eikä kukaan ymmärrä, miksi Big Dataa tarvittaisiin
• Rakennetaan järjestelmää horisontaalisesti (koskee IT-järjestelmiä yleisesti)
• tietovarasto ensin, johdon raportointi ensin...
• Unohdetaan käyttäjätarpeet
• systeemi on monoliittinen ja bugit korjataan hitaasti
• testauksesta ja käyttäjävaatimuksista tingitään
• koulutus, roll-out ym. toteutetaan huonosti
• tyydytään vakioraportteihin eikä päästetä asiantuntijoita valloilleen
Smart Data
Mitä Smart Data on?
• Valistunutta, yhteisöllistä ja tehokkaasti organisoitua datan hyödyntämistä
• Osaamisen ja parhaiden
käytäntöjen tietoista levittämistä
• Ketterien työtapojen omaksumista
• Siilojen purkamista
• Rohkeutta hyödyntää dataa päätöksenteossa
• Uskallusta aloittaa!
Oppimisen jatkuva hyödyntäminen
(Data Rangers Oy)
www.datarangers.f i
Yhteistyön mahdollistaminen työkalutasolla
Data Rangersin Louhin
• Alusta, joka mahdollistaa yhteistyön datan parissa
• Osaamisen monistaminen
analyysimalleja jakamalla
• Projekteihin liittyvän
tietotaidon hallinta (mm.
keskustelut)
• Helppo kytkeytyminen erilaisiin datoihin
• Data-analyysimallien helppo luonti graafisesti
• ”Kaikki data on sopivan kokoista”
www.louhin.com
Case: IoT - Big Data-järjestelmä mittauspalvelulle
...eli miten mikroyritys voi toteuttaa Big Data-järjestelmän
kengännauhabudjetilla...
Kokemuksia omasta yrityksestä, Langis Oy
• Toiminta-ajatus #1; ”olemme mittausteknologian toimittaja”
• asiakkaita kiinnostavatkin mittauspalvelut enemmän kuin itse teknologia
• Toiminta-ajatus #2; ”myymme teknologiaa ja niihin liittyviä informaatiopalveluita”
• asiakkaiden järjestelmiin ei pääse (tai niitä ei edes ole) ja informaatiopalvelun täytyy olla reaaliaikaista, muuten palvelulla ei juuri ole arvoa
• Toiminta-ajatus #3; ”myymme kaiken avaimet käteen –toimituksena”
• kiinnostusta tuli heti valtavasti
• vertikaalinen, skaalautuva ratkaisu on itsessään kilpailuedun tuova tuote
• kehitysponnistelut moninkertaistuivat, mutta niin myös mahdollisuudet
Kokemuksia omasta yrityksestä
• Vertikaalisen lähestymistavan edellytykset:
• teknologinen koherenssi sensoritasolta palveluun asti – kaikki osa-alueet toteutettu datan- ja tiedonkulun sekä laskentakapasiteetin kannalta
optimaaliseksi
• ratkaisun skaalautuvuus – asiakaskokemukset eivät saa rajoittua pilotoinnin tasolle, vaan onnistunut pilotti voi jatkua saman tien tuotantoon
• riippumattomuus kolmannen osapuolen lisensseistä, asiakkaat eivät halua ylimääräisiä riippuvuussuhteita
• ratkaisun tuotettava resurssitehokkuutta myös meille; esim. laitteiden
valvonta ja päivitykset
Big Data ja IoT – mitä datalle missäkin vaiheessa tapahtuu?
suodatus, skaalaus, linearisointi, kalibrointi…
Visualisointi, havaintojen raportointi Konsultaatio ja yhteistyö
Data muuttuu ymmärrettäväksi informaatioksi Datan esikäsittely ja matemaattinen mallinnus
Päätöksenteko
Datan varastointi
Erilaisten datojen yhdistely Yleensä vain siirretään dataa
”Service Stack”
Suoraviivainen ja minimalistinen arkkitehtuuri...
Broker: ensin 28 Bladea, nyt 40 - 50
Oma teknologia ja open source - ohjelmistot
Sensor Node
Gateway
Mittausverkon rauta
Ohjelmistot:
Mosca (MQTT) Mongo DB (kanta)
R ja MapReduce (analytiikka) JS (hallinta)
Analytiikka
• Vedenlaadun mittaukset
teollisuudessa ja vesihuollossa
• mittaussignaalien käsittely
• mittausdatojen fuusio (soft sensor)
• KPI:t prosessien toiminnan kuvaamiseksi
• Teollisuuden kunnonvalvonta
• laitteiden värähtelysignaalit
• sähkön laatu
• tehdasautomaation toiminta
värähtely
FFT-
taajuusspektri
luokittelu
neuroverkoilla