• Ei tuloksia

Big Data – Smart Data

N/A
N/A
Info
Lataa
Protected

Academic year: 2022

Jaa "Big Data – Smart Data"

Copied!
38
0
0

Kokoteksti

(1)

Big Data – Smart Data

Erkki Räsänen

www.langis.fi

www.ecitec.fi

(2)

Sisältö

• Datan hyödyntämiseen liittyviä käsitteitä

• CRISP-DM

• Service Stack

• Big, Smart & Actionable Data

• Big Data – mitä se on?

• BD:n eri ilmenemismuotoja

• Kritiikkiä ja hyötyjä

• Milloin ja miten Big Dataa tulee käyttää, milloin ei

• Case

• Smart Data – mitä se on ja mitä se mahdollistaa?

(3)

Datan hyödyntämiseen liittyviä käsitteitä

CRISP – DM

Service Stack

(4)

CRISP-DM Cross Industrial Platform for Data Mining

(5)

CRISP-DM Cross Industrial Platform for Data Mining

Prosessin vaihe Rooli ja tehtävät

Business Understanding Asiakas (ongelman omistajat), analyytikko/asiantuntija → Miten ongelma ilmenee ja kulminoituu, mitä dataa siihen liittyy?

Data Understanding Asiakas, analyytikot, asiantuntijat, kuka tahansa → tutustutaan dataan, muodostetaan datasta yhteinen käsitys. Määritellään hypoteesi.

Data Preparation Analyytikot ja asiantuntijat → Kerätään ja esikäsitellään data analytiikkaa ja mallinnusta varten.

Modeling Analyytikot ja asiantuntijat → Analysoidaan ja mallinnetaan käyttäen useita eri menetelmiä.

Evaluation Asiakas, analyytikot ja asiantuntijat → Tarkastellaan tuloksia

business-näkökulmasta ja päätetään, miten tulokset hyödynnetään.

Deployment Asiakas, asiantuntijat sekä ”concept owner”→ toteutetaan päätetyt toimenpiteet → toimenpiteiden seuranta

(6)

CRISP-DM Cross Industrial Platform for Data Mining

• CRISP-DM vaikuttaa hyvin yksinkertaiselta ja ilmeiseltä; tavoitteena aina datan ymmärtäminen ja dataan perustuva päätöksenteko

• Prosessin toteutus on usein hankalaa ja vaatii psykologista pelisilmää

• business-ongelmasta puhuminen, oikeiden ihmisten löytäminen, datan saanti, organisaatiosiilot, yrityksen hierarkia, vastuiden jako...

• Tulosten käytäntöönpano on usein vielä hankalampaa

• poiketaan totutuista tavoista ja joudutaan epämukavuusalueelle

• prosessiin tulee alusta alkaen sitouttaa ne, jotka käytännössä vastaavat toteutuksesta

• Prosessi on iteratiivinen ja vaatii ketterien menetelmien omaksumista

• tulokset voivat alussa vaikuttaa laimeilta, jolloin asiakkaan usko on koetuksella

(7)

Service Stack

• Tarve

• Palvelu

• Analytiikka

• Tietokanta

• Tiedonsiirto

• Mittaus

Data

Informaatio

Datan lähde Päätöksenteko

”Vertikaali”

(8)

Technology Stack

(9)

Vertikaali ja vertikaalinen lähestymistapa

• Vertikaali on kokonaisratkaisu tarvelähtöiseen ongelmaan

Kun perustarve on tunnistettu oikein, ongelman pysyvästi korjaava palvelukin on helppo määritellä

• Analytiikka → tietokanta → tiedonsiirto → mittaus → datan lähde;

tekniset ongelmat on helppo ratkaista, kunhan perusongelma on tunnistettu.

• Entä horisontaalinen lähestymistapa? Puuhastellaan epärelevanttien

teknisten detaljien kanssa ja/tai kehitetään uutta ja hienoa. Insinöörit

syyllistyvät usein tähän. Perusongelma voi jäädä ratkaisematta.

(10)

Big Data Smart Data

Actionable Data

(11)

Big Data

(12)

Mitä ovat Big Data, Cloud Computing, Fog Computing?

BIG DATA Big Data: yleensä yhdistelmä eri tietolähteistä saatua dataa Joskus, mutta ei läheskään aina, on kyse todella massiivisista datamääristä

Yleensä haasteena (ja tunnusomaisena piirteenä) on datojen erilaisuus ja yhdistämisen vaikeus

“Volume, Velocity, Veracity, Volatility”

Cloud Computing: datankäsittelyn resurssit

ovat saatavana keskitettyinä palveluina Fog Computing: yleensä pienemmän mittakaavan paikallinen ja jossain määrin yhteisöllinen (kollaboratiivinen) palvelu

(13)

BIG Data

Globaalin tason

data ja palvelut

(14)

BIG Data

• Teollisuus, energia

• Kaupunki-infra, liikenne

• Terveysdata

(15)

BIG Data IoT-järjestelmät

• Dataintensiiviset palvelut

• Pienten/keskisuurten

yritysten mukaantulo

(16)

BIG

Data

• Big Dataa

miniatyyrimittakaavassa

• Järjestelmät Big Data

–työkalujen opiskeluun ja hyödyntämiseen

• Mahdollista kenelle tahansa

SparkPi -klustereita

(17)

Uusia trendejä...

Huom!

Datan relevanssi Ymmärrys

Toimenpiteet Mittarointi

→ CRISP-DM...

(18)

IoT, Big Data ja Digitalisoituminen

• IoT (Internet of Things) on yhä selkeämmin erottumassa tärkeäksi Big Datan

sovellusalueeksi

• IoT:lle luonteenomaista on datalähteiden hajautuneisuus ja eri järjestelmien

monimuotoisuus

• IoT-datan analytiikalta edellytetään usein reaaliaikaisuutta ja automatisointia (data

→ ohjaus → seuranta)

• Analytiikan ja palveluiden automatisointi

→ digitalisaatio

(19)

Big Data -kritiikkiä

• Big Data on ollut suunnattoman hypetyksen lähde ja kohde

• Volume, Velocity, Veracity, Volatility - tämä määrittely pätee ainakin osin, mutta on luonut illuusioita; höttöisestäkin datasta saisi hyötyä, kunhan sitä on paljon ja

yritykset vain rupeavat rohkeasti Big Dataa hyödyntämään

• IoT ja Big Data → käytännön konkretia?

• Isojen Big Data –toimijoiden lähestymistapa voi usein olla epäkäytännöllinen

• tarjotaan turhan järeitä työkaluja ongelmiin, jotka kyllä ratkeavat kevyemminkin

• palvelutarjonta on edelleen kallista, vaikka palveluja on saatavilla ketterästi

• ns. ”Solution Sprint” –tarjoama yleistynyt (usein IoT + Big Data –sovellus), mutta

nämäkin ovat usein hirvittävän kalliita

(20)

Big Datan tuomia hyötyjä

• Erinomaisia työkaluja, esim. visualisointikirjastoja ja suurten datamäärien laskennan hallintaan tarkoitetut laskenta-alustat;

Hadoop, MapReduce, Spark, R, Scipy, PyTable

• Dataa ja informaatiota koskevan ymmärryksen laajamittainen lisääntyminen

• Tietojärjestelmiä koskevan ymmärryksen lisääntyminen; osataan välttää monoliittisia järjestelmiä, pyritään saamaan datasta hyötyä nopeasti ja tiedostetaan ketterien kehitysmenetelmien hyödyt

• Muita hyötyjä?

(21)

Milloin ja miten Big Dataa tulee käyttää?

• Big Data –teknologian käyttöönotto on selvästi edellytys tunnistetulle ja laajamittaiselle tarpeelle

• tietokonepelit; pelaajia mittaroidaan monin eri tavoin maailmanlaajuisesti

• Intian rautatieaikataulujen hallinta (Google Analytics –case)

• Tanskan tuulivoimalat (IBM-case)

• vakuutusyhtiöt → asiakasriskien hallinta esim. käyttäen sosiaalista mediaa tietolähteenä (IBM –case)

• autovuokraamo, jossa valvotaan reaaliaikaisesti 50 000 autoa (ThingWorx –case)

• diagnoosi MRI –kuvauksesta; kolme päivää lyhenee varttituntiin

• Rakennetaan palvelua, jolla on tunnistettu skaalautumispotentiaali

• esim. mittaukset, teollisuuden kunnossapito, ”asset management”, LIMS-järjestelmät, IoT...

• ei lähdetä heti toteuttamaan järeää järjestelmää, Big Data-työkalut toimivat hyvin pienessäkin mittakaavassa (ja edullisesti)

• Big Dataan varautuminen ei välttämättä tuo lisäkustannuksia

• edetään alussa pienimuotoisesti ja ”onnistumisesta toiseen”

(22)

Milloin ja miten Big Dataa ei tule käyttää?

• Datan hyödyntämiseen liittyvä perusosaaminen ei ole kunnossa (ml. muut perusasiat)

• osaajat, työkalut, jonkinlainen infrastruktuuri...

• ”Big Data tulee ja me haluamme olla mukana”

• tarpeet ovat sumeita

• datan hyödyntämisen mittakaava on epäselvää

• saatavilla oleva data on höttöä

• asiantuntijoita ei ole kuunneltu eikä kukaan ymmärrä, miksi Big Dataa tarvittaisiin

• Rakennetaan järjestelmää horisontaalisesti (koskee IT-järjestelmiä yleisesti)

• tietovarasto ensin, johdon raportointi ensin...

• Unohdetaan käyttäjätarpeet

• systeemi on monoliittinen ja bugit korjataan hitaasti

• testauksesta ja käyttäjävaatimuksista tingitään

• koulutus, roll-out ym. toteutetaan huonosti

• tyydytään vakioraportteihin eikä päästetä asiantuntijoita valloilleen

(23)

Smart Data

(24)

Mitä Smart Data on?

• Valistunutta, yhteisöllistä ja tehokkaasti organisoitua datan hyödyntämistä

• Osaamisen ja parhaiden

käytäntöjen tietoista levittämistä

• Ketterien työtapojen omaksumista

• Siilojen purkamista

• Rohkeutta hyödyntää dataa päätöksenteossa

• Uskallusta aloittaa!

(25)

Oppimisen jatkuva hyödyntäminen

(Data Rangers Oy)

www.datarangers.f i

(26)

Yhteistyön mahdollistaminen työkalutasolla

Data Rangersin Louhin

• Alusta, joka mahdollistaa yhteistyön datan parissa

• Osaamisen monistaminen

analyysimalleja jakamalla

• Projekteihin liittyvän

tietotaidon hallinta (mm.

keskustelut)

• Helppo kytkeytyminen erilaisiin datoihin

• Data-analyysimallien helppo luonti graafisesti

• ”Kaikki data on sopivan kokoista”

www.louhin.com

(27)

Case: IoT - Big Data-järjestelmä mittauspalvelulle

...eli miten mikroyritys voi toteuttaa Big Data-järjestelmän

kengännauhabudjetilla...

(28)

Kokemuksia omasta yrityksestä, Langis Oy

• Toiminta-ajatus #1; ”olemme mittausteknologian toimittaja”

• asiakkaita kiinnostavatkin mittauspalvelut enemmän kuin itse teknologia

• Toiminta-ajatus #2; ”myymme teknologiaa ja niihin liittyviä informaatiopalveluita”

• asiakkaiden järjestelmiin ei pääse (tai niitä ei edes ole) ja informaatiopalvelun täytyy olla reaaliaikaista, muuten palvelulla ei juuri ole arvoa

• Toiminta-ajatus #3; ”myymme kaiken avaimet käteen –toimituksena”

• kiinnostusta tuli heti valtavasti

• vertikaalinen, skaalautuva ratkaisu on itsessään kilpailuedun tuova tuote

• kehitysponnistelut moninkertaistuivat, mutta niin myös mahdollisuudet

(29)

Kokemuksia omasta yrityksestä

• Vertikaalisen lähestymistavan edellytykset:

• teknologinen koherenssi sensoritasolta palveluun asti – kaikki osa-alueet toteutettu datan- ja tiedonkulun sekä laskentakapasiteetin kannalta

optimaaliseksi

• ratkaisun skaalautuvuus – asiakaskokemukset eivät saa rajoittua pilotoinnin tasolle, vaan onnistunut pilotti voi jatkua saman tien tuotantoon

• riippumattomuus kolmannen osapuolen lisensseistä, asiakkaat eivät halua ylimääräisiä riippuvuussuhteita

• ratkaisun tuotettava resurssitehokkuutta myös meille; esim. laitteiden

valvonta ja päivitykset

(30)

Big Data ja IoT – mitä datalle missäkin vaiheessa tapahtuu?

suodatus, skaalaus, linearisointi, kalibrointi…

Visualisointi, havaintojen raportointi Konsultaatio ja yhteistyö

Data muuttuu ymmärrettäväksi informaatioksi Datan esikäsittely ja matemaattinen mallinnus

Päätöksenteko

Datan varastointi

Erilaisten datojen yhdistely Yleensä vain siirretään dataa

”Service Stack”

(31)

Suoraviivainen ja minimalistinen arkkitehtuuri...

Broker: ensin 28 Bladea, nyt 40 - 50

(32)

Oma teknologia ja open source - ohjelmistot

Sensor Node

Gateway

Mittausverkon rauta

Ohjelmistot:

Mosca (MQTT) Mongo DB (kanta)

R ja MapReduce (analytiikka) JS (hallinta)

(33)

Analytiikka

• Vedenlaadun mittaukset

teollisuudessa ja vesihuollossa

• mittaussignaalien käsittely

• mittausdatojen fuusio (soft sensor)

• KPI:t prosessien toiminnan kuvaamiseksi

• Teollisuuden kunnonvalvonta

• laitteiden värähtelysignaalit

• sähkön laatu

• tehdasautomaation toiminta

värähtely

FFT-

taajuusspektri

luokittelu

neuroverkoilla

(34)
(35)

Internet of BBQ

• BBQ-savustin, joka on yhteydessä Bladecenteriin

• 4 paistolämpömittaria

• 2 savustustilan lämpötila-anturia

• lämpötilan ohjaus PI –säädöllä

(36)

Kokemukset

• Todellinen Big Data – laskentakapasiteetti on jopa mikroyritykselle mahdollinen, budjetinkaan ei tarvitse olla suuri

• Niukat resurssit ovat johtaneet innovatiivisiin ratkaisuihin

• Big Data –lähestymistapa on ollut asiakkaita kiinnostavan palvelun edellytys ja sen aikaansaanti on tuonut selvää kilpailuetua

• Meidän mielestämme Big Data voi olla Smart Dataa

• tarvelähtöisyys, kyvykkyys asiakkaan palveluun sekä ketteryys

(37)

Yhteenveto

• Big Data – Smart Data; termeillä ja määrittelyillä ei niinkään ole väliä.

Oikeiden tarpeiden tunnistaminen on tärkeintä ja ratkaisut on toteutettava niiden mukaan.

• Yritysten sisäinen osaaminen ja asiantuntijuus kuntoon,

perusosaamisen tärkeyttä ei voi korostaa liikaa. Osaamisen

kehittämisessä Smart Data –lähestymistapa on paras.

(38)

Kiinnostuitko?

• www.datarangers.fi: Smart Data –lähestymistapa ja Louhin

• www.ecitec.fi: Analytiikka, Big Data ja IoT, koulutusta perusosaamisen vahvistamiseksi

• www.langis.fi: Teollisuuden mittauspalveluita IoT-lähestymistapaa

hyödyntäen

Viittaukset

LIITTYVÄT TIEDOSTOT

Tutkimuksen motiivina toimi henkilökohtainen kiinnostus rahoitusmark- kinoita ja data-analytiikkaa kohtaan, sekä big datan jatkuvasti merkittävämpi läsnäolo niin

Kaiken kaikkiaan viitteitä on yli 40 000, ja suhteellinen osuus näyttää erityisen korkealta tilanteessa, jossa suurmiehelle puuhattiin patsasta Turkuun 1860- luvulla,

Kerro miltä autoregressiivinen malli näyttäisi aineistolle Puuttuvan Muuttujan harha:.. Mikä on

Mikä edellytys termin X(ij) täytyy täyttää, jotta voit ratkaista estimaatin yhtälöstä.. Differences

Nykyään tyypillisimmin peliteknologiaan perustuvassa tietokonegrafiikan (computer graphics) kategoriassa 3D-tieto toimii pohjana interaktiivisille ja visuaalisesti

Vaaditut laitteistovaatimukset ohjelmiston natiiviasennukselle, joka sisältää IBM Open Platform with Apache Hadoopin sekä Quick Start Edition for the IBM BigIn- sights Data

Rongo 360° (kuvio 5) voidaan rakentaa niin, että lähdejärjestelminä voivat olla yrityksen sisäiset tietovarannot, kuten asiakasrekisterit, laskutusjärjestelmät,

Tallennustilan tulee olla jaettu tasoihin, jotta informaatio voidaan tallentaa järjestelmään hierarkkisesti siten, että eniten käytettävät tietokokonaisuudet ovat