• Ei tuloksia

Avoimen datan käyttö ohjelmistokehityksessä

N/A
N/A
Info
Lataa
Protected

Academic year: 2022

Jaa "Avoimen datan käyttö ohjelmistokehityksessä"

Copied!
21
0
0

Kokoteksti

(1)

Jere Kallioniemi

AVOIMEN DATAN KÄYTTÖ OHJELMIS- TOKEHITYKSESSÄ

Informaatioteknologian ja viestinnän tiedekunta Kandidaattitutkielma Toukokuu 2021

(2)

TIIVISTELMÄ

Jere Kallioniemi: Avoimen datan käyttö ohjelmistokehityksessä Kandidaattitutkielma

Tampereen yliopisto

Tietojenkäsittelytieteiden tutkinto-ohjelma Toukokuu 2021

Julkiset tahot ovat alkaneet julkaista dataansa suurissa määrin avoimeen käyttöön, ja tätä myötä avoimen datan käyttö on yleistynyt huomattavasti viime vuosina. Avointa dataa hyödyntävistä sovelluksista on tullut osa monien arkipäivää, esimerkiksi julkisen liikenteen aikatauluja jakavien reittioppaiden myötä. Tämän tutkielman tarkoituksena on tarkastella, kuinka avointa dataa pysty- tään hyödyntämään ohjelmistojen kehityksessä ja mitä mahdollisia ongelmia siitä voi seurata.

Olen kerännyt suurimman osan aineistoista IEEE-, ACM- ja ProQuest-tietokannoista. Hakies- sani lähteitä tutkimukseeni, hyödynsin myös Google Scholar -hakupalvelua. Aineistoja vali- koidessani arvioin alustavasti aineistojen luotettavuutta erityisesti tuoreuden ja viittauksien mää- rän perusteella. Suurin osa aineistoista sijoittuu vuosien 2016 ja 2021 välille. Kuitenkin tiettyjen protokollien määrityksiin käytin myös vanhempaa aineistoa, mikäli määritykset eivät olleet vuo- sien varrella muuttuneet.

Tutkielmassa käy ilmi, että avointa dataa on saatavilla laajalti erityisesti julkisen sektorin puo- lelta, jota pystytään hyödyntämään esimerkiksi turismiapplikaatioissa. Tämän lisäksi työssä ha- vaitaan myös datan laadun arvioinnin merkitys ohjelmistokehityksessä. Toisaalta ilmaisena re- surssina avoin data on hyvin houkutteleva vaihtoehto ohjelmistokehittäjille, mutta datan laadun vaihtelevuus voi aiheuttaa monenlaisia ongelmia ohjelmistoa kehitettäessä. Usein avoimen datan formaatti ei ole koneluettavuuden kannalta käytännöllinen tai data sisältää epäyhtenäisyyksiä, joi- den korjaamiseen joudutaan käyttämään lisäresursseja. Tässä tutkielmassa annetaan esimerkkejä datatyypeistä, jotka soveltuvat ohjelmistokehitykseen ja perehdytään sovelluksiin, joissa avointa dataa on hyödynnetty onnistuneesti. Avoimen datan käytöstä aiheutuvia ongelmia tarkastellaan konkreettisten esimerkkien avulla.

Avainsanat: avoin data, ohjelmointirajapinta, ohjelmistokehitys, datan laatu

Tämän julkaisun alkuperäisyys on tarkastettu Turnitin OriginalityCheck –ohjelmalla.

(3)

1 Johdanto ... 1

2 Avoimen datan saatavuus ... 1

2.1 Julkinen sektori 2

2.2 Yksityinen sektori 2

3 Avoimen datan laadun arviointi ... 3

4 Avoimen datan eri julkaisumuodot ja niiden hyödyntäminen ... 4

4.1 Web- tai FTP-palvelimilla julkaistut tiedostot 4

4.2 Ohjelmointirajapinnat 5

4.2.1 SOAP-arkkitehtuuri 5 4.2.2 REST-arkkitehtuuri 7

4.3 Linkitetty data 8

5 Avoimen datan käyttö sovelluksissa ... 9

5.1 Turismiapplikaatiot 9

5.2 Analytiikkaohjelmistot 11

5.3 Pelit ja simulaatiot 12

6 Ongelmia avoimen datan käytössä... 13

6.1 Katkokset datan saatavuudessa 13

6.2 Epätarkka tai puutteellinen data 13

6.3 Datan yhtenäisyys 14

6.4 Viive ruuhkatilanteissa 14

7 Yhteenveto ... 15 Viiteluettelo ... 16

(4)

1 Johdanto

Avoin data on kustannustehokkuutensa vuoksi hyvin houkutteleva resurssi sovelluskehit- täjille. Data on lisensoitu vapaaseen käyttöön, jolloin sovelluskehittäjän ei tarvitse huo- lehtia käyttölupien hankkimisesta tai datan ostamisesta kolmannelta osapuolelta. Data on yleensä myös helposti saatavilla joko ohjelmointirajapintana tai taulukkona, esimerkiksi CSV-tiedostomuodossa, joita kumpaakin voidaan helposti hyödyntää sovelluksissa. Mo- net ohjelmistoyritykset ovat laajalti kiinnostuneita avoimen datan tarjoamista mahdolli- suuksista, mutta tästä huolimatta avoimen datan käyttö ei ole niin yleistä, kuin voisi ku- vitella. Useimmat ohjelmistoyritykset tukeutuvatkin edelleen mieluiten suljettuun datan jakoon. [Herala et al., 2016]

Tämän tutkielman tarkoituksena on tarkastella, kuinka avointa dataa pystytään käyt- tämään ohjelmistojen kehityksessä ja lisäksi ottamaan selvää mahdollisista ongelmista.

Olen hakenut lähteet tutkielmaani useammasta eri tietokannasta, kuten IEEE, ACM ja ProQuest. Osan lähteistä olen löytänyt myös Google Scholarin avulla. Protokollien ja kä- sitteiden määrityksiä etsiessä käytin normaalia Google-hakua. Lisäksi olen pyrkinyt ha- kiessani tietoja arvioimaan niiden luotettavuutta ja suosinut uudempia julkaisuja, mikäli saatavilla.

Ensimmäisenä luvussa 2 selvitetään avoimen datan saatavuutta. Samalla selvitetään eroja eri avoimen datan tarjoajien välillä. Luvuissa 3 ja 4 käydään läpi datan laadun arvi- ointia, eri julkaisumuotoja, sekä erilaisia käyttökohteita. Lopuksi käydään läpi, mitä on- gelmia saattaa tulla vastaan avointa dataa käytettäessä, sekä miten ongelmia voisi rat- kaista.

2 Avoimen datan saatavuus

Jatkuvan digitalisoitumisen vuoksi avoimen datan saatavuus vain kasvaa, kun yhä enem- män dataa siirretään digitaaliseen muotoon. Näitä tietovarantoja on avattu erityisesti jul- kisten tahojen puolesta hyvin paljon, mutta myös jotkin yksityiset yritykset ovat lähteneet mukaan. Datan ja eri datan tarjoajien määrän vuoksi on täytynyt luoda portaaleja, joista kuluttajan olisi helppo löytää haluamansa data.

Suomessa suurin avoimen datan portaali on väestörekisterikeskuksen ylläpitämä AvoinData.fi [Väestörekisterikeskus, 2019]. Vuoden 2019 marraskuuhun mennessä si- vustolle on listattu jo yli 1300 avoimen datan tietoaineistoa. Portaalista löytyvän tuottajat- listauksen mukaan vain alle 20 tuottajaa ovat yksityisiä. Selkeästi suurin osa jaetusta da- tasta on siis julkisen sektorin puolelta. Myös useilla eri kaupungeilla on omat dataportaa- linsa, joiden kaikkia tietoaineistoja ei ole välttämättä listattuna. Portaaleissa data on yleensä jaoteltu eri kategorioihin, kuten: matkailu, tiede ja teknologia, terveys, koulutus, aluetiedot, maatalous ja hallinto.

(5)

2.1 Julkinen sektori

Yhä useampien julkisten organisaatioiden valtavat tietovarannot on julkistettu avoimeen käyttöön ja tämä on vaikuttanut suuresti avoimen datan kasvuun datan lähteenä. Avoi- mesta datasta hyötyy niin julkiset tahot, kuin myös sovellusten kehittäjät. Kaupunkien jakama data tuo paljon mahdollisuuksia myös kaupungin omien palveluiden parantami- selle.

Monet tahot ovat alkaneet seuraamaan julkisen sektorin jakaman avoimen datan saa- tavuuden kehitystä [Yi, 2019]. Yksi näistä on Open Data Barometer, joka on World Wide Web Foundationin tarjoama palvelu valtioiden jakaman avoimen datan saatavuuden mit- taamiselle [Open Data Barometer, 2018]. Vuoden 2018 raportissa on listattuna muutamia positiivisia vaikutuksia, joita avoimen datan jakaminen on aiheuttanut valtioille. Esimer- kiksi Ranskan hallinnon resurssien kulutus on parantunut, Uruguayssa on havaittu vää- rinkäytöksiä poliittisten puolueiden rahoituksessa ja Kiinassa on alettu käyttämään avointa dataa ilman saastumisen ehkäisemiseksi.

2.2 Yksityinen sektori

Avoimen datan jakamiselle voi olla vaikeaa hakea rahallista hyötyä ja tästä syystä yksi- tyiset yritykset harvemmin jakavat dataansa avoimesti [Herala et al., 2016]. Paljon ylei- sempää onkin yritysten ja asiakkaiden välinen suljettu datanjako. Joitakin poikkeusta- pauksia kuitenkin löytyy, missä yritys on halunnut parantaa imagoaan tai lisätä näkyvyyt- tään. Tällä voi silloin olla epäsuorasti vaikutusta myös yrityksen taloudelliseen tilaan.

Yksi esimerkki avointa dataa jakavasta yksityisestä yrityksestä on Uber, henkilökul- jetuspalvelua tarjoava yritys. Vuodesta 2017 alkaen, Uber on tarjonnut julkisesti ano- nymisoitua liikennedataa nettisivuiltaan CSV-tiedostomuodossa. Data tarjoaa muun mu- assa realistiset matka-ajat, sillä data perustuu oikeisiin automatkoihin [Uber Movement, 2019].

On syytä kuitenkin huomioida, että Uberin tarjoama data on lisensoitu ”Creative Commons, Attribution Non-Commercial”-lisenssin alla, jolloin kaupallinen käyttö ei ole sallittua [Creative Commons, 2019]. Avoimen tiedon määritelmän mukaan tätä ei voida siis kutsua täysin avoimeksi dataksi. Määritelmän mukaan avointa dataa pitäisi pystyä vapaasti muokkaamaan, jakamaan, sekä käyttämään myös kaupallisiin tarkoituksiin [Open Knowledge Foundation, 2005]. Kyseinen lisenssi sallii kaiken muun käytön paitsi kaupallisen. Hakiessa avointa dataa yksityisiltä tarjoajilta onkin siis syytä olla tarkkaa- vainen lisenssin ehtoja lukiessa.

(6)

3 Avoimen datan laadun arviointi

Avoimen datan ja yleisesti datan laadun arvioimiselle ei ole olemassa yhtä sovittua mit- taria, vaan siihen löytyy useita eri mittareita riippuen datan käyttökohteesta [Immonen et al., 2017]. Datan laadun arvioiminen on moniulotteinen konsepti, jossa dataa tulee mitata objektiivisestä, sekä subjektiivisesta näkökulmasta, eikä samojen mittarien käyttäminen kaiken datan arvioimiseen ole suositeltavaa. Avoimen datan arvioimiselle löytyy kuiten- kin joitakin laatukriteerejä, joilla voidaan yleisesti luokitella avointa dataa [Attard et al., 2015]:

• Käytettävyys. Yksi geneerisimmistä laatukriteereistä, jonka tarkoituksena on määritellä, kuinka helposti data on käytettävissä. Laatukriteerinä se on kuitenkin moniulotteinen, sillä se pohjautuu useampaan eri mittariin, kuten avoimuuteen, saatavuuteen ja yhteensopivuuteen.

• Tarkkuus. Kertoo, kuinka tarkasti data vastaa oikeaa informaatiota, eli datan ke- räämiseen käytettyjä resursseja.

• Täydellisyys. Laatukriteerillä viitataan datan täytettyjen kenttien määrään. Datan ajatellaan olevan täydellinen, kun tabulaarisen datan jokainen kenttä on täytetty vaadittavilla tiedoilla.

• Johdonmukaisuus. Datan kenttien arvojen välillä ei saa olla epäjohdonmukaisuuk- sia. Epäjohdonmukaisuudet voivat esimerkiksi johtaa tilanteisiin, joissa samaa tarkoittavat arvot ovatkin tallennettu hieman eri arvoina ja vaikka ihminen voi taulukkoa lukiessa havaita arvojen samankaltaisuuden, kone ei sitä lukiessaan ole- tuksena tunnista tietojen samankaltaisuutta.

• Saavutettavuus. Tarkoitetaan, kuinka laajalti data on käytettävissä eri käyttäjille ja eri käyttötarkoituksiin. Saavutettavuutta voi kehittää myös käyttämällä standar- disoituja protokollia ja formaatteja, jolloin datan hyödyntäminen on helpompaa.

• Avoimuus. Yksi olennaisimmista avoimen datan laatukriteereistä. Open Know- ledge Foundationin määritelmien mukaan avoin data voi tarkoittaa vain dataa, jonka lisenssi sallisi kaiken käytön, mukaan lukien kaupallisen. Tähän on kuiten- kin esitetty eri tutkijoiden näkökulmasta eriäviä mielipiteitä, joista osan mielestä avoimella datalla voi olla myös hieman rajoittavampia lisenssejä [Khayyat et al., 2015]. Tällöin datan avoimuuden mittarina voidaankin käyttää eri lisenssien an- tamia rajoituksia datan käyttöön.

Datan, mukaan lukien avoimen datan, arviointiin voidaan hyödyntää myös Berners- Leen [2010] luomaa viiden tähden luokittelua. Kyseisessä luokittelussa data on luokiteltu pitkälti sen julkaisumuodon mukaan. Yksi ja kaksi tähteä viittaavat dataan, joka ei ole helposti sovelluskehittäjien prosessoitavissa, kun taas korkeammin luokiteltu data on hel- posti prosessoitavissa ja voi parhaimmillaan olla myös linkitetty johonkin toiseen dataan semanttisessa verkossa. Luokittelu on kuvattu taulukossa 1.

(7)

Luokka Kriteerit

Julkaistu avoimella lisenssillä, mutta data on vaikeasti hyödynnettävissä.

Avoin data on koneluettavissa, mutta data vaatii patentoidun ohjelmiston sen luke- miseen.

Avoin data on suoraan prosessoitavissa ja sen lukeminen onnistuu avoimilla ohjel- mointikirjastoilla.

Avoin data sisältää oman URI-tunnisteen RDF- tai SPARQL-määritysten mukai- sesti ja voidaan linkittää dataan.

Avointa linkitettyä dataa, jonka URI-tun- nisteen avulla löytää muita datajoukkoja.

Taulukko 1. Viiden tähden laatuluokittelu avoimelle datalle [Berners-Lee, 2010].

Kuten taulukosta huomaa, tämä laatuluokittelu ei ota kantaa juurikaan aiemmin mää- ritettyihin laatukriteereihin. Sen sijaan datan luokka on määritelty selkeiden sääntöjen mukaan, jotka vaativat vain tietynlaisen tietomallin noudattamista julkaistaessa dataa avoimesti. Laatuluokittelussa on myös selkeästi suosittu linkitettyä dataa muiden datan julkaisumuotojen sijaan.

4 Avoimen datan eri julkaisumuodot ja niiden hyödyntäminen

Noudattamalla aiemmin mainittuja Berners-Leen [2010] laatukriteereitä, voidaan eri avoimen datan julkaisumuodot sijoittaa luokittelun viiteen eri luokkaan. Sovelluskehityk- sen kannalta ainoat hyödylliset julkaisumallit on luokiteltu kolmesta tähdestä viiteen täh- teen. Alemman luokan tietomuodot, kuten PDF (Portable Document Format), eivät ole suoraan prosessoitavissa tai data on luettavissa vain patentoiduilla ohjelmistoilla. Tämän vuoksi en ala kyseisiä tietomuotoja tässä tutkielmassa käsittelemään. Tämän sijaan esit- telen seuraavaksi yleisimmät kolmesta tähdestä ylöspäin luokitellut avoimen datan jul- kaisumuodot.

4.1 Web- tai FTP-palvelimilla julkaistut tiedostot

Avoin data julkaistaan usein tiedostoina Web- tai FTP-palvelimelle, mikäli data on har- voin muuttuvaa. Tietojen tallentaminen voi tällöin usein olla hyvin helppoa varsinkin eri dokumenttien tallentamisessa, jotka saattavat olla jo valmiiksi taulukkomuodossa. Mikäli data on myös suoraan prosessoitavissa, Berners-Lee [2010] luokittelee kyseisen julkaisu- muodon datan kolmella tähdellä.

(8)

Useimmiten tiedostot on julkaistu Web-palvelimen kautta, jolloin tiedostojen lataa- minen tapahtuu tekemällä GET-pyynnön palvelimelle. Palvelin vastaa GET-pyyntöön pa- lauttamalla pyydetyn tiedoston kokonaisuudessaan. Tämän jälkeen jäljelle jää vain kysei- sen tiedoston prosessointi.

Yksi suosituimmista ja vanhimmista datan tiedostomuodoista on CSV (comma-sepa- rated values), jonka lukeminen on melko vaivatonta useimmilla ohjelmointikielillä [Shaf- ranovich, 2005]. CSV on tekstitiedosto, jossa taulukon data on jaoteltu riveittäin ja eri kentät eroteltu esimerkiksi pilkuilla tai puolipisteillä. Tiedostojen formaatti ei ole stan- dardisoitu täysin, jonka vuoksi eri tiedostojen lukeminen ei välttämättä onnistu täysin sa- moilla metodeilla. Tiedostojen välillä voi olla siis eroja muun muassa erotusmerkkien ja lainausmerkkien käytössä. Tällöin voi olla suositeltavaa käyttää omaa ohjelmointikirjas- toa CSV:n lukemiseen. Esimerkiksi Javalle löytyy kirjasto nimeltä OpenCSV, joka yk- sinkertaistaa monimutkaisempien CSV-tiedostojen lukua [OpenCSV, 2019]. Kaikki tau- lukkomuotoiset tiedostot, kuten Excel-tiedostot, on yleensä melko helppo muuttaa tähän muotoon. Tästä syystä kyseinen muoto on hyvin yleinen tabulaaristen tietojen julkaisuun.

Muita suosittuja avoimen datan tiedostomuotoja ovat WMS, XML, KML, SHP ja JSON, joille kaikille löytyy omat ohjelmointikirjastonsa monesta eri ohjelmointikielestä [Verma ja Gupta, 2012].

4.2 Ohjelmointirajapinnat

Mikäli dataa joudutaan päivittämään useasti, on syytä tällöin hyödyntää ohjelmointiraja- pintaa. Useimmiten avoimen datan jakoon tarkoitetut ulkoiset ohjelmointirajapinnat on toteutettu WEB-palveluina käyttäen SOAP- tai REST-arkkitehtuuria. Verrattuna suoraan tiedostojen jakamiseen web-palvelimelta, ohjelmointirajapinnat antavat mahdollisuuden pilkkoa datan osiin, jolloin käyttäjä voi halutessaan pyytää vain osan rajapinnan tarjoa- masta datasta [Helsinki Region Infoshare, 2019]. Ohjelmointirajapinnat on pohjimmil- taan luotu palvelemaan ohjelmia, jonka vuoksi myös rajapintojen palauttamat tiedosto- muodot ovat käytännössä aina koneluettavia. Mikäli datan tarjoaja on siis toteuttanut ra- japinnan, on tarjoaja myös todennäköisesti kiinnittänyt huomiota datan laatukriteereihin tarpeeksi varmistaakseen datan koneluettavuuden.

4.2.1 SOAP-arkkitehtuuri

SOAP-arkkitehtuuriin perustuva web-palvelu käyttää HTTP-protokollaa metodikutsujen vastaanottamiseen ja viestien lähettämiseen. Viestit palvelun ja asiakkaan välillä lähete- tään SOAP-muodossa, joka vastaa XML-dokumenttia. Dokumentti sisältää 3 osaa: enve- lope, body ja header. Envelope, eli ”kirjekuori”, identifioi dokumentin SOAP-viestiksi.

(9)

Body sisältää varsinaisen datan ja header sisältää otsikkotiedot. Otsikkotietojen sisällyt- täminen ei ole kuitenkaan pakollista, ellei rajapinta vaadi esimerkiksi autentikointitietoja.

[Louridas, 2006]

Jokainen SOAP-viesti lähetetään käyttäen ”kirjekuori”-rakennetta, jolloin se vaatii lisävaiheen kirjekuoren avaamiselle. Tämän lisävaiheen ansiosta kyseinen arkkitehtuuri tarjoaakin hieman lisää turvallisuutta, sillä viestin dataan ei pääse suoraan käsiksi. Lisäksi SOAP-protokollaan sisältyy WS-Security-lisäosa, joka suorittaa viestien salauksen.

SOAP-rajapintoja käytetäänkin paljon enterprise-tason ratkaisuissa, jotka vaativat suu- remman tason tietoturvaa. Esimerkiksi PayPal-maksujenvälitysjärjestelmä hyödyntää SOAP-arkkitehtuuria omassa julkisessa ohjelmointirajapinnassaan. [Tihomirovs ja Gra- bis, 2016]

Esimerkissä 1 on esitetty esimerkki SOAP-viestistä, jossa rajapinnasta pyydetään ta- pahtuman päivämäärää. Esimerkissä kutsutaan HaePvm-metodia, jonka suorittamisen jäl- keen palvelu palauttaa päivämäärän sisältävän SOAP-viestin asiakkaalle. Esimerkkirat- kaisu myös vaatii autentikointitiedot viestin otsikkotiedoissa.

<?xml version="1.0"?>

<soap:Envelope

xmlns:soap="http://www.w3.org/2003/05/soap-envelope/"

soap:encodingStyle="http://www.w3.org/2003/05/soap-encoding">

<soap:Header>

<Authentication xmlns="http://esimerkki/">

<UserName>käyttäjä</UserName>

<Password>salasana</Password>

</Authentication>

</soap:Header>

<soap:Body>

<m:HaePvm xmlns:m="https://esimerkki/tapahtumat">

<m:Tapahtuma>Joku Tapahtuma</m:Tapahtuma>

</m:HaePvm>

</soap:Body>

</soap:Envelope>

Esimerkki 1. Esimerkki SOAP-viestistä, joka lähetetään palvelupyyntönä rajapinnalle.

XML-formaattinsa ansiosta SOAP-viestejä on helppo lukea ja luoda useilla ohjel- mointikielillä. Esimerkiksi Java-ohjelmointikielestä löytyvän DOM-parserin tai builderin avulla voi lukea ja kirjoittaa XML-dokumentteja.

(10)

4.2.2 REST-arkkitehtuuri

REST (Representational State Transfer) on tällä hetkellä selkeästi suosituin ohjelmointi- rajapintojen arkkitehtuuri ja sen suosio on yhä kasvussa. Vuonna 2018 julkaistussa tutki- muksessa tarkasteltiin 500 suositun nettisivuston käyttämiä rajapintoja ja selkeästi suurin osa (95.8%) käyttivät REST-rajapintaa. [Neumann et al., 2018]

SOAP-arkkitehtuurista poiketen REST-arkkitehtuurilla ei ole virallista standardia.

Useimmiten sen kanssa hyödynnetään kuitenkin HTTP-protokollaa, jolla puolestaan on omat standardinsa. REST käyttää hyväksi HTTP-protokollan metodeja, kuten GET, POST, DELETE eri toimintojen suorittamiseen. Resurssit, joille toiminnot suoritetaan, rajapinta löytää käyttämällä yksinomaan URI-tunnusta (Uniform Resource Identifier).

REST ei myöskään tarjoa omia tietoturvaominaisuuksia, vaan hyödyntää ainoastaan HTTP-protokollan omia turvallisuusmekanismeja [Tihomirovs et al., 2016].

REST-rajapinta tarjoaa usein datan JSON-muodossa, joka on SOAP-rajapinnan tar- joamaa XML-tiedostomuotoa paremmin optimoitu kooltaan [Maeda, 2012]. Rajapinnan voi kuitenkin halutessaan määrittää tarjoamaan datan myös muissa muodoissa, kuten XML.

REST-arkkitehtuuri antaa paljon vapauksia rajapinnan kehittäjälle, jonka vuoksi esi- merkiksi HTTP-metodien implementoinnin voi suorittaa monella eri tavalla. Tästä syystä on tärkeää, että rajapinta on hyvin dokumentoitu. Arkkitehtuurin HATEOAS-periaatteen (Hypermedia As The Engine Of Application State) mukaan rajapinnan tulisi toteuttaa myös hypermedian kontrollit, eli muun muassa muihin kutsuihin johtavat linkit. Tämä kuitenkin hyvin harvoin tulee toteutettua [Neumann et al., 2018]. Olen esittänyt esimerkin REST-rajapinnan resurssista esimerkissä 2. Esimerkistä löytyy suoraan viite tapahtumaan liittyvään kuvaan, jonka URI:a käyttämällä pääsemme siihen suoraan käsiksi.

{

"data": [ "id" 1,

"tapahtuma": "Joku tapahtuma", "paikka": "Joku paikka", "linkit": [

{ "rel": "self",

"uri": "/tapahtumat/1"

},

{

"rel": "tapahtuma.kuva", "uri": "/tapahtumat/1/kuva"

} ] ] }

Esimerkki 2. REST-rajapinnasta pyydetty resurssi, joka sisältää hypermedian kontrolleja.

(11)

4.3 Linkitetty data

Linkitetty data on dataa, joka on linkitetty toisiinsa osana semanttista verkkoa [Berners- Lee, 2010]. Semanttisen verkon ideana on luoda dataverkosto, missä data voidaan yhdis- tää johonkin toiseen dataan esimerkiksi paikan, henkilöiden tai eri tapahtumien perus- teella. Data linkitetään toisiinsa käyttäen globaalia tunnistetta Uniform Resource Identi- fier (URI). Usein tunnisteen kanssa on hyödynnetty myös HTTP-protokollaa, joka tekee dataan liittyvien resurssien etsimisestä helpompaa. Berners-Leen luokittelun mukaan da- talle voidaan silloin antaa neljä tähteä. Jos tämän lisäksi URI:n avulla voidaan löytää myös muiden julkaisemaa dataa, annetaan datalle viiden tähden luokitus.

Linkitetty data on useimmiten esitetty käyttäen RDF (Resource Description Fra- mework) -tietomallia. Tietomalli rakentuu kolmikoista, jotka nimensä mukaan sisältävät kolme osaa: subjekti, predikaatti ja objekti [W3C, 2004]. Tietomallia voi toteuttaa erilai- silla formaateilla, kuten RDF/XML tai Turtle (Terse RDF Triple Language).

Turtle on yksi W3C:n standardoimista formaateista, jossa RDF:n kolme osaa on ero- tettu välimerkeillä [W3C, 2014]. Esimerkiksi lauseen ”Tapahtuma 1 sijaitsee paikassa 1”

voi kyseisellä formaatilla ilmaista: <tapahtuma/tapahtuma 1> <ontologia/sijaitsee>

”Paikka 1”. Tämän kolmikon kaksi ensimmäistä osaa viittaavat resursseihin ja viimeinen osa on merkkijono. Jokaisella resurssilla voi olla myös omia lauseitaan, jolloin verkos- tosta muodostuu semanttisempi. Resurssien tunnisteita lauseessa voi myös lyhentää käyt- tämällä nimiavaruuksia, jotka määritetään alussa prefix-nimikkeellä.

RDF-datan tarjoamat palvelut yleensä tarjoavat myös SPARQL-rajapinnan datan ha- kuun kyselyillä. SPARQL muistuttaa vähän syntaksiltaan SQL-kyselyä ja tarjoaakin joi- takin vastaavia kyselyoperaattoreita, kuten select, join, sort ja aggregate [W3C, 2008].

Esimerkissä 3 on esitetty SPARQL-kyselyn suorittaminen määritellyn RDF-datan poh- jalta. Usein datan tarjoaja kuitenkin tarjoaa jonkinlaisen dokumentaation, jolloin itse RDF-dataa ei välttämättä tarvitse ollenkaan tutkia kyselyitä muodostettaessa. SPARQL- kyselyssä on valittu haettaviksi kentiksi nimi ja paikka, sekä ehdoksi on määritetty, että päivämäärän tulee olla 10.10.2019. Kyselyn muodostamisen jälkeen se voidaan lähettää esimerkiksi HTTP-protokollaa käyttäen SPARQL-päätepisteelle, joka palauttaa tuloksen käyttäjälle. Tässä esimerkissä olen päättänyt esittää tuloksen taulukkona. Todellisuudessa data voitaisiin palauttaa useassa eri tietomuodossa, joka on usein parametrilla valittavissa.

(12)

RDF (Turtle):

@prefix t: <http://esimerkki/tapahtuma/> .

@prefix o: <http://ontologia/> .

t:t1 o:nimi "Tapahtuma 1" . t:t1 o:sijaitsee "Paikka 1" . t:t1 o:päivämäärä "10-10-2019" .

t:t2 o:nimi "Tapahtuma 2" . t:t2 o:sijaitsee "Paikka 2" . t:t2 o:päivämäärä "10-10-2019" . SPARQL:

PREFIX t: <http://esimerkki/tapahtuma/>

PREFIX o: <http://ontologia/>

select ?nimi ?paikka where {

?tapahtuma o:päivämäärä "10-10-2019" . ?tapahtuma o:nimi ?nimi .

?tapahtuma o:sijaitsee ?paikka . }

Tulos:

nimi paikka

Tapahtuma 1 Paikka 1

Tapahtuma 2 Paikka 2

Esimerkki 2. Esimerkki SPARQL-kyselystä, jossa haetaan kaikki tapahtumat päivämää- rällä 10.10.2019. RDF on esiteltynä Turtle-formaatissa.

5 Avoimen datan käyttö sovelluksissa

Avoin data avaa mahdollisuuden monille uusille innovaatioille sovelluskehityksessä. Uu- tena konseptina on syntynyt muun muassa Smart City -sovellukset, joilla luodaan uusia innovaatioita kaupungin datan hyödyntämiselle [Ojo et al., 2015]. Nämä sovellukset pys- tyvät tehostamaan kaupungin palveluita, samalla kehittäen asukkaiden elämänlaatua ja kaupungin ekonomista kasvua.

Tässä luvussa esittelen muutamia eri sovellustyyppejä, joissa voidaan hyödyntää avointa dataa. Käyn läpi myös joitakin esimerkkisovelluksia, jotka ovat onnistuneesti hyödyntäneet avointa dataa.

5.1 Turismiapplikaatiot

Turismiapplikaatiot liittyvät Smart City -konseptiin yhtenä sovellustyyppinä [Pesonen et al., 2016]. Monet suomalaiset kaupungit jakavat paljon turismiin liittyvää dataa omissa dataportaaleissaan, kuten hri.fi [Helsinki Region Infoshare, 2019] ja data.tampere.fi [Tampereen kaupungin dataportaali, 2019]. Helsinki Region Infoshare-palvelun tietoai- neistoista noin 70 liittyy turismiin. Turismiin liittyvät tietoaineistot voidaan jakaa useaan

(13)

eri tyyppiin, joita on kuvattu taulukossa 2. Taulukosta nähdään myös, että selkeästi suo- situin käyttökohde on mobiiliapplikaatiot.

Datan tyyppi Kuvaus Käyttökohde

Paikkatieto GPS-karttatiedot Mobiiliapplikaatiot, netti-

sivut

Tapahtumadata Kuvaus tapahtumista, bän-

dikeikoista ym.

Mobiiliapplikaatiot, netti- sivut

Vierailijastatistiikat Statistiikkaa yöpymisistä Mobiiliapplikaatiot, netti- sivut

Matkailualan tilastot Yritysten määrä, yritysten tyypit, lukumäärä, tiedot museoista ja nähtävyyk- sistä

Mobiiliapplikaatiot, netti- sivut

Kyselydata Data eri kyselyistä Mobiiliapplikaatiot, netti-

sivut Matkailutiedot Tiedot matkakohteista,

nähtävyyksistä, ravinto- loista ja tapahtumista

Mobiiliapplikaatiot, netti- sivut, akateeminen tutki- mus

Liikennöintitiedot Aikataulut Mobiiliapplikaatiot, netti-

sivut

Valtiollinen data Verojen keräys ja jako Mobiiliapplikaatiot, netti- sivut, akateeminen tutki- mus

Kaikki edellä mainitut Lisätty todellisuus, eri läh-

teistä saatujen tietojen yh- distävät palvelut

Taulukko 2. Turismiapplikaatioiden käyttämät avoimen datan tyypit ja käyttökohteet [Pesonen et al., 2016].

Tourpedia on projekti, joka sai alkunsa ideasta yhdistää turismiin liittyvää data eri lähteistä ja tarjota kaikki data yhden palvelun alta. Alun perin palvelu toimi Wikipedian tapaan ikään kuin turismin tietosanakirjana ja tarjosi tietoja mm. hotelleista, nähtävyyk- sistä, ravintoloista, jotka oli kerätty sosiaalisesta mediasta. Sosiaalisen median tarjoama data ei kuitenkaan ollut täysin avointa, joten kaupunkien tarjoaman avoimen datan yleis- tyttyä palvelu siirtyi hyödyntämään vain kaupunkien avointa dataa. Tällä hetkellä palvelu tarjoaa rajapinnan, jota hyödyntämällä voidaan luoda turismiapplikaatioita esimerkiksi majoitusten löytämiseen, kuten kuvan 3 sovellus. Palvelun käyttämiä matkailutietoja ei

(14)

kuitenkaan löydy vielä useasta kaupungista, jonka vuoksi palvelu tukee toistaiseksi vain Italian, Ranskan ja Espanjan alueita. [Lo Duca ja Marchetti, 2019]

Kuva 3. Tourpedian rajapintaa hyödyntävä WEB-sovellus majoitusten löytämiseen.

5.2 Analytiikkaohjelmistot

Yksi avoimen datan hyödyntämisen osa-alueista on data-analytiikka. Analysoimalla esi- merkiksi kaupunkien jakamaa dataa voidaan tehdä johtopäätöksiä, joilla pystytään paran- tamaan kaupungin palveluita tai ehkäisemään tulevia ongelmatilanteita. Kuitenkin mo- nilta kaupungeilta ei välttämättä löydy tarvittavaa osaamista data-analytiikasta, joten tar- vitaan työkaluja, joilla data saadaan esitettyä helpommin ymmärrettävässä muodossa.

Tätä varten on kehitetty analytiikkaohjelmistoja, joiden tarkoituksena on helpottaa johto- päätösten tekemistä. [Díaz et al., 2021]

Huono ilmanlaatu on yksi maailmanlaajuisista huolenaiheista. Ilmanlaadun seuraa- miseen on jo olemassa paljon antureita, joita alhaisen hinnan vuoksi myös vähemmän kehittyneet maat ovat pystyneet hankkimaan. Tämän myötä on myös kasvanut kysyntä analytiikkaohjelmistoille, joiden avulla pystyttäisiin hyödyntämään antureiden antamaa dataa. Yksi analytiikkaohjelmistoista on nimeltään aiRe, joka on kehitetty analysoimaan kaupunkien jakamaa ilmanlaatudataa. Ohjelmisto hyödyntää R-koodia datan analysoin- tiin ja sen jälkeen esittää datan visuaalisessa muodossa web-käyttöliittymän kautta. Tä- män tyyppiset avointa dataa hyödyntävät analytiikkaohjelmistot eivät välttämättä ainoas- taan auta kaupunkeja, vaan voivat toimia myös oppimisresursseina. [Díaz et al., 2021]

(15)

5.3 Pelit ja simulaatiot

Avointa dataa voidaan hyödyntää myös pelikehityksessä. Mikäli kyseessä on simulaatio tai muuten realistinen peli, voi avoimen datan resurssit tarjota paljon haluttua realismia.

Toisaalta avoin data voi myös tuoda taloudellista hyötyä kustannustehokkuutensa ansi- osta. Avoimen datan resurssien avulla voidaan esimerkiksi generoida pelikarttoja, inter- aktiivisia narratiiveja, tekstuureja ja 3d-malleja. [van Stegeren et al., 2018]

Proseduraalinen generointi, lyhyesti PCG, tarkoittaa automaattista tai semiautomaat- tista pelisisällön generointia algoritmeja käyttäen [Gustafsson et al., 2013]. PCG on yleis- tynyt paljon viime vuosien aikana ja herättänyt huomiota myös akateemisissa yhteisöissä.

Myös avoin data on tähän liittyen keskeinen käsite, sillä uutena asiana on tullut esille ulkopuolisen datan syöttäminen algoritmeille, jolloin voidaan esimerkiksi generoida kart- toja käyttäen oikeita karttatietoja.

Yksi karttatietoja tarjoavista palveluista on OpenStreetMap, joka tarjoaa päivitettyjä karttatietoja vapaaseen käyttöön. Karttatiedoilla on muun muassa generoitu Pokémon GO -pelin kartat. Katso kuvankaappaus pelistä kuvasta 4. OpenStreetMap on joukkoistettu avoimen datan lähde, eli data on vapaasti muokattavissa Wikipedian tavoin. Tämän ansi- osta karttatiedot pysyvät ajan tasalla, mutta toisaalta mahdollistaa myös väärän tiedon lisäämisen. Suurin osa virheellisistä lisäyksistä korjataan kuitenkin hyvin pian muok- kauksen jälkeen OpenStreetMapin yhteisön toimesta. [Juhász et al., 2020]

Kuva 4. Kuvankaappaus Pokemon GO -pelistä, jossa kartta ja rakennusten mallit ovat generoitu käyttäen avointa dataa OpenStreetMap-palvelusta [Pokémon GO, 2020].

(16)

6 Ongelmia avoimen datan käytössä

Vaikkakin avoimen datan käyttö ohjelmistokehityksessä on yleistynyt paljon viime ai- koina, on useilla ohjelmistokehitysyrityksillä silti joitakin ennakkoluuloja koskien avoi- men datan käyttöä [Herala et al., 2016]. Tästä syystä avointa dataa harvemmin käytetään ensisijaisena datan lähteenä, vaan sen sijaan sitä käytetään usein tehostamaan olemassa olevaa tietoaineistoa esimerkiksi lisäämällä sijaintitietoja. Joskus avoimen datan käyttöä varten joutuu tekemään paljonkin työtä, jos joudutaan korjaamaan datasta löytyviä vir- heitä. On myös mahdollista, että datan tarjoaja ei itse käytä tarjoamaansa dataa ohjelmis- toissa, jolloin virheiden mahdollisuus on suurempi.

Seuraavaksi käydään läpi neljä avoimen datan käyttöön ohjelmistokehityksessä liit- tyvää ongelmaa. Lisäksi jokaisesta ongelmasta on pyritty esittelemään yksi tosielämän esimerkki tai tutkimus ongelmaan liittyen.

6.1 Katkokset datan saatavuudessa

Käytettäessä avointa dataa, datan käyttäjän ja tarjoajan välillä ei ole minkäänlaista sopi- musta, joka pakottaisi datan tarjoajaa varmistamaan datan saatavuuden ympäri vuorokau- den. Datan tarjoajalla ei välttämättä ole myös velvoitetta ilmoittaa etukäteen mahdolli- sista katkoksista. Tämän vuoksi avointa dataa käytettäessä on aina varauduttava katkok- siin, vaikka niistä ei olisi ennalta ilmoitettu.

Yksi isoimmista avoimeen dataan kohdistuvista katkoksista tapahtui vuonna 2018, kun Yhdysvaltain liittohallitus suljettiin noin kuukaudeksi. Tämän myötä yksi suurim- mista avoimen datan portaaleista, data.gov, lakkasi myös toimimasta. Vaikka itse data säilyikin vielä palvelimilla, herätti portaalin sulkeutuminen silti paljon epävarmuutta da- tan saatavuudesta, sekä päivittymisestä. Avointa dataa käytettäessä voi olla siis hyvä har- kita useampia datalähteitä, jolloin yhden datalähteen kaatuminen ei aiheuttaisi suurta on- gelmaa. [Vaughan, 2019]

6.2 Epätarkka tai puutteellinen data

Aina avoimen datan tarkkuus ei välttämättä vastaa täysin vaatimuksia tai data on puut- teellista. Tarkkuudella tarkoitetaan tässä tapauksessa, kuinka hyvin data vastaa tosielä- män kokonaisuutta. Esimerkiksi OpenStreetMap-karttapalvelun tarjoamien karttatietojen tarkkuus voi vaihdella huomattavasti [Kulawiak et al., 2019].

Girindran ja muut [2020] selvittivät tutkielmassaan ratkaisua korkean tarkkuuden 3D- kaupunkimallien luomiseen käyttäen avointa dataa. OpenStreetMapin tietoaineistot sisäl- tävät kuitenkin vain hyvin vähän korkeustietoja, jolloin 3D-mallien rakentaminen käyttä- mällä ainoastaan OpenStreetMapin dataa harvoin onnistuu. Avoimia digitaalisia pinta- malleja käyttämällä puolestaan pystytään luomaan rakennusten 3D-mallit, mutta usein rakennusten muodot näyttävät tällöin vääristyneiltä. Havaittiin kuitenkin, että yhdistä-

(17)

mällä OpenStreetMapin 2D-karttatiedot digitaalisten pintamallien kanssa pystyttiin luo- maan rakennuksille 3D-mallit, joiden muodot säilyivät oikeanlaisina. Puutteellisen datan ongelma voitiin siis ratkaista yhdistämällä kahta eri tietoaineistoa keskenään ja samalla saatiin luotua myös paljon tarkemmat 3D-mallit, kuin mitä ainoastaan digitaalisia pinta- malleja käyttämällä olisi saatu.

Avoimien digitaalisten pintamallien tarkkuus on kuitenkin usein huomattavasti huo- nompi, kuin kaupallisten vaihtoehtojen. Mikäli halutaan tarkemmat 3D-mallit, joita voi- taisiin hyödyntää esimerkiksi kriisinhallintasovelluksissa, voi joutua ostamaan kaupalli- sen lisenssin korkeamman resoluution digitaalisille pintamalleille. Kuitenkin esimerkiksi Nottinghamin kaupunki tarjoaa korkean resoluution DSM-dataa ilmaiseksi tutkimuskäyt- töön, joten täysin avointa dataakin käyttämällä voi olla mahdollista luoda tarkat 3D-mallit joistakin kaupungeista. [Girindran et al., 2020]

6.3 Datan yhtenäisyys

Varsinkin käytettäessä taulukkomuodossa tallennettua dataa on hyvä olla tarkka datan yhtenäisyydestä. Useat julkiset organisaatiot ovat avanneet dataansa julkiseen käyttöön, mutta kyseinen data ei välttämättä ole suunniteltu koneluettavaksi. Ellei datan tarjoaja itse käytä dataa ohjelmistoissaan, on erilaisten datan yhtenäisyysvirheiden ja kirjoitusvir- heiden olemassaolo hyvin mahdollista.

Jun Iion [2018] kirjoittamassa tutkielmassa käsiteltiin Hachioji-kaupungin kirjaston tarjoaman avoimen datan hyödyntämistä sovellusprojektissa. Tarkoituksena oli luoda kartta-applikaatio, jossa yhdistettäisiin kirjastojen tarjoamaa dataa eri kaupunginosiin.

Data oli CSV-muodossa, joten se oli helposti koneluettavissa. Huomattiin kuitenkin, että kaupunginosat oli merkitty osaan tiedostoista kiinalaisten numeroiden sijaan arabilaisilla numeroilla. Tämän vuoksi ohjelma ei onnistunut lukemaan tietoja oikein ja tiedostoissa olevat arabilaiset numerot jouduttiin konvertoimaan erillisellä skriptillä kiinalaisiksi. Da- tan yhtenäisyys on siis aina hyvä tarkistaa, kun sitä aiotaan hyödyntää ohjelmistoissa.

6.4 Viive ruuhkatilanteissa

Käytettäessä reaaliaikaista dataa, kuten julkisen liikenteen ajoneuvojen sijaintitietoja, ha- lutaan minimoida datanhaussa esiintyvää viivettä, jotta dataa pystytään hyödyntämään reaaliajassa. Tämän ongelman ratkaisemiseksi avoimen datan tarjoaja yleensä tarjoaa da- tan ohjelmistorajapinnan kautta, jonka ansiosta saadaan ladattua koko tietoaineiston si- jaan vain kaikkein viimeisin data. [Grzenda ja Legierski, 2019]

Ongelma ei kuitenkaan välttämättä ratkea kokonaan ohjelmistorajapintaa käyttä- mällä. On hyvä ottaa huomioon, että kyseisten rajapintojen avoimen luonteen vuoksi, ne eivät vaadi käyttäjiltä minkäänlaista rekisteröitymistä. Tämä voi hankaloittaa ruuhkati- lanteiden selvittämistä, kun ei voida rajoittaa tietyn käyttäjän palvelupyyntöjä erikseen.

(18)

Tilanteessa, jossa jokin käyttäjä aiheuttaa ruuhkaa tekemällä todella paljon palvelupyyn- töjä, voi muille käyttäjille esiintyä viivettä palvelun käytössä. Kaupallisissa rajapinnoissa on tämä ongelma ratkaistu vaatimalla rekisteröitymistä ja asettamalla jokaiselle käyttä- jälle tarkat rajoitukset palvelupyyntöjen määrään. Koska tämä ei ole mahdollista avointa dataa tarjoaville palveluille, on palvelupyyntöjen määrän rajoittaminen pitkälti dataa käyttävien ohjelmistokehittäjien harteilla. [Grzenda ja Legierski, 2019]

7 Yhteenveto

Tutkielman alussa käytiin läpi julkisen ja yksityisen sektorin eroja avoimen datan jaka- misessa, sekä annettiin yleiskuvaus datan saatavuudesta. Julkisen sektorin puolella saata- vuus oli huomattavasti parempi, mutta toisaalta datan jakamisen motiivit ovat myös huo- mattavasti erilaiset. Yksityisestä sektorista poiketen julkiselta sektorilta löytyy paljon on- nistumistarinoita, joissa datan jakamisesta on aiheutunut paljon positiivisia vaikutuksia.

Toisaalta datan jakamisen vaikutuksia on vaikea paikantaa varsinkin yksityisten yritysten osalta, sillä suoraa taloudellista hyötyä avoimen datan jakamisella harvoin on.

Hakiessa avointa dataa omaa projektia varten, on syytä ottaa huomioon datan laatu.

Mikäli data ei ole koneluettavissa tai lukittuna jonkin patentoidun tiedostomuodon taakse, voi sen hyödyntäminen olla hyvin vaikeaa. On hyvä siis noudattaa tiettyjä laatukriteereitä, kun haetaan avointa dataa. Rajapintoja kannattaa hyödyntää, mikäli on saatavilla, sillä rajapinnat tarjoavat datan yleensä koneluettavassa muodossa. Lisäksi rajapinta mahdol- listaa myös vain pienen osan hakemisen aineistosta.

Ohjelmointirajapintojen lisäksi muita avoimen datan julkaisumuotoja ovat Web- tai FTP-palvelimilla julkaistut tiedostot, sekä linkitetty data. Näistä kahdesta linkitetty data on lähempänä rajapintaa, sillä se myös mahdollistaa datan haun rajaamiseen. Linkitetty data voi olla myös yhdistetty muihin tietoaineistoihin, jotka jollain tavalla liittyvät haet- tavaan dataan. Linkitettyä dataa haettaessa voi siis löytää myös muita aiheeseen liittyviä aineistoja.

Avointa dataa voidaan hyödyntää erilaisissa ohjelmistoissa, kuten turismiapplikaati- oissa, analytiikkaohjelmistoissa, sekä peleissä. Eräänlaiset Smart City -sovellukset hyö- dyntävät kaupunkien jakamaa dataa ja samalla kaupungit hyötyvät sovelluksista, jotka voivat kehittää asukkaiden elinoloja tai tehostaa kaupungin omia palveluita. Esimerkiksi avointa dataa hyödyntävät turismiapplikaatiot voidaan luokitella tämän tyyppisiksi sovel- luksiksi. Kaikki data ei välttämättä kuitenkaan aina tule kaupungeilta, vaan myös jouk- koistettu OpenStreetMap-palvelu on hyvin suosittu erilaisissa karttatietoja vaativissa so- velluksissa.

Kustannustehokkuutensa vuoksi avoin data on houkutteleva resurssi ohjelmistokehit- täjille. Sen hyödyntäminen ei kuitenkaan tule välttämättä täysin ongelmitta. Kaupallisiin vaihtoehtoihin verrattuna avoin data voi olla usein epätarkempaa, puutteellisempaa, sekä

(19)

sen saatavuudessa voi ajoittain tulla odottamattomia katkoksia. Tästä voi syntyä lisätöitä ohjelmiston kehittäjälle, mutta ongelmille löytyy silti usein järkevä ratkaisu.

Viiteluettelo

Attard, J., Orlandi, F., Scerri, S., & Auer, S. (2015). A systematic review of open govern- ment data initiatives. Government Information Quarterly, 32(4), 399–418.

Berners-Lee, T. (2010). Linked Data. https://www.w3.org/DesignIssues/LinkedData.html Haettu 09.11.2020

Creative Commons (2019). Attribution-NonCommercial 3.0 Unported (CC BY-NC 3.0).

https://creativecommons.org/licenses/by-nc/3.0/. Haettu 13.12.2019.

Díaz, J. J., Mura, I., Franco, J. F., & Akhavan-Tabatabaei, R. (2021). aiRe-A web-based R application for simple, accessible and repeatable analysis of urban air quality data. En- vironmental Modelling & Software, 138.

Grzenda, M., & Legierski, J. (2019). Towards increased understanding of open data use for software development. Information Systems Frontiers, 1-19.

Gustafsson Friberger, M., Togelius, J., Borg Cardona, A., Ermacora, M., Mousten, A., Møller Jensen, M., Tanase, V., & Brøndsted, U. (2013). Data games. In Foundations of Digital Games (FDG), Chania, Crete, Greece (2013) (pp. 1-8). ACM Digital Library.

Helsinki Region Infoshare (2017). Tiedosto vai rajapinta? https://hri.fi/fi/ohjeet/datan- avaajalle/tiedosto-vai-rajapinta/. Haettu 09.12.2019.

Helsinki Region Infoshare (2019). Kategoriat. https://hri.fi/data/group. Haettu 09.12.2019.

Herala, A., Kasurinen, J., & Vanhala, E. (2018). Views on open data business from soft- ware development companies. Journal of theoretical and applied electronic commerce research, 13(1), 91-105.

Iio, J. (2018). Lessons Learned from Data Preparation for Geographic Information Sys- tems using Open Data. In Proceedings of the 14th International Symposium on Open Collaboration (pp. 1-5).

Immonen, A., Ovaska, E., & Paaso, T. (2018). Towards certified open data in digital ser- vice ecosystems. Software Quality Journal, 26(4), 1257-1297.

Juhász, L., Novack, T., Hochmair, H. H., & Qiao, S. (2020). Cartographic Vandalism in the Era of Location-Based Games—The Case of OpenStreetMap and Pokémon GO. IS- PRS International Journal of Geo-Information, 9(4), 197.

(20)

Khayyat, M., & Bannister, F. (2015). Open data licensing: More than meets the eye. In- formation Polity, 20(4), 231-252.

Kulawiak, M., Dawidowicz, A., & Pacholczyk, M. E. (2019). Analysis of server-side and client-side Web-GIS data processing methods on the example of JTS and JSTS using open data from OSM and geoportal. Computers & Geosciences, 129, 26-37.

Lo Duca, A., & Marchetti, A. (2019). Open data for tourism: the case of Tourpedia. Jour- nal of Hospitality and Tourism Technology, 10, 351-368.

Louridas, P. (2006). Soap and web services. IEEE Software, 23(6), 62-67.

Maeda, K. (2012). Performance evaluation of object serialization libraries in XML, JSON and binary formats. In Proceedings of the 2012 Second International Conference on Dig- ital Information and Communication Technology and it's Applications (DICTAP) (pp.

177-182). IEEE.

Neumann, A., Laranjeiro, N., & Bernardino, J. (2018). An analysis of public REST web service APIs. IEEE Transactions on Services Computing, early access.

Ojo, A., Curry, E., & Zeleti, F. A. (2015). A tale of open data innovations in five smart cities. In Proceedings of the 2015 48th Hawaii International Conference on System Sci- ences (pp. 2326-2335). IEEE.

Open Data Barometer (2018). Report – From promise to progress. https://opendataba- rometer.org/leadersedition/report/. Haettu 11.12.2019.

Open Knowledge Foundation (2005). Open Definition 2.1. http://opendefini- tion.org/od/2.1/en/. Haettu 11.12.2019.

OpenCSV (2019). Opencsv Users Guide. http://opencsv.sourceforge.net/. Haettu 14.12.2019.

Pesonen, J., & Lampi, M. (2016). Utilizing open data in tourism. In Proceedings of the ENTER 2016 Conference on Information and Communication Technologies in Tourism (pp. 1-5).

Pokemon GO (2020). Niantic, Inc. https://pokemongolive.com/. Haettu 10.11.2020.

Shafranovich, Y. (2005). Common format and MIME type for comma-separated values (CSV) files. http://tools.ietf.org/html/rfc4180. Haettu 15.12.2019.

Tampereen kaupungin dataportaali (2019). Kategoriat. https://data.tampere.fi/data/group.

Haettu 09.12.2019.

Tihomirovs, J., & Grabis, J. (2016). Comparison of soap and rest based web services using software evaluation metrics. Information Technology & Management Science (Sci- endo), 19(1), 92-97.

(21)

Uber Movement (2019). Uber Technologies, Inc., https://movement.uber.com. Haettu 03.12.2019.

van Stegeren, J., & Theune, M. (2018). Towards generating textual game assets from real- world data. In Proceedings of the 13th International Conference on the Foundations of Digital Games (pp. 1-4).

Vaughan, J. (2019). Data.gov shutdown shows limits of open data. TechTarget.

https://searchdatamanagement.techtarget.com/news/252456184/Datagov-shutdown- shows-limits-of-open-data. Haettu 10.04.2020.

Verma, N., & Gupta, M. P. (2012). Open government data: more than eighty formats. In Proceedings of the 9th International Conference on E-Governance (ICEG 2012) (pp.

207-216), Cochin, Kerala, India.

W3C (2004). Resource Description Framework (RDF): Concepts and Abstract Syntax.

https://www.w3.org/TR/rdf-concepts/. Haettu 10.01.2020

W3C (2008). SPARQL Query Language for RDF. https://www.w3.org/TR/rdf-sparql- query/. Haettu 10.01.2020.

W3C (2014). SPARQL Query Language for RDF. https://www.w3.org/TR/turtle/. Haettu 10.01.2020.

Yi, M. (2019). Exploring the quality of government open data. The Electronic Library.

Viittaukset

LIITTYVÄT TIEDOSTOT

Rajapinnan avulla saadun datan käsittely on vaikein kolmesta jakelutavasta ja dataa voidaan joutua suodattamaan.. Usein rajapinnan käyttöön tarvitaan ohjel- mointitaitoa, mutta

Tärkeä kognitiivinen työkalu visualisaatioiden lukemisessa ja suunnittelussa on hah- montunnistus. Helppo ja käyttökelpoinen hahmontunnistuslaki on läheisyys. Mikäli

Opinnäytetyö käsittelee avoimen datan hyödyntämistä tuotekehittelyssä. Nykypäivän kasvavan informaatiomäärän takia on tärkeää, että avoin data saadaan

(2004, 15) toteavat, julkishallinnollisen datan julkaisuun perustuvia periaatteita voidaan hyödyntää muiden organisaatioiden tapauksessa. Teoria avoimen datan taustalla käydään

Open DaaS -hankkeessa järjestetyt Big Data pilotit eroavat hackathoneista siten, että osallistujaryhmät ovat pienemmät ja idean kehitystyö etenee niissä sy- vällisemmälle

Kuvan alle pyydetään syöttämään koodi 4 numeroa: Väitteet: Kaikki data on mahdollista avata 7 Datan avaaminen voi synnyttää uutta liiketoimintaa 1 Datan avaaminen on vaivalloista

Lisätietoa ja dokumentaatiota Akatemiasammon linkitetyn avoimen datan julkaisusta ja SPARQL-palvelupisteestä löytyy sille luodulta kotisivulta Linked Data Finland -palvelussa

aan toisaalta siksi, että avoimen datan konseptin mukaisesti kirjastojen tuottamia tietoja ja työtä tullaan tulevina vuosina jakamaan ja hyödyntä­. mään kirjastojen