• Ei tuloksia

Tutkimustulosten valossa näyttää siltä, että semanttinen verkko ei tällä hetkellä hyödy avoimesta datasta. Tutkimuksen perusteella avoimen datan laatu viiden tähden asteikolla arvioitaessa on heikohkoa, sillä avoimen datan sivustoilta löytyy keskimäärin kolmen tähden dataa, mikä viisiportaisella asteikolla ei liitä dataa vielä mitenkään osaksi semanttista verkkoa. Kuvan 5 diagrammi portaaleista, joilta eri tähtiluokituksen mukaista dataa on löytynyt kertoo, kuinka vähän semanttista dataa on saatavilla avoimen datan portaaleissa.

Avoimen datan ja semanttisen verkon yhteyden tutkiminen ei ollut ainoa tutkielman tavoite.

Tutkimuksen aikana esiin nousi kolme keskeistä teemaa. Ensimmäinen on avoimen datan käsitteiden käyttö. Olen pyrkinyt tuomaan esiin asiat käsitteiden takaa. Nämä käsitteet tarvitaan, kun tarkastellaan avoimen datan portaaleita, mutta niiden merkitysten määrittäminen on ollut yhtä tärkeää kuin avoimen datan portaaleita arvioiva tutkimus.

Toisena ja tärkeimpänä tutkimuksen kohteena on avoimen datan laatu, jota tutkimuksen kautta selvitän tähtiasteikolla. Tähtiasteikko ei lopulta ole mielestäni ainoa mittari, jolla arvioida sivustojen datajoukkojen laatua.

Kolmantena teemana tutkimusta tehtäessä kiinnittyi huomio itse sivustojen laatuun. Niiden on tarkoitus olla suurien julkisten instituutioiden dataportaaleita, eivätkä nämä instituutiot ole aina tässä onnistuneet.

Käsitteet avoin data, semanttinen data, linkitetty data ja semanttinen verkko liittyvät toisiinsa – mutta kuinka paljon? Näiden käsitteiden avaamisessa ja niiden takana olevien haasteiden selvittämisestä on hyötyä arvioitaessa sitä, miksi avoin data ei tuota enempää semanttisen verkon

Kuva 5: Portaalien määrä 20 tutkitusta, josta on löytynyt ainakin yksi kyseisen luokituksen saanut datajoukko.

dataa. Semanttisen datan ja semanttisen verkon tuottaminen on mittava työ: pelkästään RDF-triplojen tuottaminen ei ole vaativaa, kuten Socrates-sovellus osoittaa automatisoimalla taulukkomuotoisen datan RDF/XML-koodauksen. Sellaisen skeeman tuottaminen, joka käyttää RDFS-määritelyä tai peräti OWL-käsitteitä, on vaativa työ. Semanttisen verkon dokumenttien linkittäminen toisiinsa vaatii laajempaa koordinointia ja haastavampia teknisiä ratkaisuja kuin Excel-tiedoston ladattavaksi saaminen. Semanttisesta datasta semanttiseksi verkoksi tarvitaan vielä syvempää osaamista ja resursseja – erityisesti jos samalla tuotetaan SPARQL-palveluita. CKAN-sovellus yrittää auttaa tässä tarjoamalla SPARQL-kyselyrajapinnan ja triplavaraston. Avoin data on siis hyvin kaukana semanttisesta datasta ja verkosta, näiden välillä on leveä kuilu.

Avoimen datan analysointi paljasti paljon käyttökelpoista ja hyödynnettävää dataa. Tässä tutkielmassa avoimen datan laatua on lähdetty arvioimaan siitä lähtökohdasta, miten se soveltuu osaksi semanttista verkkoa – siitähän neljäs ja viides tähti tulevat. Semanttinen verkko ei ole kuitenkaan ainoa avoimen datan käyttöyhteys. Viiden tähden asteikko ei sovellu hyvin avoimen datan kokonaisuuden analysointiin, koska se ei nosta kahden ja kolmen tähden datan hyötyjä riittävästi esiin. On nähtävä hyödyt avoimesta datasta myös muille kuin semanttisen verkon sovelluksille. Arvioitaessa dataa tästä lähtökohdasta sen laatuun vaikuttaa kolme ensimmäistä tähteä. Laatua tulisi arvioida siis sen soveltuvuudesta yleisesti perinteiseen sovelluskäyttöön eikä yksinomaan semanttisen verkon agenttien käyttöön. Muuta käyttöä on olemassa, ja tämän käytön osalta voidaan arvioida datan laatua toisesta tarkastelukulmasta.

Arvioitaessa datan soveltuvuutta semanttisena datana tai semanttisen verkon käyttöön luokittelu kolmeen kategoriaan on liiaksi rajoittava. Kolmesta viiteen tähteä sisältyy jollakin tavalla semanttiseen verkkoon. Se, linkitetäänkö dataan ja datasta on toki merkittävää, mutta se ei kerro esimerkiksi semanttisesta rikkaudesta mitään. Semanttinen rikkaus syntyy skeeman laadusta, siitä miten laajasti se antaa mahdollisuuden kuvata dataa. Semanttisen rikkauden mahdollistamiseksi eri määrittelyt laajentavat käytettävissä olevaa kuvauskieltä niin, että RDF, RDFS ja OWL mahdollistavat aina laadukkaammat metatietokuvaukset. Semanttisen laadun mittarin täytyy sisältää tällaisten skeemojen laadun arvioinnin. Tällaista pyrkimystä ei vielä ole havaittavissa. Tähtiluokitus kaipaa korjausta, jossa sen ensimmäiset ja viimeiset kategoriat erotetaan toisistaan, ja niiden kohteena olevalle datalle luodaan uudet laatumittaristot.

Avoin data tekee tuloaan, ja se näyttää tulevan nopeasti. Internet on väline, jolla voidaan nopeasti julkaista suuria määriä dataa, ja useat julkiset instituutiot ovat alkaneet näin tehdä. Tällä hetkellä näyttää olevan käynnissä prosessi, jossa tehdään avoimen datan portaaleita, joissa toisaalta on dataa, mutta joihin myös linkitetään sivustoja tai datajoukkoja muilta portaaleilta. Kehitys voi viedä useaan suuntaan. Toisaalta voi syntyä sellaisia portaaleja, joihin tuodaan data-aineistoa ja Socrates-sovellus on tehty tällaiseen tarkoitukseen. Voi syntyä myös portaaleita, joissa listataan avoimen datan lähteitä – joskin portaaliksi kutsuminen tässä tapauksessa on harhaanjohtavaa, kun portaali ei koosta sisältöä vaan toimii linkkiluettelona ja hakemistona. Yleistyykö näistä

lähtökohdista toinen, vai ottavatko eri toimijat eri lähtökohdista erilaiset avoimen datan strategiat?

Olisi hyödyllistä analysoida tähän mennessä kertyneiden kokemusten perusteella eri strategioiden hyödyt ja haitat eri tavoitteisiin nähden. Kolmas lähestymistapa, avoimet rajapinnat, on yksi tässä vertailussa mukaan otettava vaihtoehto – silloin kun se on SPARQL-solmu se täyttää myös semanttisen verkon ehdot. Semanttisen verkon rakentamisen näkökulmasta tärkeä kysymys on, miten instituutiot saadaan tavoittelemaan Berners-Leen asteikon ylimpiä portaita, eikä viiden tähden asteikko ole ainoa eikä välttämättä edes oleellinen tavoitemittari avoimen datan portaaleille.

Valtioilla on motiivi toimia aktiivisesti avoimen datan suhteen. Vaikka väitettä on vielä avoimen datan lyhyen olemassaolon vuoksi vaikea todistaa, on syytä epäillä, että avoimesta datasta voi tulla informaatiotaloudessa valtion menestystä siivittävä tekijä. Avoin data ei ole itseisarvo, vaan sitä hyödyntävät palvelut, kuten sovellukset ja semanttinen verkko, tuottavat lisäarvoa yhteiskunnalle ja siinä toimiville kaupallisille ja ei-kaupallisille tahoille. Laatu, määrä ja lisensointi ovat tässä mielessä keskeisiä laatumittareita.

On olemassa myös avoimen datan käyttöön kannustavia projekteja, kuten mm. Suomessa järjestettävät Apps4-kilpailut (”Apps4Finland”, 2012) tai eurooppalainen Open Data Challenge -kilpailu (Jonathan, 2012). Näissä kilpailuissa, joita järjestetään eri maissa, haastetaan yleisö – lähinnä ohjelmistoalan ammattilaiset – kilpaileman avointa dataa käyttävien sovellusten kehittämisessä. Näiden sovellusten laatu ei ehkä kerro niinkään avoimen datan laadusta, mutta se kertoo siitä laadusta, jota avoimella datalla on saavutettu. Semanttisen verkon hyödyt ovat vielä tuntemattomia. Tärkeintä lopulta on se, minkälaista hyötyä avoimesta datasta seuraa kansalaisille ja yhteiskunnalle.

Viiteluettelo

About W3C. (2012). Retrieved 3, 2013, from http://www.w3.org/Consortium

Ackoff, R. L. (1989). From data to wisdom. Journal of Applies Systems Analysis, 16, 3-9.

Adida, B., Herman, I., Sporny, M. & Birbeck, M. (2012). RDFa 1.1 primer. Retrieved, 2013, from http://www.w3.org/TR/xhtml-rdfa-primer

Anderson, P. (2007). What is web 2.0? ideas, technologies and implications for education. JISC Technology and Standards Watch, 1(1), 4-26.

Anderson, C. (2009). Free: The Future of a Radical Price. Hyperion Books.

Apps4finland 2012. (2012). Retrieved 2013, 3, from http://apps4finland.fi

Atwood, T. (1985). An object-oriented DBMS for design support applications. An Object-Oriented DBMS for Design Support Applications, (Proceedings of the IEEE COMPINT 85) 299-307.

Auer, S., Bizer, C., Kobilarov, G., Lehmann, J., Cyganiak, R., & Ives, Z. (2007). DBpedia: A

nucleus for a web of open data. In K. Aberer, K. Choi, N. Noy, D. Allemang, K. Lee, L. Nixon, . . . P. Cudré-Mauroux (Eds.), The Semantic Web (pp. 722-735). Springer.

Baader, F., Calvanese, D., McGuinness, D., Nardi, D., & Patel-Schneider, P. (2003). The Description Logic Handbook: Theory, Implementation and Applications. Cambridge University Press.

Berners-Lee, T. (1998). Why RDF model is different from the XML model. Retrieved 3, 2013, from http://www.w3.org/DesignIssues/RDF-XML

Berners-Lee, T. (2010). Linked data - design issues. Retrieved 2013, 2, from http://www.w3.org/DesignIssues/LinkedData.html

Bikakis, N., Tsinaraki, C., Gioldasis, N., Stavrakantonakis, I., & Christodoulakis, S. (2013). The XML and semantic web worlds: Technologies, interoperability and integration: A survey of the state of the art. In I. E. Anagnostopoulos, M. Bieliková, P. Mylonas & N. Tsapatsoulis (Eds.), Semantic Hyper/Multimedia adaptation (pp. 319 – 360). Springer, Berlin Heidelberg.

Brickley, D., & Guha, R. V. (2004). RDF schema. Retrieved, 2013, from http://www.w3.org/TR/rdf-schema

Cyganiak, R., & Jentzsch, A. (2011). The linking open data cloud diagram. Retrieved 3, 2013, from http://lod-cloud.net

Daconta, M. C., Obrst, L. J., & Smith, K. T. (2003). The Semantic Web: A Guide to the Future of XML, Web Services, and Knowledge Management. Wiley.

Daniel, J. W. (2002). Current patent practice. Retrieved 3, 2013, from http://www.w3.org/TR/2002/NOTE-patent-practice-20020124

Decker, S., Melnik, S., Van Harmelen, F., Fensel, D., Klein, M., Broekstra, J., . . . Horrocks, I.

(2000). The semantic web: The roles of XML and RDF. Internet Computing, IEEE, 4(5), 63-73.

Derrett, N., Kent, W., & Lyngbaek, P. (1985). Some aspects of operations in an object-oriented database. IEEE Computer Society, 8(4), 66-74.

Gruber, T. (2008). What is an ontology. Encyclopedia of Database Systems.Springer-Verlag.

Gruber, T. (1995). Toward principles for the design of ontologies used for knowledge sharing.

International Journal of Human Computer Studies, 43 (5), 907 – 928.

Haase, P., Broekstra, J., Eberhart, A., & Volz, R. (2004). A comparison of RDF query languages.

The Semantic Web–ISWC 2004, , 502-517.

Hammer, M., & McLeod, D. (1978). The semantic data model: A modelling mechanism for data base applications. Proceedings of the 1978 ACM SIGMOD International Conference on Management of Data, Austin, Texas. 26-36.

Handschuh, S. (2007). Semantic annotation of resources in the semantic web. In R. Studer, S.

Grimm & A. Abecker (Eds.), Semantic Web Services (pp. 135–155). Springer, Berlin Heidelberg.

Hedden, H. (2008, Semantic tagging. Econtent, October 2008, 38–43.

Hendler, J. (2009). Web 3.0 emerging. Computer, 42(1), 111-113.

Heß, A., & Kushmerick, N. (2003). Learning to attach semantic metadata to web services. In D.

Fensel, K. Sycara & J. Mylopoulos (Eds.), The Semantic Web - ISWC 2003 (pp. 258-273).

Springer, Berlin Heidelberg.

Hitzler, P., Krötzsch, M., Parsia, B., Patel-Schneider, P. F. & Rudolph, S. (2012). OWL 2 web ontology language primer. Retrieved, 2013, from http://www.w3.org/TR/owl2-primer

Horridge, M., & Bechhofer, S. (2009). The OWL API: A java API for working with OWL 2 ontologies. Proc.of OWL Experiences and Directions, 2009.

Hyvönen, E., Viljanen, K., Mäkelä, E., Kauppinen, T., Ruotsalo, T., Valkeäpää, O., . . . Kurki, J.

(2007). Elements of a National Semantic Web Infrastructure – Case Study Finland on the Semantic Web. Proceedings of the First International Semantic Computing Conference, Irvine, California.

Jonathan, G. (2012). The open data challenge – organising Europe’s biggest open data competition.

Retrieved 3, 2013, from http://lod2.okfn.org/2012/11/07/the-open-data-challenge-organising-europes-biggest-open-data-competition

Kappel, G., Pröll, B., Reich, S., & Retschitzegger, W. (2006). Web Engineering: The Discipline of Systematic Development of Web Applications, Wiley.

Kashyap, V., & Sheth, A. (1996). Semantic and schematic similarities between database objects: A context-based approach. The VLDB Journal, 5(4), 276-304.

Knublauch, H. (2004). Ontology-driven software development in the context of the semantic web:

An example scenario with Protege/OWL. International Workshop on the Model-Driven Semantic Web, Monterey, CA..

Levy, S. (2001). Hackers: Heroes of the Computer Revolution. (4th ed.) Penguin Books New York.

Maier, D., Otis, A., & Purdy, A. (1985). Object-oriented database development at servio logic.

Database Engineering, 18(4), 58-65.

Manola, F., & Miller, E. (2004). RDF primer. Retrieved, 2012, from http://www.w3.org/TR/rdf-primer

Mathes, A. (2004). Folksonomies-cooperative classification and communication through shared metadata. Computer Mediated Communication, 47(10).

McCorduck, P. (2004). Machines Who Think: A Personal Inquiry into the History and Prospects of Artificial Intelligence, A.K. Peters

Millard, D. E., & Ross, M. (2006). Web 2.0: Hypertext by any other name? Proceedings of the Seventeenth Conference on Hypertext and Hypermedia, 27–30.

Murugesan, S. (2007). Understanding web 2.0. IT Professional, 9(4), 34–41.

Open data. (2013). Retrieved 3, 2013, from http://en.wikipedia.org/wiki/Open_data

Open definition. (2013). Retrieved 3, 2013, from http://opendefinition.org/okd

O'Reilly, T. (2007). What is web 2.0: Design patterns and business models for the next generation of software. Communications & Strategies, (1), 17.

Pipino, L. L., Lee, Y. W., & Wang, R. Y. (2002). Data quality assessment. Communications of the ACM, 45(4), 211–218.

Qin, J., & Paling, S. (2001). Converting a controlled vocabulary into an ontology: The case of GEM. Information Research, 6(2).

Sabou, M., Lopez, V., Motta, E., & Uren, V. (2006). Ontology selection: Ontology evaluation on the real semantic web. In: 15th International World Wide Web Conference (pp. 23-26). Edinburgh, Scotland.

Segaran, T., Evans, C., & Taylor, J. (2009). Programming the Semantic Web O'Reilly Media.

Semantic web stack. (2013). Retrieved 3, 2013, from http://en.wikipedia.org/wiki/Semantic_Web_Stack

Sequeda, J. (2012). Introduction to: RDF vs XML. Retrieved 3, 2013, from

http://semanticweb.com/introduction-to-rdf-vs-xml_b31071

Shadbolt, N., Hall, W., & Berners-Lee, T. (2006). The semantic web revisited. Intelligent Systems, IEEE, 21(3), 96–101.

Spencer, N. (2012). How much data is created every minute? Retrieved 4, 2013, from http://www.visualnews.com/2012/06/19/how-much-data-created-every-minute

Tauberer, J. (2008). What is RDF and what is it good for? Retrieved 3, 2012, from http://www.rdfabout.com/intro

Terzi, E., Vakali, A., & Hacid, M. S. (2003). Knowledge Representation, Ontologies, and the Semantic Web . In ⋆ Web Technologies and Applications: 5th Asia-Pacific Web Conference, APWeb 2003, Xian, China, April 23-25, 2002, Proceedings (Vol. 5, p. 382). Springer.

Underwood, G. J. (2011). Preserving electronic information for future generations. Can.L.Libr.Rev., 36, 112.

Wagner, R. P. (2003). Information wants to be free: Intellectual property and the mythologies of control. Columbia Law Review, 103, 3-22.

Xu, Z., Fu, Y., Mao, J., & Su, D. (2006). Towards the semantic web: Collaborative tag suggestions.

Collaborative Web Tagging Workshop at WWW2006, Edinburgh, Scotland.

Liite 1. Tutkimusaineisto.

#00 Valtion tai instituution nimi.

Sivun ylläpidosta vastaava taho, jos tiedossa.

Sivun osoite.

Julkaistu Julkaisu kuukausi ja vuosi jos tiedossa.

Datajoukkoja Sivustolla oleva datajoukko tai siellä listattu datajoukko. Datajoukon käsite ei ole yksiselitteinen, jolloin annettua lukumäärää on tarkennettu.

Päivitys Päivitys tieheys vapaasti kuvattuna, esimerkiksi usein, kuukausittain, harvoin.

Formaatit Yleisimmät sellaiset tiedostomuodot lueteltu, joilla merkitystä tähdityksessä:

Excel, PDF, SHP, CSV ja XML. API-rajapinta mainittu erikseen, jos sellainen on. Sivustolla voi olla muita verrannollisia tiedostomuotoja, joita ei ole lueteltu.

Keskimääräinen laatu Arvioitu keskimääräinen laatu datajoukkojen tyypin ja määrän mukaan.

Korkein laatu Löydetty korkein laatu.

Lisenssi Avoin, tai jos poikkeuksia, niin mainittu miten poikkeaa.

SPARQL-rajapinta On/Ei ole SPARQL-rajapintaa.

Muita huomioita, kuten käytetty sovellus. Tarkennukset yllä mainittuihin tietoihin. Muuta laadun kannalta olennaista tai erityisiä huomioita.

#01 Maailman pankki

World Bank's Development Data Group data.worldbank.org

Myös muita osoitteita, joissa Maaiman pankin keskeistä dataa:

finances.worldbank.org databank.worldbank.org

Julkaistu 4/2010

Datajoukkoja 1200 indikaattoria (*), 50 datakatalogia (**) Mistä asti dataa Aikasarjoja ainakin 1960 luvulta asti.

Päivitys 1/2013. Aikasarjoja päivitetään säännöllisesti.

Formaatit Excel, CSV, PDF, JSON, XML, API, RDF, SHP

Keskimääräinen laatu ***

Korkein laatu ***

Avoin käyttö, lisenssiä ei erikseen nimetty. Jotkin datajoukot voivat olla toisin ehdoin, mutta toistaiseksi sellaisia ei ole listattuna tätä varten osoitetulla sivulla. Linkit, joiden osoittamilla sivuilla nämä listataan ovat:

http://go.worldbank.org/OJC02YMLA0 http://go.worldbank.org/R6942GMMH0

SPARQL-rajapinta Ei

(*) Indikaattorit ovat tilastotietoja kuten BKT tai lukutaitoisten osuus väestöstä.

(**) Yhdessä datakatalogissa voi olla useita tietokantoja.

(***) Socrata-sovellus käytössä finances-osiossa. Tämä tuottaa RDF/XML-muotoisia dokumentteja. Dokumenteissa on käytössä mm. URI http://finances.worldbank.org/resource/wc6g-9zmq, johon laitamalla päätteeksi.rdf, saa RDF-dokumentin. Siis neljän tähden dataa.

Vain Socrateen “rowId”-rakenne skeema käytössä. Ei todellisia sisällön skeemoja. Ei OWL-kuvauksia.

Data on Maailmanpankin hallinnoimilla sivuilla, pääasiassa kahdella sivulla.

Iso osa sivustolla olevista dokumenteista voi olla koostettu taulukoina saatavasta avoimesta datasta.

Maailman pankki kerää globaalia tilastollista dataa ja julkaisee sitä eri formaateissa. Tarjolla on myös Excel-, PDF-, RDF- tai CSV-muotoisia raportteja generoiva verkkotyökalu. Työkalut eivät aina toimi, linkit eivät kaikki toimi.

Yhteenvetona, Maailmanpankin vahvuus on Socrates -ovelluksen käytössä, jossa on hyödynnetty RDF-dokumentiin linkittäminen. Siksi Maailmanpankkilla on myös neljän tähden dataa, vaikka useimmat datat ovat kahden tai kolmen tähden dataa.

**** Ei

“The European Commission Data Portal provides access to open public data from the European Commission. It also provides access to data of other Union institutions, bodies, offices and agencies at their request.”

Eurostat 5600 datajoukkoa, eli portaaliin on pääosin tuotu tilastodataa eurostatilta. Datajoukot ovat ***-laatua.

(*) Sisältää CKAN-sovelluksen SPARQL-integraation, joka tarjoaa linkitettyä dataa. Se antaa kuvaukset datajoukoista RDF-muodossa.

RDF-esimerkki: http://open-data.europa.eu/open-data/data/dataset/zOMHvCgeFXW4I8vnOlekyA.rdf.

Kuvaa yhden datajoukon, joka voidaan hakea pakattuna zip-tiedostona:

https://circabc.europa.eu/d/a/workspace/SpacesStore/e383ce72-ce09-408a-abe2-783d38b33d83/AgriculturalVegetableCatalogue.zip

Kuvattuun datajoukkoon näyttäisi olevan tarkoitus linkittää. Linkit ovat rikki, mikä tekee siitä 3 tähden dataa.

Kuvaus sisältää ontologian http://ec.europa.eu/open-data/ontologies/ec-odp käytön ja se käyttää myös Dublin Core -laajennusta.

Itse datajoukosta ei ole linkityksiä muualle. Siihen on rikkinäiset linkit.

Kaikki 11 RDF-datajoukkoa ovat samasta lähteestä, jokin eu virasto joka toimii ruokaturvallisuuden parissa. Kaikki data on .zip-tiedostoissa, mikä tarkasti ottaen tekisi tästä datajoukosta yhden tähden dataa.

CKAN-sovellus.

Yhteenvetona open-data.europa.eu on lähinnä eurostatin datajoukkojen varassa. Muista datajoukoista food&health RDF-datat ovat lupaavia, mutta koska ne eivät ole linkitettyä dataa, niin niille annetaan kolme tähteä. Portaaliin tulee kuitenkin jatkuvasti uusia datajoukkoja. Sitä seikkaa, että CKAN-sovellus tarjoaa RDF-muotoisia kuvauksia

datajoukoista, ei lueta sivuston datajoukkojen laaduksi; nämä kuvaukset ovat neljän tähden dataa.

#03 PublicData.eu

Formaatit Excel, CSV, RDF, TXT, HTML, PDF, ja monet muut formaatit

Keskimääräinen laatu ? (1)

Korkein laatu ***** (2)

* On

** On

*** On

(2) RDF datajoukkoja Britanniasta, Italiasta ja Hollannista. Määrä kasvoi tutkimuksen aikana. Suurin osa on Iso-Britannian avoimen datan portaalista.

Kerää dataa eri lähteistä Euroopan Unionin alueella. EU-rahoitteinen: http://ckan.org/case-studies/publicdata-eu.

Linkit rikki, tulee http-autentikaatio haettaessa joitain datajoukkoja.

RDF tehdään joissain tapauksissa csv2rdf-muuntimella, joka tuottaa N-Triples -koodauksen. Linkit eivät näytä johtavan mihinkään.

Ei voida selvittää linkitystä rikki olemista RDF-settiin tai setistä.

Muutamia RDF-settejä tarjotaan SPARQL-solmun kauttaa, jolloin ne ovat linkitettäviä. Näitä on esimerkiksi Italian kohdalla; Italian avoin portaali jätettiin tutkimuksesta pois, sillä se oli erittäin vaikeasti arvioitavissa ja sisälsi paljon rikkinäisiä linkkejä.

Yhteenvetona: Tämä palvelu ei tarkoa omaa dataa vaan yrittää olla katalogi useaan eurooppalaiseen avoimen datan lähteeseen. Tämä palvelu koostaa siis dataa ja Euroopan Unionin alueella ja sen perusteella voisi tutkia datan laatua Euroopan Unionin alueella – jos se olisi siitä kattava oton, mitä se ei ole.

#04 Yhdistyneet Kansakunnat (YK)

The United Nations Statistics Division (UNSD) of the Department of Economic and Social Affairs (DESA) data.un.org

Julkaistu 2/2008

Datajoukkoja 34 databases - 60 million records

Viimeisin päivitys 1/2013

Lisenssi All data and metadata provided on UNdata’s website are available free of charge and may be copied freely, duplicated and further distributed provided that UNdata is cited as the reference.

SPARQL-rajapinta Ei

“For the time being we are not planning to implement other web services or RDF format for download as we do not have enough capacity and resources for this.”

Jokin oma sovellus. Sovelluksen avulla saa ladattua hakutuloksen CSV- ja XML-muodossa. Palvelussa ei siis ole kuin yhden tähden dataa.

(*) Ladattua saa kolmen tähden dataa, mutta koska lataukseen ei ole suoraa linkkiä ja data pakataan zip-tiedostoksi, se ei tiukasti arvioiden ole kolmen tähden dataa.

#05 Yhdysvallat

Hosted by the General Services Administration data.gov

Julkaistu 5/2009

Datajoukkoja 378,529 raw and geospatial datasets. Iso osa linkkejä muualle.

Päivitettävä Päivitetään.

Lisenssi Lisenssitietoja ei sivustolla. Viitataan aineiston lähteeseen.

SPARQL -rajapinta Ei.

Socrates. Lähinnä vain linkitettyjä datajoukkoja– 25 datajoukkoa itse Socrates-sovelluksessa.

Geodatalle oma osio.

(*) Paljon RDF/XML-muotoon talletettua semantista dataa ilman linkityksiä.

(**) Linkitettynä Socraten kautta neljän tähden dataa.

(***) Datajoukokja on valtava määrä ja siinä voi olla viiden tähden dataa. Monesti linkitettynä on RDF-dokumentti;

mm. 2.3Gt työttymyysdata. Socrates voi tuottaa RDF-joukkoja, mutta itse Socratesissa on vain muutama kymmenen settiä. Näistä ei löytynyt ulos linkittäviä joukkoja.

#06 Uusi-Seelanti

Formaatit API, CSV, Excel, PDF, XML, SHP, KML, Image

Keskimääräinen laatu ***

Korkein laatu ***

* On.

** On.

*** On.

**** Ei.

***** Ei.

Lisenssi Creative Commons Attribution 3.0 New Zealand licence ja erilaisia versioita CC-lisensseistä. Joitakin epäselviä lisenssejä.

SPARQL-rajapinta Ei

Paljon karttakuvia ja karttatietoja (useita satoja datajoukkoja). Tilastodata PDF- ja Excel-muodossa (noin 100 settiä) Oma sovellus.

#07 Tsekki

Charles University in Prague; University of Economics, Prague opendata.cz

Lisenssi Ei tietoa. [OpenData] logo sivuilla. Osassa silti “License Not Specified”.

SPARQL -rajapinta On.

(*) Muutama SPARQL-kyseltävä RDF-dokumentti.

CKAN-sovellus. On palveluna ckan.net osoitteessa. SPARQL-solmu löytyy opendata.cz sivulta.

Kieli tsekki.

Formaatit CSV, XML, Excel, PDF, HTML, RDF

Keskimääräinen laatu ***

Lisenssi UK Open Government Licence (OGL) 75% datajoukoista

Muu lisenssi, joka rajoittaa käyttöä. 25% datasjoukoista.

SPARQL-rajapinta Ei

RDF-data on organisaatioista ja näiden palkkatiedoista. Erityisesti henkilöt on pyritty kuvaamaan osin FOAF-skeeman mukaisin tiedoin.

CKAN-sovellus, mutta portaalissa paljon muutakin sisältöä. Mm. sovelluskehitykselle on oma osio.

Linked Data -linkki ei johda CKAN-sovelluksen Virtuoso -kyselylomakkeelle, vaan kertoo Linked Data-projektista.

Sitä hoitaa oma työryhmä : http://data.gov.uk/linked-data/UKGovLD.

Sivustolla luokitellaan viiden tähden kategorisoinnilla data; annetaan datajoukolle “Openness score”. Sen mukaan RDF-joukkoja on seuraavasti: nollan tähden joukkoja lisenssoinnin tai epämääräisten tietojen mukaan on 42 kappaletta, kolmen tähden RDF dataa 53 joukkoa, neljän tähden dataa ei ole ja viiden tähden joukkoja on 96 kappaletta.

#09 Kanada

?

data.gc.ca

Julkaistu 9/2012

Datajoukkoja 12764 (8800 tilastolaitokselta ja 3000 maatalousministeriöltä) Geospatiaalisia 260296

Lisenssi Government of Canada Open Data Licence Agreement

SPARQL-rajapinta Ei

Oma sovellus.

Ainoa RDF-datajoukko on sanakirja-ontologia.

Formaatit XLS (294 000 datajoukkoa), CSV, ODF, XML, SHP, RDF

Formaatit XLS (294 000 datajoukkoa), CSV, ODF, XML, SHP, RDF