• Ei tuloksia

Tutkimusdatan avaamisen esteet: haastattelututkimus Helsingin yliopistossa näkymä

N/A
N/A
Info
Lataa
Protected

Academic year: 2022

Jaa "Tutkimusdatan avaamisen esteet: haastattelututkimus Helsingin yliopistossa näkymä"

Copied!
5
0
0

Kokoteksti

(1)

Tutkimusdatan avaamisen esteet:

haastattelututkimus Helsingin yliopistossa

Juuso Ala-Kyyny & Tuija Korhonen & Markku Roinila

Tiedepolitiikan ja rahoittajien linjauksissa on korostettu yhä enemmän tutki- musaineistojen avointa saatavuutta. EU:n Horisontti 2020 -ohjelma edellyttää aineiston avaamista ja Suomen Akatemia vaatii rahoitushakemuksissa aineis- tonhallintasuunnitelmaa. Myös monet julkaisijat vaativat yhä useammin tutki- musdatan liittämistä artikkeleihin. Avoimuuden vaatimus tieteessä ei toki ole uusi keksintö, tietotekniikan kehitys vain tarjoaa sille uusia käytännön sovellu- tuksia. Mutta millaisia edellytyksiä tutkimusdatan avaamiseen ja jakamiseen käytännössä tällä hetkellä on? Tässä artikkelissa esiteltävä Helsingin yliopis- tossa tehty selvitys osoittaa, että nykyinen tutkimuskulttuuri ei ehkä kaikilta osin ole vielä valmis datan avaamiseen. Erityisenä ongelmana nousee esiin metadatan puutteellisuus.

S

uomen yliopistot saivat keväällä 2017 opetus- ja kulttuuriministeriöltä (OKM) selvityspyyn- nön, joka koski tutkijoiden arvokasta tutkimuk- sen seurauksena syntyvää dataa ja sen siirtoval- miutta pitkäaikaissäilytykseen. Siirtovalmiudel- le tarkoitamme tässä yhteydessä sitä, että tutki- muksessa syntynyt data on varustettu tarpeellisel- la metadatalla, jolloin sitä voidaan nimittää tut- kimusaineistoksi. Selvityspyynnön taustalla on OKM:n vuosia valmistelema tutkimusaineisto- jen kansallinen pitkäaikaissäilytyspalvelu T-PAS (ks. Opetusministeriö 2008; Tutkimus-PAS-työ- ryhmä 2017). Selvityksen tavoitteena oli saada kuvaa T-PAS-palveluun tarjottavien aineistojen määrästä ja laadusta.

Selvityspyyntö on kiinnostava myös Helsin- gin yliopiston (HY) näkökulmasta. Sen panos- tus tutkimusdatan hallintaan on kasvanut pari vuotta sitten hyväksytyn tutkimusdatapolitiikan myötä (ks. Helsingin yliopisto 2015). Tästä on osoituksena Mildred-projekti, jossa rakennetaan tutkimusdatan hallinnan infrastruktuuria HY:n tutkijoille (ks. Project Mildred 2017). OKM:lle

tehtävä selvitys voidaan nähdä siis osana laajem- paa tutkimusaineistoihin ja avoimeen tieteeseen liittyvää palvelukehitystä HY:ssä.

Tutkimuksen toteutus

Selvitystyön toteutti Helsingin yliopiston kirjas- ton tutkimuksen palveluiden työryhmä, johon kuuluivat tietoasiantuntija Mari Elisa Kuusnie- mi (työn ohjaaja) ja tietoasiantuntijat Juuso Ala- Kyyny, Tuija Korhonen ja Markku Roinila. Tut- kimusmenetelmäksi valittiin haastattelut, koska kevättalvella 2017 toteutettu kyselytutkimus ei tuottanut tulosta.

Haastattelut toteutettiin kesällä 2017. Haas- tateltavina oli tiedekuntien dekaaneja ja tutki- muksesta vastaavia varadekaaneja sekä tutkijoi- ta, tutkimuskoordinaattoreita ja tutkimuslaitos- ten edustajia. Eri tieteenaloilta oli haastateltavia suunnilleen samassa suhteessa kuin HY:ssä on tutkijoita eri aloilla. Kaikkiaan tehtiin 30 haas- tattelua neljällä HY:n kampuksella: keskustassa (11 haastattelua), Kumpulassa (6), Meilahdessa (7) ja Viikissä (5). Kampusjako on olennainen,

(2)

koska se ilmentää tieteenalaeroja, jotka vaikut- tavat tutkimusaineistoihin: keskustassa ovat yh- teiskunnalliset ja humanistiset tieteet sekä teolo- gia, Kumpulassa matematiikka ja luonnontieteet, Meilahdessa lääketieteet ja Viikissä maatalous- ja metsätieteet, bio- ja ympäristötieteet, eläinlääke- tiede ja farmasia.

Keskitymme tässä artikkelissa haastatteluissa kartoitettuihin aineistonhallinnan yleisiin ky- symyksiin: Miten eri tieteenaloilla tunnistetaan arvokas data? Miten sitä säilytetään ja miten se on kuvailtu? Millaisia mahdollisuuksia tai estei- tä tutkimusdatan jatkokäytölle on? Kysymysten taustalla voi nähdä ajatuksen avoimesta datasta, ja olennaista onkin pohtia, miten hyvin nykyi- set aineistonhallinnan käytännöt palvelevat tut- kimusdatan jakamista, uudelleen- ja jatkokäyt- töä. Haastatteluissa kysyttiin myös tutkijoiden näkemyksiä datan arvon määrittämisestä, mut- ta se jää laajuutensa vuoksi toiseen yhteyteen.

Emme myöskään puutu suunnitellun pitkäai- kaissäilytyksen käytäntöihin asian keskeneräi- syyden vuoksi.

Käsitys tutkimusdatasta eri tieteenaloilla

Haastattelujen alussa muodostettiin kuva haasta- teltavan edustaman tieteenalan tutkimusdatasta.

Jo tämä alustava kartoitus toi esiin tieteenalakoh- taisia eroja haastateltavien välillä, ja erot koros- tuivat, kun tarkasteltiin säilyttämisen arvoisia ai- neistoja. Tulos ei sinänsä yllättänyt: tieteenaloil- la, joilla tutkimustyö tuottaa paljon dataa, käsi- tys oman alan tutkimusdatasta oli parempi kuin aloilla, joissa ei tiedosteta, että tutkimus tuottaa tutkimusjulkaisun lisäksi myös dataa.

Keskustakampuksen tieteenaloilla datan säi- lyttämistarve liittyi usein historiallisen muistin vaalimiseen tai yhteiskunnalliseen merkitykseen.

Muilla kampuksilla taloudelliset sekä terveyteen (Meilahti) liittyvät arvot tulivat voimakkaasti edellä mainittujen rinnalle. Yleisesti ottaen säi- lyttämisen arvoiseksi mainittiin laajat pitkän ai- kavälin kattavat analogiset ja digitaaliset aineis-

tot sekä kansainväliset ja kalliilla rahalla toteutet- tujen tutkimusten aineistot.

Meilahden, Kumpulan ja Viikin kampuksil- la tutkimuksesta syntyi lähinnä erityyppistä raa- kadataa tai siitä johdettua dataa (mm. analyysi- data). Humanistis-yhteiskuntatieteellisesti pai- nottuneen keskustakampuksen ero kovia tieteitä edustaviin kampuksiin oli selvä. Keskustan haas- tatteluissa säilyttämisen arvoisia aineistoja poh- dittiin usein vasta haastattelutilanteessa – osa haastateltavista koki, että näillä tieteenaloilla ei edes tuotettaisi tutkimusdataa. Keskustakampuk- sen sisällä oli toki myös huomattavia eroja. Esi- merkiksi suomen kielen oppiaineessa oli tark- ka kuva säilyttämisen arvoisista kieliaineistoista.

Käytettävissä olevat säilytysratkaisut vaikut- tivat käsitykseen tutkimusaineistoista. Suomen kielen oppiaineen kieli- ja murreaineistot tarjo- avat jälleen hyvän esimerkin: ne tunnettiin kes- kimääräistä paremmin, koska niille on säilytys- paikka FIN-CLARIN-konsortion ylläpitämäs- sä Kielipankissa.

Säilytysratkaisujen ohella kansainvälinen tutki- musyhteistyö oli yleensä merkki siitä, että myös käsitys alan tutkimusaineistoista oli keskimää- räistä paremmalla tasolla. Esimerkiksi Kumpu- lan kampuksella on useita kansainvälisesti mer- kittäviä tutkimusaineistoja, joita säilytettiin osin Suomen ulkopuolella. Biogeotieteissä on nisäk- käitä koskeva havaintoaineisto (NOW-tietokan- ta), tähtitieteessä Planck- ja Euclid- tutkimus- hankkeiden aineisto (Euroopan avaruusneuvos- to ESA) ja fysiikan CMS-kokeessa syntyvä ai- neisto (Euroopan hiukkasfysiikan tutkimuskes- kus CERN).

Puutteellinen metadata pitkäaikaissäilytyksen kompastuskivenä

Kaikilla tieteenaloilla tutkimusdatasta vastaavat pääsääntöisesti tutkijat tai tutkimusryhmät it- se. Keskustakampuksella joillakin tieteenaloilla on tehty sopimuksia tutkimusdatan käsittelys- tä, mutta useimmiten sen luovuttamisesta vas-

(3)

taa alalla vallitsevan käytännön mukaan vastuul- linen tutkija.

Digitaalisia aineistoja säilytetään vaihtelevan huolellisesti, mm. koneiden kovalevyillä, hen- kilökohtaisilla verkkolevyillä, yliopiston yhteis- käytössä olevilla verkkolevyillä, pilvipalvelimilla, muistitikuilla, ulkoisilla kovalevyillä ja biopan- keissa (Kumpulan ja Meilahden kampus). Joille- kin tutkimusaineistoille on olemassa joko sovit- tu pitkäaikaissäilytysratkaisu tai suunniteltu rat- kaisu, mikäli ao. instituutiot (kuten Kansallisar- kisto tai Tietoarkisto) ottavat aineiston vastaan.

Suurin osa tutkimusdatasta sijaitsee Kumpu- lan, Meilahden ja Viikin kampuksilla, mutta myös keskustakampukselta sitä löytyy jonkin verran. Keskustakampuksella ja Meilahden kam- puksella suuri määrä aineistosta on analogisessa muodossa, mutta sitä löytyy jonkin verran myös Viikistä ja hieman Kumpulasta. Tällaisia ovat mm. biopankkinäytteet, kasvinäytteet, litteroidut haastattelut, esineet ja VHS-nauhat. Useimmat haastateltavat katsoivat, että analogisen aineiston voi hävittää, jos aineisto digitoidaan. Samalla tuli kuitenkin ilmi, että hävittämiskäytäntöjä on vie- lä kehitettävä siten, että tutkimusdatan sensitiivi- syys otetaan huomioon.

Digitaalinen data on useimmilla keskustakam- puksen tieteenaloilla yleisesti käytössä olevissa tie- dostomuodoissa, mutta Meilahdessa ja Viikissä on jonkin verran laiteriippuvaista dataa ja kaikil- ta kampuksilta löytyy jonkin verran ei-standarde- ja tiedostoformaatteja.

Metadata oli haasteellinen asiakokonaisuus monille haastatelluille. Siitä oltiin eniten tietoi- sia aloilla, joilla on muodostettu selkeät säilyttä- misratkaisut. Monet kyllä tunnistivat sisällönku- vailun tärkeyden ja paikoin toivottiin koulutus- ta asian suhteen, jotta tutkijat voivat liittää me- tadatan tutkimusmateriaaliin tutkimuksen ku- luessa. Useimmiten metadatan muodostaminen nähtiin kuitenkin joko ylimääräisenä työnä jo- hon ei ole aikaa tai tehtävänä, joka on jonkun muun kuin tutkijan itsensä, kuten tutkimusavus- tajan, vastuulla.

Haastatteluissa tuli selvästi esiin, että metada- ta onkin enimmäkseen hyvin puutteellista eikä sen tuottamiseen tai parantamiseen ole resursse- ja. Lisäksi pitkäaikaissäilytykseen luovutusta var- ten tarvitaan resursseja analogisen aineiston digi- toimiseen ja digitaalisen datan siivoamiseen. Osa näistä digitoimistarpeista on kiireellisiä, sillä eri- tyisesti Viikissä oltiin huolestuneita aineiston ka- toamisesta tutkijoiden eläköitymisen yhteydessä.

Dokumentoinnin puutteellisuus nousee toden- näköisesti kynnyskysymykseksi, kun aineistoa va- litaan T-PAS-palveluun. Aineistot joissa metadata on kunnossa, ovat jo pääosin muualla pitkäaikais- säilytyksessä. Haastatteluissa tuli myös esiin usei- ta tapauksia, joissa tutkija katsoi aineiston olevan siirrettävissä, mutta myöhemmin selvisi, että sen sisällönkuvailu vaatii vielä töitä.

Jatkokäytön haasteita

Tutkimusdatan sensitiivisyys korostui Meilahden kampuksen aineistojen kohdalla. Lääke- ja terve- ystieteessä ollaan hyvin tietoisia siitä, että arka- luontoisia henkilötietoja on käsiteltävä eettisesti jo lainsäädännöllistäkin syistä. Niitä säilytetään- kin lukittujen ovien takana tai suljetussa verkos- sa salasanojen takana. Sensitiivisyyden takia tut- kimusaineiston anonymisoinnissa on haasteita.

Esimerkiksi Meilahdessa on aineistoa, josta hen- kilön voi tunnistaa sadan prosentin varmuudel- la ja sen käsittelyyn on mietitty ratkaisuja mm.

tulevan Genomikeskuksen yhteydessä (ks. STM tiedote 49/2016).

Keskustakampuksella sensitiivistä dataa on lä- hinnä tutkijan muistelmissa ja haastatteluaineis- toissa. Joillakin aloilla anonymisointi voi olla no- peaakin, mikäli datan rakenne on selkeä ja ni- met esiintyvät vain tietyissä kohdisssa. Konteks- tin poistaminen voi toisaalta vähentää aineiston tieteellistä arvoa: jos lupa säilyttämiseen on pyy- dettävä jokaiselta aikoinaan haastatellulta, aineis- ton kattavuus voi kärsiä.

Kumpulassa ja Viikissä ei juuri ole sensitiivis- tä dataa, mutta usein tutkijat haluavat pitää da- tan vain omassa käytössään siihen asti, kun tutki-

(4)

mus on tehty ja julkaisu ilmestynyt. Joillakin tut- kimusaloilla, kuten metsäntutkimuksessa ja lää- ketieteessä, on patentteihin liittyviä suoja-aikoja tutkimusdatan avaamiseksi.

Monilla tieteenaloilla tutkimusdata haluttiin pitää käytettävissä, vaikka se siirrettäisiin pitkäai- kaissäilytykseen, sillä se on tutkijalle edelleen re- levanttia tutkimusmateriaalia. Kumpulan, Mei- lahden ja Viikin kampuksilla tutkijat olivat hyvin tietoisia siitä, että tutkimusdataa vaaditaan yhä enenevissä määrin avoimiksi, esimerkiksi julkai- sujen yhteydessä. Tähän suhtauduttiin periaat- teessa myönteisesti ja nähtiin, että vanhasta ai- neistosta voi tulevaisuudessa saada irti uutta tie- toa. Humanistis-yhteiskuntatieteellisillä aloilla nähtiin julkaisut avoimen tieteen keskeisimmäk- si muodoksi. Haastatteluissa kävi myös ilmi, että tutkimusaineiston pitkäaikaissäilytys ei ollut kai- kille tutkijoille selvä käsite ja sen määrittelyä pyy- dettiin usein selittämään.

Loppupäätelmät

Haastattelututkimus osoitti, että tutkimusdatan avaaminen ja jatkokäytön huomioiminen, omaa tai oman tutkimusryhmän tutkimustyötä laajem- massa mielessä, edellyttää nykytilanteessa useim- miten ulkoista painetta. Aineistonhallintaa edes- auttaa, jos säilytysratkaisu on olemassa – ja jos säilytykseen siirtoa varten on olemassa vakiintu- neet toimintatavat.

Kun julkisin varoin tuotettu tutkimusdata ha- lutaan avata muiden tutkijoiden ja aktiivisten kansalaisten käyttöön, sen kuvailuun ja metada- taan on kiinnitettävä paljon nykyistä enemmän huomiota. Siihen tarvitaan koulutusta, välineitä ja sopivia kannustimia. Tämä oli selvityksemme tärkein havainto. Jo etukäteen oli tiedossa, että aineistonhallinnassa ja metadatassa on puuttei- ta, mutta puutteiden laajuus tieteenalasta riippu- matta yllätti selvityksen tekijät. Tutkimusaineis- ton elinkaariajattelu ei selvityksen valossa näytä kovin keskeiseltä osalta tutkimuskulttuuria.

Selvityksen tulokset ovat samansuuntaisia kuin kymmenen vuoden takaisessa Sami Borgin ja

Arja Kuulan (2007, 70) raportissa, joka koski OECD:n datasuositusten toimeenpanomahdol- lisuuksia Suomessa: ”Yli puolet professoreista ko- ki sähköisten aineistojen jatkokäytön tärkeäksi es- teeksi sen, että aineistojen tietosisällöt ja tiedos- tot ovat puutteellisesti dokumentoituja. Noin jo- ka toinen arvioi aineistojen avoimuudessa haitak- si sen, että tutkijoiden työaikaa menisi vanhojen aineistojen muokkaamiseen käyttökelpoisiksi.”

Myös HY:n selvityksessä tutkijat kokivat doku- mentoinnin resurssikysymyksenä, ja tutkimusai- neiston kuvailu nähtiin ylimääräisenä työnä, jo- ka tulee varsinaisen tutkimus- ja julkaisemistyön päälle. Moni tutkija katsoi, että tämä voidaan jät- tää esimerkiksi tutkimusavustajan tai opiskelijan vastuulle. On kuitenkin huomattava, että do- kumentointi kuuluu olennaisesti tutkimusdatan hallintaan ja sen voi tehdä luotettavasti vain tut- kija itse ja nimenomaan tutkimusprosessin aika- na – jälkikäteen työ on paljon vaikeampaa ja tu- lokset ovat huonompia, sillä konteksti on jo hä- märtynyt ja yksityiskohdat ovat osin unohtuneet.

Tämän oli oivaltanut vain muutama tutkija.

Mielestämme selvitys osoittaa, että tutkimus- datan avaamisen esteiden raivaamiseksi tutkijoi- den olisi omaksuttava uudenlainen toimintakult- tuuri, jossa tutkimusdatan dokumentointi aloi- tetaan heti tutkimusprosessin alkaessa. Kirjastot voivat tarjota metadatan muodostamiseen apua ja koulutusta, mutta tutkimusdatan dokumen- tointi on nähtävä kiinteänä osana tutkimuspro- sessia, joka kuuluu tutkijan vastuulle.

Lähteet:

Borg, Sami & Arja Kuula (2007). Julkisrahoitteisen tut- kimusdatan avoin saatavuus ja elinkaari. Valmistelu- raportti OECD:n datasuosituksen toimeenpanomah- dollisuuksista Suomessa. Tampereen yliopisto. Yh- teiskuntatieteellisen tietoarkiston julkaisuja; 6. Saa- tavana verkossa: <http://www.fsd.uta.fi/fi/julkaisut/

julkaisusarja/FSDjs06.html> [viitattu 20.11.2017].

Helsingin yliopisto (2015). Tutkimusdatapolitiikka.

Helsingin yliopiston tutkimusdatapolitiikka, hyväk- sytty 11.2.2015. Saatavana verkossa: < http://www.

helsinki.fi/kirjasto/fi/avuksi/

tutkimusdatan-hallinta/tutkimusdatapolitiikka/> [vii- tattu 17.11.2017].

(5)

Opetusministeriö (2008). Sähköisen aineiston pitkä- aikaissäilytystä ja käyttöä koskevan työryhmän muis- tio. Opetusministeriön työryhmämuistioita ja selvi- tyksiä 2008:2. Helsinki: Opetusministeriö, Koulutus- ja tiedepolitiikan osasto. Saatavana verkossa: <https://

julkaisut.valtioneuvosto.fi/

handle/10024/79392> [viitattu 17.11.2017].

Project Mildred (2017). Mildred-projektin blogisi- vusto. Saatavana verkossa: <http://blogs.helsinki.fi/

mildred/> [viitattu 20.11.2017].

Sosiaali- ja terveysministeriön tiedote 49/2016; http://

stm.fi/artikkeli/-/asset_publisher/genomikeskus-tuo- perimasta-saatavan-tiedon-osaksi-terveydenhuoltoa.

Tutkimus-PAS-työryhmä (2017). Tutkimusaineisto- jen tiedostomuodot ja pitkäaikaissäilytyskelpoisuus.

Avoin tiede ja tutkimus -hankkeen selvityksen lop- puraportti 10.2.2017. Saatavana verkosta: < https://

avointiede.fi/documents/10864/12232/

Tutkimusaineistojen_tiedostomuodot_loppuraportti.

pdf/24557e81-f504-4383-9a27-304e09b27e94> [viitat- tu 23.11.2017].

Tietoa kirjoittajista:

Juuso Ala-Kyyny, tietoasiantuntija Helsingin yliopiston kirjasto juuso.ala-kyyny@helsinki.fi Tuija Korhonen, tietoasiantuntija Helsingin yliopiston kirjasto tuija.korhonen@helsinki.fi Markku Roinila, tietoasiantuntija Helsingin yliopiston kirjasto markku.roinila@helsinki.fi

Viittaukset

LIITTYVÄT TIEDOSTOT

Haastatteluissa tuli vaikutelma, että kaikki haastateltavat eivät välttämättä tarkalleen tienneet mitä heidän kaverinsa kuuntelivat, mutta se näytti olevan itsestään

Myös haastatteluissa tuli esiin, että opettajat kokivat, että heidän koulunsa on moninaisuuden suhteen eri- tyinen verrattuna muihin lähialueen yläkouluihin, sekä siten, että

Heidi Haapoja-Mäkelä (FT, MuM) on folkloristiikan post doc -tutkija, joka työskentelee Helsingin yliopistossa Koneen säätiö rahoittamassa ”Omistajuus, kieli, kulttuuriperintö

Kuten Ari Lehtinen puheenvuorossaan toteaa, seura ja sen julkaisema aikakauslehti toimivat tut- kijakouluna jo ennen kuin sellaisia oli varsinaisesti keksitty Suomessa tarvita..

katsoi poliittisen tilanteen olevan sellaisen, että tämä ehdotus voisi herättää ristiriitoja. Ehdotus sai sillä kertaa raueta. Kymmencn vuotta myöhemmin,

Kun tähän lisätään vielä se, että Suomessa on usei- ta nimekkäitä monitavoitteisen metsäsuunnittelun tutkijoita, jotka ovat niittäneet mainetta etenkin menetelmien

Har- joitustyöt ovat usein melko työläitä, mutta näistä on yleensä myös eniten hyötyä myöhemmin työelämässä.. Todellisten ongelmien ratkaiseminen vaatii soveltamis- ta

ja vielä ja vielä jaksetaan jaksetaan tehdä töitä tehdä töitä.. Onnea perjantaille