• Ei tuloksia

Miksi valtava datamäärä tuottaa niin vähän tietoa?

N/A
N/A
Info
Lataa
Protected

Academic year: 2022

Jaa "Miksi valtava datamäärä tuottaa niin vähän tietoa?"

Copied!
2
0
0

Kokoteksti

(1)

338

P u h e e n v u o r o

SOSIAALILÄÄKETIETEELLINEN AIKAKAUSLEHTI 2014: 51 130–131

Miksi valtava datamäärä tuottaa niin vähän tietoa?

Olen saanut 1970-luvun oloissa parhaan mahdol- lisen tilastotieteellisen koulutuksen professorien Leo Törnqvist ja Seppo Mustonen oppilaana. Ti- lastollinen tutkimus erilaisten ilmiöiden keskinäi- sistä riippuvuuksista oli silloin paljolti käsityötä.

Dataa oli käytettävissä niukasti ja siksi vähistä tiedoista oli otettava kaikki irti. Professori Törn- qvist opetti aloittamaan tutkimuksen aina lyijy- kynän ja millimetripaperin kanssa. Jokainen ha- vainto merkittiin paperille, jotta ymmärrettäisiin, millaista dataa käsitellään. Seppo Mustosen kehittämä Survo-ohjelma lisäsi tässä tuottavuutta monikymmenkertaisesti, kun saman pystyi teke- mään tietokoneen näytöllä. Dataa piti usein kor- jata, koska tiedoissa oli virheitä tai johonkin ha- vaintoon liittyi jokin poikkeuksellinen seikka. Jos esimerkiksi halusi selvittää junalippujen hinnan vaikutusta junalla matkustamisen suosioon, ei ollut järkevää ottaa aineistoon havaintoa ajalta, jolloin junat seisoivat lakon takia.

Professori Törnqvist korosti käytettävän mal- lin järkevyyttä. Ei ollut mieltä käyttää lineaarista mallia tilanteessa, jossa riippuvuus ei voinut olla lineaarista. Pahinta mitä saattoi tehdä, oli ”di- mensiovirhe”, jossa tulos muuttuisi toiseksi, jos esimerkiksi pituutta mitattaisiin metrien sijasta jalkoina.

Tiesimme, että uusi aika tehokkaine tietoko- neineen ja suurine datamäärineen oli tulossa.

Tämä tulisi merkitsemään jättiharppausta yhteis- kunnallisten ilmiöiden ja niiden keskinäisten riip- puvuuksien ymmärtämisessä. Edessä piti olla yhteiskuntatieteiden kukoistuskausi. Professori Yrjö Ahmavaara hahmotteli ehkä vähän orwel- maiselta haiskahtavaa kyberneettistä yhteiskun- tapolitiikkaa, jossa päätöksentekijät voisivat op- timoida hyvinkin monimutkaista hyötyfunktiota, kun toimenpiteiden monimutkaiset vaikutukset olisivat tiedossa.

Laskentakapasiteetin ja ennen kaikkea käy- tössä olevan datamäärän kasvu on ylittänyt kai- ken sen, mitä saatoimme kuvitella, mutta sitä suurta yhteiskuntatieteiden kukoistuskautta yhä odotetaan. Miksi datan tulva ja valtavasti kasva- nut laskentakapasiteetti ei ole tuottanut tiedollis- ta vallankumousta?

Valtavaan datamäärään sisältyy aina virheel- lisiä havaintoja. Me jouduimme tavallisesti pois- tamaan aineistosta noin kymmenennen osan ha- vainnoista tai korjaamaan niitä. Tätä ei voi tehdä ainakaan käsin, jos havaintoja on miljoonia. Pie- ni määrä oikeita havaintoja antaa tarkemmat estimaatit kuin valtava määrä virheellisten ha- vaintojen saastuttamaa aineistoa. Tilastolliset menetelmät perustuvat tavallisesti pienimmän neliösumman menetelmään, jolloin muusta ai- neistosta poikkeavat havainnot saavat hyvin suu- ren painoarvon.

Tutkijan pitää myös tuntea käyttämänsä me- netelmät ja mittarit. Niin yksinkertainen asia kuin korrelaatiokertoimen tulkintakin voi mennä aivan metsään. Esimerkiksi muuttujien x ja y vä- linen riippuvuus voi olla hyvinkin voimakasta, vaikka havaintoaineistossa niiden välinen korre- laatio on vähäinen. Korrelaatio mittaa lineaarista riippuvuutta ja vain sitä. Korrelaatiokerroin voi olla matala vaikka muuttuja y olisi suorastaan muuttujan x funktio, jos riippuvuus on epä- lineaarinen.

1970-luvun lopulla faktorianalyysi teki tu- loaan yhteiskuntatieteisiin. Tämä menetelmä on tehokas, mutta hyvä se on vain sellaisen tutkijan käsissä, joka ymmärtää, miten analyysi toimii.

Aivan järkyttäviä nollatutkimuksia julkaistiin tuolloin jopa väitöskirjoina, kun tutkija tulkitsi faktorilatauksia kuin Delfoin oraakkeli. Nyt nä- kee tutkimuksia, jotka analysoitu jollain minulle tuntemattomalla tavalla. Kun tutkijalta kysyy, miten se on analysoitu, saa vastaukseksi kaupal- lisen ohjelmiston nimen. Siihen, mitä tuo ohjel- misto tarkkaan ottaen tekee, ei vastausta tule – ohjelman toimintaperiaate saattaa olla jopa liike- salaisuus! Miten sellaista voi käyttää tutkimuk- sessa?

Yhteiskunnallinen tutkimus ja erityisesti epi- demiologinen tutkimus kärsii myös väärin ym- märretystä tietosuojasta. Kaupalliset tahot saavat tallettaa ihmisistä tietovarantoihinsa asioita, jois- ta akateemiset tutkijat eivät voi kuin haaveilla.

Kukaan ei antaisi ikinä tutkijalle lupaa kerätä yksityiskohtaisia tietoja tavallisten kansalaisten päivittäisistä ostoksista tai oikeutta analysoida

(2)

339

ihmisten toisilleen lähettämiä sähköpostiviestejä ja tarkkailla heidän tietohakujaan, mutta kaupan keskusliikkeet, Facebook ja Google saavat näin tehdä tai ainakin tekevät. Tähän verrattuna aika vaatimaton hanke oli HSL:n yritys tallettaa mat- kakorttia käyttävien matkat, jotta reitit ja aika- taulut osattaisi suunnitella paremmin. Se kiellet- tiin tietosuojaa loukkaavana.

Kuvitelkaa, mitä kaikkea voisi tehdä, jos epi- demiologinen tutkimus voisi käyttää samanlaisia tietovarastoja, joita nuo edellä mainitut yksityiset yritykset käyttävät! Tutkijoiden tulisi nousta bar- rikadeille puolustamaan sitä, että olemassa olevia ja laajenevia valtavia tietovarastoja saisi käyttää myös yhteiskunnalliseen ja lääketieteelliseen tut- kimukseen eikä vain yksityisten yritysten tarpei- siin.

Jokainen tutkija ei voi kouluttautua tilastotie- teen huippuosaajaksi, mutta jokaisen tutkimus- ryhmän käytettävissä pitäisi sellainen olla. Tilas- tollisia osaajia pitäisi kouluttaa selvästi enem- män. Eikä tilastotieteen koulutus saisi olla vain matemaattisten teorioiden pänttäämistä – nekin on kyllä hyvä osata – sillä hyvä tilastotieteilijä on ennen kaikkea käsityöläinen.

Havaintoaineistoista pitäisi aina piirtää kuvia koska kovista ihminen hahmottaa asioita paljon

paremmin kuin luvuista. Enää ei onneksi tarvitse käyttää millimetripaperia ja lyijykynää, vaan ta- sokkaita kuvia saa tietokoneen näyttää murto- osasekunnissa. Aineistoa on katseltava eri puolil- ta. Usein järkevän kuvan muuttujien y ja x riip- puvuudesta saa vasta, kun on poistanut molem- mista kolmannen muuttujan z vaikutuksen. Kun tuntee aineistonsa hyvin, ei yleensä tarvitse kovin monimutkaisia tutkimusmenetelmiä. Tutkimus- menetelmä ei oikeastaan koskaan saisi olla niin kehittynyt, ettei tutkija ymmärrä, miten se toimii.

On myös poistettava aineistoa häiritsevät vir- heelliset havainnot tai korjattava niitä. Jos niitä ei pysty poistamaan käsin, ne voi poistaa tähän tarkoitukseen suunnitellulla algoritmilla. Jos ha- vainto poikkeaa muista liikaa – useita standardi- poikkeamia – melkein varmasti virheellinen.

Tämä voi johtaa myös oikeiden havaintojen hyl- käämiseen, mutta tämä riski on paljon pienempi kuin riski virheellisiin havaintoihin perustuvasta väärästä johtopäätöksestä.

OSMO SOININVAARA

Valt.lis

Eduskunta, kansanedustaja 19.4.2015 saakka Siitä alkaen luennoija

Viittaukset

LIITTYVÄT TIEDOSTOT

Esille tuotiin myös, että ongelmasta (luku- ja kirjoitustaitojen heikkenemisestä) pitäisi jakaa enemmän tietoa ja opettajien pitäisi tarkemmin kertoa, mitä haittaa huonoista luku-

Julkaisuja pitäisi juhlistaa ja niistä pitäisi jaksaa kertoa ja tiedottaa kaikelle kansalle, jotta yhteiskuntaan päätyisi mahdollisimman paljon tutkittua tietoa.. Juhliminen

Kävi nopeasti ilmi, että sensuurista käyttämämme käsitteet ja jaotukset olivat yksinkertaistavia ja suorastaan asiaa peittäviä.. Jouduin luomaan tutkijanpajassani

varallisuuden arvoksi vuonna 2003 saadaan noin 37 mrd euroa, lineaarisen kulumistavan (arvon alenemisen) oletuksella noin 11,5 mrd euroa ja geometrisen kulumistavan oletuksella noin

Jotta tutkimus voisi lisätä käyttökelpoista uutta tietoa, tutkijoiden pitäisi seurata tarkasti yhteiskunnan kehitystä.. Tutkimusrahoitus ja -ohjelmat muodostetaan

Kirja antaakin monia vastauksia siihen, miksi meidän kaikkien pitäisi olla feministisiä, eroille herkkiä pedagogeja: Opettaja on usein korkeakoulutuksensa vuoksi

Ja jossain on se valtava tiedontuottamisjärjes- telmä joka tuottaa tietoa sovellettavaksi, ei pelkästään komponenttien käytöstä ja niis- tä muodostuvista kokonaisuuksista, vaan

Vaikka kirjallisuudessa painotetaan sitä, että opettajien on tärkeää ymmärtää, mikä kiistanalainen aihe on ja miten niitä pitäisi käsitellä koulussa, hyvin vähän