• Ei tuloksia

7 Mikrosimulointi

7.2 SOMA-mikrosimulointimalli

Tässä luvussa esitellään melko tarkasti, mikä käytössä oleva simulointimalli (SOMA) on ja miten sellainen luodaan. Tätä ei tutkimuksen tavoitteen kannal-ta olisi aivan välttämätöntä esittää näin laajasti, mutkannal-ta esittämällä se halukannal-taan it-se mallintamiit-sesta kiinnostuneita tutustuttaa mallin rakentamiit-sen käytäntöön. Ja

mallin käyttö tässä tutkimuksessa toimikoon yhtenä esimerkkinä sillä saavutetta-vista tuloksista.

Yleensä ajattelemme mallin käyttöä teorian yhteydessä, mallilla esitetään teo-ria matemaattisessa muodossa. Teoteo-rialla pyritään selittämään tietyn ilmiön (vas-teen) käyttäytymistä ympäristössään. Tärkeitä ovat ilmiöön olennaisesti vaikut-tavien tekijöiden löytäminen ja teoria käyttää näitä olennaisia tekijöitä, mallin muuttujia, selittämään vasteessa tapahtuvaa vaihtelua. Aivan tätä merkitystä mal-li-sana ei tässä tutkimuksessa saa. Liitteessä 7 on pohdittu SOMA-mallia tältä kan-nalta.

Millainen SOMA-malli oikeastaan sitten on? SOMA simuloi Suomessa nouda-tettavaa tulonsiirto- ja verotusjärjestelmää. Olennaiset muuttujansa se löytää laki-kirjasta38 ja ne ovat niitä tekijöitä, jotka lain mukaan määräävät, miten tulonsiirto-jen ja verotuksen laskeminen tapahtuu. Laki muodostaa tavallaan simulointimallin teoreettisen perustan tai ainakin sen loogis-sisällöllisen rakenteen.

Mallin rakentamisessa on useita vaiheita. Näitä vaiheita kuvataan kuviossa 7.1. Se on peräisin Robert Sargentin artikkelista, joka kuvaa simulointimallin ra-kentamista yleensä. Tässä sitä on sovellettu SOMA-mallin rakentamiseen (Sargent 2001).

Lähtökohtana on vuoden 2003 Tulonjakoaineisto39 (Tilastokeskus 2005), jo-ka on kuvion keskellä. Tulonjakoaineisto sisältää muuttujia yhden vuoden aijo-ka- aika-na maksetuista ja saaduista tuloista ja tulonsiirroista. Lisäksi se sisältää tietoja ko-titalouksien rakenteesta, elinoloista, asumisesta ja muista tärkeistä tulonsiirtojen laskemiseen välttämättömistä asioista. Tällaisia tulonsiirtojen laskemiseen välttä-mättömiä asioita ovat verotuksen vähennykset, lasten päivähoidon hoitopäivät, työttömyysturvan maksupäivät jne. Muuttujien kokonaismäärä on vuoden 2003 aineistossa 717. Näitä kaikkia ei kuitenkaan mallissa käytetä. Myöskään mallin ek-saktia kuvausta tässä ei voida esittää suuren kokonsa vuoksi. Itse lainsäädäntö ja parametrilista antavat kuvan mallin sisällöstä, parametrilistan avulla nähdään, mi-tä kohtia laista on mallinnettu (lista mi-täydellisenä Parpo 2006). Tässä parametrilista esitetään vain osaksi eli niiden parametrien kohdalla, joiden muutokset vaikutta-vat köyhyyteen tai gini-kertoimen arvoon. Vaikutus on kuitenkin määritelty melko karkealla tavalla, joka selostetaan tarkemmin luvussa 8.

Tulonjakoaineisto (kuviossa 7.1 Data) on mallia rakennettaessa kaikissa vai-heissaan lähtö- ja päätekohta, vertaamme rakentamisen jokaisessa vaiheessa mal-liohjelman laskemaa tulosta dataan. Mallia rakennettaessa data on validisuuden yleinen koetinkivi.

38 Osa löytyy lain soveltamista varten luoduista oppaista (esimerkiksi STM 2003b).

39 Tässä ei anneta yksityiskohtaista käytetyn empiirisen aineiston kuvausta, vaan viitataan tähän Ti-lastokeskuksen julkaisuun, jossa aineistoa ja sen laatua selvitetään tarkemmin.

Kuvio 7.1 Mallintamisprosessi yksinkertaistettuna

Data sisältää kerättyä tietoa tulonsiirtojärjestelmän toiminnasta. Tätä dataa kertyy vuoden mittaan itse tulonsiirtoja myöntäville tai tilastoiville laitoksille tai verotta-jalle (katso tarkemmin, Törmälehto ja Äyväri 2003). Mallintamisen kannalta on aivan olennaista, kuinka hyvän kuvan data sisältää tulonsiirtojärjestelmän toimin-nasta sen määrittäessä henkilöille tai kotitalouksille tulonsiirtoja. Tulonjakoaineis-to on kuitenkin rakennettu sen varaan, että se kuvaa oikein tai vähintään riittävän tarkasti tilastoituja lukuja tulonsiirtojärjestelmästä. Tätä puolta on Tilastokeskus yrittänyt validoida vertaamalla aineiston lukuja kansantalouden tilinpitoon ja Ke-lan tilastoihin. Osuvuus on parhainta tuotannontekijätuloissa ja heikoin harvinai-sissa tulonsiirroissa. Köyhyyden kannalta tärkeässä työmarkkinatuessa kokonais-summan ero on -2,3 % Kelan tilastoon nähden ja ansiosidonnaisessa päivärahassa päinvastoin 9,4 % (Törmälehto ja Äyväri 2003). Tulonjakoaineistossa on luonnol-lisesti otoksesta johtuvaa virhemarginaalia ja harvinaisissa tulonsiirroissa tämä vir-hemarginaali on suurempi kuin yleisissä tulon erissä, esimerkiksi saaduissa tulon-siirroissa kaikkien kotitalouksien kohdalla virhemarginaali on 0,94 %, mutta kun tarkastellaan työttömien kaikkia saatuja tulonsiirtoja, niin se on jo 3,28 % keski-arvosta (Tilastokeskus 2003). Eli yleisesti ottaen mitä pienemmäksi ryhmä menee, sitä suuremmiksi tilastollinen virhemarginaali kasvaa. Tämä liittyy mallin reliabi-lisuuteen ja validointiin, mutta siihen emme voi paljoa vaikuttaa. Mallin

rakenta- Tulonsiirto-järjestelmä

Operationaalinen

validisointi Käsitteellinen mallin

validisointi

Ohjelmoitu mallin verifiointi Simulointimalli

SOMA

Käsitteellinen malli Data &

validointi

Koe Analysointi ja

mallintaminen

Ohjelmointi ja implementointi

misen kannalta tämä virhelähde on pidettävä mielessä, siispä kaikkien tulonsiirto-jen kohdalla emme voi edes päästä tilastoihin verrattavaan lukuun.

Olemassa olevasta tulonsiirtojärjestelmästä tehdään käsitteellinen malli eli esi-tetään tulonsiirtojärjestelmä käsitteiden avulla toimivana systeeminä. Käsitteelli-nen malli on teoria tulonsiirtojärjestelmästä. Onneksi tätä teoriaa ei tarvitse itse luoda, vaan melko hyvä apu saadaan lakikirjasta ja sen toimeenpanoa säätelevistä asetuksista ja ohjeista, jotka määrittelevät, miten tulonsiirtoja Suomessa kotitalo-uksille ja henkilöille myönnetään. Yksi mallinnuksen kulmakivi on siinä, että sekä reaalinen tulonsiirtojärjestelmä että ihmiset noudattavat lakia. Käsitteellinen mal-li, jos sellainen kirjoitetaan, on kuitenkin vain yksi tietokoneohjelmien tekemisen vaihe. Lopullinen käsitteellinen malli ei kuitenkaan voi olla koskaan identtinen lain kanssa, ja tämä johtuu sekä siitä, että laki ei ole täysin täsmällinen looginen koko-naisuus, sekä datassa olevista muuttujista, jotka eivät vastaa laissa olevia käsittei-tä yksiselitteisesti ja kattavasti. Tässä vaiheessa on käsittei-täytynyt luoda aineistoon uusia muuttujia, koska alkuperäisen aineiston muuttujat eivät ole olleet riittävän täsmäl-lisiä. Tällaisia uusia muuttujia on vuoden 2003 mallissa 74. Tätä vaihetta kutsutaan kuviossa 7.1 mallinnuksen vaiheena analysointi ja mallintaminen. Analysointi on tärkeää aineiston (data) jäsentämisen takia, mallinnuksessa kiinnitetään erityisen suuri huomio niihin tulonsiirtojärjestelmän osiin, jotka osoittautuvat tärkeiksi ky-seisen tulonsiirron kannalta.

Käsitteellisen mallin validiteettia määriteltäessä olennaisia kysymyksiä ovat seuraavat: Ovatko käsitteet samat kuin laissa? Ovatko tulonsiirtoja laskevat sään-nöt samat kuin laissa? Ovatko parametrit samat kuin laissa? Onko käsitteellisen mallin tavoite sama kuin lain tavoite? Tältä osin SOMA-malli täyttää hyvin vaati-mukset. Sen osoittaminen vaatisi mallin yksityiskohtien ja lakitekstin vertaamis-ta, mutta siihen ei tämän tutkimuksen puitteissa ole mahdollista mennä, koska itse malli käsittää yli 10 000 riviä ohjelmakoodia ja tulonsiirtoja määritteleviä lakikir-jan sivuja on melkoinen määrä. SOMA-mallin vuoden 2003 versiota on kuitenkin kirjoittanut kolme pätevää, asialleen uskollista ja kriittistä ihmistä STM:stä ja Sta-kesista; he myös käyttävät syntynyttä tulosta tutkimuksissaan. Vuoden 2004 mallia on päivittämässä viisi henkilöä, kun Kelan edustajat liittyvät mallin ylläpitäjiksi ja käyttäjiksi40. Täten malli on jatkuvassa käytännön testissä sekä sosiaaliturvan suun-nittelutyössä että tulonsiirtojärjestelmän tutkimustyössä. Aineisto on kuitenkin ke-rätty lain toimeenpanossa syntyvistä tietokannoista, joten virhelähde on mahdolli-nen. Tästä tuleekin yksi tärkeä täsmennys mallin tavoitteesta: SOMA-malli simuloi tulonsiirtojärjestelmää lakijärjestelmänä. Samalla oletetaan, että tulonsiirtojärjes-telmä noudattaa lakia riittävän täydellisesti. Kun käsitteellinen malli on valmis, se ohjelmoidaan tietokoneohjelmaksi, jolle olemme antaneet nimen simulointimalli SOMA. Käytämme ohjelmointikielenä SAS-ohjelmaa41.

40 STM:stä Ilari Keso, Stakesista Antti Parpo ja Seppo Sallila, Kelasta Pertti Pykälä ja Pertti Honkanen.

41 Esimerkiksi JUTTA-malli on ohjelmoitu C++-kielellä ja TUJA-malli Dyalog APL -kielellä. EU-ROMOD on ohjelmoitu C++-kielellä, FACIT ja STINMOD SAS-kielellä.

Kuviossa 7.1 on paljon nuolia ja ne menevät yleensä molempiin suuntiin ja itse mallin rakentamisen käytännössä myös on niin, että mallin osien testauksen jälkeen palataan aina uudelleen ja uudelleen lähtökohtaan ja aineistoon. Data ja validointi on siksi merkitty kaiken keskelle. Aineistosta täytyy löytyä riittävästi ko-titalouksia tulonsiirtojärjestelmän eri ominaisuuksien esiintuloon ja muuttujien täytyy olla sellaisia, jotka mahdollistavat sen.

Koe on merkitty tässä erilleen ja sillä ei tarkoiteta mallin testausta suhteessa ai-neistoon, tämä tapahtuu vuorovaikutuksessa analysointi- ja ohjelmointivaiheessa.

Kokeella tarkoitetaan mallilla simuloidun uuden tulonsiirtojärjestelmän viemistä käytäntöön, jotain sellaista mitä ei ole olemassa ennen koetta. Tämä on mallityön varsinainen hedelmä – uuden tulonsiirtojärjestelmän aikaan saaminen. Tutkimal-la simulointimallia, joka on todellista tulonsiirtojärjestelmää simuloiva malli, siitä voidaan löytää ominaisuuksia, jotka halutaan siirtää todellisuuteen. Koe on tämä siirto. Jos tämä empiirinen koe on onnistunut, niin tulonsiirtojärjestelmä tuottaa halutut ja lasketut ominaisuudet. Tällainen koe vastaa biologista tai psykologista kokeen määritelmää.

Kokeella voidaan tarkoittaa myös simulointikoetta, jolloin halutaan ennalta tietää, mitä tietty parametrimuunnos tai muu mallin rakenteen muutos vaikuttaa esimerkiksi kotitalouksien käytettävissä olevaan tuloon. Tällainen koeasetelma on ex ante (Bourguignon ja Spadaro 2006; European Commission 2001).

Tässä tutkimuksessa tuotetaan tulonsiirtojärjestelmä tai oikeammin simu-lointimalleja, joista kukin sisältää suuremman köyhyyttä vähentävän ominaisuu-den kuin nykyinen tulonsiirtojärjestelmä.

Ennen varsinaista koetta, mallin tulosten esittämisvaiheessa, täytyy tavalla tai toisella määritellä se, miten valideja mallin laskemat tulokset ovat. Tällöin täytyy tavoitteen olla selvillä ja tämän tavoitteen suhteen määritellään validisuus. Tälle annettiin kuviossa 7.1 termi operationaalinen validisointi. Siihen liittyy mahdol-lisimman suuri usko tulosten luotettavuuteen. Siihen voi sisältyä monia tekijöi-tä: 1) Perinteiset luottamusvälit mallilla lasketun aineiston ja tilastoaineiston välil-lä tavoitteen kannalta olennaisissa indekseissä, 2) erilaiset kuviot mallin laskelmien arvojen ja alkuperäisen aineiston välillä, 3) hajontojen kuviot, 4) onko mallin rea-gointi järjestelmän muutoksiin järkevää ja 5) pysyvätkö muutokset tulonsiirrois-sa pysyvät järkevissä rajoistulonsiirrois-sa? Muutoksia ei ole mahdollista verrata todelliseen ai-neistoon, koska sellaista ei ole olemassa, vaan vertailukohtana on simulointimallin laskema aineisto. Kuitenkin muutosten paras validisuusmitta on itse koe, empiiri-sen kokeen mielessä.

Menettelytavat eivät ole tulonsiirtojärjestelmän mallintamis-tiedeyhteisössä vielä mitenkään vakiintuneita tai lukkoon lyötyjä. Siksi tässä käytetään varsin yk-sinkertaisia menetelmiä, kuten jakaumakuvioita, ja tulokset muodostavat yhtenäi-sen ja koherentin kuvan esitettyjen muutosten vaikutuksesta.

Mallin matemaattinen kuvaus on esitetty liitteessä 7.