• Ei tuloksia

4. Tutkimuksen aineisto ja menetelmät

4.2 Tutkimusmenetelmät

Tutkimus on toteutettu edellä selvitettyä tilastoaineistoa hyödyntämällä ekonometrisillä aika-sarja-analyyseillä. Kuvaan tässä kappaleessa käytettyjä tilastollisia menetelmiä ja malleja ja niistä

saatuja tuloksia. Kuvaan myös mahdollisia tuloksiin vaikuttavia virhetekijöitä, joita ei ole mahdol-lista tilastollisen tutkimuksen avulla sulkea pois. Tässä tutkimuksessa tilastoaineiston muuttujien testaaminen on toteutettu korrelaatioanalyysin ja regressioanalyysin avulla. Regressioanalyy-sissä olen käyttänyt myös aikaistettuja selitettäviä muuttujia kausaliteetin tutkimisessa. Näillä menetelmillä pystytään havaitsemaan aineiston muuttujien vaikutuksia toisiinsa ja siten vastaa-maan tutkimuksen hypoteeseihin. Esittelen tässä osiossa jokaisen käytetyn tilastollisen menetel-män ja perustelun sen käytölle lyhyesti.

Tilastomuuttujien käsittely

Ennen tilastojen käsittelyä olen muodostanut tilaston alkuperäisistä tiedoista johdettuja arvoja, joita käytän myös tutkimuksessani. Kaikki nämä arvot on johdettu suoraan aineistosta ja ovat si-ten kuntien välisissä tilastoissa täysin vertailukelpoisia. Esimerkiksi asuntovelan suhde käytettä-viin tuloihin kertoo koko kunnan asuntovelan määrän jaettuna käytettävissä olevalla rahatulolla.

Lisäksi olen johtanut aineistosta esimerkiksi eri velkaryhmien korkoprosentit ja tulot asuntokun-taa kohden.

Muuttujien johtamisen lisäksi aikasarja-analyysin tekeminen vaatii aikasarjalta tiettyjä ominai-suuksia. Taloustieteessä törmätään usein tilanteeseen, jossa aikasarja, esimerkiksi bruttokansan-tuote, kasvaa ajan kuluessa jatkuvasti. Kasvavan trendin aikasarjan käyttäminen taas voi vääris-tää tuloksia tilastollisessa analyysissä ja esimerkiksi regressioanalyysissä johtaa tilastollisesti merkitseviin tuloksiin sellaisten tekijöiden välillä, joilla ei todellisuudessa ole vaikutusta tai yh-teyttä toisiinsa. Tästä syystä tilastollisia aikasarja-aineistoja usein logaritmoidaan eli tilaston muuttujista otetaan luonnollinen logaritmi ja testeissä käytetään näin satuja arvoja. Tilastollisissa testeissä ollaan usein kiinnostuneita muuttujien suhteellisista muutoksista ja siksi logaritmoitu-jen arvologaritmoitu-jen käyttö on mahdollista. Aikasarja-analyysissä edellä mainittua ajasta riippuvuutta, trendiä tai vaihtelua kutsutaan epästationaarisuudeksi. Luotettava tilastollinen analyysi taas vaa-tii aineistolta stationaarisuutta eli ajasta riippumattomuutta. Tässä tutkimuksessa stationaari-suus on varmistettu käyttämällä tietyistä muuttujista luonnollista logaritmia.

Lisäksi aikasarjojen varianssien tulee olla regressioanalyysiä käytettäessä ajan suhteen muuttu-mattomia. Tämä tarkoittaa sitä, että luotettavan tilastollisen tutkimuksen tekeminen edellyttää tilastomuuttujan keskivaihtelun pysyvän samanlaisena yli ajan. Mikäli varianssi kuitenkin muut-tuu ajanjakson aikana, voidaan aikasarjasta ottaa jälleen logaritmi ja mahdollistaa näin tilastolli-sen analyysin tekeminen luotettavammin. Usein logaritmimuuttujia käytettäessä käytetään luon-nollista logaritmia ja samoin tässä tutkimuksessa olen käyttänyt tarvittaessa luonluon-nollista loga-ritmia. Seuraavassa kuviossa (Kuvio 5) on nähtävillä osakeasuntojenasuntojen neliöhintojen ja asuntokuntien keskimääräisen asuntovelan kehitys Helsingissä vuosina 2006–2020. Kuviosta huomataan visuaalisen tarkastelun avulla, että molemmat kyseisistä muuttujista kasvavat ajan kuluessa eikä niitä voi siten pitää stationaarisina. Tästä syystä molemmista muuttujista on reg-ressioanalyysissä käytettävä logaritmoitua arvoa.

Kuva 5 Keskimääräisten asuntokuntakohtaisten asuntovelkamäärien ja osakeasuntojen neliöhintojen kehitys Helsingissä vuo-sina 2006–2021. Tietojen lähde: Tilastokeskus 2021.

Tämän tutkimuksen aineistossa ainoastaan korkotaso ja asuntovelan ja tulojen suhde ovat muuttujia, jolla ei ole havaittavissa selkeää aikaan sidottua trendiä. Muiden muuttujien arvoissa logaritmin käyttö osoittautui tarpeelliseksi. Logaritmoitujen arvojen johdosta tuloksista voidaan saada selville muuttujien suhteelliset vaikutukset toisiinsa, mutta absoluuttisella tasolla tuloksia

2500

2006 2007 2008 2009 2010 2011 2012 2013 2014 2015 2016 2017 2018 2019 2020

HELSINKI

Velkamäärä per asuntokunta €/m^2

ei voida tarkastella. Siten tuloksien perusteella ei esimerkiksi voida ilmoittaa asuntovelan tietyn euromääräisen kasvun johtavan tiettyyn euromääräiseen kasvuun asuntojen neliöhinnassa, vaan tuloksien avulla on mahdollista osoittaa suhteellisia vaikutuksia muuttujien välillä.

Korrelaatioanalyysi

Korrelaatioanalyysillä tarkoitetaan tutkimuksessa mukana olevien muuttujien yhteisriippuvuu-den tutkimista, eli sitä muuttuuko jokin toinen tekijä tilastollisessa aineistossa toisen tekijän muuttuessa. Korrelaatio on johdettu muuttujien kovarianssista eli yhteisvaihtelusta vakioimalla kovarianssin kerroin keskihajonnan avulla. Kovarianssi kuvaa yhteisriippuvuutta ja sen suuntaa, mutta kovarianssin antama kerroin riippuu mitta-asteikosta, eli siitä onko tilastossa käytetty esi-merkiksi metrejä vai senttimetrejä. Kun kahden tekijän kovarianssikerroin jaetaan molempien tekijöiden keskihajonnalla, saadaan kerroin vakioitua. Tätä vakioitua kerrointa kutsutaan Pearso-nin korrelaatiokertoimeksi. Korrelaatio voi olla positiivista, jolloin arvot liikkuvat yhtäaikaisesti samaan suuntaan tai negatiivista, jolloin arvot liikkuvat vastakkaisiin suuntiin yhtä aikaa. Korre-laatiokerroin saa arvoja välillä [-1,1] ja kuvastaa siten satunnaismuuttujien lineaarisen riippuvuu-den suuntaa ja voimakkuutta. Yleisimmin korrelaatiokertoimella tarkoitetaan edellä kuvattua Pearsonin korrelaatiokerrointa, joka kuvaa hyvin normaalisti jakautuneiden suhdeasteikollisten otoksien korrelaatiota. Tässä tutkimuksessa kaikki käytetyt muuttujat ovat suhdeasteikollisia ja siten Pearsonin korrelaatio on paras kuvaamaan valitsemieni muuttujien yhteisriippuvuutta. Tar-vittaessa muuttujien normaalijakautuneisuus on varmistettu ottamalla muuttujasta luonnollinen logaritmi.

Suhdeasteikollisella muuttujalla tarkoitetaan muuttujaa, jolle on osoitettavissa absoluuttinen nollapiste ja jonka kaikkia arvoja voidaan vertailla kyseisen muuttujan muihin arvoihin. Tällai-sesta muuttujasta hyvä esimerkki on asunnon neliöhinta, joka ilmoitetaan euroina. Jokainen asuntojen keskimääräistä neliöhintaa kuvaava luku on siis toisiin lukuihin suhteutettuna vertailu-kelpoinen ja arvot asettuvat nollan ja äärettömän välille. Pearsonin korrelaatiokertoimen yleinen matemaattinen esitys on seuraavan lainen yhtälö:

𝑟 = ∑(Χ – Χ̅)(Y – Y̅)

√∑(Χ – Χ̅)2√∑(Y – Y̅)2

jossa

r = Pearsonin korrelaatiokerroin X ja Y = tarkasteltavia muuttujia

𝑋̅ 𝑗𝑎 𝑌̅ = tarkasteltavien muuttujien keskiarvo Regressioanalyysi

Regressioanalyysin avulla tutkitaan selitettävän muuttujan lineaarista tilastollista riippuvuutta selittävistä muuttujista, joita voi regressiomallissa olla joko yksi tai useampi. Regressioanalyysi on korrelaatiota parempi analyysimenetelmä siksi, että sen avulla voidaan tutkia useamman muuttujan vaikutusta yhteen selitettävään muuttujaan yhtä aikaa. Useamman muuttujien reg-ressioanalyysissä saadaan vastaus siihen, mikä on yhden tekijän arvon muutoksen vaikutus seli-tettävän muuttujan arvoon, kun muut tekijät on vakioitu eli otettu huomioon. Regressioanalyysin avulla voidaan siksi sulkea pois esimerkiksi korrelaatioanalyysissä huomattuja mahdollisesti vir-heellisiä yhteyksiä tilastollisten tekijöiden välillä. Esimerkiksi talvirenkaiden käytön voitaisiin huo-mata korreloivan kolarien määrän kanssa positiivisesti. Regressioanalyysin avulla voitaisiin kui-tenkin tutkia myös muiden tekijöiden yhteisvaihtelua kolarien määrään kanssa ja huomata, että vaikka kolareita sattuukin enemmän talvirenkaiden käyttöajalla talvella, on muilla tekijöillä enemmän tilastollista riippuvuutta kolarien määrän kanssa.

Regressioanalyysin avulla muodostetaan lineaarinen regressiomalli, joka on estimaatti tilaston selittävien muuttujien vaikutuksesta selitettävään muuttujaan. Regressioanalyysin tuloksena saa-daan vakiotermi ja regressiokertoimet selittäville muuttujille. Regressioyhtälö useamman muut-tujan analyysissä on muotoa:

Y′ = 𝛼 + 𝛽1Χ1 + . . . + 𝛽𝑛Χ𝑛 ,

Kaavassa Y’ on selitettävän muuttujan estimaatti saatujen regressiokertoimien avulla, 𝛼 on vakio-termi, X1…Xn ovat on selittäviä muuttujia ja 𝛽1. . . 𝛽𝑛 ovat vastaavasti selittävien muuttujien regres-siokertoimet. Regressiokertoimet kertovat kuinka paljon selittävän muuttujan Y’ arvo muuttuu sille valittuina yksikköinä, kun selittävän muuttujan arvo Xn muuttuu yhden sille valitun yksikön siinä tapauksessa, että muiden selittävien muuttujien arvot pysyvät ennallaan. Regressioanalyy-sistä voidaan laskea saatujen kertoimien tilastollinen merkitsevyys eli se, poikkeaako selittävän muuttujan muutos tilastollisesti merkitsevästi nollasta. Tällä tavoin voidaan huomata yhtälössä mukana olleista selittävistä muuttujista ne, jotka eivät vaikuta tilanteeseen ja ovat siten analyysin kannalta merkityksettömiä.

Regressiomallia käytettäessä tulee varmistua myös siitä, ettei mallissa mukana olevat muuttujat korreloi keskenään liian voimakkaasti. Yleensä tilanne huomataan jo ennen regressioanalyysiä tehtävässä korrelaatioanalyysissä, mutta varmistuksena käytetään yleensä multikollineaarisuutta kuvaavia mittareita varmistamaan mallin luotettavuus. Yleisesti käytettävä VIF-luku (Variance in-flation factor) kertoo analyysissä mukana olevien muuttujien keskinäisestä korrelaatiosta ja jos VIF-luvun arvoksi saadaan yli kymmenen, on yleensä syytä karsia mallista muuttuja tai muuttujia, jotka ovat liian korreloituneita keskenään. Käytän tutkimukseni empiirisessä osiossa tätä arvoa varmistamaan tarkastelun luotettavuutta.

Lisäksi tehdään yleensä regressioanalyysin selitysvoimaa kuvaavia testejä, joista yleisimmät ovat F-testi ja R2-luku. Selitysvoima kertoo testistä sen, kuinka suuren osan selitettävän muuttujan vaihtelusta on mahdollista selittää valittujen muuttujien avulla. R2-luku saa arvoja välillä nollasta yhteen ja tällä asteikolla paremmin selittävä yhtälö saa suuremman arvon. F-testi taas kertoo koko analyysin merkitsevyydestä, eli voidaanko mallin avulla selittää selitettävän muuttujan vaih-telua. Tilastollista merkitsevyyttä kuvaavana muuttujana se kertoo regressioanalyysin olevan ti-lastollisesti merkitsevä, kun F-testin tulos on pienempi kuin 0,05.

Syy-seuraussuhteiden eli kausaalisuuden tutkiminen

Kausaalisuuden tutkiminen ja sen todistaminen tilastollisilla menetelmillä on usein haastavaa.

Kausaalisuudella tarkoitetaan sitä, että esimerkiksi muuttujan X arvon muutos aiheuttaa muutok-sen muuttujan Y arvoon. Edellä kuvattu regressioanalyysi kertoo siitä, muuttuuko tilastoaineis-ton selitettävän muuttujan arvo selittävän muuttujan arvon muuttuessa, kun muut aineistilastoaineis-ton muuttujat on vakioitu. Regressioanalyysillä ei kuitenkaan kyetä todistamaan sitä, että selittävän muuttujan arvon muutos aiheuttaisi selitettävän muuttujan arvon muutoksen.

Kausaalisuutta on tässä tutkimuksessa testattu aikaistamalla asuntojen neliöhinta-aineistoa yh-destä kahdeksaan vuosineljännestä suhteessa muuhun aineistoon ja testaamalla sen jälkeen regressioanalyysiä samoilla selittävillä muuttujilla, kuin aiemminkin. Näin saaduilla tuloksilla voi-daan testata, millainen vaikutus aineistosta saatavilla muuttujilla on tuleviin asuntojen neliöhin-toihin eli sitä aiheuttaako esimerkiksi lainamäärien kasvu asuntojen neliöhintojen nousua tule-vaisuudessa. Lisäksi on mahdollista testata, johtaako asuntojen neliöhintojen kasvaminen asun-tolainamäärien nousuun. Tässä tapauksessa selitettäväksi muuttujaksi vaihdetaan asuntovelan määrä ja tätä velkamäärän aineistoa aikaistetaan muuhun aineistoon nähden. Kuten aiemmassa teoriaosiossa mainittiin, on oletettavaa, että asuntolainojen määrän ja asuntojen neliöhintojen välillä kaksisuuntainen riippuvuus, eli kummatkin tekijät vaikuttavat toisiinsa. Tämä on tutkimus-tiedon lisäksi perusteltavissa myös maalaisjärjellä, koska lainamäärien kasvaessa rahamäärä markkinoilla kasvaa ja siten hintojen voidaan olettaa nousevan. Toisaalta kasvaneet asuntojen hinnat lisäävät asuntojen vakuusarvoja ja helpottavat lainojen saantia, joten velkamäärien voi-daan olettaa kasvavan. Nousevat asuntojen hinnat myös luovat konkreettisen tarpeen suurem-mille lainoille.

Kuten edellä mainitussa esimerkissä, usein taloustieteen aikasarja-analyyseissä syy-seuraussuh-teet ovat monimutkaisia kaikkien talouden tekijöiden vaikuttaessa yhteiskuntaan laajasti. Siksi kausaalisuutta koskevien empiiristen testieni tuloksia voisi lähtökohtaisesti joko tukevan oletuk-sia kausaalisuudesta tai toisaalta puhuvan sen puolesta, että todennäköisyys kausaalisuuden olemassaololle on pieni. Tässä tutkimuksessa käytettävissä malleissa mukana on kuitenkin

useita asuntomarkkinoihin vaikuttavia tekijöitä ja siksi uskon tuloksien olevan kohtuullisen luo-tettavia vertailtaessa muihin tilastollisiin tutkimuksiin.