• Ei tuloksia

Tutkimusmenetelmät

5. Tutkimushypoteesit, aineisto ja menetelmät

5.3. Tutkimusmenetelmät

Tutkimuksessa käytän hypoteesien testaamiseen kahta menetelmää: T-testi ja regressioanalyysi.

Esittelen ensiksi T-testin menetelmänä ja sen jälkeen käyn läpi regressioanalyysin.

48 T-testi

Kahden riippumattoman otoksen keskiarvojen eroa voidaan tutkia T-testillä. T-testissä oletetaan, että molemmat ryhmät ovat normaalijakautuneista. SPSS:ssä T-testissä ei ole väliä ovatko muuttujien varianssit yhtä suuret vaan ohjelma testaa ensin ovatko varianssit erisuuret vai ei.

Tämän jälkeen ohjelma esittää molempien vaihtoehtojen tulokset ja tutkijan on käytettävä tilanteeseen sopivaa vaihtoehtoa. Kahden riippumattoman otoksen t-testissä asetetaan nollahypoteesi, jonka mukaan näiden otosten keskiarvot ovat yhtä suuret. Kahden otoksen testisuure lasketaan yhtälön seitsemän mukaisesti. Testisuure on normaalijakautunut, joten tätä lukua verrataan normaalijakaumataulukkoon ja tarkistetaan onko testisuure merkitsevyystason mukainen. (Heikkilä, 2014; Holopainen & Pulkkinen, 2013.)

(7)

𝑍 =

𝑥̅̅̅̅−𝑥1 ̅̅̅̅2

Regressioanalyysi on tilastollinen menetelmä, jolla voidaan selvittää parhaat mahdolliset selittävät muuttujat ennustamaan selitettävää muuttujaa. Lineaarinen regressiomalli kuvaa muuttujien välistä lineaarista yhteyttä. (Nummenmaa, 2004; Heikkilä, 2014.)

Lähtökohtaisesti regressioanalyysissä käytetään välimatka-ja suhdeasteikollisia muuttujia, mutta myös järjestys- ja nominaaliasteikollisia muuttujia voidaan käyttää, jos ne esitetään dummy-muuttujien muodossa. Dikotominen muuttuja voidaan esittää dummy-muuttujana, kun sille annetaan arvo yksi tai nolla. Myös muita nominaaliasteikollisia muuttujia voidaan esittää dummyilla siten, että näitä yksi ja nolla muuttujia on yksi vähemmän kuin muuttujan kategorioita.

Esimerkiksi yhtiön kolme eri osasto voidaan esittää dummyillä alla olevan esimerkin mukaan.

(Heikkilä, 2014.)

Dum1: Osasto 1=0, osasto 2=1, osasto3=0 Dum2: Osasto 1=0, osasto2=0, osasto3=1

49

Tässä esimerkissä osasto yksi on regressiomallissa vertailuryhmä, koska kumpikaan dummyistä ei vaikuta sen regressio suoraan. (Heikkilä, 2014.)

Regressioanalyysilla mallintaminen alkaa siitä, että valitaan muuttuja y, jota pyritään ennustamaan muuttujan x avulla. Regressiomalli on siis matemaattinen esittämistapa y:n ja x:n väliselle suhteelle. Mallissa x on selittävä muuttuja ja y on selitettävä muuttuja. Regressiomalli on yksinkertaisimmillaan kaavan kahdeksan mukainen. Mallissa y:n arvo saadaan kertomalla x-muuttuja mallin kulmakertoimella 𝛽1 ja lisäämällä tähän 𝛽0 eli mallin vakio. (Nummenmaa, 2004.) (8) 𝑦̂ = 𝛽0+ 𝛽1𝑥

Missä

𝑦̂= y:n ennustettu arvo

𝛽0=vakiotermi

𝛽1= Regressiosuoran kulmakerroin 𝑥 = x-muuttujan arvo

Regressiomalli muodostaa jokaista todellista y:n arvoa kohden ennusteen 𝑦̂. Näiden erotus on mallin jäännöstermi. Jäännöstermi on se osuus y:n vaihtelusta, jota malli ei pysty ennustamaan.

Mitä suurempi jäännöstermi on, sitä heikommin malli on pystynyt ennustamaan y:n arvoa. Näin jäännöstermin ollessa nolla ennustaa malli y:n täydellisesti eli ennusteen arvo ja todellinen havainto ovat tismalleen samat. Lopullisen regressiomallin muodostaminen perustuu virhetermien neliöiden summan minimoimiseen. Tällöin puhutaan niin sanotusta pienimmän neliösumman menetelmästä, jossa kaikkien jäännöstermien neliöt summataan. Pienimmän neliösumman menetelmällä pyritään siis muodostamaan sellainen regressiosuora, jonka jokaisen havainnon yhteenlaskettu etäisyys regressiosuorasta eli mallin antamasta arvosta olisi mahdollisimman pieni.

(Nummenmaa, 2004.)

Lineaarisen regression tapauksessa teoria ei rajoita käytettävien selittävien muuttujien määrää vaan niitä voi olla kuinka paljon hyvänsä. Ei kuitenkaan ole yleistä, että selittäviä muuttujia olisi yli kymmenen, koska tässä tulee vastaan käytännön haasteita. Usean selittävän regressiomalli ei

50

poikkea teoriassa yhden selittävän muuttujan mallista vaan toimii samalla periaatteella. Yleensä muutokset jossakin ilmiössä johtuvat useista asioista ja siksi useamman selittävän muuttujan tuominen malliin yleensä parantaa sen tarkkuutta. Usean selittävän regressiomalli kaavan yhdeksän mukainen. (Nummenmaa, 2004.)

(9) 𝑦̂ = 𝛽0+ 𝛽1𝑥1+ 𝛽2𝑥2+⋯+𝛽𝑘𝑥𝑘 Missä

𝑦̂= y:n ennustettu arvo

𝛽0=vakiotermi

𝛽1, … , 𝛽𝑘= = Regressiosuoran kulmakerroin 𝑥1, … , 𝑥𝑘 = x-muuttujien arvot

Mallin rakentamisen jälkeen selvitetään, onko malli hyvä selittämään haluttua muuttujaa. Tässä tutkitaan, onko malliin tarve lisätä tai poistaa selittäviä muuttujia, onko mallin muotoa muokattava vai onko nykyinen malli jo riittävän hyvä. Tämän selvittämiseen on useita erilaisia menetelmiä.

(Holopainen & Pulkkinen, 2013.)

Mallin toimivuuteen vaikuttaa merkittävästi sen luotettavuus. Yksi keino arvioida mallin luotettavuutta on selitysaste. Selitysaste kuvaa kuinka hyvin malli kuvaa selitettävän muuttujan vaihtelua. Kuitenkaan aina korkea selitysaste ei tarkoita tarkkoja ennusteita. Yhden selittävän muuttujan tapauksessa selitysaste lasketaan kaavan 10 mukaisesti. (Holopainen & Pulkkinen, 2013.)

(10) 𝑅2 = 𝑟2× 100%

Missä

𝑅2 = Selitysaste

𝑟 = korrelaatiokerroin

51

Selitysaste kertoo, kuinka suuren osan selitettävän muuttujan y arvon vaihtelusta voidaan selittää muuttujalla x. Alhainen selitysaste kertoo, että x ei pelkästään selitä juurikaan y:n vaihtelusta vaan suuri osa vaihtelusta johtuu aivan muista tekijöistä kuin x:stä. Vastaavasti, jos selitysaste on suuri, kuvaa muuttuja x suurinta osaa y:n vaihtelusta eli malli ennustaa aineistoa hyvin. Usean muuttujan regressiomallissa selitysaste kertoo, kuinka suuren osan muuttujan y vaihtelusta selitetään yhteisesti kaikilla selittävillä muuttujilla. Kahden muuttujan tapauksessa selitysaste lasketaan muuttujien välisen multippelikorrelaation neliön avulla kaavan 11 mukaisesti. On olemassa suhteutettu selitysaste, joka huomio usean muuttujan regressiomallissa käytettyjen selittävien muuttujien määrän. Normaalisti selitysaste kasvaa selittäviä muuttujia lisättäessä, mutta suhteutettu selitysaste kasvaa, jos uusi muuttuja parantaa mallia. Yleensä malli on sitä parempi mitä korkeampi suhteutettu selitysaste on ja sitä voidaankin käyttää apuna selittäviä muuttujia valittaessa.

(Holopainen & Pulkkinen, 2013.)

𝑟𝑥𝑖𝑖 = kahden muuttujan korrelaatiokerroin

Lineaariseen regressiomalliin liittyy tiettyjä oletuksia. Regressioanalyysin tärkein oletus on muuttujien välinen lineaarinen yhteys. Regressiomalli ei pysty kunnolla kuvaamaan yhteyttä, joka on esimerkiksi käyräviivainen. Regressioanalyysissä selittävien muuttujien ei pitäisi olla yhteydessä toisiinsa eli niiden välillä ei saisi olla kollineaarisuutta. Jos mallin selittävät muuttujat korreloivat keskenään, on mallissa multikollineaarisuutta. Tämä tarkoittaa sitä, että mallin muuttujat eivät tuo lisää tietoa ja on vaikea erottaa mikä on minkäkin muuttujan vaikutus selitettävään muuttujaan. (Nummenmaa, 2004; Holopainen & Pulkkinen, 2013.)

Virhetermin varianssi on oltava kaikissa havainnoissa vakio. Tämä tarkoittaa sitä, että virhetermillä on jokaisessa havainnossa sama todennäköisyys saada tiettyarvo. Tätä ehtoa kutsutaan homoskedastisuudeksi. Vastaavasti jos tämä ehto ei täyty, puhutaan heteroskedastisuudesta.

52

Vaikka homoskedastisuus oletetaan usein regressioanalyysissa itsestään selvän vaikka joissain tapauksissa voi olla järkevämpää olettaa, että virhetermi on eri suuruinen eri havainnoilla.

Heteroskedastisuus on merkittävä ongelma regressiomallissa kahdesta syystä. Ensimmäinen ongelma liittyy regressiokertoimien variansseihin. Toivottavaa olisi, että nämä olisivat mahdollisimman pienet, että saataisiin paras mahdollinen tarkkuus. Jos mallissa ei ole heteroskedastisuutta, antaa pienimmän neliösumman menetelmä pienimmän varianssin kaikista harhattomista estimaattoreista, jotka ovat lineaarinen funktio havaitusta y:n arvosta. Jos heteroskedastisuutta havaitaan, on löydettävissä muita estimaattoreita, joiden varianssi on pienempi ja jotka ovat harhattomia. Toinen syy on se, että regressiokertoimien keskivirheen estimaatit ovat virheellisiä. Ne on laskettu oletuksella, että virhetermin hajonta olisi homoskedastinen. Jos näin ei ole, regressiokertoimien hajonnat ovat virheellisiä ja t-testi sekä yleensä f-testi ovat kelvottomia. (Dougherty, 2002.)

Monimuuttujamenetelmät vaativat yleensä suurehkon aineiston, mutta usean muuttujan regressiota voi hyödyntää suhteellisen pienelläkin havaintojoukolla. Jos selittäviä muuttujia on muutamia, on havaintojen vähimmäismäärä noin 50, mutta mielellään noin 100 havaintoa. Usein käytännönsyistä näistä ehdoista joudutaan joustamaan. Regressiomalli toimii kuitenkin varsin hyvin pienelläkin aineistolla, jos muut ehdot täyttyvät. (Nummenmaa, 2004.)

53