• Ei tuloksia

7. AINEISTO JA MENETELMÄT

7.2 Muuttujat

Analyysimenetelmien valintaa ja tilastollisten testien suorittamista ohjaa muuttujien mitta-asteikko. Muuttujat jaetaan usein kategorisiin ja jatkuviin muuttujiin. Sosiaalitieteellisessä tutkimuksessa muuttujien mitta-asteikkovaatimukset ovat usein tulkinnallisesti väljempiä kuin mitä ne teoriassa ovat. Esimerkiksi Likert-asteikolla mitatut muuttujat käsitetään järjestyasteikollisen sijaan välimatka-asteikollisina, jatkuvina muuttujina. (Jokivuori & Hietala 2007, 8.) Yksittäisiä muuttujia voidaan yhdistää yhdeksi muuttujaksi ja näin tehdä niistä

54

summamuuttuja. Summamuuttujan reliabiliteettia, sisäistä johdonmukaisuutta, voidaan tarkastella Cronbachin alfan (α) avulla. Sen avulla voidaan tutkia, mittaavatko summamuuttujan (mittarin) eri osiot samaa asiaa. (Nummenmaa 2009, 356.) Mikäli kertoimen itseisarvo on vähemmän kuin 0,7, pidetään reliabiliteettiä pienenä (em. 378). Summamuuttujia voidaan kohdella jatkuvina muuttujina (Jokivuori & Hietala 2007, 8).

Tilastollisten analyysien ja testien käyttöä edeltää aineiston kuvaileminen erilaisten tilastollisten tunnuslukujen avulla. Muuttujien jakaumia kuvaillaan tarkoituksena tiivistää suuri määrä informaatio helpommin omaksuttavaan muotoon sekä saada alustava käsitys aineiston sisältämistä ilmiöistä. (Nummenmaa 2009, 56.) Yhden muuttujan jakaumia tarkastellaan yleensä sijaintilukujen ja hajontalukujen avulla. Sijaintiluvuista keskiluvut kuvaavat jakauman sijaintia x-akselilla eli niiden tyypillistä suuruutta. Hajontaluvut kertovat havaintoarvojen sijoittumisesta keskiluvun ympärille. Käytetyimpiä tunnuslukuja kuvaamaan jakauman sijaintia ja hajontaa ovat keskiarvo ja keskihajonta. (Nummenmaa, Holopainen & Pulkkinen 2018, 70–79.) Keskihajonta kuvaa yksilöidenvälistä vaihtelua mitattavassa muuttujassa (Nummenmaa 2009, 67).

Lisäksi yksiulotteisten jakaumien kuvailuun käytetään vinous- ja huipukkuusarvoja. Vinouden avulla voidaan päätellä, kuinka symmetrinen jakauma on ja sisältääkö se poikkeavia arvoja.

Huipukkuusarvo kertoo jakauman terävyydestä eli siitä, kuinka tiheästi havaintoarvot ovat sijoittuneet keskiarvon ympärille. Symmetrisen jakauman tapauksessa kummankin arvo on nolla. (Nummenmaa, Holopainen & Pulkkinen 2018, 85–86.) Kuitenkin tästä voidaan poiketa etenkin isojen aineistojen tapauksessa (N > 30) eikä normaalijakaumaoletuksesta poikkeaminen merkittävästi vääristä tuloksia (Ghasemi & Zahediasl 2012). Etenkin vinouden tarkasteleminen on tärkeää, sillä tilastollinen testaaminen usein edellyttää, että jakauma ei ole liian vino (Nummenmaa 2009, 71).

Sosiaalinen dominanssi

Selitettävänä muuttujana tutkielmassa on sosiaalisen dominanssin orientaatio, jota mitataan kolmentoista kysymyksen mittarilla. Vastaajaa pyydetään seitsemänportaisella asteikolla vastaamaan, mihin väittämistä hänellä kohdistuu myönteisiä tai kielteisiä tunteita.

Vastausvaihtoehdot vaihtelevat äärimmäisen kielteisestä (1) äärimmäisen myönteiseen (7).

Mittarissa on hiearkioiden ja eriarvoisuuden suosimista mittaavia väittämiä, kuten ”jotkut

55

ihmisryhmät vain eivät ole samanarvoisia kuin muut”. Mittariin sisältyvät muuttujat listataan tarkemmin liitteessä 1.

Mittarin väitteistä tehtiin summamuuttuja, joka kuvaa sitä, kuinka paljon vastaaja suosii eriarvoisuutta ja vastustaa ryhmienvälistä hierarkkisuutta. Mittari on validoitu neljätoistaosainen SDO:n mittari (Pratto, Sidanius, Stallworth & Malle 1994), josta on jätetty yksi kysymys pois. Mittarin reliabiliteetti on hyvä (Cronbachin alfa = 0,79). Summamuuttujan (N = 497) vaihteluväli on 7–85, keskiarvo on 32,6, keskihajonta 14,89. Jakauman vinous on 0,47 ja huipukkuus -0,45.

Kielteisen sisällön kohtaaminen Internetissä

Kielteisten, sosiaalisia ryhmiä koskevien nettisisältöjen kohtaamista mitataan kyselylomakkeen neliportaisella kysymyksellä “Kuinka usein näet netissä sellaista materiaalia, jossa ilmaistaan kielteisiä näkemyksiä jostakin ryhmästä?’’. Vastausvaihtoehdot ovat 1 = En koskaan näe sellaista materiaalia, 2 = Näen hyvin harvoin sellaista materiaalia, 3

= Näen silloin tällöin sellaista materiaalia ja 4 = Näen usein sellaista materiaalia. Muuttujan keskiarvo on 2,88 ja keskihajonta 0,77. Muuttuja (N = 497) on normaalisti jakautunut (vinous -0,33, huipukkuus -0,22).

Empatia

Vastaajan empaattisuutta mitattiin kuusitoistakohtaisella, validoidulla Toronton empatiamittarilla (Spreng, McKinnon, Mar & Levine 2009). Vastaajalle esitettiin väitteitä ja häneltä kysyttiin, kuinka usein hän tuntee tai toimii niissä kuvatulla tavalla. Väitteet olivat viisiportaisia ja vastausvaihtoehdot olivat 1 = En koskaan, 2 = Harvoin, 3 = Joskus, 4 = Usein ja 5 = Aina. Mittarissa on väitteitä, kuten “kun joku muu on innostunut, innostun helposti itsekin” sekä “muiden ihmisten epäonnisuus ei juuri häiritse minua”. Summamuuttujaan sisältyvät muuttujat listataan liitteessä 1. Mittarin reliabiliteetti on erittäin hyvä (Cronbachin alfa = 0,87). Muuttujan (N = 497) vaihteluväli on 9–40, keskiarvo 30,1 ja keskihajonta 5.

Muuttujan jakauman vinous on -0,34 ja huipukkuus -0,26.

56 Oikeistopopulismin kannatus

Oikeistopopulististen näkemysten kannatusta tarkastellaan puoluekannatusta mittaavalla kysymyksellä ”Mitä poliittista puoluetta lähimpänä koet olevasi?’’ Vastausvaihtoehdot olivat 1. Suomen Keskusta, 2. Perussuomalaiset, 3. Kansallinen kokoomus, 4. Vihreä Liitto, 5.

Vasemmistoliitto, 6. Suomen ruotsalainen kansanpuolue, 7. Suomen sosiaalidemokraattinen puolue, 8. Suomen kristillisdemokraatit ja 9. Sininen tulevaisuus. Kategorinen muuttujasta tehtiin dummy-muuttuja koodaamalla Perussuomalaisten ja Sinisen tulevaisuuden läheisimmäksi puolueeksi kokeminen = 1 (n = 117) ja muut puolueet = 0 (n = 359).

Demografiset taustamuuttujat

Regressioanalyysissä kontrolloidaan demografisista muuttujista sukupuoli ja ikä. Miehiä aineistossa oli 34,1 % (N = 170) ja naisia 65,9 % (N = 328) Analyysissä havaintoyksiköt on painotettu sukupuoliepäsuhdan korjaamiseksi siten, että miesten painokerroin aineistossa on 1,50 ja naisten 0,74. Painokerroin huomioon ottaen vastaajista miehiä oli 51 % (n = 254) ja naisia 49 % (n = 244). Sukupuolesta tehtiin dummy-muuttujalla koodaamalla mies = 1 ja nainen = 0. Vastaajien ikä vaihtelee välillä 18–26. Vastaajien keskimääräinen ikä oli 21,5 vuotta ja keskihajonta 2,33 vuotta. Muuttujan jakauman vinous on 0,08 ja huipukkuus -1,32.

57 Taulukko 1. Muuttujien kuvailevat tunnusluvut

Muuttuja N ka kh vaihteluväli α

Selitettävä SDO Selittävät

Kielteisten sisältöjen kohtaaminen Empatia

Poliittinen identifioituminen

497 32,6 14,89 7–85 0,79

497 2,88 0,77 1–4

497 30,1 5 9–40 0,87

476 0–1

oikeistopopulismi 117

muut 359

Taustamuuttujat Ikä

Sukupuoli

mies nainen

497 21,46 2,32 18–26

498 0–1

254 244

Poliittinen identifioituminen: 1 = oikeistopopulismiin identifioituvat 0 = muut

Sukupuoli: 1 = mies 0 = nainen, sukupuolimuuttujan frekvenssit painotettuina

58 7.3 Analyysimenetelmät

Korrelaatio

Selittävien ja selitettävän muuttujien yhteyksiä tarkastellaan korrelaatiokertoimien avulla, jotta saadaan käsitys muuttujien välisistä yhteyksistä ja alustavasti varmistutaan regressioanalyysin käytön edellytyksistä. Pearsonin tulomomenttikorrelaatiokertoimella r voidaan tarkastella kahden muuttujan välistä lineaarista yhteyttä. Kerroin on parametrinen, eli sen käyttäminen edellyttää, että muuttujat ovat normaalisti jakautuneita ja että ne on mitattu vähintään välimatka-asteikko. Kertoimen arvot vaihtelevat välillä [-1,1]. Negatiivinen kerroin merkitsee sitä, että toisen muuttujan arvojen kasvaessa toisen muuttujan arvot pienenevät ja vastaavasti positiivinen kerroin osoittaa samansuuntaisen yhteisvaihtelun. (Nummenmaa 2009, 279–280.) Lisäksi tarkasteluun sisällytetään sukupuoli eli kategorinen muuttuja. Tällaistenkin muuttujien yhteisvaihtelua voidaan tarkastella korrelatiivisten menetelmien avulla, jotka usein perustuvat Pearsonin korrelaatiokertoimeen. Piste-biseraalinen korrelaatiokerroin (Point-Biserial Correlation) on Pearsonin korrelaatiokerroin, jota voidaan soveltaa sellaiseen muuttujapariin, jossa toinen on dikotominen ja toinen jatkuva muuttuja. Kertoimen tulkinta kuitenkin poikkeaa Pearsonin kertoimen tulkinnasta, sillä dikotomisen muuttujan numeroarvot ovat mielivaltaiset.

Tässä tapauksessa kerrointa tulkitaan siten, että kertoimen itseisarvon etumerkki ilmaisee, eroaako ykköseksi koodatun havaintoryhmän keskiarvo nollaksi koodatun havaintoryhmän keskiarvosta. Mikäli kerroin on negatiivinen, ryhmän 1 keskiarvo on pienempi kuin ryhmän 0 ja kääntäen. Nolla ilmaisee yhteisvaihtelun puuttumisen. (Howell 2002, 297–299.)

Lineaarinen hierarkkinen regressioanalyysi

Selitettävän ja selittävien muuttujien yhteyden analysoimiseksi menetelmänä käytetään regressioanalyysiä. Regressioanalyysi on monimuuttujamenetelmä, jonka avulla tutkitaan kahden tai useamman selittävän muuttujan vaikutusta selitettävään muuttujaan. Lineaarinen regressioanalyysi mallintaa matemaattisesti selitettävän muuttujan eli riippuvan muuttujan lineaarista eli suoraviivaista riippuvuutta selittävistä muuttujista. Menetelmän etuna on, että sen avulla voidaan tarkastella useamman selittävän muuttujan yhteyttä selitettävään muuttujaan samanaikaisesti. (Jokivuori & Hietala 2007, 40.) On kuitenkin huomioitava, että huolimatta muuttujien jakamisesta selittäviin ja selitettäviin regressioanalyysi ei kerro mitään

59

aineiston kausaalisuhteista. Syy-seuraussuhteen selvittämiseksi tarvittaisiin tietoa ainakin muuttujien välisestä tilastollisesti yhteydestä ja siitä, että selittävän muuttujan arvot kausaalisesti edeltävät selitettävän muuttujan arvoja sekä kausaalisuhteen säilymisestä muiden muuttujien vaikutuksen kontrolloinnin jälkeen (Em. 27).

Regressioanalyysi on kuitenkin korrelatiivinen menetelmä: pelkästään sen avulla ei voida tehdä päätelmiä kausaalisuhteista. Menetelmä siis perustuu pitkälti korrelaatioiden tarkasteluun.

Regressioanalyysillä voidaan muuttujien yhteyksien mallintamisen lisäksi ennustaa selitettävän y-muuttujien arvoja, mikäli selittävien x-muuttujien arvot tunnetaan ja päinvastoin (Nummenmaa 2009, 309). Regressioanalyysin tavoitteena on muodostaa ”mahdollisimman yksinkertainen teoreettisesti mielekäs malli, joka kuvaa aineiston yhteisvaihtelun mahdollisimman hyvin” (em. 316–317). Mallintamisen lisäksi regressioanalyysiä käytetään hypoteesien testaamiseen (Chatterjee & Simonoff 2012, 4). Monimuuttujamenetelmänä regressioanalyysillä ennustetaan välimatka- tai suhdelukuasteikollisen riippuvan muuttujan arvoja joukolla välimatka- tai suhdelukuasteikollisia riippumattomia muuttujia (Treiman 2009, 104). Regressioanalyysin tärkein oletus onkin muuttujien väliset lineaariset yhteydet (Nummenmaa 2009, 315), selitettävän ja selittävien muuttujien korreloiminen keskenään (Metsämuuronen 2002, 22).

Myös laatueroasteikollisia muuttujia voidaan käyttää selittävinä muuttujina. Tällöin regressioanalyysi toimii yksisuuntaisen varianssianalyysin tavoin ja pyrkii selittämään vaihtelua selitettävässä muuttujassa luokkiin jakautumisen perusteella. Laatueroasteikolliset muuttujat tulee kuitenkin dummy-koodata. Tällöin jokaisesta selittävän muuttujan luokasta tehdään oma muuttujansa. Yksittäinen havainto voi saada joko arvon 1 tai arvon 0. Mikäli havaintoarvo kuuluu tiettyyn havaintoluokkaan, se saa arvon 1 ja vastaavasti luokkaan kuulumaton havainto saa arvon 0. (Nummenmaa 2009, 325–326.) Dummy-muuttujien regressiokerroin ilmoittaa, kuinka paljon arvon 1 saava ryhmä eroaa havainnoista, jotka saavat arvon 0. Kuitenkin yksi muuttujan vastauskategoria tulee jättää dummy-muunnosten ulkopuolelle, jotta ei synny lineaarista riippuvuutta eli tilannetta, jossa yksi riippumaton muuttuja on toisten riippumattomien muuttujien funktio, jolloin neliösumman menetelmä ei toimisi. Pois jätetty kategoria toimii referenssiluokkana. (Treiman 2009, 121–122.)

Regressioanalyysin avulla pyritään muodostamaan sellainen tilastollinen malli, joka on mahdollisimman tarkka kuvaus aineistosta, mutta ei kuitenkaan täysin identtinen siihen verrattuna (Chatterjee & Simonoff 2012, 4). Jäännöstermi, residuaali, tarkoittaa havaitun ja

60

ennustetun selitettävän muuttujan arvojen erotusta. Se siis kuvaa y-muuttujan vaihtelua, jota malli ei selitä. (Nummenmaa 2009, 310.) Matemaattinen malli, jolla voidaan laskea selitettävän muuttujan arvot selittävien muuttujien avulla, muodostetaan minimoimalla kaikkien jäännöstermien neliöiden yhteenlaskettu summa. Ennusteen virheet, residuaalit, neliöidään ja lasketaan yhteen. Kun summa on pienin mahdollinen, sijoitetaan regressiosuora aineistoon.

Pienimmän neliösumman menetelmällä estimoidaan sellainen lineaarinen yhteys, joka parhaiten mallintaa selittävän ja selitettävän muuttujan yhteyttä. Toisin sanoen pienimmän neliösumman menetelmällä aineistoon, havaintopisteiden keskelle sovitetaan sellainen regressiosuora, joka minimoi havaittujen ja ennustettujen arvojen neliöidyn summan. (Treiman 2009, 90–92.)

Malliin sisällytettävien selittävien muuttujien yhteyttä selitettävään muuttujaan tarkastellaan regressiokerrointen avulla. Regressiokertoimet esitetään standardoidussa muodossa (β, beta).

Tämä tarkoittaa sitä, että malliin sisältyvät selittävät ja selitettävä muuttuja standardoidaan ennen mallin muodostamista. ”Tällöin kaikkien muuttujien keskiarvoksi tulee 0 ja keskihajonnaksi 1. […] Standardoitu regressiokerroin siis ilmoittaa, kuinka paljon y-muuttujan arvot kasvavat/pienenevät, kun muuttuja x muuttuu yhden keskihajonnan verran ja kaikki muut selittäjät (x:t) pidetään vakiona.” (Nummenmaa 2009, 322.) Standardoimisen seurauksena regressiokertoimet eivät enää noudata omaa mittayksikköään, jolloin kertoimien vertaileminen keskenään mahdollistuu (em. 322). Vakiotermi puolestaan kertoo estimoidun arvon kohdemuuttujalle silloin, kun selittävien muuttujien arvo on nolla. Tämä on kuitenkin mielekäs tulkinta vain, jos selittävät muuttujat voivat käytännössä saada arvon nolla. (Chatterjee &

Simonoff 2012, 9.)

”Koska regressioanalyysissä pyritään muodostamaan malli, joka kuvaa aineistossa esiintyvää vaihtelua, on regressioanalyysissä arvioitava ennen kaikkea sitä, kuinka hyvin käytetty malli pystyy toistamaan alkuperäiset havaintoarvot” (Nummenmaa 2009, 319). Regressioanalyysin arvioimiseksi tarkastellaan muun muassa mallin sopivuutta, selitysastetta, selittäjien sopivuutta ja jäännöstermejä. Mallin sopivuutta ja selitettävän muuttujan vaihtelua voidaan arvioida Fisherin F-suhteella (Nummenmaa 2009, 320). F-suhde määrittää tilastollisen merkitsevyyden sille varianssin määrälle, jonka selittävä muuttuja selittää kohdemuuttujassa (Cramer 2003, 65).

F-suhteen itseisarvo on suuri, jos malli selittää hyvin riippuvan muuttujan vaihtelua ja jäännöstermit ovat pieniä. F-suhde ilmaisee selitetyn ja selittämättä jääneen vaihtelun suhteen.

61

Mallin avulla selitetyn ja selittämättä jääneen vaihtelun avulla voidaan yksisuuntaisen varianssianalyysin keinoin tarkastella mallin sopivuutta. (Nummenmaa 2009, 320.) Varianssianalyysi tarkastelee yhteisvarianssia, ryhmien välistä sekä ryhmien sisäistä varianssia ja tätä analyysiä käytetään sen erottelemiseen, onko kyseessä riippumattoman muuttujan aiheuttama vaihtelu vai tutkittavien yksilöllisistä eroista aiheutuva vaihtelu. Varianssianalyysi siis tarkastelee, onko ryhmien välinen vaihtelu suurempaa kuin ryhmän sisäinen. (Em. 184–

191.) Jos F-suhde on tilastollisesti merkitsevä (p < 0,05), malli on aineistoon sopiva.

Mikäli malli sopii aineistoon, regressiomallia voidaan arvioida selitysasteen (𝑅2) avulla.

Selitysaste kuvaa osuutta, jonka selittävät muuttujat kykenevät selittämään Y-muuttujan vaihtelusta mallin avulla. Tämä voidaan tulkita multippelikorrelaatiokertoimen neliöstä. Usein kuitenkin käytetään korjattua selitysastetta (𝑅2

ₐ)

, joka ottaa huomioon muuttujien lisäämisen vaikutuksen selitysasteeseen. (Nummenmaa 2009, 320–323.)

Yksittäisten selittävien muuttujien sopivuutta tarkastellessa lähtökohtana on, että mallin kannalta merkityksellisten selittäjien regressiokertoimet ovat suuremmat kuin nolla. Kääntäen ilmaisten mallin kannalta merkityksettömien selittäjien regressiokertoimet ovat nolla tai lähellä nollaa. Kertoimen itseisarvo ilmaisee muuttujien välisen tilastollisen yhteyden suuruuden ja suunnan. Regressiokertoimen (β) tilastollinen merkitsevyys testataan t-testin avulla.

Tavoitteena on arvioida, onko regressiokerroin olemassa myös populaatiossa samansuuruisena eli eroaako se todellisuudessa nollasta. Mikäli t-testin merkitsevyystaso on pienempi kuin .05, muuttuvan voidaan katsoa sopivan malliin. Testi ei kuitenkaan kerro, kuinka paljon tietty muuttuja selittää y-muuttujan vaihtelusta. (Em. 322–323.)

Regressioanalyysin ehdot

Jotta pienimmän neliösumman menetelmä olisi toimiva tapa estimoida muuttujien yhteyksiä, tulee lineaarisen yhteisvaihtelun lisäksi tiettyjen kriteerien täyttyä. Keskeisimmät kriteerit koskevat muuttujien normaalijakautuneisuutta, poikkeavia havaintoja, kollineaarittomuutta, virhetermien homoskedastisuutta ja normaalijakautuneisuutta. (Chatterjee & Simonoff 2012, 8–9; Nummenmaa 2009, 316; Howell 2002, 545.) Muuttujien normaalijakautuneisuus on keskeinen ehto tilastolliselle päättelylle. Normaalijakautuneisuutta voi arvioida silmämääräisesti ja tunnuslukujen avulla. Jakauman tunnusluvuista vinous ja huipukkuus kertovat normaalijakautuneisuudesta: kun arvot ovat lähellä nollaa, muuttuja on normaalista

62

jakautunut. Tabachnick & Fidell 2001, 73.) Muuttujat todettiin graafisella tarkastelulla normaalisti jakautuneiksi. Myöskään muuttujien vinous- ja huipukkuusarvot eivät osoittaneet tästä poikkeamista. Yhteyksien lineaarisuus todettiin tarkastelemalla sirontakuvioita.

Korrelaatiokertoimet ja regressiosuorat ovat herkkiä poikkeaville havainnoille:

regressiosuoran tapauksessa tämä on seurausta siitä, että virhetermit eli residuaalit neliöidään sovitettaessa regressiosuoraa aineistoon, jolloin mitä suuremmasta virheestä on kyse, sitä enemmän se suhteellisesti vaikuttaa neliöityjen residuaalien summaan. Mitä kauempana jakauman keskustasta poikkeavat havainnot eli outlierit ovat, sitä enemmän niillä on vaikutusta regressioanalyysin kannalta. (Treiman 2009, 94–95.) Regressiomallin ei tulisi perustua aineiston osajoukolla; mallin tulisi pikemminkin kuvata aineistossa alla piilevää prosessia, eikä tähän kuvaukseen poikkeavat arvot saisi liikaa vaikuttaa (Chatterjee & Simonoff 2012, 54).

Poikkeava arvo eli outlier on havainto, jonka arvo on epätavallinen suhteessa odotettuun arvoon. Äärimmäinen, analyysimenetelmän tuloksia mahdollisesti vääristävä arvo voi koskea yhtä muuttujaa tai havaintojen yhdistelmää (Tabachnick & Fidell 2001, 66). Poikkeavalla arvolla saattaa olla vaikutusta regressiosuoraan ja erilaisiin tunnuslukuihin kuten selitysasteeseen ja keskivirheeseen, joten ne on huomioitava aineistoa tarkastellessa.

(Chatterjee & Simonoff 2012, 56–58.) Mahalanobisin etäisyyttä käytetään muuttujayhdistelmien (multivariate outliers) poikkeavien arvojen tunnistamiseen (Tabachnick

& Fidell 2001, 68). Kriteeri poikkeavalle arvolle on Mahalanobisin etäisyys, jonka p-arvo on alle 0,001 (em. 93). Aineistossa oli kaksi havaintoa, joiden tarkastelu Mahalanobisin etäisyyden perusteella antoi selvästi olettaa olevan poikkeavia havaintoja (p < 0,01).

Tarkastelun jälkeen kyseiset poikkeavat havainnot poistettiin aineistosta.

Poikkeavien arvojen lisäksi puuttuvat arvot voivat vaikuttaa johtopäätösten luotettavuuteen.

Aineistossa oli puuttuvia arvoja ja niiden määrä vaihteli tarkasteltavien muuttujien osalta.

Tärkeä kysymys puuttuviin arvoihin liittyen on, onko niissä systemaattisuutta vai ovatko puuttuvat arvot jakautuneet satunnaisesti aineistoon. Tuloksia voi vääristää tilanne, jossa puuttuvat arvot yhteydessä jonkin toisen muuttujan arvoihin. (Tabachnick & Fidell 2001, 58–

59.) Jos esimerkiksi tiettyyn ryhmään kuuluvat vastaajat jättävät muita useammin vastaamatta johonkin kysymykseen, voi tämä aiheuttaa systemaattista harhaa tuloksiin. Puuttuvien arvojen satunnaisuutta tarkasteltiin Little’s Missing Completely at Random (MCAR) -testillä. Testin nollahypoteesi on, että puuttuvat arvot ovat satunnaisesti jakautuneet aineistoon. (Em. 63, 554.)

63

Testin tulos ei ollut tilastollisesti merkitsevä (Chi-square = 1,43, df = 3, p > 0,05), joten nollahypoteesi jää voimaan.

Kollineaarisuusehto koskee selittävien muuttujien keskinäisiä yhteyksiä. Selittävät muuttujat eivät saa korreloida keskenään liian voimakkaasti. (Nummenmaa 2009, 316.) Selittäjien korreloiminen keskenään on ongelmallista, sillä se vaikeuttaa selittävien muuttujien merkityksen arvioimista. Tällöin selitettävän ja selittävän muuttujan korreloiminen, niiden jakama varianssi saattaa olla ennustettavissa muista selittävistä muuttujista. (Tabachnick &

Fidell 2001, 139.) Multikollineaarisuus suurentaa regressiokerrointen keskivirheitä ja näin vinouttaa niiden todellista tilastollista merkitsevyyttä (em. 118). Muuttujien korreloidessa voimakkaasti keskenään saattaa multikollineaarisuuden lisäksi esiintyä singulaarisuutta, mikä tarkoittaa muuttujan sisältymistä johonkin toiseen muuttujaan. Tässäkin tapauksessa muuttujat sisältävät tarpeetonta informaatiota. (Em. 82–83.)

Multikollineaarisuutta ja singulaarisuutta voi alustavasti tarkastella muuttujien korrelaatiomatriisista. Käytännössä vain hyvin korkeat korrelaatiot aiheuttavat ongelmia analyysin kannalta (r > .90). (Tabachnick & Fidell 2001, 84). SPSS (Statictical Package for Social Sciences) laskee muuttujille kollineaarisuustoleranssit. Mitä lähempänä nollaa toleranssin itseisarvo on, sitä kollineaarisempi on selittävä muuttuja. Toleranssiarvon tulisi olla lähellä arvoa 1. Käyttökelpoisena nyrkkisääntönä voidaan pitää .10:n rajaa, jonka alittaminen katsotaan ongelmalliseksi. (Nummenmaa 2009, 323–324.) Regressiomallin toleranssiarvot olivat lähellä arvoa 1. Toleranssiarvot raportoidaan liitteessä 3.

Virhetermien varianssin tulisi olla vakio, eli residuaalien tulisi olla homoskedastisia. Mikäli residuaalit ovat heteroskedastisia, eli virhetermien varianssi ei ole vakio, pienimmän neliösumman menetelmä ei onnistu arvioimaan parametrejä yhtä tehokkaasti sekä luottamus- ja ennustevälien arvioiminen ei ole onnistunutta. Virhetermien tulisi lisäksi olla normaalisti jakautuneita. Normaalijakautuneisuus on ehtona luottamus- ja ennustevälien arvioimiselle sekä hypoteesien testaamiselle. (Chatterjee & Simonoff 2012, 8–9.)

Residuaalien tarkastelulla voi selvittää sekä normaalijakautuneisuus- että homoskedastisuusoletuksen toteutumisen ennustettuihin selitettävän muuttujan arvoihin ja virhetermeihin liittyen. Oletukset voi testata tarkastelemalla residuaalien sirontakuvioita.

(Tabachnick & Fidell 2001, 119.) Normal P–P Plot –kuviolla voi tarkastella sekä residuaalien homoskedastisuutta että normaalijakautuneisuutta. Lisäksi kuvio kertoo muuttujien normaalijakautuneisuudesta. (Em. 75–77.) Residuaalien jakautuminen homoskedastisesti

64

viittaa myös muuttujien välisten yhteyksien lineaarisuuteen (Abbott 2017, 422–423).

Residuaalien tarkastelu Normal P–P Plot –kuviolla on esitetty liitteessä 2. Residuaaleissa ei esiintynyt poikkeavia kuvioita eikä homoskedastisuutta siis esiinny.

Regressiomallin muodostaminen

Regressioanalyysin malli voidaan muodostaa ja malliin tulevat muuttujat valita usealla eri tavalla. Tärkein jaotteleva tekijä on muuttujien tilastollisen selitysvoiman ja teoreettisen mielekkyyden välillä. Tässä tutkielmassa regressiomalli määritellään teorian perusteella:

muuttujat valitaan teoreettisen taustan pohjalta eikä mahdollisimman suureen selitysvoimaan perustuen. SPSS nimeää tämän tavan valita muuttujat enter-menettelyksi. Tätä voidaan useimmiten pitää parhaana vaihtoehtona. Tällöin voidaan testata tutkimushypoteesien paikkansapitävyyttä. Jos malli on aineistoon sopiva ja selitysaste korkea, tutkimushypoteesit pitävät paikkansa aineiston osalta. (Nummenmaa 2009, 317–319.)

Tutkielmassa käytetään hierarkkista regressioanalyysia (hierarchical multiple regression) määrittämään, ”kuinka suuren osuuden tietyn muuttujan varianssista muut muuttujat selittävät silloin, kun nämä muuttujat lisätään malliin tietyssä järjestyksessä ja ovatko nämä osuudet merkitsevästi suuremmat kuin sattuman perusteella voisi olettaa” (Cramer 2003, 74). Selittäviä muuttujia arvioidaan sen perusteella, mitä ne lisäävät malliin silloin, kun ne lisätään siihen.

Jokaiselle selittävälle muuttujalle osoitetaan niiden selittämä uniikki vaihtelu sekä vaihtelu, joka on päällekkäistä muiden selittäjien kanssa. (Tabachnick & Fidell 2001, 131–132.) Useamman selittävän muuttujan regressioanalyysiä käytetäänkin usein tilastollisesti kontrolloimaan tiettyjen muuttujien vaikutus sisällyttämällä ne malliin (Chatterjee & Simonoff 2012, 10).

Mediaatioanalyysi

Mediaatiosta on kyse, kun jokin muuttuja välittää kahden muun muuttujan yhteyttä. Mediaatio viittaa siis sellaiseen tilanteeseen, jossa riippumaton muuttuja vaikuttaa yhden tai useamman muuttujan kautta riippuvaan muuttujaan. (Howell 2002, 574–577.) Mediaationanalyysi pyrkii vastaamaan kysymykseen, miten jokin muuttuja vaikuttaa toiseen muuttujaan, toisin sanoen

65

mikä on se mekanismi, jonka kautta kausaalisesti edeltävä riippumaton muuttuja X vaikuttaa sitä seuraavaan riippuvaan muuttujaan Y (Hayes 2017, 7).

c’

Yksinkertainen mediaatiomalli (kuvio 1.) koostuu kolmesta muuttujasta, selittävästä X-muuttujasta, selitettävästä Y-muuttujasta ja näiden yhteyttä välittävästä M-X-muuttujasta, mediaattorista. Yksinkertainen mediaatiomalli on kausaalijärjestelmä, jossa ainakin yhden X-muuttujan ajatellaan tuottavan variaatiota M-muuttujassa, joka puolestaan aiheuttaa variaatiota Y-muuttujassa. (Hayes 2018, 78.) Kuitenkin on huomattava, että tutkimusasetelmasta ja aineiston poikkileikkauksellisesta luonteesta johtuen tarkasteltavat yhteydet eivät ole kausaalisia vaan tilastollisia, korrelatiivisia yhteyksiä, vaikka mediaatioanalyysin logiikka viittaakin syy-seuraussuhteiden olemassaoloon. Käsitteellä vaikuttaa ei siis tässä esiteltävien regressioperustaisten analyysimenetelmien yhteydessä viitata kausaalivaikuttamiseen vaan tilastollisiin yhteyksiin. Vaikuttaminen viittaa teoreettisesti perusteltuihin yhteyksiin ja niiden oletettuihin suuntiin.

Riippumaton muuttuja X voi vaikuttaa selitettävään muuttujaan Y kahta polkua pitkin.

Yhteyttä riippumattomasta muuttujasta riippuvaan muuttujaan ilman välittävän muuttujan vaikutusta sanotaan suoraksi vaikutukseksi (c’). Toinen polku viittaa epäsuoraan vaikutukseen.

Tällöin riippumattoman X-muuttujan vaikutus Y-muuttujaan kulkee välittävän M-muuttujan kautta, ensin polkua X-muuttujasta M-muuttujaan (a) ja sitten polkua M-muuttujasta Y-muuttujaan (b). (Hayes 2018, 79–80, 82.) Tällöin mediaatioanalyysin tavoitteena on arvioida sekä suoran että epäsuoran vaikutuksen merkitystä. Tämä tehdään laskemalla regressiokertoimet selittäville muuttujille eli riippumattomalle muuttujalle ja mediaattorille.

Tämä tehdään SPSS-ohjelman PROCESS-lisäosalla (em. 82).

Kuvio 1. Yksinkertainen mediaatiomalli skemaattisesti esitettynä (ks. Hayes 2018, 83).

M

X Y

a b

66

Mediaatiomalliin voidaan myös lisätä kovariaatteja kontrolloimaan muuttujien vaikutusta selitettävään muuttujaan. Voi olla, että todellisuudessa kahden muuttujan yhteys voidaan palauttaa johonkin kolmanteen muuttujaan (Hayes 2018, 122). Kuten regressioanalyysissä yleensä, näiden mahdollisten kolmansien muuttujien vaikutus voidaan matemaattisesti kontrolloida ja kertoimet tulkita samalla tavalla kuin regressioanalyysin yhteydessä (em. 124).

Mediaatioanalyysi ei edellytä, että suora vaikutus olisi tilastollisesti merkitsevä. Toisin sanoen, vaikka riippumaton ja riippuva muuttuja eivät olisi tilastollisesti merkitsevässä yhteydessä toisiinsa, mediaatioanalyysi voidaan silti suorittaa. (Hayes 2018, 114.)

X-muuttujan vaikutus jaetaan suoraan ja epäsuoraan vaikutukseen ja näitä tarkastellaan regressiokertoimien avulla. Toisin sanoen suoran polun ja epäsuoran polun kertoimia tulkitaan hyvin samankaltaisesti regressiokertoimiin verrattuna. Kokonaisvaikutus c on epäsuoran ja suoran polun summa (c’ + ab). Suoran polun kerroin arvioi, kuinka suuri on ero selitettävässä Y-muuttujassa, kun kaksi havaintoa saavat M-muuttujalla saman arvon mutta eroavat X-muuttujan arvon suhteen yhden yksikön verran. Epäsuora vaikutus puolestaan laskee, kuinka paljon kaksi havaintoa, joiden arvot X-muuttujalla eroavat yhden yksikön verran, eroavat Y-muuttujan arvoilla seurauksena X-Y-muuttujan vaikutuksesta medioivaan M-muuttujaan ja tämän vaikutuksesta Y-muuttujaan. Tilastollinen päättely liittyen suoraan, epäsuoraan ja kokonaisefektiin voidaan tehdä luottamusvälejä hyödyntäen, jolloin tarkastellaan, sisältyykö tietyn polun kertoimeen arvo nolla. Mikäli luottamusväli (α = 0,05) ei sisällä arvoa nolla, vaikutuksen voidaan ajatella olevan tilastollisesti merkitsevä. (Hayes 2018, 82, 93–95.) Epäsuoran vaikutuksen päättelemiseen voidaan käyttää bootstrapping-menetelmänä tunnettua uudelleenotantamenetelmää. Menetelmässä otosta kohdellaan pienoisrepresentaationa populaatiosta, josta otos on poimittu. Otoksen havainnoille tehdään uudelleenotanta tuhansia kertoja (N = 5000) ja näin syntynyttä empiiristä otantajakaumaa käytetään epäsuoran vaikutuksen tilastolliseen päättelyyn luottamusvälin laskemisen avulla. Epäsuoran polun ab otantajakauman muodosta ei tarvitse tehdä (normaalijakautuneisuus)oletuksia. Bootstrapping on menetelmänä soveltuva, sillä jakaumaoletuksista vapaana se tuottaa tarkempia päätelmiä parempien luottamusvälien takia muihin vastaaviin menetelmiin verrattuna. (Hayes 2018, 97–

98.) Uudelleenotannalla empiirisesti tuotetulla otantajakaumalla voidaan siis tehdä johtopäätöksiä luottamusvälien avulla ilman oletuksia epäsuoran vaikutuksen jakaumasta (em.

427).

67 Moderaatioanalyysi

Moderaatio viittaa tilanteeseen, jossa riippumattoman ja riippuvan muuttujan vaikutus muuttuu kolmannen muuttujan, moderaattorin, arvojen funktiona (Howell 2002, 578). Jos X-muuttujan ja Y-muuttujan yhteyden koko, etumerkki tai voimakkuus riippuu moderoivasta muuttujasta W, moderoivan ja X-muuttujan välillä on interaktio. Yhteyttä moderoivien muuttujien tunnistaminen auttaa selventämään niitä reunaehtoja, joita kahden muuttujan yhteyteen liittyy.

Millä ehdoilla, toisin sanoen kenelle ja missä tilanteissa yhteys on tietynkaltainen. Selittävän ja selitettävän muuttujan yhteys voi siis olla esimerkiksi pieni tai suuri, negatiivinen tai

Millä ehdoilla, toisin sanoen kenelle ja missä tilanteissa yhteys on tietynkaltainen. Selittävän ja selitettävän muuttujan yhteys voi siis olla esimerkiksi pieni tai suuri, negatiivinen tai