• Ei tuloksia

Muuttujien valinta – tilastotieteen puhdasoppisuus ja sosiologian tulkinta

8. Faktorianalyysin tekniset valinnat väitöskirjoissa

8.1. Muuttujien valinta – tilastotieteen puhdasoppisuus ja sosiologian tulkinta

Tilastotieteessä mittaaminen ja mittaamisen tuloksena syntyvät muuttujat nähdään eri tavalla kuin sosiologiassa. Tilastotieteessä mittaaminen yksinkertaistuu mit-ta-asteikkoajatteluun, jossa muuttujat voidaan mitata neljällä eri tavalla. Alkeellisin mittaamisen tapa on sanallisten arvojen sijoittamista luokkiin, joille ei voida asettaa yksikäsitteistä järjestystä. Hieman kehittyneempi mittaaminen tapahtuu sanallisten arvojen sijoittamisella luokkiin, joille on löydettävissä yksikäsitteinen järjestys.

Kaksi kehittyneintä mittaamisen tapaa, välimatka- ja suhdeasteikon mittaaminen, perustuvat numeeristen määrien mittaamiseen. Sosiologiassa mittaaminen on ylei-sesti haasteellisempaa ja monivaiheisempaa kuin tilastotieteessä, kuten edellä on useaan otteeseen tuotu esiin (ks. esim. Stouffer 1953; Patty ja Penn 2015; Smith ja Atkinson 2016; Uprichard 2016; Franzosi 2016). Mitta-asteikkojen näkökulmasta faktorianalyysiin valittavien muuttujien on oltava vähintään välimatka-asteikolla mitattuja, mitä vaatimusta sosiologisten aineistojen muuttujat harvoin täyttävät.

Sosiologit ovat kuitenkin huomanneet, että mitta-asteikkovaatimus ei estä mene-telmien käyttämistä myös alemman mitta-asteikon muuttujiin (ks. esim. Valkonen 1971, 39–40). Väitöskirjoissa on vaihtelevasti huomioitu tai tuotu esiin muuttujien mitta-asteikot.

Faktorianalyysin muuttujavalintakriteerinä korrelaatiokertoimet on mainittu etenkin 1960-luvun väitöskirjoissa. Faktorianalyysin yhteydessä sosiologit ovat kui-tenkaan harvoin eritelleet käyttämäänsä korrelaatiokerrointa. Joitakin mainintoja siihen liittyen kuitenkin löytyy, kuten esimerkiksi Kauko Kämäräisen vuonna 1966 tarkastetussa väitöskirjassa.

Faktorianalyysin lähtökohtana käytettävät korrelaatiot laskettiin ns. Pearso-nin tulomomenttikertoimina, joita lähes poikkeuksetta faktorianalyyttisissa tutkimuksissa näkyy käytetyn. (Kämäräinen 1966.)

Muuttujamuunnokset ovat myös aluetta, jossa tilastotieteen ja sosiologian ajattelu eroavat. Sosiologit tuovat väitöskirjoissaan jonkin verran esille myös muita muuttujien ominaisuuksille tilastotieteessä asetettuja vaatimuksia, joita heidän aineistossaan olevat muuttujat eivät kuitenkaan täytä. Tällaisia ovat esimerkiksi ja-kaumien normaalisuus, symmetrisyys tai jatkuvuus. Muuttujille, jotka eivät noudata tilastotieteessä asetettuja ehtoja, voidaan tehdä erilaisia matemaattisia muunnoksia, joiden tavoitteena on saada muuttujat tilastomatemaattisesti sopivaan muotoon.

Olavi Riihinen kuvaa vuonna 1965 painetussa sosiaalipolitiikan väitöskirjassaan faktorianalyysin käyttöä kattavasti. Riihinen ottaa esiin muuttujien normalisoinnin.

Hänen mukaansa useat tuon ajan tutkijat ovat normalisoineet faktorianalyysissa käytetyt muuttujat (Riihinen 1965, 114). Syiksi normalisointiin Riihinen arvelee nimenomaan tilastollisten menetelmien perustumista normaalijakaumaoletukseen.

Sosiologian väitöskirjoissa mainitaan normalisointi muun muassa vuonna 1966 ja 1994 tarkastetuissa väitöskirjoissa:

Varsinkin ekologisissa tutkimuksissa yleisesti tarpeelliseksi katsottua muut-tujien muuntamista samaa tilastojakaumaa noudattaviksi sanotaan normali-soimiseksi. Normalisointi suoritettiin T-asteikon perusteella. (Kämäräinen 1966.)

Lopulliseen faktorianalyysiin jäi näin neljä muuttujaa. Ensin havaitut muut-tujat standardoitiin. Pääkomponenttianalyysiä käyttäen muodostettiin initi-aaliratkaisu ja siitä valittiin kaksi pääkomponenttia rotatoitavaksi. (Nyyssölä 1994.)

Muuttujien jakauma voidaan saada muuttujamuunnosten avulla noudattamaan tilastotieteellisiä ihanteita, mutta niiden haittapuolena on muuttujan tulkinnalli-suuden menettäminen. Kahdesta sosiologian väitöskirjasta löytyy perusteluja, miksi esimerkiksi normalisointiin ei ole päädytty.

Faktorianalyysin muuttujille on tehty myös muita muunnoksia. Muutamassa väitöskirjassa kerrotaan, että muuttujille on tehty logaritmimuunnos (esim. Niemi

1978). Muuttujia on myös vakioitu osittaiskorrelaatiokertoimen avulla (esim. Ran-talaiho 1968) ja joissakin tapauksissa myös dikotomisoitu (Leimu 1983; Heikkilä 1990). Dikotomisointia eli muuttujien luokittelua kaksiarvoisiksi on joissakin ta-pauksissa perusteltu sillä, että alkuperäisessä muodossaan muuttujat eivät täytä tilas-totieteellisiä mitta-asteikkovaatimuksia, ja dikotomisoinnilla päästään toisenlaisen, tilastotieteellisessä mielessä luvallisen, menetelmäversion soveltamiseen.

Tavallisissa faktorianalyysimenetelmissä oletetaan, että havaittavat muuttujat on mitattu vähintään intervalliasteikolla. Koska tässä tarkasteltavat muut-tujat eivät täytä kyseistä ehtoa, käytettiin erästä dikotomisten muuttujien käsittelyyn soveltuvaa faktorianalyysimallia. Tätä varten kaikki muuttujat dikotomisoitiin. (Leimu 1983)

Dikotomisointi on voinut toimia myös normalisoinnin vaihtoehtona, kun fakto-rianalyysiin on valittu eri asteikkoa olevia muuttujia.

Analyysiin sisällytetään kaikki seitsemän keskeistä elinolomuuttujaa sekä joukko sellaisia taustamuuttujia, joilla aiemman analyysin valossa voidaan olettaa olevan erottelevaa vaikutusta suhteessa elinolojen puutteisiin ja jotka ovat loogisesti toisistaan riippumattomia. Taustamuuttujat mittaavat asuina-lueen taajama-astetta ja alueellista sijaintia, sukupuolta, ikää sekä perhetyyp-piä (alaviite: kaikki koodattu 1/0-muuttujiksi…). (Heikkilä 1990.)

Erilaiset ja eri asteikkoa olevat muuttujat saadaan edellä mainittujen muun-nosten avulla ”tasapäistettyä” eli muunnettua saman asteikkoisiksi ja ehkä vaiku-tuksiltaan samanarvoisiksi ja näin ollen tilastomatemaattisesti hyvin toimiviksi.

Koska tilastomatemaattisissa muunnoksissa on vaarana tulkinnallisuuden menet-täminen, on muuttujamuunnoksia käytettäessä syytä pohtia, kuinka paljon niitä voidaan tehdä sisällön ja tulkinnallisuuden kustannuksella. Erityisesti tieteissä, joissa tutkittavan kohteen mittaaminen on epätarkkaa, olisi mitattujen muut-tujien analysoinnissa syytä olla maltillinen ja käyttää vain sellaisia menetelmiä, joiden tulkinnallisuuden pystyy takaamaan. Rantalaiho (1998) ja Alastalo (2005, 13) ovat tuoneet esiin vertauksen Keisarin uudet vaatteet -satuun viitatessaan kvantitatiivisen tutkimuksen sudenkuoppiin, erityisesti mittaamiseen ja aineiston keruuseen liittyen. Sama vertaus sopii myös muuttujamuunnosten käyttämiseen kvantitatiivisessa analyysissa. Muuttujamuunnokset ovat matemaattisesti vakuut-tavia ja niiden käyttäminen on tilastomatemaattisesti perusteltua. Liiallinen ma-temaattisuus ja sisällöstä irrottautuminen voi kuitenkin aiheuttaa tilanteen, jossa tutkija ja tutkimusta lukeva yleisö eivät enää pysty ymmärtämään analyysin tuotta-maa tulosta, mutta vakuuttuneina menetelmän matetuotta-maattisesta hienoudesta ovat ymmärtävinään sen.

Muuttujien arvot. Muutamissa 1960- ja 1970-luvulla suoritetuissa faktoriana-lyyseissa on mukana hyvin erilaisia arvoja saavia muuttujia. Syyksi tähän arvelen faktorianalyysin suorittamisen suurissa keskustietokoneissa. Koska yhden fakto-rianalyysin suorittamiseen meni aikaa joskus jopa viikko (Töttö 2004, 196; Kutvo-nen 2004), on ymmärrettävää, että analyysissa haluttiin pitää mukana niin monia muuttujia kuin mahdollista.

Aineiston koko. Siitä, kuinka paljon havaintoja, vastaajia, aineistossa on oltava faktorianalyysin suorittamiseksi, on olemassa monia näkemyksiä (ks. esim. Hair ym.

1998). Kuva 34 esittää sosiologian väitöskirjojen faktorianalyyseissa käytettyjen ai-neistojen koot. Niissä havaintojen määrät vaihtelevat 15:stä 16715:een. Pienimmät aineistot ovat olleet käytössä vuosina 1961–1970 tarkastetuissa väitöskirjoissa. Alle sadan havainnon alue on merkitty punaisella lähinnä osoittamaan erästä tilastoma-temaattisessa mielessä asetettua minimirajaa aineiston koolle. Pääsääntöisesti so-siologit ovat pystyneet ”ylittämään” tämän rajan. Aineistojen koot kasvavat selvästi 1970-luvun lopulta alkaen. Ensimmäinen mieleen tuleva selitys aineistojen havain-tomäärien kasvuun on tietokoneiden ja tietoverkkojen tuoma helpotus työmäärään.

Aluksi tietokoneet helpottivat aineiston tallentamista ja analyysin suorittamista, mutta 2000-luvulla tietoverkot mahdollistivat myös tietojen sähköisen keräämisen ja niiden automaattisen tallentumisen aineistoiksi. Sähköiset kyselyt ovat mahdollis-taneet postikyselyä suuremman vastaajamäärän hankkimisen. Postikyselyä tehtäessä tutkijan on jo aineistonkeruuta suunnitellessaan laskettava vastaajamäärän aiheut-tamat kustannukset, jotka aiheutuvat otannan suorittamisesta ja postimaksuista.

Kustannusten ohella myös muut seikat, esimerkiksi maantieteellinen sijainti, rajoit-tavat aineistonkeruun kattavuutta. Toisaalta kyselyjen yleistyessä on vastaajakadon määrä lisääntynyt. 1970-luvulla pyrittiin 80 %:n vastausprosenttiin, 1980-luvulla oltiin tyytyväisiä 70 %:iin. Vastausprosenttien alkaessa laskea pidettiin ”kipurajana”

50 %:a, mutta siitäkin on luovuttu 2000-luvulla (ks. esim. Taanila 2019; Ruskoaho ym. 2010; de Leeuw 2008). Vastausprosentista ja erilaisista tiedonkeruutavoista on olemassa kansainvälisiä tutkimuksia, mutta suomalaisia tutkimuksia on vähän. Tällä hetkellä tiedonkeruutapojen tutkimisessa on haasteena se, että käytännöt muuttu-vat nykyisinä aikoina niin nopeasti, että tutkimusten on vaikeaa pysyä muutosten tahdissa.

Analyysiin valittujen muuttujien määrä. Analyysiin valittavien muuttujien määrän suhteen sekä menetelmäoppaat että sosiologit tasapainottelevat matemaat-tisten ja sisällöllisten kriteerien välillä. Matemaattiselta kannalta on suositeltavaa pitää muuttujien määrä maltillisena. Hair ym. (1998, 99) havainnollistavat muut-tujien määrän vaikutusta esimerkillä, jossa faktorianalyysiin valitaan 30 muuttujaa, jolloin niiden välisiä korrelaatioita syntyy 435 kappaletta. Näin suuresta korrelaati-oiden määrästä seuraa, että 5 %:n merkitsevyystasolla voi jopa 20 korrelaatiota olla tilastollisesti merkitseviä vain sattumalta. Sisällölliset seikat huomioiden taas on suositeltavaa, että muuttujia valitaan riittävästi niin, että ne kattavat faktorianalyysin

kohteena oleva aihepiirin riittävässä määrin. Sosiologian väitöskirjoissa faktoriana-lyysien muuttujamäärä vaihtelee välillä 3–56.

Kuva 34 Faktorianalyysissa käytettyjen aineiston koot vuosina 1960–2007

Faktorianalyysin palvelee sosiologista tutkimusta parhaiten silloin, kun muut-tujavalinnoissa huomioidaan myös sisällölliset kriteerit. Ne voivat perustua esi-merkiksi omaan harkintaan, aikaisempaan tutkimustietoon ja/tai teoreettisiin lähtökohtiin. Tätä korostavat myös Hair ym. (1998, 96–97) kirjoittaessaan, että faktorianalyysi ei pysty tekemään ihmeitä. Jos tutkija ei käytä lainkaan harkin-taansa muuttujien valinnassa, on turha odottaa analyysinkaan paljastavan mitään kovin järkeviä tuloksia. Tällöin faktorianalyysissa on vaarana ”roskaa sisään, roskaa ulos” -ilmiö. (Hair ym. 1998, 96–97.) Sosiologit tuovat väitöskirjoissaan usein esille muuttujavalintojen sisällölliset perusteet. Faktorianalyysi on rajattu muuttujiin, jotka sisällöllisesti liittyvät tutkimuksen kohteena olevaan asiakoko-naisuuteen tai käsitteeseen.

Faktorianalyysiin valittujen muuttujien valinnassa on kiinnitetty nimen-omaan huomiota paitsi siihen, että mukaan on otettu suoraan tyytyväisyyttä mittaavia muuttujia (3 kpl), myös siihen, että mukaan on saatu riittävä määrä sellaisia muuttujia, joilla on tutkimuksen aikaisemman vaiheen tulosten pe-rusteella syytä olettaa olevan yhteyttä tyytyväisyyteen. (Uitto 1964.)

Edellä käsiteltyjä elinkeinoihin liittyviä kysymyksiä on lopuksi tarkasteltu faktorianalyysin avulla. (Asp, 1965.)

Faktorianalyysiin sisällytettiin kaikki kuusi yksilön hyvinvointia mittaavaa johdettua deprivaatiomuuttujaa sekä toisistaan erikseen köyhyyttä indikoiva muuttuja ja pienituloisuutta indikoiva muuttuja. (Heikkilä 1990.)

Ensimmäisessä vaiheessa analyysista jätettiin pois muuttuja d, koska sen sisällöllinen tulkinta oli vaikeaa. Lisäksi kyseinen muuttuja latautui lähes yk-sinään omalle faktorilleen, joten sen mukaan ottaminen olisi tästäkin syystä ollut ongelmallista. (Kuussaari 2006.)

Aineiston koko ja muuttujien määrä eivät kumpikaan yksinään tarkastellen kerro riittävästi vaan ne on suhteutettava toisiinsa. Matemaattisena suosituksena havaintoja olisi oltava vähintään viisi kertaa - joidenkin näkemyksen mukaan jopa kymmenen tai kaksikymmentä kertaa - enemmän kuin faktorianalyysiin valittuja muuttujia. Sosiologian väitöskirjoissa tämä suhde vaihtelee välillä 0,31–1193,93.

Faktorianalyysin innostuksen vuosina 1960–1970-luvuilla muuttujien ja havainto-jen määrän suhde jäi usein alle viiden. Tuolloin joko faktorianalyysiin otettiin paljon muuttujia (jopa kaikki aineiston muuttujat) tai sitten aineisto oli pienikokoinen.

1970-luvun loppupuolelta alkaen havaintojen ja muuttujien määrän suhde on tyy-dyttänyt nämä tilastomatemaattiset ehdot eli faktorianalyyseissa on ollut vähintään viisi kertaa enemmän havaintoja kuin muuttujia.