• Ei tuloksia

Faktorianalyysin kritiikistä

In document Tilastolliset monimuuttujamenetelmät (sivua 115-122)

5. Faktorianalyysi

5.7 Faktorianalyysin kritiikistä

Faktorianalyysin suosio ja sen käyttö on vaihdellut melkoisesti viime vuosi-kymmenten aikana. Useat tilastotieteen tutkijat ovat suhtautuneet siihen hyvin kriittisesti. Arvostelu on ollut oikeutettua silloin, kun se on kohdistunut mene-telmän käyttöön heppoisin aineistoin ja pohjatiedoin. On kuitenkin valitetta-vaa, että tarjotaan myös melko harhaanjohtavia väitteitä faktorianalyysin epä-määräisyydestä ja kelvottomuudesta.

Esimerkkinä kohtuuttomasta kritiikistä käy se, mitä G.A.Seber esittää kirjas-saan "Multivariate Observations" (1984). Hän käyttää tässä lähes 700 sivun teoksessaan itse faktorianalyysin selostamiseen noin 10 sivua, mutta faktori-analyysin kriittiseen tarkasteluun on uhrattu yli 10 sivua. Arvosteleva osuus perustuu voittopuolisesti simulointikokeisiin ja päätelmiin, joita I.Francis on tehnyt noin 10 vuotta aikaisemmin.

Francis tarkasteli kymmentä erilaista 10 muuttujaan ja 2-3 faktoriin perustu-vaa faktorirakennetta, loi niiden perusteella toistuvasti keinotekoisia havain-toaineistoja ja laski näistä faktorianalyysin tulokset standardiohjelmilla.

Tutkittavan aineiston koko oli yleensä 50. Monet kokeista "epäonnistuivat"

niin pahoin, että Seber päättelee (s.235): "In conclusion, it must be stated that if Factor Analysis is carried out, then the results must be interpreted with ex-treme caution. Even if the postulated model is true - and this is a very strong assumption - the chance of its recovery by present methods does not seem very great."

Ensimmäiseen lauseeseen voi tietenkin yhtyä; jokaisen tilastollisen mene-telmän tuloksiin tulee suhtautua suurella varovaisuudella. Jälkimmäinen lause ei kuitenkaan pidä paikkaansa.

Eräs epäonnisista Francisin esimerkeistä oli viides (V), jossa kolmen fak-torin matriisiksi A ja ominaisfaktorien keskihajonnoiksi valittiin

A diag(Ψ)

10 7 4 15

10 7 4 15

10 7 4 15

10 7 4 15

10 7 0 15

10 7 0 20

10 7 0 20

10 0 0 20

10 0 0 20

10 0 0 20

Huomattakoon, että Francisin kokeissa faktorimatriiseja ei skaalattu niin, että lataukset olisivat muuttujien ja faktorien korrelaatiokertoimia.

Faktoroinnissa Francis käytti mm. Jöreskogin silloista suurimman uskottavuu-den ratkaisun antavaa ohjelmaa UFABY3 ja Seberin mukaan tässä tapaukses-sa ohjelma valitsi säännönmukaisesti faktoriluvuksi 1. Kun kuitenkin sovellet-tiin "oikeaa" lukumäärää 3, suuremmalla otoskoolla 250 saasovellet-tiin ominaisfak-torien variansseille hyvät estimaatit, mutta estimoidut faktorimatriisit olivat kaikkea muuta kuin annettu A riippumatta käytetystä rotaatiomenetelmästä.

Jopa silloin kun lähtökohdaksi otettiin oikea kovarianssimatriisi (otoskoko ääretön), vain ominaisfaktorien varianssit saatiin oikein!

Tarkasteltakoon nyt aluksi tätä äärettömän otoskoon tilannetta mutta soveltaen aikaisemmin käyttämäämme skaalausta.

Ensin on erotettu matriisitiedostosta GG faktorimatriisi AA ja CC (ominaisfakto-rien hajonnat). Näistä matriiseista lasketaan (muuttujien ja faktoreiden korre-laatiomatriisiksi) normeerattu faktorimatriisi FF ja muuttujien korrelaatiomat-riisi RR :

20 *MAT PSI2!=DV(C) / ominaisvarianssit lävistäjämatriisina 20 *MAT PSI2!=DV(C) / ominaisvarianssit lävistäjämatriisina 21 *MAT S=MMT(A)

Normeerattu faktorimatriisi FF näyttää vaaka- ja pystyrivineliösummineen

täl-laiselta (tulostettuna matriisiketjulla SSUM2 UM2 ):

14 1 SURVO 84C EDITOR Fri May 13 18:04:23 1994 D:\M\MEN\ 300 100 0

Näemme, että kolmannen faktorin osuus kokonaisvaihtelusta (10) on vaivaiset 1.6% ja yhteisvaihtelustakin (3.23) vain 5.6% . Lisäksi muuttujien kommuna-liteetit ovat osittain hyvin alhaisia. Annettu rakenne ei siis ole järkevä.

On syytä myös kysyä, onko kyseessä lainkaan "yksinkertainen rakenne", jollaista faktorianalyysissa tavoitellaan. Katsomme, mitä tapahtuu, jos teemme tälle matriisille graafisen rotaation:

40 1 SURVO 84C EDITOR Sat May 14 07:47:37 1994 D:\M\MEN\ 300 100 0 40 1 SURVO 84C EDITOR Sat May 14 07:47:37 1994 D:\M\MEN\ 300 100 0 46 *... 46 *...

47 *ROTATE F,3,CUR+1 / ROTATION=GRAPHICAL 47 *ROTATE F,3,CUR+1 / ROTATION=GRAPHICAL

62 *Rotation matrix saved as TFACT.M 62 *Rotation matrix saved as TFACT.M 63 *Factors are orthogonal (RFACT.M=I).

Rotaatiossa ei ole tapahtunut muuta kuin, että kahta ensimmäistä faktoria on kierretty 35 astetta, jolloin tarkkailemalla faktorien voimakkuuksia (neliösum-mat rivillä 60) havaitaan, että tosiasiassa faktoreita on vain yksi, joka selittää yhteisvaihtelusta 88%.

Soveltamalla graafisessa rotaatiossa Quartimax-kriteeriä johdonmukaisesti, päädytään edellistä tulosta muistuttavaan, jossa ensimmäisen faktorin selitys-osuus on noussut 92 prosenttiin.

Niillä rippeillä, mitä kaksi muuta faktoria edustavat, voidaan vain leikitellä.

Esim. pidettäessä teknisesti kiinni kolmesta faktorista, voi tietenkin todeta, että graafisella rotaatiolla saatu ratkaisu on rakenteeltaan yksinkertaisempi kuin Francisin alkuperäinen.

Ei kuitenkaan pidä ihmetellä, ettei esim. Varimax-kriteeri toimi kunnolla

tässä tilanteessa, koska se "uskoo" jokaisen muuttujan merkittävyyteen ja

pidentää niitä vastaavat vektorit samanmittaisiksi:

80 *Rotation matrix saved as TFACT.M 80 *Rotation matrix saved as TFACT.M 81 *Factors are orthogonal (RFACT.M=I).

81 *Factors are orthogonal (RFACT.M=I).

Sen sijaan kosinirotaatio toimii "loistavasti", jos hyväksyy hyvin pientenkin kommunaliteettiarvojen muuttujat (tässä <0.20) ratkaisun kantavektoreiksi:

17 1 SURVO 84C EDITOR Sun May 15 12:51:31 1994 D:\M\MEN\ 300 100 0 17 1 SURVO 84C EDITOR Sun May 15 12:51:31 1994 D:\M\MEN\ 300 100 0 82 *... 82 *...

83 *ROTATE F,3,CUR+1

83 *ROTATE F,3,CUR+1 / ROTATION=COS,0.19 / ROTATION=COS,0.19 84 *Rotated factor matrix AFACT.M=F*inv(TFACT.M)’

98 *Rotation matrix saved as TFACT.M 98 *Rotation matrix saved as TFACT.M

99 *Factor correlation matrix saved as RFACT.M 99 *Factor correlation matrix saved as RFACT.M 100 *

100 *

Rakenne on täysin puhdas; jokainen muuttuja latautuu vain yhdelle faktorille.

Tämä tosin tapahtuu rankasti faktorien korreloivuuden kustannuksella:

Siis ilman mitään simulointikokeita on todettavissa, että Francisin valitsema faktorirakenne on käytännön kannalta mieletön. Kyseessä on tyypillinen yhden faktorin tapaus.

Jatkamme leikittelyä 3 faktorilla ja laskemme tämän mukaisen suurimman

uskottavuuden ratkaisun "äärettömällä otoksella" eli suoraan Francisin

raken-teen mukaisesta korrelaatiomatriisista:

16 1 SURVO 84C EDITOR Sun May 15 13:57:31 1994 D:\M\MEN\ 300 100 0 16 1 SURVO 84C EDITOR Sun May 15 13:57:31 1994 D:\M\MEN\ 300 100 0 108 *...108 *...

109 *FACTA R,3,CUR+1 109 *FACTA R,3,CUR+1

110 *Factor analysis: Maximum Likelihood (ML) solution 110 *Factor analysis: Maximum Likelihood (ML) solution 111 *Factor matrix

Tulos ei todellakaan muistuta lähtökohtaa. Kuitenkin symmetrisellä transfor-maatioanalyysilla on helppo todeta rakenteiden täydellinen vastaavuus:

125 *MAT LOAD L.M,##.###,END+2 / Transformation matrix 125 *MAT LOAD L.M,##.###,END+2 / Transformation matrix 126 *MAT LOAD E.M,##.########,END+2 / Residual matrix 126 *MAT LOAD E.M,##.########,END+2 / Residual matrix 127 *

Faktorianalyysi siis toimii "äärettömällä otoksella" juuri niin kuin pitääkin.

Lievä kohina residuaaleissa osoittaa rakenteeseen kätkeytyvän likimaisen multikollineaarisuuden.

Francisin alkuperäinen matriisi on löytynyt täsmällisesti ortogonaalisella rotaatiolla. Millään standardirotaatiolla se ei voi kuitenkaan syntyä, koska Francisin rakenne ei ole "yksinkertainen".

Kahden kohtuuttoman pienen faktorin ansiosta eli multikollineaarisuudesta

johtuen on turha odottaa, että oikea rakenne tulisi kovin tarkasti esiin pienillä

otoksilla. Jos otoskoko on 250, tulokseksi saadaan esim.

1 1 SURVO 84C EDITOR Sun May 15 14:16:29 1994 D:\M\MEN\ 300 100 0

146 *MAT LOAD L.M,##.###,END+2 / Transformation matrix 146 *MAT LOAD L.M,##.###,END+2 / Transformation matrix 147 *MAT LOAD E.M,##.###,END+2 / Residual matrix 147 *MAT LOAD E.M,##.###,END+2 / Residual matrix 148 *

Eräät residuaalit näyttävät suurilta, mutta tämä johtuu pelkästään siitä, että niiden keskivirheetkin ovat suuria:

164 *Simulated residuals in Survo data file FR5.SVO 164 *Simulated residuals in Survo data file FR5.SVO 165 *MAT LOAD FR5,##.###,END+2

165 *MAT LOAD FR5,##.###,END+2 / Standard errors of residuals/ Standard errors of residuals 166 *

Kun otoskoko kasvaa, ratkaisu tarkentuu luonnollisesti kohti oikeaa.

Havain-tomäärän ollessa 10000, residuaalimatriisi voi näyttää tällaiselta:

26 1 SURVO 84C EDITOR Mon May 16 08:23:43 1994 D:\M\MEN\ 300 100 0 26 1 SURVO 84C EDITOR Mon May 16 08:23:43 1994 D:\M\MEN\ 300 100 0 180 *...180 *...

181 */MNSIMUL R,*,FRANCIS5,10000 / RND=rand(199401) 181 */MNSIMUL R,*,FRANCIS5,10000 / RND=rand(199401) 182 *CORR FRANCIS5

182 *CORR FRANCIS5 183 *FACTA CORR.M,3 183 *FACTA CORR.M,3 184 */TRAN-SYMMETR FACT.M,F 184 */TRAN-SYMMETR FACT.M,F 185 *MAT LOAD L.M,##.###,END+2

185 *MAT LOAD L.M,##.###,END+2 / Transformation matrix / Transformation matrix 186 *MAT LOAD E.M,##.###,END+2 / Residual matrix 186 *MAT LOAD E.M,##.###,END+2 / Residual matrix 187 *

187 *

188 *MATRIX E.M 188 *MATRIX E.M 189 *Residual_matrix 189 *Residual_matrix

190 */// F1 F2 F3 190 */// F1 F2 F3 191 *X1 0.004 -0.005 -0.008 191 *X1 0.004 -0.005 -0.008 192 *X2 -0.004 0.010 -0.004 192 *X2 -0.004 0.010 -0.004 193 *X3 0.003 0.017 -0.028 193 *X3 0.003 0.017 -0.028 194 *X4 -0.017 0.005 -0.013 194 *X4 -0.017 0.005 -0.013 195 *X5 0.006 0.002 -0.003 195 *X5 0.006 0.002 -0.003 196 *X6 0.010 -0.023 0.064 196 *X6 0.010 -0.023 0.064 197 *X7 0.006 -0.005 0.020 197 *X7 0.006 -0.005 0.020 198 *X8 -0.034 0.052 -0.038 198 *X8 -0.034 0.052 -0.038 199 *X9 0.016 -0.008 -0.012 199 *X9 0.016 -0.008 -0.012 200 *X10 0.013 -0.046 0.026 200 *X10 0.013 -0.046 0.026 201 *

201 *

Ei siis ole epäilystäkään siitä, etteikö faktorianalyysi tässä patologisessa tilan-teessa antaisi oikeita tuloksia. Havaintomäärän vain tulee olla poikkeuksel-lisen suuri, jotta kahden jälkimmäisen faktorin heikot signaalit erottuisivat ympärillä olevasta kohinasta.

Samanlaiset jatkotarkastelut tehoavat Francisin muihinkin esimerkkeihin, jopa sellaisiin, joissa faktorimatriisit ovat vajaa-asteisia. Niissä tapauksissa

"oikeiden" rakenteiden löytyminen automaattisesti on yhtä mahdotonta kuin

"oikeiden" regressiokertoimien saaminen regressiomallista, jossa selittävien muuttujien välillä on täsmällisiä lineaarisia riippuvuuksia.

On selvää, että monissa sovelluksissa oikean faktorien lukumäärän löytäminen

voi olla hankalaa. Kun näin tapahtuu, se osoittaa, ettei aineisto kunnolla täytä

faktorianalyysin vaatimuksia tai otoskoko on liian pieni. Vastaavat ongelmat

koskevat monia muitakin tilastollisia menetelmiä. Faktorianalyysi ei ole

mi-kään poikkeus.

In document Tilastolliset monimuuttujamenetelmät (sivua 115-122)