TEORIAA JA KÄYTÄNTÖÄ
Tampereen yliopisto
Matematiikan, tilastotieteen ja filosofi- an laitos
HELLSTEN, RAFAEL Pro gradu -tutkielma Tilastotiede
Toukokuu 2003
HELLSTEN, RAFAEL: Korrespondenssianalyysin teoriaa ja käytäntöä Pro gradu –tutkielma, 101 s; 8 liites.
Tilastotiede Toukokuu 2003
__________________________________________________________________________
TIIVISTELMÄ
Tutkielman aiheena on tilastollisiin monimuuttujamenetelmiin kuuluva korrespondenssianalyysi.
Tutkielman tarkoitus on tehdä sekä teoreettinen että käytännöllinen selvitys menetelmästä, sen käyttämisestä ja saatavilla olevasta lähdeaineistosta.
Tutkielmassa selvitetään korrespondenssianalyysin teoreettiset yhteydet kahteen muuhun moni- muuttujamenetelmään: pääkomponenttianalyysiin ja kanoniseen korrelaatioanalyysiin. Korres- pondenssianalyysin teoriaa selitetään esimerkkiaineistoilla ja avaruusgeometrisella lähestymista- valla. Pääasiallisena teoreettisena lähteenä on M.J. Greenacren kirja ”Theory and application of correspondence analysis”.
Tutkielmassa ei käsitellä varsinaista tutkimusaineistoa. Korrespondenssianalyysia voidaan käy- tännössä tehdä monilla tilastollisilla tietokoneohjelmilla, niinpä tutkielmassa vertaillaan muuta- maa tilastollista ohjelmaa ja testataan, miten ne tekevät korrespondenssianalyysin.
Myös saatavilla olleista kirjallisuuslähteistä ja aiheeseen liittyvistä Internetin linkeistä on tut- kielmassa lyhyt selvitys, jossa vertaillaan kirjojen ja muiden saatavilla olleiden tietolähteiden käyttökelpoisuutta korrespondenssianalyysin esittäjinä.
SISÄLLYSLUETTELO
0. JOHDANTO
31. KAKSI JOHDATTELEVAA ESIMERKKIÄ
5 1.1. Tenttitulokset - kahdet tulokset esitetään samalla suoralla 5 1.2. Tuotteiden ostajien ikäjakauma ja kolmiodiagrammi 62. KORRESPONDENSSIANALYYSIN LÄHEISET
MONIMUUTTUJAMENETELMÄT
112. 1. Pääkomponenttianalyysi 11
2.2. Kanonisen korrelaatioanalyysin yhteys korrespondenssianalyysiin 16
3. KORRESPONDENSSIANALYYSIN TEORIA –
KÄYTÄNNÖLLINEN LÄHESTYMISTAPA
24 3.1. Ensimmäinen kasviaineisto3.1.1. Kasvupaikat 25
3.1.2. χ2 -testi - korrespondenssianalyysin esiaste 26 3.1.3. Riviprofiilit eli suhteelliset määrät eri kasvupaikoissa 27 3.1.4. Ensimmäinen korrespondenssianalyysin akseli 29 3.1.5. Ensimmäisen akselin arvot ja selitykset 30
3.1.6. Toinen akseli ja sen selitysaste 31
3.1.7. Päätelmiä kaksiulotteisen kuvion perusteella 33
3.2. Toinen kasviaineisto 33
3.3. Yritystutkimusaineisto 35
3.3.1. Ensimmäinen yritystutkimusaineisto 35
3.3.2. Korostettu erikoisaineisto 40
3.4. Ensimmäisen kasviaineiston kasvupaikat ja kasvilajit 43
4. AVARUUSGEOMETRIAAN PERUSTUVA
LÄHESTYMISTAPA
444.1. Etäisyysmitat 44
4.1.1. Euklidinen etäisyys 44
4.1.2. Painotettu euklidinen etäisyys 45
4.1.3. Samojen etäisyyksien tasa-arvokäyrät 46 4.1.4. χ2 -etäisyys, odotetut ja havaitut profiilit, kokonaisinertia 46 4.2. Etäisyyksien minimointi ja inertian maksimointi 51
5. ANALYYSIN TUNNUSLUKUJA SPSS-OHJELMAN
TULOSTEIDEN AVULLA
535.1. Selitysaste singulaariarvojen neliöistä 54
5.2. Inertia ja kontribuutio mittaavat hajaantumista ja vaikutusta 56
5.3. Akselin ja profiilipisteen välinen kulma 62
5.4. Kuvakoordinaattien skaalaustavat 64
6. KORRESPONDENSSIANALYYSIN ALGORITMI
67 6.1. Singulaariarvoalgoritmilla peruskoordinaatit 676.2. Singulaariarvohajotelman ominaisuuksia 71
7. VALMISOHJELMISTOT JA
KORRESPONDENSSIANALYYSI
777.1. Katsauksen ohjelmien yleisesittely 77
7.1.1. Survo (Survo MM syksy 2002 -versio) 77
7.1.2. SPSS (versio 11) 78
7.1.3. SAS (versio 8.01) 78
7.1.4. WinBasp (versio 5 noin vuodelta 1997) 79
7.1.5. Excel 79
7.2. Ohjelmat korrespondenssianalyysin kannalta 79
7.2.1. Survo 80
7.2.2. SPSS (versio 11) 80
7.2.3. SAS (versio 8.01) 82
7.2.4. WinBasp (versio 5.2) 85
7.3. Ohjelmille asetettavat vaatimukset 86
8. SOVELLUSESIMERKKEJÄ
888.1. Sosio-ekonominen tausta ja mielenterveys 88
8.2. Arkeologinen aineisto aikajärjestykseen 91
8.3. Välimatkataulukosta kartta 93
9. JATKOSUUNNITELMAT
9610. KIRJALLISUUSKATSAUS
97LÄHTEET
101LIITE 1 Korrespondenssianalyysin singulaariarvoalgoritmi Survo-ohjelmalla LIITE 2 Korrespondenssianalyysin termit ja niiden yhteys kontingenssitauluihin
JOHDANTO
Suomalaisissa monimuuttujamenetelmien kurssimonisteissa tai yleensä tilastotieteellisessä kir- jallisuudessa korrespondenssianalyysia ei yleensä edes mainita (poikkeukset: Kimmo Vehkalah- den lyhyt moniste, syksy 2002 ja Seppo Mustosen kirja Tilastolliset monimuuttujamenetelmät, lähdeluettelossa tarkemmin). Internetistä ei myöskään löydy paria aivan lyhyttä esitystä lukuun- ottamatta mitään suomenkielistä tietoa analyysistä. Englanninkielisetkin artikkelit Internetissä ovat hyvin pintapuolisia varsinkin matemaattisen taustan selvittämisessä.
Englanninkielisessä kirjallisuudessa korrespondenssianalyysilla on monia nimiä: mm. optimal scaling, reciprocal averaging, optimal scoring, appropriate scoring, additive scoring,
quantification method, homogeneity analysis, dual scaling, scalogram analysis, canonical
analysis, Guttman weighting, Hayashi’s theory of quantification, simultaneous linear regression, principal components analysis of qualitative data, biplot and dual scaling, correspondence analysis. Viimeinen nimitys lienee vakiintunein, ja lyhenteenä käytetään CA:ta.
Menetelmän kehittäjinä voidaan pitää ranskalaisia 1970 luvulla. Mm. Jean-Paul Benzécri ja Ludovic Lebart kehittivät sitä 1970-luvulla nimellä analyse factorielle des correspondances.
R.A Fisher on ollut kuitenkin varhaisempien menetelmän kehittäjien joukossa 1930- ja 40- luvuilla. Mainittakoon hieman myöhemmin Chikio Hayashi, joka teki menetelmän tunnetuksi Japanissa. Ensimmäinen merkittävä teos englanninkielellä, “Theory and Applications of Correspondence Analysis”, ilmestyi vuonna 1984. Sen kirjoittaja on alan nykyisiin vaikuttajiin kuuluva Michael J. Greenacre.
Korrespondenssianalyysin tarkoitus on havainnollistaa kaksiulotteisia frekvenssitaulukoita.
Kysymys on laskenta-algortmien perusteella tehtävien kuvioiden piirtämisestä, joista voidaan havaita kahden luokitellun muuttujan suhteita sekä muuttujien sisäisten luokkien suhteita. Näi- den havaintojen perusteella voidaan yhdistellä muuttujien luokkia, tehdä jatkoanalyysejä muilla menetelmillä tai vain tyytyä kuvion antamaan informaatioon.
Tilastotieteellisessä mielessä korrespondenssianalyysi on hiukan erilainen kuin monet muut menetelmät: sen matematiikka ei perustu jakaumiin, testauksiin tai yleensäkään tilastolliseen päättelyyn. Myöskään ei aseteta varsinaisesti hypoteeseja, joita sitten tutkittaisiin. Korrespon- denssianalyysin matematiikan perustana ovat matriisioperaatiot euklidisessa avaruudessa. Las- kenta-algoritmien tuloksena saadaan siis kuvio, josta voidaan siis havainnoida erilaisia asioita.
Korrespondenssianalyysi kuuluu matemaattisten perusteidensa puolesta monimuuttujamenetel- miin, joita sen lisäksi ovat mm. faktorianalyysi (suosittu yhteiskuntatieteiden tilastollinen mene- telmä erityisesti 1960-luvulla), pääkomponenttianalyysi ja kanoninen korrelaatioanalyysi. Kui- tenkin se usein jätetään kokonaan pois monimuuttujamenetelmien oppaista ja kirjoista tai siitä on vain lyhyt maininta, kuten alussa todettiin.
Opinnäytteen ensimmäinen tarkoitus on esittää paljon kuvia sekä sovellusesimerkkejä ja selittää kuvien tulkintaa. Tätä tarkoitusta varten ovat luvut 1 ja 3. Analyysin laskemien kuvien tulkinta ei ole yhtä selkeää kuin tavallisten pylväs-, piirakka- tms. kuvioiden lukeminen. Tulkinnan peri- aatteet eivät selviä ilman malliesimerkkien tutkimista.
Toinen tarkoitus on esittää korrespondenssianalyysin taustalla olevaa matemaattista koneistoa.
Tätä esitellään luvuissa 4, 5 ja 6.
Kolmantena tavoitteena on esitellä joitakin ohjelmistoja, joilla voi tehdä korrespondenssianalyy- sin vaatimia laskelmia ja tuottaa kuvia, jotta menetelmä tulisi tunnetuksi käytännölliselläkin tasolla. Tilastollisten analyysien tekemiseen tehdyt ohjelmistot ovat käyttöliittymältään ja peri- aatteiltaan todella erilaisia. Ohjelmien opettelussa on joskus korkeakin aloituskynnys. Korres- pondenssianalyysin tekemisessä tätä kynnystä on tarkoitus madaltaa muutaman ohjelman osalta.
Opinnäytteestä jäävät pois korrespondenssianalyysin lukuisat muunnelmat ja edelleenkehitelmät, kuten moniulotteinen korrespondenssianalysi (lyhenne englanniksi MCA), kanoninen korres- pondenssianalyysi (kasviekologian menetelmä) ja trendikorjattu korrespondenssianalyysi (ly- henne englanniksi DCA). Ainoastaan perusmenetelmä (englanninkielinen nimitys on joskus Simple Correspondence Analysis) pyritään esittelemään monipuolisesti ja havainnollisesti.
Luvuissa 1 ja 3 tulkitaan kuvioita painottaen matemaattista taustaa vähemmän. Teoriapainot- teisten lukujen 4, 5 ja 6 matemaattisena taustana ovat matriisioperaatiot ja lineaarikuvausten perusteet. Missään luvuissa ei tarvita tilastomatemaattista taustatietoa jakaumista, niiden johta- misesta ja testaamisesta.
Jotkin luvut voidaan nähdä melko itsenäisinä kokonaisuuksina. Esimerkiksi luvun 7 voi lukea yleisluontoisena esittelynä eri tilastollisista ohjelmista, vaikka itse korrespondenssianalyysista ei olisi tietoa. Lukua 8 voi myös lukea jonkinlaisena yleisesittelynä korrespondenssianalyysin sovelluksista. Luvut 1 ja 3 muodostavat tavallaan yhtenäisen kokonaisuuden, josta voi saada tietoa korrespondenssianalyysista ilman kovin vaativaa matemaattista taustaa. Luku 5 voidaan nähdä oppaana SPSS-ohjelman korrespondenssianalyysin tulosteiden lukemiseen. Luku 4 on teoreettisin, se pyrkii esittämään analyysimenetelmän avaruusgeometriset perusteet. Edelleen teoreettinen luku 2 esittelee korrespondenssianalyysin yhteydet kahteen muuhun monimuuttuja- menetelmään.
Lopussa on tavanomaisen lähdeluettelon lisäksi kirjallisuuskatsaus, jonka luettuaan voi valita kirjallisuutta omiin käyttötarkoituksiinsa. Lisäksi liitteenä numero 2 on korrespondenssianalyy- sin kontingenssitauluihin perustuva sanasto. Pelkästään sitäkin lukemalla voi saada menetel- mästä jonkinlaisen käsityksen.
1. KAKSI JOHDATTELEVAA ESIMERKKIÄ
Tämän luvun tarkoitus antaa ensivaikutelma siitä, miten korrespondenssianalyysi toimii kaksi- ja kolmiulotteisessa avaruudessa. Esimerkit ovat johdattelevia ja niihin perehtyminen auttaa varsi- naisessa avaruusgeometriaan perustuvassa teorialuvussa 4. Esimerkit ovat sinänsä yksinkertaisia, mutta ne sisältävät ideoita korrespondenssianalyysia varten. Esimerkit pohjautuvat kirjaan Michael J. Greenacre: ”Correspondence Analysis in Practice”.
1.1. TENTTITULOKSET – KAHDET TULOKSET ESITETÄÄN SAMALLA SUORALLA
Tarkastellaan kolmen opiskelijan tenttituloksia kahdesta tentistä. Ne voivat olla samasta aineesta tai eri aineista. Taulukossa ovat opiskelijoiden tulokset. Kiinnostuksen kohde on opiskelijoiden vertailu keskenään, siis taulukossa olevien rivimuuttujan luokkien vertailu keskenään. Tässä ei vertailla tenttitulosten vaihtelua.
Taulukko 1.1 Opiskelijoiden kahden tentin tulokset opiskelija 1.tentti 2. tentti keskiarvo
A 1,5 1 1,25
B 1 3 2
C 1 2 1,5
keskiarvo 1,167 2 1,583
Kyseessä on 3x2-havaintomatriisi, kolme havaintoa kahdesta muuttujasta. Opiskelijoiden saamat pisteet (1,5 1), (1 3) ja (1 2) voidaan esittää 2-ulotteisessa koordinaatistossa.
Kuva 1.2 Tenttitulosten projektiot suoralle y = x
Tiivistetään tietoa ja esitetään kunkin opiskelijan tenttitulokset samalla suoralla. Tehdään ha- vaintopisteiltä projektiot suoralle y = x siis suoralle, jossa tenttituloshavainnot olisivat yhtä suuria.
Kunkin havaintopisteen projektiopisteet suoralla y = x voidaan laskea ja samoin projektioiden pituudet. Seuraavassa taulukossa 1 3 projektiopisteistä on esitetty sekä x- että y-koordinaatit (tosin ne ovat samat).
Taulukko 1.3 Opiskelijoiden pistemäärien projektiopisteet ja projektioiden pituudet X Y pituus
A 1,25 1,25 1,768
B 2 2 2,828
C 1,5 1,5 2,121
Tässä ei ole olennaista laskentatapa, vaan se periaate, että kaksiulotteinen piste yleensä lasketaan yksiulotteiseksi ja täten tiivistetään tietoa ja vähennetään dimensioita eli ulottuvuuksia (data reduction). Varsinaisessa korrespondenssianalyysissa on matriisioperaatioihin perustuvat algo- ritmit, jotka laskevat moniulotteiset pisteet kaksiulotteisiksi (tai yksiulotteisiksi).
Siirretään osa suorasta y = x projektiopisteineen näkyviin tähän yksinään; siitä tehdään ikään kuin uusi vaaka-akseli. Suora alkaa origosta ja sillä esitetään oppilaiden A, B, C pistemäärien projektiot suoralla y = x.
Kuva 1.4 Pääakselille (=menestymisakseli) kuvautuneet opiskelijoiden pisteiden projektiot Kuvassa 1.4 on kutakin opiskelijaa (A, B, C) vastaava koordinaatti (opiskelijaa edustava koordi- naatti on hänen tenttiensä keskiarvo kerrottuna √2:lla). Akseli, jolla koordinaatit sijaitsevat, kuvaa opiskelijoiden menestymistä. Mitä korkeammat arvosanat opiskelijalla on kahdesta ten- tistä, sitä suurempi on hänen pisteensä (score) edellä olevalla akselilla. Akselia voisi nimittää vaikka menestymisakseliksi. Akseli kuvaa siis opiskelijan menestymistä keskimäärin, mutta akselilta ei ole enää näkyvissä hänen suoritustensa vaihtelua kahdessa tentissä.
Luvun 1.1. esimerkissä olennaista:
Tieto tiivistyi kaksiulotteisesta avaruudesta yksiulotteiselle suoralle laskentaoperaatioiden jäl- keen (data reduction) ja tiedon dimensiota pienennettiin kahdesta yhteen.
1.2. TUOTTEIDEN OSTAJIEN IKÄJAKAUMA JA KOLMIODIAGRAMMI Esimerkin kuvaus, profiilit ja profiilitaso
Tämä aineisto on keinotekoinen esimerkki edelleen kirjasta ”Correspondence Analysis in Practi- ce”. Aineistona on kontingenssitaulu, joka kuvaa viiden tuotteen ostajakuntaa. Ostajat on jaettu ikäryhmiin nuoret (young), keski-ikäiset (middle) ja vanhat (old). Aineistona on 400 kuluttajaa, joilta on kysytty, mikä tuote (vaihtoehdot A, ..., D) on mieluisin vaihtoehto. Jokainen kuluttaja antaa yhden ja vain yhden vastausvaihtoehdon viidestä eli jokainen kuluttaja kuuluu yhteen ja vain yhteen taulukon soluun. Taulukon frekvenssien kokonaissumma on sama kuin otoksen koko. Vaikka tässä ei esitetä vielä aitoa korrespondenssianalyysia, tämän tyyppiset taulukot ovat kuitenkin myös aidon analyysin lähdeaineistona. Muuttujat ovat siis luokittelevia ja niiden frek- venssit selviävät seuraavasta taulukosta.
Taulukko 1.5 Eri tuotteiden ostajakunnan jakaantuminen ikäryhmiin Tuote nuoret keski-ikä vanhat yht
A 70 0 0 70
B 45 45 0 90
C 30 30 30 90
D 0 80 20 100
E 35 5 10 50
yht 180 160 60 400
Tämä esimerkki perehdyttää kolmiulotteiseen avaruuteen havainnollisesti. Tämäkään esimerkki ei ole vielä siis aitoa korrespondenssianalyysia, vaan saamme havainnollisen tasokuvion helposti ilman monimutkaisia laskutoimituksia. Mallin ymmärtäminen vaatii kuitenkin avaruudellista hahmottamista. Tässä esitettävää kolmiodiagrammia kutsutaan englanninkielisellä nimityksellä ternary diagram.
Tarkastellaan eri tuotteita eli rivimuuttujan luokkia. Katsotaan, miten tuotteiden ostajat jakautu- vat eri ikäryhmiin eli mikä on eri tuotteiden ikäprofiili. Toisaalta voitaisiin tarkastella, millaisia olisivat eri-ikäisten ostotottumukset eli sarakemuuttujan luokkien jakauma tuotteiden kesken.
Näistä taulukoista lasketaan yleensä suhteellisia frekvenssejä prosentteina. Korrespondenssiana- lyysissä tarkastellaan rivi- tai sarakeprofiileja, ei varsinaisesti prosentteja. Riviprofiilit saadaan jakamalla kukin solufrekvenssi vastaavalla rivisummallaan ja sarakeprofiilit vastaavasti jaka- malla solufrekvenssi sarakesummallaan.
Taulukko 1.6 Tuotteiden ikäprofiilit Tuote nuoret keski-ikä vanhat
A 1,00 0,00 0,00
B 0,50 0,50 0,00
C 0,33 0,33 0,33
D 0,00 0,80 0,20
E 0,70 0,10 0,20
sentroidi 0,45 0,40 0,15
Tuotetta A ostavat vain nuoret ja tuotetta C ostaa kukin ikäryhmä tasaisesti. Viimeisellä rivillä ei ole suoraan yläpuolisten lukujen keskiarvo, vaan se on kunkin sarakkeen summa jaettuna koko- naismäärällä. Tämän eräänlaisen keskiarvoprofiilin nimitys on sentroidi. Sitä voisi ajatella jon- kinlaisena riviprofiilien painopisteenä. Mitä lähempänä riviprofiilit ovat sentroidia sitä enemmän niiden laskennan pohjana olevat havaitut frekvenssit ovat lähellä odotettuja eli tilannetta, jossa ikä- ja tuoteryhmien välillä ei ole riippuvuutta. Odotetuista frekvensseistä, profiileista ja kontin- genssitauluista ja yleensä termeistä esitetään enemmän liitteen 2 sanastossa ja seuraavissa luvuis- sa. Tässä luvussa keskitytään vain yhteen havainnolliseen tapaan esittää profiileja.
Kutakin rivimuuttujan luokkaa eli tuotetta vastaavassa profiilissa on kolme epänegatiivista alle ykkösen olevaa lukua, joiden summa on yksi (esimerkiksi tuote E: 0,70+0,10+0,20 = 1). Tämä on geometrinen lähtökohta tuoteprofiilien havainnollistamiselle. Kolmiulotteisessa avaruudessa olevat vektorit, joiden koordinaattien summa on 1, muodostavat tason. Tason yhtälö voidaan esittää muodossa:
profiilitaso: (x,y,z): y+x+z = 1.
Profiilitaso kulkee pisteiden (1 0 0), (0 1 0), (0 0 1) kautta. Seuraavassa kuvassa on osa kolmi- ulotteista avaruutta läheltä tuoteprofiilien pisteitä. Matemaattisesti sanottuna siis tuoteprofiilien pisteet ovat kolmiulotteisen avaruuden vektoreita. Vektorin koordinaattien summa on yksi ja sellaiset vektorit muodostavat tason. Kolmiulotteisessa avaruudessa oleva (matemaattinen) taso on ajatuksellisesti sama kuin arkikielenkin sana taso (pöydän pinta, paperi jne…).
Kuva 1.7 Profiiliavaruus: tuoteprofiilit, ääripisteet, average = (0,45 0,40 0,15) = sentroidi (kuvan lähde: Corresponce Analysis in Practice).
Kuvassa 1.7 on kolme koordinaattiakselia. Ne on nimetty ikäryhmien mukaan. Kuviota kannat- taa havainnollistaa mielessään huoneen nurkkana. Piste (0 0 0) eli origo on huoneen nurkassa ja kuvassa katsotaan ikään kuin huoneen peränurkkaan.
Vasemmalla lattian rajassa kulkee akseli nuoret (young), jonka kasvavat arvot tulevat melkein katsojaa kohti. Huoneen perällä ylöspäin kulkee akseli vanhat (old). Akselin arvot kasvavat ylöspäin. Keski-ikäisyyttä osoittava akseli on huoneen perällä, kasvavat arvot kulkevat oikealle päin. Edessä lähimpänä on tuotteen A profiilipiste (1 0 0) lattianrajassa. Korkeimmalle ylös pisteeseen (0 0 1) menisi sellaisen tuotteen profiili, jota ostaisivat pelkästään vanhat.
Esimerkiksi tuotteen E:(0,70 0,10 0,20) profiilipisteen voidaan ajatella syntyvän seuraavasti:
tullaan nuoruusakselia 0,70 kohti, 0,10 oikealle ja lopulta 0,20 ylös.
Edellä puhuttiin profiilitasosta. Sen voidaan ajatella peittävän näkyvistä huoneen nurkan. Taso tulee suoraan kohti, jos ajattelemme katsovamme nurkkaan yläviistosta. Kaikki edellä lasketut ja kuvatut profiilit ovat tällä tasolla.
Jos halutaan havainnollistaa, tehdä eräänlaista karttaa profiilipisteistä ja antaa kuvaa 1.7 selke- ämpi kuva, otetaan tämä taso erilleen ja esitetään se suoraan päältäpäin. Poistamme yhden ulot- tuvuuden. Tällä kertaa vähennämme ulottuvuuksia (dimensioita) kolmesta kahteen.
Tämä taso on rajattu kolmioksi. Kolmion ulkopuolella ei nimittäin voi olla profiilipisteitä, koska silloin niissä olisi ainakin yksi kolmesta koordinaatista ykköstä suurempi.
Jatkossa rivi- tai sarakeprofiileilla tarkoitetaan jonkin n-ulotteisen avaruuden vektoreita siten, että koordinaattien summa on aina yhtä suuri kuin yksi. Tämän esimerkin profiilit ovat siis (alun perin) kolmiulotteisen avaruuden vektoreita, joita voi vielä havainnollistaa kuvalla ja ”huone- ajattelulla” tekemättä monimutkaisia laskutoimituksia.
Kuva 1.8 Profiilipisteiden taso suoraan ylhäältäpäin (kuvan lähde: Corresponce Analysis in Practice).
Kuvassa 1.8 voidaan ajatella katsojan olevan kolmion keskellä ja edellä esitetyn huoneen pe- ränurkan olevan pisteestä C suoraan alaspäin. Kuvassa on siis kolme ääripistettä. Mitä enemmän tuotetta ostavat nuoret, sitä lähempänä tuotteen profiilin koordinaatti on kolmion pistettä alhaalla vasemmalla. Tuotteen A profiili (1 0 0) on juuri kolmion kärjessä, koska sitä ostavat vain nuoret.
Kolmion alarivillä olevilla tuotteilla ei ole ostajina ollenkaan vanhoja. Mitä enemmän ostajakun- nassa on keski-ikäisiä, sitä enemmän profiilipiste sijaitsee oikealla. Tuote B:n profiilipiste on tasan nuorten ja keski-ikäisten välissä.
Kolmiodiagrammin etäisyyskäsite
Edellä todettiin, että nuorten suosimien tuotteiden profiilien esityspisteet kolmiodiagrammissa ovat lähellä kolmion vasenta alareunaa. Jos siis tuotetta ostavat pelkästään nuoret, sen profiili- piste on sama kuin kolmion alareunan vasen piste (tuote A).
Kuva 1.9 Profiilipisteen E: (0,7 0,2 0,1) koordinaattien määräytyminen (kuvan lähde: Corres- ponce Analysis in Practice).
Kuvasta 1.9 nähdään tuotteen E profiilipisteen määräytyminen. Tuoteprofiilin koordinaatti nuo- rille on 0,7. Vanhoja ja keski-ikäisiä ostajia tuotteella on vähän. Kuviosta selviää, että kaikki mahdolliset profiilipisteet, joiden ostajakunnasta on 70 prosenttia nuoria, sijaitsevat vanha - keski-ikä-akselin suuntaisella suoralla, jonka kulku on suhteutettu nuori - keski-ikä-vaihtelulla.
Vastaavasti määrittyy vanha - nuori-akselin suuntainen suora tuotteen E tuoteprofiilin keski-iän koordinaatilla 0,1.
Luvun 1.2. esimerkissä olennaista:
Esimerkissä esitettyä kolmiodiagrammia kutsutaan siis englannin kielessä nimellä ternary dia- gram. Esimerkki havainnollistaa yhden tavan esittää kolmiulotteisia (profiili)pisteitä tasolla. Itse asiassa nämä profiilipisteet ovat jo valmiiksi jollain tasolla, se on vain ”irrotettava” alkuperäi- sestä avaruudestaan. Varsinainen korrespondenssianalyysi esittää hyvinkin moniulotteisia pis- teitä tasolla. Esittäminen vaatii ensin monimutkaisen laskentaoperaation.
2. KORRESPONDENSSIANALYYSIN LÄHEISET MONIMUUTTUJAMENETELMÄT
Luvussa 2.1. esitellään pääkomponenttianalyysia, joka tiivistää usean jatkuvan muuttujan yhtei- sen vaihtelun yhteen tai muutamaan uuteen muuttujaan maksimoiden uuden syntyvän muuttujan varianssin. Uudet muuttujat ovat keskenään korreloimattomia.
Luvussa 2.2 esitellään kanonista korrelaatioanalyysia. Kanoninen korrelaatioanalyysi laskee kaksi uutta muuttujaa useista muuttujista tekemällä niistä lineaarikombinaatioita. Pyritään mak- simoimaan kahden uuden muuttujan välinen korrelaatio. Summattavien muuttujien kertoimet osoittautuvat korrespondenssianalyysin peruskoordinaateiksi tietyssä erikoistapauksessa. (Ter- miä peruskoordinaatti selitetään liittenä 2 olevassa sanastossa ja perusteellisemmin luvussa 5.4.) 2. 1. PÄÄKOMPONENTTIANALYYSI
Tässä luvussa käsitellään pääkomponenttianalyysia pintapuolisesti. Menetelmä on monimuuttu- jamenetelmistä selväpiirteisin sekä matemaattiselta taustaltaan että tulkinnaltaan. Esimerkkiai- neistosta tiivistetään kolmen jatkuvan muuttujan tieto kahteen uuteen korreloimattomaan muuttujaan ja tehdään kaksiulotteinen kuvaaja näistä kahdesta uudesta muuttujasta. Lopussa kerrotaan menetelmän samankaltaisuuksista ja eroista verrattuna korrespondenssianalyysiin.
Esitetään pääkomponenttianalyysin perusteita ensin. Olkoon yleisenä aineistona m kpl satun- naismuuttujia, joista kustakin on tehty n havaintoa. Havaintomatriisi on siis nxm –muotoa. Mer- kitään satunnaismuuttujia X1,...,Xm. Niistä oletetaan, että keskiarvo ja hajonta ovat olemassa.
Tehdään uusi muuttuja
Y1=a1X1 + a2X2+ ... + amXm,
joka on alkuperäisten muuttujien X1,...,Xm lineaarikombinaatio.
Kertoimet a1,...,am valitaan siten, että
(1) (a1)2 + (a2)2+..+ (am)2 = 1, eli kerroinvektorin (a1,a2,...,am) pituus on 1 ja (2) muuttujan Y1 varianssi on mahdollisimman suuri.
Y1:tä sanotaan ensimmäiseksi pääkomponentiksi (first principal component). Esimerkkinä tul- kinnasta ja käytännöstä voisi olla kallonmittaus. Ihmisen kallosta voidaan mitata lukuisia arvoja:
leuan leveys, kallon läpimitta (minimi- ja maksimiarvot), nenäluun pituus jne. Ilmeisesti mitta- usten keskinäiset korrelaatiot ovat melko suuria. Tällaisista mittauksista voisi tehdä pääkompo- nenttianalyysilla yhden muuttujan, jonka nimi olisi vaikka kallonmitta. Uutta muuttujaa voisi käyttää jatkoanalyyseissa. Sille voi tulla yleisempikin merkitys kuvaamaan kallonkokoa. Toisin sanoen tutkimuksissa jatkossa ihmisen kallonkokoa edustaisi yksi luku, joka saadaan yhdistel- mänä lukuisista mittauksista.
Esitellään pääkomponenttianalyysia kolmen muuttujan ja seitsemän havainnon aineistolla.
Havaintomatriisi A on
nro X1 X2 X3
1 2 3 4 5 6
7
1 , 1 7 7
2 7 6
1 6 5
2 5 4
1 4 3
2 3 2
1 2 1
(7x3)
Matriisin esitykseen on merkitty selvyyden vuoksi riviotsikoiksi havaintonumerot ja sarakeotsi- koiksi muuttujien nimet. Aineisto on keinotekoinen ja siinä on pyritty seuraavaan rakenteeseen:
muuttujat X1 ja X2 korreloivat voimakkaasti keskenään. Muuttujan X3 on tarkoitus olla lähes korreloimaton muuttujien X1 ja X2 kanssa.
Pääkomponenttianalyysissa tehdään ominaisarvohajotelma muuttujien kovarianssimatriisille.
Aineiston kovarianssimatriisi C on
X1 X2 X3
X1 X2
X3
27 , 0 11 , 0 05 , 0
11 , 0 81 , 3 17 , 4
05 , 0 17 , 4 67 , 4
(3x3)
Matriisiin ensimmäinen alkio vasemmassa yläkulmassa on muuttujan X1 varianssi. Muut lävis- täjäalkiot ovat vastaavasti X2:n ja X3:n varianssit. Lävistäjän ulkopuolella olevat alkiot ovat muuttujien keskinäisiä kovariansseja. Matriisi on symmetrinen.
Matriisin C ominaisarvohajotelma on
C = FDF’, tyypit (3x3),(3x3),(3x3), missä
F =
−
−
−
−
−
−
20 , 0 98 , 0 01 , 0
73 , 0 14 , 0 67 , 0
66 , 0 14 , 0 74 , 0
(3x3) on ortogonaalinen matriisi ja
D =
04 , 0 0 0
0 28 , 0 0
0 0 43 , 8
(3x3) on diagonaalimatriisi.
Uuden muuttujan Y1 muodostamiseen tarvittavat kertoimet saadaan matriisin F ensimmäiseltä sarakkeelta. Siis uusi muuttuja, ensimmäinen pääkomponentti on
Y1 = -0,74229X1 –0,66995X2 – 0,01335X3.
Matriisin D alkioiden merkitys on seuraava. Ensimmäinen lävistäjäalkio 8,43 on suurin kova- rianssimatriisin C ominaisarvo. Se on sama kuin uuden muuttujan Y1 varianssi. Se on siis suurin mahdollinen varianssi, joka saadaan muuttujien X1, X2, X3 lineaarikombinaationa ehdolla (1).
Matriisissa D on myös kaksi muutakin alkiota 0,28 ja 0,04, koska pääkomponenttianalyysissä muodostetaan yhtä monta pääkomponenttia kuin on alkuperäisiäkin muuttujia. Niistä ensimmäi- nen saavuttaa siis suurimman varianssin ja seuraavat saavat aina pienevän varianssin. Toinen pääkomponentti on se lineaarikombinaatio, jolla on maksimivarianssi ehdolla, että kombinaatio on korreloimaton ensimmäisen pääkomponentin kanssa. Toisen muuttujan Y2 muodostamisker- toimet saadaan matriisin F toiselta pystyriviltä, siis
Y2 = 0,14062X1 – 0,13625X2 – 0,98064X3.
Uuden muuttujan Y2 varianssi on sama kuin kovarianssimatriisin C toinen (toiseksi suurin) ominaisarvo 0,28. Viimeisen muuttujan varianssi on uusien muuttujien pienin eli 0,04.
Esitetään uuden muuttujan Y1 eli 1. pääkomponentin muodostaminen kertoimineen taulukkona.
Taulukko 2.1 Alkuperäisten muuttujien kertoimet ja kerrotut arvot muodostettaessa 1. pääkomponenttia Y1
-0,74X1 -0,67X2 -0,01X3 Y1
-0,74 -1,34 -0,01 -2,10
-1,48 -2,01 -0,03 -3,52
-2,23 -2,68 -0,01 -4,92
-2,97 -3,35 -0,03 -6,35
-3,71 -4,02 -0,01 -7,74
-4,45 -4,69 -0,03 -9,17
-5,20 -4,69 -0,01 -9,90
Y1:n varianssi: 8,43
Muuttuja Y1 arvot lasketaan siis muuttujien X1, X2 ja X3 arvoista. Muuttujien X1 ja X2 kertoimet ovat suunnilleen yhtäsuuret, muuttuja X3:n kerroin on pieni uudessa muuttujassa Y1. Toisessa pääkomponentissa suurin paino on muuttujalla X3 (-0,98). Kaikkien uusien muuttujien arvot saadaan matriisina B seuraavasti:
B = AF, tyypit (7x3),(3x3)
Uusien muuttujien arvot luetaan B:n pystyriveiltä siten, että ensimmäisen pääkomponentin arvot ovat ensimmäisellä pystyrivillä jne. Nämä uudet muuttujat ovat siis korreloimattomia.
Esitetään kaikkien uusien muuttujien Y1, Y2, Y3 arvot taulukkona. (Toisaalta sama kuin matriisin B alkiot.)
Taulukko 2.2 Uusien muuttujien Y1, Y2, Y3 eli pääkomponenttien arvot havainto Y1 Y2 Y3
1 -2,10 -1,11 -0,61
2 -3,52 -2,09 -0,49
3 -4,92 -1,10 -0,76
4 -6,35 -2,08 -0,64
5 -7,74 -1,10 -0,91
6 -9,17 -2,07 -0,79
7 -9,90 -1,05 -0,31
varianssit: 8,43 0,28 0,04
Uusien muuttujien selitysosuus kokonaisvarianssista (selitysosuus termi: S. Mustonen s.61) lasketaan seuraavasti. Kokonaisvarianssi on aineiston muuttujien varianssien summa, joka on yhtäsuuri kuin pääkomponenttien varianssien summa.
varianssi(ominaisarvo) prosenttia
8,43 96,34
0,28 3,20
0,04 0,46
yht 8,75 100
Lasketaan prosentteina kunkin pääkomponentin varianssin prosenttiosuus kokonaisvarianssista.
Ensimmäinen pääkomponentti Y1 selittää kolmen muuttujan X1, X2, X3 vaihtelusta, eli koko- naisvarianssista suurimman osan eli 96 prosenttia. Toinen pääkomponentti tuo kolme prosenttia lisää. Viimeinen pääkomponentti ei käytännössä enää lisää selitysosuutta. Pääkomponentit ovat siis keskenään korreloimattomia.
Kaksiulotteinen esitys
Aineistoa voidaan kuvata kaksiulotteisena kuviona, johon laitetaan muuttujan Y1 arvot vaaka- akselille ja muuttujan Y2 arvot pystyakselille, eli esitetään kolmen muuttujan aineisto kahden uuden muuttujan avulla. Kaikki muuttujat ovat negatiivisia. Jos haluamme tutkia muuttujien välisiä suhteita, on luontevampaa muuntaa kaikki positiivisiksi. Alkuperäisetkin muuttujat ovat positiivisia. Varianssihan säilyy samansuuruisena kerrottaessa kaikki muuttujat –1 :llä. Kuvaaja siirtyy negatiivisesta neljänneksestä positiiviseen. Perustellaan tarkemmin tämä –1:llä kertomi- nen. Matriisi F:n sarakkeet ovat ovat C:n ominaisvektoreita. Jos f1 on C:n ominaisvektori, niin – f1 on myös ominaisvektori. Ominaisvektorin suunta ei ole siis yksikäsitteinen.
Taulukko 2.3 Uusien muuttujien taulukko (-1):llä kerrottuna.
havainto Y1 Y2 Y3
1 2,10 1,11 0,61
2 3,52 2,09 0,49
3 4,92 1,10 0,76
4 6,35 2,08 0,64
5 7,74 1,10 0,91
6 9,17 2,07 0,79
7 9,90 1,05 0,31
varianssit: 8,43 0,28 0,04
Esitetään muuttujien Y1 ja Y2 arvot kaksiulotteisessa koordinaatistossa. Muuttujat Y1 ja Y2 ovat korreloimattomia.
0 1 2 3 4 5 6 7 8 9 10 11
Y1 0
1 2 3 4 5 6 7 8 9 10 11 Y2
1 2
3 4
5 6
7
Kuva 2.4 Pääkomponentit Y1 ja Y2, joiden selitysosuus kokonaisvarianssista on 99,5 %.
Kuvassa 2.4 kuvataan koko aineisto kahdella muuttujalla. Esimerkissä pääkomponenttien seli- tysosuus (99,5 %) on korkea kahdelle kuvatulle muuttujalle
Tarkastellaan seuraavaksi pääkomponenttianalyysin ja korrespondenssianalyysin eroja ja saman- kaltaisuuksia.
Pääkomponenttianalyysi käsittelee jatkuvia muuttujia ja korrespondenssianalyysi käsittelee perusmuodossaan kahta luokitteluasteikollista muuttujaa.
Korrespondenssianalyysissa on samankaltainen selitysosuuden laskentatapa kuin pääkompo- nenttianalyysissa (kappaleissa 6.1 ja 5.1 selvitetään tätä tarkemmin).
Pääkomponenttianalyysin mahdollisuus esittää kaksiulotteisesti kaksi ensimmäistä pääkompo- nenttia esiintyy myös samantapaisena korrespondenssianalyysissa. Korrespondenssianalyysissa käytetään termiä kaksi ensimmäistä akselia, joiden koordinaatteihin tiivistetään kahden luokitte- luasteikollisen muuttujan luokkien tieto.
Pääasiallisin hyöty tutkimuksessa pääkomponenttianalyysista on se, että syntyviä pääkom- ponentteja voi käyttää jatkoanalyyseissa. Siis ei tarvitse käyttää kaikkia käytännössä jopa kym- meniä alkuperäisiä muuttujia.
2.2. KANONISEN KORRELAATIOANALYYSIN YHTEYS KORRESPONDENSSIANALYYSIIN
Tässä luvussa käsitellään kanonista korrelaatioanalyysia. Se on monimuuttujamenetelmä, joka esittää kahden muuttujajoukon muuttujat kahdella mahdollisimman voimakkaasti korreloivalla muuttujalla. Esimerkkinä käsitellään muuttujajoukkoja X1, X2, X3 ja Y1, Y2, Y3. Tehdään lineaa- rikombinaatio X, joka summataan kolmesta X-muuttujasta kertoimien mukaan ja Y-muuttujista rakennetaan vastaava lineaarikombinaatio. Ehtona on, että uusien muuttujien X:n ja Y:n varians- sit ovat 1 ja lopullinen tavoite on siis maksimoida uusien muuttujien korrelaatio.
Sovelluksissa haetaan ”selitettävien” Y-muuttujien joukko, jota selitetään X-muuttujien joukolla.
Uusissa kanonisissa Y- ja X-muuttujissa alkuperäiset muuttujat saavat erisuuruisia painoja. Päät- telyä alkuperäisten muuttujien merkityksestä voi alustavasti tehdä niiden kertoimien suuruuden perusteella.
Lopuksi esitellään kanonisen korrelaatioanalyysin erikoistapaus: kaikki muuttujat ovat dikoto- misia ja saavat vain arvoja 0 tai 1. Tällaisen kanonisen korrelaatioanalyysin tulokset ovat tietyllä tavalla myös korrespondenssianalyysin tuloksia. Tämä yhteys selittää, miksi joskus korrespon- denssianalyysin antamia esityskoordinaatteja kutsutaan nimellä canonical scores (kpl. 5.4 kertoo koordinaattien nimityksistä) ja miksi yhtenä nimityksenä analyysille on canonical analysis.
(Greenacre kertoo lyhyesti Barnettin toimittamassa kirjassa tämän yhteyden olemassaolosta.) Luvussa esitetään myös vaihtoehtoinen tapa esittää kontingenssitaulukoita.
Tehdään kanoninen korrelaatioanalyysi seuraaville 3+3:lle muuttujalle.
Taulukko 2.5 Kolmen X-muuttujan ja kolmen Y-muuttujan 10 havainnon aineisto nro X1 X2 X3 Y1 Y2 Y3
1 1 2 1 1 2 2
2 2 3 2 2 3 3
3 3 4 1 3 4 4
4 4 5 2 4 5 5
5 5 6 1 5 6 6
6 6 7 2 6 7 7
7 7 8 1 8 8 8
8 8 10 2 8 10 8
9 9 11 1 9 11 8
10 10 13 3 10 12 9
Taulukossa 2.5 vasemmalla on tapausten numero. Etsitään kolmelle X-muuttujalle lineaarikom- binaatio X ja Y-muuttujille lineaarikombinaatio Y, siten että uusien muuttujien X ja Y korrelaatio maksimoituu.
Kanoninen korrelaatioanalyysi on matemaattiselta taustaltaan monimutkaisempi kuin pääkom- ponenttianalyysi. Matriisioperaatiot kohdistuvat kaikkien muuttujien yhteiseen kovarianssimat- riisiin. Se sisältää
1) X-muuttujien keskinäisen kovarianssimatriisin 2) X- ja Y-muuttujien keskinäisen kovarianssimatriisin 3) Y- ja X-muuttujien keskinäisen kovarianssimatriisin 4) Y-muuttujien keskinäisen kovarianssimatriisin.
Näistä osista yhdistetään tietty matriisi, jolle haetaan singulaariarvohajotelma. (Luku 6.2. kertoo matriisien singulaariarvohajotelmista enemmän.)
Kaikkien muuttujien korrelaatiomatriisi:
X1 X2 X3 Y1 Y2 Y3
X1 X2 X3 Y1 Y2
Y3
1 958 , 0 985 , 0 331 , 0 949 , 0 977 , 0
958 , 0 1 986 , 0 380 , 0 997 , 0 996 , 0
985 , 0 986 , 0 1 328 , 0 981 , 0 995 , 0
331 , 0 380 , 0 328 , 0 1 423 , 0 367 , 0
949 , 0 997 , 0 981 , 0 423 , 0 1 993 , 0
977 , 0 996 , 0 995 , 0 367 , 0 993 , 0 1
(6x6)
Matriisin rivien ja sarakkeiden niminä ovat alkuperäisten muuttujien nimet. Näin on helpompi löytää yksittäiset kahdenkeskiset korrelaatiot. Näyttäisi, että muuttuja X3 ei korreloi minkään muun muuttujan kanssa voimakkaasti. Muiden muuttujien keskinäiset korrelaatiot ovat suuria.
Esitetään ensimmäisen kanonisen X-muuttujan muodostaminen alkuperäisten muuttujien avulla X1, X2, X3. Kanoniset muuttujat saadaan singulaariarvohajotelman avulla.
Taulukko 2.6 Ensimmäisen kanonisen X-muuttujan muodostaminen muuttujien X1, X2, X3 lineaarikombinaationa
nro X1 X2 X3 0,302X1 0,025X2 -0,012X3 kanoninen X
1 1 2 1 0,302 0,049 -0,012 0,339
2 2 3 2 0,605 0,074 -0,025 0,653
3 3 4 1 0,907 0,098 -0,012 0,993
4 4 5 2 1,209 0,123 -0,025 1,307
5 5 6 1 1,512 0,147 -0,012 1,646
6 6 7 2 1,814 0,172 -0,025 1,961
7 7 8 1 2,117 0,196 -0,012 2,300
8 8 10 2 2,419 0,245 -0,025 2,639
9 9 11 1 2,721 0,270 -0,012 2,978
10 10 13 3 3,024 0,319 -0,037 3,305
uuden kanonisen X:n varianssi: 1
Kun alkuperäiset X-muuttujat (X1, X2, X3) kerrotaan kertoimilla (0,302 0,025 –0,012) ja sum- mataan tulos, saadaan 1. kanoninen X-muuttuja, jonka kymmenen arvoa on taulukon 2.6 oikeassa sarakkeessa. Näiden uusien X-muuttujan arvojen (10 kpl) varianssi on 1.
Esitetään ensimmäisen kanonisen Y-muuttujan muodostaminen alkuperäisten muuttujien Y1, Y2, Y3 avulla.
Taulukko 2.7 Ensimmäisen kanonisen Y-muuttujan muodostaminen muuttujien Y1, Y2, Y3 lineaarikombinaationa
nro Y1 Y2 Y3 0,065Y1 0,191Y2 0,063Y3 kanoninen Y
1 1 2 2 0,065 0,383 0,125 0,573
2 2 3 3 0,129 0,574 0,188 0,891
3 3 4 4 0,194 0,766 0,251 1,210
4 4 5 5 0,258 0,957 0,314 1,529
5 5 6 6 0,323 1,148 0,376 1,847
6 6 7 7 0,387 1,340 0,439 2,166
7 8 8 8 0,516 1,531 0,502 2,549
8 8 10 8 0,516 1,914 0,502 2,932
9 9 11 8 0,581 2,106 0,502 3,188
Kun alkuperäiset Y-muuttujat (Y1, Y2, Y3) kerrotaan kertoimilla (0,065 0,191 0,063) ja summa- taan tulos, saadaan uusi kanoninen Y-muuttuja, jonka kymmenen arvoa on taulukon 2.7 oikeassa sarakkeessa. Näiden uusien Y-arvojen (10 kpl) varianssi on 1.
Esimerkin kanonisen korrelaatioanalyysin ratkaisussa haettiin tietylle matriisille singulaariarvo- hajotelma. Saadaan kolme singulaariarvoa:
singulaariarvo 1 0,999599 singulaariarvo 2 0,907969 singulaariarvo 3 0,388103
Ensimmäinen singulaariarvo on sama kuin ensimmäisten kanonisten X- ja Y-muuttujien välinen korrelaatio, eli niiden X- ja Y-muuttujien välinen korrelaatio, jotka muodostavat 1. kanonisen muuttujaparin.
Muuttujajoukkojen (Y1, Y2, Y3) ja (X1, X2, X3) suurin kanoninen korrelaatio näyttäisi riippuvan eniten muuttujista X1 ja Y2. Muiden muuttujien merkitys näyttää kertoimista päätellen olevan hyvin vähäinen.
Käytännössä analyysia jatkettaisiin siten, että katsottaisiin toiseksi suurimman korrelaation (0,907969) antamien kanonisten muuttujien kertoimien arvot. Sovelluksissa usein ensimmäinen kanoninen korrelaatio ja sen antavan alkuperäisten muuttujien painot ovat melko odotettuja ja tiedossa olevia, mutta toiseksi suurimman korrelaation antavien muuttujien tulkinta tuottaa usein uutta tietoa. (Tulkintatapa esitetty lähteessä Risto Sänkiaho: ”Temput ja kuinka ne tehdään” ) Jotta kanonisen korrelaatioanalyysin yhteys sovelluksiin tulisi hiukan selvemmäksi, esitetään erään yhteiskuntatieteellisen tutkimuksen kahden muuttujajoukon muuttujien nimet:
X-muuttujat: asuinpaikka, puoluekanta, sukupuoli, ikä, siviilisääty, koulutus, asuinaika, kunta- muoto, status, ammatti, isän status, isän ammatti
Y-muuttujat: uudenaikaisuus, "suomalaisuus", nepotismi, yhteisöllisyys, raittiusaste
Tutkimuksessa selitettiin Y-muuttujia eli ”arvoja ja normeja” sosiaalimuuttujilla X. Ensimmäisen kanonisen muuttujaparin muuttujat painottivat sukupuolta ja ikää ja toisaalta uudenaikaisuutta ja raittiusastetta. Iän ja uudenaikaisuuden välillä on riippuvuus samoin kuin raittiusasteen ja suku- puolen välillä. Kuten edellä todettiin, näissä ensimmäisissä yhteyksissä ei ole usein välttämättä mitään uutta. Tämänkin ”arvot ja normit” -aineiston ensimmäiset yhteydet ovat ennestään tun- nettuja, varmaankin ikä vaikuttaa uudenaikaisuuteen ja naiset ovat raittiimpia kuin miehet (aina- kin vielä 1980-luvulla, jolloin tämä tutkimus tehtiin). Tutkimusta jatkettiin kolmansiin kanoni- siin muuttujiin saakka. Muuttujat on saatu siten, että tutkimuksen aineistossa on kullekin henki- lölle haastatteluvastauksilla annettu pistearvo, joka kuvaa hänen statustaan, yhteisöllisyyttään jne. (Esimerkin lähde Risto Sänkiaho: ”Temput ja kuinka ne tehdään” )
Luokittelevien muuttujien aineisto
Esitetään seuraavaksi aineisto, jossa on vain kaksiarvoisia muuttujia, joiden arvo on nolla tai yksi. Selitettäviä Y-muuttujia ja selittäviä X-muuttujia on edelleen kumpiakin kolme kappaletta.
Taulukko 2.8 Kuuden luokittelevan muuttujan X1, X2, X3 ja Y1, Y2, Y3 aineisto nro X1 X2 X3 Y1 Y2 Y3
1 1 0 0 0 0 1
2 0 1 0 0 1 0
3 0 1 0 0 1 0
4 0 1 0 0 0 1
5 0 0 1 1 0 0
6 0 0 1 1 0 0
7 0 0 1 0 1 0
8 0 0 1 0 0 1
9 0 0 1 0 0 1
10 0 0 1 0 0 1
Muuttujat tulkitaan siis taulukossa 2.8 luokittelevina muuttujina. Tapaus kuuluu aina yhteen ja vain yhteen X-luokkaan (3 kpl) ja vastaavasti yhteen ja vain yhteen Y-luokkaan (3 kpl).
Ensimmäinen tapaus kuuluu X-luokkaan X1 ja Y-luokkaan Y3. Toinen tapaus kuuluu X-luokkaan X2 ja Y-luokkaan Y2. Kolmas tapaus on aivan sama kuin toinenkin Yhteensä mahdollisia luok- kakombinaatioita on siis 3x3 = 9 kpl. Kaikki kombinaatiot eivät ole edustettuna aineistossa.
Esimerkiksi mikään tapaus ei kuulu X-luokkaan X2 ja Y-luokkaan Y1. Ykkösten summa taulu- kossa on 10. Siis yhteensä on luokiteltu10 tapausta.
Taulukon 2.8 tieto voidaan esittää selkeämmin kontingenssitauluna.
Taulukko 2.9 Muuttujien X1 ,X2, X3 ja Y1, Y2, Y3 kontingenssitaulukko (taulu- kon 2.8 aineisto)
Y1 Y2 Y3 yht
X1 0 0 1 1
X2 0 2 1 3
X3 2 1 3 6
yht 2 3 5 10
Taulukosta 2.9 voidaan sanoa kontingenssitaulujen terminologian mukaan, että rivimuuttujalla on kolme luokkaa, joiden nimet ovat X1, X2 ja X3. Sarakemuuttujalla on kolme luokkaa, joiden nimet ovat Y1, Y2 ja Y3. Korrespondenssianalyysi analysoi tällaisia kontingenssitauluja. Toi- saalta taulukon 2.8 esitystavan mukaiselle datalle voidaan tehdä Y- ja X-muuttujien välinen kanoninen korrelaatioanalyysi. Tehtäessä uusia kanonisia muuttujia muuttujat X1, X2, X3 ja Y1, Y2, Y3 saavat kukin oman kertoimensa, jotka osoittautuvat korrespondenssianalyysin esitys- koordinaateiksi.
Edelläolevalle kontingenssitaulukolle 2.9 voidaan siis tehdä korrespondenssianalyysi. Ratkais- taan tehtävä korrespondenssianalyysin algoritmilla (Algoritmia selitetty luvussa 6.1.) Tuloksena saadaan riviluokkien X1, X2, X3 ja sarakeluokkien Y1, Y2, Y3 esittämistä varten kaksiulotteiset koordinaatit. (Koordinaatit ovat peruskoordinaatteja, joita on selitetty luvussa 5.4.)
Taulukko 2.10 Riviluokkien X1, X2, X3 ja sarakeluokkien Y1, Y2, Y3 korrespon- denssianalyysin esityskoordinaatit taulukon 2.9 aineistolle
luokan nimi triviaali X-koord Y-koord
X1 1 0,756 -2,903
X2 1 -1,527 -0,053
X3 1 0,637 0,510
Y1 1 1,160 1,629
Y2 1 -1,466 0,430
Y3 1 0,416 -0,910
Tässä olevan esimerkin korrespondenssianalyysin ratkaisun singulaariarvot (Singulaariarvot selitetään luvussa 6.1.) ovat seuraavat:
singulaariarvo 1 1 singulaariarvo 2 0,549 singulaariarvo 3 0,313
Ensimmäinen niin sanottu triviaali singulaariarvo liittyy ensimmäiseen triviaaliin koordinaattiin, joka on 1. Luvussa 6.1. selostettu perusalgoritmi antaa aina tällaisen triviaaliratkaisun. Toinen singulaariarvo 0,549 liittyy ratkaisun X-koordinaatteihin ja kolmas singulaariarvo Y-
koordinaatteihin.
Esitetään taulukon 2.8 aineistolle kanonisen korrelaatiotehtävän ratkaisu.
Taulukko 2.11 Ensimmäiset kanoniset muuttujat X ja Y taulukon 2.8 aineistolle. Kanonisten muuttujien arvot on lihavoitu.
0,756 -1,527 0,637 1,160 -1,466 0,416 kanoninen kanoninen
X1 X2 X3 Y1 Y2 Y3 X Y
0,756 0 0 0 0 0,416 0,756 0,416
0 -1,527 0 0 -1,466 0 -1,527 -1,466
0 -1,527 0 0 -1,466 0 -1,527 -1,466
0 -1,527 0 0 0 0,416 -1,527 0,416
0 0 0,637 1,160 0 0 0,637 1,160
0 0 0,637 1,160 0 0 0,637 1,160
0 0 0,637 0 -1,466 0 0,637 -1,466
0 0 0,637 0 0 0,416 0,637 0,416
0 0 0,637 0 0 0,416 0,637 0,416
0 0 0,637 0 0 0,416 0,637 0,416
kanonisen X:n ja kanonisen Y:n välinen korrelaatio: 0,549
Taulukossa 2.11 ylärivillä ovat muuttujien kertoimet muodostettaessa kahta uutta kanonista muuttujaa X ja Y muuttujajoukoille (X1,X2,X3) ja (Y1,Y2,Y3). Esimerkiksi kanonisen X:n ensim- mäinen arvo lasketaan seuraavasti: 0,756x1 –1,527x0 + 0,637x0 = 0,756 (X1:n ensimmäinen arvo = 1, X2 ja X3 = 0, taulukon 2 8 mukaan).
Taulukossa 2.11 ylärivillä ovat myös toisaalta korrespondenssianalyysin peruskoordinaatit 1.
akselille (X-akselille) taulukon 2.9 rivimuuttujien luokille X1, X2, X3 ja sarakemuuttujien luo- kille Y1, Y2, Y3.
Kanonisten muuttujien X ja Y saavuttama suurin korrelaatio on 0,549, mikä on sama kuin korres- pondenssianalyysin ensimmäinen (merkittävä) singulaariarvo.1 Siis taulukossa kahden äärimmäi- senä oikealla olevien muuttujien korrelaatiokerroin on 0,549.
1 Sama singulaariarvo saadaan myös ratkaistaessa tehtävä kanonisen korrelaatioanalyysin tietyn matriisin singulaa- riarvohajotelmalla.
Tarkastellaan tehtävää edelleen esittämällä toiset kanoniset muuttujat taulukon 2.8 aineistolle.
Taulukko 2.12 Toiset kanoniset muuttujat X ja Y taulukon 2.8 aineistolle. Kanonisten muuttuji- en arvot on lihavoitu.
-2,903 -0,053 0,510 1,629 0,430 -0,910 toinen
kanoninen
toinen kanoninen
X1 X2 X3 Y1 Y2 Y3 X Y
-2,903 0 0 0 0 -0,910 -2,903 -0,910
0 -0,053 0 0 0,430 0 -0,053 0,430
0 -0,053 0 0 0,430 0 -0,053 0,430
0 -0,053 0 0 0 -0,910 -0,053 -0,910
0 0 0,510 1,629 0 0 0,510 1,629
0 0 0,510 1,629 0 0 0,510 1,629
0 0 0,510 0 0,430 0 0,510 0,430
0 0 0,510 0 0 -0,910 0,510 -0,910
0 0 0,510 0 0 -0,910 0,510 -0,910
0 0 0,510 0 0 -0,910 0,510 -0,910
toinen kanoninen korrelaatiokerroin toisten kanonisten muuttujien X ja Y välillä: 0,313 Taulukossa 2.12 ylärivillä ovat muuttujien kertoimet muodostettaessa toisia kanonisia muuttujia X ja Y kahdelle muuttujajoukolle (X1,X2,X3) ja (Y1,Y2,Y3). Esimerkiksi toisen kanonisen X:n ensimmäinen arvo lasketaan seuraavasti: -2,903x1 –0,053x0 + 0,510x0 = -2,903 (X1:n ensim- mäinen arvo = 1, X2, X3 = 0, taulukon 2.8 mukaan).
Taulukossa 2.12 ovat ylärivissä myös toisaalta korrespondenssianalyysin 2. akselin (Y-akseli) peruskoordinaatit taulukon 2.9 rivimuuttujan luokille X1, X2, X3 ja sarakemuuttujan luokille Y1, Y2, Y3.
Kanonisten muuttujien X ja Y saavuttama toiseksi suurin korrelaatio on 0,313, joka on myös korrespondenssianalyysin toinen (merkittävä) singulaariarvo. Siis taulukossa 2.12 kahden ää- rimmäisenä oikealla olevien muuttujien korrelaatiokerroin on 0,313.
Triviaalin singulaariarvon ja triviaalien kertoimien yhteys
Taulukossa 2.10 oleva triviaali ratkaisu, jossa kaikki koordinaatit ovat ykkösiä, tarkoittaa ka- nonisen korrelaatioanalyysin lähestymistavassa, että kaikkien alkuperäisten muuttujien kertoi- mena on 1. Tällöin uudet kanoniset muuttujat summautuvat identtisesti ykkösiksi. Siis kum- mankin kanonisen muuttujan kaikki arvot ovat 1. Tällaisille identtisesti täysin samoille muuttu- jille ei voida laskea korrelaatiokerrointa.
Luvun 2 aiheiden merkitys korrespondenssianalyysille
Luvussa 2.1. kuvattu pääkomponenttianalyysi on korrespondenssianalyysin kaltainen menetel- mä. Pääkomponenttianalyysi kokoaa kokonaisvarianssia mahdollisimman paljon ensimmäiselle pääkomponentille. Korrespondenssianalyysi pyrkii kokoamaan 1. (ja 2.) akselille mahdollisim- man paljon kokonaisinertiasta (käsitteitä inertia ja kokonaisinertia selvitetään luvuissa 4.1.4 ja 5.2).
Luvussa 2.2. kuvattu kanoninen korrelaatioanalyysi on laskennallisestikin yhteydessä korrespon- denssianalyysiin, silloin kun käsitellään dikotomisten muuttujien (muuttuja saa arvon nolla tai yksi) kanonista korrelaatioanalyysia.
Pitemmän esitystavan (taulukko 2.8) merkitys: Korrespondenssianalyysia tehdään ja esitetään yleensä taulukkoaineistoilla. Kuitenkin taulukossa 2.8 olevaa pitempää esitystapaa käytetään kehitettäessä korrespondenssianalyysia edelleen, kuten esimerkiksi moniulotteista korrespon- denssianalyysia (englanniksi Multiple Correspondence Analysis, lyhenne MCA).
3. KORRESPONDENSSIANALYYSIN TEORIA – KÄYTÄNNÖLLINEN LÄHESTYMISTAPA
Tässä luvussa käsitellään pieniä keinotekoisia kahden muuttujan kontingenssitaulujen muodossa olevia havaintoaineistoja ja tehdään niistä useita kuvia. Aineistojen ensimmäisenä aihepiirinä on kasvilajien esiintyminen eri kasvupaikoilla. Alkuun katsotaan, kuinka paljon vaikuttaa yksittäi- sen lajin runsaus kuviin, mitä eroja korrespondenssianalyysi löytää eri kasvupaikoille ja mitä se ei löydä. Näihin kysymyksiin yritetään vastata kahdella erilaisella ja eri seikkoja korostavalla aineistolla luvuissa 3.1. ja 3.2.
Tämäntyyppisiä kasviaineistoja on tutkittu paljon, ja kasvilajien sekä kasvupaikkojen tarkaste- luun kasviekologiassa onkin kehitetty korrespondenssianalyysistä oma muunnelmansa, kanoni- nen korrespondenssianalyysi, ja sitä varten on oma ohjelmistonsa, CANOCO. Kanonisessa korrespondenssianalyysissa on tavallisten paikka – laji –taulukoiden lisänä taustamuuttujia, joiden vaikutusta tarkastellaan. Pelkästään perusmenetelmääkin käytetään paljon. Ainoastaan sitä selitetään tässä luvussa.
Vastaavissa käytännön aineistoissa on jopa satoja lajeja ja kasvupaikkoja. Sellaisesta aineistosta ei saa käsitystä ilman kuvaa, ja silloinkin on tyydyttävä tulkitsemaan yksittäisten kasvupaikkojen sijasta erilaisia ryhmiä. Tämän luvun esimerkkiaineistot ovat pieniä, jotta menetelmän ja kuvan- tulkinnan periaatteet eivät hukkuisi liian suureen ja mutkikkaaseen dataan.
Toisena aineistotyyppinä on kyselytutkimus, jossa kysellään yhtiöihin liittyviä mielikuvia ja yritetään luokitella yrityksiä. Tämäkin aineistotyyppi käsitellään kahden hiukan erilaisen aineis- ton avulla luvuissa 3.3.1. ja 3.3.2.
Tässä luvussa esitetään kuvat sellaisina kuin korrespondenssianalyysin laskentamenetelmät niitä antavat. Luvun matemaattisen käsittelyn pohjana on prosenttilasku, jolla mitataan lajien suh- teellista esiintymistä kullakin kasvupaikalla. Alussa lasketaan myös kontingenssitaulujen odo- tettuja frekvenssejä. Korrespondenssianalyysia voidaan kehitellä ja esittää monella tavalla ja monista lähtökohdista. Matemaattisesti helpointa on lähteä kontingenssitaulun χ2 -testisuureen laskemisesta.
Korrespondenssianalyysin taustalla on avaruusgeometriaan, lineaarisiin kuvauksiin ja matriisial- gebraan perustuva teoria, jota selitetään luvuissa 4,5 ja 6.
Tässä luvussa esitetään vain korrespondenssianalyysin kuvien tulkintaa. Kuvien piirtämiseen tarvittavat koordinaatit on laskettu Survo-ohjelmalla2; samalla ohjelmalla on myös piirretty kuvat. (Kuvat esitetään niinsanottujen peruskoordinaattien avulla. Koordinaattityyppejä selite- tään luvussa 5.4.) Korrespondenssianalyysin kuvien lukemista ei opi ilman perehtymistä tulkin- taan erityyppisten aineistojen avulla.
2 Koordinaatteja voi laskea ja kuvia voi piirtää monilla muillakin ohjelmilla (SAS, SPSS, Statistica). Myöhemmin todetaan, että eri ohjelmilla lasketut koordinaatit (ja niiden avulla piirretyt kuvat) voivat olla erilaisia, vaikka niiden sisältämä korrespondenssianalyysin antama informaatio ei muutukaan.
3.1. ENSIMMÄINEN KASVIAINEISTO
Ensimmäisessä aineistossa tarkastellaan kasvilajiaineistoa kasvupaikkojen suhteen. Aineisto on pyritty tekemään sellaiseksi, että siinä on vain yhden valtalajin kasvupaikkoja ja sitten sellaisia, joissa kaikkia (kolmea) lajia kasvaa tasaisesti.
3.1.1. Kasvupaikat
Ensimmäisenä käsitellään seuraavaa kontingenssitaulua. Yksi havainto on yksittäinen kasvi joltakin kasvupaikalta ja se kuuluu johonkin kolmesta lajista.
Taulukko 3.1 Ensimmäinen kasvilajiaineisto kasvupaikoittain paikka laji 1 laji 2 laji 3 yht
AAA 0 1 9 10
BBB 1 9 0 10
CCC 10 0 0 10
DDD 3 3 4 10
EEE 33 34 33 100
yht 47 47 46 140
χ2 =49,4 (p<0,001)
Käsiteltävänä on viisi erilaista kasvien kasvupaikkaa, AAA ... EEE. Yksittäisiä kasvihavaintoja on kerätty 140 kpl. Joukossa on myös nollahavaintoja, eli jossakin kasvupaikassa ei esiinny jotakin lajia ollenkaan (tai ainakaan sitä ei ole havaittu).
Taulukossa on siis kaksi luokittelevaa muuttujaa: kasvupaikka (5 luokkaa) ja kasvilaji (3 luok- kaa). Aluksi tarkastellaan, mitä mahdollisia eroja kasvupaikoissa on eri lajien suhteen. Aineisto on niin pieni, että alkuun voidaan tehdä tavanomaisia kuvaajia kustakin paikasta erikseen.
Aineistoon on tarkoituksella tehty seuraava tilanne: Kasvupaikoilla AAA , BBB ja CCC on aina yksi ja vain yksi laji valtalajina. Kasvupaikkojen DDD ja EEE on tarkoitus edustaa sellaisia paikkoja, joissa kaikkia kolmea lajia on tasaisesti. Kasvupaikalla EEE on ylivoimaisesti eniten kasveja (100 kpl), tai ainakin sieltä on tehty eniten havaintoja. Näytetään, ettei havaintojen suuri määrä (korrespondenssianalyysin termi rivimassa) sinänsä tee kasvupaikasta muista eroavaa.
Ensi katsomalla aineistossa kuitenkin havaitaan helposti kasvupaikan EEE runsas havaintomäärä Alkuun on hyvä varoittaa, ettei synny väärää mielikuvaa: joskus puhutaan korrespondenssiana- lyysin kartoista. Aineistossa esiintyvien kasvupaikkojen sijainnista maantieteellisesti toistensa suhteen ei oleteta eikä tiedetä mitään. Korrespondenssianalyysin lopullisena kuvana on kuvio, jossa kasvupaikat ja kasvilajit ovat samassa tasossa samassa kuvassa. Kuitenkaan emme saa kätevästi tuloksena ”karttaa”, jossa jonkin kasvupaikan ja kasvilajin läheisyys antaisivat tiedon, että kyseisessä paikassa kyseinen laji on valtakasvina. Se olisi kätevää. Korrespondenssianalyysi toimii kyllä hiukan tähän suuntaan, mutta kartta-ajattelu sinänsä vie harhaan. Alkuun on syytä lähteä ajatuksesta, että kasvilajit ja kasvupaikat ovat kummatkin oma ryhmänsä, vaikka ne lo- pulta esitetäänkin samassa kuvassa.
3.1.2. χχχχ2-testi - korrespondenssianalyysin esiaste
Kontingenssitauluihin, joita korrespondenssianalyysikin analysoi, liittyy χ2–testi. Se testaa, ovatko kaksiulotteisen kontingenssitaulun rivi- ja sarakeluokat riippumattomia toisistaan, eli ovatko havaitut lukumäärät kussakin ruudussa tulleet aivan sattumalta, vai onko rivi- ja sarake- luokilla jotain yhteyttä. Jos χ2-testi kertoo alkuperäisten havaintojen syntyneen aivan sattumalta, ei korrespondenssianalyysillekään jää mitään analysoitavaa.
Jos kontingenssitaulukon3 lukumäärät ovat syntyneet sattumalta, silloin kunkin solun havaittu frekvenssi = (vastaava rivisumma x vastaava sarakesumma )/kokonaismäärä. Käytännössä ha- vaitut frekvenssit voivat olla vain korkeintaan lähellä näitä odotettuja teoreettisia arvoja. Kun ne ovat riittävän lähellä, hyväksytään hypoteesi riippumattomuudesta.
Esimerkkitaulukon teoreettiset, odotetut frekvenssit, jos rivi- ja sarakemuuttujat olisivat riippu- mattomia.
Taulukko 3.2 Taulukon 3.1 kasvilajiaineiston odotetut solufrekvenssit paikka laji 1 laji 2 laji 3
AAA 3,4 3,4 3,3 10
BBB 3,4 3,4 3,3 10
CCC 3,4 3,4 3,3 10
DDD 3,4 3,4 3,3 10
EEE 33,6 33,6 32,9 100
yht 47 47 46 140
χ2 =49,4
Verrattaessa odotettuja frekvenssejä havaittuihin nähdään, että riveillä DDD ja EEE olevat ha- vaitut frekvenssit ovat lähellä teoreettisia, odotettuja. Muilla riveillä suurempia esiintyy poik- keamia. Lasketaan χ2-testisuure tarkemmin. Se koostuu summasta, jossa on 5x3=15 yhteenlas- kettavaa:
(solun havaittu frekvenssi - odotettu frekvenssi)2 /odotettu frekvenssi.
χ2–testisuureeksi saadaan 49,4. Mitä suurempi testisuureen arvo on, sitä enemmän sarake- ja riviluokkien välillä on riippuvuutta ja toisaalta sitä enemmän korrespondenssianalyysillä on käyttöä erojen löytämiseksi. Tässä tapauksessa suunnilleen vasta alle 15 olevat testisuureet alkai- sivat antaa aihetta epäillä, ettei rivi- ja sarakeluokilla ole riippuvuutta.
Seuraavassa taulukossa on testisuureen arvo kussakin solussa ja solujen testisuureiden summat riveittäin ja sarakkeittain.
3 Liitteessä kaksi on kontingenssitaulun nimityksiä ja korrespondenssianalyysin termejä selitettynä.
Taulukko 3.3 Taulukon 3.1 kasvilajiaineiston χ2–testisuureen kertymät paikka laji 1 laji 2 laji 3 χχχχ2–kertymät
AAA 3,4 1,7 9,9 15,0
BBB 1,7 9,5 3,3 14,4
CCC 13,1 3,4 3,3 19,8
DDD 0,0 0,0 0,2 0,2
EEE 0,0 0,0 0,0 0,0
yht 18,2 14,5 16,7 49,4
Tarkoituksena on siis korrespondenssianalyysilla vertailla kasvupaikkoja keskenään ja selvittää, onko niillä eroja. Korrespondenssianalyysin esiasteena voi pitää rivien vertailuja edellä lasketun testisuureen avulla. Tarkastellaan testisuureen summia riveillä.
Paikkojen DDD ja EEE riveiltä ei käytännössä kerry testisuureen summaan yhteenlaskettavaa ollenkaan. Suurin kertymä tulee riviltä CCC. Siis kaksi alinta riviä on odotettavissa olevien frekvenssien mukainen, eivätkä ne ole siis poikkeavia mihinkään suuntaan. Kaikkein poikkeavin kasvupaikka (testisuureen kertymän mukaan) on CCC ja seuraavaksi poikkeavin on AAA. Näitä alustavia tarkasteluja (riveittäin) ei korrespondenssianalyysissa tehdä, sillä analyysiohjelmat eivät anna tähän mahdollisuutta. Ohjelmat tulostavat pelkästään lopullisen χ2-testisuureen arvon, vapausasteen ja p-arvon. Testisuureen kertymän tarkastelu riveittäin antaa tässä yhteydessä kuitenkin tuntumaa siitä, mitä korrespondenssianalyysi mittaa.
3.1.3. Riviprofiilit eli suhteelliset määrät eri kasvupaikoissa
Lasketaan taulukosta suhteelliset lajien runsaudet kullekin kasvupaikalle. Kuten todettiin, ha- vaituilla frekvenseillä ei ole suurta merkitystä, varsinkaan havaintojen lukumäärällä yhteensä jossakin kasvupaikassa.
Taulukko 3.4 Taulukon 3.1 kasvilajiaineiston kasvupaikkojen riviprofiilit paikka laji 1 laji 2 laji 3 yhteensä rivimassat
AAA 0,00 0,10 0,90 1 0,07
BBB 0,10 0,90 0,00 1 0,07
CCC 1,00 0,00 0,00 1 0,07
DDD 0,30 0,30 0,40 1 0,07
EEE 0,33 0,34 0,33 1 0,71
rivisentroidi: 0,34 0,34 0,33
Kullakin kasvupaikalla on lajien suhteen oma profiilinsa. Profiilin arvot saadaan jakamalla lajin määrä kunkin paikan havaintojen yhteismäärällä eli rivisummalla (rivireunasummalla). Profiili on siis tämän taulukon tapauksessa kolmen luvun (taulukossa kolme saraketta) yhdistelmä, joiden summa on 14. Näin ollen taulukosta on poistettu tieto absoluuttisista lukumääristä.
4 Vakiintunut termi kontingenssitaulujen yhteydessä on ehdolliset jakaumat kasvupaikoilla. Profiili on korrespon- denssianalyysin oma termi
Rivimassaa ei sinänsä tarvita tavanomaisessa analyysissa. Se on laskettu kunkin rivin summasta (rivireunasummasta) jakamalla se havaintojen kokonaismäärällä (=140). Massoista näkyy, että paikassa EEE on paljon havaintoja muihin verrattuna.
Rivisentroidin5 luvut on saatu jakamalla eri lajien yhteismäärät havaintojen kokonaismäärällä.
Sentroidi on toisaalta painotettu keskiarvo rivien profiileista. Mitä lähempänä riviprofiili on sentroidia, sen ”tavallisempi” se on, eli sillä rivillä ei tule χ2–testisuureelle isoja kertymiä. Rivi- profiili ei poikkea odotetusta mihinkään suuntaan tällöin.
Näistä profiileista voi piirtää tavanomaiset kuvaajat. Eli tehdään kustakin kasvupaikasta kolmen pylvään kuvio, jossa on pylvään korkeutena on kunkin lajin suhteellinen esiintyminen kyseisessä paikassa (kasvilajien ehdolliset jakaumat kasvupaikoilla). Lisäksi piirretään rivisentroidin ku- vaaja.
Kasvupaikka AAA
AAA
0,00 0,10 0,20 0,30 0,40 0,50 0,60 0,70 0,80 0,90 1,00
lyksi lkaksi lkolme
AAA
Kasvupaikka BBB
BBB
0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1
lyksi lkaksi lkolme
BBB
Kasvupaikka CCC
CCC
0 0,2 0,4 0,6 0,8 1 1,2
lyksi lkaksi lkolme
CCC
Kasvupaikka DDD
DDD
0 0,05 0,1 0,15 0,2 0,25 0,3 0,35 0,4 0,45
lyksi lkaksi lkolme
DDD
Kasvupaikka EEE
EEE
0,324 0,326 0,328 0,33 0,332 0,334 0,336 0,338 0,34 0,342
lyksi lkaksi lkolme
EEE
Rivisentroidi
rivi-centroidi
0,32 0,329 0,338
1 2 3
rivi-centroidi
Kuva 3.5 Suhteelliset lajien esiintymiset kasvupaikoilla (lajien ehdolliset jakaumat kasvupai- koilla) ja rivisentroidi (sarakemuuttujan reunajakauma)
Kuvioista näkyy selkeästi, että kolmessa ensimmäisessä kasvupaikassa on jokin valtalaji. Alari- vissä on kaksi viimeistä kasvupaikkaa ja rivisentroidi. Ne ovat tasaisempia kuvioita. Kuviot ovat havainnollisia, eikä muita kuvioita ja korrespondenssianalyysia välttämättä ehkä tarvittaisikaan.
Tällaisia kuvia ei voi kuitenkaan kerralla katsoa ja tulkita kuin korkeintaan muutaman. Korres- pondenssianalyysi tiivistää tiedon kuvioon tehokkaimmillaan yhdellä luvulla, janan pituudella, kuten kohta nähdään.
5 Vakiintuneempi termi on sarakemuuttujan reunajakauma. Korrespondenssianalyysin termi on siis rivisentroidi.
Toisaalta rivimuuttujan reunajakauma on sarakesentroidi.
3.1.4. Ensimmäinen korrespondenssianalyysin akseli
Katsotaan, mitä tuloksia korrespondenssianalyysi antaa kasvilajiaineistosta 1. akselille (Lähes vastaavaa termiä, 1. pääakseli, käytetään pääkomponenttianalyysissa.) Voidaan myös puhua 1.
dimension eli ulottuvuuden koordinaateista. Kasvupaikoille lasketaan koordinaatit ja laitetaan pisteet samalle akselille ja katsotaan, onko kasvupaikoissa eroja, kuinka suuria erot ovat ja mistä erot mahdollisesti johtuvat.
Tulosten tulkinta on hyvä aloittaa ensin tällä yhdellä ulottuvuudella. Korrespondenssianalyysi laskee seuraavat koordinaattiarvot kullekin riviprofiilille eli kasvupaikalle (lukujoukkoa kutsu- taan rivipisteiksi). Ne ovat koordinaatteja 1. akselilla. Analyysi selittää tämän akselin avulla 57 prosenttia aineistosta, eli tämä yksi suora selittää yli puolet paikkojen erilaisuudesta6.
kasvupaikka 1. akseli
AAA -2,15
BBB -0,39
CCC 3,03
DDD -0,25
EEE -0,02
Havainnollisempi käsitys saadaan, kun järjestetään profiilit suuruusjärjestykseen pienimmästä suurimpaan.
kasvupaikka 1. akseli
AAA -2,15 (minimi)
BBB -0,39
DDD -0,25
EEE -0,02 (lähinnä nollaa)
CCC 3,03 (maksimi)
Laitetaan paikkojen koordinaatit samalle akselille.
Kuva 3.6 Kasvupaikkojen koordinaatit 1. akselilla, akselin selitysaste = 53%.
Yhden akselin kuvio näyttää selkeästi olennaisimman eron: kasvupaikat AAA ja CCC eroavat korrespondenssianalyysin mukaan eniten toisistaan. Muiden paikkojen koordinaatit ovat (en- simmäisen) akselin origon läheisyydessä. Ne erottuvat huonosti, mutta toisaalta näiden kolmen paikan samankaltaisuudesta saadaan selkeä käsitys. Eroja niiden välillä ei käytännössä ole tällä ensimmäisellä akselilla.
6 Tarkasti sanottuna: 1. akselin selitysaste on 57 %. Selitysaste määritellään ja lasketaan ratkaisualgoritmin singulaa- riarvojen avulla. Tarkemmat määritelmät ja laskukaavat luvuissa 5.1. ja 6.1. Tässä luvussa (ja muutenkin) selitysas- tetta käytetään kuvaamaan akselin (tai akselien) ”hyvyyttä”, kykyä selittää aineistossa olevia poikkeamia odotetuista frekvensseistä.
Hyvien periaatteiden mukaisella korrespondenssianalyysin akselilla ei saisi olla näkyvissä kuin nollakohta, koska edellä saatujen koordinaattien absoluuttiset arvot eivät sinänsä ole tärkeitä.
Käytössä on nimittäin erilaisia tapoja ilmaista näitä koordinaatteja eri luvuilla. Nollakohta pysyy skaalattaessa samana ja erot näkyvät edelleen, skaalasta riippuen suurempina tai pienempinä.
Tässä esitettävät koordinaatit ovat tietyn peruslaskentamenetelmän (selitetty luvussa 6.1) tuotta- mat skaalaamattomat luvut. Sellaisia käsitellään jatkossakin.
On syytä erikseen huomauttaa, että tässä työssä (ja erityisesti tässä kappaleessa kolme) esiintyvät eri aineistojen korrespondenssianalyysin tuottamat koordinaatit ovat aina skaalaamattomia, ellei muuta ilmoiteta. Tämä on hyvä tietää, koska voi syntyä hämminkiä, jos vastaavia aineistoja ajetaan ja tarkistetaan eri valmisohjelmilla (esimerkiksi SPSS, SAS). Esimerkiksi SPSS antaa mahdollisuuden kertoa koordinaatteja lähes vapaavalintaisilla kertoimilla, kuitenkin saman akselin luvut kerrotaan aina samalla kertoimella. Myös koordinaatit voivat olla eri ohjelmissa vastalukuja, jolloin alin piste siirtyykin toisen ohjelman kuvassa ylimmäiseksi ja päinvastoin.
3.1.5. Ensimmäisen akselin arvot ja selitykset
Käsitellään vielä yksityiskohtaisesti taulukkomuodossa korrespondenssianalyysin antamia koor- dinaatteja eri kasvupaikoille.
Taulukko 3.7 Korrespondenssianalyysin laskemat 1. akselin koordinaatit eri kasvupaikoille taulukon 3.1 aineistolle
kasvupaikan eli rivin nimi
skaalaamattomat peruskoordinaatit 1. akselilla
koordinaattien järjestys
koordinaattien itseisarvo
rivin tes- tisuure (osasumma)
kommentti
AAA -2,15 pienin 2. suurin 15,0
BBB -0,39 14,4
CCC 3,03 suurin suurin 19,8 suurin
koordinaatti
DDD -0,25 0,2 arvot lähes
0
EEE -0,02 keskimmäinen pienin (nolla) 0,0 arvot lähes
0 49,4
Lukuja on pyöristetty siistimmän esitystavan saamiseksi. Testisuureen arvon esittäminen ei siis ole oikein käytännönläheistä, kuten edellä todettiin. Sen esittäminen ei kuitenkaan haittaa kor- respondenssianalyysin perusteita käsiteltäessä.
Esitetään vielä kommentteja kustakin kasvupaikasta erikseen.
AAA ja CCC
Nämä kasvupaikat on syytä esittää samassa yhteydessä, koska analyysin tuloksista kannattaa hakea aina suurimmat erot ensin ja kasvupaikat AAA ja CCC ovat ensimmäisen akselin ääriar- vopisteet. Katsotaan niiden alkuperäisiä profiileja ja mietitään syytä niiden vastakkaisuuteen.
Kasvupaikka CCC saa itseisarvoltaan suurimman koordinaatin arvon ja on siis erillään muista pisteistä. Profiilin mukaan se on täysin yhden kasvilajin paikka. (Kasvupaikalla CCC on myös suurin χ2–osasumma.) AAA on nollan vastakkaisella puolella verrattuna CCC:hen. AAA:n