• Ei tuloksia

Latteita kuvia

In document Survo ja minä (sivua 146-157)

Tilastollisen aineiston graafisen esittämisen ongelmat korostuvat moniulottei-sissa aineistoissa, sillä esim. monikymmenulotteisen pisteparven litistäminen tasoon tarkkuudesta tinkimättä on täysi mahdottomuus. Kolmiulotteisuus esim. stereokuvapareina tai kuvaruudulla pyörivinä ns. spin-kuvina ei anna juuri mitään lisähyötyä näissä tilanteissa. Parasta on tunnustaa tosiasiat ja esit-tää se, mikä esitettävissä on, tasossa.

Tilastollisten monimuuttujamenetelmien eräänä tarkoituksena on tuottaa usean muuttujan aineistoista vähäulotteisia esityksiä esim. karsimalla tutkittavan il-miön kannalta tarpeetonta satunnaisuutta. Tällöin menetelmien tuloksia tar-kasteltaessa graafiset keinot tulevat paremmin ulottuvillemme.

Sopii kysyä, onko moniulotteisen ilmiön graafisessa esittämisessä mitään mieltä, koska itse ilmiöllä on harvoin suoraa suhdetta fysikaaliseen, näkyvään todellisuuteen. Kaikki kuvalliset keinot ovat tällöin täysin sopimuksenvarai-sia. On kuitenkin kiistatonta, että ihmisen on jopa huonostikin suunnitellusta kuvallisesta esityksestä helpompi nähdä asioiden välisiä yhteyksiä kuin katse-lemalla pelkkää lukujen muodostamaa havaintotaulukkoa. Kuvien hahmotta-misessa ihminen on vielä ylivoimainen tehokkaimpiinkin robotteihin verrattu-na.

Miltei kaikkien kuvallisten keinojen perustana ovat tavanomaiset kaksiulottei-set, suorakulmaiset koordinaattiesitykkaksiulottei-set, joissa havainnot näkyvät pisteinä tai pisteen laajennuksina. Laajennuksella tarkoitetaan sitä, että "pisteet" voivat olla erikokoisia, -muotoisia ja -värisiä. Niiden ympärille voi kasautua myös eri muuttujista riippuvaa tietoa erimittaisilla ja -suuntaisilla janoilla tai käyrän-pätkillä kuvattuina. Siis erilaisilla pisteen liitännäisillä saadaan kuvaan jollain tavoin mukaan hyvinkin monen muuttujan osuus.

On ehdotettu myös hyvinkin erikoistuneita kuvaustapoja. Näistä eksoottisim-pia ovat ns. Chernoffin naamat. Niissä muuttujat asetetaan vastaamaan kasvo-jen eri piirteitä. Menetelmän viehätys piilee siinä, että tukeudutaan suoraan ih-misen opittuun kykyyn tunnistaa lähimmäisensä naamataulusta.

Hajontakuvien yleistykset

Kahden muuttujan hajontakuvissa, joita myös kutsutaan korrelaatiodiagram-moiksi, tarkastellaan ko. muuttujien keskinäisiä riippuvuuksia. Kutakin ha-vaintoa vastaa kaksiulotteisessa koordinaatistossa piste, jonka asema x-akselin suunnassa määräytyy ensimmäisen muuttujan arvon ja y-akselin suunnassa toisen muuttujan arvon mukaan.

Tähän kuvaustapaan voi lisätä tietoa muista muuttujista laajentamalla eri ta-voin "pisteen" ulkoista muotoa. Survon grafiikassa tämä käy helpoiten käyttä-mällä PPOINTOINT-täsmennystä yleisimmässä muodossaan, kuten tapahtuu seuraa-vassa esimerkissä. Tällöin otetaan mukaan kolmas muuttuja, joka vaikuttaa pistettä vastaavan symbolin kokoon. LLINEINE-täsmennys laajennuksineen tuottaa vielä monipuolisempia tehostuksia.

Seuraavassa diagrammassa on piirretty vastakkain Suomen kunnista (Survon esimerkkiaineisto KKUNNATUNNAT) muuttujat TTulotasoulotaso ja SSYNTYNT (syntyneisyys 1000 asukasta kohti) siten, että kuntaa vastaavan neliömäisen "pisteen" sivun pituus on verrannollinen muuttujaan ÄÄyriero=Äyri-12yriero=Äyri-12. Muunnos veroäyri-muuttujassa tehdään, jotta erot todella näkyisivät kuvassa.

27 1 SURVO 84C EDITOR Thu Jul 21 17:53:39 1994 C:\M\MON\ 100 100 0 27 1 SURVO 84C EDITOR Thu Jul 21 17:53:39 1994 C:\M\MON\ 100 100 0 1 * 1 *

2 * 2 *VAR SYNT=1000*Synt./Väestö TO KUNNATVAR SYNT=1000*Synt./Väestö TO KUNNAT 3 * 3 *VAR Äyriero=Äyri-12 TO KUNNATVAR Äyriero=Äyri-12 TO KUNNAT

4 *... 4 *...

5 * 5 *GPLOT KUNNAT,Tulotaso,SYNTGPLOT KUNNAT,Tulotaso,SYNT 6 *POINT=5,10,Äyriero,8 6 *POINT=5,10,Äyriero,8 7 * 7 *

Diagram of KUNNAT

5000 10000 15000 20000 25000 30000 Tulotaso

0 5 10 15 20 25

30 SYNT

Kuvasta ilmenee paitsi tulotason ja syntyneisyyden riippuvuus myös se, että veroäyri on odotetusti alhaisen tulotason kunnissa suurimmillaan ja korkean tulotason kunnissa pienimmillään.

Rivin 6 PPOINTOINT-täsmennys määrää, mitä kussakin tapauksessa tulee pisteen paikalle. Ensimmäinen parametri 5 valitsee symboliksi avoimen neliön. Toi-nen parametri 10 ilmoittaa neliön peruskoon ja kolmas parametri (ÄÄyrieroyriero)

Monen ulottuvilla 145 kokoon vaikuttavan muuttujan. Peruskokoa käytetään, kun ÄÄyrieroyriero on viimei-sen parametrin (8) suuruinen. Yleisesti neliön koko (sivun pituus) on suhtees-sa muuttujan ÄÄyrieroyriero arvoon.

Survoilijat voivat vaatimusten kasvaessa kehitellä itse paljon monimuotoi-sempiakin esityksiä havaintopisteille, jotta vielä useamman muuttujan vaiku-tus paistaisi kuvasta.

Hajontakuvat koosteena

Hajontakuvamatriisilla (Draftsman’s display) tarkoitetaan kuvakoostetta, joka asettelultaan vastaa esim. korrelaatiomatriisia, mutta jonka "alkioina" ovat asianomaisten muuttujien korrelaatiodiagrammat. Englanninkielinen nimitys juontaa alkunsa teknisten laitteiden projektiopiirrostekniikasta. Tutkittavan aineiston kaikkien mahdollisten kaksiulotteisten hajontakuvien samanaikainen esittäminen antaa melko hyvän kokonaisnäkemyksen riippuvuuksien luon-teesta. Se ei kuitenkaan voi tuottaa täydellistä kuvaa aineiston kokonaisvaihte-lusta, koska minkäänulotteiset reunajakaumat eivät määrittele yhteisjakaumaa yksikäsitteisesti. Tästä huolimatta hajontakuvamatriisin piirtäminen on oival-linen keino tutustua uuden aineiston käyttäytymiseen ja auttaa esim. sopivien muuttujamuunnosten löytämisessä.

Suomen suurimpien kuntien (asukasluku yli 10000) 10 valitusta muuttujasta tehty hajontakuvamatriisi näyttää seuraavalta. Kussakin korrelaatiodiagram-massa Helsinki erottuu suurempana pisteenä.

Suomen suurimmat kunnat

Väestö Synt.

Ala

Maamet Teoll

Palvelu Asuin

Äyri

Tulotaso SYNT Väestö

Synt.

Ala

Maamet Teoll

Palvelu Asuin

Äyri

Tulotaso SYNT

Helsinki

Tällainen kuva syntyy Survon avulla vähimmillään PPLOTLOT- (kuvaruutuun GGPLOTPLOT-) komennolla, joka on varustettu täsmennyksellä TTYPE=DRAFTSYPE=DRAFTS. Hyvin vähäluokkaisten muuttujien osalta on hyötyä JJITTERITTER-täsmennyksestä, joka täristää muuten päällekkäin tulevat pisteet "oikean" paikan ympärille satun-naiseksi pisteparveksi. Ilman täristystä diskreettien muuttujien hajontakuvat surkastuvat usein mielenkiinnottomiksi hilapisteistöiksi eikä riippuvuuden luonteesta saa kunnon käsitystä. Täristys on hyvä esimerkki satunnaisuuden tahallisesta tuottamisesta. Mikään täristetty piste ei sijaitse täsmälleen "oi-keassa" paikassa, mutta kuva silti kertoo totuuden näin paremmin.

Tässä tapauksessa, koska yksi havainto halutaan erottaa muiden joukosta ja seurata sen asemaa kussakin osakuvassa erikseen, kuva rakennetaan kahdessa vaiheessa. Ensin piirretään koko aineisto (rivit 2-6) tallettaen sekä kuva (OOUTFILEUTFILE-täsmennys) että automaattisesti valitut piirrosasteikot (OOUTSCALEUTSCALE -täsmennys). Tämän päälle saadaan sopeutettu kuva toisesta aineistosta (tai kuten tässä yhdestä havainnosta) eri värillä tai toisentyyppisinä pisteinä mer-kittynä muuten vastaavalla kaaviolla (rivit 8-14) käyttäen kohdistukseen IINFILENFILE- ja IINSCALENSCALE-täsmennyksiä:

13 1 SURVO 84C EDITOR Sat Jul 23 15:45:38 1994 C:\M\MON\ 100 100 0 13 1 SURVO 84C EDITOR Sat Jul 23 15:45:38 1994 C:\M\MON\ 100 100 0 1 * 1 *

2 *Koko aineiston piirto (skaalausten valinta ja täristys): 2 *Koko aineiston piirto (skaalausten valinta ja täristys):

3 * 3 *GPLOT KUNNATGPLOT KUNNAT / TYPE=DRAFTS OUTSCALE=SKAALAT.TXT JITTER=30 / TYPE=DRAFTS OUTSCALE=SKAALAT.TXT JITTER=30 4 *IND=Väestö,10000,500000 4 *IND=Väestö,10000,500000

5 *XDIV=0,1,0 YDIV=0,10,1 HEADER=Suomen_suurimmat_kunnat 5 *XDIV=0,1,0 YDIV=0,10,1 HEADER=Suomen_suurimmat_kunnat 6 *MASK=--AAAAAAAAAA MODE=VGA OUTFILE=A 6 *MASK=--AAAAAAAAAA MODE=VGA OUTFILE=A

7 *... 7 *...

8 *Yhden havainnon lisäys isommalla merkinnällä: 8 *Yhden havainnon lisäys isommalla merkinnällä:

9 * 9 *GPLOT KUNNATGPLOT KUNNAT / TYPE=DRAFTS INSCALE=SKAALAT.TXT / TYPE=DRAFTS INSCALE=SKAALAT.TXT 10 * 10 *

11 *XDIV=0,1,0 YDIV=0,10,1 HEADER= 11 *XDIV=0,1,0 YDIV=0,10,1 HEADER=

12 *MASK=--AAAAAAAAAA MODE=VGA INFILE=A POINT=[RED],0,3 TEXTS=Kunta 12 *MASK=--AAAAAAAAAA MODE=VGA INFILE=A POINT=[RED],0,3 TEXTS=Kunta 13 *CASES=Kunta:Helsinki Helsinki voidaan vaihtaa 13 *CASES=Kunta:Helsinki Helsinki voidaan vaihtaa

14 *Kunta=Helsinki,500,450 mihin tahansa muuhun kuntaan. 14 *Kunta=Helsinki,500,450 mihin tahansa muuhun kuntaan.

15 * 15 *

Havaintomatriisi rasterikuvana

Toinen tapa yleiskuvan saamiseksi on piirtää koko havaintomatriisi matriisi-diagrammana siten, että havaintoarvojen paikalla ovat niiden suuruuksia vas-taavat tummuusasteeltaan vaihtelevat viivat tai laatikot. Esim. muuttujakoh-taisesti säädetään, miten tummuusaste muuttuu mustasta valkoiseen arvon kas-vaessa tai päinvastoin.

Monen ulottuvilla 147

13 1 SURVO 84C EDITOR Sat Jul 23 17:40:34 1994 C:\M\MON\ 100 100 0 13 1 SURVO 84C EDITOR Sat Jul 23 17:40:34 1994 C:\M\MON\ 100 100 0 15 *... 15 *...

16 *IND=Väestö,10000,500000 16 *IND=Väestö,10000,500000

17 * 17 *FILE SORT KUNNAT BY -Väestö TO KUNNAT2FILE SORT KUNNAT BY -Väestö TO KUNNAT2

18 *... 18 *...

19 *MASK=A-AAAAAAAAAA-- 19

20 *HEADER=Suomen_suurimmat_kunnat 20 *HEADER=Suomen_suurimmat_kunnat

21 * 21 *PLOT KUNNAT2PLOT KUNNAT2 / TYPE=MATRIX SCREEN=NEG DEVICE=PS,KUNNAT4.PS / TYPE=MATRIX SCREEN=NEG DEVICE=PS,KUNNAT4.PS 22 *SIZE=1164,1500 XDIV=620,514,30 YDIV=30,1370,100 22 *SIZE=1164,1500 XDIV=620,514,30 YDIV=30,1370,100

23 *ROWLABELS=[Swiss(6)],1,4,10 COLUMNLABELS=[Swiss(7)],1,2 23 *ROWLABELS=[Swiss(6)],1,4,10 COLUMNLABELS=[Swiss(7)],1,2 24 * 24 *

Tiedoston KKUNNATUNNAT mukaan otettavat havainnot on ensin lajiteltu väkiluvun mukaan laskevaan järjestykseen havaintotiedostoksi KKUNNAT2UNNAT2 (rivit 16-17).

Kuvan piirto tapahtuu riveillä 19-23 olevalla PPLOTLOT-kaaviolla, jossa kuvatyy-pin määrää täsmennys TTYPE=MATRIXYPE=MATRIX. Täsmennys SSCREEN=NEGCREEN=NEG tarkoittaa, että muuttujanarvon vähetessä myös tummuusaste vähenee. Täsmennysten RROWLABELSOWLABELS ja CCOLUMNLABELSOLUMNLABELS avulla rivi- ja sarakeotsikot saadaan lomit-tumaan niin, etteivät ne ahtaudu päällekkäin.

Andrews-käyrät

Kokonaan toisenlaisen näkökulman moniulotteisen aineiston graafiseen tarkasteluun tarjoaa D.F.Andrewsin (1972) esittämä Fourier-käyrätekniikka.

Kutakin p muuttujan X=(X1,X2,...,Xp) havaintoa vastaa funktion

f X (t) = X1/√2 + X2 sin(t) + X3 cos(t) + X4 sin(2t) + X5 cos(2t) + X6 sin(3t) + ...

kuvaaja välillä -π < t < π . Kun havainnot esitetään samassa koordinaatistossa, toisiaan muistuttavia havaintoja edustavat luonnollisesti toisiaan muistuttavat käyrät. Käyrien etäisyys toisistaan vastaa jopa tarkkaan havaintojen euklidista etäisyyttä p-ulotteisessa avaruudessa siinä mielessä, että havainnoille X ja Y pätee

1 π ⌠

−π π

[f X (t) f Y (t)]2dt = || X Y ||2 = (X1 Y1)2 + (X2 Y2)2 + ... + (Xp Yp)2 . Andrews käytti eräänä esimerkkinään ihmis- ja apinalajien sekä fossiilien leu-kaluista tehdyistä mittauksista koottua aineistoa. Alkuperäiset 8 muuttujaa on seuraavassa havaintotaulukossa korvattu erotteluanalyysin antamilla erottelu-muuttujilla, jolloin eri lajien ja rotujen poikkeamat näkyvät muuttujissa X1-X8 voimakkuusjärjestyksessä. Muuttujat kannattaa asettaa tärkeysjärjes-tykseen, koska niiden vaikutukset itse käyrissä ilmenevät sitä paremmin mitä alhaisemmasta taajuudesta on kysymys. Erityisesti ensimmäinen muuttuja (X1) määrää yksinkertaisesti, millä perustasolla havaintoa vastaava käyrä kulkee.

Aineiston kolme ensimmäistä havaintoa vastaavat nykyisiä ihmisrotuja (länsi-afrikkalainen, britti, australialainen), 6 seuraavaa tunnettuja apinalajeja ja lo-put 6 muinaisia löydöksiä. Mielenkiintoista on tarkastella viimeistä (Proconsul Africanus), jota ainakin joskus on pidetty apinoiden ja ihmisten välisenä

"puuttuvana renkaana".

Monen ulottuvilla 149

20 * 20 *GPLOT FOSSIILITGPLOT FOSSIILIT / TYPE=ANDREWS LABEL=[Small],Tunnus / TYPE=ANDREWS LABEL=[Small],Tunnus 21 * YSCALE=-2(1)1 21 * YSCALE=-2(1)1 32 *END of plotting specifications 32 *END of plotting specifications 33 * 33 *

PPLOTLOT-komennossa täsmennys TTYPE=ANDREWSYPE=ANDREWS synnyttää Andrews-käyrät.

Se edellyttää erityistä VVARIABLESARIABLES-luetteloa, joka on tässä riveillä 23-32. Jos luettelo puuttuu, kun GPLOT käynnistetään, Survo tuottaa valmiin mallin toi-mituskenttään. Luettelossa kerrotaan muuttujat X (tärkeysjärjestyksessä). Jo-kaista on lupa skaalata muotoon (XA)/B antamalla parametrit A ja B. Tässä tapauksessa on A=0 ja B=1 kaikilla muuttujilla eli muuttujanarvoja käytetään sellaisenaan. Eri havaintoja vastaavien käyrien tunnistamiseksi annetaan LLABELABEL-täsmennys. Se ilmoittaa muuttujan, jonka arvoilla jokainen käyristä merkitään sopivasti porrastetuin välein. Havaintotaulukon viimeisenä sarak-keena on muuttuja TTunnus unnus tätä tarkoitusta varten.

Ensimmäisen erottelumuuttujan XX11 mukaisesti Andrews-käyrät jakautuvat kahteen ryhmään, joista ylemmässä ovat apinat, alemmassa ihmisrodut ja useimmat fossiilit. Mystinen Proconsul Africanus (FF66) kulkee etupäässä api-noitten puolella poiketen kerran ihmisten seuraan.

Chernoffin naamat

Tässä piirrostavassa, jonka H.Chernoff on esittänyt vuonna 1973, muuttujat asetetaan vastaamaan karkeasti piirrettyjen kasvojen eri piirteitä. Survossa on seurattu tarkasti Chernoffin alkuperäistä ehdotusta, jossa valittavia piirteitä oli kaikkiaan 18. Jos aktivoidaan PPLOTLOT-komento varustettuna pelkällä TTYPE=YPE=

FFACESACES täsmennyksellä, toimituskenttään kopioituu mallikaavio, jota muok-kaamalla soveltaja liittää muuttujat ja kasvojen piirteet toisiinsa. Tämän mal-lin keskeinen osa on VVARIABLESARIABLES-luettelo, jonka olen jo valmiiksi täyttänyt fossiiliaineiston mukaisesti.

1 1 SURVO 84C EDITOR Sun Aug 18 11:28:21 1996 C:\M\MON\ 120 100 0 1 1 SURVO 84C EDITOR Sun Aug 18 11:28:21 1996 C:\M\MON\ 120 100 0 20 * 20 *

21 * 21 *VARIABLES: xmin xmax Features fmin fmax VARIABLES: xmin xmax Features fmin fmax 22 * 22 * - * ** Radius_to_corner_of_face_OP 0.6 1.0 - * ** Radius_to_corner_of_face_OP 0.6 1.0 23 * 23 * - * ** Angle_of_OP_to_horizontal 0.0 0.6 - * ** Angle_of_OP_to_horizontal 0.0 0.6 24 *D1 6.28** -9.37* 24 *D1 6.28** -9.37* Vertical_size_of_face_OU 0.6 1.0 Vertical_size_of_face_OU 0.6 1.0 25 * 25 * - * ** Eccentricity_of_upper_face 0.5 1.5 - * ** Eccentricity_of_upper_face 0.5 1.5 26 * 26 * - * ** Eccentricity_of_lower_face 0.5 1.5 - * ** Eccentricity_of_lower_face 0.5 1.5 27 *D2 -4.28* 6.34** 27 *D2 -4.28* 6.34** Length_of_nose 0.1 0.5 Length_of_nose 0.1 0.5 28 *D3 -2.14* 1.66** 28 *D3 -2.14* 1.66** Vertical_position_of_mouth 0.2 0.8 Vertical_position_of_mouth 0.2 0.8 29 *D1 -9.37* 6.28** 29 *D1 -9.37* 6.28** Curvature_of_mouth_1/R -4.0 4.0 Curvature_of_mouth_1/R -4.0 4.0 30 *D1 -9.37* 6.28** 30 *D1 -9.37* 6.28** Width_of_mouth 0.2 1.0 Width_of_mouth 0.2 1.0 31 *D1 -9.37* 6.28** 31 *D1 -9.37* 6.28** Vertical_position_of_eyes 0.0 0.4 Vertical_position_of_eyes 0.0 0.4 32 *D1 6.28** -9.37* 32 *D1 6.28** -9.37* Separation_of_eyes 0.3 0.8 Separation_of_eyes 0.3 0.8 33 *D4 -1.73* 2.11** 33 *D4 -1.73* 2.11** Slant_of_eyes -0.5 0.5 Slant_of_eyes -0.5 0.5 34 *D5 -2.23* 2.06** 34 *D5 -2.23* 2.06** Eccentricity_of_eyes 0.3 1.0 Eccentricity_of_eyes 0.3 1.0 35 *D6 -1.01* 1.8** 35 *D6 -1.01* 1.8** Size_of_eyes 0.1 0.2 Size_of_eyes 0.1 0.2 36 *D7 -0.28* 2.61** 36 *D7 -0.28* 2.61** Position_of_pupils -0.1 0.1 Position_of_pupils -0.1 0.1 37 *D8 -0.87* 2.48** 37 *D8 -0.87* 2.48** Vertical_position_of_eyebrows 0.2 0.4 Vertical_position_of_eyebrows 0.2 0.4 38 *D2 -4.28* 6.34** 38 *D2 -4.28* 6.34** Slant_of_eyebrows -0.5 0.5 Slant_of_eyebrows -0.5 0.5 39 *D3 -2.14* 1.66** 39 *D3 -2.14* 1.66** Size_of_eyebrows 0.1 0.5 Size_of_eyebrows 0.1 0.5 40 * 40 *END of plotting specifications END of plotting specifications 41 * 41 *

Taulukon viimeisinä sarakkeina ovat kasvojen piirteiden selitykset (Features) ja niiden luonnolliset minimi- ja maksimiarvot. Soveltajan tehtävä on päivittää

Monen ulottuvilla 151 kolme ensimmäistä saraketta, joissa nimetään eri piirteisiin vaikuttavat muut-tujat ja niiden minimi- ja maksimiarvot. Tällöin muuttujien arvot kuvautuvat piirteiksi lineaarisella muunnoksella, joka asettaa minimit minimejä vastaan ja maksimit maksimeja vastaan. Muuttujien minimejä ja maksimeja ei tarvitse erikseen laskea aineistosta, vaan minimin paikalla on valmiiksi merkintä ** ja maksimin paikalla **** . Kuvauksen voi kääntää vastakkaiseen suuntaan asetta-malla minimin paikalle **** ja maksimin ** . Erityisesti kun muuttujia on vä-hemmän kuin naaman piirteitä, tärkeinä pidettyjä muuttujia kannattaa käyttää useasti. Naaman piirteen voi vakioida (minimin ja maksimin keskiväliin) pa-nemalla muuttujan paikalle merkinnän -- .

Fossiiliaineistoa piirrettäessä on houkutus yrittää valita vastaavuudet siten, et-tä ihmisiset-tä ja apinoista tulee jossain määrin itsensä näköisiä. On kuitenkin kohtuutonta kuvitella, että näin saataisiin fossiilit myös näyttämään "oikeilta".

Havaitsemme vain, että Chernoffin naamoina useimmat fossiilit ovat enem-män ihmisen kuin apinan kaltaisia ja että Proconsul Africanus on tässä seuras-sa tosi outo ilmestys.

Ihmisten, apinoiden ja fossiilien leukaluumittaukset

Westafr British Austral Gorilla1 Gorilla2

Orang1 Orang2 Chimpan1 Chimpan2 Pith.Pek

Pith.P2 Par.Robu Par.Cras Megantro Proc.Afr

Survon Chernoff-ohjelmassa kuvaruudulla on myös mahdollista käyttää värejä ja esim. "maalata" kasvot ja silmämunat. Naamakuvien todellinen hyöty käy-tännön sovelluksissa on kuitenkin jäänyt vähäiseksi alkuperäisen idean haus-kuudesta huolimatta.

Vaiheittaista ryhmittelyä

Eräissä monimuuttujamenetelmissä tulosten esittäminen kuvallisessa muodos-sa kuuluu menetelmän ominaispiirteisiin. Havaintojen hierarkkinen ryhmittely on tässä suhteessa otollinen.

Yleisesti ryhmittelyanalyysi kohdistuu tilastollisiin aineistoihin, jotka ovat useasta eri perusjoukosta saatujen otosten (ryhmien) yhdistelmiä. Tarkoituk-sena on paljastaa oikea ryhmien lukumäärä ja luokitella havainnot näihin ryh-miin.

Useimmat ryhmittelymenetelmät ovat luonteeltaan heuristisia; niiltä puuttuu selkeä teoreettinen tausta. Suosittuja ovat juuri hierarkkiset menetelmät. Tällöin esim. aluksi jokainen havainto muodostaa oman ryhmänsä ja etsitään ne ha-vainnot, jotka ovat kaikkein läheisimpiä ja yhdistetään ne kahden havainnon ryhmäksi. Tämän jälkeen uusitaan sama menettely, jolloin syntyy toinen kah-den havainnon ryhmä tai jokin havainto yhtyy ensimmäiseen kahkah-den havain-non ryhmään. Tätä menettelyä toistetaan jatkuvasti, jolloin joka kerralla ryh-mien lukumäärä vähenee yhdellä. Kun näin jatketaan, lopulta kaikki havainnot kasautuvat yhdeksi ryhmäksi. Tarkoitus on kuitenkin keskeyttää menettely sellaiseen vaiheeseen, jossa esim. ryhmittelyn hyvyyttä kuvaavassa kriteerissä tapahtuu selvä muutos. Hierarkkinen ryhmittely voi tapahtua myös toisinpäin lähtemällä jakamaan kaikkien havaintojen muodostamaa ryhmää vaiheittain pienempiin. Menetelmästä on lisäksi monenlaisia muunnelmia. On mm. eri ta-poja mitata etäisyyksiä havaintoyksiköiden ja ryhmien välillä.

Survossa hierarkkisesta ryhmittelystä vastaa uusi HCLUSTER-ohjelma, jonka Fredrik Åberg on laatinut osana opinnäytettään. Esimerkkinä sen toiminnasta tarkastelen pientä aineistoa, jonka Helsingin Sanomat keräsi keväällä 1996 EU-maiden Brysselin edustustoilta. Tässä kyselyssä maat ottivat kantaa 15 EU:n lähitulevaisuutta koskevaan kysymykseen.

Vastaukset olen koodannut tiedostoon EUMAAT 5-luokkaisina siten, että 5 = Voimakas kannatus,

4 = Kannattaa, 3 = Kiinnostunut, 2 = Ei hyväksy, 1 = Vastustaa, Kysymykset olivat

Monen ulottuvilla 153 19 1 SURVO 84C EDITOR Sat Aug 17 13:52:30 1996 C:\KIRJA\ 240 100 0 19 1 SURVO 84C EDITOR Sat Aug 17 13:52:30 1996 C:\KIRJA\ 240 100 0 1 * 1 *

2 * 2 *FILE STATUS EUMAATFILE STATUS EUMAAT

3 *EU-maitten kannat keväällä 1996 3 *EU-maitten kannat keväällä 1996 4 *5=Kannattaa - 1=Vastustaa 4 *5=Kannattaa - 1=Vastustaa 11 * 6 NA_ 1 Komissio Komission kokoa ratkaisevasti rajoitettava (#) 11 * 6 NA_ 1 Komissio Komission kokoa ratkaisevasti rajoitettava (#) 12 * 7 NA_ 1 Parlvalt Parlamentille lisää valtaa (#) 12 * 7 NA_ 1 Parlvalt Parlamentille lisää valtaa (#)

13 * 8 NA_ 1 Yhtpäät Yhteispäätösmenettelyä lisättävä (#) 13 * 8 NA_ 1 Yhtpäät Yhteispäätösmenettelyä lisättävä (#)

14 * 9 NA_ 1 Määräen Määräenemmistöpäätösten osuutta lisättävä (#) 14 * 9 NA_ 1 Määräen Määräenemmistöpäätösten osuutta lisättävä (#) 15 * 10 NA_ 1 Työttöm Työttömyyden torjunta perussopimukseen (#) 15 * 10 NA_ 1 Työttöm Työttömyyden torjunta perussopimukseen (#) 16 * 11 NA_ 1 Päätulko Määräenemmistöpäätöksiä lisättävä ulkopolitiikassa 16 * 11 NA_ 1 Päätulko Määräenemmistöpäätöksiä lisättävä ulkopolitiikassa 17 * 12 NA_ 1 Ulkomin Ulkoministeriä tarvitaan (#) 17 * 12 NA_ 1 Ulkomin Ulkoministeriä tarvitaan (#)

18 * 13 NA_ 1 WEU EU ja WEU yhdistettävä (#) 18 * 13 NA_ 1 WEU EU ja WEU yhdistettävä (#)

19 * 14 NA_ 1 Siirtol Siirtolaisuusasiat unionin toimivaltaan (#) 19 * 14 NA_ 1 Siirtol Siirtolaisuusasiat unionin toimivaltaan (#) 20 * 15 NA_ 1 Poliisi Poliisiasiat unionin toimivaltaan (#) 20 * 15 NA_ 1 Poliisi Poliisiasiat unionin toimivaltaan (#) 21 * 16 NA_ 1 Schengen Schengenin sopimusta laajennettava (#) 21 * 16 NA_ 1 Schengen Schengenin sopimusta laajennettava (#) 22 *END 22 *END

23 *SURVO 84C data file EUMAAT: record=53 bytes, M1=24 L=64 M=16 N=14 23 *SURVO 84C data file EUMAAT: record=53 bytes, M1=24 L=64 M=16 N=14

Itse asiassa en ollut huomannut tätä juttua lehdestä, vaan Väinö Lignell, maam-me markkinatutkimuksen pioneereja ja muinoinen tilastotieteen assistentti, ilmaantui laitokselle lehtileike kädessään. Lehdessä tuo taulukko oli kuvattu käyttäen numeroiden asemasta erilaisia kuvakkeita, jolloin hieman paremmin saattoi nähdä, mitkä maat ovat samoilla linjoilla, mitkä taas eivät. Väinö Lig-nellillä oli kuitenkin vahva aavistus, että yhteenvedon voisi esittää

In document Survo ja minä (sivua 146-157)