• Ei tuloksia

Klusterointi verkostoanalyysimenetelmänä: Kolmen klusterointimenetelmän vertailu binäärisellä tukiverkostoaineistolla

N/A
N/A
Info
Lataa
Protected

Academic year: 2022

Jaa "Klusterointi verkostoanalyysimenetelmänä: Kolmen klusterointimenetelmän vertailu binäärisellä tukiverkostoaineistolla"

Copied!
88
0
0

Kokoteksti

(1)

KLUSTEROINTI

VERKOSTOANALYYSIMENETELMÄNÄ

Kolmen klusterointimenetelmän vertailu binäärisellä tukiverkostoaineistolla

Samuli Neuvonen Pro gradu -tutkielma Sosiologia Itä-Suomen yliopisto Yhteiskuntatieteiden laitos Lokakuu 2020

(2)

Itä-Suomen yliopisto Tiedekunta

Yhteiskuntatieteiden ja kauppatieteiden

Laitos

Yhteiskuntatieteiden laitos Tekijä

Samuli Neuvonen Työn nimi

Klusterointi verkostoanalyysimenetelmänä: kolmen klusterointimenetelmän vertailu binäärisellä tuki- verkostoaineistolla

Oppiaine Sosiologia

Työn laji

Pro gradu -tutkielma Tutkielman ohjaajat

Anna-Maija Castrén, Pertti Töttö Aika

Lokakuu 2020

Sivumäärä

82 sivua, 1 liite (1 sivu) Tiivistelmä

Verkostoanalyysin laajalla kentällä voidaan käyttää lukuisia eri tutkimusmenetelmiä. Yksi yleisesti käy- tössä oleva verkostoanalyysimenetelmä on klusterointi (tai klusterianalyysi), jolla tarkoitetaan tutkimuksen kohteena olevien, keskenään mahdollisimman samankaltaisten tapausten luokittelua ryh- miin. Sopivan klusterointimenetelmän valinta riippuu paljolti aineiston luonteesta sekä analyysissa käytettävien muuttujien mitta-asteikosta.

Tutkielmassa tarkastellaan kolmea klusterointimenetelmää, jotka ovat latentti luokka-analyysi (LCA), Two-step-klusterianalyysi sekä kokoava hierarkkinen klusterianalyysi. Tavoitteena on tutkia, millaisia tuloksia kukin menetelmä antaa vastasynnyttäneiden äitien binäärisellä tukiverkostoaineistolla (n = 195). Äitejä pyydettiin listaamaan tutkimuslomakkeeseen henkilöt, jotka kuuluvat hänen sosiaaliseen tukiverkostoonsa. Näistä vastauksista klusterointimenetelmillä pyritään löytämään keskenään saman- kaltaisten tukiverkostojen muodostamia ryppäitä, jotka mahdollisesti eroavat aineiston muista tukiverkostotyypeistä.

Tulokset osoittavat, että latentilla luokka-analyysilla saatu kolmen klusterin tulos on sisällöllisen tarkas- telun perusteella selkein ja helpoiten tulkittava. Toisaalta menetelmien antamat tulokset eivät eroa toisistaan merkittävästi, sillä jokaisella menetelmällä löydettiin aineistosta samat kolme tukiverkosto- tyyppiä (äidinpuoleinen, ystäväverkosto ja bilateraalinen). Tuloksissa on kuitenkin eroavaisuuksia siinä, miten tukiverkostot jakautuvat eri klustereihin sekä millaisia luokitteluperusteita tulosten taustalla on.

Menetelmien tekemistä luokitteluista lähimpänä toisiaan ovat latentin luokka-analyysin ja Two-step- menetelmän tulokset. Suhdekategoriakohtaiset luokitteluperusteet ovat selkeimmät Two-step-mene- telmän tuloksessa, kun taas kokoavan hierarkkisen menetelmän tulos ja luokitteluperusteet ovat hankalimmin tulkittavia.

Asiasanat

klusterointi, klusterianalyysi, latentti luokka-analyysi, tukiverkostot, verkostoanalyysi Säilytyspaikka Itä-Suomen yliopiston kirjasto

Muita tietoja

(3)

University of Eastern Finland Faculty

Faculty of Social Sciences and Business Studies

Department

Department of Social Sciences Author

Samuli Neuvonen Title

Clustering in Social Network Analysis: A Comparison of Three Clustering Methods for Analysing Binary Support Network Data

Academic subject Sociology

Type of thesis Master’s Thesis Instructors

Anna-Maija Castrén, Pertti Töttö Date

October 2020

Pages

82 pages, 1 appendix (1 page) Abstract

A wide variety of different research methods are used in the field of social network analysis. One com- monly used method is clustering (or cluster analysis) which means classifying similar observation units into groups. The choice of a suitable clustering method depends largely on the nature of the data and the scale of the variables used in the analysis.

This thesis examines three clustering methods: latent class analysis (LCA), two-step cluster analysis and hierarchical agglomerative clustering. The aim is to find out what kind of results are obtained by the methods when analysing binary support network data of unmarried mothers with a newborn (n = 195).

The respondents were asked to list individuals who belong to their social support network. While stud- ying these responses, three clustering methods are used in order to recognize clusters of similar networks that may differ from other types of support networks in the data.

The results show that the classification obtained by LCA is the clearest and easiest to interpret. On the other hand, the classifications do not differ significantly as each method found the same three types of support networks (maternal, friendship network and bilateral). However, there are differences in how the networks are divided into different clusters and what classification criteria are behind the results.

When comparing the classifications, the results of LCA and two-step cluster analysis are closest to each other. The classification of two-step cluster analysis is based on the clearest classification criteria, while the result and classification criteria of hierarchical agglomerative method are the most difficult to inter- pret.

Keywords

clustering, cluster analysis, latent class analysis, support networks, social network analysis Archive location University of Eastern Finland Library

Additional information

(4)

SISÄLTÖ

1 JOHDANTO ... 1

2 TUTKIMUKSEN TEOREETTIS-METODOLOGISET PERUSTEET: VERKOSTOANALYYSIN JA KLUSTEROINNIN NÄKÖKULMA... 6

2.1VERKOSTOANALYYSI TEOREETTIS-METODOLOGISENA NÄKÖKULMANA ... 7

2.1.1 Rakenteellinen verkostoanalyysi: tutkimusmenetelmä vai teoria? ... 10

2.1.2 Verkostoanalyysi egokeskeisten verkostojen tutkimusmenetelmänä ... 13

2.2KLUSTEROINNIN LÄHTÖKOHTIA ... 17

2.2.1 Klusterin määritelmä... 17

2.2.2 Klusteroinnin määritelmä ... 20

2.2.3 Klusterointimenetelmät... 22

2.2.4 Klusteroinnin soveltaminen verkostotutkimukseen ... 25

3 AINEISTO JA MENETELMÄT... 28

3.1TUTKIMUSAINEISTO ... 28

3.1.1 Aineiston arviointi ja luotettavuus ... 29

3.1.2 Aineistonkeruun eettiset kysymykset ja aineiston anonymiteetin varmistaminen ... 31

3.2BINÄÄRINEN VERKOSTOAINEISTO KLUSTERIANALYYSIN KOHTEENA ... 32

3.3LATENTTI LUOKKA-ANALYYSI (LCA) ... 35

3.4TWO-STEP-KLUSTERIANALYYSI ... 37

3.5KOKOAVAT HIERARKKISET MENETELMÄT ... 39

3.6KONTINGENSSIKERROIN ... 42

4 TULOKSET ... 44

4.1TUKIVERKOSTOAINEISTON PROFIILI ... 44

4.2KOHTI LATENTTIA LUOKKA-ANALYYSIA: MUUTTUJIEN YHDISTÄMINEN ... 46

4.3ANALYYSI LATENTILLA LUOKKA-ANALYYSILLA... 48

4.4ANALYYSI TWO-STEP-KLUSTERIANALYYSILLA ... 51

4.5ANALYYSI KOKOAVALLA HIERARKKISELLA MENETELMÄLLÄ ... 56

4.6TULOSTEN VERTAILU ... 60

4.6.1 Klusterijäsenyyksien jakaumien vertailu... 63

4.6.2 Menetelmien luokitteluperusteet tulosten eroavaisuuksien taustalla ... 66

5 LOPUKSI ... 71

5.1TUTKIMUSTULOSTEN YHTEENVETO ... 71

5.2MILLÄ TAVOIN TUTKIMUSMENETELMÄN VALINTA MUOKKAA YMMÄRRYSTÄMME TUTKITTAVASTA ILMIÖSTÄ? ... 72

5.3KUINKA VALITA SOPIVA MENETELMÄ VERKOSTOJEN KLUSTEROINTIIN? ... 74

5.4JATKOTUTKIMUKSEN AIHEITA ... 75

LÄHTEET ... 77

LIITTEET ... 83

(5)

KUVIOT

KUVIO 1. Yhden toimijan näkökulmasta hahmotettu eli egokeskeinen verkosto. ... 15

KUVIO 2. Erilaisia klustereita. ... 19

KUVIO 3. Kokoavaa hierarkkista klusterointia havainnollistava dendrogrammi. ... 41

KUVIO 4. Muuttujakohtaiset tärkeydet Two-step-klusterianalyysin tuloksen ennustamisessa. ... 53

KUVIO 5. Dendrogrammi tukiverkostojen yhdistelystä kokoavalla hierarkkisella menetelmällä. ... 58

TAULUKOT TAULUKKO 1. Esimerkkimatriisi egokeskeisestä verkostosta... 16

TAULUKKO 2. Verkostomatriisi ja matriisista lasketut Jaccard-kertoimet. ... 40

TAULUKKO 3. Tukiverkostojen perustiedot (n = 195). ... 45

TAULUKKO 4. Suhdekategorioiden yhdistäminen alustavien analyysikertojen jälkeen. ... 47

TAULUKKO 5. Tutkielman varsinaisissa analyyseissa käytettävä suhdekategorioiden luokittelu (n = 195). ... 48

TAULUKKO 6. Latentin luokka-analyysin (LCA) mallien absoluuttista ja suhteellista osuvuutta kuvaavat indeksit ja tilastolliset testit. ... 49

TAULUKKO 7. Suhdekategoriakohtaiset ehdolliset todennäköisyydet kolmen tukiverkostotyypin LCA- mallissa (n = 195). ... 50

TAULUKKO 8. Keskimääräiset suhdekategoriakohtaiset maininnat Two-step-menetelmän luokittelemissa tukiverkostotyypeissä (n = 195). ... 54

TAULUKKO 9. Keskimääräiset suhdekategoriakohtaiset maininnat kokoavan hierarkkisen menetelmän luokittelemissa tukiverkostotyypeissä (n = 195). ... 59

TAULUKKO 10. Suhdekategoriakohtaiset ehdolliset todennäköisyydet (LCA) ja keskimääräiset maininnat (Two-step sekä kokoava hierarkkinen) menetelmien luokittelemissa tukiverkostotyypeissä (n = 195). ... 61

TAULUKKO 11. Latentin luokka-analyysin ja Two-step-menetelmän luokitteluiden ristiintaulukointi (n = 195). ... 63

TAULUKKO 12. Latentin luokka-analyysin ja kokoavan hierarkkisen menetelmän luokitteluiden ristiintaulukointi (n = 195). ... 64

TAULUKKO 13. Two-step-menetelmän ja kokoavan hierarkkisen menetelmän luokitteluiden ristiintaulukointi (n = 195). ... 65

TAULUKKO 14. Äidinpuoleisen LCA-luokan jakautuminen Two-step-klustereihin (n = 143). ... 67

TAULUKKO 15. Äidinpuoleinen LCA-luokan jakautuminen hierarkkisiin klustereihin (n = 143)... 68

TAULUKKO 16. Ystäväpainotteisen Two-step-klusterin jakautuminen LCA-luokkiin (n = 65). ... 69

(6)

1 JOHDANTO

Sosiaaliset verkostot ovat keskeinen yhteiskuntatieteellisen tutkimuksen kohde. Verkostoja esiintyy kaikkialla nykyisenlaisessa globaalissa, verkottuneessa maailmassa, ja modernin vies- tintäteknologian nopea kehitys on osaltaan vauhdittanut sosiaalisten verkostojen muodostumista. Manuel Castellsin (2010) mukaan elämmekin verkostoyhteiskunnassa (eng- lanniksi network society). Lienee lähes mahdotonta löytää toimijaa, niin yksilö-, ryhmä- tai organisaatiotasolta, joka ei olisi osa ainakin yhtä verkostoa. Sosiaalisten verkostojen määrän voimaskas kasvu avaa mahdollisuuksia uudenlaisiin tutkimuksellisiin näkökulmiin ja kasvattaa tarvetta aiheesta tehtävälle tutkimukselle. Tästä syystä päätin keskittyä tutkielmassani sosi- aalisiin verkostoihin.

Sosiaaliset verkostot ovat niissä toimiville voimavarojen ja sosiaalisen tuen lähde (Lubben &

Gironda 2017). Samalla verkostoon kuuluminen voi myös olla toimintaa rajoittava tekijä (Crossley ym. 2015, 3). Verkostot ovat olleet suosittuja tutkimuskohteita tarkasteltaessa esi- merkiksi yhteisöjen rakennetta (esim. Wellman 1979; Fischer 1977), politiikkaverkostoja (esim. Burris 1987; Mizruchi 1989; Schneider 1992; Mattila 2000) sekä sosiaalista pääomaa (esim. Carpiano 2006; Coleman 1990; Putnam 2000). Sosiaalisten verkostojen tutkimusta ni- mitetään verkostoanalyysiksi (englanniksi social network analysis). Se on kattokäsite lukuisille menetelmille, joiden avulla voidaan tutkia sosiaalisten rakenteiden moninaisuutta ja sosiaa- listen ilmiöiden keskinäisriippuvuuksia (ks. esim. Scott & Carrington 2011; Scott 1991;

Johanson, Mattila & Uusikylä 1995). Erilaisten tilastollisten mallien avulla voidaan analysoida esimerkiksi verkostojen siteitä ja toimijoita (esim. van Duijn & Huisman 2011) tai verkostojen dynamiikkaa (esim. Snijders 2011). Yleisimpiä verkostoanalyysin tutkimuskohteita ovat toimi- joiden keskeisyyden eli sijainnin määrittäminen verkoston rakenteessa (esim. Freeman 1977;

1978) ja verkoston tiheyden mittaaminen (esim. Wellman 1982).

Ennen kuin verkostoanalyysia voidaan käyttää tutkimuksessa, on otettava selvää analysoita- van aineiston luonteesta. John Scottin (1991) mukaan suurin osa tutkimusaineistoista perustuu joko ominaisuuksiin tai relationaalisuuteen. Ominaisuuksiin perustuvasta aineis- tosta on kyse silloin, kun aineisto sisältää esimerkiksi yksilöiden tai ryhmien mielipiteitä ja asenteita, joita voidaan kutsua yksilöiden tai ryhmien ominaisuuksiksi. Kyselytutkimuksilla tai

(7)

haastatteluilla kerätty aineisto nähdään yleensä pelkästään yksilöiden ominaisuuksia sisältä- väksi aineistoksi, jota voidaan kvantifioida ja analysoida useiden erilaisten menetelmien avulla. Relationaalinen aineisto koostuu esimerkiksi siteistä, yhteyksistä ja ryhmäjäsenyyk- sistä, jotka yhdistävät toimijoita toisiinsa. Näitä toimijoiden välisiä siteitä ei voida laskea minkään yhden toimijan ominaisuuksiksi, vaan suhteet ovat toimijoista koostuvien rakentei- den ominaisuuksia. Nämä suhteet yhdistävät toimijat laajempiin relationaalisiin rakennelmiin eli verkostoihin, joita voidaan tutkia verkostoanalyysin avulla. (Scott 1991, 2–4.)

Yksi lukuisista verkostoanalyysimenetelmistä on klusterointi, joka tarkoittaa verkostojen luo- kittelemista keskenään mahdollisimman samankaltaisiin ryhmiin. Klusterointi jakautuu satoihin aineiston luokittelemiseen soveltuviin menetelmiin. (Ks. esim. Everitt 2011; Alden- derfer & Blashfield 1984.) Tässä työssä klusteroinnin kohteena ovat vastasynnyttäneiden helsinkiläisäitien tukiverkostot. Tutkimusaineistosta etsitään klusteroinnin avulla erilaisia tu- kiverkostotyyppejä. Tutkielma rajautuu siis sosiaalisten verkostojen laajalla kentällä tukiverkostoihin, jotka muodostuvat toimijoiden, yleensä ihmisten, välille esimerkiksi konk- reettisen avun ja emotionaalisen tuen kautta. Laajemmin tarkasteltuna ihmisten väliset sosiaaliset verkostot voivat perustua esimerkiksi ystävyyteen, sukulaisuuteen tai taloudelli- seen vaihdantaan (esim. Johanson, Mattila & Uusikylä 1995, 4–5).

Oli kyse sitten laadullisesta tai määrällisestä tutkimuksesta, tutkimusmenetelmän valinnalla voi olla suurestikin vaikutusta tutkimustuloksiin. Tässä työssä tarkastellaan, mikä merkitys va- litulla klusterointimenetelmällä on sen kannalta, millaisia tukiverkostotyyppejä aineistosta löytyy. Tutkielmaa motivoivana kysymyksenä onkin ollut ajatus siitä, millä tavoin käytetty tut- kimusmenetelmä muokkaa ymmärrystämme tutkittavasta ilmiöstä. Tutkielmassa toisin sanoen pohditaan, millä tavalla jonkin tutkielmassa esitellyn klusterointimenetelmän valitse- minen analyysimenetelmäksi vaikuttaa siihen, millaiseksi ymmärryksemme vastasynnyttäneiden äitien tukiverkostoista ja niiden tyypeistä voi muodostua. Antaako jokin menetelmä esimerkiksi sellaisen kuvan, jossa suurella osalla äideistä tukiverkostoihin kuuluu laajasti erilaisia henkilöitä, kuten ystäviä, sukulaisia, omat vanhemmat sekä mahdollisesti puoliso, jolloin voidaan ajatella äitien mahdollisesti saavan laajasti tukea usealta henkilöltä?

Entä nostaako jokin toinen menetelmä esiin sellaista kuvaa, jossa joissakin tukiverkostoissa on paljon ystäviä, mutta ei esimerkiksi sukulaisia tai omia vanhempia? Tällaiset havainnot

(8)

ovat olennaisia siitä näkökulmasta, miten tukiverkostokokoonpanojen mahdollinen diversi- teetti hahmottuu ja vaikuttaako klusterointimenetelmä siihen, miltä diversiteetti tulosten valossa näyttää.

Tutkielmassa tarkastellaan kolmea klusterointimenetelmää, jotka ovat latentti luokka-ana- lyysi (lyhennettynä LCA), kokoava hierarkkinen klusterianalyysi ja Two-step-klusterianalyysi.

Seuraavaksi perustelen, miksi valinnan kohteeksi osuivat juuri kyseiset menetelmät. Hierark- kisia klusterointimenetelmiä käytetään (tai ainakin on käytetty) yhteiskuntatieteissä hyvin paljon (esim. Aldenderfer & Blashfield 1984, 35). Pidin tärkeänä, että mukana olisi ainakin yksi hyvin tunnettu ja laajasti käytössä oleva menetelmä, joten kokoavan hierarkkisen menetel- män mukaan ottaminen oli sitä kautta selvää. Two-step-klusterianalyysi on verrattain uusi menetelmä (ks. esim. Chiu ym. 2001), eikä siitä löydy kovin paljoa tutkimuskirjallisuutta. Me- netelmä löytyy muun muassa SPSS-ohjelmistosta (IBM 2020a), joten mielestäni oli kiinnostavaa ottaa mukaan sellainen menetelmä, josta tiedetään verrattain vähän, mutta joka on kuitenkin helposti klusterointia tekevän ja menetelmän valintaa pohtivan saatavilla. Two- step-menetelmä koostuu nimensä mukaisesti kahdesta vaiheesta, joista jälkimmäisessä käy- tetään hierarkkista klusterointimenetelmää (Chiu ym. 2011). Tästä syystä on mielenkiintoista vertailla Two-step-menetelmän ja kokoavan hierarkkisen menetelmän antamia tuloksia.

Latentti luokka-analyysi eroaa kahdesta muusta tutkielman menetelmästä siinä, että se pe- rustuu rakenneyhtälömallinnukseen (ks. esim. McCutcheon 1987; Muthén 2001). Kyseinen menetelmä on kasvattanut suosiotaan viimeisten vuosikymmenten aikana1 ja sitä pidetään parempana verrattuna perinteisiin klusterointimenetelmiin, kuten hierarkkisiin ja toistavan osittamisen menetelmiin (esim. Magidson & Vermunt 2002). Työn aihepiiriä pohtiessani aloin kiinnostua siitä, millä tavoin latentin luokka-analyysin paremmuutta perustellaan. Kolman- neksi menetelmäksi valitsin siis latentin luokka-analyysin, jotta saisin paremman käsityksen menetelmästä etenkin laajaa suosiota nauttivaan kokoavaan hierarkkiseen menetelmään ver- rattuna.

1 Latentin luokka-analyysin yleistymiseen on vaikuttanut keskeisesti tietokoneiden laskentatehon kasvaminen, joka on tehnyt laskennallisesti raskaasta LCA:sta käyttökelpoisen menetelmän (Magidson & Vermunt 2002, 37).

(9)

Tutkielman varsinaiset tutkimuskysymykset ovat:

1. Millaisia klusterointimenetelmiä latentti luokka-analyysi, Two-step-klusterianalyysi ja ko- koava hierarkkinen klusterinanalyysi ovat?

2. Millä tavalla kyseisten menetelmien antamat tulokset eroavat toisistaan, kun menetelmillä luokitellaan vastasynnyttäneiden äitien tukiverkostoista koostuvaa binääristä aineistoa?

3. Millaisia luokitteluperusteita menetelmien antamien tulosten taustalla on?

Tutkimuskysymyksiin vastataan tarkastelemalla kunkin menetelmän teoreettista taustaa, analyysiprosesseja sekä menetelmien antamia tuloksia. Tulosten vertailun pohjalta etsitään luokitteluperusteita, joiden mukaan menetelmät jakavat aineiston erilaisiin tukiverkostotyyp- peihin.

Seuraavassa luvussa (luku 2) esitellään rakenteellisen verkostoanalyysin teoriaa. Luvussa pe- rehdytään muun muassa, mitä verkostoanalyysi ylipäätään tarkoittaa ja millainen menetelmä verkostoanalyysi on tutkittaessa egokeskeisiä verkostoja. Tämän lisäksi kuvaillaan klusteroin- nin perusperiaatteita sekä klusterointia osana verkostoanalyysin laajaa menetelmien kirjoa.

Luvussa perehdytään myös olemassa oleviin klusterointimenetelmiin sekä siihen, miten ky- seisillä menetelmillä voidaan tutkia verkostoja. Kolmannessa luvussa esitellään tutkimusaineisto ja tutkielman kolme klusterointimenetelmää. Luvussa pohditaan myös sitä, millainen binäärisistä muuttujista koostuva aineisto on tutkimuskohteena, etenkin klusteroin- nin näkökulmasta. Tämän jälkeen (luku 4) tarkastellaan kunkin menetelmän analyysiprosessia ja menetelmien antamia tuloksia, kootaan yhteen havainnot tuloksista ja etsitään menetel- mistä yhtäläisyyksiä ja eroja muun muassa tulosten ristiintaulukoinnin avulla. Työn päättää (luku 5) pohdinta ja tulosten luotettavuuden tarkastelu. Päätösluvussa tarkastellaan tutki- mustuloksia johdannon alussa esitetyn, tutkimusta motivoivan kysymyksen kautta.

Työn on tarkoitus olla ymmärrettävä myös lukijoille, jotka eivät ole tutustuneet klusteroinnin tai ylipäätään tilastollisten menetelmien matemaattisiin termeihin, kaavoihin ja symboleihin.

Matemaattista kieltä työssä esiintyy hyvin vähän ja vain silloin, kun se on mielestäni välttä- mätöntä. Tällaisia paikkoja löytyy esimerkiksi kolmannesta luvusta, jossa klusterointimenetelmien teoreettista taustaa esitellään matemaattisten kaavojen avulla. In- noituksen kyseiselle, helposti ymmärrettävälle suuntaukselle sain John Scottin arvostetusta

(10)

Social Network Analysis -teoksesta (1991), jossa Scott tarkastelee verkostoanalyysin keskei- simpiä teemoja käyttämällä matematiikan sijaan useammalle lukijalle ymmärrettävää kieltä.

Tutkielmassa ei pyritä vastaamaan kysymykseen siitä, mikä tarkasteltavista klusterointimene- telmistä on yleisellä tasolla paras esimerkiksi aineiston koosta tai analysoitavista muuttujista riippumatta. Tutkielma onkin eräänlainen tapaustutkimus vastasynnyttäneiden äitien tukiver- kostoaineistolla. Menetelmien eroavaisuuksien tarkastelussa tulee siis ottaa huomioon, että tutkielman havainnot pätevät vain kyseisellä aineistolla, eikä tarkoituksena ole tehdä yleistyk- siä siitä, millaisessa tilanteessa mikäkin menetelmä toimii parhaiten.

(11)

2 TUTKIMUKSEN TEOREETTIS-METODOLOGISET PERUSTEET: VERKOSTOANALYYSIN JA KLUSTEROINNIN NÄKÖKULMA

Verkoston käsitteellä on useita merkityksiä. Verkosto voidaan ymmärtää kielikuvana eli me- taforana, menetelmänä ja teoriana tai sen osana (Smith-Doerr & Powell 2005, 379).

Metaforana verkostoilla viitataan sosiaalisiin rakenteisiin, jotka tarjoavat mahdollisuuksia toi- mintaan osallistuville yksilöille sekä ryhmille ja jotka voivat olla myös toimintaa rajoittavia (Crossley ym. 2015, 3; sosiaalisista rakenteista yleisellä tasolla ks. esim. Durkheim 1964). Me- netelmänä verkosto kuvaa sosiaalisiin rakenteisiin liittyvää tutkimusta, jossa verkoston rakenteet katsotaan muodostuvan verkoston jäsenten välisistä suhteista. Verkostonanalyysi- menetelmien avulla on kehitetty lukuisia verkostoihin liittyviä tunnuslukuja ja mittareita, joista yleisimpiä ovat olleet toimijoiden keskinäistä asemaa mittaavat keskeisyysmittarit. (Jo- hanson & Smedlund 2015, 234; Freeman 1977.) Yksi verkostoanalyysimenetelmiin kuuluva työkalu on tässä työssä käsiteltävä klusterointi. Metodologisen näkökulman ohella verkostot voidaan ymmärtää myös osana laajempaa teoreettista paradigmaa (ks. esim. Wellman 1988).

Verkosto(analyysi)n jaottelua menetelmäksi ja teoriaksi käydään tarkemmin läpi luvussa 2.1.1.

Verkoston käsitteestä on tullut suosittu sosiologien keskuudessa erityisesti siitä syystä, että on tarvittu uusia käsitteitä kuvaamaan toisen maailmansodan jälkeistä yhteiskunnallista ke- hitystä. Verkostolla on pyritty kuvaamaan sosiaalisia rakenteita, jotta yhteiskunnallisista ryhmistä vältytään antamasta liian staattinen ja yksioikoinen kuva. (Allardt 1998, 92–93.) Ver- koston metaforisen käytön alkusysäys tapahtui 1980-luvulla, ja seuraavalla vuosikymmenellä verkoston käsite nousi yleisempään käyttöön tieto- ja informaatioyhteiskunnan tutkimiseen liittyvästä kiinnostuksesta johtuen (Aro 1998, 186).

Verkoston metaforaa voidaan jäsentää Georg Lakoffin (1993) kehittämän kognitiivisen meta- foran teorian avulla. Metaforat eivät ole pelkästään kielen alueelle kuuluvia ilmiöitä, vaan niiden avulla jäsennetään ja kartoitetaan yleisen inhimillisen ajattelun käsitteellisiä alueita.

Metaforana ymmärretyn verkoston perusta ei näin ollen ole kielessä vaan kyseisten alueiden käsitteellistämisen tavassa. Lakoffin mukaan metaforana voidaan ymmärtää esimerkiksi ajan, tilan ja päämäärän kaltaiset arkielämän abstraktit käsitteet. (Lakoff 1993, 203; ks. myös Aro

(12)

1998, 186–187.) Lisäksi kognitiivisen metaforan teoriaan kuuluu, että yhden kokemuksen alu- een ymmärtämiseen ja käsitteellistämiseen vaaditaan ymmärrys jostakin toisesta kokemuksen alueesta. Aro (1998) kuvaa kahden alueen välistä käsitteellistä vastaavuutta me- taforan ”elämä on matka” avulla. Kyseisen metaforan lähdealue on matka ja kohdealue elämä, jolloin elämään liittyviä asioita voidaan ymmärtää hyödyntämällä matkoihin liittyvää tietoa. Käsitteelliset vastaavuudet auttavat näin ollen ymmärtämään, millaista elämä voi olla esimerkiksi ”tienristeyksessä” tai ”umpikujassa”. (Aro 1998, 187.)

Bruno Latourin (1996) toimijaverkkoteoriaan ja verkoston topologisten ominaisuuksien tar- kasteluun taas kuuluu, ettei modernia yhteiskuntaa välttämättä ymmärretä perinteisimpien sosiologisten näkemysten tavalla kaksi- tai kolmiulotteisesti. Näistä näkemyksistä poiketen verkosto rakentuu solmuista, ja verkosto sisältää niin monta ulottuvuutta kuin solmuilla on kytkentöjä toisiinsa. Toimijaverkkoteorian mukaisesti yhteiskunta ei siis ole esimerkiksi taso, sfääri, kategoria tai rakenne, vaan yhteiskuntaa kuvaa sen lankamaisuus tai kuitumaisuus. (La- tour 1996, 370.) Verkoston metaforisella käytöllä voidaan laajentaa ymmärrystä monimutkaisista sosiaalisista järjestelmistä. Toisaalta verkostometaforien tarkastelu ei tarjoa juurikaan analyyttisia työkaluja verkoston rakenteen tutkimiseen, toisin kuin verkoston ym- märtäminen menetelmänä. (Mattila & Uusikylä 1999, 10.)

Seuraavaksi esitellään tutkielman teoreettis-metodologiset perusteet. Ensin tarkastellaan, mitä verkostoanalyysilla tarkoitetaan ja miten verkostoanalyysin avulla tutkitaan egokeskeisiä eli yhden toimijan ympärille muodostuneita verkostoja. Tämän jälkeen kuvaillaan klusteroin- tia yhtenä menetelmävaihtoehtona sosiaalisten verkostojen tutkimisessa.

2.1 Verkostoanalyysi teoreettis-metodologisena näkökulmana

Tilastollisiin analyyseihin perustuva verkostoanalyysi on keskeisin sosiaalisten verkostojen tutkimukseen liittyvä suuntaus. Yhteiskuntatieteissä verkostoanalyysia kutsutaan myös ra- kenteelliseksi analyysiksi/lähestymistavaksi (Freeman 2004, 2), joka tarkoittaa verkoston ja sen suhteiden ymmärtämistä pisteiden sekä viivojen muodostamaksi kokonaisuudeksi ja ta- voitteeksi etsiä kokonaisuudesta säännönmukaisuuksia (esim. Johanson & Smedlund 2015,

(13)

235). Kun tässä työssä käytetään verkostoanalyysin käsitettä, tarkoitetaan käsitteellä juurikin rakenteellista verkostoanalyysia, ellei toisin ole mainittu.

Rakenteellinen verkostoanalyysi perustuu matemaattiseen verkkoteoriaan (ks. esim. Harary 1969), joka taas on lähtöisin Leonhard Eulerin (1707–1783) kuuluisasta Köningsbergin (nyk.

Kaliningrad) seitsemään siltaan liittyvästä tutkimuksesta. Euler testasi, onko mahdollista kä- vellä koko Köningsbergin kaupungin läpi kulkemalla kutakin kaupungissa olevaa, saaret kaupunkiin liittävää siltaa pitkin vain kerran matkan aikana. Euler muutti kyseisen ongelman pisteitä ja viivoja sisältäväksi abstraktiksi malliksi, jossa saaret ovat pisteitä ja sillat viivoja. Hän osoitti mallin avulla, että ongelmaa ei ole mahdollista ratkaista. Tämän havainnon pohjalta kaikenlaisia verkostoja alettiin tutkia pisteitä ja viivoja sisältävien kuvioiden avulla. (Scott &

Carrington 2011, 4.)

Verkostoanalyysi on verkkoteorian sovellus, jonka avulla voidaan tutkia verkoston toimijoi- den, kuten yksilöiden, ryhmien tai organisaatioiden, välisiä siteitä (Wellman & Berkowitz 1988; Scott & Carrington 2011; Johanson, Mattila & Uusikylä 1995; Mattila & Uusikylä 1999).

Verkostoanalyysin lähtökohtana on relationaalisuus eli se, että sosiaalinen maailma rakentuu ensisijaisesti suhteista ja niiden muodostelmista. Tästä syystä verkostoanalyysin avulla ke- rätty aineisto on ainutlaatuista, sillä lähtökohta eroaa merkittävästi pelkästään toimijoihin ja niiden ominaisuuksiin perustuvista näkökulmista. (Scott 1991, 2–3; Marin & Wellman 2011, 11.) Rakenteellisen verkostoanalyysin avulla voidaan eritellä suhdemuodostelmien rakenteel- lisia erityispiirteitä ja näiden erityispiirteiden vaikutusta uusien suhteiden muodostumiseen ja kehittymiseen (esim. Marin & Wellman 2011, 11–14.) Verkostoanalyysin keskeinen haaste liittyy rajojen määrittelyyn: Ei voida välttämättä määrittää tarkasti, mistä kohdin mikäkin ver- kosto alkaa, ja missä kohdin siirrytään jo toisen verkoston alueelle (Johanson & Smedlund 2015, 235).2

Tarkasteltaessa verkostoanalyysin tietoteoreettista pohjaa voidaan tehdä ero formalismin ja strukturalismin välille. Formalismissa keskitytään verkostojen kaavojen muotoon eikä niin- kään niiden sisältöön. Näkökulma pohjautuu Georg Simmelin (1858–1918) ajatukseen siitä,

2 Laumann, Marsden ja Prensky (1983) ehdottavat rajojen määrittelyyn paikkaperusteista, tapahtumaperus- teista ja suhdeperusteista lähestymistapaa (ks. myös Marin & Wellman 2011, 12).

(14)

että riippumatta siteiden sisällöstä, samanlaisilla siteiden kaavoilla voi olla yhteneväisiä seu- rauksia ihmisten tai muiden toimijoiden käyttäytymiseen. Äärimmilleen vietynä näkökulma tarkoittaa, että siteiden kaavat ovat suurin piirtein sama asia kuin kaavojen sisältö. Struktura- lismiin kuuluu verkostoanalyyttisten käsitteiden ja tekniikoiden monipuolinen käyttö, jonka avulla pyritään ratkaisemaan sisältöön liittyviä kysymyksiä. Strukturalismi jakaantuu koko- naisverkosto- ja egokeskeiseen lähestymistapaan, joista jälkimmäiseen syvennytään tarkemmin luvussa 2.1.2. (Wellman 1988, 27–28.)

Yhteiskuntatieteissä verkostoanalyysin alkutaipale sijoittuu 1930-luvun yhdysvaltalaiseen so- siologiaan. Sittemmin verkostoanalyysin kehittämiseen ovat osallistuneet asiantuntijat lukuisilta muiltakin aloilta, kuten sosiaalipsykologiasta, matematiikasta ja organisaatiopsyko- logiasta. (Mattila & Uusikylä 1999, 8.) Tutkimusperinteen historiasta voidaan nostaa esiin kaksi käännekohtaa, jotka ovat vaikuttaneet olennaisesti verkostoanalyysin yleistymiseen (Jo- hanson & Smedlund 2015, 236). Näistä ensimmäinen liittyy psykologi Jacob Morenon (1889–

1974) 1930-luvulla Yhdysvalloissa tekemiin tutkimuksiin sosiaalisten suhteiden ja ryhmädyna- miikan vaikutuksesta yksilön toimintaan (Johanson & Smedlund 2015, 236; Mattila & Uusikylä 1999, 8). Toinen keskeinen tekijä olivat sosiologi Harrison C. Whiten sekä Harvardin yliopis- tossa hänen ympärilleen muodostuneen ryhmän työ verkostotutkimuksen saralla 1970-luvun alussa. Vaikka verkostoanalyysin alkumetrit ja kehitys sijoittuvat vahvasti Yhdysvaltoihin, taustatekijänä kehityksessä on ollut uuden ja vanhan mantereen välinen yhteys. Pohjois-Ame- rikkaan muuttaneiden eurooppalaisten, kuten Jacob Morenon, ajatukset ovat olleet olennainen osa usean verkostoanalyysin perusperiaatteen muotoutumista. (Johanson &

Smedlund 2015, 234, 236.)

Organisaatiotutkimuksen alalle verkostoanalyysi rantautui 1950-luvulla, politiikan tutkimuk- seen tästä seuraavalla vuosikymmenellä. Politiikan tutkijoiden piirissä kiinnostuttiin etenkin kaupungeissa ja muissa paikallisyhteisöissä havaittavista valtasuhteista. Verkostoanalyysin todellinen läpimurto eri aloilla ajoittui 1970-luvulle, jolloin ilmestyi useita verkostoanalyysiin pohjautuvia, paikallistason valtasuhteiden analysointiin keskittyneitä teoksia. Samaan aikaan sosiologit, sosiaalipsykologit ja viestinnän tutkijat tarkastelivat kattavin verkostotutkimuksin muun muassa sitä, millä tavalla kaupungistuminen vaikuttaa yhteisöjen sosiaalisiin rakentei- siin. Samalla vuosikymmenellä useat metodiset käsitteet yleistyivät, ja otettiin myös suuria harppauksia verkostoanalyysin menetelmien kehityksessä, kun verkostoanalyysiin soveltuvia

(15)

tietokoneohjelmia luotiin ja alettiin hyödyntää tutkimuksessa. 1980- ja 1990-luvuilla politiikan tutkimuksen piirissä alettiin enenevässä määrin analysoida kansallisen tason poliittisia pää- töksentekoverkostoja. Uusilla verkostonanalyysiin tarkoitetuilla ohjelmilla pystyttiin käsittelemään yhä suurempia verkostoaineistoja sekä käyttämään entistä vaativampia mate- maattisia malleja ja tietokonesimulaatioita. (Mattila & Uusikylä 1999, 8–9.)

Sosiologiassa verkostoanalyysin käyttö yleistyi 1990-luvulla. Tämän kehityksen syynä olivat aiemmin mainittu tietoyhteiskunnan tutkimiseen liittyvä kiinnostus, maailmanjärjestelmän kuvaaminen globaaliksi verkostoksi sekä verkoston käsitteen yleistyminen liiketaloudessa, jossa eri toimijoiden, kuten yritysten, välisen vuorovaikutuksen hahmottaminen verkoston käsitteen kautta yleistyi. (Allardt 1998, 93; ks. myös Aro 1998, 186.) Vuosituhannen taitteessa verkostoanalyysi yleistyi yhteiskuntatieteissä vauhdilla sosiaaliseen pääomaan liittyvän tutki- muksen lisääntymisen myötä (ks. esim. Forsman 2005). Taustalla on pidempiaikainen kehitys, jonka myötä verkostot ja sosiaaliset suhteet on alettu nähdä (sosiaalisena) pääomana (esim.

Bourdieu 1986; Putnam 2000; kehityksestä kootusti ks. esim. Ruuskanen 2015).

Verkostotutkimuksen piirissä on rakenteellisen analyysin lisäksi myös muita suuntauksia, ku- ten 1950- ja 1960-luvuilla alkusysäykset saanut laadullinen verkostotutkimus. Se pohjautuu antropologiseen ja etnografiseen otteeseen, joka taas perustuu ajatukseen siitä, että toimin- taa ja käyttäytymistä selittävät ihmisten keskinäisistä sidoksista ja riippuvuuksista muodostuneet verkostot. Arvostetun Manchesterin koulukunnan sisällä vallitsi tyytymättö- myys rakennefunktionalistiseen antropologiaan, joka soveltui heikosti laajempien, kaupungistuneiden tutkimusympäristöjen tarkasteluun ja sosiaalisen muutoksen ymmärtämi- seen. Verrattuna rakenteelliseen verkostoanalyysiin laadullinen verkostotutkimus keskittyy enemmän suhteiden sisältöihin ja tavoittaa paremmin kulttuurisen vaihtelun sekä ajan ja pai- kan luoman merkityksen. (Esim. Mitchell 1969; Boissevain 1973; 1978; ks. myös Castrén 2014, 146–147.)

2.1.1 Rakenteellinen verkostoanalyysi: tutkimusmenetelmä vai teoria?

Verkostotutkimuksen parissa on käyty paljon keskustelua siitä, tarkoittaa verkostoanalyysi tutkimusmenetelmää vai teoriaa. Onko kyseessä vain joukko sosiaalisten suhteiden analysoin- tiin soveltuvia menetelmiä vai voidaanko verkostoanalyysi ajatella tätä laajempana

(16)

teoreettisena suuntauksena ja/tai käsitteellisenä viitekehyksenä (esim. Mische 2011, 80)? En- simmäisiä asiasta debatoineita henkilöitä oli Barry Wellman (1988). Hänen mukaansa verkostoanalyysi ei ole pelkästään metodologiaa, vaan siihen liittyy uudenlainen teoreettinen paradigma. Wellman argumentoi, ettei rakenteellinen analyysi perustu pelkästään jonkin kä- sitteen tai mittaustavan vaillinaiselle soveltamiselle, vaan verkostoanalyysi on ”esimerkillinen tapa ottaa sosiaaliset rakenteet vakavasti”. Tämä onnistuu tutkimalla suoraan sitä, millä ta- valla verkostoista havaittavat siteiden mallit toimivat resurssien jakajina verkoston sisällä.

Analyysin kohteena ovat toimijoiden väliset suhteet, eivätkä niinkään yksilöt, ryhmät, ominai- suudet tai kategoriat. Suuntauksessa kiinnitetään siis huomio verkostojen rakenteeseen eikä toimijoiden kategorisointiin sisäisten ominaisuuksien tai tuntomerkkien perusteella. Wellma- nin mukaan rakenteellinen verkostoanalyysi ylittää rakenteen ja toimijan vastakkainasetteluun liittyvän teoretisoinnin. Verkostoista löytyvät suhteet muodostavat ra- kenteita, jotka ohjaavat verkoston toimijoiden toimintaa pakkojen ja paineiden kautta.

Rakenteiden avulla selitetään toimijoiden käyttäytymistä. (Wellman 1988, 20, 27.)

Mustafa Emirbayer ja Jeff Goodwin (1994) ottivat Wellmanin argumentit käsittelyyn seuraa- valla vuosikymmenellä. Heidän mukaansa verkostoanalyysi ei välttämättä ole (yhteiskunta)teoria, vaan pikemminkin paradigma tai näkökulma, joka kokoaa yhteen erilaiset verkostojen tutkimisessa käytettävät lähestymistavat. Yksi keskeisimmistä verkostotutkimuk- sen teoreettisista ennakko-oletuksista on Emirbayerin ja Goodwinin mukaan tutkimuksen

”antikategorinen lähtökohta/imperatiivi”. Tällä tarkoitetaan, ettei verkostoanalyysin avulla pyritä selittämään inhimillistä käyttäytymistä tai sosiaalisia prosesseja verkostossa vallitse- vien normien tai verkoston toimijoiden ominaisuuksilla, kuten iällä, sukupuolella tai yhteiskunnallisella asemalla, vaan nimenomaan toimijoiden välisillä suhteilla. (Emirbayer &

Goodwin 1994, 1414–1415.) Lisäksi antikategoriseen ennakko-oletukseen kuuluu, että ver- kostot ja niihin kuuluvat toimijat ovat yhtä tosia ja että verkoston rakenne vaikuttaa ihmisten toimintaan (Milardo 1987, 18). Esimerkiksi ihmisten keskinäiset riippuvuudet ja lojaliteetti- suhteet ohjaavat yksilöiden käyttäytymistä ja valintoja (Castrén 2009; ks. myös Castrén 2014, 149).

Ann Mische (2011, 80) on hahmotellut uudenlaista, etenkin New Yorkin koulukunnan ajatuk- siin pohjautuvaa rakenteellisen verkostoanalyysin teoreettista agendaa. Hänen mukaansa on olemassa neljä erilaista tapaa verkostojen ja kulttuurin välisen suhteen käsitteellistämiseen.

(17)

Näistä tavoista ensimmäinen on verkostojen ymmärtäminen sosiaalisen vaikuttamisen ”put- kistona”, jonka kautta kulttuuri ja verkostot yhdistyvät toisiinsa. Sosiaalinen vaikuttaminen sisältää muun muassa asenteita, ideoita ja innovaatioita. Toinen käsitteellistämisen tapa liit- tyy verkostojen ja kulttuurin syy-seuraussuhteeseen. Kuten ensimmäisessä, tässäkin tavassa verkostot nähdään sosiaalisen vaikuttamisen välittäjinä, mutta lisäksi painotetaan kulttuuri- sesti muodostuvia verkostorakenteiden ulottuvuuksia. Kolmannessa tavassa ajatellaan kulttuurin itsessään rakentuvan verkostoista, jotka taas ovat kulttuurin eri muotoja, kuten kä- sitteitä, tapoja sekä kategorioita. Neljäs tapa verkostojen ja kulttuurin välisen suhteen teoretisointiin ei näe kulttuurin muotoja itsenäisinä suhteessa verkostoihin, vaan verkostojen ajatellaan muodostuvan ”kulttuurisissa prosesseissa”, jotka perustuvat verkoston toimijoiden väliseen vuorovaikutukseen. (Mische 2011, 85–89.) Yllä mainitut neljä tapaa luovat Mischen mukaan siis uudenlaisen, useaan yhteiskunnalliseen ilmiöön liittyvän teoreettisen agendan, joka korostaa toimijoiden välisen vuorovaikutuksen ja ylipäätään sosiaalisten suhteiden esiin- tymisen (välillistä) vaikutusta rakenteeseen ja toimintaan (emt., 80).

Konkreettisena esimerkkinä rakenteellisesta verkostotutkimuksesta ja sitä kautta verkostojen suhteisiin keskittyvästä otteesta voidaan mainita Norbert Eliaksen (1897–1990) kehittämä konfigurationaalinen näkökulma, jonka perustana ovat ihmisten väliset konfiguraatiot eli suh- demuodostelmat. Sosiaalisia suhteita tarkastellaan henkilön omien määritelmien ja kertomusten kautta, jolloin konfiguraatiot voivat rakentua esimerkiksi sen varaan, keitä pide- tään itselle läheisinä, keneen luotetaan ja keneltä saadaan ja annetaan apua. Kun tarkastellaan konfigurationaalisesta näkökulmasta esimerkiksi perheitä, tavoitteena on vält- tää ennalta määriteltyjä käsityksiä perhekokoonpanoista, jolloin keskeistä on yksilön oma käsitys perheeseen kuuluvista ihmisistä. On tärkeää huomata, että konfiguraationaalisessa näkökulmassa ei kuitenkaan olla kiinnostuneita pelkästään kerrotusta perheestä, vaan tarkas- telun kohteena ovat myös sellaiset suhteet, jotka ovat sisälly kerrottuun perheeseen mutta ovat jollain muulla tavoin merkityksellisiä henkilölle itselleen. (Castrén 2014, 139–142.) Ra- kenteellisen verkostoanalyysin avulla tutkitaan kyseisiä konfiguraatioita huomioiden, että yksilö on aina osa jotakin suhdemuodostelmaa (esim. Blok 1973, 164). Näin ollen konfigura- tionaalisen näkökulman lähtökohtana on, että yksilöä ja rakennetta (suhdemuodostelmia) on tarkasteltava toisiinsa linkittyvinä asioina. (esim. Elias & Scotson 1994, 172–173).

(18)

Sekä rakenteellista että laadullista verkostotutkimusta on kritisoitu rakennedeterminismistä, joka tarkoittaa tutkimuksen suuntaamista pelkästään suhdemuodostelmien rakenteiden ana- lysointiin ja toiminnan selittämiseen rakenteiden avulla (esim. Emirbayer & Goodwin 1994).

Tämän seurauksena sivuutetaan verkostoon kuuluvien toimijoiden uskomukset, arvot ja nor- matiiviset sitoumukset sekä yleisellä tasolla kulttuurisen kontekstin vaikutus. Sosiaalisten suhteiden formaali ulottuvuus rajataan omaksi tutkimuskohteeksi, jolloin painotetaan sosiaa- listen suhteiden rakenteita kulttuuristen ja diskursiivisten jäsennysten sijasta. Näin ollen kulttuuria selitetään sosiaalisilla suhteilla, mutta sosiaalisia suhteita tutkittaessa selitystä ei haeta kulttuurisesta kontekstista. (Emirbayer & Goodwin 1994, 1427–1428; ks. myös Well- man & Berkowitz 1988, 5.) Toisaalta kulttuurin rooli verkostoissa on mahdollista ymmärtää myös muulla tavoin, kuten käy ilmi yllä kuvatusta, Mischen (2011) hahmottelemasta raken- teellisen analyysin teoreettisesta agendasta.

2.1.2 Verkostoanalyysi egokeskeisten verkostojen tutkimusmenetelmänä

Verkostoanalyysi voidaan siis ymmärtää joko menetelmänä tai laajempana teoreettisena vii- tekehyksenä (ks. luku 2.1.1), tai sitä voidaan käyttää sosiaalista rakennetta kuvaavana metaforana. Tässä tutkielmassa keskitytään seuraavaksi verkostoanalyysin empiirisiin tutki- musmenetelmiin. Kyseisessä kontekstissa verkostoanalyysi voidaan jakaa kokonaisverkostojen ja yksittäisten toimijoiden verkostojen eli ns. egokeskeisten verkostojen tutkimiseen. Kokonaisverkostojen tarkastelussa kiinnitetään huomio rajatun toimijajoukon kaikkiin keskinäisiin suhteisiin, kun taas egokeskeisessä tarkastelussa analysoidaan yhden toi- mijan ympärille muodostunutta verkostoa. (Mattila & Uusikylä 1999, 10.) Egokeskeisissä verkostoissa ego on verkoston kiinnekohta, josta ”lähtien” verkostoa tarkastellaan. Alterit ovat verkoston muita toimijoita, joilla kaikilla on side egoon. (Crossley ym. 2015, 2, 18.) Egolta voidaan kysyä esimerkiksi sitä, ketkä ihmiset ovat hänelle läheisiä tai keiden kanssa hän on säännöllisesti jollain tavalla tekemisissä (esim. Castrén 2001, 16).

Ero kokonais- ja egokeskeisen verkoston välille syntyy lopulta siitä, miten verkosto kussakin tutkimuksessa määritellään. Molemmat verkostotyypit voivat sisältää tiedon myös altereiden välisistä suhteista, joten jaottelu ei vielä kerro, millaista tietoa verkostoista on kerätty. Koko- naisverkostoissa institutionaalinen kehys määrittelee, keitä verkostoon kuuluu. Voidaan

(19)

esimerkiksi tarkastella yhteen koululuokkaan kuuluvia oppilaita ja heidän välisiä suhteita. Ko- konaisverkosto sisältää egokeskeisen verkoston jokaiselle kokonaisverkoston toimijalle.

Egokeskeisessä tarkastelussa taas voidaan keskittyä esimerkiksi yhden oppilaan ystäväverkos- ton analysointiin hänen itsensä näkökulmasta jättämällä tieto altereiden välisistä suhteista analyysin ulkopuolelle. (Marsden 2011, 370.) Kokonais- tai egokeskeistä verkostoa voidaan kutsua myös klikiksi, jossa kaikilla verkostoon kuuluvilla toimijoilla on side toisiinsa (Scott 1991, 117; Crossley ym. 2015, 19).

Seuraavaksi egokeskeisiä verkostoja tarkastellaan lähemmin niiden rakenteen ja erilaisten esitystapojen kautta. Sosiaalisten verkostojen tutkimuksessa on yleisesti käytössä kaksi ma- temaattista työkalua, joiden avulla verkoston siteiden malleja esitetään. Nämä ovat graafi ja matriisi. (Hanneman & Riddle 2011, 331.) Kuviossa 1 esitetty graafi tarkoittaa yhden toimijan näkökulmasta hahmotettua verkostoa, joka ei sisällä tietoa altereiden välisistä suhteista. Toi- mija A on ego ja toimijat B–E verkoston altereita, joilla kaikilla on jonkinlainen side egoon.3 Jokaisen verkostoon kuuluvan toimijan kohdalle voidaan merkitä jokin muoto (kuviossa 1 pyö- ristetty suorakulmio), jotka siis ilmentävät toimijoita eli verkoston solmuja (node). Useimmat verkostoanalyysimenetelmät ja -algoritmit olettavat, että jokainen verkostoon kuuluva solmu on periaatteessa yhtä kykenevä muodostamaan tarkastelun kohteena olevan siteen (esimer- kiksi ystävyyden) toisen solmun kanssa. Tämä tulee ottaa huomioon, kun mahdollisia solmuja rajataan tutkimusta varten. Esimerkiksi jokaisen ystäväverkoston solmun tulee periaatteelli- sella tasolla pystyä muodostamaan ystävyysside minkä tahansa verkostoon kuuluvan solmun kanssa. Tämä ei kuitenkaan tarkoita sitä, että jokaisen verkostoon kuuluvan täytyy olla ystävä kunkin verkoston toimijan kanssa. (Crossley ym. 2015, 2, 5.)

Egon ja altereiden välille piirretyt viivat tai nuolet havainnollistavat toimijoiden välisiä siteitä (enlglanniksi link). Kuvion 1 verkostossa kaikki alterit ovat analyysin kannalta rakenteellisesti samanarvoisia. Jokaiselle alterille voitaisiin kuitenkin antaa arvo esimerkiksi sen mukaan, kuinka läheisiä toimijat keskenään ovat tai kuinka pitkään toimijat ovat tunteneet toisensa.

(Crossley ym. 2015, 2, 6–7; Hanneman & Riddle 2011, 332.)

3 Egokeskeisen verkoston graafi voidaan esittää myös ilman egoa, jolloin siinä esitetään vain altereiden väliset siteet (ks. esim. Crossley ym. 2015, 69).

(20)

KUVIO 1. Yhden toimijan näkökulmasta hahmotettu eli egokeskeinen verkosto.

Verkoston siteet voivat olla suuntaamattomia tai suunnattuja. Suuntaamaton suhde on esi- merkiksi ”olla ystävä”, millä tarkoitetaan tässä yhteydessä molemminpuolista suhdetta.

Suunnatusta siteestä on kyse esimerkiksi seuraavassa tilanteessa: Toimija A auttaa toimijaa B tekemään lumityöt, mutta tämä ei automaattisesti tarkoita sitä, että auttaminen tapahtuu myös toiseen suuntaan. (Mattila & Uusikylä 1999, 11–12.) Suuntaamattomien ja suunnattu- jen siteiden erottelun lisäksi voidaan tehdä ero dikotomian ja arvottamisen välille siteiden kvantitatiivisen sisällön mukaan. Dikotominen tai binäärinen side tarkoittaa, että sosiaalinen suhde joko on tai ei ole olemassa (ks. taulukko 1). Arvotetut siteet mittaavat frekvenssiä, in- tensiteettiä tai voimakkuutta kahden toimijan välillä. (Johanson, Mattila & Uusikylä 1995, 26–

27.) Voidaan esimerkiksi laskea, kuinka monta kertaa toimija A auttaa toimijaa B lumitöissä.

Tässä tutkielmassa käytettävä tukiverkostoaineisto on kvantitatiiviselta sisällöltään binääri- nen (ks. aineistosta tarkemmin luku 3.1).

Kuvion 1 kaltaista, verkostoaineistosta laadittua graafia tarkasteltaessa on syytä huomioida, ettei graafia tule lukea samaan tapaan kuin sirontakuviota (scatter plot). Jos verkosto esitet- täisiin sirontakuviona, tällöin solmun sijainti verkostossa määriteltäisiin x- ja y-akselin avulla.

Verkostograafissa solmujen paikoilla ei kuitenkaan ole mitään tekemistä kyseisten akseleiden kanssa, toisin sanoen ei ole merkitystä, kuinka vasemmalla tai oikealla ja alhaalla tai ylhäällä kuviossa solmu sijaitsee. Sen sijaan paikkojen määrittyminen kuviossa tapahtuu sen pohjalta, mihin muuhun tai muihin verkoston toimijoihin kullakin solmulla on siteitä. Solmun sijainnin määrittävät algoritmit asettavat yleensä lähekkäin sellaiset solmut, joiden yhteydet verkoston muihin toimijoihin muistuttavat toisiaan, eli joilla on toistensa kanssa mahdollisimman sa- mankaltainen siteiden profiili. Näin ollen graafina esitettävä verkostotila (network space)

(21)

määritellään pelkästään toimijoiden välisiin yhteyksiin liittyvistä kaavoista. (Crossley ym.

2015, 10–11.)

Toinen verkoston yleisimmistä esittämistavoista on matriisi, joka tarkoittaa taulukkoa. Mat- riisin käyttö sopii hyvin esimerkiksi sellaisiin tilanteisiin, kun verkosto sisältää paljon toimijoita sekä toimijoiden välisiä monenlaisia siteitä. Tällöin graafimuotoisesta esittämistavasta olisi matriisia hankalampi tehdä tulkintoja siteiden kaavoista. Yhden rivin tai sarakkeen (eli yhden ulottuvuuden) sisältävää matriisia kutsutaan vektoriksi. Yleisimmin vektoria käytetään silloin, kun matriisilla halutaan esittää solmuihin liittyviä ominaisuuksia. Muita matriiseja ovat esi- merkiksi neliö- ja jäsenyysmatriisit. (Hanneman & Riddle 2011, 336–338.)

TAULUKKO 1. Esimerkkimatriisi egokeskeisestä verkostosta.

Taulukossa 1 esitetyn esimerkkimatriisin rivi tarkoittaa yhtä egokeskeistä verkostoa ja sarake egon lisäksi verkostoon kuuluvaa toimijaa. Esimerkiksi ego A:n verkostoon kuuluvat puoliso, sisarus ja naapuri. Ego B:n verkostoon kuuluvat egon äiti, sisarus sekä ystävä, kun taas ego F:n verkostoon ystävä ja naapuri. Taulukosta 1 siteiden kaavoja etsitään vertaamalla kuutta ver- kostoa ja niihin kuuluvia toimijoita toisiinsa. Kuten Mattila ja Uusikylä (1999, 11) huomauttavat, näin pienen verkoston analysoimiseen ei välttämättä vaadita verkostoanalyy- siohjelmaa. Kyseessä onkin vain esimerkki verkostoaineiston esittämisestä matriisimuodossa.

Esimerkiksi ego A:n ja E:n siteiden kaavat ovat miltei samanlaiset, sillä kumpaankin verkos- toon kuuluu puoliso, sisarus ja naapuri. Ainoa ero verkostojen välillä on, että ego A:n

Pu ol iso

Äiti Sis ar us Ys t ä v ä

Se rk ku

Na ap ur i

A 1 0 1 0 0 1

B 0 1 1 1 0 0

C 1 1 0 0 1 0

D 1 0 0 0 0 1

E 1 0 1 0 1 1

F 0 0 0 1 0 1

(22)

verkostoon kuuluu lisäksi serkku, mutta ego E:n verkostoon ei. Siteiden kaavojen löytämiseksi binäärisestä matriisista etsitään siis keskenään mahdollisimman samanlaisia muuttujien, tässä yhteydessä suhdekategorioiden arvojen, kombinaatioita (esim. Wang & Wang 2012, 290–291). Binäärisen verkostoaineiston analysointiin perehdytään tarkemmin luvussa 3.2.

Tässä luvussa on tarkasteltu tutkielman teoreettis-metodologisia perusteita rakenteellisen verkostoanalyysin näkökulmasta. Seuraavaksi kyseiseen näkökulmaan otetaan mukaan ver- kostojen luokittelu eli klusterointi.

2.2 Klusteroinnin lähtökohtia

Klusterointi on yksi tavanomaisimmista lähestymistavoista analysoida sosiaalisten verkosto- jen ja niiden sisältämien suhteiden muodostamaa rakennetta (ks. esim. Mitchell 1992, 336).

Seuraavaksi tarkastellaan, millaisiin asioihin klusterointi perustuu. Luvun aluksi määritellään klusterin ja klusteroinnin käsitteet, minkä jälkeen esitellään yleisimpiä klusterointimenetel- miä ja käydään läpi klusteroinnin soveltamista verkostotutkimuksessa.

2.2.1 Klusterin määritelmä

Klusteri on joukko dataobjekteja (myös datapisteitä, tapauksia tai havaintoyksiköitä), jotka voivat olla esimerkiksi rakenteita, olioita tai yksiköitä. Klusteria voidaan kutsua myös ryh- mäksi, luokaksi, osajoukoksi tai kategoriaksi. Kuten tässä alaluvussa käy ilmi, klusterin määrittäminen ei ole aivan yksiselitteistä. Samaten esimerkiksi ryhmän ja luokan käsitteiden tarkka määrittely ja sitä myöten näiden kolmen käsitteen erottaminen toisistaan on hankalaa.

(Everitt ym. 2011, 7; Xu & Wunsch 2009, 3–4.) Tässä työssä klusterin, luokan ja ryhmän käsit- teitä käytetään toistensa synonyymeinä. Lähtökohtaisesti Two-step- ja kokoavan hierarkkisen menetelmän yhteydessä käytetään kuitenkin klusterin käsitettä, latentin luokka-analyysin yh- teydessä taas luokan käsitettä. Kun menetelmien tuloksia vertaillaan toisiinsa luvussa 4.6, kunkin menetelmän jaottelemia joukkoja saatetaan nimittää joko klustereiksi, ryhmiksi tai luokiksi. Käsitteiden välille ei siis tehdä sisällöllistä eroa.

(23)

Klusterin määrittämisessä tulee ottaa huomioon erityisesti kaksi yleisesti hyväksyttyä ominai- suutta: sisäinen koheesio ja ulkoinen eristyneisyys. Sisäisen koheesion mukaan klusteriin kuuluvien dataobjektien tulee olla mahdollisimman samankaltaisia keskenään. Ulkoinen eris- tyneisyys taas edellyttää, että yhteen klusteriin kuuluvat tapaukset eroavat mahdollisimman paljon muiden klustereiden tapauksista. (Cormack 1971, 329; Everitt ym. 2011, 7.)

Muita klusterin ominaisuuksia ovat tiheys, varianssi, ulottuvuus, muoto ja erottelu. Tiheys tar- koittaa suhteellisen tiheää dataobjektien joukkoa verrattuna muihin alueisiin, joissa objekteja on vähemmän tai ei lainkaan. Tiheydelle ei ole olemassa mitään absoluuttista mittaa, mutta sen idea on kuitenkin helppo hahmottaa intuitiivisesti. Varianssi kuvaa objektien hajaantumi- sen määrää klusterin keskikohdasta. Klusterin ominaisuutena varianssin idea on siis samankaltainen verrattuna varianssiin tilastollisen päättelyn työkaluna. Ulottuvuuden omi- naisuus tarkoittaa, että klusterista on mahdollista mitata säde. Kyseinen ominaisuus pätee vain ympyrän muotoisiin klustereihin. Muoto tarkoittaa yksinkertaisesti dataobjektien asetel- maa. Ympyrän lisäksi klusteri voi olla muodoltaan esimerkiksi soikio tai pitkulainen. Erottelu tarkoittaa, miten selvästi klusterit limittyvät tai ovat toisistaan erillään. Klusterit voivat esi- merkiksi olla hyvin lähellä toisiaan, jolloin yhden klusterin rajoja on hankala hahmottaa. Edellä mainitut klusterin ominaisuudet eivät koske pelkästään jatkuvista muuttujista muodostuvia klustereita, vaan kyseisiä ominaisuuksia voidaan löytää myös silloin, kun klusteri muodostuu laskemalla dataobjektien väliset etäisyydet kategorisista muuttujista. (Aldenderfer & Blash- field 1984, 34; ks. myös Sneath & Sokal 1973.)

Vaikka klusterin määrittämisessä voidaan hyödyntää edellä mainittuja ominaisuuksia, kluste- rille ei ole kuitenkaan olemassa mitään universaalia, yksiselitteistä määritelmää. Pahimmassa tapauksessa klusterin erilaiset määritelmät voivat olla harhaanjohtavia. (Everitt ym. 2011, 7.) Klustereita on muotojen ja tapausten välisten etäisyyksien suhteen niin monenlaisia, ettei yh- dellä termillä pystytä välttämättä kuvaamaan kattavasti näitä kaikkia tilanteita. Pyrkimys sisäisen koheesion ja ulkoisen eristyneisyyden tarkkaan määrittelyyn yksiselitteisten, numee- risten määreiden avulla on johtanut lukuisten, toisistaan eroavien kriteerien luomiseen.

(Cormack 1971, 329; Everitt ym. 2011, 7.)

Klusterin ideaa havainnollistetaan kuviossa 2, jossa on esitetty erilaisia dataobjektien muo- dostamia joukkoja. Ainakin silmämääräisen tarkastelun perusteella kaikki kuvion joukot

(24)

voidaan määritellä klustereiksi. Kahdessa ensimmäisessä diagrammissa datapisteiden muo- dostamat joukot ovat selkeästi erillään toisistaan (ulkoinen eristyneisyys) ja joukon sisällä pisteet lähellä toisiaan (sisäinen koheesio). Vasemmanpuoleisessa diagrammissa klusterit eroavat toisistaan sekä pysty- että vaakasuunnassa. Keskimmäisen diagrammin klustereiden välille ero syntyy vaakasuuntaisen tarkastelun kautta. Oikeanpuoleisessa diagrammissa ta- pausten jaottelu on kahta muuta diagrammia hankalampaa. Tarkastelemalla dataobjekteja sekä vaaka- että pystysuunnassa voidaan kuitenkin erottaa kaksi klusteria, jotka muistuttavat muodoltaan jinin ja jangin symbolia. Silmämääräisesti voidaan todeta, että oikeanpuoleisen diagrammin klustereiden sisäinen koheesio ei ole kovinkaan vahvaa, sillä yhden klusterin si- sällä reunimmaiset datapisteet ovat melko kaukana toisistaan, ja ulkoinen eristyneisyys melko heikkoa, sillä klustereiden välisen tarkastelun perusteella niiden datapisteet ovat melko lä- hellä toisiaan. Scottin (1991, 130) mukaan useat klusterointimenetelmät olettavat klustereiden olevan ympyrän muotoisia, joten klusteroinnilla ei aina pystytä tunnistamaan esimerkiksi oikeanpuoleisen diagrammin klustereita.

KUVIO 2. Erilaisia klustereita.

Kuvion 2 kaltaisilla diagrammeilla havainnollistetaan yleensä ominaisuuksiin perustuvasta ai- neistosta muodostuvia klustereita, jolloin diagrammit ovat kaksiulotteisia eli ne muodostuvat kahta jatkuvaa muuttujaa ilmentävästä akselista. Tällöin dataobjektin paikka diagrammissa määräytyy sen mukaan, mitä arvoja dataobjekti saa kahden muuttujan asteikolla. (Everitt ym.

2011, 16–19.) Kuvion 2 kaltainen esitysmuoto sopii kuitenkin myös relationaalisen aineiston klustereille. Tällöin kuvio voisi perustua esimerkiksi sosiogrammista tulkittavaan datapistei- den tiheyteen. (Scott 1991, 131–132.) Kategoristen muuttujien kohdalla klustereiden etsiminen tapahtuu yleensä taulukon 1 kaltaisista datamatriiseista, joista etsitään ykkösten ja nollien samankaltaisuuksia havaintoyksiköiden välillä (esim. Hanneman & Riddle 2011, 336).

(25)

2.2.2 Klusteroinnin määritelmä

Klusterointi tai klusterianalyysi (myös ryhmittelyanalyysi, englanniksi clustering tai cluster analysis, lyhennettynä CA) on yleisnimitys menetelmille, joilla yllä kuvattuja, mahdollisimman samankaltaisten datapisteiden joukkoja etsitään aineistosta (Everitt ym. 2011, 7). Klusteroin- timenetelmät ovat tilastollisia monimuuttujamenetelmiä, jotka pohjautuvat havaintoyksiköistä ja niiden sisältämästä informaatiosta koostuvaan aineistoon tavoitteenaan luokitella havaintoyksiköt keskenään samankaltaisiin ryhmiin (Aldenderfer & Blashfield 1984, 7). Klusterianalyysin suosio kasvoi räjähdysmaisesti 1960-luvulla, jolloin tietokoneiden kehitys avasi tutkijoille uusia mahdollisuuksia erilaisten tutkimusmenetelmien hyödyntämiseen. Klus- teroinnin yleistymiseen vaikutti myös samalla vuosikymmenellä julkaistu Robert Sokalin ja Peter Sneathin teos Principles of Numerical Taxonomy (1963), joka on kattava kuvaus tuolloin saatavilla olleista klusterointimenetelmistä. (King 2015, 3.) Nykyisin klusterointimenetelmiä on olemassa jopa satoja, ja niitä käydään tarkemmin läpi luvussa 2.2.3.

Klusterianalyysia ei tule sekoittaa erottelu- ja luokitteluanalyyseihin, joita käytetään silloin, kun aineistosta etsitään sellaista selittävien muuttujien kombinaatiota, jolla etukäteen tie- dossa oleva aineiston ryhmittely toteutuu (Everitt ym. 2011, 7; Metsämuuronen 2003, 700).4 Klusterianalyysin luonne on eksploratiivinen eli aineistoa tutkiva, ei konfirmatorinen eli teo- riaa vahvistava (Metsämuuronen 2003, 724). Vaikka klusteroinnilla pyritään yleensä aineiston osittamiseen, jolloin kukin havaintoyksikkö luokitellaan vain yhteen klusteriin, joissain tilan- teissa päällekkäiset klusterit voivat olla osittamista parempi ratkaisu. Tällöin yksi havaintoyksikkö voi kuulua kahteen tai useampaan klusteriin. Klusteroinnilla on mahdollista päätyä myös sellaiseen tulokseen, ettei analysoitavasta aineistosta ole perusteltua tehdä min- käänlaista ryhmittelyä. (Everitt ym. 2011, 5.)

Klusteroinnille ei ole varsinaisesti olemassa teoreettisia rajoituksia. Muuttujien mittaustavat tai poikkeavat varianssit ja otoskoot tulee ottaa huomioon valittaessa klusterointimenetel- mää, joiden laajasta kirjosta löytyy sopiva menetelmä useisiin poikkeustilanteisiin. Poikkeavat

4 Etukäteen tiedossa oleva ryhmittely voi tarkoittaa esimerkiksi aineiston henkilöiden jakautumista sen mu- kaan, mitä poliittista puoluetta henkilö kannattaa. Tällöin aineistosta etsitään niitä selittäviä muuttujia (esim.

erilaiset arvoja ja asenteita mittaavat kysymykset), joiden avulla pystytään helpoiten tunnistamaan aineiston jakautuminen ryhmiin puoluekannatuksen mukaan.

(26)

havainnot (outlierit) tulee kuitenkin käsitellä asianmukaisesti ennen analyysin ajamista. Ana- lyysiin sisältyville havainnoille ei ole olemassa selvää alarajaa, joten klusterianalyysin voi toteuttaa pienelläkin aineistolla. (Metsämuuronen 2003, 724–725.)

Klusterointi koostuu yleensä kuudesta vaiheesta (Theodoridis & Koutroumbas 2006, 484–

485):

Muuttujien valinta. Muuttujien avulla tavoitteena on sisällyttää analyysiin mahdolli- simman paljon informaatiota tutkittavasta asiasta. Muuttujien esikäsittelyllä minimoidaan toisto sekä tutkimuksen kannalta turha tieto. Muuttujien valintaa tut- kielman aineiston kontekstissa käydään läpi luvuissa 4.1 ja 4.2.

Läheisyysmitan valinta. Läheisyysmitalla mitataan, kuinka samanlaisia tai erilaisia kaksi dataobjektia toisiinsa verrattuna ovat. Muuttujien valinnassa pyritään yleensä huomioimaan, että jokainen muuttuja vaikuttaa läheisyysmitan laskemiseen kuta kuinkin saman verran. Läheisyysmitan valintaa käydään läpi kolmannessa ja neljän- nessä luvussa.

Klusterointikriteerin valinta. Tätä valintaa voi helpottaa ennakkokäsitys siitä, millaisia klustereita aineistosta mahdollisesti löytyy. Klustereiden määrää ja erilaisia ominai- suuksia, kuten datapisteiden tiheyttä ja niiden muodostamia muotoja, voidaan painottaa valitsemalla tietynlainen klusterointikriteeri.

Klusterointimenetelmän (klusterointialgoritmin) valinta. Läheisyysmitan ja klusteroin- tikriteerin jälkeen valitaan sopiva klusterointimenetelmä, joka lopulta jakaa ryhmiin eli klusteroi analyysin kohteena olevan aineiston. Yleisimpiä klusterointimenetelmiä esitellään luvussa 2.2.3.

Tulosten validointi. Menetelmän antamien tulosten hyvyyttä todennetaan yleensä eri- laisien validointiin soveltuvien tilastollisten testien avulla. Tässä työssä validointia käsitellään neljännessä luvussa (erityisesti tulosten vertailun yhteydessä luvussa 4.6).

Tulosten tulkinta. Klusteroinnin tuloksia tulee tarkastella yhdessä muiden kyseiseen tutkimusalueeseen liittyvien havaintojen ja analyysien kanssa, jotta tuloksien pohjalta voidaan tehdä johtopäätöksiä. Tässä työssä tuloksia tulkitaan neljännessä ja viiden- nessä luvussa.

(27)

Joissain tapauksissa klusterointiin voi kuulua myös vaihe, jossa testataan, onko aineistosta mahdollista ylipäätään löytää klusteroitunutta rakennetta. Klusteroinnin vaiheisiin liittyy olennaisesti se, että tutkijan tekemillä valinnoilla esimerkiksi menetelmän, läheisyysmitan ja muuttujakokoonpanon suhteen voi olla merkittävä vaikutus klusteroinnin tuloksiin. Subjektii- visuus näkyy siis väistämättä sekä klusterointiprosessissa että tuloksissa ja niistä tehtävissä johtopäätöksissä. (Theodoridis & Koutroumbas 2006, 485.)

2.2.3 Klusterointimenetelmät

Kaikkien klusterointimenetelmien läpikäynti ei ole perusteltua tämän työn puitteissa, joten keskitytään seuraavaksi niistä yleisimpiin.. Suurin osa klusterointimenetelmistä voidaan jakaa osittaviin ja hierarkkisiin menetelmiin (Kaufman & Rousseeuw 1990, 38). Tutkijoiden parissa ei tunnu kuitenkaan olevan yksimielisyyttä siitä, millä tavalla erilaiset klusterointimenetelmät tulisi tarkemmin luokitella niiden suuren määrän vuoksi (ks. esim. Everitt ym. 2011; Aldender- fer & Blashfield 1984; Romesburg 1984). Seuraava, yleisimmät klusterointimenetelmät kattava luokittelu on tehty käyttämällä apuna Mark Aldenderferin ja Roger Blashfieldin (1984, 35) laatimaa luokittelua sekä Brian Everittin ja kumppaneiden (2011) esittelemiä menetelmiä.

Tältä pohjalta voidaan tehdä jako ainakin kuuteen erilaiseen klusterointimenetelmien luok- kaan:

• kokoavat hierarkkiset,

• jakavat hierarkkiset,

• toistavan osittamisen,

• malliperusteiset,

• tiheyden etsimisen ja

• graafiteoreettiset menetelmät.

Yllä mainitut menetelmätyypit perustuvat hyvin erilaisille klustereiden muodostamisen ta- voille. Sosiaalitieteiden alalla suosituimpia menetelmiä ovat (ainakin olleet) kokoavien hierarkkisten ja toistavan osittamisen menetelmien lisäksi malliperusteiset, erityisesti fakto- rianalyyttiset, menetelmät. (Aldenderfer & Blashfield 1984, 35.) Seuraavaksi esitellään tarkemmin kyseiset kolme menetelmätyyppiä.

(28)

Kokoavat hierarkkiset (englanniksi hierarchical agglomerative) menetelmät kuuluvat hierark- kisiin klusterointimenetelmiin. Hierarkkisissa menetelmissä aineistoa ei yhdistetä tai jaeta kerralla tiettyyn luokkien määrään, vaan prosessi etenee askel kerrallaan. Kokoavissa mene- telmissä aineiston analysointi lähtee liikkeelle tilanteesta, jossa jokainen havaintoyksikkö muodostaa oman klusterinsa, eli aluksi havaintoyksiköitä ja klustereita on yhtä monta.5 Tä- män jälkeen havaintoyksiköitä yhdistellään tarvittaessa siihen asti, kunnes ne kaikki kuuluvat yhteen klusteriin. (Everitt ym. 2011, 71, 73.)

Kokoavat hierarkkiset menetelmät perustuvat melko yksinkertaisiin, matriisin lukemiseen ja tapausten yhdistelemiseen liittyviin sääntöihin. Esimerkiksi lähimmän naapurin (single lin- kage) menetelmä etsii matriisista vaihe vaiheelta kaksi kaikkein samankaltaisinta tapausta ja yhdistää ne yhdeksi klusteriksi. Tämän jälkeen kyseiseen klusteriin lisätään aina yksi tapaus kerrallaan sen mukaan, mikä tapaus on mahdollisimman samankaltainen jonkin (minkä ta- hansa) jo klusterissa olevan tapauksen kanssa. Dendrogrammista voidaan päätellä, missä kohtaa tapausten yhdistäminen tulee lopettaa sopivan klustereiden määrän saavuttamiseksi.

(Aldenderfer & Blashfield 1984, 35–37.) Yksi tämän työn analyysivaiheessa käytettävistä me- netelmistä on kokoaviin hierarkkisiin menetelmiin kuuluva ryhmien sisäinen linkitys (ks.

tarkemmin luvut 3.5 ja 4.5).

Toistavan osittamisen (englanniksi iterative partitioning) menetelmillä ei lasketa samankaltai- suuksia tapausten välille, vaan menetelmillä voidaan analysoida suoraan raakadataa6. Koska kyseiseltä välivaiheelta vältytään, toistavan osittamisen menetelmällä voidaan käsitellä suu- rempia aineistoja kuin hierarkkisilla menetelmillä. (Aldenderfer & Blashfield 1984, 46.) Suurimmassa osassa toistavan osittamisen menetelmistä aineisto jaetaan ensin tiettyyn mää- rään klustereita ja lasketaan painopisteet7 kullekin klusterille. Tämän jälkeen kukin

5 Jakavissa hierarkkisissa menetelmissä alkutilanne on päinvastainen kokoaviin menetelmiin verrattuna. Jaka- vissa menetelmissä kaikki havaintoyksiköt on aluksi luokiteltu yhteen klusteriin, jota sitten ositetaan vaihe vaiheelta pienemmiksi klustereiksi (Everitt ym. 2011, 84).

6 Raakadata tarkoittaa jalostamatonta dataa, jota voidaan myöhemmin käsitellä eri tavoin. Yhteiskuntatieteissä raakadata muodostuu tyypillisimmin haastatteluista, kyselyistä tai erilaisista rekisteritiedoista (Tieteen termi- pankki 2020).

7 Painopiste (centroid) tarkoittaa klusterille laskettua ryhmäkeskiarvoa (Everitt 2011, 122). Painopisteen sijasta voidaan myös laskea medoidi eli klusterin keskipiste (klusteria parhaiten kuvaava havainto). Kyseisiä menetel- miä nimitetään esimerkiksi k-medoidin tai PAM-menetelmiksi (ks. esim. Kaufman & Rousseeuw 1987).

Viittaukset

LIITTYVÄT TIEDOSTOT

Paitsi että tutkimus osoit- taa valtuuston toiminnan poliittisen luonteen, talousarviokokousten ana- lyysi paljastaa samalla myös kunnallisdemokratian ja hallinnon

Itä-Suomen yliopiston edustajien tiukka ana- lyysi Tieteessä tapahtuu -lehdessä suomalaisesta ny- ky-yliopistosta osoittaa, kuinka hyvin brittien uus- liberalistiset opit

Tässä vastalääkkeeksi lyhyt ana- lyysi konstruktivismista: On totta, että todellisuutta koskevat käsityk- set ovat sosiaalisesti konstruoituja, eli tulosta ihmisten

Konkreettinen empiirinen ana- lyysi tulee tarpeeseen aikana, jol- loin Suomen valtion poliittisen johdon sekä yliopistojen johdon suusta kuulee edelleen julistetta- van

Ko- konaisuuden antia laajentavat edelleen tekstit Keski-Englan- nin tilasteesta (Stephen Drod- ge), ammattiliiton näkemyk- sestä (Bernd Kassebaum), ana- lyysi työnantajien ja

erityisintressiryh- mät, kuten elinkeinoelämän järjestöt, ammatti- liitot ja julkisia instituutioita (kuten esimerkiksi kuntia) edustavat järjestöt (tai ainakin osa niis- tä)

Erickson on liberaalia sivistyneistöä parhaasta päästä, tyyni ja hallittu va- semman laidan demokraatti, jonka ana- lyysi Reaganin puheista osoittaa vankkaa

hyödyntää Helsingin yliopiston intranetin, Flam- man, ja yliopiston julkisten sivujen uudistukses- sa tehtävää visuaalisen ilmeen suunnittelutyötä ja sisällönhallinnan