• Ei tuloksia

Aivoinfarktipotilaiden klusterointi ja analysointi

N/A
N/A
Info
Lataa
Protected

Academic year: 2022

Jaa "Aivoinfarktipotilaiden klusterointi ja analysointi"

Copied!
78
0
0

Kokoteksti

(1)

Aivoinfarktipotilaiden klusterointi ja analysointi

Juuso Kuokkanen

Pro gradu -tutkielma

Tietojenkäsittelytieteen laitos Tietojenkäsittelytiede

Huhtikuu 2020

(2)

itä-suomen yliopisto

, Luonnontieteiden ja metsätieteiden tiedekunta, Joensuu Tietojenkäsittelytieteen laitos

Tietojenkäsittelytiede

Kuokkanen, Juuso: Aivoinfarktipotilaiden klusterointi ja analysointi Pro gradu -tutkielma, 64 s.

Ohjaaja: Lauri Mehtätalo Huhtikuu 2020

Tiivistelmä: Tutkielman tavoitteena on löytää menetelmiä, joilla tietyn terveyden- huollon asiakasryhmän asiakkaita voitaisiin ryhmitellä keskenään siten, että samaan ryhmään kuuluvien asiakkaiden hoidonkulun voidaan tulkita tapahtuvan mahdollisim- man samankaltaisesti. Tutkielma toteutettiin yhteistyössä Pohjois-Karjalan sosiaali- ja terveyspalveluiden kuntayhtymän Siun soten ja Prodacapo Finland Oy, ja tutkielmaa varten saatu aineisto koostuu Siun soten piirissä hoidettujen aivoverenkiertohäiriöpotilai- den erikoissairaanhoidon ja perusterveydenhuollon suoritteista. Tutkielmassa aineistoa rajattiin siten, että tarkasteluun otettiin vain iskeemisen aivoinfarktin kärsineitä potilaita, ja mukaan otettiin vain sellaisia suoritteita, jotka tapahtuivat vuoden aikana hoitojen alusta. Tutkielmassa klusterointimenetelmiksi valikoituivat 𝑘-means ja 𝑘-prototypes -algoritmit. Klusterointituloksia analysoitiin klustereista saatavien tunnuslukujen avulla, sekä muodostamalla kullekin asiakkaalle heidän hoitojaan kuvaavia aikasarjoja, joita visualisoitiin sequence index plot -kuvaajan avulla. Lisäksi klusterointituloksia analy- soitiin lineaarisen ja logistisen regressiomallin avulla tutkimalla asiakasklustereiden selittävää vaikutusta hoidon kokonaiskustannuksiin, sekä asiakkaan itsenäisen toiminta- kyvyn saavuttamiseen. Tutkielmassa käytettyjen klusterointimenetelmien avulla saatiin muodostettua hoidon kulullisesti toisistaan eroavia asiakasklustereita. Sequence index plot -kuvaaja toimii hyvänä menetelmänä klustereiden sisäisen hoidonkulun vertailuun, ja myös eri klustereiden välisen hoidonkulun vertailuun. Asiakasklustereilla ei ollut selittävää vaikutusta asiakkaiden välisten kustannuserojen selittämisessä, mutta asia- kasklustereilla nähtiin olevan selittävää vaikutusta asiakkaan itsenäisen toimintakyvyn saavuttamiseen.

Avainsanat: Klusterointi; k-means; k-prototypes; Lineaarinen regressio; Logistinen regressio

ACM CCS (2012)

•Applied computing→Health care information systems;

(3)

university of eastern finland

, Faculty of Science and Forestry, Joensuu School of Computing

Computer Science

Kuokkanen, Juuso: Aivoinfarktipotilaiden klusterointi ja analysointi Master’s thesis, 64 p.

Supervisor: Lauri Mehtätalo April 2020

Abstract: The goal of this thesis is to find methods that can be used to group customers of certain patient group of health care so, that the course of treatment for customers belonging to same group could be thought to go in similar fashion. This thesis was done in collaboration with joint municipal authority for North Karelia social and health services Siun sote and Prodacapo Finland Oy. The data used in the thesis consisted health care services of primary and special health care that were provided for cerebrovascular disease patients treated in the hospital district of Siun sote. The data was limited so for the thesis, that only customers that were diagnosed with a ischemic stroke were included.

Also, for the customers that were included, only those health care services that occurred within one year from the start of treatment were included. Clustering algorithms𝑘-means and𝑘-prototypes were chosen for the thesis. Results of the clustering were analyzed by comparing statistics of different clusters. Clusters were also analyzed by creating such time series for each patient, that describes state of their treatment at different days, and by visualizing those series using Sequence index plots. In addition, linear and logistic regression models were used to analyze if customer clusters have effect on total costs of care or on customer gaining ability to function independently on day-to-day life. With the clustering methods used in thesis, it was possible to form such customer clusters, that the course of care in different clusters could be interpreted to go differently. Sequence index plot proved also to be good method to compare course of treatment within and between clusters. Customer clusters did have effect when explaining the differences in total costs of care between customers, but the clusters did show to have effect when explaining if the customer would gain ability to function independently in day-to-day life.

Keywords: Clustering; k-means; k-prototypes; Linear regression; Logistic regression

ACM CCS (2012)

•Applied computing→Health care information systems;

(4)

Käsiteluettelo

ICD-10 Maailman terveysjärjestön WHO:n julkaisema tautiluokituskoodisto diag- noosien esittämiseen (Maailman terveysjärjestö WHO, 2011, s. 14, 21).

ICPC-2 Maailman yleislääkäreiden järjestön WONCA:n hallinnoima kansainvälinen perusterveydenhuollon luokitus diagnoosien esittämiseen (Terveyden ja hyvivoinnin laitos THL, 2018, s. 4, 6).

NCSP NOMESCO:n ja Pohjoismaiden luokituskeskuksen julkaisema ja ylläpitä- mä pohjoismainen kirurginen toimenpideluokitus (Nordic Classification of Surgical Procedures), jolla voidaan yksilöidä terveydenhuollon tekemiä toimenpiteitä (Lehtonen ym., 2013, s. 1).

SPAT Perusterveydenhuollon avohoidon toimenpideluokitus, jolla kuvataan toi- mintoja ja toimenpiteitä perusterveydenhuollon palveluiden piirissä (Mölläri

& Saukkonen, 2014, s. 39).

(5)

Esipuhe

Itä-Suomen yliopisto, Pohjois-Karjalan sosiaali- ja terveyspalvelujen kuntayhtymä Siun sote ja Prodacapo Finland Oy (entinen FCG Prodacapo Group) solmivat vuonna 2017 yhteistyösopimuksen, jossa Siun sote ja Prodacapo Finland Oy tarjoavat Itä-Suomen Yliopiston opiskelijoiden käyttöön Siun soten toiminnasta muodostuvaa sosiaali- ja terveyspalveluiden dataa. Yhteistyösopimuksen puitteissa tehtävien tutkimuksien avulla on tarkoitus kehittää Prodacapo Finland Oy:n Prodacapo Region nimistä sotepalvelu- verkoston hallinta- ja analysointijärjestelmää. Prodacapo Region järjestelmän avulla yhdistellään useista lähteistä tulevaa tietoa sote-palveluiden johtamisen tueksi. (Siun sote – Pohjois-Karjalan sosiaali- ja terveyspalvelujen kuntayhtymä, 2017.)

Haluan kiittää Siun sotea ja Prodacapo Finland Oy:tä tämän tutkielman mahdollistami- sesta. Lisäksi haluan kiittää tutkielman ohjaajaa Lauri Mehtätaloa kaikesta tuesta työn valmistumiseksi, sekä Siun soten edustajaa Aki Pihlapuroa ja Prodacapo Finland Oy:n edustajaa Ossi Kemppaista avusta aihepiirin kanssa. Lopuksi, haluan kiittää vaimoani kaikesta tuesta kotona, jota ilman työ ei olisi valmistunut.

(6)

Sisältö

1 Johdanto 1

1.1 Aivoinfarkti . . . 1

1.2 Terveydenhuollon data . . . 4

1.3 Hoitopolku ja aikaisemmat tutkimukset . . . 5

1.4 Tutkielman tavoite . . . 9

2 Aineisto 11 2.1 Aineisto . . . 11

2.1.1 Lähdedatan rajoitteet ja ongelmat datan esikäsittelyssä . . . . 12

2.2 Datan esikäsittely . . . 14

2.2.1 Datan rajaaminen . . . 15

2.2.2 Datan esikäsittely klusterointia varten . . . 15

2.2.3 Asiakkaan hoitoa kuvaavien aikasarjojen muodostaminen . . 21

(7)

3 Menetelmät 24

3.1 Asiakkaiden klusterointi . . . 24

3.1.1 𝑘-means . . . 24

3.1.2 𝑘-prototypes . . . 27

3.2 Klusterointitulosten visualisointi . . . 29

3.2.1 Sequence index plot visualisointi asiakkaiden sarjoille . . . . 29

3.2.2 Klustereiden visualisointi ja vertailu . . . 30

3.3 Regressioanalyysi . . . 32

3.3.1 Lineaarinen regressiomalli . . . 33

3.3.2 Logistinen regressio . . . 36

4 Tulokset 38 4.1 Klusterointi numeerisilla muuttujilla . . . 38

4.2 Klusterointi numeerisilla ja kategorisilla muuttujilla . . . 45

4.3 𝑘-means ja 𝑘-prototypes -klusterointitulosten vertailu . . . 54

5 Johtopäätökset ja pohdinta 57

Viitteet 62

A Hoitoepisodiin kuuluvien suoritteiden poimintaehdot 65

B Kerätyt muuttujat 68

(8)

1. Johdanto

Tässä tutkielmassa esitetään menetelmiä, joilla tietyn terveydenhuollon asiakas- tai potilasryhmän sisältä voitaisiin löytää useita eri aliryhmiä siten, että eri ryhmien välillä asiakkaiden hoidonkulun voidaan tulkita tapahtuvan erilailla. Tutkielmassa tarkastel- tavaksi asiakasryhmäksi valikoitui aivoinfarktipotilaat, joita on hoidettu Siun soten terveydenhoitopiirissä.

1.1 Aivoinfarkti

Tässä osiossa käsitelty teoria aivoinfarktista ja sen hoidosta pohjautuu suurimmilta osin Suomalaisen Lääkäriseuran Duodecimin ja Suomen Neurologinen Yhdistys ry:n asettama työryhmän valmistamaan aivoinfarktin Käypä hoito -suositukseen (2016) sekä Tarnasen, Lindsbergin, Sairasen ja Tuunaisen aivoinfarktin Käypä hoito -suosituksen potilasversioon (2017).

Aivoverenkiertohäiriö nimitystä käytetään aivoverisuonten tai aivoverenkierron sairauk- sille. Aivohalvaus (stroke) on kliininen nimitys aivotoiminnan häiriölle, joka voi aiheutua aivoinfarktista, aivojen sisäisestä verenvuodosta, lukinkalvonalaisesta verenvuodosta tai aivolaskimoiden tromboosista (tai sinustromboosista). (Aivoinfarkti ja TIA: Käypä hoito -suositus, 2016.)

Aivoinfarktilla viitataan aivokudoksen pysyvään vaurioon, jonka on aiheutunut aivoku- doksen puutteellisesta verenkierrosta (iskemia). Ohimenevä iskeeminen kohtaus (TIA, transient ischemic attack) on aivojen tai verkkokalvon verenkiertohäiriöstä johtuva vä- liaikainen kohtaus, jonka seurauksena ei havaita aivokudoksen pysyviä vaurioita, ja joka kestää tyypillisesti alle tunnin. (Aivoinfarkti ja TIA: Käypä hoito -suositus, 2016.) Terveyden ja hyvinvoinnin laitoksen (THL) sydän- ja verisuonirekisterin perustella suurin osa kaikista Suomessa vuonna 2013 tapahtuneista AVH-tapauksista ovat olleet aivoinfarkteja. Aivoinfarktiin ensimmäistä kertaa sairastuvien keski-ikä vuonna 2010

(9)

Kuva 1.1:Aivoinfarktissa aivovaltimon tukkeumasta johtuva puutteellinen verenkierto vahingoittaa valtimoa ympäröivää aivokudosta (”Aivoinfarkti ja TIA”, 2019).

oli 72.7 vuotta, ja vuoden kuluessa ensi sairastumisesta 10.7 % sai uuden aivoinfarktin.

Vuosittain aivoinfarktiin sairastuneiden määrä on pysynyt ennallaan vuodesta 2000 vuoteen 2013. Vuonna 2013 aivoinfarkti oli kuolinsyynä 5 % kaikista sinä vuonna tapahtuneissa kuolemantapauksista. (Aivoinfarkti ja TIA: Käypä hoito -suositus, 2016.) Jos potilas saavuttaa itsenäisen toimintakyvyn viikon kuluessa aivoinfarktista, ennustaa se potilaalle hyvää toimintakykyä kolmen kuukauden kuluttua sairauden ilmentymisestä.

Noin 50-70 % aivoinfarktin sairastaneista potilaista ovat kolmen kuukauden kuluessa sairastumisestaan toipuneet siten, että he kykenevät toimimaan itsenäisesti päivittäi- sissä toimissaan. Vain 5 % potilaista ovat laitoshoidossa vuoden ajan tai pidempään sairastumisestaan. (Aivoinfarkti ja TIA: Käypä hoito -suositus, 2016.)

Aivoinfarktin riskitekijöihin lukeutuvat muun muassa korkea ikä, perinnölliset tekijät sekä etniset ominaisuudet (afroamerikkalaisten riski sairastua on korkeampi). Myös huonot elintavat, kuten tupakointi, runsas alkoholin käyttö, huumeiden käyttö sekä liika- lihavuus lisäävät sairastumisen riskiä. Merkittäviä aivoinfarktin syntymiseen vaikuttavia riskitekijöitä ovat muun muassa kohonnut verenpaine, tupakointi, keskivartalolihavuus, ruokailutottumukset, dyslipidemia (rasva-aineenvaihdunnan häiriö) ja vähäinen liikunta.

Aivoinfarktin 10 suurinta riskitekijää selittävät 90 % aivoinfarktin syntymisriskistä.

(Aivoinfarkti ja TIA: Käypä hoito -suositus, 2016.)

Aivoinfarktia diagnosoitaessa tavoitteena on ensin selvittää, onko potilaalla kallonsi- säinen verenvuoto vai aivoinfarkti, sekä selvittää päävaltimoiden tukosten sijainti ja hoidon kiireellisyys. Diagnosointia tehdään potilaan oireiden sekä kuvantamistutki- musten perusteella, ja niiden avulla aivoinfarkti (tai TIA) on luokiteltavissa aivojen

(10)

verenkiertoalueiden mukaan aivojen etuverenkiertoon (karotisalueeseen), tai takaveren- kiertoon (vertebrobasilaarialueeseen). Aivoinfarkti paikallistetaan potilaan oireiden ja kuvantamislöydösten perustella noin 80 % tapauksista aivojen etuverenkiertoon, ja noin 10-20 % tapauksista aivojen takaverenkiertoon. Oireet voivat ilmetä myös useammalla eri suonistoalueella samanaikaisesti. Jatkotutkimusten avulla aivoinfarkti pyritään diag- nosoimaan vielä tarkemmin tiettyyn verenkiertosuonistoon. (Aivoinfarkti ja TIA: Käypä hoito -suositus, 2016.)

Aivoinfarktin ilmetessä potilaan pääsy nopeasti päivystyshoitoon on ensiarvoisen tär- keää sairauden hoidossa. Aivoinfarktin akuuttihoitomuotoina toimivat liuotushoito tai tukoksen mekaaninen poisto, joiden nopea aloitus auttaa potilaan paranemisessa. Hoi- to tapahtuu pääsääntöisesti sairaalan AVH-yksikössä, joka on erikoistunut sairauden akuuttihoitoon ja varhaiskuntoutukseen. (Tuunainen ym., 2017.)

Laskimonsisäinen liuotushoito alteplaasilla ja aivoverisuonitukosten valtimonsisäinen mekaaninen poisto eli trombektomia ovat kaksi yleistä akuuttihoitomuotoa aivoinfark- tista kärsivälle. Laskimonsisäinen liuotushoito voidaan aloittaa turvallisesti vielä 4.5 tunnin kuluessa aivoinfarktin oireiden alkamisesta, mutta hoidon teho heikkenee viiveen kasvaessa. Myös trombektomiahoidon teho riippuu siitä, kuinka nopeasti hoito voidaan aloittaa oireiden ilmettyä, mutta tutkimusten perusteella hoidon teho säilyy 7.3 tuntiin saakka oireiden alusta. (Kantanen ym., 2017, s. 110-112.)

Jos potilasta ei saada hoidettua liuotushoidon tai trombektomian avulla, eikä verenkiertoa saada palautettua, voi potilaalle syntyä kallonsisäisen paineen kasvun seurauksena vaka- via aivovaurioita, jotka johtavat suuressa osassa tapauksista kuolemaan. Selvitessäänkin valtaosa potilaista vammautuu vaikeasti. Hemikraniektomialla eli kallonavausleikkauk- sella pyritään neurokirurgisesti rajoittamaan paineesta aiheutuvien komplikaatioiden ja aivovaurioiden määrää, ja aikaisessa vaiheessa (alle 48 tuntia aivoinfarktin syntymisestä) toteutettuna se vähentää 18-60 vuotiaiden potilaiden kuolleisuutta. (Kantanen ym., 2017, s. 110, 113.)

Sairauden jatkohoidossa uusien tukkeumien syntymistä pyritään ehkäisemään veri- tulppaa ja veren hyytymistä ehkäisevällä lääkityksellä, ja usein potilas tarvitsee myös verenpaine- ja kolesterolilääkitystä. Myös potilaan elämäntapoihin kiinnitetään huo- miota, etenkin ruokailutottumuksiin, liikkumiseen sekä alkoholin ja tupakan käyttöön.

(Tuunainen ym., 2017.)

Aivoinfarktipotilaiden kuntoutuksen tarvetta arvioidaan yksilöllisesti, ja kuntoutusta jatketaan kuntoutussuunnitelman mukaisesti sairaalahoidon jälkeen. Kuntoutuksen ede- tessä sen jatkotarvetta arvioidaan potilaan tarpeen mukaan. Kuntoutukseen kuuluu heti

(11)

alkavaa asentohoitoa, ja muiden kuntoutusmuotojen, kuten fysio-, toiminta- ja puhete- rapian tarve arvioidaan potilaskohtaisesti. Potilaat, joille aivoinfarktista on aiheutunut pysyviä haittoja, ovat suuren riskin potilaita, ja heille järjestetään usein loppuelämän kestävää säännöllistä seurantaa ja mahdollisia kuntoutustoimia tarpeen vaatiessa. Ai- voinfarktipotilaille tarjotaan myös apuvälinepalveluita, joilla helpotetaan potilaan kykyä selvitä arjesta. Apuvälinepalvelut tarjoavat potilaille muun muassa muistiapuvälineitä ja äänenvahvistuslaitteita. (Tuunainen ym., 2017.)

Aivoverenkiertohäiriöistä syntyvät kustannukset ensimmäisen kolmen kuukauden ai- kana hoitojen alusta riippuvat vahvasti potilaan saavuttamasta toimintakyvystä. TIA- ja aivoinfarktipotilaan nopea hoitoon pääsy vähentää ensimmäisen kolmen kuukauden aikana muodostuvien hoitokulujen määrää huomattavasti. Aivoverenkiertohäiriöiden hoidossa ensimmäisen hoitovuoden aikana aiheutuvista kustannuksista yli puolet muo- dostuvat akuuttihoidon ja sitä seuraavan kuntoutusjakson kustannuksista. Aivoinfarktin uusiutuminen ensimmäisen vuoden kuluessa hoidon alkamisesta lisää vuosikustannuksia 46 %. (Aivoinfarkti ja TIA: Käypä hoito -suositus, 2016.)

1.2 Terveydenhuollon data

Sosiaali- ja terveydenhuollon palveluntarjoajat keräävät asiakas- ja potilastietojärjestel- miinsä yksilötason tietoa henkilöiden terveydentilaan, elämäntilanteeseen ja palveluiden käyttöön liittyen tapahtumatasolla (Neittaanmäki & Lehto, 2018, s. 41). Kerättyjä tietoja hyödynnetään niin asiakkaan terveydentilan hoitoon (Neittaanmäki & Lehto, 2018, s.

41), kuin tuotettujen palveluiden kehittämiseen, esimeriksi palveluiden vaikuttavuuden seurannan, palveluverkon hallinnan sekä hallinto- ja toimintarakenteen toimivuuden varmistamisen kautta (Lehto & Neittaanmäki, 2017, s. 7). Asiakas- ja potilastieto- järjestelmistä saatavia tapahtumatietoja voidaan yhdistää myös esimerkiksi talous- ja resurssitietoihin muista järjestelmistä (Neittaanmäki & Lehto, 2018, s. 41), ja tietoja voitaisiin jatkojalostaa ja hyödyntää esimeriksi osana asiakkaiden riskianalyyseja tai hoitosuunnitelmia (Lehto & Neittaanmäki, 2017, s. 8-9).

Yksi esimerkki datasta on asiakkaan hoitoja kuvaavat hoitoepisodit, jotka muodostuvat joukosta terveydenhuollon suoritteita. Esimerkiksi AVH-potilaalta kerätty aineisto voi muodostua perussuoritteista, jotka ovat sosiaali- ja terveydenhuollon ammattilaisten kirjaamia käyntejä tai hoitojaksoja (FCG Konsultointi Oy, 2018, s. 13). Suorite sisältävät käyntiin tai hoitojaksoon liittyvää tietoa, kuten hoidon alkamis- ja päättymisajan, minkä palvelualan alaisuudessa suorite on tapahtunut, mitä diagnooseja asiakkaalla on, mitä toimenpiteitä suoritteeseen liittyy, mistä asiakas on saapunut hoitoon, mihin asiakas

(12)

siirtyy suoritteen päätyttyä ja mitkä ovat suoritteeseen liittyvät kustannukset. Aina suoritteissa ei kuitenkaan ole määritetty kaikkia mahdollisia suoritteen sisältämiä tietoja, esimerkiksi jos tietoja ei ole määritetty lähdejärjestelmässä.

Hoitoepisodilla (tai episodilla) tarkoitetaan niiden hoitojen kokonaisuutta, jotka kuuluvat asiakkaan yhden tietyn sairauden hoitoon. Episodiin kuuluvat kaikki ne suoritteet, jotka kuuluvat samaan hoitojen kokonaisuuteen. (FCG Konsultointi Oy, 2018, s. 11) AVH- potilaiden tapauksessa asiakkaan episodi kerätään etsimällä ensin indeksisuorite, joka on asiakkaan ensimmäinen suorite, jossa asiakkaalla ilmenee AVH-diagnoosi. Kun indeksisuorite on löydetty, kerätään asiakkaan episodiin mukaan kaikki muut suoritteet, jotka sopivat AVH:n hoitokokonaisuuteen. Näitä kutsutaan myös prosessisuoritteiksi.

Episodin päättävää suoritetta kutsutaan katkaisusuoritteeksi, johon hoitokokonaisuuden ajatellaan päättyvän. Tutkielmaa varten saadun aineiston muodostuminen käsitellään tarkemmin kappaleessa 2.1.

Kuva 1.2:Episodin rakenne. Episodi muodostuu hoitokokonaisuuden aloittavasta in- deksisuoritteesta, jota seuraa joukko prosessissuoritteita, jotka voivat tapahtua samanai- kaisesti. Episodin päättävä suorite on katkaisusuorite.

1.3 Hoitopolku ja aikaisemmat tutkimukset

Hoitopolulle voidaan käyttää joskus eri nimityksiä, kuten hoitoprosessi, hoitoketju tai palveluketju (Iivari ym., 2002, s. 163). Hoitopolulla tarkoitetaan palveluntuottajan ja asiakkaan (tai potilaan) välisiä palvelutapahtumien joukkoa, joka muodostuu erilai- sista palvelutapahtumista eri asiakasryhmillä (Mäkinen ym., 2018, s. 2). Hoitopolku on asiakkaan yksilöllinen, tietyn terveysongelman hoitoon keskittyvä sosiaali- ja ter- veydenhuollon palvelujen kokonaisuus (Iivari ym., 2002, s. 163). Se voi muodostua monien eri erikoisalojen ja ammattiryhmien palveluista (Iivanainen ym., 1995, s. 10).

Hoitopolku muodostuu sen vireillepanosta, toteutuksesta ja lopettamisesta, jotka kaikki voivat koostua useista eri palvelutapahtumista. (Mäkinen ym., 2018, s. 2). Hoitopolku päättyy asiakkaan palvelutarpeen päättymiseen, tai asiakkaan siirtyessä hoitoon toiseen palveluorganisaatioon (Mäkinen ym., 2018, s. 2).

(13)

Esimerkiksi aivoinfarktin tapauksessa asiakaan hoitopolku alkaisi akuuttihoidosta. Ku- vassa 1.3 esimerkki hoitopolusta silloin, kun AVH:stä kärsivälle potilalle arvioidaan suonensisäistä liuotushoitoa (IVT, kuvan vasen puoli), tai mekaanista trombektomiaa (MT, kuvan oikea puoli), joita kutsutaan myös rekanalisaatiohoidoksi (Strbian ym., 2020, s.414). Strbian ym. (2020, s.416, 418) esittävät rekanalisaatiohoidon hoitopolun kulun seuraavasti. Hoitopolku alkaa asiakkaan saapumisella ensihoidosta päivystykseen, jossa hoidot alkavat pään TT-kuvauksella ja AVH:tä matkivien sairauksien (kuten kasvaimet tai trauma) poissulkemisella. Potilaalle aloitetaan liuotushoito ilman lisäkuvantami- sia, jos oireiden alusta on alle 4,5 tuntia, eikä vasta-aiheita ilmene. Tarvittaessa muita aivoinfarktin kaltaisia sairauksia voidaan sulkea pois myös TT-perfuusiokuvauksella.

Jos potilaalla on havaittavissa suurten valtasuonten tukoksia, jotka havaitaan lisäku- vauksilla TT-angiografialla, käytetään silloin hoitomuotona mekaanista trombektomiaa.

Myös ajalla, joka on kulunut potilaan oireiden alusta, on vaikutusta hoidon kulkuun hoitopolussa.

Kuva 1.3:Aivoinfarktipotilaan hoitopolku akuuttihoidossa, kun potilaalle harkitaan suonensisäistä liuotushoitoa, tai mekaanista trombektomiaa. AVH-mimiikki = AVH:ta matkivat oireet; LVO = valtasuonitukos; TT-P = TT-perfuusio; TT-A = TT-angiografia.

(Strbian ym., 2020, s. 414.)

Aivoinfarktipotilaiden hoitopolku ei kuitenkaan pääty akuuttihoitoon. Jokaisen potilaan yksiköllistä tarvetta kuntoutukseen arvioidaan, ja sitä jatketaan myös sairaalahoidon jälkeen valmistetun kuntoutussuunnitelman mukaisesti (Tuunainen ym., 2017). Kuvassa 1.4 on havainnollistettu Koskisen (2016, s. 8) tutkimuksessa ilmenneitä erilaisia hoito-

(14)

polkuja siitä, kuinka AVH-potilaiden kuntoutuminen tapahtui akuuttihoitojen päätyttyä.

Koskisen (2016, s. 8-9) tutkimuksessa ilmeni, että potilaat viettivät hoitojen alussa keskimäärin 5 vuorokautta akuuttihoito-osastolla, jossa kuntoutus aloitettaan välittö- mästi asiakkaan kunnon salliessa. Arvio kuntoutustarpeesta tehdään akuuttihoitojakson aikana, jonka perusteella määritetään potilaan tarve jatkokuntoutukselle. Tästä kun- toutus jatkuu tarvittaessa joko kuntoutussairaalassa, yksityisessä kuntoutuslaitoksessa tai terveyskeskuksen vuodeosastolla. Potilas palaa akuuttihoito-osastolle yleensä vain työkykyarviota varten tai hoitoon liittyvien erikoisongelmien vuoksi.

Kuva 1.4:Erilaisia aivoinfarktipotilaiden kuntoutuksen hoitopolkuja (Koskinen, 2016).

Tutkielmaa varten löytyi kaksi aikaisempaa tutkimusta, joissa terveydenhuollon asiakkai- ta pyrittiin klusteroimaan keskenään heidän hoidonkulkunsa perusteella. Erona näissä tutkimuksissa verrattuna tähän tutkielmaan voi pitää sitä, että klusterointi toteutettiin joko vain yhden sairaalajakson aikana hoitoa suorittaneiden osastojen perusteella (Funk- ner ym., 2017), tai hyvin rajattujen lääkärintapaamisten, toimenpiteiden ja lääkitysten perusteella (Vogt ym., 2018). Tässä tutkielmassa klusterointi toteutettiin yhdistelemällä tietoa muun muassa hoidon kestosta, palvelualoista ja saaduista kuntoutusmuodoista.

Lisäksi tutkielman aineistossa asiakkaat saattavat kotiutua hoitojen aikana, ja myös tämä pyritään huomioiman tutkielman tapauksessa. Tutkielmassa muodostettuja asiakas- klustereita ja asiakkaiden hoidonkulkua visualisoidaan ja analysoidaan hyödyntämällä sequence index plot -kuvaajia. Idea sequence index plot -kuvaajien hyödyntämiseen tutkielmassa tuli Sundin (2008) väitöskirjasta.

Vogt ym. (2018) esittivät menetelmän, jossa sydämen vajaatoiminnasta kärsiviä poti- laita pyrittiin klusteroimaan kahden vuoden mittaisen seurantajakson perusteella (kak- si vuotta sydämen vajaatoiminnan diagnosoinnista). Tutkimuksessa käytetty data on

(15)

saksalaisen vakuutusyhtiön tarjoamaa dataa heidän asiakkaidensa sairaalakäynneistä, lääkärintapaamisista, lääkityksistä ja diagnooseista. Tutkimuksessa tarkkailtiin sydämen vajaatoiminnan hoidon kannalta oleellisia lääkärintapaamisia (yleislääkäri, sisätauti- lääkäri ja kardiologi), toimenpiteitä (sydänsähkökäyrä, sydämen ultraäänitutkimus ja laboratoriokoe) ja lääkitystä (ACE-estäjät (tai ARB) ja beetasalpaajat) kahden vuoden ajalta. Asiakkaiden saamat palvelut jaoteltiin vuosineljänneksiin, ja näistä vuosinel- jänneksistä muodostettiin aikasarjat (kaikkiaan kolme erilaista joka asiakkaalle), jotka kertovat kultakin vuosineljännekseltä minkä alan lääkäreitä asiakas on tavannut, mi- tä toimenpiteitä asiakas on saanut ja mitä lääkkeitä asiakas on käyttänyt. Asiakkaita klusteroitiin näiden kolmen erityyppisten aikasarjojen avulla käyttämällä 𝑘-medoids -algoritmia, jossa etäisyysmittana käytettiin aikasarjojen välistä pisintä yhteistä alijo- noa (englanniksi longest common subsequence). Sopiva klustereiden määrä valittiin siluetti -menetelmällä. Tutkimuksessa muodostettiin kolme klusteria tavattujen lääkä- reiden perusteella, neljä klusteria saatujen toimenpiteiden perusteella ja neljä klusteria saadun lääkityksen perusteella. Tutkimuksessa pyrittiin myös analysoimaan klusteroin- nin perusteella sitä, vaikuttaisiko asiakkaan kuuluminen tiettyyn klusteriin asiakkaan todennäköisyyteen joutua sairaalahoitoon tarkastelujakson aikana. Analysointi tapah- tui hyödyntämällä logistista regressiota. Klusteroinnin ei nähty selittävän asiakkaan joutumista sairaalahoitoon.

Funkner ym. (2017) esittivät menetelmän, jolla akuuttista sydämen vajaatoiminnasta kärsineitä asiakkaita klusteroitiin heidän sairaalajakson hoidonkulun perusteella. Tut- kimuksessa tarkkailtiin sairaalaan digitaalisten potilastietojen perusteella sitä, miten asiakkaat liikkuivat hoitojen aikana sairaalan eri osastojen välillä. Osastojen välisistä liikkeistä muodostettiin aikasarjoja (merkkijonoja, joissa kukin osasto ilmaistu unii- killa kirjainyhdistelmällä). Asiakkaat klusteroitiin heille muodostuneiden aikasarjojen perustella, käyttämällä etäisyysmittana Levenšteinin etäisyyttä (tunnetaan myös edi- tointietäisyytenä), ja suorittamalla klusterointi𝑘-means -algoritmin avulla. Klustereista muodostettiin klusteriin kuuluvien asiakkaiden hoidon kulkua visualisoivia suunnattuja graafeja, joista klusteriin kuuluvien asiakkaiden yleisesti kulkema hoitopolku (70 % asiakkaista) oli korostettu. Tutkimuksessa hyödynnettiin myös päätöspuuluokittelijaa ennustamaan asiakkaiden todennäköistä etenemissuuntaa hoitopolulla asiakkaan hoi- toon liittyvien parametrien avulla (kuten asiakkaan iän, kuinka kauan sairaalahoito on kestänyt ja erilaisten koetulosten perusteella). Luokittelijan avulla saatiin 81.2 % tark- kuudella ennustettua, siirtyykö klusteriin kuuluva asiakas seuraavaksi toiselle osastolle, vai kotiutuuko hän.

Sund (2008) esittää tutkimuksessaan menetelmiä, joilla terveydenhuollon rekisteriai- neistoista voidaan tuottaa terveydenhuollon vaikuttavuustietoa, jota voidaan hyödyntää

(16)

päätöksenteon tukena. Tutkimuksessa muodostetaan käsitemalli lonkkamurtumien seu- rantajärjestelmän tietotarpeille, ja esitetään ratkaisuja siihen, kuinka lonkkaongelmien ilmaantuvuuden seurantaan liittyviin käytännönongelmia voidaan ratkaista, sekä kuinka hoidon toteutumista voidaan arvioida hyödyntäen rekisteriaineistoa. Tutkimuksessa lonkkamurtumapotilaiden hoitoa analysoitiin muodostamalla lonkkamurtuman hoi- toon liittyvän hoitoepisodin hoitotapahtumista aikasarja, joka kuvasi asiakkaan hoidon intensiteettiä viidellä eri tasolla: 1) asiakas on kotiutunut (mukaan lukien kotihoito, palveluasuminen ja avohoito), 2) asiakas on hoitokodissa, 3) asiakas on hoidossa ter- veysasemalla, 4) asiakas on sairaalahoidossa tai 5) asiakas on kuollut. Tutkimuksessa asiakkaille muodostetiin aikasarjoja vuoden ajalta, jotka kuvasivat päivätasolla asiak- kaan hoidon tilaa edellä mainittujen tasojen avulla. Tutkimuksessa asiakkaan hoidon tilan koettiin edustavan hyvin asiakkaan hoivan tarvetta, ja siinä vertailtiin kahden eri lonkka- murtumapotilasryhmän hoivan tarvetta; niiden asiakkaiden, jotka olivat laitoshoidossa murtuman tapahtuessa, ja niiden, jotka olivat kotiutuneet murtuman syntyessä. Vertailua varten laitoshoitoasiakkaille etsittiin sopivat verrokit asiakkaan iän, sukupuolen ja lonk- kamurtumatyypin perusteella, ja asiakkaille muodostetut aikasarjat kuvasivat heidän päivittäistä hoidonkulkuaan vuoden mittaiselta ajalta. Vertailu tapahtui visualisoimalla potilasryhmiin kuuluvien asiakkaiden aikasarjat käyttäen sequence index plot -kuvaajaa (tutkimuksessa kuvaajalle käytetään nimitystä traceplot). Tutkimuksessa muodostettujen kuvaajien avulla potilasryhmien välisiä eroja hoidonkulussa ja hoivan tarpeessa oli mahdollista vertailla. Esimerkiksi laitoshoidosta hoitoon saapuneiden asiakkaiden kuol- leisuus oli korkeampi kuin kotoa saapuneiden asiakkaiden, ja kotoa saapuneet asiakkaat vaativat matalamman tason jälkihoitoa, kuin laitoksesta hoitoon saapuneet asiakkaat.

1.4 Tutkielman tavoite

Saman potilasryhmän sisällä voi olla useita erilaisia asiakassegmenttejä, joille toteu- tunut hoitopolku voi olla erilainen muihin asiakassegmentteihin nähden. Aivoinfark- tipotilaiden tapauksessa eri asiakkaat voivat saada erilaista akuuttihoitoa, ja hoitojen onnistumisen mukaan asiakkaat tarvitsevat erilaista jälkihoitoa; jotkut asiakkaat voivat kotiutua hyvin nopeasti ilman tarvetta kuntoutukselle, kun taas toiset asiakkaat voivat joutua viettämään enemmän aikaa vuodeosastolla ja voivat joutua käymään läpi paljon kuntoutusta. Pahimmassa tapauksessa asiakkaan kunto on niin huono, ettei asiakasta kyetä kuntouttamaan ja hän päätyy pysyvään laitoshoitoon tai kuolee.

Tämän tutkielman tavoitteena on löytää menetelmiä, joilla tietyn terveydenhuollon asia- kasryhmän (tai potilasryhmän) asiakkaita voitaisiin ryhmitellä keskenään siten, että

(17)

samaan asiakasklusteriin kuuluvien asiakkaiden hoidon kulku voidaan tulkita mah- dollisimman samankaltaiseksi. Tutkielman suoriteaineistosta saatavien tietojen avulla asiakkaat pyritään klusteroimaan siten, että samaan asiakasklusteriin kuuluvien asiakkai- den hoidon kulun voidaan tulkita tapahtuvan samankaltaisesti. Motivaationa asiakkaiden hoidon kulun klusteroinnissa on se, että klustereiden hoidonkulun perusteella voitai- siin tulevaisuudessa muodostaa yleisiä hoitopolkuja, jotka kuvaisivat mahdollisimman yleisesti erilaisia hoitoketjuja, joilla tietyn potilasryhmän asiakkaita hoidetaan.

Tutkielmassa klusterointi toteutetaan keräämällä asiakkaiden suoritteista joukko hoidon kulkua kuvaavia muuttujia. Klusterointimenetelminä tutkielmassa käytetään𝑘-means -algoritmia, sekä𝑘-prototypes -algoritmia, joka mahdollistaa sekä jatkuvien että kate- gorisien muuttujien hyödyntämisen klusteroinnissa. Klusteroinnin hyvyyttä arvioidaan laskemalla klusterin asiakkaille hoidon kulkuun liittyviä tunnuslukuja, sekä visuali- soimalla samaan klusteriin kuuluvien asiakkaiden hoidon kulku sequence index plot -kuvaajan avulla. Lisäksi tutkielmassa tarkastellaan kuinka lineaarista ja logistista regres- siota voidaan hyödyntää osana asiakasklustereiden analysointia. Tutkielmassa ei käsitellä sellaisia menetelmiä, joilla tietylle potilasryhmälle tai asiakassegmentille potilasryhmän sisässä voitaisiin muodostaa yksi yleinen hoitopolku. Tällöin tutkielma olisi muodostunut liian suuritöiseksi. Yleisien hoitopolkujen louhinta ja visualisointi asiakasklustereista voisi kuitenkin olla oma tutkimuksensa tulevaisuudessa.

Luvussa 2 kuvaillaan tutkielmaa varten saatu aineisto ja miten aineistoa esikäsiteltiin klusterointia sekä klustereiden visualisointia varten. Luvussa 3 käydään läpi tutkiel- massa käytettyihin klusterointi-, visualisointi- ja regressiomenetelmiin liittyvää teoriaa.

Luvussa 4 esitellään tutkielmassa aikaansaatuja tuloksia, ja luvussa 5 käydään läpi tutkielman johtopäätökset ja pohdinta.

(18)

2. Aineisto

2.1 Aineisto

Prodacapo Finland Oy vastasi tutkielmassa käytetyn aineiston toimittamisesta. Aineisto on kerätty Prodacapo Finlandin Region -järjestelmästä, joka hyödyntää Siun soten lähdejärjestelmistä saatavaa sosiaali- ja terveyspalveluiden dataa.

Aineisto koostuu aivoverenkiertohäiriöihin liittyvistä erityissairaanhoidon ja peruster- veydenhuollon suoritteista, joita on tuotettu Siun soten toimialueella. Aineistossa ei ollut mukana sosiaalihuollon suoritteita. Aineistosta löytyy suoritteita, jotka ovat tapah- tuneet jo vuonna 2009, mutta valtaosa suoritteista on vuosilta 2015-2018. Aineistossa suorite voi olla käynti tai hoitojakso erikoissairaanhoidon ja perusterveydenhuollon palveluiden piirissä, ja tietylle asiakkaalle voi datasta löytyä useampi suorite. Asiakkaan suoritteet muodostavat yhdessä hoitojen ja palveluiden sarjan, eli hoitoepisodin. Hoitoe- pisodin tulisi kattaa kaikki Siun soten piirissä asiakkaalle annettu hoito aivoinfarktiin ja sen jälkihoitoon liittyen. Tutkielman tapauksessa jokaisella asiakkaalla ajatellaan olevan vain yksi episodi (alkaa asiakkaan ensimmäisestä diagnosoidusta aivoverenkier- tosairaudesta), vaikka aivoverenkiertosairaus uusiutuisikin vuosia myöhemmin, jolloin uusiutuneen aivoverenkierronhäiriön hoitoon liittyvät toimenpiteet voisivat muodostaa oman episodinsa.

Aineistossa asiakkaiden saamat diagnoosit ovat määritetty ICD-10 -tautiluokituksen (International Statistical Classification of Diseases and Related Health Problems, Tenth Revision) mukaisesti, joka on Maailman terveysjärjestön WHO:n julkaisema tautiluo- kituskoodisto diagnoosien esittämiseen (Maailman terveysjärjestö WHO, 2011, s. 14, 21). Asiakkaan saamat erikoissairaanhoidon toimenpiteet ovat kirjattu NCSP-koodiston (Nordic Classification of Surgical Procedures) mukaisesti, joka on NOMESCO:n ja Pohjoismaiden luokituskeskuksen julkaisema ja ylläpitämä pohjoismainen kirurginen toimenpideluokitus, jolla voidaan yksilöidä terveydenhuollon tekemiä toimenpiteitä (Lehtonen ym., 2013, s. 1). Asiakkaan perusterveydenhuollossa saamat toimenpiteet

(19)

ovat kirjattu SPAT-koodiston (Perusterveydenhuollon avohoidon toimintoluokitus) mu- kaisesti, joka on perusterveydenhuollon avohoidon toimenpideluokitus, jolla kuvataan toimintoja ja toimenpiteitä perusterveydenhuollon palveluiden piirissä (Mölläri & Sauk- konen, 2014, s. 39).

Hoitoepisodi alkaa indeksisuoritteesta, joka on ajallisesti ensimmäinen suorite, jossa asiakkaalle on annettu diagnoosi AVH:sta (ICD-10-diagnoosikoodi alkua I60, I61, I63, I64, I65 tai I66). Indeksisuoritteen jälkeen tapahtuneet suoritteet luokitellaan episodiin kuuluviksi prosessisuoritteiksi, jos ne täyttävät vähintään yhden alla esitetyistä ehdoista.

• Suoritteeseen liittyvä diagnoosi viittaa aivoverenkiertohäiriöön, tai suoritteen diagnoosi viittaa aivoinfarktin myöhäisvaikutuksiin.

• Suoritteen päädiagnoosiryhmän ICD-10 -diagnoosi viittaa halvausoireisiin.

• Suoritteen käynnin syy viittaa ompeleiden poistoon perusterveydenhuollossa.

• Suoritteeseen liittyvä päätoimenpide viittaa terapiaan tai kuntoutukseen.

• Suoritteeseen liittyvä palveluala on ”Vuodeosastohoito”, ”Kotihoito tai -palvelu”

tai ”Kuntoutus ja terapiat”.

• Suoritteeseen liittyvä tarkennettu palveluala on ”Fysioterapia”, ”Apuvälinepalve- lu”, ”Puheterapia” tai ”Toimintaterapia”.

Suoritteiden poimintaan liittyvät ehdot ovat kuvattu yksityiskohtaisemmin liitteessä A.

Aineistoksi saadut suoritteet sisältävät tietoa muun muassa asiakkaan demografisista tiedoista (kuten asiakkaan ikä, sukupuoli ja asuinkunta), suoritteen kestosta (kuten milloin suorite alkoi ja päättyi, sekä suoritteen kokonaiskestosta päivinä), missä suorite tapahtui (kuten suoritteen tuottava yksikkö, palveluala ja kuuluuko se erikoisairaanhoi- don, perusterveydenhuollon tai sosiaalihuollon piiriin), mitä toimenpiteitä suoritteeseen sisältyi, millainen kontakti asiakkaaseen oli palvelua tuotettaessa (kuten sairaalakäynti, kotikäynti tai puhelimitse), minkä ammattiryhmän henkilö otti asiakkaan vastaan ja mitkä ovat suoritteen kustannukset.

2.1.1 Lähdedatan rajoitteet ja ongelmat datan esikäsittelyssä

Vaikka aineistoksi saaduissa suoritteissa oli paljon erilaisia muuttujia, ei kaikille muut- tujille ollut välttämättä määritetty arvoa jokaisen suoritteen kohdalla. Esimerkiksi aina suoritteissa ei ollut tietoa siitä, mistä asiakas oli saapunut hoidettavaksi, tai arviota hänen

(20)

hoivan tarpeestaan suoritteen alkaessa ja sen päättyessä. Tämä asetti rajoitteita sille, mitä tietoja suoritteista lopulta voitiin hyödyntää tutkielmassa. Osa puuttuvista arvoista johtuu siitä, ettei niitä ole aina kirjattu asiakkaalle hoitojen yhteydessä riippuen kirjaus- käytännöistä (esimerkiksi arvio asiakkaan hoivan tarpeesta suoritteen alussa ja lopussa, tai syy miksi asiakas saapui hoitoon), ja joissain tapauksissa lähdejärjestelmistä ei ole saatu kaikkia tietoja Prodacapo Region järjestelmään; asiakkaiden saamissa toimenpi- teissä oli ylikirjaamisongelma, jonka seurauksena suoritteeseen kirjatuista toimenpiteistä vain viimeisenä kirjatut toimenpiteet olivat vain mukana aineistossa. Jos kaikkia hoito- tapahtuman aikana annettuja toimenpiteitä ei oltu eroteltu erikseen hoitotapahtuman viimeisimmällä kirjauskerralla, eivät kaikkia todellisuudessa annetut toimenpiteet siirty- neet Siun soten lähdejärjestelmästä Prodacapo Finlandin suoriteaineistoon. Tämä asetti rajoitteita sille, mitä tietoja tutkielmassa pystytiin lopulta hyödyntämään.

AVH:n tapauksessa osa asiakkaista saatetaan myös siirtää hoidettavaksi Joensuun kes- kussairaalasta Kuopion yliopistolliseen sairaalaan akuuttihoitoa varten, eikä aineistossa ole tietoja siitä, milloin siirto on mahdollisesti tapahtunut, tai millaisia hoitoja asiakas olisi Kuopiossa saanut.

Lähdedatan rajoitteiden lisäksi aineiston esikäsittelyssä ilmeni joitain ongelmia, joita ei vielä ratkaistu tutkielmaa varten. Mainitut ongelmat on hyvä ratkaista viimeistään siinä vaiheessa, jos tutkielmassa esitettyjä menetelmiä halutaan ottaa käyttöön Prodacapo Regionin -tuotantoversiossa.

Palvelualapäivien laskeminen Jos asiakkaalla on samana päivänä useita saman pal- velualan suoritteita, lasketaan asiakkaan viettäneen kyseisellä palvelualla yhden päivän jokaista suoritetta kohden. Tämä voi aiheuttaa virheellisen kuvan asiakkaan saamien palvelualapäivien määrästä, jos asiakkaalla on useita tietyn palvelualan käyntisuoritteita samana päivänä. Tässä mielessä muuttujan nimittäminen päivien määräksi on harhaan- johtavaa, mutta toisaalta päivien määrä on käsitteenä helppo, ja useimmissa tapauksissa muuttujan pitäisi vastata lähes todellista palvelualalla vietettyjen päivien määrää.

Yksi tapa ratkaista tämä ongelma olisi luoda jokaiselle palvelualalle oma binäärinen lista, jonka pituus vastaa tarkkailujakson pituutta (esimerkiksi vuoden mittaisella tark- kailujaksolla pituus olisi 365). Listan alkioihin merkitään ne päivät, joissa asiakas on saanut vähintään kerran tietyn palvelualan palveluita. Kun asiakkaan kaikki suoritteet on käsitelty, laskettaisiin päivien määrä listasta. Vastaavaa toteutusta on käytetty jo asiakkaan kotiutumisen ja kuntoutuksen päivien laskemiseen, mutta palvelualojen päi- vien laskemiseen tätä ei ole vielä toteutettu, koska sen vaatimaa lisätyömäärää ei nähty kannattavaksi tutkielman kannalta (johtuen eri palvelualojen määrästä), ja koska nyt

(21)

kerätyt palvelualapäivä -muuttujat kuvastavat ongelmasta huolimatta suhteellisen hyvin kultakin palvelualalta saadun hoidon kokonaismäärää.

Jatkohoitotiedon käsittely Kun asiakkaalle muodostetaan hoidon tilaa kuvaavia sar- joja, hyödynnetään jatkohoitotietoa osana aikasarjojen muodostamista. Tällä pyritään etenkin asiakkaan kotiutuessa tulkitsemaan asiakas asumaan kotona ilman palveluita, saamaan kotihoidon palveluita tai asumaan palveluasunnossa. Jatkohoidosta saatavaa tietoa ei kuitenkaan hyödynnetä palvelualoilla vietettyjen päivien keräämisessä, vaan palvelualoilla vietetyt päivät perustuvat pelkästään suoritteen palveluala tietoon. Täl- löin asiakkaalle muodostetun aikasarjan ja suoritteiden palvelualalla vietettyjen päivien välillä voi olla ristiriitoja. Esimerkkinä tästä on tilanne, jossa asiakkaan suoritteeseen on merkitty tieto jatkohoidosta, joka viittaa kuntoutukseen. Tällöin jatkohoitotiedon perusteella, asiakkaan aikasarjaan asiakas merkitään saamaan ”Kuntoutus ja terapia”

-palvelualan palveluita. Jos asiakkaalla ei kuitenkaan ole suoritteita, joissa palveluala olisi ”Kuntoutus ja terapia”, ei asiakkaalle merkitä yhtään päivää palvelualalle. Tällöin Sequence index plot -kuvaajan perusteella asiakas saisi kuntoutusta, mutta asiakkaasta kerätyt muuttujien perusteella asiakas ei ole saanut yhtään kuntoutusta.

Ongelma voitaisiin ratkaista laskemalla jatkohoitotiedon perusteella merkityt päivät myös osaksi palvelualalla vietettyjä päiviä. Tällöin kuitenkin asiakkaalle saatettaan virheellisesti tulkita liikaa tietyn palvelualan päiviä, jos asiakas ei todellisuudessa olekaan jatkohoitotiedon perusteella oletettua aikaa tietyn palvelualan piirissä.

Muuttujien keruussa tehdyt oletukset Joidenkin muuttujien kohdalla tehdään paljon oletuksia, jotka eivät välttämättä edusta todellisia tapahtumia hoidossa. Esimerkkeinä tällaisista muuttujista ovat kuntoutusmuotojen kerääminen, jatkohoito tiedon käyttä- minen asiakkaan sarjojen muodostamiseen sekä oletus asiakkaan hoidosta toisessa sairaanhoitopiirissä aikasarjoja muodostettaessa. Oletuksien oikeellisuus tulisi tulevai- suudessa selvittää, kun käytössä olisi tarkempaa aineistoa asiakkaiden hoidoista, etenkin mahdollisesti muualla toteutetuista akuuttihoidoista.

2.2 Datan esikäsittely

Tutkielman aineisto koostui kolmesta eri kokonaisuudesta:

(22)

• Hoitosuoritteet sellaisilta asiakkailta, joille on diagnosoitu AVH vuosien 2009- 2018 aikana (tapaukset, jotka on löydetty lähdejärjestelmistä)

• Asiakkaiden kaikki diagnoosit

• Selitteet datasta löytyville koodeille

2.2.1 Datan rajaaminen

Tutkielman aineistoa rajattiin siten, että mukana olisi vain sellaisia asiakkaita, joiden indeksisuoritteen palvelualaksi on merkitty päivystys (asiakas saapunut hoidettavaksi päivystykseen aivoinfarktin vuoksi), ja joiden indeksisuoritteessa on merkitty iskee- miseen aivoinfarktiin liittyvä diagnoosi (suoritteessa ICD-10 -diagnoosikoodi alkua I63, I64, I65 tai I66). Tämän lisäksi tutkielmassa käytetään vain sellaisia asiakkaiden suoritteita, jotka ovat alkaneet enintään yhden vuoden päästä indeksisuoritteen alkami- sajankohdasta, eli asiakkaan hoitoa tarkkaillaan vain yhden vuoden mittaiselta ajalta päivystykseen saapumisen jälkeen.

2.2.2 Datan esikäsittely klusterointia varten

Jokaisen käsittelyyn otetun asiakkaan suoritteista kerätään joukko muuttujia, joiden avulla pyritään kuvaamaan hoidon kulkuun liittyviä ominaisuuksia. Muuttujat liittyvät suoritteiden kokonaiskustannuksiin, suoritteiden palvelualoihin ja lajeihin, päivystyksen toimenpiteisiin, asiakkaan saamaan kuntoutukseen, asiakkaan demografisiin tietoihin, mahdolliseen hoidon ja aivoinfarktin uusiutumiseen sekä asiakkaan kotiutumiseen. Ku- vassa 2.1 on esimerkki yhden asiakkaan suoritteista, jotka olivat mukana aineistossa.

Asiakas on saanut päivystykessä (palveluala AEPA14) AVH:n viittaavan diagnoosin (I63 alkuinen ICD-10 -koodi). Asiakaan seuraava suorite on vuodeosaston suorite (pal- veluala AEPA01), mutta koska ensimmäisenä tapahtuvan päivystyksen suoritteen ja toisena tulevan vuodeosaston suoritteen välissä on useampi päivä eroa (6 päivää täs- sä tapauksessa), oletetaan asiakkaan olevan näiden suoritteiden välissä hoidettavana muualla (lisää tästä kappaleessa 2.2.3). Asiakas viettää vuodeosastolla yhden yön (on hoidettavana vuodeosastolla kahtena eri päivänä), jonka jälkeen hän kotiutuu ja siirtyy kotihoidon palveluiden piiriin (jatkohoitokoodi 21). Myöhemmin asiakas saa kuntotutuk- sena (palveluala AEPA08) fysioterapiaa (suoritteessa vastaanottavan henkilön ammatti AE_6, eli fysioterapeutti) ja myöhemmin apuvälinepalveluita (tarkennettu palveluala 08_T52). Koska kaksi viimeistä suoritetta tapahtuvat yli vuoden päästä ensimmäisestä

(23)

Kuva 2.1:Kuvassa erään aineistoon kuuluvan asiakkan suoritteet. Asiakkaalla on ai- neistosa kaikkiaan 6 suoritetta. Mukana ei ole kaikkia mahdollisia aineiston muuttujia, vaan vain osa jotka koettiin tutkielmassa tärkeiksi.

suoritteesta, ne karsiutuvat pois jatkokäsittelystä. Taulukossa 2.1 on esitetty asiakkaal- le esikäsittelyn seurauksena muodostuvat muuttujat, jotka kuvaavat asiakkaan hoidon kulkua ensimmäisen vuoden aikana aivoinfakrtin syntymisestä.

Kun aineistosta kerätty muuttuja ilmaisee päivien määrää, esimerkiksi ”Kuntoutus- ja terapiat” -palvelualalla (AEPA08) vietettyjen päivien määrää, merkitään jokainen suorite palvelualalta vähintään yhdeksi päiväksi (myös alle päivän mittaiset käyntitapahtumat).

Jos samana päivänä on useampi saman palvelualan käyntisuorite, merkitään jokaista suoritetta kohti yksi päivä, jolloin kyseiselle palvelualalle merkitään enemmän palvelual- lalla vietettyjä päiviä, kuin mitä päiviä on todellisuudessa ollut (lisää tästä kappaleessa 2.1.1). Oletusarvoisesti sellaiset muuttujat, jotka mittaavat päivien määrää, saavat arvon 0. Palvelualalla vietettyjen päivien tapauksessa arvo 0 tarkoittaisi, ettei asiakkaalla ole ollut tietyn palvelualan suoritteita. Muuttujat, jotka mittaavat kuinka monen päivän pääs- tä jotakin tapahtuu hoitojen aikana, kuten kuinka monta päivää hoitojen alusta asiakas oli elossa, saavat oletuksena arvon 366. Elossa oltujen päivien tapauksessa arvo 366 tarkoittaisi, että asiakas ei kuollut vuoden mittaisen tarkkailujakson aikana. Tarkemmat kuvaukset kerätyistä muuttujista löytyvät liitteestä B.

Suoritteiden kustannukset Asiakkaan suoritteiden kokonaiskustannukset (eli hoito- jen kustannukset) saadaan summaamalla asiakkaan kaikkien suoritteiden kustannukset keskenään. Aineistossa sama alkuperäinen suorite (potilastietojärjestelmästä saatu) voi olla jaettu useampaan eri osaan, johtuen mahdollisesti suoritteen keston jakautumisesta useammalle vuodelle, tai jos samaan suoritteeseen liittyy useita eri potilasryhmittelyitä

(24)

Taulukko 2.1:Esimerkki yhden asiakkaan suoritteista (katso kuva 2.1) muodostustuvista muuttujista, joita aineiston esikäsittelyn tuloksena syntyy. Muuttujat kuvaavat asiakkaan hoidon kulkua vuoden ajalta hoitojen alusta.

Muuttuja Arvo

1 asiakkaan.tunnus AExxxxxxxx

2 AVTSSL 0

3 VTT 0

4 fysioterapia 1

5 puheterapia 0

6 toimintaterapia 0

7 neuropsykologinen 0

8 sai.fysioterapia 1

9 sai.puheterapia 0

10 sai.toimintaterapia 0

11 sai.neuropsykologinen 0

12 sai.kuntoutusta 1

13 kuntoutus.vuodeosastolla.paivat 0 14 kuntoutus.kotiutuneena.paivat 1

15 ika 71

16 sukupuoli 1

17 on.kuollut 0

18 esh.paivat 1

19 pth.paivat 4

20 AEPA01.readmissioiden.maara 0

21 paivaa.readmissioon 366

22 paivystys.uusiutunut 0

23 paluu.paivystykseen.paivaa 366

24 on.kotiutettu 1

25 paivaa.kotiutumiseen 10

26 kotiutunut.paivat 355

27 asumismuoto.hoidon.alussa

28 palasi.asumismuotoon 0

29 AEPA14.minuutit 298

30 paivaa.viimeisesta.suoritteesta 351

31 paivaa.elossa 366

32 suoritteiden.oletuskustannukset 908.087

33 AEPA14 1

34 AEPA01 2

35 AEPA08 1

36 AEPA03 1

37 AEPA06 0

38 AEPA13 0

39 AEPA99 0

40 AEPA12 0

41 AEPA09 0

42 AEPA07 0

43 AEPA11 0

44 AEPA15 0

(25)

(EPR-ryhmä). Jos alkuperäinen suorite on jaettu useampaan eri osaan, on suoritteen kokonaiskustannukset jaettu tasan eri osien kesken. Tällöin eri osien oletuskustannukset summataan keskenään suoritteen kokonaisoletuskustannusten saamiseksi.

Suoritteiden palvelualat ja lajit Asiakkaan suoritteista lasketaan päivien määrä, jon- ka asiakas vietti kullakin palvelualalla. Tutkielman kannalta tärkeimmiksi palvelualoiksi, joiden päivien määrää tarkastellaan, osoittautuivat ”Kuntoutus ja terapia” (AEPA08), ja Vuodeosasto (AEPA01), koska suurin osa kustannuksista perustuu asiakkaan saaman kuntoutuksen ja vuodeosastojaksojen kestoon. Palvelualapäivien lisäksi suoritelajien pe- rusteella lasketaan myös perusterveydenhuollon ja erikoissairaanhoidon päivien määrät.

Päivystyksen toimenpiteet Asiakkaan suoritteista lasketaan asiakkaalle suoritettujen aivoinfarktin akuuttihoitoon liittyvien toimenpiteiden määrä. Akuuttihoitoon liittyvät toimenpiteet ovat aivovaltimotulpan suonensisäinen liuotus (toimenpiteen NCSP-koodi AAL10) ja valtimotukoksen trombektomia (NCSP-koodi TPX22). Aineistossa ei kui- tenkaan ole kaikkia mahdollisia toimenpiteitä mukana, johtuen lähdejärjestelmissä ilmenneistä ongelmissa toimenpiteiden ylikirjoittamisen kanssa (katso kappale 2.1.1).

Tästä syystä toimenpidetietojen hyödyntäminen tutkielmassa jäi vähäiseksi.

Asiakkaan saama kuntoutus Asiakkaan suoritteista pyritään keräämään monia eri muuttujia, joilla voidaan arvioida asiakkaan saamia kuntoutuksen palveluita. Kuntou- tukseen kuluneiden päivien määrää mitataan vain ”Kuntoutus ja terapia” -palvelualan päivien määrässä, vaikka kuntoutukseen liittyviä toimenpiteitä voi olla myös muiden palvelualojen suoritteissa. Tällöin kuitenkin itse kuntoutukseen liittyvien päivien mää- rää on vaikea arvioida, jos suorite kestää useamman päivän (esimerkiksi jos kyseessä vuodeosaston hoitojakso). Suurimmassa osassa suoritteita kuntoutus tapahtuu kuitenkin

”Kuntoutus ja terapia” -palvelualan suoritteissa, joten palvelualan päivien määrää pide- tään tässä tapauksessa riittävänä mittana kuntoutuksessa vietettyjen päivien määrälle.

Asiakkaan suoritteista mitataan myös asiakkaan saaman kuntoutuksen määrää silloin (päivissä), kun asiakas on ollut samaan aikaan vuodeosastolla, ja silloin kun asiakas on ollut vuodeosaston ulkopuolella (yleensä kotiutuneena).

Asiakkaan saamia eri kuntoutusmuotoja pyritään selvittämään hyödyntämällä tietoja suoritteen toimenpiteistä (sekä erikoissairaanhoidon ja perusterveydenhuollon toimenpi- teistä), tarkennetusta palvelualasta, asiakkaan vastaanottavasta henkilön ammatista.

(26)

• Suoritteeseen tulkitaan liittyvän fysioterapiaa, jos suoritteen erikoissairaanhoidon toimenpide viittaa fysioterapiaan (NCSP-koodiston toimenpide R4110 (Fysio- terapia) tai Z3226 (Fysioterapeutti)), perusterveydenhuollon toimenpide viittaa fysioterapiaan (SPAT-koodiston toimenpide SPAT1223 (Fysioterapeuttinen kun- toutus) tai SPAT1295 (Muu fysioterapianimikkeistön mukainen toiminto)), asiak- kaan vastaanottava henkilö on ”Fysioterapeutti” (AE_6) tai suoritteen tarkennettu palveluala on fysioterapia (08_T51).

• Suoritteeseen tulkitaan liittyvän puheterapiaa, jos suoritteen erikoissairaanhoidon toimenpide viittaa puheterapiaan (NCSP-koodiston toimenpide R4130 (Puhetera- pia)), perusterveydenhuollon toimenpide viittaa puheterapiaan (SPAT-koodiston toimenpide SPAT1224 (Puheterapeuttinen kuntoutus) tai SPAT1297 (Muu pu- heterapianimikkeistön mukainen toiminto)), asiakkaan vastaanottava henkilö on

”Puheterapeutti” (AE_11) tai suoritteen tarkennettu palveluala on ”Puheterapia”

(08_T53).

• Suoritteeseen tulkitaan liittyvän toimintaterapiaa, jos suoritteen erikoissairaan- hoidon toimenpide viittaa toimintaterapiaan (NCSP-koodiston toimenpide R4120 (Toimintaterapia)), perusterveydenhuollon toimenpide viittaa toimintaterapiaan (SPAT-koodiston toimenpide SPAT1226 (Toimintaterapeuttinen kuntoutus) tai SPAT1296 (Muu toimintaterapianimikkeistön mukainen toiminto)), asiakkaan vastaanottava henkilö on ”Toimintaterapeutti” (AE_7) tai suoritteen tarkennettu palveluala on ”Toimintaterapia” (08_T54).

• Suoritteeseen tulkitaan liittyvän neuropsykologista kuntoutusta, jos suoritteen eri- koissairaanhoidon toimenpide viittaa neuropsykologiseen kuntoutukseen (NCSP- koodiston toimenpide R4150 (Neuropsykologinen kuntoutus)) tai asiakkaan vas- taanottava henkilö on ”Psykologi tai psykoterapeutti” (AE_10).

On kuitenkin huomattava, että kun asiakkaan vastaanottavana henkilönä käytetään ”Psykologi tai psykoterapeutti” (AE_10), voidaan asiakas tulkita virheellisesti saamaan neuropsykologista kuntoutusta; psykoterapeutit eivät anna neuropsykologista kuntoutusta, eivätkä psykologin palvelut välttämät- tä aina ole neuropsykologista kuntoutusta. Aineistosta neuropsykologista kuntoutusta saaneita asiakkaita löydettiin yllä olevia ehtoja käyttäen 43 kap- paletta, joista yli puolet tunnistettiin asiakkaan vastaanottaneen henkilön perusteella. Tästä syystä aineistosta on mahdollisesti tunnistettu liian paljon neuropsykologista kuntoutusta saaneita asiakkaita kuin mitä heitä on ollut todellisuudessa, ja tästä syystä käytettäviä ehtoja on syytä miettiä tarkemmin tulevaisuudessa.

(27)

Lisäksi asiakaan tulkitaan saaneen jotain kuntoutusta silloin, kun asiakkaalla on yksi suorite, jossa jokin yllä olevista ehdoista täytyy, tai suoritteen palveluala on ”Kuntoutus ja terapia”.

Asiakkaan demografiset tiedot Asiakkaasta kerätyt demografiset muuttujat sisältävät tiedon asiakkaan iästä, sukupuolesta sekä siitä, onko asiakas selvinnyt elossa koko vuoden mittaisen tarkastelujakson ajan. Myös niiden päivien määrä, jotka asiakas oli elossa hoidon alusta, tallennetaan. Asiakkaan elossa oltujen päivien määrä on 366 silloin, jos asiakas on elossa koko vuoden mittaisen tarkastelujakson ajan.

Hoidon ja aivoinfarktin uusiutumiseen liittyvät muuttujat Asiakkaan suoritteista tarkkaillaan mahdollisia hoitoon takaisinottoja (readmissioita), jotka ovat tapahtuneet vuodeosaston suoritteille, eli sitä, onko asiakas joutunut myöhemmin uudestaan vuo- deosastolle. Asiakkaasta kerätään tietoja siitä, miten usein asiakas on otettu takaisin vuodeosastohoitoon, sekä siitä, kuinka monta päivää ensimmäiseen takaisinottoon on kulunut aikaa ensimmäisen vuodeosastojakson päätymisestä.

Tämän lisäksi asiakkaiden suoritteista tarkkaillaan aivoinfarktin uusiutumista etsimällä asiakkaalle päivystys palvelualan suoritteita, joissa suoritteen päädiagnoosi tai hoitoon saapumisen syy viittaa aivoverisuonien sairauksiin (ICD-10 -diagnoosi alkua I6). Jos asiakkaalle löydetään tällaisia päivystyksen suoritteita, ja se tapahtuu aikaisintaan kah- den päivän päästä indeksisuoritteesta, merkitään asiakkaan aivoverenkierron taudin uusiutuneen, ja kuinka monen päivän päästä hoitojen alusta ensimmäinen uusiutuminen tapahtuu (oletuksena 366 päivää jos ei uusiudu).

Asiakkaan kotiutuminen Asiakkaan suoritteista kerätään tietoa asiakkaan mahdolli- sesta kotitutumisesta hoidoista. Kotiutumista kuvaavia muuttujia ovat tieto siitä, onko asiakas kotiutunut kertaakaan vuoden aikana, kuinka monen päivän jälkeen hoitojen alusta asiakas kotiutui ensimmäisen kerran, ja kuinka monta päivää asiakas on ollut kotiutuneena koko vuoden mittaisen jakson aikana. Asiakkaan tulkitaan kotiutuneen silloin, kun hän asuu kotona ilman palveluita, tai saa kotihoidon tai palveluasumisen palveluita (avohoitoa).

Muita muuttujia Muita kerättyjä muuttujia ovat asiakkaan viettämät minuutit päi- vystyksessä hoidon alettua (indeksisuoritteen minuutit) ja päivien määrä asiakkaan viimeisen suoritteen päättymisetä tarkkailujakson loppuun (oletusarvoisesti 0).

(28)

2.2.3 Asiakkaan hoitoa kuvaavien aikasarjojen muodostaminen

Hoidon kulkua kuvaavien muuttujien lisäksi jokaiselle asiakkaalle muodostetaan aika- sarja (lista), jossa on asiakkaan hoidon tila jokaiselle päivälle vuoden ajalle hoitojen alusta (listan pituus 365 alkiota). Aikasarjaan merkitään jokaiselle päivälle tieto siitä

• minkä palvelualan hoitoja asiakkaalla on minäkin päivänä ollut,

• onko asiakasta hoidettu muualla,

• onko asiakas kotiutunut, tai

• onko asiakas kuollut?

Taulukossa 2.2 on nähtävissä esimerkki aikasarjasta, joka on muodostettu yhden asiak- kaan hoidoista (katso kuva 2.1). Taulukossa on esitetty asiakkaan hoidon kulku 30 ensimmäisen päivän ajalta hoitojen alusta. Koska asiakkaan jatkohoitomuoto oli merkit- ty toisessa suoritteessa kotihoidoksi (eikä jatkohoitomuotoa ole määritetty myöhemmissä suoritteissa muuksi), oletetaan asiakkaan olevan kotihoidon palveluiden piirissä (palve- luala AEPA06) silloin, kun hän on kotiutunut.

Jokaisena päivänä jona asiakkaalla on suoritteiden perusteella hoitoa, merkitään aika- sarjaan suoritteessa määritetty palveluala. Jos suorite on käynti, merkitään suoritteen palveluala vain sille päivälle, minä käynti tapahtui. Jos suorite on hoitojakso, merkitään suoritteen palveluala kaikille hoitojakson päiville. Jos asiakkaalla on useampi suorite, jotka ovat tapahtuneet saman päivän aikana (esimerkiksi jos asiakas on useamman päivän vuodeosastolla, mutta saa myös kuntouttavia toimenpiteitä vuodeosastolla olonsa aikana), merkitään aikasarjaan vain toisen suoritteen palveluala niille päiville, joina on päällekkäisyyksiä. ”Päivystys” ja ”Kuntoutus ja terapia” -palvelualojen suoritteet ottavat prioriteetin muiden palvelualojen suoritteisiin nähden, eikä niitä ylikirjoiteta aikasarjassa muiden palvelualojen suoritteilla. Jos ”Päivystys” ja ”Kuntoutus ja terapia”

-palvelualojen suoritteet tapahtuvat samanaikaisesti, niistä ajallisesti viimeisin suorite jää aikasarjaan.

Aineistosta löytyi tapauksia, joissa asiakkaalla on diagnosoitu iskeeminen aivoinfarkti, mutta asiakkaan akuuttihoitoa ole toteutettu Joensuun keskussairaalassa, vaan asiakas on siirretty toiseen sairaanhoitopiiriin hoidettavaksi. Tutkielmassa tällainen tilanne oletetaan tapahtuneeksi silloin, kun asiakkaalla on päivystyksen indeksisuorite, mutta jonka päättymisen jälkeen päivystystä seuraava vuodeosastosuorite ei ala välittömästi indeksisuoritteen jälkeen, vaan asiakas siirtyy vuodeosastolle vasta useamman päivän kuluttua. Tällöin oletus on se, että asiakas on siirretty akuuttia hoitoa varten toiseen

(29)

Taulukko 2.2:Esimerkki yhden asiakkaan suoritteista (katso kuva 2.1) muodostustu- vasta aikasarjasta (30 ensimmäistä päivää), joka kuvaa asiakkaan hoitojen tilaa kunakin päivänä.

Hoidon.tila

1 AEPA14

2 treated.elsewhere 3 treated.elsewhere 4 treated.elsewhere 5 treated.elsewhere 6 treated.elsewhere 7 treated.elsewhere

8 AEPA03

9 AEPA01

10 AEPA06

11 AEPA06

12 AEPA06

13 AEPA06

14 AEPA06

15 AEPA08

16 AEPA06

17 AEPA06

18 AEPA06

19 AEPA06

20 AEPA06

21 AEPA06

22 AEPA06

23 AEPA06

24 AEPA06

25 AEPA06

26 AEPA06

27 AEPA06

28 AEPA06

29 AEPA06

30 AEPA06

(30)

sairaanhoitopiiriin, ja on saapunut takaisin hoidettavaksi omaan sairaanhoitopiiriinsä myöhemmin. Jos heti indeksisuoritteen jälkeen tapahtuvan suoritteen palveluala ei ole vuodeosasto, ei tällaista oletusta silloin tehdä, ja indeksisuoritteen ja sitä seuraavan suoritteen välisiä päiviä ei merkitä muualla hoidetuksi.

Jos asiakas suoritteen jatkohoitotiedon perusteella siirtyy asumaan kotiin ilman pal- veluita, merkitään hänet silloin seuraavaan suoritteen alkamiseen asti kotiutuneeksi.

Sen sijaan, jos asiakkaalle on merkitty jokin jatkohoitomuoto, kuten kotihoito tai palve- luasuminen, merkitään silloin suoritteiden välissä olevat päivät kyseisen palvelualan piiriin niin kauan, kunnes asiakkaan jatkohoitomuoto muuttuu jonkin myöhemmän suoritteen perusteella, tai jos asiakas kuolee. Huomionarvoista on se, että hoidon kulkua kuvaavia muuttujia kerättäessä asiakas tulkitaan kotiutuneeksi myös silloin, kun hän saa kotihoidon tai palveluasumisen palveluita (katso kappale 2.2.2), mutta aikasarjoissa nämä halutaan merkitä erillisinä tiloina.

Jos asiakas on kuollut vuoden päästä hoitojen alusta, merkitään aikasarjassa asiakas kuolleeksi aina siitä päivästä alkaen, jolloin asiakas on kuollut. Jos asiakkaalla on suorite, joka on tapahtunut kuolinpäivän aikana, näkyy suoritteen palveluala vielä aikasarjassa kuolinpäivän kohdalla.

(31)

3. Menetelmät

3.1 Asiakkaiden klusterointi

Tutkielmassa asiakkaita halutaan klusteroida suoritteista kerättyjen muuttujien avulla.

Kerätyt muuttujat voivat olla eri tyyppisiä, kuten jatkuvia tai kategorisia.

Yksi yleisesti käytetty klusterointimenetelmä on 𝑘-means -algoritmi, joka kuitenkin toimii vain numeeristen muuttujien avulla.𝑘-modes -algoritmi on johdettu 𝑘-means - algoritmista, ja se mahdollistaa klusteroinnin kategorisien muuttujien avulla.𝑘-prototypes -algoritmi on 𝑘-means ja 𝑘-modes -algoritmien yhdistelmä, joka mahdollistaa sekä numeerisen että kategorisen datan hyödyntämisen klusteroinnissa. (Huang, 1998, s.

288-289, 291.)

Tutkielmaa varten aineistolle suoritettiin klusterointia pelkästään numeerista dataa hyö- dyntäen, jolloin klusterointiin käytetään 𝑘-means -algoritmia, sekä numeerista että kategorista dataa hyödyntäen, jolloin klusterointiin käytetään𝑘-prototypes -algoritmia.

Pelkästään kategorista dataa hyödyntävää klusterointia ei testattu, sillä datasta poimituilla kategorisilla muuttujilla ei luultavasti saataisi riittävän monipuolista erottelua aikaiseksi eri asiakkaiden välille.

3.1.1 𝑘 -means

𝑘-means -algoritmin avulla voidaan ryhmitellä𝑛kappaletta𝑚-ulotteisia datapisteitä (tai vektoreita) 𝑋𝑖 =(𝑥𝑖1, . . . , 𝑥𝑖 𝑚),𝑖 =1, . . . , 𝑛, 𝑘kappaleeseen eri klustereita (tai rypäitä).

Jokaiseen klusteriin 𝑗, 𝑗 =1, . . . , 𝑘, sisältyy𝑚ulotteinen vektori𝐶𝑗 = (𝑐𝑗1, . . . , 𝑐𝑗 𝑚), joka on klusterin sentroidi (keskipiste, keskiarvo). Jotta klusterointi olisi mahdollista, tulee klusteroitavien datapisteiden olla reaaliarvoisia, ja datapisteen𝑋𝑖ja sentroidin𝐶𝑗 välinen etäisyys tulee voida laskea etäisyysfunktion𝑑(𝑋𝑖, 𝐶𝑗)avulla. (MacKay, 2003, s.

285.)

(32)

Yksi usein käytetty etäisyysfunktio on euklidinen etäisyys

𝑑(𝑋𝑖, 𝐶𝑗) =

⌜⎷ 𝑚

∑︂

𝑟=1

(𝑥𝑖𝑟 −𝑐𝑗 𝑟)2,

mutta myös muut etäisyysmitat, kuten Manhattan-etäisyys tai Minkowskin etäisyys ovat mahdollisia (Malinen, 2015, s. 3).𝑘-means -algoritmi pyrkii klusteroimaan datapisteet 𝑘 klusteriin siten, että datapisteiden 𝑋𝑖 etäisyys niiden klusterin sentroidista𝐶𝑗 olisi minimoitu, eli summa𝐽minimoidaan (HajKacem ym., 2015, s. 629-630):

𝐽 =

𝑘

∑︂

𝑗 𝑛

∑︂

𝑖

𝑝𝑖 𝑗𝑑(𝑋𝑖, 𝐶𝑗), missä 𝑝𝑖 𝑗 =1 jos 𝑋𝑖 ∈𝑃𝑗, muuten 𝑝𝑖 𝑗 =0.

𝑘-means -algoritmin suoritus alkaa alustamalla klustereiden sentroidit𝐶(0)

𝑗 , joita on kaikkiaan𝑘 kappaletta (haluttu klustereiden määrä) (MacKay, 2003, s. 285). Sentroidit voidaan alustaa valitsemalla satunnaiset datapisteet 𝑋𝑖alustaviksi sentroideiksi (Mac- Kay, 2003, s. 285). Kun alustavat sentroidien sijainnit ovat asetettu, koostuu𝑘-means -algoritmin suoritus kahden eri vaiheen toistuvasta suorittamisesta (MacKay, 2003, s.

285-286):

1. Sijoitetaan jokainen datapiste 𝑋𝑖 sen klusterin osiointiin𝑃(

𝑡)

𝑗 , jonka sentroidi𝐶(

𝑡) 𝑗

on sitä lähinnä:

𝑃(

𝑡)

𝑗 =

{︂

𝑋𝑖 :𝑑(𝑋𝑖, 𝐶(

𝑡)

𝑗 ) ≤ 𝑑(𝑋𝑖, 𝐶(

𝑡)

𝑗) kaikille 𝑗 =1, . . . , 𝑘 }︂ .

2. Päivitetään klustereiden sentroidien sijainnit päivitettyjen osiointien𝑃(

𝑡)

𝑗 perus- teella laskemalla keskiarvo klusteriin kuuluvien datapisteiden avulla

𝐶(

𝑡+1)

𝑗 =

∑︁

𝑋𝑖∈𝑃(𝑡)

𝑗

𝑋𝑖

𝑛𝑗 ,

missä𝑛𝑗 =

|︁

|︁

|︁𝑃(𝑡)

𝑗

|︁

|︁

|︁on klusteriin 𝑗 kuuluvien datapisteiden määrä.

Vaiheita 1 ja 2 iteroidaan niin kauan, kunnes klustereiden sentroidien𝐶𝑗 sijainnit eivät muutu (MacKay, 2003, s. 286). Tuloksena saatava klusterointi on paikallinen optimi ratkaisu, muttei se välttämättä ole globaali optimi, mistä syystä𝑘-means -algoritmista

(33)

käytetään usein monimutkaisempia variantteja, jotka tarjoavat parempia tuloksia nor- maaliin𝑘-means- algoritmiin nähden (Malinen, 2015, s. 6).

Tutkielmassa𝑘-means -klusterointi tapahtui R-ympäristön tarjoaman𝑘-means toteutuk- sen avulla (stats-paketinkmeans-funktio). Funktio käytää oletuksena Hartigan-Wong varianttia 𝑘-means -algoritmista, jonka toimintaperiaate eroaa normaalista 𝑘-means -algoritmista. (R Core Team, 2019.)

Algoritmin toiminta alkaa samalla tavalla, kuin normaalin𝑘-means -algoritmin, eli aluksi alustetaan klustereiden sentroidid𝐶𝑗, halutulla menetelmällä, esimerkiksi valitsemalla satunnaisesti𝑘kappaletta datapisteitä𝑋𝑖alustaviksi sentroideiksi (Morissette & Chartier, 2013, s. 17). Tämän jälkeen kaikki datapisteet sijoitetaan niitä lähinnä olevaan klusteriin valitun etäisyysfunktion 𝑑(𝑋𝑖, 𝐶𝑗) avulla (Morissette & Chartier, 2013, s. 17). Kun datapisteet on sijoitettu alustaviin klustereihin, iteroidaan seuraavia vaiheita (Morissette

& Chartier, 2013, s. 17):

1. Otetaan vuoron perään käsittelyyn klusteri 𝑗, 𝑗 =1, . . . , 𝑘, jos klusterin 𝑗sentroidi 𝐶𝑗 päivitettiin edellisellä kierroksella.

2. Lasketaan klusterin sisäinen neliövirheiden summa 𝑆 𝑆 𝐸𝑗 =

𝑛𝑗 𝑛𝑗 −1

∑︂

𝑋𝑖𝑃𝑗

𝑑(𝑋𝑖, 𝐶𝑗)2, missä𝑛𝑗 on klusteriin 𝑗 kuuluvien datapisteiden määrä.

3. Käydään vuorotellen läpi klusteriin 𝑗 kuuluvat datapisteet𝑋𝑖 ∈𝑃𝑗, ja lasketaan muiden klustereiden sisäinen neliövirheiden summa silloin, kun datapiste 𝑋𝑖 kuuluu klusteriin𝑘:

𝑆 𝑆 𝐸𝑘 = 𝑛𝑘∑︁

𝑋𝑙∈𝑃𝑘

𝑑(𝑋𝑙, 𝐶𝑘)2

𝑛𝑘 −1 , kun𝑘 ≠ 𝑗 ja 𝑋𝑖 ∈𝑃𝑘.

a. Jos𝑆 𝑆 𝐸𝑘 < 𝑆 𝑆 𝐸𝑗, siirretään datapiste𝑋𝑖klusterista 𝑗 klusteriin𝑘, ja päivi- tetään klustereiden sentroidit𝐶𝑗 ja𝐶𝑘, sekä klusterin 𝑗 neliövirhe𝑆 𝑆 𝐸𝑗.

Iterointia jatketaan niin kauan, kunnes yksikään datapiste ei vaihda paikkaansa toiseen klusteriin, eli datapisteiden siirto toisiin klustereihin vain kasvattaisi klustereiden si- säistä varianssia (Morissette & Chartier, 2013). R-ympäristönstats-paketinkmeans -funktion dokumentaatiossa 𝑘-means -algoritmin Hartigan-Wong -variantin käyttöä muiden varianttien sijaan on perusteltu sillä, että sen on nähty suoriutuvan paremmin muihin variantteihin nähden (R Core Team, 2019).

Viittaukset

LIITTYVÄT TIEDOSTOT

Vuoden lopussa yhdistyksen Facebook-sivulla oli 1379 seuraajaa, joten vuoden aikana oli tullut noin kaksisataa uutta seuraajaa.. Suosituimmat päivitykset saavuttivat noin 1400

• Funktion kuvaaja piirretään myös komennolla plot, esimerkiksi

Kun teknologiset valmiudet geeniterapian toteuttamiseksi paranevat, on nähtävissä hoidon leviäminen myös sellaisten sairauksien... hoitoon, joissa sairaus ei suoranaisesti

Phyu Phyun kertomuksessa on nähtävissä ker- ronnallinen muutos hänen käsityksissään toisella kielellä opiskelusta, sillä hän tulkitsee kertomuksessaan opiskeluun liittyvien

Sukupuolen, iän, perherakenteen, sosioekonomisten tietojen, diagnoosin ja hoidon syyn analysointi tehtiin ristiintaulukoinneilla ja logistisella regressioanalyysilla.

Näitä tieto- ja ovat esimerkiksi hoidon kesto eri laitoksissa tai aikaväleillä, hoidon kustannukset, potilaan koto- na viettämät päivät vuoden aikana sekä aivo-

daan siten otoksiin kuuluvien työntekijöiden ylityötuntien kokonaismäärä ja -korvaus kunkin vuoden kolmen viimeisen kuukauden aikana. Otosten koko vuorostaan heij astaa

Nähdään myös, että poistuvien toimi- paikkojen työn tuottavuuden suhteellinen taso on ollut viimeisten kymmenen vuoden aikana keskimäärin alempi kuin 1980-luvun