Hiiren immuunisolujen luokittelu koneoppimisalgoritmeilla

(1)

Vili Simola

HIIREN IMMUUNISOLUJEN LUOKITTELU KONEOPPIMISALGORITMEILLA

Lääketieteen ja terveysteknologian tiedekunta

Kandidaatin tutkielma

Huhtikuu 2020

(2)

TIIVISTELMÄ

Vili Simola: Hiiren immuunisolujen luokittelu koneoppimisalgoritmeilla Kandidaatin tutkielma

Tampereen yliopisto

Bioteknologian tutkinto-ohjelma Huhtikuu 2020

Yksittäisten solujen tuottamien lähetti-RNA:iden (scRNA) sekvensointi on melko uusi sekvensointimenetelmä. Tämän menetelmän avulla pystytään selvittämään tietystä kudoksesta saaduista soluista geenien ilmentyminen yksittäisten solujen tasolla. Tämä eroaa tavanomaisemmasta menetelmästä sekvensoida kaikkien kudoksen solujen tuottama RNA.

Menetelmän ongelmana on vielä varmistettujen solutyyppien puuttuminen suurelle osalle sekvensoidusta datasta. Varmistettujen solutyyppien puuttuminen pystytään osittain ratkaisemaan käyttämällä koneoppimisen menetelmiä solutyyppien luokittelussa.

Tässä tutkimuksessa pyrittiin luokittelemaan hiiren dendriittisolujen, CD4+, ja CD8+ T-solujen tuottamaa RNA:ta koneoppimisen mallien avulla. Luokittelu toteutettiin ottamalla ensin aineistosta oleellisimmat vaihtelut pääkomponenttianalyysin avulla. Tämän jälkeen varsinainen luokittelu toteutettiin tukivektorikoneilla, joiden tarkkuutta oli parannettu adaptiivisen tehostuksen avulla.

Lopulliseksi tarkkuudeksi kymmenkertaisen ristivalidaation perusteella saatiin parhaimmillaan 99,4% ja huonoimmillaan 95,9%. Tarkkuuden keskiarvoksi tutkimuksessa saatiin 98,4%. Eniten vääriä luokitteluja tapahtui CD4+ T-solujen ja dendriittisolujen välillä. Määrittämällä luokittelijan toiminta ristivalidaatiossa käyttämättömällä datalla saatiin tarkkuudeksi 98,69%. Käytetyillä menetelmillä saatiin siis hyviä tarkkuuksia kolmella eri solutyypillä ja melko pienellä näytekoolla.

Tutkimus osoittaa, että luokittelussa voidaan saavuttaa hyvä tarkkuus hyödyntämällä yleisesti käytettyjä koneoppimisen menelmiä. Käytetyissä menetelmissä on kuitenkin myös ongelma.

Tutkimuksessa käytetyn kouluttajan kouluttamisen kesto kasvaa suuresti solutyyppien määrän kasvaessa, sillä ilman adaptiivista tehostustakin tukivektorikoneita tarvitaan luokittelussa yksi jokaista solutyyppiä kohden. Tämän lisäksi tarkkuutta parantava adaptiivinen tehostus kasvattaa koulutettavien luokittelijoiden määrää entisestään. Käytetty lähestymistapa ei siis sovellu luokittelemaan suuria määriä eri solutyyppejä.

Avainsanat: Koneoppiminen, luokittelu, pääkomponenttianalyysi, tukivektorikone, adaptiivinen tehostus, hiiri, solu, scRNA

Tämän julkaisun alkuperäisyys on tarkastettu Turnitin OriginalityCheck –ohjelmalla.

(3)

ALKUSANAT

Tässä opinnäytetyössä tarvittiin tietoa yleisimmistä koneoppimisen menetelmistä, ja yleistietoja bioteknologian alalta.

Haluaisin kiittää ohjaajaani Juha Kesseliä, joka antoi tämän kandidaatin tutkielman aiheen ja auttoi sen aikaansaamisessa. Haluaisin myös kiittää Tampereen yliopistoa opintojeni mahdollistamisesta.

Tampereella, 29.04.2020

Vili Simola

(4)

SISÄLLYSLUETTELO

1. JOHDANTO ... 4

2. MATERIAALIT JA MENETELMÄT ... 5

2.1 Aineisto ... 5

2.2 T-jakautettu stokastinen naapurin upotus ... 6

2.3 Pääkomponenttianalyysi ... 6

2.4 Tukivektorikoneet ... 7

2.5 Adaptiivinen tehostus ... 8

2.6 K-kertainen ristivalidaatio ... 8

2.7 Ohjelmointipaketit ... 8

3.TULOKSET ... 9

4.TULOSTEN TARKASTELU ... 12

5. YHTEENVETO ... 13

LÄHTEET ... 13

(5)

1. JOHDANTO

Solutasolla tehtyjä transkriptomin sekvensointeja on tehty jo jonkin aikaa, mutta sekvensointimenetelmä on vasta viime aikoina saanut paljon huomiota sen mahdollisuuksien vuoksi (Eberwine ym. 1992). Menetelmän avulla pystytään tunnistamaan kudoksesta harvinaisia solupopulaatioita, joita ei tunnistettaisi tavallisemmalla koko kudoksen sekvensoinnilla (Hwang ym.

2018). Solutason transkriptomin sekvensointi mahdollistaa myös terveen ja sairaan kudoksen solutason vertailun, solujen erilaistumisen tutkimisen, sekä tarkemman kudoksen toiminnan tarkkailun (Paik ym. 2020) (Kwon ym. 2019).

Yksittäisten solujen transkriptomin sekvensoinnin suosiosta johtuen tässä menetelmässä on tehty suuria edistysaskelia sekä sekvensointitekniikoissa että sekvenssianalyysissä (Hwang ym. 2018).

Menetelmän edistyksen vuoksi saatavilla olevan datan määrä on myös kasvanut suuresti.

Kasvaneen datamäärän takia ongelmaksi on tullut sekvensoitujen solujen tyypin tunnistaminen (Lähnemann ym. 2020).

Koneoppiminen on yksi tapa, jolla on mahdollista tunnistaa sekvensoituja soluja niiden RNA:n perusteella (Chen ym. 2020). Koneoppiminen on datatieteiden ala, joka pyrkii löytämään yleistettyä tietoa dataa analysoimalla. Tiedon etsimisessä pyritään löytämään kuvioita annetusta datasta määrittämällä ongelma, jonka koneoppimisalgoritmi pyrkii ratkaisemaan (Ratti 2020). Datasta löydettyjen kuvioiden perusteella pystytään muun muassa jakamaan aineisto erillisiksi ryhmiksi, tunnistamaan esineitä kuvista tai luokittelemaan potilas tai näyte sille annettujen ominaisuuksien perusteella (Sealfon ym. 2020).

Tässä tutkimuksessa käytettiin hiiren kolmea eri solutyyppiä: CD8+ kasvaimiin tunkeutuvat lymfosyytit, alfa-beeta CD4+ T-solut ja luuytimestä peräisin olevat dendriittisolut. Näiden solujen RNA-sekvensoinnin tulokset saatiin scQuery -aineistosta, jossa on koottu hiiren solujen solutason RNA:n sekvensointituloksia monesta eri tutkimuksesta. Solujen luokittelussa hyödynnettiin erilaisia koneoppimisen menetelmiä. Tässä tutkimuksessa keskityttiin käyttämään yleisesti käytettyjä koneoppimisen menetelmiä neuroverkkoja lukuunottamatta.

(6)

2. MATERIAALIT JA MENETELMÄT

2.1 Aineisto

Tässä tutkimuksessa käytettiin scQuery-aineistoa (Alavi ym. 2018). Tämä aineisto sisältää tulokset 108 813 hiiren solun scRNA-sekvensoinnista. Sekvensoinnin tulokset on annettu normalisoituina muodossa lukemaa per tuhat emästä transkriptia per miljoona kartoitettua lukemaa (RPKM).

Tulokset ovat peräisin useista eri tutkimuksista, ja nämä tutkimukset ovat aineistossa nimettynä sekä GEO- että ArrayExpress-tunnisteilla. Koko aineistosta määritettiin tSNE-kuvaaja (Kuvaaja 1).

Tässä kuvaajassa x-, ja y-akselit eivät kuvasta mitään tiettyä arvoa, vaan kuvaajassa pisteiden etäisyys toisiinsa kuvaa niiden erilaisuutta kokonaisuudessaan. Aineistosta valittiin luokiteltaviksi soluiksi alfa-beta CD4+ T-solut, CD8+ kasvaimiin tunkeutuvat lymfosyytit, ja luuytimestä peräisin olevat dendriittisolut. Tutkimuksessa käytetyistä soluista määritettiin tSNE-kuvaaja niiden erilaisuuden havainnoimiseksi (Kuvaaja 2).

Kuvaaja 1. Koko aineiston tSNE-kuvaaja.

(7)

Kuvaaja 2. Luokittelussa käytettyjen solujen samanlaisuudet kuvattuna tSNE-kuvaajana.

Solutyypit on nimetty sen tutkimuksen tunnisteen mukaan, josta ne ovat peräisin. ERP016428 = CD4+ T-solut, GSE48968 = dendriittisolut, GSE86042 = CD8+ T-solut.

2.2 T-jakautettu stokastinen naapurin upotus

T-jakautettu stokastinen naapurin upotus on menetelmä, jonka avulla pystytään kuvaamaan dataa, jolle on mitattu monia ominaisuuksia. Kuvaaja pystytään muodostamaan määrittämällä näytteiden keskinäinen samankaltaisuus, ja näiden arvojen avulla näytteet sijoitetaan kaksi- tai kolmiulotteiselle kuvaajalle. Samankaltaisuuden määrittämisen lisäksi näytteille pystytään määrittämään myös ryhmät, joihin ne kuuluvat (van der Maaten 2008). Kuvaaja pystytään muodostamaan sijoittamalla näytteet ensin satunnaisesti kuvaajalle. Tämän jälkeen jokaisen pisteen kohdalla piste työntää kauemmaksi kaikkia muita pisteitä, paitsi kaikkein samankaltaisimpia pisteitä (Kobak ja Berens 2019). Tällä tavalla samankaltaisimmat pisteet sijoittuvat lopulta lähelle toisiaan, kun taas erilaisemmat pisteet päätyvät kauemmaksi. Ryhmät saadaan muodostettua, jos ryhmien sisäinen samankaltaisuus on suuri, mutta ryhmien välinen samankaltaisuus on pieni.

Tällöin ryhmät kokonaisuudessaan työntävät muita pisteitä kauemmas, ja ryhmät saadaan erotettua selkeämpinä ryppäinä kuvaajalla.

2.3 Pääkomponenttianalyysi

Pääkomponenttianalyysi on menetelmä, jonka avulla pystytään vähentämään aineistossa olevien ominaisuuksien määrää. Ominaisuuksien määrän vähennyksessä pyritään myös säilyttämään

(8)

suurin osa niiden alkuperäisestä informaatiosta. Menetelmä onnistuu vähentämään ominaisuuksia löytämällä näytteiden eri ominaisuuksien väliltä mahdollisimman suuria korrelaatioita. Näiden korrelaatioiden täytyy myös olla keskenään riippumattomia. (Jolliffe ja Cadima 2016) Virallisen määritelmän mukaan nämä korrelaatiot pystytään löytämään laskemalla aineiston sisältävästä matriisista sen ominaisvektoreita (Jolliffe ja Cadima 2016). Näistä ominaisvektoreista pidetään kaikkein tärkeimmät eli suurimman vaihtelun selittävät vektorit (Wu ja Zhao 2019).

Primäärikomponenttianalyysin ongelmia on sen lineaarinen luonne. Toisin sanoen se ei löydä datasta epälineaarisia korrelaatioita (Wu ja Zhao 2019). Tämän lisäksi analyysin tuloksena menetetään aina osa alkuperäisestä vaihtelusta, sillä saadut ominaisvektorit ovat vain approksimaatioita alkuperäisestä informaatiosta (Jolliffe ja Cadima 2016). Lopuksi menetelmän valvomattoman luonteen vuoksi tuloksiin ei voida luottaa ehdottomasti (Wu ja Zhao 2019).

Pääkomponenttianalyysiä on kuitenkin käytetty ennenkin tutkimuksissa geneettisten korrelaatioiden löytämiseksi, ja sitä käytetään monesti yksittäisten solujen RNA-sekvensointidatan analyysissä (Macciotta ym. 2010) (Paik ym. 2020).

2.4 Tukivektorikoneet

Tukivektorikone on luokittelumenetelmä koneoppimisessa. Sen avulla pystytään suorittamaan kahden ryhmän välisiä luokitteluja. Luokittelu tapahtuu sijoittamalla näytteet korkeaulottuvuuksiseen avaruuteen, ja muodostamalla luokittelutason tähän avaruuteen.

Avaruudessa olevien pisteiden luokat määritetään sen mukaan, kummalla puolella luokittelutasoa ne sijaitsevat. (Cortes ja Vapnik 1995) Luokittelutason muodostaminen ei rajoitu pelkästään lineaarisiin tasoihin. Käyttämällä erilaisia kernelifunktioita luokittelutasot voidaan muodostaa korkeamman ulottuvuuden avaruudessa, jolloin voidaan muodostaa myös epälineaarisia luokittelutasoja (Burges 1998).

Tukivektorikoneiden on todettu toimivan hyvin pienen näytekoon aineistojen kanssa (Liang ym.

2020). Menetelmän on todettu toimivan hyvin myös monta muuttujaa käsittävien aineistojen kanssa (Liang ym. 2020). Tämän lisäksi tukivektorikoneita pystytään myös käyttämään useamman luokan luokittelussa. Useamman luokan luokittelu pystytään toteuttamaan kouluttamalla jokaista luokkaa kohden tukivektorikone, joka tunnistaa kuuluuko näyte kyseiseen luokkaan vai ei. Lopulta näytteelle annetaan luokka suurimman positiivisen tuloksen antaneen tukivektorikoneen mukaan (Burges 1998). Tukivektorikoneita on hyödynnetty monissa genomiikan tutkimuksissa menetelmän monien hyvien ominaisuuksien vuoksi (Chen ym. 2020) (Huang ym. 2018) (Liang ym. 2020).

(9)

2.5 Adaptiivinen tehostus

Adaptiivinen tehostus on koneoppimisen tehostusmenetelmä, jonka avulla pystytään tehostamaan luokittelijan tarkkuutta. Menetelmä ei vaadi aiempaa tietoa käytetystä luokittelumenetelmästä, joten sitä voidaan käyttää yleisenä tehostajana. (Freund ja Schapire 1995) Adaptiivisessa tehostuksessa koulutetaan useita epätarkempia luokittelijoita. Näitä luokittelijoita kouluttaessa uudemmat luokittelijat keskittyvät luokittelemaan näytteitä, jotka olivat haastavia aiemmin koulutetuille luokittelijoille. Lopullinen luokittelija muodostetaan antamalla yksittäisten luokittelijoiden äänestää näytteelle luokka painottamalla luokittelijoiden äänet niiden tarkkuuden mukaan. (Hassan ja Bhuiyan 2017) Tällöin saadaan muodostettua useampi itsenäinen, ja eri aineiston alueisiin erikoistunut luokittelija. Useiden luokittelijoiden kouluttaminen parantaa kokonaistarkkuutta siksi, koska jokainen niistä on koulutettu erilaisen näytekokonaisuuden pohjalta. Tällöin niillä jokaisella on erilainen näkökulma luokittelussa. Tällöin aineiston kokonaiskuva saadaan paremmin muodostettua suorittamalla luokittelu monen riippumattoman luokittelijan yhteistyönä. (Polikar 2012)

2.6 K-kertainen ristivalidaatio

K-kertaista ristivalidaatiota käytetään määrittämään koneoppimismallien tehokkuutta. Siinä aineisto jaetaan useaan keskenään samankokoiseen osioon. Seuraavaksi jokaisen osion kohdalla koneoppimismallin teho mitataan seuraavalla tavalla: malli koulutetaan kaikilla muilla paitsi valitulla osiolla. Tämän jälkeen koulutetun mallin teho määritetään. Näin saadaan yhtä monta tarkkuuden mittausta, kuin on osioitakin. Mallin lopullinen tarkkuus saadaan mittausten keskiarvona. (James ym. 2013) K-kertaisen ristivalidaation vahvuutena on tehokas pienten aineistojen käyttö, ja laskentatehojen säästäminen suurten aineistojen kanssa (Shalev-Shwartz ja Ben-David 2014) (James ym. 2013).

2.7 Ohjelmointipaketit

Tutkimuksessa tehdyt tSNE-kuvaajat tehtiin R-ohjelmointikielen Seurat-pakettia hyödyntäen (Butler ym. 2018) (Stuart ym. 2019). Paketista käytettiin versiota 3.0. Seurat-paketti sisältää työkaluja yksittäisten solujen RNA:n laatutarkkailuun, tutkimiseen, ja analyysiin. Varsinainen luokittelu toteutettiin kokonaan Python-ohjelmointikielen scikit-learn -paketin avulla (Fabian ym.

2011). Tästä paketista käytettiin versiota 0.22.2. Scikit-learn -paketti sisältää kattavan kokoelman helposti hyödynnettäviä työkaluja monien eri koneoppimisalgoritmien käyttämiseen. Scikit-learn - paketti sisältää työkaluja luokitteluun, regressioon, klusteroimiseen, ominaisuuksien määrän vähentämiseen, mallin valintaan, ja datan esikäsittelyyn.

(10)

3. TULOKSET

Luokittelijan alkuosaksi valittiin pääkomponenttianalyysi datan tiivistämiseksi ja häiriöisyyden poistamiseksi. Pääkomponenttianalyysissä käytettiin funktiota sklearn.decomposition.PCA.

Analyysiä varten aineistosta määritettiin varianssin säilyminen pääkomponenttien määrän suhteen (Kuvaaja 3). Analyysin tulosten perusteella komponenttien määräksi valittiin 500, sillä tätä pääkomponenttien määrää käyttämällä datan alkuperäisestä varianssista saatiin säilytettyä 98%

eli suurin osa alkuperäisestä informaatiosta oli vielä jäljellä. Muut funktion parametrit pidettiin oletusarvoina.

Kuvaaja 3. Pääkomponenttien määrän vaikutus varianssin säilyvyyteen. Kuvaajan x-akselilla on pääkomponenttien määrä, ja y-akselilla varianssin säilyminen prosentteina.

Seuraavaksi valittiin varsinainen luokittelija tutkimuksessa käytettäväksi. Luokittelijaksi valittiin tukivektorikone, sillä menetelmän on todettu toimivan hyvin monta ominaisuutta sisältävien ja pienten aineistojen kanssa. Tämän lisäksi tukivektorikoneita on käytetty myös toisissa vastaavanlaisissa tutkimuksissa (Chen ym. 2020). Tukivektorikoneena käytettiin sklearn-moduulin svm.SVC-funktiota. Parametreinä parhaiten todettiin toimivan vakinaistamisarvo 0,01, ja lineaarinen kerneli. Muut parametrit pidettiin oletusarvoina.

Luokittelijan tarkkuuden parantamiseksi käytettiin myös adaptiivista tehostusta, jonka on todettu toimivan hyvin yleisenä luokittelun tehostajana (Freund ja Schapire 1995). Adaptiivisessa tehostuksessa käytettiin sklearn-moduulin ensemble.AdaBoostClassifier-funktiota. Parametreinä

(11)

toimivat parhaiten oppimisnopeus 0,01, algoritmi SAMME ja opetettavien luokittelijoiden ylärajana 40. Lopullinen tarkkuus määritettiin 10 kertaisella ristivalidaatiolla muodostaen työputken käytetyistä luokittelun osista. Työputken muodostamisessa käytettiin sklearn-moduulin pipeline.Pipeline-funktiota. 10 kertainen ristivalidaatio suoritettiin sklearn-moduulin funktiolla model_selection.StratifiedKFold. Funktion parametreinä käytettiin jakojen määränä 10 ja ei satunnaistilaa tai osioiden sekoitusta.

Tarkkuuden määrittämismenetelmänä käytettiin 10 kertaista ristivalidaatiota aineiston pienen koon vuoksi. Tätä menetelmää käyttämällä saadaan suurin osa aineistosta käytettyä varsinaiseen luokittelijan koulutukseen, mutta tarkkuus saadaan myös määriteltyä hyvin. Tarkkuus saadaan määriteltyä hyvin, koska luokittelijaa käytetään aineiston jokaiseen näytteeseen. Tämä tulee kuitenkin pienissä osissa. Tutkimukseen valittujen menetelmien avulla saatiin määritettyä jokaiselle kymmenelle osiolle luokittelumenetelmien tarkkuus, ja luokittelijan näytteille antamat solutyypit (Taulukko 1). Taulukossa näkyvät osioiden numerot, ja niiden alla ensin luokittelijan oikein luokittelemien solujen prosenttiosuus. Lopuksi alla on osion sekaannusmatriisi, jossa aina matriisin ylin rivi tarkoittaa solutyyppien tiedettyjen solujen määrät. Solutyypit ovat yläriviltä alas mentäessä CD4+ T-solut, dendriittisolut ja CD8+ T-solut. Matriisin sarakkeet vasemmalta oikealle mentäessä ovat CD4+ T-soluiksi, dendriittisoluiksi ja CD8+ T-soluiksi luokitellut solut.

Taulukko 1 Ristivalidaation eri osien luokittelun tarkkuudet ja sekaannusmatriisit.

Osio Osio 1 Osio 2 Osio 3 Osio 4 Osio 5

Luokittelijan tarkkuus 99,34 % 99,34 % 98,54 % 98,67 % 99,73 %

Osion sekaannusmatriisi

[202, 0, 0]

[ 2, 417, 0]

[ 3, 0, 131]

[200, 2, 0]

[ 1, 418, 0]

[ 2, 0, 132]

[196, 4, 2]

[ 3, 416, 0]

[ 2, 0, 131]

[198, 3, 1]

[ 1, 418, 0]

[ 4, 1, 128]

[199, 1, 1]

[ 0, 419, 0]

[ 0, 0, 133]

[200, 1, 0]

[ 4, 415, 0]

[ 6, 1, 126]

[198, 2, 1]

[ 3, 416, 0]

[ 3, 0, 130]

[198, 2, 1]

[ 3, 415, 0]

[ 4, 0, 129]

[192, 5, 4]

[ 0, 417, 1]

[ 4, 1, 128]

[200, 0, 1]

[ 1, 417, 0]

[ 2, 0, 131]

Osion 1 tarkkuudeksi saatiin 99,34%, osion 2 99,34%, osion 3 98,54%, osion 4 98,67%, osion 5 99,73%, osion 6 98,41%, osion 7 98,80%, osion 8 98,67%, osion 9 98,01% ja osion 10 99,47%.

Parhaimmaksi 10 kertaisen ristivalidaation tarkkuudeksi saatiin siis 99,73%. Huonoimmaksi osiotarkkuudeksi saatiin sen sijaan 98,01%. Kaikkien ristivalidaation osioiden keskiarvoksi saatiin 98,90%. Hyvästä tarkkuudesta huolimatta vääriä luokitteluja tapahtui jonkin verran.

(12)

Sekaannusmatriisien perusteella suurin osa vääristä luokitteluista tapahtui CD4+ T-solujen, ja CD8+ T-solujen välillä. Näiden kahden solutyypin välisiä sekaannuksia ristivalidaatiossa tapahtui yhteensä 41 kertaa. Näistä 30 kertaa oli CD8+ T-solun luokittelu CD4+ T-soluksi, ja 11 kertaa päinvastoin. Toiseksi suurin sekaannuspari oli CD4+ T-solut, ja dendriittisolut. Näiden kahden solutypin välillä vääriä luokitteluja tapahtui yhteensä 38 kertaa. Näistä 20 oli CD4+ T-solun luokittelu dendriittisoluksi, ja 18 päinvastoin. Vähiten sekaannuksia tapahtui dendriittisolujen, ja CD8+ T-solujen välillä. Näitä sekaannuksia tapahtui vain yhteensä 4 kertaa, joista 3 oli CD8+ T- solun luokittelu dendriittisoluksi, ja 1 dendriittisolun luokittelu CD8+ T-soluksi.

Käytettyjen menetelmien tarkkuus määritettiin myös käyttämällä työputken funktioiden scikit-learn -paketin version 0.22.2 oletusarvoja ja pääkomponenttien määrää 300. Tässä määrityksessä luokittelija suoriutui luokittelusta huonommin (Taulukko 2). Osion 1 tarkkuudeksi tuli 94,57%, osiolle 2 95,36%, osiolle 3 98,14%, osiolle 4 95,22%, osiolle 5 96,55%, osiolle 6 95,35%, osiolle 7 96,68%, osiolle 8 96,02%, osiolle 9 95,48% ja osiolle 10 96,28%. Näistä huonoin tarkkuus oli siis 94,57% ja paras oli 98,14%. Keskiarvona tarkkuuksille saatiin 95,97%. Väärin luokiteltuja soluja luokittelussa tuli yhteensä 304. Vääristä luokitteluista selvästi eniten oli dendriittisolujen luokitteluja CD4+ T- soluiksi. Näitä väärin luokitteluja tapahtui 232. Toiseksi suurin väärin luokiteltu ryhmä oli CD4+ T- soluiksi luokitellut CD8+ T-solut, joita oli 37, ja kolmanneksi eniten näitä luokitteluja oli CD8+ T- solujen luokitteluja CD4+ T-soluiksi. Näin tapahtui 20 kertaa. Vähiten väärin luokitteluja tapahtui tässäkin ristivalidaatiossa vähiten dendriittisolujen ja CD8+ T-solujen välillä. Tällä kertaa niitä oli yhteensä 6. Näistä 4 oli CD8+ T-solun luokittelua dendriittisoluksi ja vain 2 oli dendriittisolun luokittelu CD8+ T-soluksi.

Taulukko 2 Oletusparametreillä tehdyn ristivalidaation tarkkuudet ja sekaannusmatriisit.

[202, 2, 1]

[ 34, 384, 0]

[ 4, 0, 128]

[203, 0, 1]

[ 26, 392, 0]

[ 8, 0, 124]

[201, 1, 2]

[ 9, 408, 0]

[ 2, 0, 130]

[200, 0, 4]

[ 24, 393, 0]

[ 6, 2, 124]

[200, 2, 2]

[ 18, 399, 0]

[ 4, 0, 128]

[203, 0, 1]

[ 29, 386, 2]

[ 3, 0, 129]

[199, 2, 3]

[ 17, 400, 0]

[ 3, 0, 129]

[202, 0, 2]

25, 392, 0]

[ 2, 1, 129]

[199, 2, 3]

[ 26, 391, 0]

[ 3, 0, 129]

[203, 0, 1]

[ 24, 393, 0]

[ 2, 1, 129]

(13)

Lopuksi menetelmän tarkkuus varmistettiin luokittelemalla soluja, joita ei käytetty ristivalidaatiossa.

Tämä lopullinen tarkkuuden määrittäminen tehtiin säädetyillä parametreillä. Luokittelijan kouluttaminen tehtiin kaikilla ristivalidaatiossa käytetyillä soluilla ja luokittelemalla tehtiin scQuery- aineistosta peräisin olevia samaa solutyyppiä olevia soluja (Taulukko 3). Luokittelun tarkkuudeksi tuli 98,69%. Väärin luokitelluista soluista 4 oli dendriittisoluiksi luokiteltuja CD4+ T-soluja, 3 oli CD4+ T-soluiksi luokiteltuja dendriittisoluja ja 4 oli CD4+ T-soluiksi luokiteltuja CD8+ T-soluja.

Taulukko 3 Riippumattomien solujen luokittelun tarkkuus ja sekaannusmatriisi Luokittelijan tarkkuus 98,69 %

Sekaannusmatriisi

[216, 4, 0]

[ 3, 464, 0]

[ 4, 0, 147]

4. TULOSTEN TARKASTELU

Tutkimuksessa kuvailtua luokittelijaa käyttämällä saavutettiin hyvä luokittelutarkkuus käytettyjen solujen kanssa jo käyttämällä oletusparametrejä, ja 300 pääkomponenttia. Tarkkuutta pystyttiin kuitenkin hieman parantamaan säätämällä parametrejä. Hyvästä tarkkuudesta huolimatta vääriä luokitteluja tapahtui jonkin verran. Vähiten vääriä luokitteluja tapahtui dendriittisolujen ja CD8+ T- solujen välillä. Tämä saattaa johtua solutyyppien erilaisemmasta tehtävästä ja alkuperästä.

Käytetyillä metodeilla pystyttiin saavuttamaan hyvä tarkkuus kolmen eri solutyypin luokittelussa.

Menetelmät eivät kuitenkaan sovellu suuren solutyyppimäärän luokitteluun. Tämä johtuu siitä, että ilman adaptiivista tehostustakin tukivektorikoneita täytyy kouluttaa yksi jokaista solutyyppiä kohden. Tarkkuutta parantava adaptiivisen tehostuksen käyttö kasvattaa tätä määrää entisestään, jolloin tukivektorikoneita täytyy kouluttaa monikertaisesti solutyyppien määrään nähden. Kasvavan luokittelijoiden tarpeen vuoksi sekä koulutukseen että luokitteluun kuluva aika kasvaa suuresti.

Monikertaisesti kasvavasta kestosta johtuen käytetty menetelmä ei sovellu luokittelemaan suurta määrää eri solutyyppejä.

(14)

5. YHTEENVETO

Yksittäisten solujen transkriptomin sekvensointi on menetelmänä edistynyt suuresti viime aikoina.

Yksi nykyisistä menetelmän ongelmista on kuitenkin vielä sekvensoitujen solujen tunnistaminen.

Yksi mahdollisuus näiden solujen tunnistamiseksi on koneoppimisen menetelmien käyttäminen.

Tämä tutkimus osoittaa, että soluja voidaan tunnistaa suurella tarkkuudella hyödyntämällä yleisesti käytettyjä koneoppimisen menetelmiä. Tutkimuksessa käytetyillä menetelmillä voidaan luokittelussa saavuttaa hyvä tarkkuus jo pienellä näytekoolla. Menetelmän heikkoutena on kuitenkin nopeasti kasvava koulutuksen määrä solutyyppien määrän kasvaessa.

LÄHTEET

Alavi A., Ruffalo M., Parvangada A., ym. (2018) A web server for comparative analysis of single- cell RNA-seq data. Nature Communications 9, 5416

Burges C.J.C. (1998) A Tutorial on Support Vector Machines for Pattern Recognition. Data Mining and Knowledge Discovery 2(2), 121-167.

Butler A., Hoffman P., Smibert P., ym. (2018) Integrating single-cell transcriptomic data across different conditions, technologies, and species. Nature Biotechnology 36(5), 411-420.

Chen L., Pan X., Guo W., ym. (2020) Investigating the gene expression profiles of cells in seven embryonic stages with machine learning algorithms. Genomics 112(3), 2524-2534.

Cortes C. ja Vapnik V. (1995) Support-Vector Networks. Machine Learning 20(3), 273-297.

Eberwine J., Yeh H., Miyashiro K., ym. (1992) Analysis of gene expression in single live neurons.

Proc Natl Acad Sci USA 89(7), 3010.

Fabian P., Gaël V., Alexandre G., ym. (2011) Scikit-learn: Machine Learning in Python.

Freund Y. ja Schapire R.E. (1995) A decision-theoretic generalization of on-line learning and an application to boosting. , 23-37.

Hassan A.R. ja Bhuiyan M.I.H. (2017) An automated method for sleep staging from EEG signals using normal inverse Gaussian parameters and adaptive boosting. Neurocomputing 219, 76- 87.

Huang S., Cai N., Pacheco P.P., ym. (2018) Applications of Support Vector Machine (SVM) Learning in Cancer Genomics. Cancer Genomics ja Proteomics 15(1), 41-51.

(15)

Hwang B., Lee J.H. ja Bang D. (2018) Single-cell RNA sequencing technologies and bioinformatics pipelines. Experimental ja Molecular Medicine 50(8), 96.

James G, Witten D, Hastie T, ym. (2013) An introduction to statistical learning.

Jolliffe I.T. ja Cadima J. (2016) Principal component analysis: a review and recent developments.

Philosophical Transactions.Series A, Mathematical, Physical, and Engineering Sciences 374(2065), 20150202.

Kobak D. ja Berens P. (2019) The art of using t-SNE for single-cell transcriptomics. Nature Communications 10(1), 5416.

Kwon O., Zhang Y., Li Y., ym. (2019) Functional Heterogeneity of Mouse Prostate Stromal Cells Revealed by Single-Cell RNA-Seq. iScience 13, 328-338.

Lähnemann D., Köster J., Szczurek E., ym. (2020) Eleven grand challenges in single-cell data science. Genome Biology 21(1), 31.

Liang P., Yang W., Chen X., ym. (2020) Machine Learning of Single-Cell Transcriptome Highly Identifies mRNA Signature by Comparing F-Score Selection with DGE Analysis. Molecular Therapy - Nucleic Acids 20, 155-163.

Macciotta N.P.P., Gaspa G., Steri R., ym. (2010) Using eigenvalues as variance priors in the prediction of genomic breeding values by principal component analysis. Journal of Dairy Science 93(6), 2765-2774.

Paik D.T., Cho S., Tian L., ym. (2020) Single-cell RNA sequencing in cardiovascular development, disease and medicine. Nature Reviews Cardiology .

Polikar R. (2012) Ensemble Learning. Teoksessa: Zhang C. ja Ma Y. (toim.) Ensemble Machine Learning: Methods and Applications. Springer US. Boston, MA. 1-34.

Ratti E. (2020) What kind of novelties can machine learning possibly generate? The case of genomics. Studies in History and Philosophy of Science Part A .

Sealfon R.S.G., Mariani L.H., Kretzler M., ym. (2020) Machine learning, the kidney, and genotype-phenotype analysis. Kidney International .

Shalev-Shwartz S. ja Ben-David S. (2014) Understanding Machine Learning: From Theory to Algorithms.

Stuart T., Butler A., Hoffman P., ym. (2019) Comprehensive Integration of Single-Cell Data. Cell 177(7), 1888-1902.e21.

van der Maaten L. (2008) Visualizing Data using t-SNE.

Wu J. ja Zhao Y. (2019) Machine learning technology in the application of genome analysis: A systematic review. Gene 705, 149-156.