Solmu 3/2012 1
Perinnöllisyyttä ja tilastotiedettä
Mikko J. Sillanpää
Matemaattisten tieteiden laitos, Biologian laitos ja Biocenter Oulu Oulun yliopisto
mikko.sillanpaa@oulu.fi
Modernin molekyylibiologian laboratoriotekniikat tuottavat suuria määriä geneettisiä mittausaineisto- ja. Tilastomatematiikan lineaarisia regressiomalleja voidaan käyttää kytkemään tutkittavan perinnölli- sen ominaisuuden (kuten esimerkiksi ihmisen pituu- teen, verenpaineeseen tai johonkin sairauteen liittyvät mittaukset) ihmisen DNA:sta tehtyihin mittauksiin.
Tällöin voidaan saada tietoa, missä kohdassa geno- mia (l. kromosomistoa) olevat mittaukset sopivat par- haiten yhteen tutkittavan perinnöllisen ominaisuuden mittauksien kanssa. Tällaista toimenpidettä eli näky- vän tason havaintojen ”sovittamista” geneettisen ta- son mittauksiin (l. genotyyppeihin) kutsutaan yleisesti geenien kartoitustehtäväksi (ks. Esimerkki). Vaihtoeh- toisesti samanlaista tilastomatematiikan mallia voi- daan käyttää vaihtelevalla menestyksellä ennustamaan tutkittavaa perinnöllisen ominaisuuden arvoa tai sai- rastumisalttiutta/riskiä henkilöillä DNA:sta tehtyjen mittausten perusteella. Vastaavien tilastollisten mal- lien tutkimus ja käyttö modernissa kasvi- ja eläinjalos- tuksessa ennustamaan kyseisen lajikkeen tai eläimen perinnölliseen ominaisuuteen liittyvää jalostuksellista arvoa on yksi tämän hetken ajankohtaisimpia maata- louteen liittyviä tutkimuskysymyksiä (ks. Juga et al., 2012).
Koska useat perinnölliset ominaisuudet näyttäisivät olevan tämänhetkisen tutkimuksen valossa sellaisia, et- tä niihin samanaikaisesti vaikuttaa suuri joukko gee-
nejä ja ympäristöllisiä tekijöitä, on niiden paikantami- nen ja käyttö ennustetarkoituksiin tehokkaampaa mal- leilla, jotka tarkastelevat useampaa mittauskohtaa sa- manaikaisesti. Toisaalta koska yksilöiden määrä, joil- ta DNA-mittaukset otetaan, on tyypillisesti paljon pie- nempi kuin mittauspisteiden määrä, ei jokaisen mit- tauspisteen vaikutusta voida samanaikaisesti arvioida (koska mahdollisten ratkaisujen määrä on suuri) ilman, että käytetään niin sanottua tilastollista muuttujanva- lintaa taia priori-informaatiota (esimerkiksi pakotta- malla suuri joukko mittauspisteiden vaikutuksista nol- laan).
Tällainen suurien mittausaineistojen tyypillinen on- gelma tunnetaan nimellä ”small n, large p”, ja sen arviointiin käytettävät muuttujanvalinnan tilastolliset menetelmät ovat tällä hetkellä monessa perinnöllisyy- teen liittyvässä tutkimuskysymyksessä keskeisessä ase- massa. Tutkimusaineistoissa voi tyypillisesti olla sato- ja tuhansia tai jopa miljoonia mittauspisteitä pitkin DNA:ta, jotka on mitattu tyypillisesti sadoilta tai tu- hansilta tutkimusyksilöiltä.
Tällaisten ongelmien tilastollisten ratkaisumenetelmien suunnittelu ja jatkokehitys on geneettisten aineisto- jen käsittelyyn erikoistuneiden tilastotieteen tutkijoi- den arkipäivää. Tällaisia henkilöitä koulutettaessa on tilastotieteen, matematiikan ja sovelletun matematii- kan opintojen luoma luja pohja sellainen kivijalka, jo- ta on mahdoton muilla opinnoilla korvata. Toisaalta
2 Solmu 3/2012
myös perinnöllisyystiedettä pitää jaksaa opiskella niin paljon, että sen käsitteillä voi vaivatta operoida. Siksi aito monitieteisyys ei mainosarvostaan huolimatta ole laji, jossa saadaan nopeita voittoja ja huikeita valmis- tumisaikoja.
Henkilöitä, jotka käyttävät, ymmärtävät tai kehittä- vät yllä kuvatun kaltaisia tilastomatematiikan mene- telmiä, on työmarkkinoilla jatkuvasti liian vähän ky- syntään nähden. Tässä joukossa erityisesti ”hyvin bio- logiaa puhuvia” matematiikasta tai tilastotieteestä val- mistuneita maistereita/tohtoreita on niukasti. Siksi ha- luankin suositella matematiikan ja tilastotieteen mais- teriopintoja pohjaopinnoiksi biologiasta kiinnostuneille opiskelijoille.
Esimerkkityypillisestä lineaarisesta regressiomallista on
yi=b0+
p
X
j=1
xijbj+ei (i= 1, . . . , n).
Tässä yi on näkyvän tason havainto tutkittavasta pe- rinnöllisestä ominaisuudesta yksilölläi,b0on vakioter- mi, joka halutaan selvittää, xij on geneettisen tason
mittausarvo (esimerkiksi −1 genotyypille AA, 0 geno- tyypille AB ja 1 genotyypille BB) yksilölle i DNA:n kohdassaj. Kulmakerroinbj kuvaa mittauspisteen vai- kutusta tutkittavaan ominaisuuteen kohdassa j, joka halutaan selvittää kaikissa DNA:n kohdissa. Jäännös- termitei oletetaan samoin jakautuneiksi ja keskenään riippumattomiksi siten, että ne kukin noudattavat sa- manlaista normaalijakaumaa,ei ∼N(0, σ2), varianssil- laσ2. Tämä jäännöstermeille tehty oletus antaa yleises- ti kriteerin mallin sopivuuden tarkasteluun aineistossa ((yi, xij), i = 1, . . . , n;j = 1, . . . , p), jonka perusteel- la myös tuntemattomille muuttujille voidaan tuottaa arviot. Jotta arviot voidaan tuottaa myös tilanteessa, kun p > n, lisäksi tarvitaan muuttujan valintaa tai a priori-informaatiota.
Muuta aiheesta suomenkielellä:
Juga, J., Sillanpää M. J., Mäntysaari E. (2012) ”Lyp- sykarjan genominen valinta” kirjassa: ”Maailma muut- tuu: muuttuuko maatalous.” Sivut 165–172. Mervi Sep- pänen (ed.).
Verkko-Solmun oppimateriaalit
Osoitteestahttp://solmu.math.helsinki.fi/oppimateriaalit.htmllöytyvät oppimateriaalit:
Reaalianalyysiä englanniksi (William Trench) Geometrian perusteita (Matti Lehtinen) Geometria (K. Väisälä)
Lukualueiden laajentamisesta (Tuomas Korppi)
Jaksolliset desimaaliesitykset algebrallisesta näkökulmasta (Jaska Poranen ja Pentti Haukkanen) Algebra (Tauno Metsänkylä ja Marjatta Näätänen)
Algebra (K. Väisälä)
Matemaattista fysiikkaa lukiolaiselle (Markku Halmetoja ja Jorma Merikoski) Lukuteorian helmiä lukiolaisille (Jukka Pihko)
Matematiikan peruskäsitteiden historia (Erkki Luoma-aho) Matematiikan historia (Matti Lehtinen)