• Ei tuloksia

Perinnöllisyyttä ja tilastotiedettä

N/A
N/A
Info
Lataa
Protected

Academic year: 2022

Jaa "Perinnöllisyyttä ja tilastotiedettä"

Copied!
2
0
0

Kokoteksti

(1)

Solmu 3/2012 1

Perinnöllisyyttä ja tilastotiedettä

Mikko J. Sillanpää

Matemaattisten tieteiden laitos, Biologian laitos ja Biocenter Oulu Oulun yliopisto

mikko.sillanpaa@oulu.fi

Modernin molekyylibiologian laboratoriotekniikat tuottavat suuria määriä geneettisiä mittausaineisto- ja. Tilastomatematiikan lineaarisia regressiomalleja voidaan käyttää kytkemään tutkittavan perinnölli- sen ominaisuuden (kuten esimerkiksi ihmisen pituu- teen, verenpaineeseen tai johonkin sairauteen liittyvät mittaukset) ihmisen DNA:sta tehtyihin mittauksiin.

Tällöin voidaan saada tietoa, missä kohdassa geno- mia (l. kromosomistoa) olevat mittaukset sopivat par- haiten yhteen tutkittavan perinnöllisen ominaisuuden mittauksien kanssa. Tällaista toimenpidettä eli näky- vän tason havaintojen ”sovittamista” geneettisen ta- son mittauksiin (l. genotyyppeihin) kutsutaan yleisesti geenien kartoitustehtäväksi (ks. Esimerkki). Vaihtoeh- toisesti samanlaista tilastomatematiikan mallia voi- daan käyttää vaihtelevalla menestyksellä ennustamaan tutkittavaa perinnöllisen ominaisuuden arvoa tai sai- rastumisalttiutta/riskiä henkilöillä DNA:sta tehtyjen mittausten perusteella. Vastaavien tilastollisten mal- lien tutkimus ja käyttö modernissa kasvi- ja eläinjalos- tuksessa ennustamaan kyseisen lajikkeen tai eläimen perinnölliseen ominaisuuteen liittyvää jalostuksellista arvoa on yksi tämän hetken ajankohtaisimpia maata- louteen liittyviä tutkimuskysymyksiä (ks. Juga et al., 2012).

Koska useat perinnölliset ominaisuudet näyttäisivät olevan tämänhetkisen tutkimuksen valossa sellaisia, et- tä niihin samanaikaisesti vaikuttaa suuri joukko gee-

nejä ja ympäristöllisiä tekijöitä, on niiden paikantami- nen ja käyttö ennustetarkoituksiin tehokkaampaa mal- leilla, jotka tarkastelevat useampaa mittauskohtaa sa- manaikaisesti. Toisaalta koska yksilöiden määrä, joil- ta DNA-mittaukset otetaan, on tyypillisesti paljon pie- nempi kuin mittauspisteiden määrä, ei jokaisen mit- tauspisteen vaikutusta voida samanaikaisesti arvioida (koska mahdollisten ratkaisujen määrä on suuri) ilman, että käytetään niin sanottua tilastollista muuttujanva- lintaa taia priori-informaatiota (esimerkiksi pakotta- malla suuri joukko mittauspisteiden vaikutuksista nol- laan).

Tällainen suurien mittausaineistojen tyypillinen on- gelma tunnetaan nimellä ”small n, large p”, ja sen arviointiin käytettävät muuttujanvalinnan tilastolliset menetelmät ovat tällä hetkellä monessa perinnöllisyy- teen liittyvässä tutkimuskysymyksessä keskeisessä ase- massa. Tutkimusaineistoissa voi tyypillisesti olla sato- ja tuhansia tai jopa miljoonia mittauspisteitä pitkin DNA:ta, jotka on mitattu tyypillisesti sadoilta tai tu- hansilta tutkimusyksilöiltä.

Tällaisten ongelmien tilastollisten ratkaisumenetelmien suunnittelu ja jatkokehitys on geneettisten aineisto- jen käsittelyyn erikoistuneiden tilastotieteen tutkijoi- den arkipäivää. Tällaisia henkilöitä koulutettaessa on tilastotieteen, matematiikan ja sovelletun matematii- kan opintojen luoma luja pohja sellainen kivijalka, jo- ta on mahdoton muilla opinnoilla korvata. Toisaalta

(2)

2 Solmu 3/2012

myös perinnöllisyystiedettä pitää jaksaa opiskella niin paljon, että sen käsitteillä voi vaivatta operoida. Siksi aito monitieteisyys ei mainosarvostaan huolimatta ole laji, jossa saadaan nopeita voittoja ja huikeita valmis- tumisaikoja.

Henkilöitä, jotka käyttävät, ymmärtävät tai kehittä- vät yllä kuvatun kaltaisia tilastomatematiikan mene- telmiä, on työmarkkinoilla jatkuvasti liian vähän ky- syntään nähden. Tässä joukossa erityisesti ”hyvin bio- logiaa puhuvia” matematiikasta tai tilastotieteestä val- mistuneita maistereita/tohtoreita on niukasti. Siksi ha- luankin suositella matematiikan ja tilastotieteen mais- teriopintoja pohjaopinnoiksi biologiasta kiinnostuneille opiskelijoille.

Esimerkkityypillisestä lineaarisesta regressiomallista on

yi=b0+

p

X

j=1

xijbj+ei (i= 1, . . . , n).

Tässä yi on näkyvän tason havainto tutkittavasta pe- rinnöllisestä ominaisuudesta yksilölläi,b0on vakioter- mi, joka halutaan selvittää, xij on geneettisen tason

mittausarvo (esimerkiksi −1 genotyypille AA, 0 geno- tyypille AB ja 1 genotyypille BB) yksilölle i DNA:n kohdassaj. Kulmakerroinbj kuvaa mittauspisteen vai- kutusta tutkittavaan ominaisuuteen kohdassa j, joka halutaan selvittää kaikissa DNA:n kohdissa. Jäännös- termitei oletetaan samoin jakautuneiksi ja keskenään riippumattomiksi siten, että ne kukin noudattavat sa- manlaista normaalijakaumaa,ei ∼N(0, σ2), varianssil- laσ2. Tämä jäännöstermeille tehty oletus antaa yleises- ti kriteerin mallin sopivuuden tarkasteluun aineistossa ((yi, xij), i = 1, . . . , n;j = 1, . . . , p), jonka perusteel- la myös tuntemattomille muuttujille voidaan tuottaa arviot. Jotta arviot voidaan tuottaa myös tilanteessa, kun p > n, lisäksi tarvitaan muuttujan valintaa tai a priori-informaatiota.

Muuta aiheesta suomenkielellä:

Juga, J., Sillanpää M. J., Mäntysaari E. (2012) ”Lyp- sykarjan genominen valinta” kirjassa: ”Maailma muut- tuu: muuttuuko maatalous.” Sivut 165–172. Mervi Sep- pänen (ed.).

Verkko-Solmun oppimateriaalit

Osoitteestahttp://solmu.math.helsinki.fi/oppimateriaalit.htmllöytyvät oppimateriaalit:

Reaalianalyysiä englanniksi (William Trench) Geometrian perusteita (Matti Lehtinen) Geometria (K. Väisälä)

Lukualueiden laajentamisesta (Tuomas Korppi)

Jaksolliset desimaaliesitykset algebrallisesta näkökulmasta (Jaska Poranen ja Pentti Haukkanen) Algebra (Tauno Metsänkylä ja Marjatta Näätänen)

Algebra (K. Väisälä)

Matemaattista fysiikkaa lukiolaiselle (Markku Halmetoja ja Jorma Merikoski) Lukuteorian helmiä lukiolaisille (Jukka Pihko)

Matematiikan peruskäsitteiden historia (Erkki Luoma-aho) Matematiikan historia (Matti Lehtinen)

Viittaukset

LIITTYVÄT TIEDOSTOT

Siitä kum- puaa ihmisen kuvittelukyky ja ne kuvat ja ideat, joiden avulla aistihavain- tojen runsaus asettuu johonkin järjestykseen ja jonka avulla ne voidaan

kvalitatiivinen muuttuja, jonka luokat voidaan asettaa mielekkääseen järjestykseen mitattavan.

Aluksista kerättyä dataa voidaan käyttää myös aluksen kokonaisvaltaiseen ana- lysointiin, kuten elinkaarilaskelmointeihin tai esimerkiksi huoltovälien laskemiseen.. Tässä

Henkilötietoja ovat sellaiset tiedot, joiden perusteella henkilö voidaan tunnistaa suoraan tai välillisesti esimerkiksi yhdistämällä yksittäinen tieto johonkin toiseen tietoon,

- Henkilökohtainen näkemykseni on, että teknologiaa voidaan käyttää sekä kohottamaan että alentamaan kvalifikaatiotasoa riippuen sii­.. tä, kuinka yritys on organisoitu

Parvio kysyy: ››Perustuiko hänen Raamatun käyttönsä johonkin vallitsevaan käännökseen vai oliko hän itse kääntänyt Raamatun tekstejä etukä- teen?››, eikä hän

Joissain koneissa, jotka eivät vaadi suurta tarkkuutta, kuten esimerkiksi plasmaleikkurissa, voidaan käyttää ketjuvetoa samaan ta- paan, kuin hihnavetoa.. 4.7

Kulttuuriympäristö käsitteenä on monimerkityksinen. Sillä voidaan viitata kaikkiin ihmisen tuot- tamiin ympäristöihin, ihmisen ja ympäristön suhteeseen, kuten edellä