Stabilointi MarjaHassinenHelsinki28.10.2007Hajautetutalgoritmit-seminaariHELSINGINYLIOPISTOTietojenkäsittelytieteenlaitos hyväksymispäiväarvosanaarvostelija

(1)

arvostelija

Stabilointi

Marja Hassinen

Helsinki 28.10.2007

Hajautetut algoritmit -seminaari HELSINGIN YLIOPISTO Tietojenk¨asittelytieteen laitos

(2)

Sis¨ alt¨ o

1 Johdanto 1

2 Resynkroninen stabilointi 2

3 Yleinen stabilointi: järjestelmän tarkkailu ja alustus 4 3.1 Virheiden havaitseminen . . . 4 3.2 Järjestelmän alustus . . . 8 3.3 Järjestelmän toipumiskyky . . . 12

4 L¨ahteet 13

(3)

1 Johdanto

Tämä esitelmä käsittelee stabilointia eli algoritmien muuntamista toipumiskykyisiksi (self-stabilizing). Jos johonkin ongelmaan tunnetaan algoritmi, joka ei ole toipumiskykyinen, voidaan stabiloinnin avulla muodostaa vastaava toipumiskykyinen algoritmi.

Stabilointi voidaan suorittaa sekä synkronisissa että asynkronisissa järjestelmissä.

Synkronisissa järjestelmissä lähetetään globaali kellopulssi, jonka vastaanottaessaan jokainen prosessori suorittaa yhden askelen algoritmistaan. Asynkronisissa järjestel- missä prosessorit suorittavat algoritmejaan rinnakkain ja mahdollisesti eri nopeuksil- la. Synkronisissa järjestelmissä toimivat algoritmit voidaan muuntaa asynkronisissa järjestelmissä toimiviksi. Tätä muunnosta kutsutaan synkronoinniksi.

Viestinvälitykseen ja jaettuun muistiin perustuvat hajautetut järjestelmät eivät olennaisesti eroa toisistaan, sillä jaetun muistin järjestelmissä toimivat algoritmit voidaan muuntaa viestinvälitysjärjestelmissä toimiviksi. Stabiloinnin osalta voidaan siis yleisyyttä rajoittamatta tarkastella jompaakumpaa kommunikointimallia.

Hajautettujen järjestelmien toipumiseen kuluvaa aikaa mitataan kierrosten ja syklien avulla. Kierros (round) on lyhin ajanjakso, jonka aikana jokainen prosessori suorittaa vähintään yhden laskenta-askelen. Jokaisella prosessorilla oletetaan olevan algoritmi, joka on esitetty ikuisena silmukkana. Sykli (cycle) on lyhin ajanjakso, jonka aikana jokainen prosessori suorittaa yhden kerran ikuisen silmukkansa sisällön.

Stabilointialgoritmit käyttävät osatehtävien suorittamiseen muita toipumiskykyisiä algoritmeja. Tarvittavia algoritmeja ovat esimerkiksi johtajan valinta ja viestikanavien muuntaminen luotettaviksi. Lisäksi käytetään tietoa siitä, että toipumiskykyinen algoritmi voidaan muodostaa reilun koostamisen (fair composition) avulla osatehtävät suorittavista toipumiskykyisistä algoritmeista.

Luvussa 2 esitellään resynkroninen stabilointi, joka on yksinkertainen menetelmä kiinteän tulosteen algoritmien muuntamiseksi toipumiskykyisiksi. Toipumiskykyis- ten ja ei-toipumiskykyisten algoritmien välillä ei siis ole periaatteellista eroa, sillä ei-toipumiskykyinen algoritmi voidaan muuntaa toipumiskykyiseksi resynkronisen stabiloinnin avulla.

Luvussa 3 esitetään yleisempi menetelmä stabiloinnin suorittamiseen. Menetelmä perustuu tarkkailuun, jonka avulla havaitaan järjestelmässä esiintyvät virheet, ja alustukseen, jonka avulla järjestelmä palautetaan sallittuun alkutilaan.

(4)

2 Resynkroninen stabilointi

Seuraavaksi tarkastellaan kiinteiden tulosteiden (fixed output) algoritmien muuntamista toipumiskykyisiksi. Esimerkiksi minimaalisen virittävän puun laskevan algoritmin tulosteena on verkon minimaalinen virittävä puu, joten algoritmin tuloste on kiinteä. Toisaalta esimerkiksi keskinäisen poissulkemisen algoritmeilla ei ole kiinte-

ää tulostetta, vaan algoritmin oikeellinen toiminta on jatkuva prosessi, jossa jaettua resurssia käyttää vain yksi prosessori kerrallaan.

Resynkroninen stabilointi (resynchronous stabilizer) on yksinkertainen stabilointita- pa, jolla mikä tahansa hajautettuja syötteitä käyttävä kiinteän tulosteen algoritmi voidaan muuntaa toipumiskykyiseksi. Resynkronista stabilointia voidaan soveltaa sekä synkronisiin että asynkronisiin algoritmeihin.

Algoritmin synkronisella suoritusajalla tarkoitetaan sitä askelten määrää, jossa synk- ronoidun järjestelmän prosessorit saavat laskettua algoritmin tulosteen. Tarkastel- laan algoritmiaA, jonka suoritusaika synkronisessa järjestelmässä ont askelta. Tar- koituksena on määritellä algoritmi, joka toimii kuten A ja on toipumiskykyinen.

Tarkastellaan prosessorien tiloja, kun algoritmiaAsuoritetaan synkronisessa järjes- telmässä, jossa ei esiinny virheitä. Aluksi jokainen prosessori P_i on alkutilassa T_i,0. Ensimmäisen laskenta-askelen aikana jokainen prosessoriP_i lukee naapureidensa al- kutilatT_j,0ja laskee niiden ja oman alkutilansa perusteella uuden tilansaT_i,1. Toisen laskenta-askelen aikana jokainen prosessori P_i lukee naapureidensa tilat T_j,1 ja laskee niiden ja oman tilansa T_i,1 perusteella uuden tilansa T_i,2. Viimeistään t askelen kuluttua prosessorit ovat saaneet laskettua halutun tulosteen.

Resynkronisen stabiloinnin perusajatus on tallentaa jokaisen prosessorin P_i yhteyteen tieto tiloista T_i,0, T_i,1, . . . , T_i,t. Jokaisen prosessorin yhteyteen tallennetaan siis t+ 1 alkion taulukko, jonka soluihin nämä tilat tallentuvat. Aluksi taulukon sisäl- tö voi olla mitä tahansa, mutta laskennan edetessä taulukon soluihin tallentuvat halutut tilat.

Resynkronisen stabiloinnin suoritus. Jokainen prosessoriP_i laskee ikuisen silmukkansa suorituksen aikana uudelleen kaikki tilansaT_i,0, T_i,1, . . . , T_i,t. Aluksi se tallentaa tilaan T_i,0 algoritminsa määräämän alkutilan. Sen jälkeen se lukee naapureidensa P_j tilataulukot T_j,0, T_j,1, . . . , T_j,t. Oman ja naapureiden 0-tilojen perusteella se laskee tilansa T_i,1, sen ja naapureiden 1-tilojen perusteella tilansa T_i,2 ja niin edelleen.

(5)

? ? ? ?

A ? ? ?

C ? ? ? B ? ? ?

A D ? ?

C ? ? ? B ? ? ?

Kuva 1: Kun virheet¨on jakso alkaa, prosessorit voivat olla mielivaltaisessa tilassa.

Ensimmäisen syklin jälkeen jokainen prosessori on alustanut alkutilansa (A, B ja C). Toisen syklin aikana jokainen prosessori saa laskettua toisen tilansa oikein, sillä tilan määrittämiseen tarvittavat syötteet (tässä A, B ja C) on tallennettu oikein.

Koska kaikki naapureiden tilat eivät välttämättä vastaa algoritminA virheettömäs- sä suorituksessa esiintyviä tiloja, ei prosessori itsekään saa laskettua kaikkia omia tilojaan oikein. Kuitenkin, jos naapureiden tilat T_j,0, . . . , T_j,k ja prosessorin omat tilatT_i,0, . . . , T_i,k on tallennettu oikein, saa prosessori laskettua tilansaT_i,k+1 oikein.

Järjestelmän toipumiskyky. Kun virheet loppuvat, niin jossain vaiheessa jokainen prosessori P_i on suorittanut ikuisen silmukkansa sisällön vähintään kerran ja alustanut lähtötilanteen T_i,0 oikeaksi. Tämän jälkeen jokainen prosessori P_i pystyy laskemaan oikein tilansa T_i,1, sillä tarvittavat syötteet, prosessorin itsensä 0-tila ja muiden prosessorien 0-tilat, on laskettu oikein. Kun jokainen prosessori on laskenut oikein 1-tilansa, voivat kaikki prosessorit laskea oikein 2-tilansa. Näin edeten voidaan havaita, että jossain vaiheessa kaikki prosessorit saavat algoritminsa suoritettua loppuun, ellei uusia virhetilanteita esiinny.

Olennaista on, että mikään prosessori ei muuta kertaalleen oikein laskettuja tiloja, vaikka se laskeekin ne uudelleen. Näin ollen jokainen sykli lisää ainakin yhden tilan oikein laskettujen tilojen joukkoon.

Kuva 1 havainnollistaa resynkronisen stabiloinnin toimintaa, kun hajautetun järjes- telmän virheetön jakso alkaa.

(6)

Resynkronisen stabiloinnin ongelmia. Resynkroninen stabilointi tarvitsee epäkäytännöllisen paljon muistia, sillä jokainen prosessori joutuu tallentamaan oman tilansa yhtä monta kertaa kuin algoritmin suorittamiseen tarvitaan askelia. Lisäksi resynkroninen stabilointi ei sovellu satunnaisalgoritmien stabilointiin, koska satun- naisalgoritmeissa prosessorin seuraava tila ei määräydy deterministisesti sen edelli- sen tilan ja naapurien tilojen avulla.

3 Yleinen stabilointi: j¨ arjestelm¨ an tarkkailu ja alustus

Resynkronisen stabiloinnin sijasta algoritmi voidaan muuntaa toipumiskykyiseksi käyttäen yleistä stabilointia. Yleistä stabilointia voidaan soveltaa sekä kiinteän tulosteen algoritmeihin että ei-kiinteän tulosteen algoritmeihin. Tässä luvussa tarkastellaan kiinteän tulosteen algoritmeja. Voidaan lisäksi yleisyyttä rajoittamatta tarkastella hajautettuja järjestelmiä, joissa prosessorien välinen kommunikaatio perustuu viestinvälitykseen.

Yleisen stabiloinnin perusajatus on havaita järjestelmässä esiintyvät virheet (tarkkailu) ja palauttaa järjestelmä sallittuun lähtötilanteeseen virheen tapahtuessa (alustus). Tarkkailun ja alustamisen yhteensovittaminen ei ole triviaalia: on esimerkiksi varmistettava, että virheen havaitsemisesta johtuva alustus suoritetaan loppuun ennen uusien alustusten käynnistämistä.

Luvussa 3.1 esitellään virheidenhavaitsemisalgoritmi ja luvussa 3.2 kuvataan algoritmi, joka alustaa järjestelmän eli palauttaa sen sallittuun alkutilaan. Luvussa 3.3 esitetään lyhyt perustelu järjestelmän toipumiskyvystä.

3.1 Virheiden havaitseminen

Useissa toipumiskykyisissä algoritmeissa ei pyritä eksplisiittisesti havaitsemaan vir- heitä, vaan ohjataan järjestelmää jatkuvasti kohti sallittua tilaa. Prosessorit eivät yleensä pidä yllä tietoa siitä, onko järjestelmä kulloinkin sallitussa tilassa vai ei.

Tästä lähestymistavasta poiketen tarkkailu ja alustus -stabiloinnissa on määriteltä- vä keino havaita, onko virheitä tapahtunut.

Eräs keino havaita virheiden havaitsemiseen on tallentaa kuva järjestelmän hetkelli- sestä kokonaistilanteesta ja tarkastaa sen avulla, onko järjestelmä sallitussa tilassa.

(7)

Kuvan ottaminen ei keskeyt¨a varsinaista laskentaa, vaan suoritetaan sen lomassa.

Tilannekuva-algoritmi. Oletetaan, ett¨a toipumiskykyisen johtajanvalinta- algoritmin avulla jokin prosessori on valittu johtajaksi. Kuvanottoalgoritmissa jokainen prosessori tallentaa muistiinsa kopion tilastaan ja saamistaan viesteist¨a.

Sen jälkeen johtaja kerää tiedot prosessoreilta.

Kuvanottoalgoritmissa oletetaan, että viestikanavat ovat luotettavia. Tämä voidaan saada aikaan toipumiskykyisellä algoritmilla, jolla jaetun muistin järjestelmissä toimivat algoritmit muunnetaan viestinvälitystä käyttäviksi. Lisäksi kuvanottoalgoritmi käyttää luvussa 3.2 kuvattavaa alustusalgoritmia tarvitsemiensa muuttujien alustamiseen.

Kuvan tallentava algoritmi on seuraava:

1. Johtaja tallentaa oman tilansa ja alkaa lähettää merkkiä toistuvasti jokaiselle naapurilleen.

2. Kun prosessori P_i saa merkin ensimmäisen kerran, se tallentaa muistiinsa kopion nykyisestä tilastaan ja lähettää merkin jokaiselle naapurilleen.

3. Jos prosessoriP_isaa viestin prosessoriltaP_k, se tallentaa kopion viestist¨a muistiinsa. Kun prosessori P_i saa merkin prosessorilta P_k, prosessori P_i lopettaa saapuvien viestien tallentamisen.

4. Kun prosessori P_i on saanut merkin jokaiselta naapuriltaan, se lähettää tallentamansa tiedot johtajalle.

Vaikka prosessorin P_i tila tallennetaan eri ajanhetkellä kuin sen naapuriprosesso- rin P_j tila, saa viestien tallentaminen aikaan sen, että kokonaiskuva järjestelmän tilasta on yhtenäinen. Jos prosessorin P_i tila tallennetaan ensin ajanhetkellä t1 ja prosessorin P_j tila myöhemmin ajanhetkellä t2, tallentaa prosessori P_i muistiinsa prosessoriltaP_j tulevat viestit, jotka saapuvat ajanhetkient1 jat2 välillä. Kokonais- kuvaan kuuluu prosessorin P_i tila ajanhetkellä t1, prosessorin P_j tila ajanhetkellä t2 sekä prosessorinP_i tallentamat viestit. Kokonaiskuva voidaan tulkita tilanteeksi, jossa molempien prosessorien tilat on tallennettu ajanhetkellä t2 eikä prosessori P_i ole saanut suoritusvuoroa ajanhetkien t1 ja t2 välillä. Tallennettujen viestien voidaan ajatella olevan matkalla viestikanavassa, jolloin prosessori P_i ole vielä ehtinyt saada niitä. Todellisuudessa prosessoriP_i on voinut muuttaa tilaansa ajanhetkient1

ja t2 välillä ja se on myös saanut tallentamansa viestit.

(8)

Saatuaan kuvanottoalgoritmin tallentamat tiedot kaikilta prosessoreilta johtaja muodostaa kokonaiskuvan järjestelmästä ja tarkastaa, onko järjestelmä sallitussa tilassa vai ei. Se, miten tarkastus suoritetaan, riippuu stabiloitavasta algoritmista.

Kiinteän tulosteen algoritmeja stabiloitaessa on pystyttävä erottamaan virhetilan- ne järjestelmän normaalista toiminnasta, jossa halutun tuloksen laskenta on vielä kesken.

Joissain tilanteissa kuvanottoalgoritmi voidaan korvata versiolla, jossa järjestelmän tila tallennetaan useisiin paikallisiin tilannekuviin. Tällöin stabiloitavan algoritmin on oltava sellainen, että virheet voidaan havaita paikallisista tilannekuvista.

Esimerkki virheiden havaitsemisesta. Tarkastellaan esimerkkinä seuraavaa algoritmia, joka laskee prosessorien etäisyydet tiettyyn kohdeprosessoriin. Jokaisella prosessorillaP_i on muuttujad_i, johon se tallentaa nykyisen käsityksen etäisyydestä.

Algoritmi on kuvattu taulukossa 1.

Kohdeprosessori P0

Alustus: aseta d0 = 0

L¨ahet¨a jokaiselle naapurille tietod0:sta Muut prosessorit P_i

Alustus: aseta d_i =∞

Kun saat naapurilta P_j arvon d_j:

Josd_j+ 1 < d_i, aseta d_i =d_j+ 1 ja lähetä jokaiselle muulle naapurille tietod_i:stä Muutoin älä tee mitään

Taulukko 1: Algoritmi, jolla prosessorit laskevat oman et¨aisyytens¨a kohdeprosessorista. Algoritmi ei ole toipumiskykyinen.

Tämä algoritmi ei ole toipumiskykyinen. Esimerkiksi jos jonkin prosessorinP_j muuttujaan d_j tallentuu virheen johdosta arvo 0, vaikkei P_j ole kohdeprosessori, niin algoritmi ei saa sitä korjatuksi.

Esitetty etäisyyksienlaskenta-algoritmi voidaan kuitenkin stabiloida eli muuntaa toipumiskykyiseksi. Sitä varten on muodostettava menetelmä, jolla virheet havaitaan järjestelmän tilannekuvasta.

Johtajaprosessorin saamassa tilannekuvassa on tieto arvoista, jotka on tallennettu muuttujiind. Järjestelmän normaalissa toiminnassa prosessorinP_i arvod_i on yleen- sä yhtä suurempi kuin pienin naapuriprosessorien arvoista. Muissa tapauksissa pro-

(9)

d = 0

d = Inf

d = Inf d = Inf

d = 0

d = 1

d = Inf d = 1

d = 0

d = 1

d = 2 d = 1

Kuva 2: Esimerkki et¨aisyydet laskevan algoritmin oikeasta suorituksesta.

d = 0

d = 3

d = Inf d = Inf

d = 0

d = 1

d = Inf d = 1

d = 0

d = 2 d = 1

Kuva 3: Esimerkkejä virhetilanteista eli tilanteista, jotka eivät voi esiintyä etäisyydet laskevan algoritmin normaalin suorituksen aikana.

sessori P_i ei ole vielä ehtinyt saada viestiä siltä naapurilta, jolta pienempi d-arvo periytyisi. Johtajaprosessori voi siis prosessorien d-muuttujista ja viestikanavien si- sällöistä päätellä, onko järjestelmä sallitussa tilassa vai ei.

Sen sijaan virhetilanteeksi ei pidä tulkita tilannetta, jossa jonkin prosessorin d-arvo ei vastaa prosessorin etäisyyttä kohdeprosessorista. Tällainen tilanne kuuluu järjes- telmän normaaliin toimintaan silloin, kun etäisyyksien laskenta on vielä kesken.

Kuvassa 2 on esimerkki etäisyydenlaskemisalgoritmin oikeasta suorituksesta ja kuvassa 3 on esimerkkejä virhetilanteista, jotka eivät voi esiintyä järjestelmän oikean suorituksen aikana. Virhetilanteet voidaan erottaa normaaliin suoritukseen kuulu- vista tilanteista tarkastelemalla solmujen tiloja ja viestikanavien sisältöjä.

Virheet voidaan havaita esimerkiksi tarkastamalla seuraava ehto:

Algoritmin tila on sallittu, jos

(10)

• kohdesolmulleP0 p¨ateed0 = 0 ja muille solmuille P_i p¨atee d_i >0 ja

• jokaisella kohdesolmusta eroavalla solmullaP_i on naapuri P_j, jolle päteed_i = d_j+ 1 tai matkalla on arvon d_j sisältävä viesti naapurilta P_j naapurille P_i.

3.2 J¨ arjestelm¨ an alustus

Järjestelmän alustus suoritetaan, kun virheenhavaitsemisalgoritmi ilmoittaa, ettei järjestelmä ole sallitussa tilassa. Alustuksen tehtävänä on palauttaa järjestelmä sallittuun alkutilaan.

Seuraavaksi esitetään alustusalgoritmi, jossa mikä tahansa prosessori voi virheen havaitessaan pyytää järjestelmän alustusta. Algoritmi käyttää johtajanvalinta-algoritmia ja β-synkroinoija-algoritmia osatehtävien suorittamiseen. Johtajanvalinta-algoritmi muodostaa virittävän puun, jonka juurena oleva prosessori on nimetty johtajaksi.β-synkronoija värittää puun toistuvasti siten, että juuri valitsee uuden värin, joka ”valuu” puussa alaspäin kunnes koko puu on saman värinen. Sen jälkeen juuri valitsee seuraavan värin ja sama prosessi toistuu.

Kun järjestelmä ei ole sallitussa tilassa, virheidenhavaitsemisalgoritmi takaa, että ainakin yksi prosessori havaitsee virheen. Seuraavaksi kuvattava alustusalgoritmi saa aikaan järjestelmän alustuksen silloin, kun jokin prosessoreista havaitsee virheen.

Alustusalgoritmin runkona on puun toistuvan värityksen suorittava algoritmi. Alus- tusalgoritmin toiminnot, kuten virheistä raportointi ja oman tilan alustus, lomittu- vat puun toistuvaan väritykseen.

Puun toistuva väritys. Jokaisella prosessorilla on tieto siitä, mitkä prosessorit ovat sen lapsia ja mikä prosessori on sen vanhempi. Lisäksi prosessorillaP_i on tieto omasta väristään colori. Väri on kokonaisluku joukosta {0, . . . ,5n−4}, jossa n on prosessoreiden määrä¹.

Prosessorien välisen kommunikoinnin mallina käytetään jaettua muistia. Prosesso- rin P_i ja sen vanhemman P_j väliseen kommunikointikanavaan liittyy kaksi muuttujaa: colorj,i, jolla vanhempi kertoo lapselleen värinsä ja colori,j, jolla lapsi kertoo vanhemmalleen alipuunsa värin.

1Lähdeteoksessa esitetyssä algoritmissa väriä kasvatetaan modulo 5n−3, jolloin suurin mah- dollinen väri on 5n−4 eikä 5n−2.

(11)

2

1 1

1 1 1

2

2 2

1 1 1

Kuva 4: Kun juuri on valinnut uuden värin, se kertoo sen lapsilleen, jotka vaihtavat värinsä ja kertovat uuden värin omille lapsilleen.

Juurena toimiva prosessori suorittaa seuraavaa algoritmia: Jos kaikki lapset ilmoittavat, että niiden alipuut ovat saman värisiä kuin juuri, niin juuri kasvattaa omaa väriään. Joka tapauksessa juuri kertoo lapsille oman värinsä.

Muut prosessorit suorittavat seuraavaa algoritmia: Jos vanhempi on kertonut prosessorille jonkun muun värin kuin prosessorin nykyisen värin, niin prosessori vaihtaa oman värinsä vanhemman väriksi. Jos kaikki lapset ilmoittavat, että niiden alipuut ovat saman värisiä kuin prosessori itse, niin prosessori ilmoittaa tämä alipuun värin vanhemmalleen. Joka tapauksessa prosessori kertoo lapsille oman värinsä.

Tämän algoritmin seurauksena juuren valitsema väri valuu puussa alas. Kun koko puu on saman värinen, tieto siitä välittyy puussa ylöspäin juureen asti. Tämän seurauksena juuri valitsee uuden värin ja sama prosessi toistuu.

Kuva 4 havainnollistaa värin valumista alas puussa. Jokainen solmu kertoo lapsilleen oman värinsä. Kuva 5 havainnollistaa, miten tieto värityksen loppuunsaattamisesta etenee puussa ylöspäin.

Synkronointi voidaan saada aikaan hyödyntämällä puun toistuva väritys -algoritmia antamalla jokaisen prosessorin suorittaa yksi laskenta-askel silloin, kun se vaihtaa omaa väriään. Tällaista synkronointialgoritmia kutsutaan β-synkronoinniksi. Ylei- sessä stabiloinnissa puun toistuva väritys -algoritmia ei kuitenkaan käytetä synkro- nointiin vaan alustuksen suorittamiseen.

(12)

2

2 2

2 2 2

2

2 2

2 2 2

Kuva 5: Kun koko puu on väritetty, lehtisolmut kertovat vanhemmilleen, että niiden alipuut on väritetty niiden omalla värillä. Lehtisolmujen vanhemmat huomaavat, että myös niiden alipuut on väritetty niiden omalla värillä ja välittävät tämän viestin edelleen vanhemmilleen.

Alustusalgoritmin toiminta. Puun toistuva väritys -algoritmin tarvitsemien muuttujien lisäksi alustusalgoritmi tarvitsee seuraavat muuttujat: jokaisella prosessorilla P_i on alustusta varten kaksi binäärimuuttujaa: invokei ja reseti. Muuttuja invokei saa arvon true, jos prosessori P_i on havainnut virheen. Muuttuja reseti saa arvon true, jos prosessori P_i tietää, että alustus on parhaillaan käynnissä.

Prosessorin P_i ja sen vanhemman P_j väliseen kommunikointikanavaan liittyy kaksi lisämuuttujaa: resetj,i, jolla vanhempi välittää lapselleen tiedon käynnissä olevasta alustuksesta ja requesti,j, jolla lapsi välittää vanhemmalleen tiedon alustuspyynnös- tä.

Alustusalgoritmi on erilainen juurena toimivalle prosessorille ja muille prosessoreille.

Jos alustusta ei ole käynnissä, jokainen prosessori suorittaa virheentarkastusalgorit- min juuri ennen kuin se raportoi vanhemmalleen, että sen koko alipuu on väritetty nykyisellä värillä².

Jos prosessori P_i havaitsee virheen, se kirjoittaa muuttujaansa invokei arvon true. Kun virheen havainnut prosessori kertoo vanhemmalle oman alipuunsa olevan itsensä värinen, se välittää samalla vanhemmalleen pyynnön käynnistää järjestelmän alustus kirjoittamalla vanhempansa kommunikointikanavan request-muuttujaan arvontrue.

Kun vanhempi huomaa tämän alustuspyynnön, se välittää sen vastaavasti omalle vanhemmalleen samalla kun se raportoi oman alipuunsa olevan itsensä värinen. Näin

2Lähdeteoksessa esitetyssä algoritmissa juuriprosessori ei koskaan suorita virheidenhavaitsemi- salgoritmia; tämä täytynee lisätä algoritmiin.

(13)

alustuspyyntö etenee puussa ylöspäin.

Lopulta alustuspyyntö saapuu juuriprosessorille, joka käynnistää järjestelmän alustuksen. Kun juuri seuraavan kerran vaihtaa värinsä, se alustaa oman tilansa ja vä- littää lapsilleen tiedon uudesta väristä ja käynnissä olevasta alustuksesta. Aina, kun prosessori vaihtaa oman värinsä vanhemman väriksi, se alustaa oman tilansa ja kirjoittaa invoke-muuttujaansa arvon false. Kun prosessori kertoo oman värinsä lapsilleen, se välittää myös tiedon käynnissä olevasta alustuksesta.

Kun uusi väri ja sen kanssa välitettävä tieto alustuksesta on edennyt puussa juu- resta lehtisolmuihin, jokainen prosessori on alustanut tilansa. Sen jälkeen tieto siitä, että puu on väritetty loppuun, alkaa kulkea puussa ylöspäin. Tällä kertaa mikään prosessori ei suorita virheentarkastusta, sillä järjestelmän alustus on käynnissä.

Kun tieto värityksen saattamisesta loppuun kulkeutuu puussa ylöspäin, jokainen prosessori välittää vanhemmalleen tiedon siitä, ettei uutta alustusta pyydetä, eli kirjoittaa vanhempansa kommunikointikanavan request-muuttujaan arvon false. Kun tämä tieto välittyy juureen asti, juuri kirjoittaa muuttujaansa reset arvonfalse. Kun juuri seuraavan kerran valitsee uuden värin, sen lapset kopioivat arvon false omiin reset-muuttujiinsa. Uuden värin valuessa alas puussa jokainen prosessori huomaa, ettei järjestelmän alustus ole käynnissä, eikä tällä kertaa alusta omaa tilaansa.

Alustusalgoritmin oikeellisuus. Esitetty alustusalgoritmi takaa sen, ettei uusia virheentarkastuksia käynnistetä, kun järjestelmän alustus on käynnissä. Vasta kun kaikki prosessorit ovat alustaneet oman tilansa, voidaan virheentarkastusalgoritmi suorittaa uudelleen.

Alustusalgoritmin oikea toiminta edellyttää virittävän puun muodostamista ja puun toistuva väritys -algoritmin oikeaa toimintaa. Virittävä puu voidaan muodostaa toi- pumiskykyisellä johtajan valita-algoritmilla ja myös puun toistuva väritys -algoritmi on toipumiskykyinen.

Kun järjestelmän virheet loppuvat, voi virittävän puun muodostavan algoritmin toipuminen alkaa. Kun se on toipunut virheistä, alkaa puun toistuva väritys -algoritmin toipuminen. Senkin toivuttua alustusalgoritmi voi olla mielivaltaisessa tilassa. Jon- kin prosessorin invoke-muuttujassa voi esimerkiksi olla arvo true, vaikkei järjestel- mää tarvitsisi alustaa. Alustusalgoritmi toipuu kuitenkin näistä virhetilanteista, sillä vaikka se aluksi suorittaisikin turhia alustuksia, niin viimeistään kahden seuraavan puussa valuvan värin myötä prosessorien invoke- ja reset-muuttujien arvot korja- taan. Sen jälkeen alustusalgoritmi alkaa toimia oikein.

(14)

Stabilointi

Virheiden

tarkkailu Alustus

Kuvanotto

Johtajan valinta

Toistuva väritys

Puun muodostus Viestikanavat

luotettaviksi

Muuttujien alustus

Kuva 6: Stabilointialgoritmin jakautuminen osateht¨aviin.

3.3 J¨ arjestelm¨ an toipumiskyky

Järjestelmässä esiintyvät virheet voivat vaikuttaa myös virheenhavaitsemisalgorit- min ja alustusalgoritmin toimintaan. Järjestelmässä esiintyvän virheen johdosta virheidenhavaitsemisalgoritmi voi toimia väärin, eli ilmoittaa olemattomasta virheestä tai jättää virheen havaitsematta. Riittää kuitenkin, että virheidenhavaitsemisalgoritmi ei ilmoita virheistä silloin, kun sekä virheidenhavaitsemisalgoritmi että tarkkailtava algoritmi ovat sallitussa tilassa.

Tarkastellaan järjestelmän toimintaa silloin, kun virheet loppuvat ja järjestelmän toipuminen voi alkaa. Aluksi järjestelmä voi olla mielivaltaisessa tilassa. Jonkin ajan kuluttua osatehtäviä suorittavat toipumiskykyiset algoritmit, kuten virittävän puun muodostava algoritmi ja kommunikointikanavat luotettavaksi tekevä algoritmi, ovat päätyneet sallittuun tilaan. Niiden toivuttua virheistä alkavat virheidentarkkailualgoritmi ja alustusalgoritmi toimia edellä kuvatulla tavalla.

Kuva 6 havainnollistaa stabilointialgoritmin osatehtäviä. Jokaisessa solmussa oleva algoritmi voi toipua virheistä kun sen lapsisolmuina kuvatut osatehtäviä suorittavat algoritmit ovat päätyneet sallittuun tilaan.

Virheidentarkkailualgoritmin ja alustusalgoritmin toivuttua virheistä voi varsinainen tarkkailtava algoritmi olla sallitussa tai ei-sallitussa tilassa. Jos algoritmi on sallitussa tilassa, virheidentarkkailualgoritmi toimii oikein eikä havaitse virhettä, ja sallittu

(15)

suoritus voi jatkua. Jos algoritmi ei ole sallitussa tilassa, virheidentarkkailualgoritmi toimii oikein ja havaitsee virheen, jolloin alustusalgoritmi palauttaa järjestelmän sallittuun tilaan. Sen jälkeen virheidenhavaitsemisalgoritmi ei enää ilmoita virheistä eikä uusia alustuksia suoriteta. Jos uusia virheitä ei tapahdu, varsinaisen algoritmin suoritus jatkuu sallitusti.

4 L¨ ahteet

Shlomi Dolev: Self-Stabilization, luku 5. MIT Press 2000.