TAMPEREEN YLIOPISTO Pro gradu -tutkielma
Laura Lizana Bister
ARIMA- ja GARCH-mallit sekä mallin sovittaminen osakeaineistoon
Informaatiotieteiden laitos Matematiikka
Syyskuu 2011
Tampereen yliopisto
Informaatiotieteiden yksikkö
LIZANA BISTER, LAURA: ARIMA- ja GARCH-mallit sekä mallin sovitta- minen osakeaineistoon
Pro gradu -tutkielma, 48 s., 3 liites.
Matematiikka Syyskuu 2011
Tiivistelmä
Tutkielmassa käsitellään stokastisia malleja, joita voidaan käyttää esimerkik- si osakkeiden tulevien arvojen ennustamiseen. Malleja on useita erilaisia ja tässä tutkielmassa keskitytään ARIMA- ja GARCH-malleihin, jotka muodos- tuvat useammasta eri osasta. Tutkielmassa tutustutaan mallien ymmärtämi- sen kannalta tärkeisiin käsitteisiin. Tutkielman alussa on luku, johon on koot- tu erilaisia määritelmiä ja tietoja, joita tarvitaan tutkielman edetessä. En- simmäiseksi tutustutaan ARIMA-malliin, joka on lineaarinen malli. ARIMA- mallissa varianssit pysyvät vakiona. Satunnaisuutta malliin tuo lähinnä val- koinen kohina. Tarkastellaan aineistoon sopivan ARIMA-mallin valitsemis- ta ja valitun mallin sovittamista aineistoon. Toiseksi tutustutaan GARCH- malliin, joka on epälineaarinen malli. GARCH-mallissa otetaan huomioon vo- latiliteetti, eli niin sanottu vaihtelu tai heilahtelu. GARCH-mallin voi raken- taa ARIMA-mallin päälle. GARCH-mallissa varianssit vaihtelevat, ne muut- tuvat havaintoarvon ja edellisen varianssin arvon mukaan. GARCH-mallit soveltuvat hyvin osakkeiden volatiliteetin ennustamiseen. Lisäksi käsitellään aineistoon sopivan GARCH-mallin valitsemista. Kolmanneksi etsitään sopiva malli Nokian osakeaineistoon. Etsintä aloitetaan ARIMA-mallista, joka sisäl- lytetään GARCH-malliin. Saatu malli sovitetaan aineistoon ja valitun mallin avulla ennustetaan osakkeen tulevia arvoja. Lisäksi osakkeelle määritellään Value at Risk -luku, joka kertoo suurimmasta mahdollisesta menetyksestä epätavallisessa tilanteessa.
Sisältö
1 Johdanto 4
2 Esitietoja 4
2.1 Stationaarisuus . . . 5
2.2 Korrelaatio ja autokorrelaatiofunktio . . . 5
2.3 Valkoinen kohina . . . 6
2.4 Satunnaiskulku . . . 6
2.5 Informaatiokriteerit . . . 7
2.6 Uskottavuus . . . 9
3 ARIMA-malli 9 3.1 Autoregressiivinen malli AR . . . 9
3.2 Liukuvan keskiarvon malli MA . . . 13
3.3 Autoregressiivinen liukuvan keskiarvon malli ARMA . . . 14
3.4 Autoregressiivinen integroitu liukuvan keskiarvon malli ARIMA 19 3.5 ARIMA-mallin sovittaminen aineistoon . . . 21
4 GARCH-malli 25 4.1 Volatiliteetti . . . 26
4.2 Autoregressiivinen ehdollinen heteroskedastinen malli ARCH . 27 4.3 Yleinen autoregressiivinen ehdollinen heteroskedastinen malli GARCH . . . 30
4.4 Integroitu yleinen autoregressiivinen ehdollinen heteroskedas- tinen malli IGARCH . . . 31
4.5 GARCH-mallin sovittaminen aineistoon . . . 32
5 Osakeaineisto 35 5.1 Mallin määrittäminen . . . 35
5.2 Value at Risk . . . 40
5.3 Osakkeen Value at Risk -luvun määrittäminen . . . 44
6 Yhteenveto 47
Viitteet 48
Liite 49
1 Johdanto
Tämän tutkielman luvussa 2 käsitellään niitä esitietoja, joita tarvitaan tut- kielman lukemiseen. Aikasarja-analyysissä keskeisimpiä käsitteitä ovat sta- tionaarisuus ja riippuvuus. Luvussa 2 esitellään määritelmiä, joihin aikasar- jamallit perustuvat. Määritelmät ovat tärkeitä aikasarjojen ymmärtämisen ja toimivuuden kannalta.
Tutkielman luvussa 3 tutkitaan ARIMA-mallin muodostumista. Ensim- mäiseksi esitellään AR- ja MA-mallit, joista voidaan koota ARMA-malli.
ARMA-mallia integroimalla saadaan ARIMA-malli. ARIMA-mallin avulla voidaan tutkia lineaaristen aikasarjojen käyttäytymistä. Luvussa 3.5 esitel- lään kuinka ARIMA-malli sovitetaan aineistoon. Vasta luvussa 3.5 perehdy- tään tarkemmin aineistoon, mallin valintaan ja mallin sopivuuden tarkaste- luun residuaalien avulla.
Luvussa 4 tarkastellaan GARCH-mallia, joka on epälineaarinen malli.
Aluksi esitellään ARCH-malli, jonka yleistys on GARCH-malli. Luvussa 4.5 etsitään ARCH-vaikutuksia ja esitellään kuinka GARCH-malli sovitetaan ai- neistoon.
Luvussa 5 tarkastellaan Nokian osakkeen arvoa. Osakkeen arvosta kooste- taan aineisto, johon sijoitetaan ensin ARIMA- ja sitten GARCH-malli. Saa- dun mallin avulla ennustetaan osakkeen tulevia arvoja. Lisäksi määritellään osakkeelle Value at Risk -luku.
Tutkielman lukijalta edellytetään perustiedot matematiikasta ja tilasto- tieteestä. Matematiikan osalta peruskäsitteitä ovat esimerkiksi yksikköjuuri ja differointi. Tilastotieteen peruskäsitteisiin luetaan muun muassa odotusar- vo ja varianssi. Lukijan oletetaan tuntevan matematiikan ja tilastotieteen yleisesti käytössä olevat merkintätavat. Tutkielmassa käytetään esimerkkei- hin R-ohjelmistosta löytyviä aineistoja austres ja lynx. Aineistot esitellään liitteessä. Aineistoja muokataan ja käsitellään malleille soveltuvaan muotoon vasta luvuissa 3.5 ja 4.5. Ennen sitä aineistoihin sovitetaan malleja esimer- kinomaisesti. Tutkielmassa aineistojen käsittelyyn käytetään R-ohjelmistoa.
Tutkielman päälähteet ovat Shumwayn ja Stofferin kirja Time Series Ana- lysis and Its Applications With R Examples ja Tsayn kirja Analysis of Fi- nancial Time Series. Keskeisessä osassa on myös Koskelan, Ronkaisen ja Puustellin julkaisu Equity and interest rate models in long-term insurance simulations.
2 Esitietoja
Tässä luvussa esitellään aikasarja-analyysissa useasti käytettyjä määritelmiä.
Näitä määritelmiä ja tietoja tarvitaan tutkielman lukemisessa. Määritelmät on annettu vain yleisluontoisesti.
Tutkielmassa käytetään merkintääxt. Tämä merkintä voi tarkoittaa sekä
aikasarjaa, että sen yksittäistä havaintoa. Kun kyseessä on yksittäinen ha- vainto, niin kyseinen havainto voi olla satunnaismuuttuja tai sen toteuma.
Asianyhteydestä ilmenee kumpi.
2.1 Stationaarisuus
Aikasarjanxtsanotaan olevan vahvasti stationaarinen jos havaintojen (xt1, xt2, xt3, . . . , xtk) yhteisjakauma on sama kuin havaintojen (xt1+h, xt2+h, xt3+h, . . . , xtk+h) yhteisjakauma kaikille k = 1,2, . . ., kaikille ajanhetkille t1, . . . , tk ja kaikille siirtymille h = 0,±1,±2, . . .. Vahvasti stationaarinen aikasarja siis pysyy muuttumattomana ajan muutoksien suhteen.
Aikasarjan xt sanotaan olevan heikosti stationaarinen, jos sekä muuttu- jan xt keskiarvo että muuttujien xt ja xt−h välinen kovarianssi, ovat ajan suhteen muuttumattomia, missä lukuh on mielivaltainen kokonaisluku. Sar- ja xt on siis heikosti stationaarinen, jos odotusarvo E(xt) = µ on vakio ja Cov(xt, xt−h) =γh on riippuva vain luvusta h.
Aikasarjojen oletetaan usein olevan heikosti stationaarisia. Tämä sallii tehdä ennusteita tulevista havainnoista. Vahvaa stationaarisuutta on vaikea todentaa empiirisesti.[6, s. 30] Tässä tutkielmassa heikosta stationaarisuu- desta puhutaan stationaarisuutena. Erikseen mainitaan, jos stationaarisuus merkitsee vahvaa stationaarisuutta.
2.2 Korrelaatio ja autokorrelaatiofunktio
Korrelaatio mittaa satunnaismuuttujien välistä lineaarista riippuvuutta. Muut- tujien uja v välistä lineaarista riippuvuutta merkitään korrelaatiokertoimen avulla ρu,v. Korrelaatiokerroin saa arvoja väliltä [−1,1]. Lisäksi ρu,v = ρv,u. Jos muuttujien välinen korrelaatiokerroin saa arvon 0, niin muuttujat ovat lineaarisesti riippumattomat. [6, s. 30]
Määritelmä 2.1. (ks. [6, s. 30]) Kahden satunnaismuuttujanu jav välinen korrelaatiokerroin määritellään kaavalla
ρu,v = Cov(u, v)
qV ar(u)V ar(v) = E[(u−µu)(v−µv)]
qE(u−µu)2E(v−µv)2,
missä µu ja µv ovat muuttujien u ja v odotusarvot. Varianssien oletetaan olevan olemassa.
Oletetaan, että xt on heikosti stationaarinen aikasarja. Tällöin havain- tojen xt ja xt−h välistä lineaarista riippuvuutta tarkasteltaessa yleistetään korrelaatio autokorrelaatioksi. Havaintojen xt ja xt−h välistä korrelaatioker- rointa merkitäänρh. Heikon stationaarisuuden vuoksi funktioρh riippuu vain suureesta h. [6, s. 31]
Määritelmä 2.2. (ks. [6, s. 31]) Autokorrelaatiofunktio ACF (autocorrela- tion function) määritellään kaavalla
ρh = Cov(xt, xt−h)
qV ar(xt)V ar(xt−h) = Cov(xt, xt−h) V ar(xt) = γh
γ0,
missä ρh on korrelaatiokerroin, joka mittaa muuttujien xt ja xt−h välistä riippuvuutta. Selvästi ρ0 = 1, ρh = ρ−h ja −1 ≤ ρh ≤ 1. Määritelmässä oletetaan, että aikasarja xt on heikosti stationaarinen. Edellä on myös käy- tetty heikosta stationaarisuudesta seuraavaa ominaisuutta, että V ar(xt) = V ar(xt−h).
Määritelmä 2.3. (ks. [5, s. 107]) Osittaisautokorrelaatiofunktiota PACF (partial autocorrelation function) merkitään parametrilläφhh, kunh= 1,2, . . . ja siinä oletetaan, että aikasarjaxt on heikosti stationaarinen. PACF määri- tellään kaavoilla
φ11 =Corr(x1, x0) = ρ(1) ja
φhh=Corr(xh−xh−1h , x0−xh−10 ), kun h≥2.
Kaavassa merkintä Corr(u, v) tarkoittaa korrelaatiokerrointa ρu,v, xh−1h = E(xh |x1, . . . , xh−1) jaxh−10 =E(x0 |x1, . . . , xh−1). Nyt sekä xh−xh−1h , että x0−xh−10 ovat riippumattomia sarjan (x1, x2, . . . , xh−1) kanssa. Stationaari- suuden seurauksena parametri φhh on ehdollinen korrelaatio muuttujien xt
ja xt−h välillä.
2.3 Valkoinen kohina
Sarjaawtkutsutaan valkoiseksi kohinaksi (white noise) joswtkoostuu samoin jakautuneista satunnaismuuttujista, joilla on odotusarvo 0 ja äärellinen va- rianssi. Merkitään wt∼W N.
Lisäksi jos wtkoostuu riippumattomista muuttujista ja se on jakautunut odotusarvonaan 0 ja varianssina σ2, niin merkitään wt ∼ iid(0, σ2). Tätä sarjaa kutsutaan valkoiseksi riippumattomaksi kohinaksi.
Jos wt on normaalijakautunut odotusarvonaan 0 ja varianssina σ2, niin sarjaa kutsutaan normaaliseksi valkoiseksi kohinaksi. Merkitään wt∼ iidN(0, σ2). [5, s. 12]
Esimerkki 2.1. Kuva 1 on normaalisesta valkoisesta kohinasta. Siinä on 500 havaintoa prosessista iidN(0,1).
2.4 Satunnaiskulku
Mallia, jolla voidaan analysoida suuntausta, kutsutaan satunnaiskuluksi (Ran- dom walk). Malli koostuu muuttujanxt edellisestä arvosta ja valkoisesta ko- hinasta. Siitä johtuukin nimi satunnaiskulku. Jos malliin otetaan mukaan
Time
w
0 100 200 300 400 500
−3−113
Kuva 1: Normaalinen valkoinen kohina.
trendi, niin malli on muotoa
xt=δ+xt−1 +wt,
missä t = 1,2, . . ., alkuehto on x0 = 0 ja wt on valkoista kohinaa. Vakio- ta δ kutsutaan trendiksi (drift). Tällöin mallia kutsutaan satunnaiskuluksi trendillä. Jos δ = 0, niin kyseessä on normaali satunnaiskulku. [5, s. 15-16]
Satunnaiskulkumalli on hyvin tunnettu esimerkki epästationaarisesta yksik- köjuurisesta aikasarjasta [6, s. 72].
Esimerkki 2.2. Kuvassa 2 on satunnaiskulku ilman trendiä. Siinä on 200 havaintoa prosessista iidN(0,1).
2.5 Informaatiokriteerit
Mallien soveltuvuutta aineistoon voidaan tarkastella erilaisten informaatio- kriteerien avulla. Akaiken informaatiokriteerin, AIC (Akaike’s Information Criterion), tarkoituksena on löytää tasapaino mallin sovitusvirheen ja para- metrien lukumäärän välillä. [5, s. 53]
Määritelmä 2.4. (ks. [5, s. 53]) Akaiken informaatiokriteeri määritellään kaavalla
AIC =ln(ˆσk2) + n+ 2k n ,
missä ˆσk2 = RSSnk, RSSk on residuaalien neliöiden summa, k on parametrien lukumäärä mallissa ja n on havaintojen lukumäärä.
Time
x
0 50 100 150 200
0510
Kuva 2: Satunnaiskulku ilman trendiä.
Akaiken informaatiokriteerin saama pienin arvo määrittelee parhaimman mallin aineistolle, toisin sanoen parhaimman mallin asteluvut. Akaiken infor- maatiokriteeri voi kuitenkin käyttää liikaa parametrejä. Tämän virheen vält- tämiseksi on kehitetty Korjattu Akaiken informaatiokriteeri, AICC (Akaike’s Information Criterion Bias Corrected). (Katso N. Sugiuran teos Further ana- lysis of the data by Akaikes’s information criterion and the finite corrections (1978)) [5, s. 53-54]
Määritelmä 2.5. (ks. [5, s. 54]) Korjattu Akaiken informaatiokriteeri mää- ritellään kaavalla
AICC =ln(ˆσk2) + n+k n−k−2,
missä ˆσk2 = RSSn k, k on parametrien lukumäärä mallissa ja n on havaintojen lukumäärä.
Korjatun Akaiken informaatiokriteerin on todettu olevan ylivertainen pie- nempiä aineistoja tarkasteltaessa. Lisäksi on kehitetty Schwarzin informaa- tiokriteeri, SIC (Schwarz’s Information Criterion), joka onnistuu antamaan hyviä astelukuja malleille suurista aineistoista. Schwarzin informaatiokritee- riä kutsutaan myös Bayes-informaatiokriteeriksi, BIC (Bayesian Information Criterion). [5, s. 54]
Määritelmä 2.6. (ks. [5, s. 54]) Schwarzin informaatiokriteeri määritellään kaavalla
SIC =ln(ˆσk2) + klnn n ,
missä ˆσk2 = RSSn k, k on parametrien lukumäärä mallissa ja n on havaintojen lukumäärä.
Tutkielmassa käytetään jatkossa lyhennettä BIC viitattaessa määritel- mään 2.6.
2.6 Uskottavuus
Oletetaan, että xt on kausaalinen ARMA(p, q)-prosessi (katso luku 3.3 ja määritelmä 3.7), jossawt∼iidN(0, σ2w). Olkoon lisäksiβ= (µ, φ1, . . . , φp, θ1, . . . , θq)′ parametreistä muodostettu (p+q+ 1)-vektori. Mallin uskottavuus- funktio on
L(β, σ2w) = (2πσ2w)−n/2(r10(β)r12(β)· · ·rnn−1(β))−1/2exp−S(β) 2σw2
,
missä
S(β) =
n
X
t=1
(xt−xt−1t (β))2 rt−1t (β)
.
Tässä sekä xt−1t , että rt−1t ovat vektorin β funktioita,xt−1t =E(xt |x1, . . . , xt−1) ja rt−1t = V ar(xt | x1, . . . , xt−1). [5, s. 128] Mallin uskottavuutta käy- tetään esimerkiksi määrittelemään AIC-, AICC- ja BIC-luvut.
3 ARIMA-malli
Autoregressiivinen integroitu liukuvan keskiarvon malli, ARIMA(p, d, q), koos- tuu useasta eri vaiheesta ja mallista. Aluksi määritellään autoregressiivinen malli, AR(p), ja liukuvan keskiarvon malli, MA(q). Näistä malleista yhdis- tämällä saadaan autoregressiivinen liukuvan keskiarvon malli, ARMA(p, q).
Integroimalla ARMA(p, q)-malli saadaan ARIMA(p, d, q)-malli, missä lukud on integroimiskertojen lukumäärä ja luvut p ja q ovat AR- ja MA-mallien asteluvut.
ARMA-malleissa muuttujat ovat lineaarisesti riippuvia menneistä arvois- taan ja valkoisesta kohinasta. ARMA-mallit muodostavat hyvin kattavan ja käyttökelpoisen osan lineaarisista aikasarjamalleista. [1, s. 19] ARMA-mallit perustuvat oletukselle, että varianssit pysyvät vakioina [5, s. 280].
3.1 Autoregressiivinen malli AR
Autoregressiivisten mallien (autoregressive model) perusoletuksena on, et- tä sarjan xt nykyinen arvo voidaan selittää muodostamalla funktio arvon xt menneistä arvoista xt−1, xt−2, . . . , xt−p, missä p määrittää kuinka monta edellistä askelta tarvitaan, jotta voidaan ennustaa nykyinen arvo xt. Auto- regressiivisissä malleissa muuttujaxt voidaan esittää selittäjien lineaarikom- binaation ja virhetermin summana. [5, s. 85]
Määritelmä 3.1. (ks. [5, s. 85-86]) Yleinen autoregressiivinen astettapoleva mallin yhtälö on muotoa
xt =φ1xt−1+φ2xt−2+· · ·+φpxt−p+wt,
missäxton stationaarinen,pon ei-negatiivinen kokonaisluku, kertoimetφ1, φ2, . . . , φp, (φp 6= 0), ovat vakioita, muuttujatxt−i (i= 1, . . . , p) ovat muuttajan xt edelliset arvot ja wt∼iidN(0, σ2). Tässä mallin yhtälössä oletetaan, että muuttujan xt odotusarvo on 0. Merkitään AR(p).
Huomataan, että jos muuttujan xt odotusarvo on erisuuri kuin 0, niin voidaan korvataan xt muuttujalla xt−µ. Tällöin
xt−µ=φ1(xt−1 −µ) +φ2(xt−2−µ) +· · ·+φp(xt−p−µ) +wt
tai vaihtoehtoisesti
xt=φ0+φ1xt−1+φ2xt−2+· · ·+φpxt−p+wt, missä φ0 =µ(1−φ1− · · · −φp).
Määritelmä 3.2. (ks. [5, s. 86]) Autoregressiivinen operaattori määritellään φ(B) = 1−φ1B−φ2B2− · · · −φpBp.
Esimerkki 3.1. Yksinkertainen autoregressiivinen malli AR(1) on muotoa xt =φ1xt−1+wt,
missä φ1 on vakio, muuttuja xt−1 on muuttajan xt edellinen arvo ja wt ∼ iidN(0, σ2). [5, s. 85-89]
Yksinkertainen autoregressiivinen malli AR(1) muistuttaa yksinkertaista lineaarista regressiomallia, missä xt on selitettävä ja xt−1 on selittävä muut- tuja [6, s. 37].
Esimerkki 3.2. Tarkastellaan austres-aineistoa Australian asukasmäärästä (katso liite). Asukasmäärä näyttää olevan lineaarisesti riippuva, joten AR- malli soveltuu hyvin aineistoon. Tehdään aineistosta ensin stationaarinen dif- feroimalla aineisto. Sovittamalla malli aineistoon saadaan AR(4)-malli, missä kertoimien arvot ovat
φ1 = 0,4058, φ2 = 0,0302, φ3 = 0,1519, φ4 = 0,2025.
Tällöin AR(4)-mallin yhtälö on muotoa
xt= 10,92921+0,4058∗xt−1+0,0302∗xt−2+0,1519∗xt−3+0,2025∗xt−4+wt, missä vakiotermi φ0 = 10,92921 lasketaan vähentämällä luvusta 1 muuttu- jienxt−1, . . . , xt−4 kertoimetφ1, . . . , φ4 ja kertomalla saatu luku R-ohjelmassa
lasketulla vakiotermillä (odotusarvolla) 52,1432. Tässä wt ∼iidN(0,90,98).
Kuvassa 3 on simuloitu Australian asukasmäärä AR(4)-mallin avulla.
Verrataan mallin antamia arvoja todellisiin arvoihin. Lasketaan siis en- simmäisten neljän havainnon jälkeen mallin avulla seuraavien havaintojen arviot. Merkitään näitä mallin antamia havaintoarvioita muuttujalla a. Va- litaan tarkastelun kohteeksi vuosien 1973, 1983, 1993 toiset vuosineljännek- set. Palautetaan samalla differoitu aineisto takaisin alkuperäiseen muotoon.
Tällöin
a1973|2 = 10,92921 + 0,4058∗at−1+ 0,0302∗at−2+ 0,1519∗at−3 + 0,2025∗at−4+wt = 13580,58
a1983|2 = 10,92921 + 0,4058∗at−1+ 0,0302∗at−2+ 0,1519∗at−3
+ 0,2025∗at−4+wt = 16324,43
a1993|2 = 10,92921 + 0,4058∗at−1+ 0,0302∗at−2+ 0,1519∗at−3
+ 0,2025∗at−4+wt = 18387,69
Todelliset arvot ovat: x1973|2 = 13504,5, x1983|2 = 15393,5 ja x1993|2 = 17661,5. Tässä tapauksessa malli AR(4) kuvaa melko hyvin asukasmäärän muutosta. Pidemmällä aikavälillä mallin antaa liian suuria arvoja.
Time
asukasmäärä
0 20 40 60 80
1300018000
Kuva 3: Australian asukasmäärä simuloituna AR(4)-mallilla.
Huomautus. Monissa tutkielman esimerkeissä verrataan mallin antamia ar- voja todellisiin arvoihin. Nämä havaintoarviot lasketaan aineiston ensimmäi- sen havainnon (ensimmäisten havaintojen) avulla. Ensimmäiseen havaintoon lisätään mallin antaman kaavan luvut ja muuttuja wt, joka valitaan satun- naisesti. Tutkielman esimerkeissä merkitään mallin antamia havaintoarvioita muuttujallaa. Näissä esimerkeissä verrataan aineiston todellisia arvoja mal- lin antamiin arvioihin mallin havainnollistamiseksi. Mallin sopivuutta tut- kiessa tulee tarkastella residuaaleja. Niitä tutkitaan vasta luvussa 3.5.
Esimerkki 3.3. Tarkastellaan lynx-aineistoa ilvesten pyydystämisestä (kat- so liite). Sarjassa on havaittavissa säännöllinen kausivaihtelu. Sijoitetaan AR- malli aineistoon R-ohjelmassa. Saadaan AR(8)-malli, missä kertoimien arvot ovat
φ1 = 1,0554, φ2 =−0,6298, φ3 = 0,2105, φ4 =−0,1438, φ5 =−0,0200, φ6 = 0,0373, φ7 =−0,2342, φ8 = 0,3322.
Tällöin AR(8)-mallin yhtälö on muotoa
xt= 618,5879 + 1,0554∗xt−1−0,6298∗xt−2+ 0,2105∗xt−3
−0,1438∗xt−4−0,0200∗xt−5+ 0,0373∗xt−6−0,2342∗xt−7 + 0,3322∗xt−8+wt,
missä vakiotermi on 618,5879 ja wt∼iidN(0,616995).
Verrataan mallin antamia arvoja todellisiin arvoihin. Valitaan tarkastelun kohteeksi vuodet 1834 ja 1934. Tällöin
a1834 = 618,5879 + 1,0554∗a1833 −0,6298∗a1832 + 0,2105∗a1831
−0,1438∗a1830−0,0200∗a1829+ 0,0373∗a1828
−0,2342∗a1827+ 0,3322∗a1826+wt= 993
a1934 = 618,5879 + 1,0554∗a1933 −0,6298∗a1932 + 0,2105∗a1931
−0,1438∗a1930−0,0200∗a1929+ 0,0373∗a1928
−0,2342∗a1927+ 0,3322∗a1926+wt= 2088
Todelliset arvot ovat x1834 = 279 ja x1934 = 3396. AR(8) malli ei sovi hyvin aineistoon, joten mallin tuottamat ennustukset eivät ole kovin tarkkoja ja luotettavia. Kuvassa 4 on simuloituna AR(8)-mallin kuvaaja.
Time
ilvesten_määrä
0 20 40 60 80 100
−20004000
Kuva 4: Ilvesten määrä simuloituna AR(8)-mallilla.
3.2 Liukuvan keskiarvon malli MA
Vaihtoehtona autoregressiomallille on olemassa liukuvan keskiarvon malli.
Astetta q olevan liukuvan keskiarvon malli MA(q) (moving average model) olettaa, että lineaarikombinaatio valkoisesta kohinasta wt selittää muuttu- jan xt. Liukuvan keskiarvon malli on stationaarinen kaikilla parametrien θ1, θ2, . . . , θq arvoilla. [5, s. 90-91]
Määritelmä 3.3. (ks. [5, s. 90]) Yleinen liukuvan keskiarvon astettaqoleva malli on muotoa
xt=wt+θ1wt−1+θ2wt−2+· · ·+θqwt−q,
missä asteluku q kuvaa viiveitä liukuvassa keskiarvossa ja θ1, θ2, . . . , θq, (θq 6= 0), ovat parametrejä ja wt ∼iidN(0, σ2). Merkitään MA(q).
Määritelmä 3.4. (ks. [5, s. 91]) Liukuvan keskiarvon operaattori määritel- lään
θ(B) = 1 +θ1B+θ2B2+· · ·+θqBq.
Esimerkki 3.4. Yksinkertainen liukuvan keskiarvon malli MA(1) on muotoa xt =wt+θwt−1,
missä θ on parametri jawt ∼iidN(0, σ2). [5, s. 91]
Esimerkki 3.5. Sovitetaan aineistoon lynx MA-malli asteella 1, missä ker- roin on θ1 = 0,7934. Mallin kaava tulee muotoon
xt= 1538,018 +wt+ 0,7934∗wt−1,
missä wt∼iidN(0,1115573) ja luku 1538,018 on aineiston odotusarvo. Ku- vassa 5 on simuloitu MA(1)-mallin kuvaaja, jossa ensimmäinen havainto on saatu lynx-aineistosta ja sen perusteella laskettu muiden havaintojen arviot.
Verrataan mallin antamia arvoja todellisiin arvoihin. Tarkastellaan edelleen vuosia 1834 ja 1934. Tällöin
a1834 = 1538,018 +wt+ 0,7934∗wt−1 = 1515,217 a1934 = 1538,018 +wt+ 0,7934∗wt−1 = 1553,808.
Todelliset arvot ovat x1834 = 279 ja x1934 = 3396. Selvästi yksinkertainen MA(1)-malli ei sovi aineistoon. Mallissa ilvesten määrä heittelehtii vain kes- kiarvon ympärillä ja malli ei huomioi aineistossa olevia suuria heittelyjä.
Esimerkki 3.6. Sovitetaan differoituun austres-aineistoon MA(2)-malli, mis- sä kertoimet ovat
θ1 = 0,5331, θ2 = 0,2272.
Time
ilvesten_määrä
0 20 40 60 80 100
14501600
Kuva 5: MA(1)-mallin avulla simuloitu ilvesten määrä.
Mallin kaava tulee tällöin muotoon
xt= 52,1064 +wt+ 0,5331∗wt−1+ 0,2272∗wt−2,
missä muuttuja wt on jakautunut wt ∼ iidN(0,111,5) ja luku 52,1064 on aineiston odotusarvo. Kuvassa 6 on simuloitu austres-aineistoon sijoitetun MA(2)-mallin kuvaaja.
Verrataan mallin antamia arvoja todellisiin arvoihin. Tarkastelun koh- teena ovat vuosien 1973, 1983 ja 1993 toiset vuosineljännekset. Palautetaan jälleen differoitu aineisto alkuperäiseen muotoon. Tällöin
a1973|2 = 52,1064 +wt+ 0,5331∗wt−1+ 0,2272∗wt−2
= 13559,36
a1983|2 = 52,1064 +wt+ 0,5331∗wt−1+ 0,2272∗wt−2
= 15681,71
a1993|2 = 52,1064 +wt+ 0,5331∗wt−1+ 0,2272∗wt−2
= 17706,40
Todelliset arvot ovatx1973|2 = 13504,5,x1983|2 = 15393,5 jax1993|2 = 17661,5.
MA(2)-malli kuvaa hyvin asukasmäärän muutosta.
3.3 Autoregressiivinen liukuvan keskiarvon malli AR- MA
Puhtaasti autoregressiiviset mallit AR(p) ja puhtaasti liukuvan keskiarvon mallit MA(q) voivat käydä hankaliksi mallien asteiden kasvaessa. Ongelman
Time
asukasmäärä
0 20 40 60 80
1300017000
Kuva 6: MA(2)-mallin avulla simuloitu asukasmäärä.
poistamiseksi on kehitetty autoregressiivinen liukuvan keskiarvon malli AR- MA (autoregressive moving average model). Autoregressiivinen liukuvan kes- kiarvon malli niin sanotusti yhdistää autoregressio mallin ja liukuvan keskiar- von. Merkitään ARMA(p, q). [6, s. 64]
Määritelmä 3.5. (ks. [5, s. 93]) Aikasarja xt on ARMA(p, q) jos se on stationaarinen ja
xt=φ1xt−1+φ2xt−2+· · ·+φpxt−p+wt+θ1wt−1+θ2wt−2+· · ·+θqwt−q, missä φp 6= 0, θq 6= 0 ja σw2 >0. Edelleen oletetaan, että wt on normaalinen valkoisen kohinan prosessi wt ∼iidN(0, σ2).
Parametrejä p ja q kutsutaan ARMA-mallin asteiksi.
Jos sarjan xt keskiarvo on erisuuri kuin nolla, niin yhtälö tulee muotoon xt=φ0+φ1xt−1+φ2xt−2+· · ·+φpxt−p+wt+θ1wt−1+θ2wt−2+· · ·+θqwt−q,
missä φ0 =µ(1−φ1− · · · −φp).
Huomataan, että jos aste q = 0, niin autoregressiivinen liukuvan kes- kiarvon malli, ARMA(p, q), palautuu autoregressio malliksi, AR(p). Vas- taavasti jos aste p = 0, niin autoregressiivinen liukuvan keskiarvon malli, ARMA(p, q), palautuu liukuvan keskiarvon malliksi, MA(q). [5, s. 93]
Esimerkki 3.7. Yksinkertainen autoregressiivinen liukuvan keskiarvon malli ARMA(1,1) on muotoa
xt=φ1xt−1+wt+θ1wt−1,
missä φ1 ja θ1 ovat parametrejä ja wt∼iidN(0, σ2). [5, s. 93-96]
Esimerkki 3.8. Sovitetaan ARMA(4,2)-malli differoituun aineistoon austres.
Mallin parametreiksi tulee
φ1 = 0,4765, φ2 =−0,7073, φ3 = 0,4494, φ4 = 0,3020, θ1 =−0,0192, θ2 = 0,9904.
Mallin yhtälö tulee muotoon
xt = 24,99836 +φ1xt−1+φ2xt−2+φ3xt−3+φ4xt−4+wt+θ1wt−1+θ2wt−2
= 24,99836 + 0,4765∗xt−1−0,7073∗xt−2+ 0,4494∗xt−3
+ 0,3020∗xt−4+wt−0,0192∗wt−1+ 0,9904∗wt−2, missä wt∼iidN(0,76,64). Mallin vakiotermi on 24,99836.
Verrataan mallin antamia arvoja todellisiin arvoihin. Valitaan edelleen tarkastelun kohteeksi vuosien 1973, 1983, 1993 toiset vuosineljännekset. Pa- lautetaan jälleen differoitu aineisto alkuperäiseen muotoon. Tällöin
a1973|2 = 24,99836 + 0,4765∗at−1−0,7073∗at−2+ 0,4494∗at−3
+ 0,3020∗at−4+wt−0,0192∗wt−1+ 0,9904∗wt−2 = 13506,18 a1983|2 = 24,99836 + 0,4765∗at−1−0,7073∗at−2+ 0,4494∗at−3
+ 0,3020∗at−4+wt−0,0192∗wt−1+ 0,9904∗wt−2 = 15509,22 a1993|2 = 24,99836 + 0,4765∗at−1−0,7073∗at−2+ 0,4494∗at−3
+ 0,3020∗at−4+wt−0,0192∗wt−1+ 0,9904∗wt−2 = 17468,02.
Kuten esimerkissä 3.2 kerrottiin, niin aineiston todelliset arvot ovatx1973|2 = 13504,5, x1983|2 = 15393,5 ja x1993|2 = 17661,5. Tässä tapauksessa malli ARMA(4,2) kuvaa tarkasti aineistoa. Kuvassa 7 on simuloituna ARMA(8,2)- mallin kuvaaja.
Time
asukasmäärä
0 20 40 60 80
1300017000
Kuva 7: Australian asukasmäärä simuloituna ARMA(4,2)-mallin mukaisesti.
ARMA-mallin yleinen määritelmä pitää sisällään joitakin ongelmia.
• Parametroinnin redundanttisuus johtaa tarpeettoman monimutkaiseen esitysmuotoon.
• AR-mallia muutettaessa stationaariseksi voidaan päätyä stationaari- seen AR-malliin, jonka arvot riippuvat tulevista arvoista.
• MA-mallit eivät välttämättä ole yksikäsitteisiä.
Näiden ongelmien välttämiseksi annetaan seuraavaksi määritelmiä mallien parametreille. [5, s. 94]
Määritelmä 3.6. (ks. [5, s. 94]) AR- ja MA-mallien polynomit määritellään seuraavasti
φ(z) = 1−φ1z− · · · −φpzp, φp 6= 0 ja
θ(z) = 1 +θ1z+· · ·+θqzq, θq 6= 0,
missäz on kompleksiluku. Parametritφjaθmääritellään kuten aikaisemmin.
Huomautetaan, että ARMA(p, q)-mallin tulee aina olla yksinkertaisim- massa muodossaan. Oletetaan siis, että parametreillä φ(z) ja θ(z) ei ole yh- teisiä tekijöitä. Tällöin vältytään parametrien redundanttisuudelta. [5, s. 95]
Määritelmä 3.7. (ks. [5, s. 95]) ARMA(p, q)-mallin, missäφ(B)xt=θ(B)wt, sanotaan olevan kausaalinen, jos aikasarja xt (missä t on kokonaisluku) voi- daan kirjoittaa yksipuolisena lineaarisena prosessina
xt =
∞
X
j=0
ψjwt−j =ψ(B)wt,
missä ψ(B) = P∞j=0ψjBj ja P∞j=0|ψj|<∞. Asetetaan ψ0 = 1.
Huomautus. ARMA(p, q)-malli on kausaalinen jos ja vain jos φ(z) 6= 0 kai- killa |z| ≤1. Summan ψ(B) kertoimet ψj voidaan määrittää ratkaisemalla
ψ(z) =
∞
X
j=0
ψjzj = θ(z)
φ(z), |z| ≤1.
Toisin sanoen ARMA-prosessi on kausaalinen vain jos polynominφ(z) juuret sijaitsevat yksikköympyrän ulkopuolella. Tällöin siisφ(z) = 0 vain, kun|z|>
1.
[5, s. 95]
Määritelmä 3.8. (ks. [5, s. 95]) ARMA(p, q)-mallin, missäφ(B)xt=θ(B)wt, sanotaan olevan kääntyvä, jos aikasarjaxt(missäton kokonaisluku) voidaan kirjoittaa muodossa
π(B)xt=
∞
X
j=0
πjxt−j =wt,
missä π(B) =P∞j=0πjBj ja P∞j=0|πj|<∞. Asetetaan π0 = 1.
Huomautus. ARMA(p, q)-malli on kääntyvä jos ja vain jos θ(z)6= 0 kaikilla
|z| ≤1. Summan π(B) kertoimet πj voidaan määrittää ratkaisemalla π(z) =
∞
X
j=0
πjzj = φ(z)
θ(z), |z| ≤1.
Toisin sanoen ARMA-prosessi on kääntyvä vain jos polynomin θ(z) juuret sijaitsevat yksikköympyrän ulkopuolella. Tällöin siisθ(z) = 0 vain, kun|z|>
1.
[5, s. 96]
Esimerkki 3.9. Sovitetaan ARMA(8,2)-malli aineistoon lynx. Mallin para- metreiksi tulevat
φ1 = 1,0554, φ2 =−0,6298, φ3 = 0,2105, φ4 =−0,1438, φ5 =−0,0200, φ6 = 0,0373, φ7 =−0,2342, φ8 = 0,3322, θ1 = 0,1160, θ2 = 0,1160.
Mallin yhtälö tulee muotoon
xt= 508,8747 + 1,5054∗xt−1−1,4156∗xt−2+ 0,8427∗xt−3
−0,4534∗xt−4+ 0,1416∗xt−5−0,0501∗xt−6−0,1502∗xt−7
+ 0,2573∗xt−8+wt−0,4912∗wt−1+ 0,3407∗wt−2, missä wt∼iidN(0,602283). Mallin vakiotermi on 508,8747.
Verrataan mallin antamia arvoja todellisiin arvoihin. Tarkastellaan edel- leen vuosia 1834 ja 1934. Tällöin
a1834 = 508,8747 + 1,5054∗a1833−1,4156∗a1832
+ 0,8427∗a1831−0,4534∗a1830+ 0,1416∗a1829
−0,0501∗a1828−0,1502∗a1827+ 0,2573∗a1826 +wt−0,4912∗wt−1 + 0,3407∗wt−2 = 2203 a1934 = 508,8747 + 1,5054∗a1933−1,4156∗a1932
+ 0,8427∗a1931−0,4534∗a1930+ 0,1416∗a1929
−0,0501∗a1928−0,1502∗a1927+ 0,2573∗a1926
+wt−0,4912∗wt−1 + 0,3407∗wt−2 = 1864.
Todelliset arvot ovat x1834 = 279 ja x1934 = 3396. Kuvassa 8 on simuloituna ARMA(8,2)-mallin kuvaaja. Malli ei sovellu hyvin aineistoon.
Time
ilvesten_määrä
0 20 40 60 80 100
06000
Kuva 8: Ilvesten määrä simuloituna ARMA(8,2)-mallilla.
3.4 Autoregressiivinen integroitu liukuvan keskiarvon malli ARIMA
Oletetaan, että autoregressiivisen mallin, AR, polynomilla on nollakohtana 1. Tällöin autoregressiivinen liukuvan keskiarvon malli, ARMA, laajentuu ja siitä tulee autoregressiivinen integroitu liukuvan keskiarvon malli (auto- regressive integrated moving average model), ARIMA.
Epästationaarisesta aikasarjasta voidaan saada stationaarinen aikasarja differoimalla. Jos aikasarja sisältää moninkertaisia yksikköjuuria, niin siitä saadaan stationaarinen differoimalla monta kertaa. [6, s. 75-76]
Määritelmä 3.9. (ks. [5, s. 142]) Prosessiaxt kutsutaan ARIMA(p, d, q) jos
∇dxt= (1−B)dxt,
on ARMA(p, q). Merkintä∇tarkoittaa differointioperaattoria jaB viiveope- raattoria.
Yleisesti malli voidaan kirjoittaa muotoon φ(B)(1−B)dxt =θ(B)wt. Jos E(∇dxt) =µ malli voidaan kirjoittaa muotoon
φ(B)(1−B)dxt=φ0+θ(B)wt, missä φ0 =µ(1−φ1− · · · −φp).
ARIMA(p, d, q)-mallissa muuttuja d tarkoittaa differointien lukumäärää.
Esimerkki 3.10. Tarkastellaan ARMA(4,0)-mallia (toisien sanoen AR(4)- mallia) sijoitettuna austres-aineistoon (katso esimerkki 3.2). Nyt aineisto ei
ole stationaarinen. Tehdään siitä stationaarinen differoimalla. Tällöin saa- daan ARIMA(4,1,0)-malli, jossa autoregressiivisen mallin aste on 4, liuku- van keskiarvon aste 10,92921 ja differoimisaste on 1. ARIMA(4,1,0)-mallin yhtälö on nyt muotoa
xt = 10,92921 + 0,4058∗xt−1+ 0,0302∗xt−2 + 0,1519∗xt−3
+ 0,2025∗xt−4+wt, missä wt∼iidN(0,90,98).
Tarkastellaan ARIMA(4,1,0)-mallin kausaalisuutta. Mallin polynomi mää- ritellään seuraavasti
φ(z) = 1−φ1z−φ2z2−φ3z3−φ4z4
= 1−0,4058∗z−0,0302∗z2−0,1519∗z3−0,2025∗z4. Piirretään polynomin juuret yksikköympyrän kanssa samaan kuvaan. Kuvas-
−4 −2 0 2 4
−4−2024
Re(polyroot(c(1, −0.4058, −0.0302, −0.1519, −0.2025)))
Im(polyroot(c(1, −0.4058, −0.0302, −0.1519, −0.2025)))
Kuva 9: Polynomin 1−0,4058∗z−0,0302∗z2−0,1519∗z3−0,2025∗z4 juuret piirrettynä yksikköympyrän kanssa samaan kuvaan.
ta 9 näkyy, että polynomin juuret ovat yksikköympyrän ulkopuolella, joten
prosessi on kausaalinen. [5, s. 95] Nyt ARIMA(4,1,0)-malli on kausaalinen ARMA(4,0)-malli [2, s. 45].
3.5 ARIMA-mallin sovittaminen aineistoon
Aikasarja sijoittaminen ARIMA-malliin vaatii muutamia perusasioita. Niitä ovat aineiston tutkiminen ja mahdollisesti myös muuttaminen malliin sovel- tuvaan muotoon. Aineiston riippuvuus ja sen soveltuminen malliin tulee tut- kia. Parametrien estimointi ja virhemääritykset tulee tehdä ennen kuin voi- daan tarkastella valitun mallin sopivuutta aineiston käsittelyyn. [5, s. 143]
Tarkastellaan austres-aineiston soveltuvuutta ARIMA-malliin.
1. Ensimmäisenä aineisto täytyy muuttaa ARIMA-malliin soveltuvaksi.
Piirretään austres-aineiston kuvaaja. Kuvasta näkyy, että asukasmää- rä kasvaa lineaarisesti. Mahdolliset trendit tai kausiluontoiset vaihte- lut tulee tarkistaa. Tässä aineistossa on selvästi nouseva trendi. Poiste- taan trendi differoimalla aineisto. Tällöin aikasarja on stationaarinen.
Aineiston saisi tehtyä stationaariseksi myös esimerkiksi logaritmoimal- la, mutta tämän aineiston tapauksessa pelkkä logaritmointi ei riitä.[3, s. 41-65]
2. Toiseksi lasketaan aineistosta tarvittavat tiedot, jotta voidaan määrit- tää mallin asteet p ja q. Katsotaan ensiksi aineiston ACF- ja PACF- kuvaajat. [1, s. 71] ACF-kuvaajassa viimeiset merkittävät hypyt ovat kohdissa lag=1 ja lag=2 ja PACF-kuvaajassa kohdassa lag=1. Tästä voidaan päätellä mallin ARMA(1,1) tai ARMA(1,2) soveltuvan hyvin muokattuun aineistoon.
3. Kolmanneksi aineistoon sovitetaan erilaisia malleja ja tarkastellaan niis- tä saatuja tuloksia. Lasketaan eri parametrien p ja q arvoilla AIC-, AICC- ja BIC-luvut. Seuraavan taulukon luvut on laskettu kaavoilla:
AIC=−2∗log(L) + 2∗m, AICC=−2∗log(L) + 2∗m∗n/(n−m−1) ja BIC=−2∗log(L) +m∗log(n), missä L on mallin uskottavuus, m mallissa käytettyjen parametrien määrä janon aineiston koko. [1, s. 72]
Time
austres
1975 1980 1985 1990
1300016000
Time
diff(austres)
1975 1980 1985 1990
205080
Kuva 10: Australian asukasmäärän kuvaaja (yllä) ja differoidun asukasmää- rän kuvaaja (alla).
p q m AIC AICC BIC
0 0 2 699,9812 700,1224 704,9359 1 0 3 664,7734 665,0591 672,2054 2 0 4 664,3575 664,8394 674,2668 3 0 5 661,0024 661,7341 673,3891 0 1 3 676,6408 676,9265 684,0728 0 2 4 672,8959 673,3779 682,8050 0 3 5 673,4305 674,1623 685,8172 1 1 4 660,1309 660,6128 670,0403 1 2 5 661,5406 662,2723 673,9273 2 1 5 661,8117 662,5434 674,1984 2 2 6 663,1275 664,1645 677,9915
0 1 2 3 4
−0.20.41.0
Lag
ACF
Series ale
1 2 3 4
−0.20.20.6
Lag
Partial ACF
Series ale
Kuva 11: Differoidun austres-aineiston ACF ja PACF.
Taulukosta nähdään, että pienimmät AIC-, AICC- ja BIC-luvut saa- daan kun p = 1 ja q = 1, joten valitaan ARMA(1,1)-malli. Mallin yhtälö tulee muotoon
xt=φ0+φ1∗xt−1+θ1wt−1+wt
= 5,92925 + 0,8864∗xt−1 −0,5136∗wt−1+wt, missä φ0 on vakiotermi ja wt∼iidN(0,96,11).
4. Neljänneksi analysoidaan valitun mallin residuaalit. Kuvasta 12 näkyy, että standardoidut residuaalit näyttävät riippuvilta ja niissä on aina- kin yksi poikkeuksellisen pieni arvo. Jotta mallin voisi olettaa sopivan hyvin aineistoon, niin standardoitujen residuaalien pitäisi käyttäytyä valkoisen kohinan tavoin odotusarvonaan 0 ja varianssinaan 1 [1, s. 73].
Tarkistetaan vielä standardoitujen residuaalien ACF ja PACF.
Time
standardoidut_residuaalit 0 20 40 60 80
−4−202
Kuva 12: Differoituun austres-aineistoon sovitetun ARMA(1,1)-mallin stan- dardoidut residuaalit.
Kuvasta 13 näkyy, että korrelaatiota ei ole standardoitujen residuaalien välillä. Jatketaan siis ARMA(1,1)-mallin tarkastelua.
Kuvasta 14 näkyy, että molempien polynomien juuret ovat yksikköym- pyrän ulkopuolella. Tällöin ARMA(1,1)-malli on sekä kausaalinen että kääntyvä.
Esimerkki 3.11. Lasketaan edellä saadun ARMA(1,1)-mallin antamia ar- voja differoidusta aineistosta austres. Mallin yhtälö oli
xt =φ0+φ1∗xt−1+θ1wt−1+wt
= 5,92925 + 0,8864∗xt−1 −0,5136∗wt−1+wt, missä wt∼iidN(0,96,11).
Verrataan mallin antamia arvoja todellisiin arvoihin. Tarkastellaan edel- leen vuosia 1973, 1983, 1993 ja niiden ensimmäisiä ja toisia vuosineljänneksiä.
Tällöin
adif f1973|2 = 5,92925 + 0,8864∗adif f1973|1−0,5136∗wt−1+wt= 72,82918 adif f1983|2 = 5,92925 + 0,8864∗adif f1983|1−0,5136∗wt−1+wt= 86,43236 adif f1993|2 = 5,92925 + 0,8864∗adif f1993|1−0,5136∗wt−1+wt= 83,82608 Tulee huomata, että aineisto austres differoitiin, jolloin aineisto muuttui hie- man. Palautetaan lasketut arvot alkuperäiseen muotoon.
a1973|2 = 13385,92 a1983|2 = 15267,72 a1993|2 = 16577,33
0 5 10 15
−0.20.6
Lag
ACF
Series standardoidut_residuaalit
5 10 15
−0.20.1
Lag
Partial ACF
Series standardoidut_residuaalit
Kuva 13: Differoituun austres-aineistoon sovitetun ARMA(1,1)-mallin stan- dardoitujen residuaalien ACF ja PACF.
Todelliset arvot ovat: x1973|2 = 13504,5, x1983|2 = 15393,5 ja x1993|2 = 17661,5. Tässä tapauksessa ARMA(1,1)-malli kuvaa hyvin asukasmäärän muutosta. Lyhyellä aikavälillä mallin antama arvio on tarkka ja luotettava.
Pitkällä aikavälillä arvion luotettavuus huononee. Tällä mallilla voisi ennus- taa aineiston tulevia arvoja suuntaa-antavasti, mutta ei täysin tarkasti.
4 GARCH-malli
Autoregressiivinen ehdollinen heteroskedastinen malli, ARCH(m) (autoregres- sive conditional heteroscedastic model) ja yleistetty autoregressiivinen ehdol- linen heteroskedastinen malli, GARCH(s, m) (generalized autoregressive con- ditional heteroscedastic model), on kehitetty volatiliteetin muutoksien mal- lintamiseen. Nämä mallit perustuvat tuoton tarkkailemiselle. Tällä tuotolla on yleensä muuttuva varianssi. [5, s. 280] Siitä johtuukin mallille nimi hete-
−4 0 2 4
−4024
Re(polyroot(c(1, −0.8864)))
Im(polyroot(c(1, −0.8864))) −4 0 2 4
−4024
Re(polyroot(c(1, −0.5136)))
Im(polyroot(c(1, −0.5136)))
Kuva 14: Differoituun austres aineistoon sovitetun ARMA(1,1)-malli on sekä kausaalinen, että invertoituva.
roskedastinen, mikä merkitsee erivarianssista. ARCH- ja GARCH-mallit ovat yhden muuttujan volatiliteettimalleja [6, s. 110].
4.1 Volatiliteetti
Tässä tutkielmassa volatiliteetillä tarkoitetaan tuoton ehdollista keskihajon- taa. Volatiliteetillä tarkoitetaan siis tuoton vaihtelua. Volatiliteetin mallinta- misella voidaan parantaa parametrien arvioimisen tehokkuutta ja tarkkuut- ta aikavälien ennustamisessa. Osakkeiden tuottoja ajateltaessa volatiliteettiä ei voi suoraan havainnoida päivittäisestä aineistosta, koska aineisto sisältää vain yhden havainnon keskihajonnasta. Volatiliteetillä on kuitenkin tunnuso- maisia piirteitä tuottojen kannalta.
• Volatiliteetti esiintyy ryppäinä. Joinakin aikajaksoina se on voi olla korkeampi ja joinakin matalampi.
• Volatiliteetti kehittyy ajan kanssa jatkuvalla tavalla. Suuret heittelyt volatiliteetissä ovat harvinaisia.
• Volatiliteetti ei hajaannu äärettömyyteen. Se vaihtelee jollakin tietyllä määrätyllä välillä. Tästä johtuen volatiliteetti on usein stationaarinen.
• Volatiliteetti reagoi erilailla suuriin vaihteluihin hinnoissa. Tästä puhu- taan vipuvaikutuksena.
Nämä tunnusomaiset piirteet ovat keskeisessä osassa volatiliteettimalleja ke- hitettäessä. [6, s. 109-111]
4.2 Autoregressiivinen ehdollinen heteroskedastinen mal- li ARCH
Autoregressiivisellä ehdollisella heteroskedastisellä mallilla on kaksi peruso- letusta. Ensinnäkin, että tuotto yt ei ole sarjallisesti korreloituva, mutta on riippuva. Toiseksi tuotonytriippuvuus voidaan kuvata sen aiemmista arvois- ta kootulla yksinkertaisella neliöllisellä funktiolla. [6, s. 115-116]
Huomautus. (vrt. [6, s. 3-5]) Tässä tutkielmassa muuttujalla yt tarkoitetaan osakkeen nettotuottoa. Nettotuotto tarkoittaa siis pelkkää tuottoa. Osakkeen bruttotuottoa merkitään 1 +yt. Bruttotuotolla tarkoitetaan osakkeen arvoa ja siinä tapahtunutta muutosta (kasvua).
Määritelmä 4.1. (vrt. [5, s. 280]) Olkoon xt osakkeen arvo ajanhetkellä t.
Tällöin osakkeen tuotto voidaan laskea kaavalla yt= xt−xt−1
xt−1
. Määritelmä 4.2. (vrt. [6, s. 5])
Merkitään logaritmistä bruttotuottoa muuttujallaYt. Määritellään muut- tuja Yt kaavalla
Yt= ln (1 +yt) = ln xt
xt−1 = lnxt−lnxt−1,
missä merkintä 1 +yttarkoittaa siis bruttotuottoa. Logaritmisellä bruttotuo- tolla tarkoitetaan jatkuvasti lisättyä tuottoa.
Jatkossa lyhennetään logaritminen bruttotuotto ja viitataan vain log- tuottoon.
Log-tuotoilla Yt on tiettyjä etuja nettotuottoihin yt nähden. Ajatellaan esimerkiksi monien ajanjaksojen tuottoja. Kirjoitetaan
Yt[k] = ln (1 +yt[k]) = ln [(1 +yt)(1 +yt−1)· · ·(1 +yt−k+1)]
= ln (1 +yt) + ln (1 +yt−1) +· · ·+ ln (1 +yt−k+1)
=Yt+Yt−1+· · ·+Yt−k+1.
Merkintä yt[k] tarkoittaa tuottoa tietyllä aikavälillä, yt[k] = xtx−xt−k
t−k . Mo- nien ajanjaksojen log-tuotto on siis yksinkertaisesti yksien ajanjaksojen log- tuottojen summa. Lisäksi log-tuottojen tilastolliset ominaisuudet ovat hel- posti käsiteltäviä. [6, s. 5]
Määritelmä 4.3. (vrt. [6, s. 116]) Yleinen astetta m oleva ARCH-malli on muotoa
yt =σtǫt
σt2 =α0+α1yt−12 +· · ·+αmy2t−m,
missä ǫt ∼ iidN(0,1) ja kertoimille α pätee, että α0 > 0 ja αi ≥ 0 kaikille i >0.
Huomataan, että
• tuoton yt ehdoton keskiarvo on 0. Siis
E(yt) =E[E(yt|Ft−1)] =E[σtE(ǫt)] = 0,
missäFt−1on ajanhetkellät−1 ollut tietomäärä eliFt−1 ={yt−1, yt−2, . . .},
• tuoton yt ehdoton varianssi saadaan kaavalla
V ar(yt) = E(yt2) = E[E(yt2|Ft−1)] =E(α0+α1y2t−1) = α0+α1E(y2t−1).
Nyt kuitenkin yt on stationaarinen, jolloin E(yt) = 0 ja V ar(yt) = V ar(yt−1) =E(y2t−1). Täten V ar(yt) = α0+α1V ar(yt). Edelleen V ar(yt) = 1−αα01. Lisäksi vaaditaan, että 0≤α1 <1.
[6, s. 117-118]
Esimerkki 4.1. Yksinkertainen ARCH(1)-malli tuotolle on yt=σtǫt
σt2 =α0+α1yt−12 ,
missä ǫt on normaalista valkoista kohinaa eli ǫt ∼iidN(0,1). Lisäksi määri- tellään, että α1 ei saa olla negatiivinen, muutoin siitä voi seurataσt2 negatii- visuus. [5, s. 281]
Huomataan, että ARCH(1)-mallit palautuvat valkoisen kohinan proses- seiksi, joilla on muuttuva ehdollinen varianssi ja tämä ehdollinen varianssi riippuu edellisistä tuotoista. Lisäksi voidaan päätellä:
• Jos 0≤α1 <1, niin prosessi yt on itsessään valkoinen kohina. Tällöin sen ehdoton jakauma on symmetrisesti jakautunut luvun 0 ympärille.
• Jos 3α21 <1, niin muuttujan yt neliö, yt2, on kausaalinen AR(1)-malli.
Jos taas 3α21 ≥1 ja α1 < 1, niin yt2 on vahvasti stationaarinen ja sillä on ääretön varianssi.
[5, s. 281-282]
Esimerkki 4.2. Tarkastellaan jälleen austres-aineistoa Australian asukas- määrästä. Aineisto logaritmoidaan ensin ja sitten differoidaan. Nyt muuttu- ja Y merkitsee suhteellista kasvunopeutta. Kuvassa 15 näkyvät muokatun aineiston kuvaaja sekä ACF- ja PACF-kuvaajat. PACF-kuvaajan mukaan AR(3)-malli voisi sopia hyvin aineistoon. Sovitetaan muokattuun aineistoon AR(3)-malli, jonka yhtälö on nyt muotoa
Yt=−0,01086432−0,5403∗Yt−1−0,4664∗Yt−2−0,2567∗Yt−3+wt, missä wt∼iidN(0,0,04518).
Time
asukasmäärän_tuotto
0 20 40 60 80
−1.00.01.0
0 5 10 15
−0.20.41.0
Lag
ACF
Series asukasmäärän_tuotto
5 10 15
−0.30.0
Lag
Partial ACF
Series asukasmäärän_tuotto
Kuva 15: Logaritmoitu ja differoitu austres-aineistoYt(kuvaaja yllä) ja muut- tujan Yt ACF-kuvaaja (keskellä) ja PACF-kuvaaja (alla).
Lisätään nyt AR(3)-malliin ARCH-vaikutus. (Luvussa 4.5 käsitellään mi- ten aineistosta tutkitaan onko ARCH-vaikutuksia olemassa.) Tällöin AR(3)-