• Ei tuloksia

ARIMA- ja GARCH-mallit sekä mallin sovittaminen osakeaineistoon

N/A
N/A
Info
Lataa
Protected

Academic year: 2022

Jaa "ARIMA- ja GARCH-mallit sekä mallin sovittaminen osakeaineistoon"

Copied!
51
0
0

Kokoteksti

(1)

TAMPEREEN YLIOPISTO Pro gradu -tutkielma

Laura Lizana Bister

ARIMA- ja GARCH-mallit sekä mallin sovittaminen osakeaineistoon

Informaatiotieteiden laitos Matematiikka

Syyskuu 2011

(2)

Tampereen yliopisto

Informaatiotieteiden yksikkö

LIZANA BISTER, LAURA: ARIMA- ja GARCH-mallit sekä mallin sovitta- minen osakeaineistoon

Pro gradu -tutkielma, 48 s., 3 liites.

Matematiikka Syyskuu 2011

Tiivistelmä

Tutkielmassa käsitellään stokastisia malleja, joita voidaan käyttää esimerkik- si osakkeiden tulevien arvojen ennustamiseen. Malleja on useita erilaisia ja tässä tutkielmassa keskitytään ARIMA- ja GARCH-malleihin, jotka muodos- tuvat useammasta eri osasta. Tutkielmassa tutustutaan mallien ymmärtämi- sen kannalta tärkeisiin käsitteisiin. Tutkielman alussa on luku, johon on koot- tu erilaisia määritelmiä ja tietoja, joita tarvitaan tutkielman edetessä. En- simmäiseksi tutustutaan ARIMA-malliin, joka on lineaarinen malli. ARIMA- mallissa varianssit pysyvät vakiona. Satunnaisuutta malliin tuo lähinnä val- koinen kohina. Tarkastellaan aineistoon sopivan ARIMA-mallin valitsemis- ta ja valitun mallin sovittamista aineistoon. Toiseksi tutustutaan GARCH- malliin, joka on epälineaarinen malli. GARCH-mallissa otetaan huomioon vo- latiliteetti, eli niin sanottu vaihtelu tai heilahtelu. GARCH-mallin voi raken- taa ARIMA-mallin päälle. GARCH-mallissa varianssit vaihtelevat, ne muut- tuvat havaintoarvon ja edellisen varianssin arvon mukaan. GARCH-mallit soveltuvat hyvin osakkeiden volatiliteetin ennustamiseen. Lisäksi käsitellään aineistoon sopivan GARCH-mallin valitsemista. Kolmanneksi etsitään sopiva malli Nokian osakeaineistoon. Etsintä aloitetaan ARIMA-mallista, joka sisäl- lytetään GARCH-malliin. Saatu malli sovitetaan aineistoon ja valitun mallin avulla ennustetaan osakkeen tulevia arvoja. Lisäksi osakkeelle määritellään Value at Risk -luku, joka kertoo suurimmasta mahdollisesta menetyksestä epätavallisessa tilanteessa.

(3)

Sisältö

1 Johdanto 4

2 Esitietoja 4

2.1 Stationaarisuus . . . 5

2.2 Korrelaatio ja autokorrelaatiofunktio . . . 5

2.3 Valkoinen kohina . . . 6

2.4 Satunnaiskulku . . . 6

2.5 Informaatiokriteerit . . . 7

2.6 Uskottavuus . . . 9

3 ARIMA-malli 9 3.1 Autoregressiivinen malli AR . . . 9

3.2 Liukuvan keskiarvon malli MA . . . 13

3.3 Autoregressiivinen liukuvan keskiarvon malli ARMA . . . 14

3.4 Autoregressiivinen integroitu liukuvan keskiarvon malli ARIMA 19 3.5 ARIMA-mallin sovittaminen aineistoon . . . 21

4 GARCH-malli 25 4.1 Volatiliteetti . . . 26

4.2 Autoregressiivinen ehdollinen heteroskedastinen malli ARCH . 27 4.3 Yleinen autoregressiivinen ehdollinen heteroskedastinen malli GARCH . . . 30

4.4 Integroitu yleinen autoregressiivinen ehdollinen heteroskedas- tinen malli IGARCH . . . 31

4.5 GARCH-mallin sovittaminen aineistoon . . . 32

5 Osakeaineisto 35 5.1 Mallin määrittäminen . . . 35

5.2 Value at Risk . . . 40

5.3 Osakkeen Value at Risk -luvun määrittäminen . . . 44

6 Yhteenveto 47

Viitteet 48

Liite 49

(4)

1 Johdanto

Tämän tutkielman luvussa 2 käsitellään niitä esitietoja, joita tarvitaan tut- kielman lukemiseen. Aikasarja-analyysissä keskeisimpiä käsitteitä ovat sta- tionaarisuus ja riippuvuus. Luvussa 2 esitellään määritelmiä, joihin aikasar- jamallit perustuvat. Määritelmät ovat tärkeitä aikasarjojen ymmärtämisen ja toimivuuden kannalta.

Tutkielman luvussa 3 tutkitaan ARIMA-mallin muodostumista. Ensim- mäiseksi esitellään AR- ja MA-mallit, joista voidaan koota ARMA-malli.

ARMA-mallia integroimalla saadaan ARIMA-malli. ARIMA-mallin avulla voidaan tutkia lineaaristen aikasarjojen käyttäytymistä. Luvussa 3.5 esitel- lään kuinka ARIMA-malli sovitetaan aineistoon. Vasta luvussa 3.5 perehdy- tään tarkemmin aineistoon, mallin valintaan ja mallin sopivuuden tarkaste- luun residuaalien avulla.

Luvussa 4 tarkastellaan GARCH-mallia, joka on epälineaarinen malli.

Aluksi esitellään ARCH-malli, jonka yleistys on GARCH-malli. Luvussa 4.5 etsitään ARCH-vaikutuksia ja esitellään kuinka GARCH-malli sovitetaan ai- neistoon.

Luvussa 5 tarkastellaan Nokian osakkeen arvoa. Osakkeen arvosta kooste- taan aineisto, johon sijoitetaan ensin ARIMA- ja sitten GARCH-malli. Saa- dun mallin avulla ennustetaan osakkeen tulevia arvoja. Lisäksi määritellään osakkeelle Value at Risk -luku.

Tutkielman lukijalta edellytetään perustiedot matematiikasta ja tilasto- tieteestä. Matematiikan osalta peruskäsitteitä ovat esimerkiksi yksikköjuuri ja differointi. Tilastotieteen peruskäsitteisiin luetaan muun muassa odotusar- vo ja varianssi. Lukijan oletetaan tuntevan matematiikan ja tilastotieteen yleisesti käytössä olevat merkintätavat. Tutkielmassa käytetään esimerkkei- hin R-ohjelmistosta löytyviä aineistoja austres ja lynx. Aineistot esitellään liitteessä. Aineistoja muokataan ja käsitellään malleille soveltuvaan muotoon vasta luvuissa 3.5 ja 4.5. Ennen sitä aineistoihin sovitetaan malleja esimer- kinomaisesti. Tutkielmassa aineistojen käsittelyyn käytetään R-ohjelmistoa.

Tutkielman päälähteet ovat Shumwayn ja Stofferin kirja Time Series Ana- lysis and Its Applications With R Examples ja Tsayn kirja Analysis of Fi- nancial Time Series. Keskeisessä osassa on myös Koskelan, Ronkaisen ja Puustellin julkaisu Equity and interest rate models in long-term insurance simulations.

2 Esitietoja

Tässä luvussa esitellään aikasarja-analyysissa useasti käytettyjä määritelmiä.

Näitä määritelmiä ja tietoja tarvitaan tutkielman lukemisessa. Määritelmät on annettu vain yleisluontoisesti.

Tutkielmassa käytetään merkintääxt. Tämä merkintä voi tarkoittaa sekä

(5)

aikasarjaa, että sen yksittäistä havaintoa. Kun kyseessä on yksittäinen ha- vainto, niin kyseinen havainto voi olla satunnaismuuttuja tai sen toteuma.

Asianyhteydestä ilmenee kumpi.

2.1 Stationaarisuus

Aikasarjanxtsanotaan olevan vahvasti stationaarinen jos havaintojen (xt1, xt2, xt3, . . . , xtk) yhteisjakauma on sama kuin havaintojen (xt1+h, xt2+h, xt3+h, . . . , xtk+h) yhteisjakauma kaikille k = 1,2, . . ., kaikille ajanhetkille t1, . . . , tk ja kaikille siirtymille h = 0,±1,±2, . . .. Vahvasti stationaarinen aikasarja siis pysyy muuttumattomana ajan muutoksien suhteen.

Aikasarjan xt sanotaan olevan heikosti stationaarinen, jos sekä muuttu- jan xt keskiarvo että muuttujien xt ja xt−h välinen kovarianssi, ovat ajan suhteen muuttumattomia, missä lukuh on mielivaltainen kokonaisluku. Sar- ja xt on siis heikosti stationaarinen, jos odotusarvo E(xt) = µ on vakio ja Cov(xt, xt−h) =γh on riippuva vain luvusta h.

Aikasarjojen oletetaan usein olevan heikosti stationaarisia. Tämä sallii tehdä ennusteita tulevista havainnoista. Vahvaa stationaarisuutta on vaikea todentaa empiirisesti.[6, s. 30] Tässä tutkielmassa heikosta stationaarisuu- desta puhutaan stationaarisuutena. Erikseen mainitaan, jos stationaarisuus merkitsee vahvaa stationaarisuutta.

2.2 Korrelaatio ja autokorrelaatiofunktio

Korrelaatio mittaa satunnaismuuttujien välistä lineaarista riippuvuutta. Muut- tujien uja v välistä lineaarista riippuvuutta merkitään korrelaatiokertoimen avulla ρu,v. Korrelaatiokerroin saa arvoja väliltä [−1,1]. Lisäksi ρu,v = ρv,u. Jos muuttujien välinen korrelaatiokerroin saa arvon 0, niin muuttujat ovat lineaarisesti riippumattomat. [6, s. 30]

Määritelmä 2.1. (ks. [6, s. 30]) Kahden satunnaismuuttujanu jav välinen korrelaatiokerroin määritellään kaavalla

ρu,v = Cov(u, v)

qV ar(u)V ar(v) = E[(uµu)(v−µv)]

qE(uµu)2E(vµv)2,

missä µu ja µv ovat muuttujien u ja v odotusarvot. Varianssien oletetaan olevan olemassa.

Oletetaan, että xt on heikosti stationaarinen aikasarja. Tällöin havain- tojen xt ja xt−h välistä lineaarista riippuvuutta tarkasteltaessa yleistetään korrelaatio autokorrelaatioksi. Havaintojen xt ja xt−h välistä korrelaatioker- rointa merkitäänρh. Heikon stationaarisuuden vuoksi funktioρh riippuu vain suureesta h. [6, s. 31]

(6)

Määritelmä 2.2. (ks. [6, s. 31]) Autokorrelaatiofunktio ACF (autocorrela- tion function) määritellään kaavalla

ρh = Cov(xt, xt−h)

qV ar(xt)V ar(xt−h) = Cov(xt, xt−h) V ar(xt) = γh

γ0,

missä ρh on korrelaatiokerroin, joka mittaa muuttujien xt ja xt−h välistä riippuvuutta. Selvästi ρ0 = 1, ρh = ρ−h ja −1 ≤ ρh ≤ 1. Määritelmässä oletetaan, että aikasarja xt on heikosti stationaarinen. Edellä on myös käy- tetty heikosta stationaarisuudesta seuraavaa ominaisuutta, että V ar(xt) = V ar(xt−h).

Määritelmä 2.3. (ks. [5, s. 107]) Osittaisautokorrelaatiofunktiota PACF (partial autocorrelation function) merkitään parametrilläφhh, kunh= 1,2, . . . ja siinä oletetaan, että aikasarjaxt on heikosti stationaarinen. PACF määri- tellään kaavoilla

φ11 =Corr(x1, x0) = ρ(1) ja

φhh=Corr(xhxh−1h , x0xh−10 ), kun h≥2.

Kaavassa merkintä Corr(u, v) tarkoittaa korrelaatiokerrointa ρu,v, xh−1h = E(xh |x1, . . . , xh−1) jaxh−10 =E(x0 |x1, . . . , xh−1). Nyt sekä xhxh−1h , että x0xh−10 ovat riippumattomia sarjan (x1, x2, . . . , xh−1) kanssa. Stationaari- suuden seurauksena parametri φhh on ehdollinen korrelaatio muuttujien xt

ja xt−h välillä.

2.3 Valkoinen kohina

Sarjaawtkutsutaan valkoiseksi kohinaksi (white noise) joswtkoostuu samoin jakautuneista satunnaismuuttujista, joilla on odotusarvo 0 ja äärellinen va- rianssi. Merkitään wtW N.

Lisäksi jos wtkoostuu riippumattomista muuttujista ja se on jakautunut odotusarvonaan 0 ja varianssina σ2, niin merkitään wtiid(0, σ2). Tätä sarjaa kutsutaan valkoiseksi riippumattomaksi kohinaksi.

Jos wt on normaalijakautunut odotusarvonaan 0 ja varianssina σ2, niin sarjaa kutsutaan normaaliseksi valkoiseksi kohinaksi. Merkitään wtiidN(0, σ2). [5, s. 12]

Esimerkki 2.1. Kuva 1 on normaalisesta valkoisesta kohinasta. Siinä on 500 havaintoa prosessista iidN(0,1).

2.4 Satunnaiskulku

Mallia, jolla voidaan analysoida suuntausta, kutsutaan satunnaiskuluksi (Ran- dom walk). Malli koostuu muuttujanxt edellisestä arvosta ja valkoisesta ko- hinasta. Siitä johtuukin nimi satunnaiskulku. Jos malliin otetaan mukaan

(7)

Time

w

0 100 200 300 400 500

−3−113

Kuva 1: Normaalinen valkoinen kohina.

trendi, niin malli on muotoa

xt=δ+xt−1 +wt,

missä t = 1,2, . . ., alkuehto on x0 = 0 ja wt on valkoista kohinaa. Vakio- ta δ kutsutaan trendiksi (drift). Tällöin mallia kutsutaan satunnaiskuluksi trendillä. Jos δ = 0, niin kyseessä on normaali satunnaiskulku. [5, s. 15-16]

Satunnaiskulkumalli on hyvin tunnettu esimerkki epästationaarisesta yksik- köjuurisesta aikasarjasta [6, s. 72].

Esimerkki 2.2. Kuvassa 2 on satunnaiskulku ilman trendiä. Siinä on 200 havaintoa prosessista iidN(0,1).

2.5 Informaatiokriteerit

Mallien soveltuvuutta aineistoon voidaan tarkastella erilaisten informaatio- kriteerien avulla. Akaiken informaatiokriteerin, AIC (Akaike’s Information Criterion), tarkoituksena on löytää tasapaino mallin sovitusvirheen ja para- metrien lukumäärän välillä. [5, s. 53]

Määritelmä 2.4. (ks. [5, s. 53]) Akaiken informaatiokriteeri määritellään kaavalla

AIC =ln(ˆσk2) + n+ 2k n ,

missä ˆσk2 = RSSnk, RSSk on residuaalien neliöiden summa, k on parametrien lukumäärä mallissa ja n on havaintojen lukumäärä.

(8)

Time

x

0 50 100 150 200

0510

Kuva 2: Satunnaiskulku ilman trendiä.

Akaiken informaatiokriteerin saama pienin arvo määrittelee parhaimman mallin aineistolle, toisin sanoen parhaimman mallin asteluvut. Akaiken infor- maatiokriteeri voi kuitenkin käyttää liikaa parametrejä. Tämän virheen vält- tämiseksi on kehitetty Korjattu Akaiken informaatiokriteeri, AICC (Akaike’s Information Criterion Bias Corrected). (Katso N. Sugiuran teos Further ana- lysis of the data by Akaikes’s information criterion and the finite corrections (1978)) [5, s. 53-54]

Määritelmä 2.5. (ks. [5, s. 54]) Korjattu Akaiken informaatiokriteeri mää- ritellään kaavalla

AICC =ln(ˆσk2) + n+k nk−2,

missä ˆσk2 = RSSn k, k on parametrien lukumäärä mallissa ja n on havaintojen lukumäärä.

Korjatun Akaiken informaatiokriteerin on todettu olevan ylivertainen pie- nempiä aineistoja tarkasteltaessa. Lisäksi on kehitetty Schwarzin informaa- tiokriteeri, SIC (Schwarz’s Information Criterion), joka onnistuu antamaan hyviä astelukuja malleille suurista aineistoista. Schwarzin informaatiokritee- riä kutsutaan myös Bayes-informaatiokriteeriksi, BIC (Bayesian Information Criterion). [5, s. 54]

Määritelmä 2.6. (ks. [5, s. 54]) Schwarzin informaatiokriteeri määritellään kaavalla

SIC =ln(ˆσk2) + klnn n ,

missä ˆσk2 = RSSn k, k on parametrien lukumäärä mallissa ja n on havaintojen lukumäärä.

(9)

Tutkielmassa käytetään jatkossa lyhennettä BIC viitattaessa määritel- mään 2.6.

2.6 Uskottavuus

Oletetaan, että xt on kausaalinen ARMA(p, q)-prosessi (katso luku 3.3 ja määritelmä 3.7), jossawtiidN(0, σ2w). Olkoon lisäksiβ= (µ, φ1, . . . , φp, θ1, . . . , θq) parametreistä muodostettu (p+q+ 1)-vektori. Mallin uskottavuus- funktio on

L(β, σ2w) = (2πσ2w)−n/2(r10(β)r12(β)· · ·rnn−1(β))−1/2expS(β)w2

,

missä

S(β) =

n

X

t=1

(xtxt−1t (β))2 rt−1t (β)

.

Tässä sekä xt−1t , että rt−1t ovat vektorin β funktioita,xt−1t =E(xt |x1, . . . , xt−1) ja rt−1t = V ar(xt | x1, . . . , xt−1). [5, s. 128] Mallin uskottavuutta käy- tetään esimerkiksi määrittelemään AIC-, AICC- ja BIC-luvut.

3 ARIMA-malli

Autoregressiivinen integroitu liukuvan keskiarvon malli, ARIMA(p, d, q), koos- tuu useasta eri vaiheesta ja mallista. Aluksi määritellään autoregressiivinen malli, AR(p), ja liukuvan keskiarvon malli, MA(q). Näistä malleista yhdis- tämällä saadaan autoregressiivinen liukuvan keskiarvon malli, ARMA(p, q).

Integroimalla ARMA(p, q)-malli saadaan ARIMA(p, d, q)-malli, missä lukud on integroimiskertojen lukumäärä ja luvut p ja q ovat AR- ja MA-mallien asteluvut.

ARMA-malleissa muuttujat ovat lineaarisesti riippuvia menneistä arvois- taan ja valkoisesta kohinasta. ARMA-mallit muodostavat hyvin kattavan ja käyttökelpoisen osan lineaarisista aikasarjamalleista. [1, s. 19] ARMA-mallit perustuvat oletukselle, että varianssit pysyvät vakioina [5, s. 280].

3.1 Autoregressiivinen malli AR

Autoregressiivisten mallien (autoregressive model) perusoletuksena on, et- tä sarjan xt nykyinen arvo voidaan selittää muodostamalla funktio arvon xt menneistä arvoista xt−1, xt−2, . . . , xt−p, missä p määrittää kuinka monta edellistä askelta tarvitaan, jotta voidaan ennustaa nykyinen arvo xt. Auto- regressiivisissä malleissa muuttujaxt voidaan esittää selittäjien lineaarikom- binaation ja virhetermin summana. [5, s. 85]

(10)

Määritelmä 3.1. (ks. [5, s. 85-86]) Yleinen autoregressiivinen astettapoleva mallin yhtälö on muotoa

xt =φ1xt−1+φ2xt−2+· · ·+φpxt−p+wt,

missäxton stationaarinen,pon ei-negatiivinen kokonaisluku, kertoimetφ1, φ2, . . . , φp, (φp 6= 0), ovat vakioita, muuttujatxt−i (i= 1, . . . , p) ovat muuttajan xt edelliset arvot ja wtiidN(0, σ2). Tässä mallin yhtälössä oletetaan, että muuttujan xt odotusarvo on 0. Merkitään AR(p).

Huomataan, että jos muuttujan xt odotusarvo on erisuuri kuin 0, niin voidaan korvataan xt muuttujalla xtµ. Tällöin

xtµ=φ1(xt−1µ) +φ2(xt−2µ) +· · ·+φp(xt−pµ) +wt

tai vaihtoehtoisesti

xt=φ0+φ1xt−1+φ2xt−2+· · ·+φpxt−p+wt, missä φ0 =µ(1φ1− · · · −φp).

Määritelmä 3.2. (ks. [5, s. 86]) Autoregressiivinen operaattori määritellään φ(B) = 1φ1Bφ2B2− · · · −φpBp.

Esimerkki 3.1. Yksinkertainen autoregressiivinen malli AR(1) on muotoa xt =φ1xt−1+wt,

missä φ1 on vakio, muuttuja xt−1 on muuttajan xt edellinen arvo ja wtiidN(0, σ2). [5, s. 85-89]

Yksinkertainen autoregressiivinen malli AR(1) muistuttaa yksinkertaista lineaarista regressiomallia, missä xt on selitettävä ja xt−1 on selittävä muut- tuja [6, s. 37].

Esimerkki 3.2. Tarkastellaan austres-aineistoa Australian asukasmäärästä (katso liite). Asukasmäärä näyttää olevan lineaarisesti riippuva, joten AR- malli soveltuu hyvin aineistoon. Tehdään aineistosta ensin stationaarinen dif- feroimalla aineisto. Sovittamalla malli aineistoon saadaan AR(4)-malli, missä kertoimien arvot ovat

φ1 = 0,4058, φ2 = 0,0302, φ3 = 0,1519, φ4 = 0,2025.

Tällöin AR(4)-mallin yhtälö on muotoa

xt= 10,92921+0,4058∗xt−1+0,0302∗xt−2+0,1519∗xt−3+0,2025∗xt−4+wt, missä vakiotermi φ0 = 10,92921 lasketaan vähentämällä luvusta 1 muuttu- jienxt−1, . . . , xt−4 kertoimetφ1, . . . , φ4 ja kertomalla saatu luku R-ohjelmassa

(11)

lasketulla vakiotermillä (odotusarvolla) 52,1432. Tässä wtiidN(0,90,98).

Kuvassa 3 on simuloitu Australian asukasmäärä AR(4)-mallin avulla.

Verrataan mallin antamia arvoja todellisiin arvoihin. Lasketaan siis en- simmäisten neljän havainnon jälkeen mallin avulla seuraavien havaintojen arviot. Merkitään näitä mallin antamia havaintoarvioita muuttujalla a. Va- litaan tarkastelun kohteeksi vuosien 1973, 1983, 1993 toiset vuosineljännek- set. Palautetaan samalla differoitu aineisto takaisin alkuperäiseen muotoon.

Tällöin

a1973|2 = 10,92921 + 0,4058∗at−1+ 0,0302∗at−2+ 0,1519∗at−3 + 0,2025∗at−4+wt = 13580,58

a1983|2 = 10,92921 + 0,4058∗at−1+ 0,0302∗at−2+ 0,1519∗at−3

+ 0,2025∗at−4+wt = 16324,43

a1993|2 = 10,92921 + 0,4058∗at−1+ 0,0302∗at−2+ 0,1519∗at−3

+ 0,2025∗at−4+wt = 18387,69

Todelliset arvot ovat: x1973|2 = 13504,5, x1983|2 = 15393,5 ja x1993|2 = 17661,5. Tässä tapauksessa malli AR(4) kuvaa melko hyvin asukasmäärän muutosta. Pidemmällä aikavälillä mallin antaa liian suuria arvoja.

Time

asukasmäärä

0 20 40 60 80

1300018000

Kuva 3: Australian asukasmäärä simuloituna AR(4)-mallilla.

Huomautus. Monissa tutkielman esimerkeissä verrataan mallin antamia ar- voja todellisiin arvoihin. Nämä havaintoarviot lasketaan aineiston ensimmäi- sen havainnon (ensimmäisten havaintojen) avulla. Ensimmäiseen havaintoon lisätään mallin antaman kaavan luvut ja muuttuja wt, joka valitaan satun- naisesti. Tutkielman esimerkeissä merkitään mallin antamia havaintoarvioita muuttujallaa. Näissä esimerkeissä verrataan aineiston todellisia arvoja mal- lin antamiin arvioihin mallin havainnollistamiseksi. Mallin sopivuutta tut- kiessa tulee tarkastella residuaaleja. Niitä tutkitaan vasta luvussa 3.5.

(12)

Esimerkki 3.3. Tarkastellaan lynx-aineistoa ilvesten pyydystämisestä (kat- so liite). Sarjassa on havaittavissa säännöllinen kausivaihtelu. Sijoitetaan AR- malli aineistoon R-ohjelmassa. Saadaan AR(8)-malli, missä kertoimien arvot ovat

φ1 = 1,0554, φ2 =−0,6298, φ3 = 0,2105, φ4 =−0,1438, φ5 =−0,0200, φ6 = 0,0373, φ7 =−0,2342, φ8 = 0,3322.

Tällöin AR(8)-mallin yhtälö on muotoa

xt= 618,5879 + 1,0554∗xt−1−0,6298∗xt−2+ 0,2105∗xt−3

−0,1438∗xt−4−0,0200∗xt−5+ 0,0373∗xt−6−0,2342∗xt−7 + 0,3322∗xt−8+wt,

missä vakiotermi on 618,5879 ja wtiidN(0,616995).

Verrataan mallin antamia arvoja todellisiin arvoihin. Valitaan tarkastelun kohteeksi vuodet 1834 ja 1934. Tällöin

a1834 = 618,5879 + 1,0554∗a1833 −0,6298∗a1832 + 0,2105∗a1831

−0,1438∗a1830−0,0200∗a1829+ 0,0373∗a1828

−0,2342∗a1827+ 0,3322∗a1826+wt= 993

a1934 = 618,5879 + 1,0554∗a1933 −0,6298∗a1932 + 0,2105∗a1931

−0,1438∗a1930−0,0200∗a1929+ 0,0373∗a1928

−0,2342∗a1927+ 0,3322∗a1926+wt= 2088

Todelliset arvot ovat x1834 = 279 ja x1934 = 3396. AR(8) malli ei sovi hyvin aineistoon, joten mallin tuottamat ennustukset eivät ole kovin tarkkoja ja luotettavia. Kuvassa 4 on simuloituna AR(8)-mallin kuvaaja.

Time

ilvesten_määrä

0 20 40 60 80 100

−20004000

Kuva 4: Ilvesten määrä simuloituna AR(8)-mallilla.

(13)

3.2 Liukuvan keskiarvon malli MA

Vaihtoehtona autoregressiomallille on olemassa liukuvan keskiarvon malli.

Astetta q olevan liukuvan keskiarvon malli MA(q) (moving average model) olettaa, että lineaarikombinaatio valkoisesta kohinasta wt selittää muuttu- jan xt. Liukuvan keskiarvon malli on stationaarinen kaikilla parametrien θ1, θ2, . . . , θq arvoilla. [5, s. 90-91]

Määritelmä 3.3. (ks. [5, s. 90]) Yleinen liukuvan keskiarvon astettaqoleva malli on muotoa

xt=wt+θ1wt−1+θ2wt−2+· · ·+θqwt−q,

missä asteluku q kuvaa viiveitä liukuvassa keskiarvossa ja θ1, θ2, . . . , θq, (θq 6= 0), ovat parametrejä ja wtiidN(0, σ2). Merkitään MA(q).

Määritelmä 3.4. (ks. [5, s. 91]) Liukuvan keskiarvon operaattori määritel- lään

θ(B) = 1 +θ1B+θ2B2+· · ·+θqBq.

Esimerkki 3.4. Yksinkertainen liukuvan keskiarvon malli MA(1) on muotoa xt =wt+θwt−1,

missä θ on parametri jawtiidN(0, σ2). [5, s. 91]

Esimerkki 3.5. Sovitetaan aineistoon lynx MA-malli asteella 1, missä ker- roin on θ1 = 0,7934. Mallin kaava tulee muotoon

xt= 1538,018 +wt+ 0,7934∗wt−1,

missä wtiidN(0,1115573) ja luku 1538,018 on aineiston odotusarvo. Ku- vassa 5 on simuloitu MA(1)-mallin kuvaaja, jossa ensimmäinen havainto on saatu lynx-aineistosta ja sen perusteella laskettu muiden havaintojen arviot.

Verrataan mallin antamia arvoja todellisiin arvoihin. Tarkastellaan edelleen vuosia 1834 ja 1934. Tällöin

a1834 = 1538,018 +wt+ 0,7934∗wt−1 = 1515,217 a1934 = 1538,018 +wt+ 0,7934∗wt−1 = 1553,808.

Todelliset arvot ovat x1834 = 279 ja x1934 = 3396. Selvästi yksinkertainen MA(1)-malli ei sovi aineistoon. Mallissa ilvesten määrä heittelehtii vain kes- kiarvon ympärillä ja malli ei huomioi aineistossa olevia suuria heittelyjä.

Esimerkki 3.6. Sovitetaan differoituun austres-aineistoon MA(2)-malli, mis- sä kertoimet ovat

θ1 = 0,5331, θ2 = 0,2272.

(14)

Time

ilvesten_määrä

0 20 40 60 80 100

14501600

Kuva 5: MA(1)-mallin avulla simuloitu ilvesten määrä.

Mallin kaava tulee tällöin muotoon

xt= 52,1064 +wt+ 0,5331∗wt−1+ 0,2272∗wt−2,

missä muuttuja wt on jakautunut wtiidN(0,111,5) ja luku 52,1064 on aineiston odotusarvo. Kuvassa 6 on simuloitu austres-aineistoon sijoitetun MA(2)-mallin kuvaaja.

Verrataan mallin antamia arvoja todellisiin arvoihin. Tarkastelun koh- teena ovat vuosien 1973, 1983 ja 1993 toiset vuosineljännekset. Palautetaan jälleen differoitu aineisto alkuperäiseen muotoon. Tällöin

a1973|2 = 52,1064 +wt+ 0,5331∗wt−1+ 0,2272∗wt−2

= 13559,36

a1983|2 = 52,1064 +wt+ 0,5331∗wt−1+ 0,2272∗wt−2

= 15681,71

a1993|2 = 52,1064 +wt+ 0,5331∗wt−1+ 0,2272∗wt−2

= 17706,40

Todelliset arvot ovatx1973|2 = 13504,5,x1983|2 = 15393,5 jax1993|2 = 17661,5.

MA(2)-malli kuvaa hyvin asukasmäärän muutosta.

3.3 Autoregressiivinen liukuvan keskiarvon malli AR- MA

Puhtaasti autoregressiiviset mallit AR(p) ja puhtaasti liukuvan keskiarvon mallit MA(q) voivat käydä hankaliksi mallien asteiden kasvaessa. Ongelman

(15)

Time

asukasmäärä

0 20 40 60 80

1300017000

Kuva 6: MA(2)-mallin avulla simuloitu asukasmäärä.

poistamiseksi on kehitetty autoregressiivinen liukuvan keskiarvon malli AR- MA (autoregressive moving average model). Autoregressiivinen liukuvan kes- kiarvon malli niin sanotusti yhdistää autoregressio mallin ja liukuvan keskiar- von. Merkitään ARMA(p, q). [6, s. 64]

Määritelmä 3.5. (ks. [5, s. 93]) Aikasarja xt on ARMA(p, q) jos se on stationaarinen ja

xt=φ1xt−1+φ2xt−2+· · ·+φpxt−p+wt+θ1wt−1+θ2wt−2+· · ·+θqwt−q, missä φp 6= 0, θq 6= 0 ja σw2 >0. Edelleen oletetaan, että wt on normaalinen valkoisen kohinan prosessi wtiidN(0, σ2).

Parametrejä p ja q kutsutaan ARMA-mallin asteiksi.

Jos sarjan xt keskiarvo on erisuuri kuin nolla, niin yhtälö tulee muotoon xt=φ0+φ1xt−1+φ2xt−2+· · ·+φpxt−p+wt+θ1wt−1+θ2wt−2+· · ·+θqwt−q,

missä φ0 =µ(1φ1− · · · −φp).

Huomataan, että jos aste q = 0, niin autoregressiivinen liukuvan kes- kiarvon malli, ARMA(p, q), palautuu autoregressio malliksi, AR(p). Vas- taavasti jos aste p = 0, niin autoregressiivinen liukuvan keskiarvon malli, ARMA(p, q), palautuu liukuvan keskiarvon malliksi, MA(q). [5, s. 93]

Esimerkki 3.7. Yksinkertainen autoregressiivinen liukuvan keskiarvon malli ARMA(1,1) on muotoa

xt=φ1xt−1+wt+θ1wt−1,

missä φ1 ja θ1 ovat parametrejä ja wtiidN(0, σ2). [5, s. 93-96]

(16)

Esimerkki 3.8. Sovitetaan ARMA(4,2)-malli differoituun aineistoon austres.

Mallin parametreiksi tulee

φ1 = 0,4765, φ2 =−0,7073, φ3 = 0,4494, φ4 = 0,3020, θ1 =−0,0192, θ2 = 0,9904.

Mallin yhtälö tulee muotoon

xt = 24,99836 +φ1xt−1+φ2xt−2+φ3xt−3+φ4xt−4+wt+θ1wt−1+θ2wt−2

= 24,99836 + 0,4765∗xt−1−0,7073∗xt−2+ 0,4494∗xt−3

+ 0,3020∗xt−4+wt−0,0192∗wt−1+ 0,9904∗wt−2, missä wtiidN(0,76,64). Mallin vakiotermi on 24,99836.

Verrataan mallin antamia arvoja todellisiin arvoihin. Valitaan edelleen tarkastelun kohteeksi vuosien 1973, 1983, 1993 toiset vuosineljännekset. Pa- lautetaan jälleen differoitu aineisto alkuperäiseen muotoon. Tällöin

a1973|2 = 24,99836 + 0,4765∗at−1−0,7073∗at−2+ 0,4494∗at−3

+ 0,3020∗at−4+wt−0,0192∗wt−1+ 0,9904∗wt−2 = 13506,18 a1983|2 = 24,99836 + 0,4765∗at−1−0,7073∗at−2+ 0,4494∗at−3

+ 0,3020∗at−4+wt−0,0192∗wt−1+ 0,9904∗wt−2 = 15509,22 a1993|2 = 24,99836 + 0,4765∗at−1−0,7073∗at−2+ 0,4494∗at−3

+ 0,3020∗at−4+wt−0,0192∗wt−1+ 0,9904∗wt−2 = 17468,02.

Kuten esimerkissä 3.2 kerrottiin, niin aineiston todelliset arvot ovatx1973|2 = 13504,5, x1983|2 = 15393,5 ja x1993|2 = 17661,5. Tässä tapauksessa malli ARMA(4,2) kuvaa tarkasti aineistoa. Kuvassa 7 on simuloituna ARMA(8,2)- mallin kuvaaja.

Time

asukasmäärä

0 20 40 60 80

1300017000

Kuva 7: Australian asukasmäärä simuloituna ARMA(4,2)-mallin mukaisesti.

(17)

ARMA-mallin yleinen määritelmä pitää sisällään joitakin ongelmia.

• Parametroinnin redundanttisuus johtaa tarpeettoman monimutkaiseen esitysmuotoon.

• AR-mallia muutettaessa stationaariseksi voidaan päätyä stationaari- seen AR-malliin, jonka arvot riippuvat tulevista arvoista.

• MA-mallit eivät välttämättä ole yksikäsitteisiä.

Näiden ongelmien välttämiseksi annetaan seuraavaksi määritelmiä mallien parametreille. [5, s. 94]

Määritelmä 3.6. (ks. [5, s. 94]) AR- ja MA-mallien polynomit määritellään seuraavasti

φ(z) = 1φ1z− · · · −φpzp, φp 6= 0 ja

θ(z) = 1 +θ1z+· · ·+θqzq, θq 6= 0,

missäz on kompleksiluku. Parametritφjaθmääritellään kuten aikaisemmin.

Huomautetaan, että ARMA(p, q)-mallin tulee aina olla yksinkertaisim- massa muodossaan. Oletetaan siis, että parametreillä φ(z) ja θ(z) ei ole yh- teisiä tekijöitä. Tällöin vältytään parametrien redundanttisuudelta. [5, s. 95]

Määritelmä 3.7. (ks. [5, s. 95]) ARMA(p, q)-mallin, missäφ(B)xt=θ(B)wt, sanotaan olevan kausaalinen, jos aikasarja xt (missä t on kokonaisluku) voi- daan kirjoittaa yksipuolisena lineaarisena prosessina

xt =

X

j=0

ψjwt−j =ψ(B)wt,

missä ψ(B) = Pj=0ψjBj ja Pj=0|ψj|<∞. Asetetaan ψ0 = 1.

Huomautus. ARMA(p, q)-malli on kausaalinen jos ja vain jos φ(z) 6= 0 kai- killa |z| ≤1. Summan ψ(B) kertoimet ψj voidaan määrittää ratkaisemalla

ψ(z) =

X

j=0

ψjzj = θ(z)

φ(z), |z| ≤1.

Toisin sanoen ARMA-prosessi on kausaalinen vain jos polynominφ(z) juuret sijaitsevat yksikköympyrän ulkopuolella. Tällöin siisφ(z) = 0 vain, kun|z|>

1.

[5, s. 95]

(18)

Määritelmä 3.8. (ks. [5, s. 95]) ARMA(p, q)-mallin, missäφ(B)xt=θ(B)wt, sanotaan olevan kääntyvä, jos aikasarjaxt(missäton kokonaisluku) voidaan kirjoittaa muodossa

π(B)xt=

X

j=0

πjxt−j =wt,

missä π(B) =Pj=0πjBj ja Pj=0|πj|<∞. Asetetaan π0 = 1.

Huomautus. ARMA(p, q)-malli on kääntyvä jos ja vain jos θ(z)6= 0 kaikilla

|z| ≤1. Summan π(B) kertoimet πj voidaan määrittää ratkaisemalla π(z) =

X

j=0

πjzj = φ(z)

θ(z), |z| ≤1.

Toisin sanoen ARMA-prosessi on kääntyvä vain jos polynomin θ(z) juuret sijaitsevat yksikköympyrän ulkopuolella. Tällöin siisθ(z) = 0 vain, kun|z|>

1.

[5, s. 96]

Esimerkki 3.9. Sovitetaan ARMA(8,2)-malli aineistoon lynx. Mallin para- metreiksi tulevat

φ1 = 1,0554, φ2 =−0,6298, φ3 = 0,2105, φ4 =−0,1438, φ5 =−0,0200, φ6 = 0,0373, φ7 =−0,2342, φ8 = 0,3322, θ1 = 0,1160, θ2 = 0,1160.

Mallin yhtälö tulee muotoon

xt= 508,8747 + 1,5054∗xt−1−1,4156∗xt−2+ 0,8427∗xt−3

−0,4534∗xt−4+ 0,1416∗xt−5−0,0501∗xt−6−0,1502∗xt−7

+ 0,2573∗xt−8+wt−0,4912∗wt−1+ 0,3407∗wt−2, missä wtiidN(0,602283). Mallin vakiotermi on 508,8747.

Verrataan mallin antamia arvoja todellisiin arvoihin. Tarkastellaan edel- leen vuosia 1834 ja 1934. Tällöin

a1834 = 508,8747 + 1,5054∗a1833−1,4156∗a1832

+ 0,8427∗a1831−0,4534∗a1830+ 0,1416∗a1829

−0,0501∗a1828−0,1502∗a1827+ 0,2573∗a1826 +wt−0,4912∗wt−1 + 0,3407∗wt−2 = 2203 a1934 = 508,8747 + 1,5054∗a1933−1,4156∗a1932

+ 0,8427∗a1931−0,4534∗a1930+ 0,1416∗a1929

−0,0501∗a1928−0,1502∗a1927+ 0,2573∗a1926

+wt−0,4912∗wt−1 + 0,3407∗wt−2 = 1864.

Todelliset arvot ovat x1834 = 279 ja x1934 = 3396. Kuvassa 8 on simuloituna ARMA(8,2)-mallin kuvaaja. Malli ei sovellu hyvin aineistoon.

(19)

Time

ilvesten_määrä

0 20 40 60 80 100

06000

Kuva 8: Ilvesten määrä simuloituna ARMA(8,2)-mallilla.

3.4 Autoregressiivinen integroitu liukuvan keskiarvon malli ARIMA

Oletetaan, että autoregressiivisen mallin, AR, polynomilla on nollakohtana 1. Tällöin autoregressiivinen liukuvan keskiarvon malli, ARMA, laajentuu ja siitä tulee autoregressiivinen integroitu liukuvan keskiarvon malli (auto- regressive integrated moving average model), ARIMA.

Epästationaarisesta aikasarjasta voidaan saada stationaarinen aikasarja differoimalla. Jos aikasarja sisältää moninkertaisia yksikköjuuria, niin siitä saadaan stationaarinen differoimalla monta kertaa. [6, s. 75-76]

Määritelmä 3.9. (ks. [5, s. 142]) Prosessiaxt kutsutaan ARIMA(p, d, q) jos

dxt= (1−B)dxt,

on ARMA(p, q). Merkintä∇tarkoittaa differointioperaattoria jaB viiveope- raattoria.

Yleisesti malli voidaan kirjoittaa muotoon φ(B)(1−B)dxt =θ(B)wt. Jos E(dxt) =µ malli voidaan kirjoittaa muotoon

φ(B)(1B)dxt=φ0+θ(B)wt, missä φ0 =µ(1φ1− · · · −φp).

ARIMA(p, d, q)-mallissa muuttuja d tarkoittaa differointien lukumäärää.

Esimerkki 3.10. Tarkastellaan ARMA(4,0)-mallia (toisien sanoen AR(4)- mallia) sijoitettuna austres-aineistoon (katso esimerkki 3.2). Nyt aineisto ei

(20)

ole stationaarinen. Tehdään siitä stationaarinen differoimalla. Tällöin saa- daan ARIMA(4,1,0)-malli, jossa autoregressiivisen mallin aste on 4, liuku- van keskiarvon aste 10,92921 ja differoimisaste on 1. ARIMA(4,1,0)-mallin yhtälö on nyt muotoa

xt = 10,92921 + 0,4058∗xt−1+ 0,0302∗xt−2 + 0,1519∗xt−3

+ 0,2025∗xt−4+wt, missä wtiidN(0,90,98).

Tarkastellaan ARIMA(4,1,0)-mallin kausaalisuutta. Mallin polynomi mää- ritellään seuraavasti

φ(z) = 1φ1zφ2z2φ3z3φ4z4

= 1−0,4058∗z−0,0302∗z2−0,1519∗z3−0,2025∗z4. Piirretään polynomin juuret yksikköympyrän kanssa samaan kuvaan. Kuvas-

−4 −2 0 2 4

−4−2024

Re(polyroot(c(1, −0.4058, −0.0302, −0.1519, −0.2025)))

Im(polyroot(c(1, −0.4058, −0.0302, −0.1519, −0.2025)))

Kuva 9: Polynomin 1−0,4058∗z−0,0302∗z2−0,1519∗z3−0,2025∗z4 juuret piirrettynä yksikköympyrän kanssa samaan kuvaan.

ta 9 näkyy, että polynomin juuret ovat yksikköympyrän ulkopuolella, joten

(21)

prosessi on kausaalinen. [5, s. 95] Nyt ARIMA(4,1,0)-malli on kausaalinen ARMA(4,0)-malli [2, s. 45].

3.5 ARIMA-mallin sovittaminen aineistoon

Aikasarja sijoittaminen ARIMA-malliin vaatii muutamia perusasioita. Niitä ovat aineiston tutkiminen ja mahdollisesti myös muuttaminen malliin sovel- tuvaan muotoon. Aineiston riippuvuus ja sen soveltuminen malliin tulee tut- kia. Parametrien estimointi ja virhemääritykset tulee tehdä ennen kuin voi- daan tarkastella valitun mallin sopivuutta aineiston käsittelyyn. [5, s. 143]

Tarkastellaan austres-aineiston soveltuvuutta ARIMA-malliin.

1. Ensimmäisenä aineisto täytyy muuttaa ARIMA-malliin soveltuvaksi.

Piirretään austres-aineiston kuvaaja. Kuvasta näkyy, että asukasmää- rä kasvaa lineaarisesti. Mahdolliset trendit tai kausiluontoiset vaihte- lut tulee tarkistaa. Tässä aineistossa on selvästi nouseva trendi. Poiste- taan trendi differoimalla aineisto. Tällöin aikasarja on stationaarinen.

Aineiston saisi tehtyä stationaariseksi myös esimerkiksi logaritmoimal- la, mutta tämän aineiston tapauksessa pelkkä logaritmointi ei riitä.[3, s. 41-65]

2. Toiseksi lasketaan aineistosta tarvittavat tiedot, jotta voidaan määrit- tää mallin asteet p ja q. Katsotaan ensiksi aineiston ACF- ja PACF- kuvaajat. [1, s. 71] ACF-kuvaajassa viimeiset merkittävät hypyt ovat kohdissa lag=1 ja lag=2 ja PACF-kuvaajassa kohdassa lag=1. Tästä voidaan päätellä mallin ARMA(1,1) tai ARMA(1,2) soveltuvan hyvin muokattuun aineistoon.

3. Kolmanneksi aineistoon sovitetaan erilaisia malleja ja tarkastellaan niis- tä saatuja tuloksia. Lasketaan eri parametrien p ja q arvoilla AIC-, AICC- ja BIC-luvut. Seuraavan taulukon luvut on laskettu kaavoilla:

AIC=−2∗log(L) + 2m, AICC=−2∗log(L) + 2mn/(nm−1) ja BIC=−2∗log(L) +mlog(n), missä L on mallin uskottavuus, m mallissa käytettyjen parametrien määrä janon aineiston koko. [1, s. 72]

(22)

Time

austres

1975 1980 1985 1990

1300016000

Time

diff(austres)

1975 1980 1985 1990

205080

Kuva 10: Australian asukasmäärän kuvaaja (yllä) ja differoidun asukasmää- rän kuvaaja (alla).

p q m AIC AICC BIC

0 0 2 699,9812 700,1224 704,9359 1 0 3 664,7734 665,0591 672,2054 2 0 4 664,3575 664,8394 674,2668 3 0 5 661,0024 661,7341 673,3891 0 1 3 676,6408 676,9265 684,0728 0 2 4 672,8959 673,3779 682,8050 0 3 5 673,4305 674,1623 685,8172 1 1 4 660,1309 660,6128 670,0403 1 2 5 661,5406 662,2723 673,9273 2 1 5 661,8117 662,5434 674,1984 2 2 6 663,1275 664,1645 677,9915

(23)

0 1 2 3 4

−0.20.41.0

Lag

ACF

Series ale

1 2 3 4

−0.20.20.6

Lag

Partial ACF

Series ale

Kuva 11: Differoidun austres-aineiston ACF ja PACF.

Taulukosta nähdään, että pienimmät AIC-, AICC- ja BIC-luvut saa- daan kun p = 1 ja q = 1, joten valitaan ARMA(1,1)-malli. Mallin yhtälö tulee muotoon

xt=φ0+φ1xt−1+θ1wt−1+wt

= 5,92925 + 0,8864∗xt−1 −0,5136∗wt−1+wt, missä φ0 on vakiotermi ja wtiidN(0,96,11).

4. Neljänneksi analysoidaan valitun mallin residuaalit. Kuvasta 12 näkyy, että standardoidut residuaalit näyttävät riippuvilta ja niissä on aina- kin yksi poikkeuksellisen pieni arvo. Jotta mallin voisi olettaa sopivan hyvin aineistoon, niin standardoitujen residuaalien pitäisi käyttäytyä valkoisen kohinan tavoin odotusarvonaan 0 ja varianssinaan 1 [1, s. 73].

Tarkistetaan vielä standardoitujen residuaalien ACF ja PACF.

(24)

Time

standardoidut_residuaalit 0 20 40 60 80

−4−202

Kuva 12: Differoituun austres-aineistoon sovitetun ARMA(1,1)-mallin stan- dardoidut residuaalit.

Kuvasta 13 näkyy, että korrelaatiota ei ole standardoitujen residuaalien välillä. Jatketaan siis ARMA(1,1)-mallin tarkastelua.

Kuvasta 14 näkyy, että molempien polynomien juuret ovat yksikköym- pyrän ulkopuolella. Tällöin ARMA(1,1)-malli on sekä kausaalinen että kääntyvä.

Esimerkki 3.11. Lasketaan edellä saadun ARMA(1,1)-mallin antamia ar- voja differoidusta aineistosta austres. Mallin yhtälö oli

xt =φ0+φ1xt−1+θ1wt−1+wt

= 5,92925 + 0,8864∗xt−1 −0,5136∗wt−1+wt, missä wtiidN(0,96,11).

Verrataan mallin antamia arvoja todellisiin arvoihin. Tarkastellaan edel- leen vuosia 1973, 1983, 1993 ja niiden ensimmäisiä ja toisia vuosineljänneksiä.

Tällöin

adif f1973|2 = 5,92925 + 0,8864∗adif f1973|1−0,5136∗wt−1+wt= 72,82918 adif f1983|2 = 5,92925 + 0,8864∗adif f1983|1−0,5136∗wt−1+wt= 86,43236 adif f1993|2 = 5,92925 + 0,8864∗adif f1993|1−0,5136∗wt−1+wt= 83,82608 Tulee huomata, että aineisto austres differoitiin, jolloin aineisto muuttui hie- man. Palautetaan lasketut arvot alkuperäiseen muotoon.

a1973|2 = 13385,92 a1983|2 = 15267,72 a1993|2 = 16577,33

(25)

0 5 10 15

−0.20.6

Lag

ACF

Series standardoidut_residuaalit

5 10 15

−0.20.1

Lag

Partial ACF

Series standardoidut_residuaalit

Kuva 13: Differoituun austres-aineistoon sovitetun ARMA(1,1)-mallin stan- dardoitujen residuaalien ACF ja PACF.

Todelliset arvot ovat: x1973|2 = 13504,5, x1983|2 = 15393,5 ja x1993|2 = 17661,5. Tässä tapauksessa ARMA(1,1)-malli kuvaa hyvin asukasmäärän muutosta. Lyhyellä aikavälillä mallin antama arvio on tarkka ja luotettava.

Pitkällä aikavälillä arvion luotettavuus huononee. Tällä mallilla voisi ennus- taa aineiston tulevia arvoja suuntaa-antavasti, mutta ei täysin tarkasti.

4 GARCH-malli

Autoregressiivinen ehdollinen heteroskedastinen malli, ARCH(m) (autoregres- sive conditional heteroscedastic model) ja yleistetty autoregressiivinen ehdol- linen heteroskedastinen malli, GARCH(s, m) (generalized autoregressive con- ditional heteroscedastic model), on kehitetty volatiliteetin muutoksien mal- lintamiseen. Nämä mallit perustuvat tuoton tarkkailemiselle. Tällä tuotolla on yleensä muuttuva varianssi. [5, s. 280] Siitä johtuukin mallille nimi hete-

(26)

−4 0 2 4

−4024

Re(polyroot(c(1, −0.8864)))

Im(polyroot(c(1, −0.8864))) −4 0 2 4

−4024

Re(polyroot(c(1, −0.5136)))

Im(polyroot(c(1, −0.5136)))

Kuva 14: Differoituun austres aineistoon sovitetun ARMA(1,1)-malli on sekä kausaalinen, että invertoituva.

roskedastinen, mikä merkitsee erivarianssista. ARCH- ja GARCH-mallit ovat yhden muuttujan volatiliteettimalleja [6, s. 110].

4.1 Volatiliteetti

Tässä tutkielmassa volatiliteetillä tarkoitetaan tuoton ehdollista keskihajon- taa. Volatiliteetillä tarkoitetaan siis tuoton vaihtelua. Volatiliteetin mallinta- misella voidaan parantaa parametrien arvioimisen tehokkuutta ja tarkkuut- ta aikavälien ennustamisessa. Osakkeiden tuottoja ajateltaessa volatiliteettiä ei voi suoraan havainnoida päivittäisestä aineistosta, koska aineisto sisältää vain yhden havainnon keskihajonnasta. Volatiliteetillä on kuitenkin tunnuso- maisia piirteitä tuottojen kannalta.

• Volatiliteetti esiintyy ryppäinä. Joinakin aikajaksoina se on voi olla korkeampi ja joinakin matalampi.

• Volatiliteetti kehittyy ajan kanssa jatkuvalla tavalla. Suuret heittelyt volatiliteetissä ovat harvinaisia.

• Volatiliteetti ei hajaannu äärettömyyteen. Se vaihtelee jollakin tietyllä määrätyllä välillä. Tästä johtuen volatiliteetti on usein stationaarinen.

• Volatiliteetti reagoi erilailla suuriin vaihteluihin hinnoissa. Tästä puhu- taan vipuvaikutuksena.

(27)

Nämä tunnusomaiset piirteet ovat keskeisessä osassa volatiliteettimalleja ke- hitettäessä. [6, s. 109-111]

4.2 Autoregressiivinen ehdollinen heteroskedastinen mal- li ARCH

Autoregressiivisellä ehdollisella heteroskedastisellä mallilla on kaksi peruso- letusta. Ensinnäkin, että tuotto yt ei ole sarjallisesti korreloituva, mutta on riippuva. Toiseksi tuotonytriippuvuus voidaan kuvata sen aiemmista arvois- ta kootulla yksinkertaisella neliöllisellä funktiolla. [6, s. 115-116]

Huomautus. (vrt. [6, s. 3-5]) Tässä tutkielmassa muuttujalla yt tarkoitetaan osakkeen nettotuottoa. Nettotuotto tarkoittaa siis pelkkää tuottoa. Osakkeen bruttotuottoa merkitään 1 +yt. Bruttotuotolla tarkoitetaan osakkeen arvoa ja siinä tapahtunutta muutosta (kasvua).

Määritelmä 4.1. (vrt. [5, s. 280]) Olkoon xt osakkeen arvo ajanhetkellä t.

Tällöin osakkeen tuotto voidaan laskea kaavalla yt= xtxt−1

xt−1

. Määritelmä 4.2. (vrt. [6, s. 5])

Merkitään logaritmistä bruttotuottoa muuttujallaYt. Määritellään muut- tuja Yt kaavalla

Yt= ln (1 +yt) = ln xt

xt−1 = lnxt−lnxt−1,

missä merkintä 1 +yttarkoittaa siis bruttotuottoa. Logaritmisellä bruttotuo- tolla tarkoitetaan jatkuvasti lisättyä tuottoa.

Jatkossa lyhennetään logaritminen bruttotuotto ja viitataan vain log- tuottoon.

Log-tuotoilla Yt on tiettyjä etuja nettotuottoihin yt nähden. Ajatellaan esimerkiksi monien ajanjaksojen tuottoja. Kirjoitetaan

Yt[k] = ln (1 +yt[k]) = ln [(1 +yt)(1 +yt−1)· · ·(1 +yt−k+1)]

= ln (1 +yt) + ln (1 +yt−1) +· · ·+ ln (1 +yt−k+1)

=Yt+Yt−1+· · ·+Yt−k+1.

Merkintä yt[k] tarkoittaa tuottoa tietyllä aikavälillä, yt[k] = xtx−xtk

tk . Mo- nien ajanjaksojen log-tuotto on siis yksinkertaisesti yksien ajanjaksojen log- tuottojen summa. Lisäksi log-tuottojen tilastolliset ominaisuudet ovat hel- posti käsiteltäviä. [6, s. 5]

(28)

Määritelmä 4.3. (vrt. [6, s. 116]) Yleinen astetta m oleva ARCH-malli on muotoa

yt =σtǫt

σt2 =α0+α1yt−12 +· · ·+αmy2t−m,

missä ǫtiidN(0,1) ja kertoimille α pätee, että α0 > 0 ja αi ≥ 0 kaikille i >0.

Huomataan, että

• tuoton yt ehdoton keskiarvo on 0. Siis

E(yt) =E[E(yt|Ft−1)] =E[σtE(ǫt)] = 0,

missäFt−1on ajanhetkellät−1 ollut tietomäärä eliFt−1 ={yt−1, yt−2, . . .},

• tuoton yt ehdoton varianssi saadaan kaavalla

V ar(yt) = E(yt2) = E[E(yt2|Ft−1)] =E(α0+α1y2t−1) = α0+α1E(y2t−1).

Nyt kuitenkin yt on stationaarinen, jolloin E(yt) = 0 ja V ar(yt) = V ar(yt−1) =E(y2t−1). Täten V ar(yt) = α0+α1V ar(yt). Edelleen V ar(yt) = 1−αα01. Lisäksi vaaditaan, että 0≤α1 <1.

[6, s. 117-118]

Esimerkki 4.1. Yksinkertainen ARCH(1)-malli tuotolle on yt=σtǫt

σt2 =α0+α1yt−12 ,

missä ǫt on normaalista valkoista kohinaa eli ǫtiidN(0,1). Lisäksi määri- tellään, että α1 ei saa olla negatiivinen, muutoin siitä voi seurataσt2 negatii- visuus. [5, s. 281]

Huomataan, että ARCH(1)-mallit palautuvat valkoisen kohinan proses- seiksi, joilla on muuttuva ehdollinen varianssi ja tämä ehdollinen varianssi riippuu edellisistä tuotoista. Lisäksi voidaan päätellä:

• Jos 0≤α1 <1, niin prosessi yt on itsessään valkoinen kohina. Tällöin sen ehdoton jakauma on symmetrisesti jakautunut luvun 0 ympärille.

• Jos 3α21 <1, niin muuttujan yt neliö, yt2, on kausaalinen AR(1)-malli.

Jos taas 3α21 ≥1 ja α1 < 1, niin yt2 on vahvasti stationaarinen ja sillä on ääretön varianssi.

[5, s. 281-282]

(29)

Esimerkki 4.2. Tarkastellaan jälleen austres-aineistoa Australian asukas- määrästä. Aineisto logaritmoidaan ensin ja sitten differoidaan. Nyt muuttu- ja Y merkitsee suhteellista kasvunopeutta. Kuvassa 15 näkyvät muokatun aineiston kuvaaja sekä ACF- ja PACF-kuvaajat. PACF-kuvaajan mukaan AR(3)-malli voisi sopia hyvin aineistoon. Sovitetaan muokattuun aineistoon AR(3)-malli, jonka yhtälö on nyt muotoa

Yt=−0,01086432−0,5403∗Yt−1−0,4664∗Yt−2−0,2567∗Yt−3+wt, missä wtiidN(0,0,04518).

Time

asukasmäärän_tuotto

0 20 40 60 80

−1.00.01.0

0 5 10 15

−0.20.41.0

Lag

ACF

Series asukasmäärän_tuotto

5 10 15

−0.30.0

Lag

Partial ACF

Series asukasmäärän_tuotto

Kuva 15: Logaritmoitu ja differoitu austres-aineistoYt(kuvaaja yllä) ja muut- tujan Yt ACF-kuvaaja (keskellä) ja PACF-kuvaaja (alla).

Lisätään nyt AR(3)-malliin ARCH-vaikutus. (Luvussa 4.5 käsitellään mi- ten aineistosta tutkitaan onko ARCH-vaikutuksia olemassa.) Tällöin AR(3)-

Viittaukset

LIITTYVÄT TIEDOSTOT

Aikasarjojen mallinnuksessa pyritään löytämään malli, joka kuvaa aikasarjan muodostavan prosessin siinä määrin, että voidaan mallin avulla joko ennustaa tulevia arvoja

Konstruktiivisessa tutkimuksessa arviointi tapahtuu markkinatestin avulla (Kasanen ym. Luotu malli läpäisee heikon markkinatestin, jos yritys ottaa mallin käyttöön. Kun tä-

Luvussa Interpoloiva malli esitellyn mallin tavoin myös Valente, Conci ja Feijó (2005) esit- tää mallin, jossa säilytetään deterministisyys ilman, että vasteen

Mallin häiriötermit voidaan jakaa kysyntä- ja tarjontakomponentteihin VAR-mallin esti- moitujen parametrien ja residuaalivektorin avulla, kun kysyntähäiriöillä oletetaan

Estimointivirheiden lisäksi mallin kertoimissa voi olla laadinta-aineiston virheistä johtuvaa harhaa (esim. Malli voi olla myös väärän muotoinen tai jokin olennainen

Mekanistinen, psykologinen, interaktiivinen ja pragmaattinen malli ovat Fisherin mukaan viestinnän keskeiset mallit. -Kuvaa kahden mallin toiminta. Mitkä ovat niiden keskeiset

Sängyn tyynyistä ja peitosta luotiin korkearesoluuti- oiset (high poly) mallit, jotka toteutettiin käyttämällä Blender-sovelluksen fysiikkamootto- ria.. Korkearesoluution

Forzan ja Salva- dorin (2006) mukaan tuoterakennepuu on yleisin tapa esittää tuotteen rakenne. Kuvasta 1 huomataan, että dokumentointikulut pienenevät, kun tuoterakennepuut