ARIMA- ja GARCH-mallit sekä mallin sovittaminen osakeaineistoon

(1)

TAMPEREEN YLIOPISTO Pro gradu -tutkielma

Laura Lizana Bister

ARIMA- ja GARCH-mallit sekä mallin sovittaminen osakeaineistoon

Informaatiotieteiden laitos Matematiikka

Syyskuu 2011

(2)

Tampereen yliopisto

Informaatiotieteiden yksikkö

LIZANA BISTER, LAURA: ARIMA- ja GARCH-mallit sekä mallin sovittaminen osakeaineistoon

Pro gradu -tutkielma, 48 s., 3 liites.

Matematiikka Syyskuu 2011

Tiivistelmä

Tutkielmassa käsitellään stokastisia malleja, joita voidaan käyttää esimerkiksi osakkeiden tulevien arvojen ennustamiseen. Malleja on useita erilaisia ja tässä tutkielmassa keskitytään ARIMA- ja GARCH-malleihin, jotka muodos- tuvat useammasta eri osasta. Tutkielmassa tutustutaan mallien ymmärtämi- sen kannalta tärkeisiin käsitteisiin. Tutkielman alussa on luku, johon on koot- tu erilaisia määritelmiä ja tietoja, joita tarvitaan tutkielman edetessä. En- simmäiseksi tutustutaan ARIMA-malliin, joka on lineaarinen malli. ARIMA- mallissa varianssit pysyvät vakiona. Satunnaisuutta malliin tuo lähinnä valkoinen kohina. Tarkastellaan aineistoon sopivan ARIMA-mallin valitsemista ja valitun mallin sovittamista aineistoon. Toiseksi tutustutaan GARCH- malliin, joka on epälineaarinen malli. GARCH-mallissa otetaan huomioon volatiliteetti, eli niin sanottu vaihtelu tai heilahtelu. GARCH-mallin voi raken- taa ARIMA-mallin päälle. GARCH-mallissa varianssit vaihtelevat, ne muut- tuvat havaintoarvon ja edellisen varianssin arvon mukaan. GARCH-mallit soveltuvat hyvin osakkeiden volatiliteetin ennustamiseen. Lisäksi käsitellään aineistoon sopivan GARCH-mallin valitsemista. Kolmanneksi etsitään sopiva malli Nokian osakeaineistoon. Etsintä aloitetaan ARIMA-mallista, joka sisäl- lytetään GARCH-malliin. Saatu malli sovitetaan aineistoon ja valitun mallin avulla ennustetaan osakkeen tulevia arvoja. Lisäksi osakkeelle määritellään Value at Risk -luku, joka kertoo suurimmasta mahdollisesta menetyksestä epätavallisessa tilanteessa.

(3)

Sisältö

1 Johdanto 4

2 Esitietoja 4

2.1 Stationaarisuus . . . 5

2.2 Korrelaatio ja autokorrelaatiofunktio . . . 5

2.3 Valkoinen kohina . . . 6

2.4 Satunnaiskulku . . . 6

2.5 Informaatiokriteerit . . . 7

2.6 Uskottavuus . . . 9

3 ARIMA-malli 9 3.1 Autoregressiivinen malli AR . . . 9

3.2 Liukuvan keskiarvon malli MA . . . 13

3.3 Autoregressiivinen liukuvan keskiarvon malli ARMA . . . 14

3.4 Autoregressiivinen integroitu liukuvan keskiarvon malli ARIMA 19 3.5 ARIMA-mallin sovittaminen aineistoon . . . 21

4 GARCH-malli 25 4.1 Volatiliteetti . . . 26

4.2 Autoregressiivinen ehdollinen heteroskedastinen malli ARCH . 27 4.3 Yleinen autoregressiivinen ehdollinen heteroskedastinen malli GARCH . . . 30

4.4 Integroitu yleinen autoregressiivinen ehdollinen heteroskedastinen malli IGARCH . . . 31

4.5 GARCH-mallin sovittaminen aineistoon . . . 32

5 Osakeaineisto 35 5.1 Mallin määrittäminen . . . 35

5.2 Value at Risk . . . 40

5.3 Osakkeen Value at Risk -luvun määrittäminen . . . 44

6 Yhteenveto 47

Viitteet 48

Liite 49

(4)

1 Johdanto

Tämän tutkielman luvussa 2 käsitellään niitä esitietoja, joita tarvitaan tutkielman lukemiseen. Aikasarja-analyysissä keskeisimpiä käsitteitä ovat stationaarisuus ja riippuvuus. Luvussa 2 esitellään määritelmiä, joihin aikasar- jamallit perustuvat. Määritelmät ovat tärkeitä aikasarjojen ymmärtämisen ja toimivuuden kannalta.

Tutkielman luvussa 3 tutkitaan ARIMA-mallin muodostumista. Ensim- mäiseksi esitellään AR- ja MA-mallit, joista voidaan koota ARMA-malli.

ARMA-mallia integroimalla saadaan ARIMA-malli. ARIMA-mallin avulla voidaan tutkia lineaaristen aikasarjojen käyttäytymistä. Luvussa 3.5 esitel- lään kuinka ARIMA-malli sovitetaan aineistoon. Vasta luvussa 3.5 perehdy- tään tarkemmin aineistoon, mallin valintaan ja mallin sopivuuden tarkaste- luun residuaalien avulla.

Luvussa 4 tarkastellaan GARCH-mallia, joka on epälineaarinen malli.

Aluksi esitellään ARCH-malli, jonka yleistys on GARCH-malli. Luvussa 4.5 etsitään ARCH-vaikutuksia ja esitellään kuinka GARCH-malli sovitetaan aineistoon.

Luvussa 5 tarkastellaan Nokian osakkeen arvoa. Osakkeen arvosta kooste- taan aineisto, johon sijoitetaan ensin ARIMA- ja sitten GARCH-malli. Saa- dun mallin avulla ennustetaan osakkeen tulevia arvoja. Lisäksi määritellään osakkeelle Value at Risk -luku.

Tutkielman lukijalta edellytetään perustiedot matematiikasta ja tilasto- tieteestä. Matematiikan osalta peruskäsitteitä ovat esimerkiksi yksikköjuuri ja differointi. Tilastotieteen peruskäsitteisiin luetaan muun muassa odotusarvo ja varianssi. Lukijan oletetaan tuntevan matematiikan ja tilastotieteen yleisesti käytössä olevat merkintätavat. Tutkielmassa käytetään esimerkkei- hin R-ohjelmistosta löytyviä aineistoja austres ja lynx. Aineistot esitellään liitteessä. Aineistoja muokataan ja käsitellään malleille soveltuvaan muotoon vasta luvuissa 3.5 ja 4.5. Ennen sitä aineistoihin sovitetaan malleja esimer- kinomaisesti. Tutkielmassa aineistojen käsittelyyn käytetään R-ohjelmistoa.

Tutkielman päälähteet ovat Shumwayn ja Stofferin kirja Time Series Ana- lysis and Its Applications With R Examples ja Tsayn kirja Analysis of Fi- nancial Time Series. Keskeisessä osassa on myös Koskelan, Ronkaisen ja Puustellin julkaisu Equity and interest rate models in long-term insurance simulations.

2 Esitietoja

Tässä luvussa esitellään aikasarja-analyysissa useasti käytettyjä määritelmiä.

Näitä määritelmiä ja tietoja tarvitaan tutkielman lukemisessa. Määritelmät on annettu vain yleisluontoisesti.

Tutkielmassa käytetään merkintääx_t. Tämä merkintä voi tarkoittaa sekä

(5)

aikasarjaa, että sen yksittäistä havaintoa. Kun kyseessä on yksittäinen havainto, niin kyseinen havainto voi olla satunnaismuuttuja tai sen toteuma.

Asianyhteydestä ilmenee kumpi.

2.1 Stationaarisuus

Aikasarjanxtsanotaan olevan vahvasti stationaarinen jos havaintojen (xt1, xt2, xt3, . . . , xtk) yhteisjakauma on sama kuin havaintojen (xt1+h, xt2+h, xt3+h, . . . , xtk+h) yhteisjakauma kaikille k = 1,2, . . ., kaikille ajanhetkille t1, . . . , tk ja kaikille siirtymille h = 0,±1,±2, . . .. Vahvasti stationaarinen aikasarja siis pysyy muuttumattomana ajan muutoksien suhteen.

Aikasarjan xt sanotaan olevan heikosti stationaarinen, jos sekä muuttujan xt keskiarvo että muuttujien xt ja xt−h välinen kovarianssi, ovat ajan suhteen muuttumattomia, missä lukuh on mielivaltainen kokonaisluku. Sar- ja xt on siis heikosti stationaarinen, jos odotusarvo E(xt) = µ on vakio ja Cov(xt, xt−h) =γh on riippuva vain luvusta h.

Aikasarjojen oletetaan usein olevan heikosti stationaarisia. Tämä sallii tehdä ennusteita tulevista havainnoista. Vahvaa stationaarisuutta on vaikea todentaa empiirisesti.[6, s. 30] Tässä tutkielmassa heikosta stationaarisuudesta puhutaan stationaarisuutena. Erikseen mainitaan, jos stationaarisuus merkitsee vahvaa stationaarisuutta.

2.2 Korrelaatio ja autokorrelaatiofunktio

Korrelaatio mittaa satunnaismuuttujien välistä lineaarista riippuvuutta. Muut- tujien uja v välistä lineaarista riippuvuutta merkitään korrelaatiokertoimen avulla ρu,v. Korrelaatiokerroin saa arvoja väliltä [−1,1]. Lisäksi ρu,v = ρv,u. Jos muuttujien välinen korrelaatiokerroin saa arvon 0, niin muuttujat ovat lineaarisesti riippumattomat. [6, s. 30]

Määritelmä 2.1. (ks. [6, s. 30]) Kahden satunnaismuuttujanu jav välinen korrelaatiokerroin määritellään kaavalla

ρu,v = Cov(u, v)

qV ar(u)V ar(v) = E[(u−µu)(v−µv)]

qE(u−µu)²E(v−µv)²,

missä µu ja µv ovat muuttujien u ja v odotusarvot. Varianssien oletetaan olevan olemassa.

Oletetaan, että xt on heikosti stationaarinen aikasarja. Tällöin havaintojen xt ja xt−h välistä lineaarista riippuvuutta tarkasteltaessa yleistetään korrelaatio autokorrelaatioksi. Havaintojen xt ja xt−h välistä korrelaatiokerrointa merkitäänρh. Heikon stationaarisuuden vuoksi funktioρh riippuu vain suureesta h. [6, s. 31]

(6)

Määritelmä 2.2. (ks. [6, s. 31]) Autokorrelaatiofunktio ACF (autocorrelation function) määritellään kaavalla

ρh = Cov(xt, xt−h)

qV ar(xt)V ar(xt−h) = Cov(xt, xt−h) V ar(x_t) = γh

γ₀,

missä ρh on korrelaatiokerroin, joka mittaa muuttujien xt ja xt−h välistä riippuvuutta. Selvästi ρ0 = 1, ρh = ρ−h ja −1 ≤ ρh ≤ 1. Määritelmässä oletetaan, että aikasarja xt on heikosti stationaarinen. Edellä on myös käy- tetty heikosta stationaarisuudesta seuraavaa ominaisuutta, että V ar(xt) = V ar(xt−h).

Määritelmä 2.3. (ks. [5, s. 107]) Osittaisautokorrelaatiofunktiota PACF (partial autocorrelation function) merkitään parametrilläφhh, kunh= 1,2, . . . ja siinä oletetaan, että aikasarjaxt on heikosti stationaarinen. PACF määri- tellään kaavoilla

φ11 =Corr(x1, x0) = ρ(1) ja

φhh=Corr(xh−x^h−1_h , x0−x^h−1₀ ), kun h≥2.

Kaavassa merkintä Corr(u, v) tarkoittaa korrelaatiokerrointa ρu,v, x^h−1_h = E(x_h |x₁, . . . , x_h−1) jax^h−1₀ =E(x₀ |x₁, . . . , x_h−1). Nyt sekä x_h−x^h−1_h , että x0−x^h−1₀ ovat riippumattomia sarjan (x1, x2, . . . , xh−1) kanssa. Stationaari- suuden seurauksena parametri φhh on ehdollinen korrelaatio muuttujien xt

ja x_t−h välillä.

2.3 Valkoinen kohina

Sarjaawtkutsutaan valkoiseksi kohinaksi (white noise) joswtkoostuu samoin jakautuneista satunnaismuuttujista, joilla on odotusarvo 0 ja äärellinen varianssi. Merkitään wt∼W N.

Lisäksi jos wtkoostuu riippumattomista muuttujista ja se on jakautunut odotusarvonaan 0 ja varianssina σ², niin merkitään wt ∼ iid(0, σ²). Tätä sarjaa kutsutaan valkoiseksi riippumattomaksi kohinaksi.

Jos wt on normaalijakautunut odotusarvonaan 0 ja varianssina σ², niin sarjaa kutsutaan normaaliseksi valkoiseksi kohinaksi. Merkitään wt∼ iidN(0, σ²). [5, s. 12]

Esimerkki 2.1. Kuva 1 on normaalisesta valkoisesta kohinasta. Siinä on 500 havaintoa prosessista iidN(0,1).

2.4 Satunnaiskulku

Mallia, jolla voidaan analysoida suuntausta, kutsutaan satunnaiskuluksi (Ran- dom walk). Malli koostuu muuttujanxt edellisestä arvosta ja valkoisesta kohinasta. Siitä johtuukin nimi satunnaiskulku. Jos malliin otetaan mukaan

(7)

Time

w

0 100 200 300 400 500

−3−113

Kuva 1: Normaalinen valkoinen kohina.

trendi, niin malli on muotoa

x_t=δ+x_t−1 +w_t,

missä t = 1,2, . . ., alkuehto on x0 = 0 ja wt on valkoista kohinaa. Vakio- ta δ kutsutaan trendiksi (drift). Tällöin mallia kutsutaan satunnaiskuluksi trendillä. Jos δ = 0, niin kyseessä on normaali satunnaiskulku. [5, s. 15-16]

Satunnaiskulkumalli on hyvin tunnettu esimerkki epästationaarisesta yksik- köjuurisesta aikasarjasta [6, s. 72].

Esimerkki 2.2. Kuvassa 2 on satunnaiskulku ilman trendiä. Siinä on 200 havaintoa prosessista iidN(0,1).

2.5 Informaatiokriteerit

Mallien soveltuvuutta aineistoon voidaan tarkastella erilaisten informaatio- kriteerien avulla. Akaiken informaatiokriteerin, AIC (Akaike’s Information Criterion), tarkoituksena on löytää tasapaino mallin sovitusvirheen ja parametrien lukumäärän välillä. [5, s. 53]

Määritelmä 2.4. (ks. [5, s. 53]) Akaiken informaatiokriteeri määritellään kaavalla

AIC =ln(ˆσ_k²) + n+ 2k n ,

missä ˆσ_k² = ^RSS_n^k, RSSk on residuaalien neliöiden summa, k on parametrien lukumäärä mallissa ja n on havaintojen lukumäärä.

(8)

Time

x

0 50 100 150 200

0510

Kuva 2: Satunnaiskulku ilman trendiä.

Akaiken informaatiokriteerin saama pienin arvo määrittelee parhaimman mallin aineistolle, toisin sanoen parhaimman mallin asteluvut. Akaiken informaatiokriteeri voi kuitenkin käyttää liikaa parametrejä. Tämän virheen vält- tämiseksi on kehitetty Korjattu Akaiken informaatiokriteeri, AICC (Akaike’s Information Criterion Bias Corrected). (Katso N. Sugiuran teos Further analysis of the data by Akaikes’s information criterion and the finite corrections (1978)) [5, s. 53-54]

Määritelmä 2.5. (ks. [5, s. 54]) Korjattu Akaiken informaatiokriteeri mää- ritellään kaavalla

AICC =ln(ˆσ_k²) + n+k n−k−2,

missä ˆσ_k² = ^RSS_n ^k, k on parametrien lukumäärä mallissa ja n on havaintojen lukumäärä.

Korjatun Akaiken informaatiokriteerin on todettu olevan ylivertainen pie- nempiä aineistoja tarkasteltaessa. Lisäksi on kehitetty Schwarzin informaatiokriteeri, SIC (Schwarz’s Information Criterion), joka onnistuu antamaan hyviä astelukuja malleille suurista aineistoista. Schwarzin informaatiokritee- riä kutsutaan myös Bayes-informaatiokriteeriksi, BIC (Bayesian Information Criterion). [5, s. 54]

Määritelmä 2.6. (ks. [5, s. 54]) Schwarzin informaatiokriteeri määritellään kaavalla

SIC =ln(ˆσ_k²) + klnn n ,

missä ˆσ_k² = ^RSS_n ^k, k on parametrien lukumäärä mallissa ja n on havaintojen lukumäärä.

(9)

Tutkielmassa käytetään jatkossa lyhennettä BIC viitattaessa määritel- mään 2.6.

2.6 Uskottavuus

Oletetaan, että xt on kausaalinen ARMA(p, q)-prosessi (katso luku 3.3 ja määritelmä 3.7), jossawt∼iidN(0, σ²_w). Olkoon lisäksiβ= (µ, φ1, . . . , φp, θ1, . . . , θq)^′ parametreistä muodostettu (p+q+ 1)-vektori. Mallin uskottavuus- funktio on

L(β, σ²_w) = (2πσ²_w)^−n/2(r₁⁰(β)r¹₂(β)· · ·r_nⁿ⁻¹(β))^−1/2exp−S(β) 2σ_w²

,

missä

S(β) =

n

X

t=1

(xt−x^t−1_t (β))² r^t−1_t (β)

.

Tässä sekä x^t−1_t , että r^t−1_t ovat vektorin β funktioita,x^t−1_t =E(xt |x1, . . . , xt−1) ja r^t−1_t = V ar(xt | x1, . . . , xt−1). [5, s. 128] Mallin uskottavuutta käy- tetään esimerkiksi määrittelemään AIC-, AICC- ja BIC-luvut.

3 ARIMA-malli

Autoregressiivinen integroitu liukuvan keskiarvon malli, ARIMA(p, d, q), koostuu useasta eri vaiheesta ja mallista. Aluksi määritellään autoregressiivinen malli, AR(p), ja liukuvan keskiarvon malli, MA(q). Näistä malleista yhdis- tämällä saadaan autoregressiivinen liukuvan keskiarvon malli, ARMA(p, q).

Integroimalla ARMA(p, q)-malli saadaan ARIMA(p, d, q)-malli, missä lukud on integroimiskertojen lukumäärä ja luvut p ja q ovat AR- ja MA-mallien asteluvut.

ARMA-malleissa muuttujat ovat lineaarisesti riippuvia menneistä arvois- taan ja valkoisesta kohinasta. ARMA-mallit muodostavat hyvin kattavan ja käyttökelpoisen osan lineaarisista aikasarjamalleista. [1, s. 19] ARMA-mallit perustuvat oletukselle, että varianssit pysyvät vakioina [5, s. 280].

3.1 Autoregressiivinen malli AR

Autoregressiivisten mallien (autoregressive model) perusoletuksena on, et- tä sarjan xt nykyinen arvo voidaan selittää muodostamalla funktio arvon xt menneistä arvoista xt−1, xt−2, . . . , xt−p, missä p määrittää kuinka monta edellistä askelta tarvitaan, jotta voidaan ennustaa nykyinen arvo xt. Auto- regressiivisissä malleissa muuttujaxt voidaan esittää selittäjien lineaarikom- binaation ja virhetermin summana. [5, s. 85]

(10)

Määritelmä 3.1. (ks. [5, s. 85-86]) Yleinen autoregressiivinen astettapoleva mallin yhtälö on muotoa

xt =φ1xt−1+φ2xt−2+· · ·+φpxt−p+wt,

missäxton stationaarinen,pon ei-negatiivinen kokonaisluku, kertoimetφ1, φ2, . . . , φp, (φp 6= 0), ovat vakioita, muuttujatxt−i (i= 1, . . . , p) ovat muuttajan xt edelliset arvot ja wt∼iidN(0, σ²). Tässä mallin yhtälössä oletetaan, että muuttujan xt odotusarvo on 0. Merkitään AR(p).

Huomataan, että jos muuttujan xt odotusarvo on erisuuri kuin 0, niin voidaan korvataan xt muuttujalla xt−µ. Tällöin

xt−µ=φ1(xt−1 −µ) +φ2(xt−2−µ) +· · ·+φp(xt−p−µ) +wt

tai vaihtoehtoisesti

xt=φ0+φ1xt−1+φ2xt−2+· · ·+φpxt−p+wt, missä φ0 =µ(1−φ1− · · · −φp).

Määritelmä 3.2. (ks. [5, s. 86]) Autoregressiivinen operaattori määritellään φ(B) = 1−φ₁B−φ₂B²− · · · −φ_pB^p.

Esimerkki 3.1. Yksinkertainen autoregressiivinen malli AR(1) on muotoa x_t =φ₁x_t−1+w_t,

missä φ1 on vakio, muuttuja xt−1 on muuttajan xt edellinen arvo ja wt ∼ iidN(0, σ²). [5, s. 85-89]

Yksinkertainen autoregressiivinen malli AR(1) muistuttaa yksinkertaista lineaarista regressiomallia, missä xt on selitettävä ja xt−1 on selittävä muuttuja [6, s. 37].

Esimerkki 3.2. Tarkastellaan austres-aineistoa Australian asukasmäärästä (katso liite). Asukasmäärä näyttää olevan lineaarisesti riippuva, joten AR- malli soveltuu hyvin aineistoon. Tehdään aineistosta ensin stationaarinen differoimalla aineisto. Sovittamalla malli aineistoon saadaan AR(4)-malli, missä kertoimien arvot ovat

φ₁ = 0,4058, φ₂ = 0,0302, φ₃ = 0,1519, φ₄ = 0,2025.

Tällöin AR(4)-mallin yhtälö on muotoa

xt= 10,92921+0,4058∗xt−1+0,0302∗xt−2+0,1519∗xt−3+0,2025∗xt−4+wt, missä vakiotermi φ0 = 10,92921 lasketaan vähentämällä luvusta 1 muuttu- jienx_t−1, . . . , x_t−4 kertoimetφ₁, . . . , φ₄ ja kertomalla saatu luku R-ohjelmassa

(11)

lasketulla vakiotermillä (odotusarvolla) 52,1432. Tässä wt ∼iidN(0,90,98).

Kuvassa 3 on simuloitu Australian asukasmäärä AR(4)-mallin avulla.

Verrataan mallin antamia arvoja todellisiin arvoihin. Lasketaan siis en- simmäisten neljän havainnon jälkeen mallin avulla seuraavien havaintojen arviot. Merkitään näitä mallin antamia havaintoarvioita muuttujalla a. Va- litaan tarkastelun kohteeksi vuosien 1973, 1983, 1993 toiset vuosineljännek- set. Palautetaan samalla differoitu aineisto takaisin alkuperäiseen muotoon.

Tällöin

a_1973|2 = 10,92921 + 0,4058∗a_t−1+ 0,0302∗a_t−2+ 0,1519∗a_t−3 + 0,2025∗a_t−4+w_t = 13580,58

a1983|2 = 10,92921 + 0,4058∗at−1+ 0,0302∗at−2+ 0,1519∗at−3

+ 0,2025∗at−4+wt = 16324,43

a1993|2 = 10,92921 + 0,4058∗at−1+ 0,0302∗at−2+ 0,1519∗at−3

+ 0,2025∗at−4+wt = 18387,69

Todelliset arvot ovat: x1973|2 = 13504,5, x1983|2 = 15393,5 ja x1993|2 = 17661,5. Tässä tapauksessa malli AR(4) kuvaa melko hyvin asukasmäärän muutosta. Pidemmällä aikavälillä mallin antaa liian suuria arvoja.

Time

asukasmäärä

0 20 40 60 80

1300018000

Kuva 3: Australian asukasmäärä simuloituna AR(4)-mallilla.

Huomautus. Monissa tutkielman esimerkeissä verrataan mallin antamia arvoja todellisiin arvoihin. Nämä havaintoarviot lasketaan aineiston ensimmäi- sen havainnon (ensimmäisten havaintojen) avulla. Ensimmäiseen havaintoon lisätään mallin antaman kaavan luvut ja muuttuja wt, joka valitaan satun- naisesti. Tutkielman esimerkeissä merkitään mallin antamia havaintoarvioita muuttujallaa. Näissä esimerkeissä verrataan aineiston todellisia arvoja mallin antamiin arvioihin mallin havainnollistamiseksi. Mallin sopivuutta tut- kiessa tulee tarkastella residuaaleja. Niitä tutkitaan vasta luvussa 3.5.

(12)

Esimerkki 3.3. Tarkastellaan lynx-aineistoa ilvesten pyydystämisestä (katso liite). Sarjassa on havaittavissa säännöllinen kausivaihtelu. Sijoitetaan AR- malli aineistoon R-ohjelmassa. Saadaan AR(8)-malli, missä kertoimien arvot ovat

φ1 = 1,0554, φ2 =−0,6298, φ3 = 0,2105, φ4 =−0,1438, φ5 =−0,0200, φ6 = 0,0373, φ7 =−0,2342, φ8 = 0,3322.

Tällöin AR(8)-mallin yhtälö on muotoa

xt= 618,5879 + 1,0554∗xt−1−0,6298∗xt−2+ 0,2105∗xt−3

−0,1438∗x_t−4−0,0200∗x_t−5+ 0,0373∗x_t−6−0,2342∗x_t−7 + 0,3322∗xt−8+wt,

missä vakiotermi on 618,5879 ja w_t∼iidN(0,616995).

Verrataan mallin antamia arvoja todellisiin arvoihin. Valitaan tarkastelun kohteeksi vuodet 1834 ja 1934. Tällöin

a1834 = 618,5879 + 1,0554∗a1833 −0,6298∗a1832 + 0,2105∗a1831

−0,1438∗a1830−0,0200∗a1829+ 0,0373∗a1828

−0,2342∗a1827+ 0,3322∗a1826+wt= 993

a1934 = 618,5879 + 1,0554∗a1933 −0,6298∗a1932 + 0,2105∗a1931

−0,1438∗a1930−0,0200∗a1929+ 0,0373∗a1928

−0,2342∗a₁₉₂₇+ 0,3322∗a₁₉₂₆+w_t= 2088

Todelliset arvot ovat x1834 = 279 ja x1934 = 3396. AR(8) malli ei sovi hyvin aineistoon, joten mallin tuottamat ennustukset eivät ole kovin tarkkoja ja luotettavia. Kuvassa 4 on simuloituna AR(8)-mallin kuvaaja.

Time

ilvesten_määrä

0 20 40 60 80 100

−20004000

Kuva 4: Ilvesten määrä simuloituna AR(8)-mallilla.

(13)

3.2 Liukuvan keskiarvon malli MA

Vaihtoehtona autoregressiomallille on olemassa liukuvan keskiarvon malli.

Astetta q olevan liukuvan keskiarvon malli MA(q) (moving average model) olettaa, että lineaarikombinaatio valkoisesta kohinasta wt selittää muuttujan xt. Liukuvan keskiarvon malli on stationaarinen kaikilla parametrien θ1, θ2, . . . , θq arvoilla. [5, s. 90-91]

Määritelmä 3.3. (ks. [5, s. 90]) Yleinen liukuvan keskiarvon astettaqoleva malli on muotoa

x_t=w_t+θ₁w_t−1+θ₂w_t−2+· · ·+θ_qw_t−q,

missä asteluku q kuvaa viiveitä liukuvassa keskiarvossa ja θ1, θ2, . . . , θq, (θq 6= 0), ovat parametrejä ja wt ∼iidN(0, σ²). Merkitään MA(q).

Määritelmä 3.4. (ks. [5, s. 91]) Liukuvan keskiarvon operaattori määritel- lään

θ(B) = 1 +θ1B+θ2B²+· · ·+θqB^q.

Esimerkki 3.4. Yksinkertainen liukuvan keskiarvon malli MA(1) on muotoa xt =wt+θwt−1,

missä θ on parametri jaw_t ∼iidN(0, σ²). [5, s. 91]

Esimerkki 3.5. Sovitetaan aineistoon lynx MA-malli asteella 1, missä ker- roin on θ1 = 0,7934. Mallin kaava tulee muotoon

x_t= 1538,018 +w_t+ 0,7934∗w_t−1,

missä wt∼iidN(0,1115573) ja luku 1538,018 on aineiston odotusarvo. Ku- vassa 5 on simuloitu MA(1)-mallin kuvaaja, jossa ensimmäinen havainto on saatu lynx-aineistosta ja sen perusteella laskettu muiden havaintojen arviot.

Verrataan mallin antamia arvoja todellisiin arvoihin. Tarkastellaan edelleen vuosia 1834 ja 1934. Tällöin

a1834 = 1538,018 +wt+ 0,7934∗wt−1 = 1515,217 a₁₉₃₄ = 1538,018 +w_t+ 0,7934∗w_t−1 = 1553,808.

Todelliset arvot ovat x1834 = 279 ja x1934 = 3396. Selvästi yksinkertainen MA(1)-malli ei sovi aineistoon. Mallissa ilvesten määrä heittelehtii vain keskiarvon ympärillä ja malli ei huomioi aineistossa olevia suuria heittelyjä.

Esimerkki 3.6. Sovitetaan differoituun austres-aineistoon MA(2)-malli, mis- sä kertoimet ovat

θ1 = 0,5331, θ2 = 0,2272.

(14)

Time

ilvesten_määrä

0 20 40 60 80 100

14501600

Kuva 5: MA(1)-mallin avulla simuloitu ilvesten määrä.

Mallin kaava tulee tällöin muotoon

xt= 52,1064 +wt+ 0,5331∗wt−1+ 0,2272∗wt−2,

missä muuttuja wt on jakautunut wt ∼ iidN(0,111,5) ja luku 52,1064 on aineiston odotusarvo. Kuvassa 6 on simuloitu austres-aineistoon sijoitetun MA(2)-mallin kuvaaja.

Verrataan mallin antamia arvoja todellisiin arvoihin. Tarkastelun koh- teena ovat vuosien 1973, 1983 ja 1993 toiset vuosineljännekset. Palautetaan jälleen differoitu aineisto alkuperäiseen muotoon. Tällöin

a1973|2 = 52,1064 +wt+ 0,5331∗wt−1+ 0,2272∗wt−2

= 13559,36

a_1983|2 = 52,1064 +wt+ 0,5331∗wt−1+ 0,2272∗wt−2

= 15681,71

a1993|2 = 52,1064 +wt+ 0,5331∗wt−1+ 0,2272∗wt−2

= 17706,40

Todelliset arvot ovatx_1973|2 = 13504,5,x_1983|2 = 15393,5 jax_1993|2 = 17661,5.

MA(2)-malli kuvaa hyvin asukasmäärän muutosta.

3.3 Autoregressiivinen liukuvan keskiarvon malli AR- MA

Puhtaasti autoregressiiviset mallit AR(p) ja puhtaasti liukuvan keskiarvon mallit MA(q) voivat käydä hankaliksi mallien asteiden kasvaessa. Ongelman

(15)

Time

asukasmäärä

0 20 40 60 80

1300017000

Kuva 6: MA(2)-mallin avulla simuloitu asukasmäärä.

poistamiseksi on kehitetty autoregressiivinen liukuvan keskiarvon malli AR- MA (autoregressive moving average model). Autoregressiivinen liukuvan keskiarvon malli niin sanotusti yhdistää autoregressio mallin ja liukuvan keskiarvon. Merkitään ARMA(p, q). [6, s. 64]

Määritelmä 3.5. (ks. [5, s. 93]) Aikasarja xt on ARMA(p, q) jos se on stationaarinen ja

xt=φ1xt−1+φ2xt−2+· · ·+φpxt−p+wt+θ1wt−1+θ2wt−2+· · ·+θqwt−q, missä φp 6= 0, θq 6= 0 ja σ_w² >0. Edelleen oletetaan, että wt on normaalinen valkoisen kohinan prosessi wt ∼iidN(0, σ²).

Parametrejä p ja q kutsutaan ARMA-mallin asteiksi.

Jos sarjan xt keskiarvo on erisuuri kuin nolla, niin yhtälö tulee muotoon xt=φ0+φ1xt−1+φ2xt−2+· · ·+φpxt−p+wt+θ1wt−1+θ2wt−2+· · ·+θqwt−q,

missä φ0 =µ(1−φ1− · · · −φp).

Huomataan, että jos aste q = 0, niin autoregressiivinen liukuvan keskiarvon malli, ARMA(p, q), palautuu autoregressio malliksi, AR(p). Vas- taavasti jos aste p = 0, niin autoregressiivinen liukuvan keskiarvon malli, ARMA(p, q), palautuu liukuvan keskiarvon malliksi, MA(q). [5, s. 93]

Esimerkki 3.7. Yksinkertainen autoregressiivinen liukuvan keskiarvon malli ARMA(1,1) on muotoa

xt=φ1xt−1+wt+θ1wt−1,

missä φ1 ja θ1 ovat parametrejä ja wt∼iidN(0, σ²). [5, s. 93-96]

(16)

Esimerkki 3.8. Sovitetaan ARMA(4,2)-malli differoituun aineistoon austres.

Mallin parametreiksi tulee

φ1 = 0,4765, φ2 =−0,7073, φ3 = 0,4494, φ4 = 0,3020, θ₁ =−0,0192, θ₂ = 0,9904.

Mallin yhtälö tulee muotoon

x_t = 24,99836 +φ₁x_t−1+φ₂x_t−2+φ₃x_t−3+φ₄x_t−4+w_t+θ₁w_t−1+θ₂w_t−2

= 24,99836 + 0,4765∗xt−1−0,7073∗xt−2+ 0,4494∗xt−3

+ 0,3020∗xt−4+wt−0,0192∗wt−1+ 0,9904∗wt−2, missä wt∼iidN(0,76,64). Mallin vakiotermi on 24,99836.

Verrataan mallin antamia arvoja todellisiin arvoihin. Valitaan edelleen tarkastelun kohteeksi vuosien 1973, 1983, 1993 toiset vuosineljännekset. Pa- lautetaan jälleen differoitu aineisto alkuperäiseen muotoon. Tällöin

a1973|2 = 24,99836 + 0,4765∗at−1−0,7073∗at−2+ 0,4494∗at−3

+ 0,3020∗at−4+wt−0,0192∗wt−1+ 0,9904∗wt−2 = 13506,18 a1983|2 = 24,99836 + 0,4765∗at−1−0,7073∗at−2+ 0,4494∗at−3

+ 0,3020∗at−4+wt−0,0192∗wt−1+ 0,9904∗wt−2 = 15509,22 a_1993|2 = 24,99836 + 0,4765∗at−1−0,7073∗at−2+ 0,4494∗at−3

+ 0,3020∗a_t−4+w_t−0,0192∗w_t−1+ 0,9904∗w_t−2 = 17468,02.

Kuten esimerkissä 3.2 kerrottiin, niin aineiston todelliset arvot ovatx_1973|2 = 13504,5, x1983|2 = 15393,5 ja x1993|2 = 17661,5. Tässä tapauksessa malli ARMA(4,2) kuvaa tarkasti aineistoa. Kuvassa 7 on simuloituna ARMA(8,2)- mallin kuvaaja.

Time

asukasmäärä

0 20 40 60 80

1300017000

Kuva 7: Australian asukasmäärä simuloituna ARMA(4,2)-mallin mukaisesti.

(17)

ARMA-mallin yleinen määritelmä pitää sisällään joitakin ongelmia.

• Parametroinnin redundanttisuus johtaa tarpeettoman monimutkaiseen esitysmuotoon.

• AR-mallia muutettaessa stationaariseksi voidaan päätyä stationaari- seen AR-malliin, jonka arvot riippuvat tulevista arvoista.

• MA-mallit eivät välttämättä ole yksikäsitteisiä.

Näiden ongelmien välttämiseksi annetaan seuraavaksi määritelmiä mallien parametreille. [5, s. 94]

Määritelmä 3.6. (ks. [5, s. 94]) AR- ja MA-mallien polynomit määritellään seuraavasti

φ(z) = 1−φ1z− · · · −φpz^p, φp 6= 0 ja

θ(z) = 1 +θ1z+· · ·+θqz^q, θq 6= 0,

missäz on kompleksiluku. Parametritφjaθmääritellään kuten aikaisemmin.

Huomautetaan, että ARMA(p, q)-mallin tulee aina olla yksinkertaisim- massa muodossaan. Oletetaan siis, että parametreillä φ(z) ja θ(z) ei ole yh- teisiä tekijöitä. Tällöin vältytään parametrien redundanttisuudelta. [5, s. 95]

Määritelmä 3.7. (ks. [5, s. 95]) ARMA(p, q)-mallin, missäφ(B)xt=θ(B)wt, sanotaan olevan kausaalinen, jos aikasarja xt (missä t on kokonaisluku) voidaan kirjoittaa yksipuolisena lineaarisena prosessina

x_t =

∞

X

j=0

ψ_jw_t−j =ψ(B)w_t,

missä ψ(B) = ^P^∞_j=0ψjB^j ja ^P^∞_j=0|ψj|<∞. Asetetaan ψ0 = 1.

Huomautus. ARMA(p, q)-malli on kausaalinen jos ja vain jos φ(z) 6= 0 kaikilla |z| ≤1. Summan ψ(B) kertoimet ψj voidaan määrittää ratkaisemalla

ψ(z) =

∞

X

j=0

ψjz^j = θ(z)

φ(z), |z| ≤1.

Toisin sanoen ARMA-prosessi on kausaalinen vain jos polynominφ(z) juuret sijaitsevat yksikköympyrän ulkopuolella. Tällöin siisφ(z) = 0 vain, kun|z|>

1.

[5, s. 95]

(18)

Määritelmä 3.8. (ks. [5, s. 95]) ARMA(p, q)-mallin, missäφ(B)xt=θ(B)wt, sanotaan olevan kääntyvä, jos aikasarjaxt(missäton kokonaisluku) voidaan kirjoittaa muodossa

π(B)xt=

∞

X

j=0

πjxt−j =wt,

missä π(B) =^P^∞_j=0πjB^j ja ^P^∞_j=0|πj|<∞. Asetetaan π0 = 1.

Huomautus. ARMA(p, q)-malli on kääntyvä jos ja vain jos θ(z)6= 0 kaikilla

|z| ≤1. Summan π(B) kertoimet πj voidaan määrittää ratkaisemalla π(z) =

∞

X

j=0

πjz^j = φ(z)

θ(z), |z| ≤1.

Toisin sanoen ARMA-prosessi on kääntyvä vain jos polynomin θ(z) juuret sijaitsevat yksikköympyrän ulkopuolella. Tällöin siisθ(z) = 0 vain, kun|z|>

1.

[5, s. 96]

Esimerkki 3.9. Sovitetaan ARMA(8,2)-malli aineistoon lynx. Mallin parametreiksi tulevat

φ1 = 1,0554, φ2 =−0,6298, φ3 = 0,2105, φ4 =−0,1438, φ5 =−0,0200, φ6 = 0,0373, φ7 =−0,2342, φ8 = 0,3322, θ1 = 0,1160, θ2 = 0,1160.

Mallin yhtälö tulee muotoon

xt= 508,8747 + 1,5054∗xt−1−1,4156∗xt−2+ 0,8427∗xt−3

−0,4534∗xt−4+ 0,1416∗xt−5−0,0501∗xt−6−0,1502∗xt−7

+ 0,2573∗x_t−8+w_t−0,4912∗w_t−1+ 0,3407∗w_t−2, missä wt∼iidN(0,602283). Mallin vakiotermi on 508,8747.

Verrataan mallin antamia arvoja todellisiin arvoihin. Tarkastellaan edelleen vuosia 1834 ja 1934. Tällöin

a1834 = 508,8747 + 1,5054∗a1833−1,4156∗a1832

+ 0,8427∗a1831−0,4534∗a1830+ 0,1416∗a1829

−0,0501∗a₁₈₂₈−0,1502∗a₁₈₂₇+ 0,2573∗a₁₈₂₆ +wt−0,4912∗wt−1 + 0,3407∗wt−2 = 2203 a1934 = 508,8747 + 1,5054∗a1933−1,4156∗a1932

+ 0,8427∗a1931−0,4534∗a1930+ 0,1416∗a1929

−0,0501∗a1928−0,1502∗a1927+ 0,2573∗a1926

+wt−0,4912∗wt−1 + 0,3407∗wt−2 = 1864.

Todelliset arvot ovat x1834 = 279 ja x1934 = 3396. Kuvassa 8 on simuloituna ARMA(8,2)-mallin kuvaaja. Malli ei sovellu hyvin aineistoon.

(19)

Time

ilvesten_määrä

0 20 40 60 80 100

06000

Kuva 8: Ilvesten määrä simuloituna ARMA(8,2)-mallilla.

3.4 Autoregressiivinen integroitu liukuvan keskiarvon malli ARIMA

Oletetaan, että autoregressiivisen mallin, AR, polynomilla on nollakohtana 1. Tällöin autoregressiivinen liukuvan keskiarvon malli, ARMA, laajentuu ja siitä tulee autoregressiivinen integroitu liukuvan keskiarvon malli (autoregressive integrated moving average model), ARIMA.

Epästationaarisesta aikasarjasta voidaan saada stationaarinen aikasarja differoimalla. Jos aikasarja sisältää moninkertaisia yksikköjuuria, niin siitä saadaan stationaarinen differoimalla monta kertaa. [6, s. 75-76]

Määritelmä 3.9. (ks. [5, s. 142]) Prosessiaxt kutsutaan ARIMA(p, d, q) jos

∇^dx_t= (1−B)^dx_t,

on ARMA(p, q). Merkintä∇tarkoittaa differointioperaattoria jaB viiveope- raattoria.

Yleisesti malli voidaan kirjoittaa muotoon φ(B)(1−B)^dxt =θ(B)wt. Jos E(∇^dx_t) =µ malli voidaan kirjoittaa muotoon

φ(B)(1−B)^dxt=φ0+θ(B)wt, missä φ0 =µ(1−φ1− · · · −φp).

ARIMA(p, d, q)-mallissa muuttuja d tarkoittaa differointien lukumäärää.

Esimerkki 3.10. Tarkastellaan ARMA(4,0)-mallia (toisien sanoen AR(4)- mallia) sijoitettuna austres-aineistoon (katso esimerkki 3.2). Nyt aineisto ei

(20)

ole stationaarinen. Tehdään siitä stationaarinen differoimalla. Tällöin saadaan ARIMA(4,1,0)-malli, jossa autoregressiivisen mallin aste on 4, liukuvan keskiarvon aste 10,92921 ja differoimisaste on 1. ARIMA(4,1,0)-mallin yhtälö on nyt muotoa

xt = 10,92921 + 0,4058∗xt−1+ 0,0302∗xt−2 + 0,1519∗xt−3

+ 0,2025∗xt−4+wt, missä wt∼iidN(0,90,98).

Tarkastellaan ARIMA(4,1,0)-mallin kausaalisuutta. Mallin polynomi mää- ritellään seuraavasti

φ(z) = 1−φ1z−φ2z²−φ3z³−φ4z⁴

= 1−0,4058∗z−0,0302∗z²−0,1519∗z³−0,2025∗z⁴. Piirretään polynomin juuret yksikköympyrän kanssa samaan kuvaan. Kuvas-

−4 −2 0 2 4

−4−2024

Re(polyroot(c(1, −0.4058, −0.0302, −0.1519, −0.2025)))

Im(polyroot(c(1, −0.4058, −0.0302, −0.1519, −0.2025)))

Kuva 9: Polynomin 1−0,4058∗z−0,0302∗z²−0,1519∗z³−0,2025∗z⁴ juuret piirrettynä yksikköympyrän kanssa samaan kuvaan.

ta 9 näkyy, että polynomin juuret ovat yksikköympyrän ulkopuolella, joten

(21)

prosessi on kausaalinen. [5, s. 95] Nyt ARIMA(4,1,0)-malli on kausaalinen ARMA(4,0)-malli [2, s. 45].

3.5 ARIMA-mallin sovittaminen aineistoon

Aikasarja sijoittaminen ARIMA-malliin vaatii muutamia perusasioita. Niitä ovat aineiston tutkiminen ja mahdollisesti myös muuttaminen malliin soveltuvaan muotoon. Aineiston riippuvuus ja sen soveltuminen malliin tulee tutkia. Parametrien estimointi ja virhemääritykset tulee tehdä ennen kuin voidaan tarkastella valitun mallin sopivuutta aineiston käsittelyyn. [5, s. 143]

Tarkastellaan austres-aineiston soveltuvuutta ARIMA-malliin.

1. Ensimmäisenä aineisto täytyy muuttaa ARIMA-malliin soveltuvaksi.

Piirretään austres-aineiston kuvaaja. Kuvasta näkyy, että asukasmää- rä kasvaa lineaarisesti. Mahdolliset trendit tai kausiluontoiset vaihte- lut tulee tarkistaa. Tässä aineistossa on selvästi nouseva trendi. Poiste- taan trendi differoimalla aineisto. Tällöin aikasarja on stationaarinen.

Aineiston saisi tehtyä stationaariseksi myös esimerkiksi logaritmoimal- la, mutta tämän aineiston tapauksessa pelkkä logaritmointi ei riitä.[3, s. 41-65]

2. Toiseksi lasketaan aineistosta tarvittavat tiedot, jotta voidaan määrit- tää mallin asteet p ja q. Katsotaan ensiksi aineiston ACF- ja PACF- kuvaajat. [1, s. 71] ACF-kuvaajassa viimeiset merkittävät hypyt ovat kohdissa lag=1 ja lag=2 ja PACF-kuvaajassa kohdassa lag=1. Tästä voidaan päätellä mallin ARMA(1,1) tai ARMA(1,2) soveltuvan hyvin muokattuun aineistoon.

3. Kolmanneksi aineistoon sovitetaan erilaisia malleja ja tarkastellaan niis- tä saatuja tuloksia. Lasketaan eri parametrien p ja q arvoilla AIC-, AICC- ja BIC-luvut. Seuraavan taulukon luvut on laskettu kaavoilla:

AIC=−2∗log(L) + 2∗m, AICC=−2∗log(L) + 2∗m∗n/(n−m−1) ja BIC=−2∗log(L) +m∗log(n), missä L on mallin uskottavuus, m mallissa käytettyjen parametrien määrä janon aineiston koko. [1, s. 72]

(22)

Time

austres

1975 1980 1985 1990

1300016000

Time

diff(austres)

1975 1980 1985 1990

205080

Kuva 10: Australian asukasmäärän kuvaaja (yllä) ja differoidun asukasmää- rän kuvaaja (alla).

p q m AIC AICC BIC

0 0 2 699,9812 700,1224 704,9359 1 0 3 664,7734 665,0591 672,2054 2 0 4 664,3575 664,8394 674,2668 3 0 5 661,0024 661,7341 673,3891 0 1 3 676,6408 676,9265 684,0728 0 2 4 672,8959 673,3779 682,8050 0 3 5 673,4305 674,1623 685,8172 1 1 4 660,1309 660,6128 670,0403 1 2 5 661,5406 662,2723 673,9273 2 1 5 661,8117 662,5434 674,1984 2 2 6 663,1275 664,1645 677,9915

(23)

0 1 2 3 4

−0.20.41.0

Lag

ACF

Series ale

1 2 3 4

−0.20.20.6

Lag

Partial ACF

Series ale

Kuva 11: Differoidun austres-aineiston ACF ja PACF.

Taulukosta nähdään, että pienimmät AIC-, AICC- ja BIC-luvut saadaan kun p = 1 ja q = 1, joten valitaan ARMA(1,1)-malli. Mallin yhtälö tulee muotoon

xt=φ0+φ1∗xt−1+θ1wt−1+wt

= 5,92925 + 0,8864∗xt−1 −0,5136∗wt−1+wt, missä φ0 on vakiotermi ja wt∼iidN(0,96,11).

4. Neljänneksi analysoidaan valitun mallin residuaalit. Kuvasta 12 näkyy, että standardoidut residuaalit näyttävät riippuvilta ja niissä on aina- kin yksi poikkeuksellisen pieni arvo. Jotta mallin voisi olettaa sopivan hyvin aineistoon, niin standardoitujen residuaalien pitäisi käyttäytyä valkoisen kohinan tavoin odotusarvonaan 0 ja varianssinaan 1 [1, s. 73].

Tarkistetaan vielä standardoitujen residuaalien ACF ja PACF.

(24)

Time

standardoidut_residuaalit 0 20 40 60 80

−4−202

Kuva 12: Differoituun austres-aineistoon sovitetun ARMA(1,1)-mallin standardoidut residuaalit.

Kuvasta 13 näkyy, että korrelaatiota ei ole standardoitujen residuaalien välillä. Jatketaan siis ARMA(1,1)-mallin tarkastelua.

Kuvasta 14 näkyy, että molempien polynomien juuret ovat yksikköym- pyrän ulkopuolella. Tällöin ARMA(1,1)-malli on sekä kausaalinen että kääntyvä.

Esimerkki 3.11. Lasketaan edellä saadun ARMA(1,1)-mallin antamia arvoja differoidusta aineistosta austres. Mallin yhtälö oli

xt =φ0+φ1∗xt−1+θ1wt−1+wt

= 5,92925 + 0,8864∗xt−1 −0,5136∗wt−1+wt, missä wt∼iidN(0,96,11).

Verrataan mallin antamia arvoja todellisiin arvoihin. Tarkastellaan edelleen vuosia 1973, 1983, 1993 ja niiden ensimmäisiä ja toisia vuosineljänneksiä.

Tällöin

adif f1973|2 = 5,92925 + 0,8864∗adif f1973|1−0,5136∗wt−1+wt= 72,82918 adif f1983|2 = 5,92925 + 0,8864∗adif f1983|1−0,5136∗wt−1+wt= 86,43236 adif f1993|2 = 5,92925 + 0,8864∗adif f1993|1−0,5136∗wt−1+wt= 83,82608 Tulee huomata, että aineisto austres differoitiin, jolloin aineisto muuttui hie- man. Palautetaan lasketut arvot alkuperäiseen muotoon.

a_1973|2 = 13385,92 a1983|2 = 15267,72 a1993|2 = 16577,33

(25)

0 5 10 15

−0.20.6

Lag

ACF

Series standardoidut_residuaalit

5 10 15

−0.20.1

Lag

Partial ACF

Series standardoidut_residuaalit

Kuva 13: Differoituun austres-aineistoon sovitetun ARMA(1,1)-mallin standardoitujen residuaalien ACF ja PACF.

Todelliset arvot ovat: x_1973|2 = 13504,5, x_1983|2 = 15393,5 ja x_1993|2 = 17661,5. Tässä tapauksessa ARMA(1,1)-malli kuvaa hyvin asukasmäärän muutosta. Lyhyellä aikavälillä mallin antama arvio on tarkka ja luotettava.

Pitkällä aikavälillä arvion luotettavuus huononee. Tällä mallilla voisi ennustaa aineiston tulevia arvoja suuntaa-antavasti, mutta ei täysin tarkasti.

4 GARCH-malli

Autoregressiivinen ehdollinen heteroskedastinen malli, ARCH(m) (autoregressive conditional heteroscedastic model) ja yleistetty autoregressiivinen ehdollinen heteroskedastinen malli, GARCH(s, m) (generalized autoregressive conditional heteroscedastic model), on kehitetty volatiliteetin muutoksien mal- lintamiseen. Nämä mallit perustuvat tuoton tarkkailemiselle. Tällä tuotolla on yleensä muuttuva varianssi. [5, s. 280] Siitä johtuukin mallille nimi hete-

(26)

−4 0 2 4

−4024

Re(polyroot(c(1, −0.8864)))

Im(polyroot(c(1, −0.8864))) −4 0 2 4

−4024

Re(polyroot(c(1, −0.5136)))

Im(polyroot(c(1, −0.5136)))

Kuva 14: Differoituun austres aineistoon sovitetun ARMA(1,1)-malli on sekä kausaalinen, että invertoituva.

roskedastinen, mikä merkitsee erivarianssista. ARCH- ja GARCH-mallit ovat yhden muuttujan volatiliteettimalleja [6, s. 110].

4.1 Volatiliteetti

Tässä tutkielmassa volatiliteetillä tarkoitetaan tuoton ehdollista keskihajon- taa. Volatiliteetillä tarkoitetaan siis tuoton vaihtelua. Volatiliteetin mallinta- misella voidaan parantaa parametrien arvioimisen tehokkuutta ja tarkkuut- ta aikavälien ennustamisessa. Osakkeiden tuottoja ajateltaessa volatiliteettiä ei voi suoraan havainnoida päivittäisestä aineistosta, koska aineisto sisältää vain yhden havainnon keskihajonnasta. Volatiliteetillä on kuitenkin tunnuso- maisia piirteitä tuottojen kannalta.

• Volatiliteetti esiintyy ryppäinä. Joinakin aikajaksoina se on voi olla korkeampi ja joinakin matalampi.

• Volatiliteetti kehittyy ajan kanssa jatkuvalla tavalla. Suuret heittelyt volatiliteetissä ovat harvinaisia.

• Volatiliteetti ei hajaannu äärettömyyteen. Se vaihtelee jollakin tietyllä määrätyllä välillä. Tästä johtuen volatiliteetti on usein stationaarinen.

• Volatiliteetti reagoi erilailla suuriin vaihteluihin hinnoissa. Tästä puhutaan vipuvaikutuksena.

(27)

Nämä tunnusomaiset piirteet ovat keskeisessä osassa volatiliteettimalleja ke- hitettäessä. [6, s. 109-111]

4.2 Autoregressiivinen ehdollinen heteroskedastinen mal- li ARCH

Autoregressiivisellä ehdollisella heteroskedastisellä mallilla on kaksi peruso- letusta. Ensinnäkin, että tuotto yt ei ole sarjallisesti korreloituva, mutta on riippuva. Toiseksi tuotonytriippuvuus voidaan kuvata sen aiemmista arvoista kootulla yksinkertaisella neliöllisellä funktiolla. [6, s. 115-116]

Huomautus. (vrt. [6, s. 3-5]) Tässä tutkielmassa muuttujalla yt tarkoitetaan osakkeen nettotuottoa. Nettotuotto tarkoittaa siis pelkkää tuottoa. Osakkeen bruttotuottoa merkitään 1 +yt. Bruttotuotolla tarkoitetaan osakkeen arvoa ja siinä tapahtunutta muutosta (kasvua).

Määritelmä 4.1. (vrt. [5, s. 280]) Olkoon xt osakkeen arvo ajanhetkellä t.

Tällöin osakkeen tuotto voidaan laskea kaavalla yt= xt−xt−1

xt−1

. Määritelmä 4.2. (vrt. [6, s. 5])

Merkitään logaritmistä bruttotuottoa muuttujallaYt. Määritellään muuttuja Y_t kaavalla

Yt= ln (1 +yt) = ln xt

x_t−1 = lnxt−lnxt−1,

missä merkintä 1 +yttarkoittaa siis bruttotuottoa. Logaritmisellä bruttotuotolla tarkoitetaan jatkuvasti lisättyä tuottoa.

Jatkossa lyhennetään logaritminen bruttotuotto ja viitataan vain log- tuottoon.

Log-tuotoilla Yt on tiettyjä etuja nettotuottoihin yt nähden. Ajatellaan esimerkiksi monien ajanjaksojen tuottoja. Kirjoitetaan

Yt[k] = ln (1 +yt[k]) = ln [(1 +yt)(1 +yt−1)· · ·(1 +yt−k+1)]

= ln (1 +yt) + ln (1 +yt−1) +· · ·+ ln (1 +yt−k+1)

=Y_t+Y_t−1+· · ·+Y_t−k+1.

Merkintä yt[k] tarkoittaa tuottoa tietyllä aikavälillä, yt[k] = ^x^t_x^−x^t⁻^k

t−k . Mo- nien ajanjaksojen log-tuotto on siis yksinkertaisesti yksien ajanjaksojen log- tuottojen summa. Lisäksi log-tuottojen tilastolliset ominaisuudet ovat hel- posti käsiteltäviä. [6, s. 5]

(28)

Määritelmä 4.3. (vrt. [6, s. 116]) Yleinen astetta m oleva ARCH-malli on muotoa

yt =σtǫt

σ_t² =α0+α1y_t−1² +· · ·+αmy²_t−m,

missä ǫt ∼ iidN(0,1) ja kertoimille α pätee, että α0 > 0 ja αi ≥ 0 kaikille i >0.

Huomataan, että

• tuoton yt ehdoton keskiarvo on 0. Siis

E(y_t) =E[E(y_t|F_t−1)] =E[σ_tE(ǫ_t)] = 0,

missäFt−1on ajanhetkellät−1 ollut tietomäärä eliFt−1 ={yt−1, yt−2, . . .},

• tuoton yt ehdoton varianssi saadaan kaavalla

V ar(y_t) = E(y_t²) = E[E(y_t²|F_t−1)] =E(α₀+α₁y²_t−1) = α₀+α₁E(y²_t−1).

Nyt kuitenkin yt on stationaarinen, jolloin E(yt) = 0 ja V ar(yt) = V ar(y_t−1) =E(y²_t−1). Täten V ar(y_t) = α₀+α₁V ar(y_t). Edelleen V ar(yt) = _1−α^α⁰₁. Lisäksi vaaditaan, että 0≤α1 <1.

[6, s. 117-118]

Esimerkki 4.1. Yksinkertainen ARCH(1)-malli tuotolle on yt=σtǫt

σ_t² =α0+α1y_t−1² ,

missä ǫt on normaalista valkoista kohinaa eli ǫt ∼iidN(0,1). Lisäksi määri- tellään, että α1 ei saa olla negatiivinen, muutoin siitä voi seurataσ_t² negatii- visuus. [5, s. 281]

Huomataan, että ARCH(1)-mallit palautuvat valkoisen kohinan proses- seiksi, joilla on muuttuva ehdollinen varianssi ja tämä ehdollinen varianssi riippuu edellisistä tuotoista. Lisäksi voidaan päätellä:

• Jos 0≤α1 <1, niin prosessi yt on itsessään valkoinen kohina. Tällöin sen ehdoton jakauma on symmetrisesti jakautunut luvun 0 ympärille.

• Jos 3α²₁ <1, niin muuttujan yt neliö, y_t², on kausaalinen AR(1)-malli.

Jos taas 3α²₁ ≥1 ja α₁ < 1, niin y_t² on vahvasti stationaarinen ja sillä on ääretön varianssi.

[5, s. 281-282]

(29)

Esimerkki 4.2. Tarkastellaan jälleen austres-aineistoa Australian asukas- määrästä. Aineisto logaritmoidaan ensin ja sitten differoidaan. Nyt muuttuja Y merkitsee suhteellista kasvunopeutta. Kuvassa 15 näkyvät muokatun aineiston kuvaaja sekä ACF- ja PACF-kuvaajat. PACF-kuvaajan mukaan AR(3)-malli voisi sopia hyvin aineistoon. Sovitetaan muokattuun aineistoon AR(3)-malli, jonka yhtälö on nyt muotoa

Yt=−0,01086432−0,5403∗Yt−1−0,4664∗Yt−2−0,2567∗Yt−3+wt, missä wt∼iidN(0,0,04518).

Time

asukasmäärän_tuotto

0 20 40 60 80

−1.00.01.0

0 5 10 15

−0.20.41.0

Lag

ACF

Series asukasmäärän_tuotto

5 10 15

−0.30.0

Lag

Partial ACF

Series asukasmäärän_tuotto

Kuva 15: Logaritmoitu ja differoitu austres-aineistoYt(kuvaaja yllä) ja muuttujan Y_t ACF-kuvaaja (keskellä) ja PACF-kuvaaja (alla).

Lisätään nyt AR(3)-malliin ARCH-vaikutus. (Luvussa 4.5 käsitellään mi- ten aineistosta tutkitaan onko ARCH-vaikutuksia olemassa.) Tällöin AR(3)-