• Ei tuloksia

Johdatus regressioanalyysiin

Esimerkki 6: Otostunnuslukujen laskeminen

14. Johdatus regressioanalyysiin

14.1. Regressioanalyysin lähtökohdat ja tavoitteet 14.2. Deterministiset mallit ja regressioanalyysi 14.3. Regressiofunktiot ja regressioanalyysi

14.4. Kaksiulotteisen normaalijakauman regressiofunktiot 14.5. Regressioanalyysin tehtävät

14.6. Regressiomallin lineaarisuus

Regressioanalyysi on (erilaisine muunnelmineen ja johdannaisineen) ehkäeniten sovellettu tilastotieteen menetelmä.

Regressioanalyysin avulla voidaan analysoidajonkin tekijän taimuuttujanriippuvuutta

toisista tekijöistätaimuuttujista, kun riippuvuusei oleeksaktia vaantilastollista. Tämä tapahtuu rakentamalla riippuvuutta kuvamaanregressiomalliksi kutsuttu tilastollinen malli. Regressiomalli pyrkiiselittämään jonkinselitettävän tekijän taimuuttujan havaittujen arvojen vaihtelun joidenkinselittävien tekijöiden taimuuttujien havaittujen arvojen vaihtelun avulla.

Tarkastelemme tässä luvussaregressioanalyysin lähtökohtia,tavoitteita jatehtäviä. Pyrimme perustelemaan myös sen, miksi tässä monisteessa rajoitutaan käsittelemään vainlineaarisia regressiomalleja.

Avainsanat:

Approksimointi. Deterministinen malli, Ehdollinen jakauma, Ehdollinen odotusarvo, Ehdollinen varianssi, Ei-satunnaisuus, Ennustaminen, Ennustevirhe, Epälineaarinen regressiomalli, Epä-lineaarisuus, Estimointi, Jäännöstermi, Kaksiulotteinen normaalijakauma, Keskineliövirhe, Lineaarinen regressiomalli, Linearisointi, Lineaarisuus, Malli, Mallin hyvyys, Minimointi,

Multinormaalijakauma, Oletus, Otos, Parametri, Pienimmän neliösumman menetelmä, Rakenneosa, Regressioanalyysi,

Regressiodiagnostiikka, Regressiofunktio, Regressiomalli, Regressiosuora, Reunajakauma, Satunnainen osa, Satunnaisuus, Selitettävä muuttuja, Selittäjä, Selittäminen, Selittävä muuttuja, Systemaattinen osa, Testi, Tilastollinen malli, Tilastollinen riippuvuus, Virhetermi, Yhteisjakauma

14.1. Regressioanalyysin lähtökohdat ja tavoitteet

Oletetaan, että haluammeselittää jonkin selitettävän tekijän tai muuttujan havaittujen arvojen vaihtelun joidenkin selittävien tekijöiden tai muuttujien havaittujen arvojen vaihtelun avulla.

Jostilastollisesti merkitsevä osa selitettävän muuttujan havaittujen arvojen vaihtelusta voidaan selittää selittävien muuttujien havaittujen arvojen vaihtelun avulla, sanomme, että selitettävä muuttuja riippuu tilastollisesti selittäjinä käytetyistä muuttujista.

Regressioanalyysissa selitettävän muuttujan riippuvuudelle selittävistä muuttujista pyritään rakentamaanregressiomalliksi kutsuttu tilastollinen malli. Koska riippuvuuksien analysointi on kaiken tieteellisen tutkimuksen keskeinen tavoite,regressioanalyysi on eniten sovellettuja ja tärkeimpiä tilastotieteen menetelmiä.

Regressioanalyysin tavoitteet Regressioanalyysin mahdollisia tavoitteita:

(i) Selitettävän muuttujan ja selittävien muuttujien tilastollisen riippuvuuden luonteen kuvaaminen:

• Millainen on riippuvuuden (matemaattinen)muoto?

• Kuinkavoimakasta riippuvuus on?

(ii) Selitettävän muuttujan ja selittävien muuttujien tilastollisen riippuvuuden luonteen selittäminen.

(iii) Selitettävän muuttujan arvojenennustaminen selittävien muuttujien arvojen avulla.

(iv) Selitettävän muuttujan arvojenkontrolli kontrolloimalla selittävien muuttujien arvoja.

Regressiomallien luokittelu

Regressioanalyysissa sovellettavat tilastolliset mallit voidaan luokitella usealla eri periaatteella.

Luokittelu regressiomallinfunktionaalisen muodon mukaan:

Lineaariset regressiomallit

Epälineaariset regressiomallit

Luokittelu regressiomallinyhtälöiden lukumäärän mukaan:

Yhden yhtälön regressiomallit

Moniyhtälömallit

Tässä monisteessa käsitellään ainoastaanlineaarisia yhden yhtälön regressiomalleja; ks. lukuja Yhden selittäjän lineaarinen regressiomalli jaYleinen lineaarinen malli. Tämä ei kuitenkaan ole kovin vakava rajoitus, koska lineaaristen yhden yhtälön regressiomallien sovellusalue on niinkin laaja kuin se on. Lisäksi lineaaristen regressiomallien teorian hyvä hallinta tekee mahdolliseksi

epä-lineaarisiin regressiomalleihin ja moniyhtälömalleihin liittyvien erityisongelmien ymmärtämisen melko helposti.

On hyödyllistä tietää, ettävarianssianalyysissa sovellettavat tilastolliset mallit voidaan ymmärtää yleisen lineaarisen mallin erikoistapauksiksi; ks. lukujaYksisuuntainen varianssianalyysi, Kaksi-suuntainen varianssianalyysi jaKolmi- ja useampisuuntainen varianssianalyysi.

Regressioanalyysin sovellukset tilastotieteessä

Regressiomalleja käytetään apuvälineinä monilla tilastotieteen osa-alueilla. Esimerkkejä regressiomallien käyttökohteista tilastotieteessä:

Varianssianalyysi

Koesuunnittelu

Monimuuttujamenetelmät

Kalibrointi

Biometria tai -statistiikka

Aikasarjojen analyysi ja ennustaminen

Ekonometria

Regressioanalyysin lähtökohdat

Regressioanalyysilla voidaan ajatella olevan kaksi erilaista lähtökohtaa, joilla on kuitenkin myös monia yhtymäkohtia:

(i) Ongelmat determinististen mallien sovittamisessa havaintoihin; ks. kappaletta Deterministiset mallit ja regressioanalyysi.

(ii) Moniulotteisten todennäköisyysjakaumien ehdollisten odotusarvojen eli regressiofunktioiden parametrien estimointi; ks. kappaletta Regressiofunktiot ja regressioanalyysi.

Käsittelemme vuorollaan kumpaakin lähtökohtaa.

14.2. Deterministiset mallit ja regressioanalyysi

Oletetaan, että haluammeselittää jonkinselitettävän tekijän taimuuttujan käyttäytymisen

joidenkinselittävien tekijöiden taimuuttujien avulla. Oletetaan, että sekä selitettävä muuttuja että selittäjät ovatei-satunnaisia muuttujia. Tällöin tavoitteeseen voidaan pyrkiä kuvaamalla selitettävän muuttujan arvojen riippuvuutta selittävien muuttujien arvoistadeterministisen mallinavulla.

Oletetaan, että selitettävän muuttujan riippuvuutta selittävistä muuttujista kuvaavandeterministisen mallin muoto riippuu tuntemattomastaparametrista (vakiosta). Tällöin parametrin arvo voidaan pyrkiäestimoimaan eliarvioimaan havaintojen avulla.

Oletetaan nyt, että parametrille ei voida löytää sellaista arvoa, joka saisi mallin sopimaan

samanaikaisesti kaikkiin havaintoihin. Voidaanko parametrille kuitenkin löytää sellainen arvo,joka saisi mallin sopimaan havaintoihin jossakin mielessäniin hyvin kuin se on mahdollista?

Deterministiset mallit

Oletetaan, että selitettävän muuttujany eksaktia (taikausaalista)riippuvuutta selittäjästäx halutaan mallintaa yhtälöllä

( ; ) y= f x β

jossa funktionf muoto riippuuparametrista elivakiostaβ. Yhtälö määritteleedeterministisen mallin selitettävän muuttujany ja selittäjänx riippuvuudelle: Jos selittäjänx ja parametrinβ arvot tunnetaan, niin selitettävän muuttujany arvo ontäysin määrätty.

Deterministiset mallit ja regressio-ongelma

Oletetaan, että selitettävän muuttujany riippuvuutta selittäjästäx halutaan mallintaa deterministisellä yhtälöllä

( ; ) y= f x β

Oletetaan nyt, että funktionf muodon määräävän parametrinβ arvo on tuntematon ja että haluamme löytää parametrilleβparhaan mahdollisen havaintoihin perustuvan estimaatin eliarvion.

Regressio-ongelma syntyy determinististen mallien yhteydessä tilanteissa, joissapara-metrilleβ ei voida löytää sellaista arvoa,joka saisi yhtälön y= f x( ; )β toteutumaan saman-aikaisesti kaikille havainnoille.

Oletetaan, että muuttujiax jay koskevat havainnotxi jayi liittyvät samaan havaintoyksikköön kaikille i = 1, 2, … ,n. Oletamme siis, että ei ole olemassayhtä parametrinβ arvoa, joka saa yhtälön

( ; ) y= f x β

toteutumaansamanaikaisesti kaikille havainnoille xi jayi . Kirjoitetaan ( ; ) , 1, 2, ,

i i i

y = f x β ε+ i= K n

jossaεi onhavaintoyksiköstä toiseen satunnaisesti vaihtelevajäännös- elivirhetermi. Koska olemme olettaneet, että jäännöstermiεi onsatunnainen, myös selitettävän muuttujany havaittujen arvojenyi on välttämättä oltava satunnaisia.

Yhtälö

( ; ) , 1, 2, ,

i i i

y = f x β ε+ i= K n

kuvaa selitettävän muuttujanytilastollista riippuvuutta selittävän muuttujanx saamista arvoista.

Sanomme, että yhtälö määrittelee selitettävän muuttujanyregressiomallin selittävän muuttujanx suhteen.

Regressioanalyysissa parametrinβ arvo pyritään valitsemaan tavalla, joka tekeekaikista

jäännöstermeistäεjsamanaikaisesti mahdollisimman pieniä. Tämä onkäyränsovitusongelma: Miten parametrinβ arvo pitää valita, jotta käyrä

( ; ) y= f x β

kulkisi jossakin mielessä mahdollisimman läheltä jokaista havaintopistettä ( ,x yi i)∈ 2 ,i=1, 2,K,n

Erään ratkaisun tähän käyränsovitusongelmaan tarjoaapienimmän neliösumman menetelmä. Siinä parametrinβ arvo valitaan siten, ettäjäännös- eli virhetermienεineliösumma

2 2

1 1

( ( ; ))

n n

i i i

i i

y f x

ε β

= = =

∑ ∑

tulee mahdollisimman pieneksi.

Syyt regressio-ongelman syntyyn

Mitkäsyyt johtavat regressio-ongelman syntymiseen determinististen mallien yhteydessä?

Syitä regressio-ongelman syntymiseen:

(i) Havaintovirheet selitettävän muuttujany havaituissa arvoissa.

(ii) Yhtälö

( ; ) y= f x β

on idealisointi: Osaa selitettävän muuttujany käyttäytymiseen vaikuttavista tekijöistäei haluta taiei pystytä ottamaan huomioon.