• Ei tuloksia

Tilastolliset menetelmät:Lineaarinen regressioanalyysi

N/A
N/A
Info
Lataa
Protected

Academic year: 2022

Jaa "Tilastolliset menetelmät:Lineaarinen regressioanalyysi"

Copied!
203
0
0

Kokoteksti

(1)

Tilastolliset menetelmät:

Lineaarinen regressioanalyysi

13. Tilastollinen riippuvuus ja korrelaatio 14. Johdatus regressioanalyysiin

15. Yhden selittäjän lineaarinen regressiomalli 16. Yleinen lineaarinen malli

17. Regressiomallin valinta 18. Regressiodiagnostiikka

19. Erityiskysymyksiä yleisen lineaarisen mallin soveltamisessa

(2)
(3)

Sisällys

13. TILASTOLLINEN RIIPPUVUUS JA KORRELAATIO ____________________________ 239 13.1. TILASTOLLINEN RIIPPUVUUS, KORRELAATIO JA REGRESSIO________________________ 240 13.2. KAHDEN MUUTTUJAN HAVAINTOAINEISTON KUVAAMINEN__________________________ 241 PISTEDIAGRAMMI_____________________________________________________________ 241 AIKASARJADIAGRAMMI_________________________________________________________ 245 ARITMEETTISET KESKIARVOT____________________________________________________ 246 OTOSVARIANSSIT JA OTOSKESKIHAJONNAT__________________________________________ 247 OTOSKOVARIANSSI ___________________________________________________________ 248 OTOSKORRELAATIO___________________________________________________________ 249 OTOSTUNNUSLUKUJEN LASKEMINEN_______________________________________________ 251 13.3. PEARSONIN KORRELAATIOKERTOIMEN ESTIMOINTI JA TESTAUS_____________________ 254 OTOS KAKSIULOTTEISESTA NORMAALIJAKAUMASTA____________________________________ 254 KAKSIULOTTEISEN NORMAALIJAKAUMAN PARAMETRIEN ESTIMOINTI ________________________ 255 FISHERINZ-MUUNNOS_________________________________________________________ 256 KORRELAATIOKERTOIMEN LUOTTAMUSVÄLI__________________________________________ 256 KORRELOIMATTOMUUDEN TESTAAMINEN____________________________________________ 258 YLEINEN TESTI KORRELAATIOKERTOIMELLE__________________________________________ 259 KORRELAATIOKERTOIMIEN VERTAILUTESTI __________________________________________ 261 13.4. JÄRJESTYSKORRELAATIOKERTOIMET________________________________________ 262 SPEARMANIN JÄRJESTYSKORRELAATIOKERROIN______________________________________ 262 SPEARMANIN JÄRJESTYSKORRELAATIOKERTOIMEN OMINAISUUDET_________________________ 263 KORRELOIMATTOMUUDEN TESTAAMINEN____________________________________________ 263 KENDALLIN JÄRJESTYSKORRELAATIOKERROIN________________________________________ 264 KENDALLIN JÄRJESTYSKORRELAATIOKERTOIMEN OMININAISUUDET_________________________ 265 KORRELOIMATTOMUUDEN TESTAAMINEN____________________________________________ 265

14. JOHDATUS REGRESSIOANALYYSIIN ______________________________________ 267 14.1. REGRESSIOANALYYSIN LÄHTÖKOHDAT JA TAVOITTEET ___________________________ 268 REGRESSIOANALYYSIN TAVOITTEET_______________________________________________ 268 REGRESSIOMALLIEN LUOKITTELU_________________________________________________ 268 REGRESSIOANALYYSIN SOVELLUKSET TILASTOTIETEESSÄ _______________________________ 269 REGRESSIOANALYYSIN LÄHTÖKOHDAT _____________________________________________ 269 14.2. DETERMINISTISET MALLIT JA REGRESSIOANALYYSI ______________________________ 269 DETERMINISTISET MALLIT_______________________________________________________ 269 DETERMINISTISET MALLIT JA REGRESSIO-ONGELMA____________________________________ 270 SYYT REGRESSIO-ONGELMAN SYNTYYN ____________________________________________ 270 REGRESSIOMALLI JA KIINTEÄT SELITTÄJÄT __________________________________________ 272 14.3. REGRESSIOFUNKTIOT JA REGRESSIOANALYYSI _________________________________ 273 EHDOLLISET JAKAUMAT JA EHDOLLISET ODOTUSARVOT_________________________________ 273 REGRESSIOFUNKTIOT _________________________________________________________ 274 REGRESSIOFUNKTIOT JA ENNUSTAMINEN ___________________________________________ 274 REGRESSIOFUNKTIOT JA REGRESSIO-ONGELMA ______________________________________ 275 REGRESSIOMALLI JA SATUNNAISET SELITTÄJÄT_______________________________________ 278 14.4. KAKSIULOTTEISEN NORMAALIJAKAUMAN REGRESSIOFUNKTIOT_____________________ 278 KAKSIULOTTEISEN NORMAALIJAKAUMAN TIHEYSFUNKTIO________________________________ 279 KAKSIULOTTEISEN NORMAALIJAKAUMAN PARAMETRIT __________________________________ 279

(4)

KAKSIULOTTEISEN NORMAALIJAKAUMAN PARAMETRIEN TULKINTA__________________________ 279 KAKSIULOTTEISEN NORMAALIJAKAUMAN EHDOLLISET JAKAUMAT __________________________ 280 KAKSIULOTTEISEN NORMAALIJAKAUMAN REGRESSIOFUNKTIOT____________________________ 280 KAKSIULOTTEISEN NORMAALIJAKAUMAN EHDOLLISET VARIANSSIT _________________________ 282 14.5. REGRESSIOANALYYSIN TEHTÄVÄT___________________________________________ 283 14.6. REGRESSIOMALLIN LINEAARISUUS __________________________________________ 283 15. YHDEN SELITTÄJÄN LINEAARINEN REGRESSIOMALLI _______________________ 286 15.1. YHDEN SELITTÄJÄN LINEAARINEN REGRESSIOMALLI JA SITÄ KOSKEVAT OLETUKSET______ 287 HAVAINNOT_________________________________________________________________ 287 YHDEN SELITTÄJÄN LINEAARINEN REGRESSIOMALLI____________________________________ 287 JÄÄNNÖSTERMIÄ KOSKEVAT STOKASTISET OLETUKSET _________________________________ 288 SELITETTÄVÄN MUUTTUJAN OMINAISUUDET__________________________________________ 288 MALLIN PARAMETRIT __________________________________________________________ 289 MALLIN SYSTEMAATTINEN OSA JA SATUNNAINEN OSA___________________________________ 289 REGRESSIOSUORA ___________________________________________________________ 290 REGRESSIOSUORAN KULMAKERTOIMEN TULKINTA_____________________________________ 290 15.2. REGRESSIOKERTOIMIEN ESTIMOINTI_________________________________________ 290 REGRESSIOKERTOIMIENPNS-ESTIMOINTI___________________________________________ 291 ESTIMOITU REGRESSIOSUORA ___________________________________________________ 293 REGRESSIOKERTOIMIENPNS-ESTIMAATTOREIDEN OMINAINAISUUDET ______________________ 294 15.3. SOVITTEET JA RESIDUAALIT _______________________________________________ 300 SOVITTEIDEN JA RESIDUAALIEN OMINAISUUKSIA ______________________________________ 300 SOVITTEET JA RESIDUAALIT: HAVAINNOLLISTUS ______________________________________ 301 15.4. JÄÄNNÖSVARIANSSIN ESTIMOINTI___________________________________________ 302 15.5. VARIANSSIANALYYSIHAJOTELMA JA SELITYSASTE_______________________________ 303 SELITYSASTE _______________________________________________________________ 307 SELITYSASTEEN OMINAISUUDET__________________________________________________ 308 15.6. LASKUTOIMITUSTEN JÄRJESTÄMINEN ________________________________________ 308 ESIMERKKEJÄ ESTIMOINTITULOSTEN TULKINNASTA ____________________________________ 313 15.7. PÄÄTTELY YHDEN SELITTÄJÄN LINEAARISESTA REGRESSIOMALLISTA_________________ 315 REGRESSIOKERTOIMIENPNS-ESTIMAATTOREIDEN OTOSJAKAUMAT________________________ 315 JÄÄNNÖSVARIANSSIN OTOSJAKAUMA ______________________________________________ 316 REGRESSIOKERTOIMIEN LUOTTAMUSVÄLIT __________________________________________ 317 REGRESSIOKERTOIMIA KOSKEVAT TESTIT___________________________________________ 317 15.8. ENNUSTAMINEN YHDEN SELITTÄJÄN LINEAARISELLA REGRESSIOMALLILLA_____________ 321 SELITETTÄVÄN MUUTTUJAN ODOTETTAVISSA OLEVAN ARVON ENNUSTAMINEN_________________ 321 SELITETTÄVÄN MUUTTUJAN ODOTETTAVISSA OLEVAN ARVON ENNUSTEEN OTOSJAKAUMA ________ 321 SELITETTÄVÄN MUUTTUJAN ODOTETTAVISSA OLEVAN ARVON LUOTTAMUSVÄLI ________________ 322 SELITETTÄVÄN MUUTTUJAN ODOTETTAVISSA OLEVAN ARVON LUOTTAMUSVÄLIN OMINAISUUDET____ 323 SELITETTÄVÄN MUUTTUJAN ARVON ENNUSTAMINEN____________________________________ 323 SELITETTÄVÄN MUUTTUJAN ARVON ENNUSTEEN OTOSJAKAUMA___________________________ 323 SELITETTÄVÄN MUUTTUJAN ARVON LUOTTAMUSVÄLI ___________________________________ 324 SELITETTÄVÄN MUUTTUJAN ARVON LUOTTAMUSVÄLIN OMINAISUUDET_______________________ 324 SELITETTÄVÄN MUUTTUJAN ODOTETTAVISSA OLEVAN ARVON LUOTTAMUSVÄLIVS SELITETTÄVÄN

MUUTTUJAN ARVON LUOTTAMUSVÄLI_______________________________________________ 324 15.9. YHDEN SELITTÄJÄN LINEAARINEN REGRESSIOMALLI JA SATUNNAINEN SELITTÄJÄ________ 324 15.10. KAKSIULOTTEISEN NORMAALIJAKAUMAN REGRESSIOFUNKTIOIDEN ESTIMOINTI_________ 324 KAKSIULOTTEINEN NORMAALIJAKAUMA JA SEN TIHEYSFUNKTIO ___________________________ 324 KAKSIULOTTEISEN NORMAALIJAKAUMAN EHDOLLISET JAKAUMAT __________________________ 325

(5)

OTOS KAKSIULOTTEISESTA NORMAALIJAKAUMASTA____________________________________ 326 KAKSIULOTTEISEN NORMAALIJAKAUMAN REGRESSIOFUNKTIOIDENPNS-ESTIMOINTI ____________ 326 KAKSIULOTTEISEN NORMAALIJAKAUMAN REGRESSIOFUNKTIOIDEN ESTIMOINTI MOMENTTIMENETELMÄLLÄ JA SUURIMMAN USKOTTAVUUDEN MENETELMÄLLÄ _____________________________________ 334

16. YLEINEN LINEAARINEN MALLI ____________________________________________ 335 16.1. YLEINEN LINEAARINEN MALLI JA SITÄ KOSKEVAT OLETUKSET_______________________ 336 HAVAINNOT_________________________________________________________________ 336 YLEINEN LINEAARINEN MALLI ____________________________________________________ 337 MALLIA KOSKEVAT STANDARDIOLETUKSET __________________________________________ 337 KOMMENTTEJA STANDARDIOLETUKSIIN_____________________________________________ 338 SELITETTÄVÄN MUUTTUJAN OMINAISUUDET__________________________________________ 339 MALLIN PARAMETRIT __________________________________________________________ 339 MALLIN SYSTEMAATTINEN OSA JA SATUNAINEN OSA____________________________________ 340 REGRESSIOTASO_____________________________________________________________ 340 REGRESSIOKERTOIMIEN TULKINTA ________________________________________________ 340 16.2. YLEISEN LINEAARISEN MALLIN MATRIISIESITYS _________________________________ 341 ODOTUSARVOVEKTORI JA KOVARIANSSIMATRIISI______________________________________ 341 STANDARDIOLETUKSET MATRIISIMUODOSSA_________________________________________ 342 16.3. YLEISEN LINEAARISEN MALLIN PARAMETRIEN ESTIMOINTI _________________________ 343 PIENIMMÄN NELIÖSUMMAN ESTIMOINTIMENETELMÄ____________________________________ 343 REGRESSIOKERTOIMIEN VEKTORINPNS-ETIMAATTORI _________________________________ 343 PNS-ESTIMAATTORIN ODOTUSARVOVEKTORI JA KOVARIANSSIMATRIISI______________________ 344 GAUSSIN JAMARKOVIN LAUSE ___________________________________________________ 345 GAUSSIN JAMARKOVIN LAUSEEN TULKINTA__________________________________________ 347 PNS-ESTIMAATTORIN STOKASTISET OMINAISUUDET ___________________________________ 348 SOVITTEET JA RESIDUAALIT _____________________________________________________ 348 SOVITTEIDEN JA RESIDUAALIEN MATRIISIESITYKSET____________________________________ 349 SOVITTEIDEN JA RESIDUAALIEN OMINAISUUDET_______________________________________ 350 SOVITTEIDEN JA RESIDUAALIEN STOKASTISET OMINAISUUDET ____________________________ 351 JÄÄNNÖSVARIANSSIN ESTIMOINTI_________________________________________________ 352 ESTIMOITU REGRESSIOTASO ____________________________________________________ 354 16.4. VARIANSSIANALYYSIHAJOTELMA JA SELITYSASTE_______________________________ 354 VARIANSSIANALYYSIHAJOTELMAN TULKINTA _________________________________________ 357 SELITYSASTE _______________________________________________________________ 357 SELITYSASTEEN OMINAISUUDET__________________________________________________ 358 16.5. TILASTOLLINEN PÄÄTTELY YLEISESTÄ LINEAARISESTA MALLISTA____________________ 358 REGRESSIOKERTOIMIEN ESTIMAATTOREIDEN ODOTUSARVOT, VARIANSSIT JA OTOSJAKAUMAT_____ 359 JÄÄNNÖSVARIANSSIN OTOSJAKAUMA ______________________________________________ 360 REGRESSIOKERTOIMIEN LUOTTAMUSVÄLIT __________________________________________ 360 REGRESSIOKERTOIMIEN LUOTTAMUSVÄLIEN TULKINTAT_________________________________ 361 YLEISTESTI REGRESSION OLEMASSAOLOLLE_________________________________________ 361 TESTIT YKSITTÄISILLE REGRESSIOKERTOIMILLE_______________________________________ 362 16.6. ENNUSTAMINEN YLEISELLÄ LINEAARISELLA MALLILLA____________________________ 362 SELITETTÄVÄN MUUTTUJAN ODOTETTAVISSA OLEVAN ARVON ENNUSTAMINEN_________________ 362 SELITETTÄVÄN MUUTTUJAN ODOTETTAVISSA OLEVAN ARVON ENNUSTEEN OTOSJAKAUMA ________ 363 SELITETTÄVÄN MUUTTUJAN ODOTETTAVISSA OLEVAN ARVON LUOTTAMUSVÄLI ________________ 363 SELITETTÄVÄN MUUTTUJAN ARVON ENNUSTAMINEN____________________________________ 364 SELITETTÄVÄN MUUTTUJAN ARVON ENNUSTEEN OTOSJAKAUMA___________________________ 364 SELITETTÄVÄN MUUTTUJAN ARVON LUOTTAMUSVÄLI ___________________________________ 364

(6)

SELITETTÄVÄN MUUTTUJAN ODOTETTAVISSA OLEVAN ARVON LUOTTAMUSVÄLIVS SELITETTÄVÄN

MUUTTUJAN ARVON LUOTTAMUSVÄLI_______________________________________________ 365 16.7. YLEINEN LINEAARINEN MALLI JA SATUNNAISET SELITTÄJÄT________________________ 365 YLEINEN LINEAARINEN MALLI JA STANDARDIOLETUKSET_________________________________ 365 SELITTÄJIEN SATUNNAISUUS ____________________________________________________ 365 REGRESSIOKERTOIMIEN VEKTORINPNS-ESTIMAATTORIN HARHATTOMUUS___________________ 366 YLEINEN LINEAARINEN MALLI JA MODIFIOIDUT STANDARDIOLETUKSET SATUNNAISTEN SELITTÄJIEN

TAPAUKSELLE _______________________________________________________________ 367 KOMMENTTEJA ______________________________________________________________ 367

17. REGRESSIOMALLIN VALINTA ____________________________________________ 368 17.1. REGRESSIOMALLIN VALINTA: JOHDANTO _____________________________________ 369 17.2. YLEINEN LINEAARINEN MALLI ______________________________________________ 369 MALLIN RAKENNEOSA JA JÄÄNNÖSOSA _____________________________________________ 370 REGRESSIOKERTOIMIENPNS-ESTIMAATTORIT JA NIIDEN OMINAISUUDET ____________________ 370 ESTIMOIDUN MALLIN SOVITTEET JA RESIDUAALIT SEKÄ NIIDEN OMINAISUUDET_________________ 371 JÄÄNNÖSVARIANSSIN ESTIMOINTI_________________________________________________ 372 YLEISEN LINEAARISEN MALLIN RAKENNEOSA JA SEN SPESIFIOINTI__________________________ 372 MIKSI OIKEIDEN SELITTÄJIEN LÖYTÄMINEN REGRESSIOMALLIIN ONTÄRKEÄTÄ? ________________ 373 MIKSI OIKEIDEN SELITTÄJIEN LÖYTÄMINEN REGRESSIOMALLIIN ONVAIKEATA? _________________ 373 PUUTTUVIEN SELITTÄJIEN ONGELMA_______________________________________________ 373 SELITTÄJIEN VALINNAN MENETELMÄT ______________________________________________ 374 17.3. MALLINVALINTATESTIT ___________________________________________________ 375 ALAPÄIN ASKELLUS ___________________________________________________________ 375 ASKELTAVA REGRESSIO________________________________________________________ 376 17.4. MALLINVALINTAKRITEERIT ________________________________________________ 376 MALLIVALINTAKRITEERIEN YLEINEN MUOTO__________________________________________ 377 MALLINVALINTAKRITEEREIDEN SOVELTAMINEN _______________________________________ 377 MALLINVALINTAKRITEEREITÄ ____________________________________________________ 378 JÄÄNNÖSVARIANSSIKRITEERI____________________________________________________ 378 KORJATTU SELITYSASTE _______________________________________________________ 378 MALLOWSINCP ______________________________________________________________ 379 AKAIKEN INFORNAATIOKRITEERI__________________________________________________ 380 SCHWARZINBAYESLAINEN INFORMAATIOKRITEERI ____________________________________ 380 17.5. TILASTOLLISET MENETELMÄT TILASTOLLISEN MALLIN VALINNASSA: KOMMENTTEJA______ 380 17.6. EPÄLINEAARISTEN RIIPPUVUUKSIEN LINEARISOINTI ______________________________ 381 LINEARISOINTI YHDEN SELITTÄJÄN REGRESSIOMALLEISSA _______________________________ 381 LINEARISOIVIEN MUUNNOSTEN ETSIMINEN___________________________________________ 382 LINEARISOIVIA MUUNNOKSIA ____________________________________________________ 382 VAATIMUKSET MUUNNOKSILLE ___________________________________________________ 383

18. REGRESSIODIAGNOSTIIKKA _____________________________________________ 384 18.1. REGRESSIOMALLIT JA REGRESSIODIAGNOSTIIKKA_______________________________ 385 REGRESSIOANALYYSIN PERUSKYSYMYKSET _________________________________________ 385 REGRESSIOANALYYSIN PERUSKYSYMYKSET JA REGRESSIODIAGNOSTIIKKA___________________ 385 REGRESSIOMALLIN SPESIFIOINTI _________________________________________________ 386 18.2. YLEINEN LINEAARINEN MALLI ______________________________________________ 386 MALLIN RAKENNEOSA JA JÄÄNNÖSOSA _____________________________________________ 387

(7)

ESTIMOIDUN MALLIN SOVITTEET JA RESIDUAALIT SEKÄ NIIDEN OMINAISUUDET_________________ 388 JÄÄNNÖSVARIANSSIN ESTIMOINTI_________________________________________________ 390 YLEISEN LINEAARISEN MALLIN RAKENNEOSAN SPESIFIOINTI______________________________ 390 YLEISEN LINEAARISEN MALLIN JÄÄNNÖSOSAN SPESIFIOINTI ______________________________ 391 SPESIFIOINTIVIRHEIDEN VAIKUTUKSET _____________________________________________ 391 DIAGNOSTISET TARKISTUKSET___________________________________________________ 392 18.3. REGRESSIOGRAFIIKKA___________________________________________________ 392 PISTEDIAGRAMMIT____________________________________________________________ 392 RESIDUAALIDIAGRAMMIT _______________________________________________________ 393 AIKASARJADIAGRAMMIT________________________________________________________ 393 18.4. POIKKEAVAT HAVAINNOT _________________________________________________ 394 RESIDUAALIT________________________________________________________________ 395 STANDARDOIDUT RESIDUAALIT___________________________________________________ 396 POISTORESIDUAALIT __________________________________________________________ 396 STANDARDOIDUT POISTORESIDUAALIT _____________________________________________ 397 VIPULUVUT_________________________________________________________________ 398 COOKIN ETÄISYYDET__________________________________________________________ 398 TILASTOGRAFIIKKA JA POIKKEAVIEN HAVAINTOJEN TUNNISTAMINEN ________________________ 399 18.5. REGRESSIOKERTOIMIEN VAKIOISUUS ________________________________________ 399 TESTI REGRESSIOKERTOIMIEN VAKIOISUUDELLE______________________________________ 399 TESTIN TOINEN MUOTOILU______________________________________________________ 401 18.6. MULTIKOLLINEAARISUUS _________________________________________________ 402 MULTIKOLLINEAARISUUS _______________________________________________________ 402 VARIANSSIN INFLAATIOTEKIJÄ____________________________________________________ 402 MOMENTTIMATRIISI, OTOSKOVARIANSSIMATRIISI JA OTOSKORRELAATIOMATRIISI_______________ 404 MULTIKOLLINEAARISUUDEN TUTKIMINEN____________________________________________ 405 18.7. HOMOSKEDASTISUUS JA HETEROSKEDASTISUUS________________________________ 405 HETEROSKEDASTISUUDEN VAIKUTUKSET ___________________________________________ 406 HETEROSKEDASTISUUDEN HAVAITSEMINEN__________________________________________ 406 HETEROSKEDASTISUUDEN TESTAAMINEN ___________________________________________ 406 VARIANSSIN STABILOIVAT MUUNNOKSET____________________________________________ 407 18.8. AUTOKORRELAATIO _____________________________________________________ 407 KORRELOITUNEISUUDEN VAIKUTUKSET_____________________________________________ 408 AIKASARJOJEN REGRESSIOMALLIT JA AUTOKORRELAATIO _______________________________ 408 DURBININ JAWATSONIN TESTI1. KERTALUVUN AUTOKORRELAATIOLLE _____________________ 409 18.9. NORMAALISUUS________________________________________________________ 410 EPÄNORMAALISUUDEN VAIKUTUKSET ______________________________________________ 410 BOWMANIN JASHENTONIN TESTI _________________________________________________ 410 18.10. MALLIN ENNUSTUSKYKY_________________________________________________ 411 19. ERITYISKYSYMYKSIÄ YLEISEN LINEAARISEN MALLIN SOVELTAMISESSA _______ 414 19.1. ERITYISKYSYMYKSIÄ YLEISEN LINEAARISEN MALLIN SOVELTAMISESSA: JOHDANTO ______ 415 YLEINEN LINEAARINEN MALLI ____________________________________________________ 415 REGRESSIOKERTOIMIENPNS-ESTIMAATTORIT JA NIIDEN OMINAISUUDET ____________________ 416 GAUSSIN JAMARKOVIN LAUSE ___________________________________________________ 417 GAUSSIN JAMARKOVIN LAUSEEN TULKINTA__________________________________________ 417 KUNPNS-ESTIMAATTORIEI OLE PARAS ____________________________________________ 418 KUNPNS-ESTIMAATTORIAEI SAA KÄYTTÄÄ__________________________________________ 418 19.2. YLEISTETTY PIENIMMÄN NELIÖSUMMAN MENETELMÄ_____________________________ 418 YLEISTETYNPNS-ESTIMAATTORIN ODOTUSARVO JA KOVARIANSSIMATRIISI___________________ 420

(8)

MODIFIOITUGAUSSIN JAMARKOVIN LAUSE YLEISTETYLLEPNS-ESTIMAATTORILLE_____________ 421 YLEISTETYNPNS-ESTIMAATTORIN STOKASTISET OMINAISUUDET__________________________ 423 LASKETTAVA YLEISTETTYPNS-ESTIMAATTORI _______________________________________ 423 PAINOTETTUPNS-ESTIMAATTORI_________________________________________________ 424 19.3. RAJOITETTU PIENIMMÄN NELIÖSUMMAN MENETELMÄ_____________________________ 424 RAJOITETUNPNS-ESTIMAATTORIN ODOTUSARVO JA KOVARIANSSIMATRIISI __________________ 426 MODIFIOITUGAUSSIN JAMARKOVIN LAUSE RAJOITETULLEPNS-ESTIMAATTORILLE_____________ 427 RAJOITETUNPNS-ESTIMAATTORIN STOKASTISET OMINAISUUDET__________________________ 428 RAJOITUSTEN TESTAUS________________________________________________________ 428 RAJOITUSTEN SPESIFIOINTI _____________________________________________________ 430 19.4. INSTRUMENTTIMUUTTUJAMENETELMÄ________________________________________ 430 REGRESSIOKERTOIMIEN VEKTORINPNS-ESTIMAATTORIN HARHATTOMUUS___________________ 430 INSTRUMENTTIMUUTTUJAMENETELMÄ______________________________________________ 432 INSTRUMENTTIEN SPESIFIOINTI___________________________________________________ 433

(9)

13. Tilastollinen riippuvuus ja korrelaatio

13.1. Tilastollinen riippuvuus, korrelaatio ja regressio 13.2. Kahden muuttujan havaintoaineiston kuvaaminen 13.3. Pearsonin korrelaatiokertoimen estimointi ja testaus 13.4. Järjestyskorrelaatiokertoimet

Tarkastelemme tässä luvussakahden (tai useamman)muuttujan tilastollisten aineistojen analyysia.

Pyrimme vastaamaan seuraaviin kysymyksiin:

• Mitenkahden (tai useamman)muuttujan samanaikainen tarkastelu vaikuttaa tilastollisen analyysin suorittamiseen?

• Miten kahden (tai useamman) muuttujan tilastollista aineistoakuvataan?

• Mitä tarkoitetaan kahden tekijän tai muuttujantilastollisella riippuvuudella ja miten tilastollinen riippuvuus eroaaeksaktista riippuvuudesta?

• Mitä onkorrelaatio?

• Mikä onkorrelaation jariippuvuuden suhde?

• Miten korrelaatiot estimoidaan?

• Miten korrelaatioita koskeviahypoteeseja testataan?

Tämä kappale on johdantoa tämän tilastotiedettä käsittelevän monisteen osan pääkohteelle, mikä on lineaariset regressiomallit.

Avainsanat:

Aikasarjadiagrammi, Aritmeettinen keskiarvo, Eksakti riippuvuus, Estimaattori, Estimointi, Fisherinz- muunnos, Järjestyskorrelaatiokerroin, Kendallin järjestyskorrelaatiokerroin, Keskihajonta, Korrelaatio, Korrelaatiokerroin, Korrelaatiokertoimien vertailutesti, Korrelaation testaaminen,

Korreloimattomuuden testaaminen, Kovarianssi, Keskihajonta, Kriittinen arvo, Luottamustaso, Luottamusväli, Merkitsevyys-

taso, Normaalijakauma, Otos, Otostunnusluku,p-arvo, Pearsonin otoskorrelaatiokerroin, Piste- diagrammi, Regressioanalyysi, Regressiomalli, Riippuvuus, Spearmanin järjestyskorrelaatiokerroin, Testi, Testi korrelaatiokertoimelle, Tilastollinen riippuvuus, Usean muuttujan havaintoaineiston kuvaaminen, Varianssi

(10)

13.1. Tilastollinen riippuvuus, korrelaatio ja regressio

Tieteellisen tutkimuksentärkeimmät jamielenkiintoisimmat kysymykset liittyvät tavallisesti

tutkimuksen kohteena olevaa ilmiötä kuvaavientekijöiden taimuuttujien välisiin riippuvuuksiin.

Jos tilastollisen tutkimuksen kohteena olevaan ilmiöön liittyy useampia kuin yksi muuttuja, yhden muuttujan tilastolliset menetelmät antavat tavallisesti vainrajoittuneen kuvan ilmiöstä. Sovellusten kannalta ehkä merkittävin osa tilastotiedettä käsittelee kahden tai useamman muuttujan välisten riippuvuuksien kuvaamista jamallintamista.

Esimerkki 1: Riippuvuustarkasteluja.

• Miten työttömyysaste Suomessa (% työvoimasta)riippuu BKT:n (bruttokansantuotteen) kasvuvauhdista Suomessa, Suomen viennin volyymista sekä BKT:n kasvuvauhdista muissa EU-maissa ja USA:ssa?

• Miten alkoholin kulutus (lper capita vuodessa)riippuu alkoholijuomien hintatasosta, ihmisten käytettävissä olevista tuloista ja alkoholin saatavuudesta?

• Miten todennäköisyys sairastua keuhkosyöpään (p)riippuu tupakoinnin määrästä ja kestosta?

• Miten vehnän hehtaarisato (t/ha)riippuu kesän keskilämpötilasta ja sademäärästä sekä maan muokkauksesta, lannoituksesta ja tuholaisten torjunnasta?

• Miten betonin lujuus (kg/cm2)riippuu sen kuivumisajasta?

• Miten kemiallisen aineen saanto (%)riippuu valmistusprosessissa käytettävästä lämpötilasta?

Tarkastelemme tässä esityksessä yksinkertaisuuden vuoksi vainkahden muuttujan välisiä riippuvuuksia:

(i) Muuttujien välinen riippuvuus oneksaktia, jostoisen arvot voidaan ennustaa tarkasti toisen saamien arvojen perusteella.

(ii) Muuttujien välinen riippuvuus ontilastollista, jos niiden välilläei ole eksaktia riippuvuutta, muttatoisen muuttujan arvoja voidaan käyttää apuna toisen muuttujan arvojen

ennustamisessa.

Kahden muuttujan välistä (lineaarista)tilastollista riippuvuutta kutsutaan tilastotieteessä tavallisesti korrelaatioksi.Korrelaation eli (lineaarisen)tilastollisen riippuvuuden voimakkuutta mittaavia tilastollisia tunnuslukuja kutsutaankorrelaatiokertoimiksi. Korrelaatiot muodostavatperustan muuttujien välisten (lineaaristen)riippuvuuksien ymmärtämiselle.

Vaikka korrelaatiot muodostavat perustan muuttujien välisten riippuvuuksien ymmärtämiselle, riippuvuuksia halutaan tavallisestianalysoida myös tarkemmin.Regressioanalyysi on tilastollinen menetelmä, jossa jonkin, ns.selitettävän muuttujan tilastollista riippuvuutta joistakin toisista, ns.

selittävistä muuttujista pyritään mallintamaanregressiomalliksi kutsutulla tilastollisella mallilla; ks.

lukuaJohdatus regressioanalyysiin.

Huomautus:

• Tässä luvussa rajoitutaan tarkastelemaan tilastollisten riippuvuuksien kuvaamista ja mittaamista.

(11)

Kuten yhden muuttujan havaintoaineistojen tapauksessa, lähtökohdan kahden tai useamman

muuttujan havaintoaineistojen kuvaamiselle muodostaa tutustuminenhavaintoarvojen jakaumaan.

Havaintoarvojen jakaumaa voidaan kuvailla ja esitellätiivistämällä havaintoarvoihin sisältyväinformaatio sopivaan muotoon:

• Havaintoarvojenjakaumaa kokonaisuutena voidaan kuvata sopivasti valituillagraafisilla esityksillä.

• Havaintoarvojenjakauman karakteristisia ominaisuuksia voidaan kuvata sopivasti valituillaotostunnusluvuilla.

Koska useampi- kuin kaksiulotteisten kuvioiden tekeminen ei ole käytännössä mahdollista, kolmen tai useamman muuttujan havaintoaineistoja havainnollistetaan tavallisesti niin, että muuttujia tarkastellaan pareittain.

Kahdenjärjestys-,välimatka- taisuhdeasteikoillisen muuttujan havaittujen arvojen pareja havainnollistetaan tavallisesti graafisella esityksellä, jota kutsutaanpistediagrammiksi.

Huomautus:

Monimuuttujamenetelmissä on kehitetty myös sellaisia tilastografiikan menetelmiä, joilla voidaan havainnollistaauseampi- kuin kaksiulotteisia aineistoja.

Usean muuttujan havaintoaineistojen karakteristisia ominaisuuksia voidaan kuvatamuuttuja- kohtaisillaotostunnusluvuilla. Muuttujakohtaiset otostunnusluvuteivät kuitenkaanvoi antaa informaatiota muuttujien välisistä riippuvuuksista. Muuttujienpareittaisia tilastollisia

riippuvuuksia voidaan kuvata sopivasti valitullakorrelaation mitalla.

Tutkittavien muuttujienmitta-asteikolliset ominaisuudet ohjaavat korrelaation mitan valintaa:

Välimatka- ja suhdeasteikollisille muuttujille käytetään tavallisestiPearsonin korrelaatiokerrointa.

Järjestysasteikollisille muuttujille käytetään tavallisestiSpearmanin taiKendallin järjestyskorrelaatiokerrointa.

Satunnaismuuttujien väliseen korrelaatioon voidaan kohdistaa erilaisia tilastollisia testejä.

Tässä esityksessä tarkastellaan seuraaviaPearsonin korrelaatiokertoimelle sopivia testejä:

Yhden otoksen testi korrelaatiokertoimelle

Korrelaatiokertoimien vertailutesti

Testi korreloimattomuudelle

Lisäksi tässä esityksessä tarkastellaan seuraavia Spearmanin ja Kendallin järjestyskorrelaatio- kertoimille sopivia testejä:

Testit korreloimattomuudelle

13.2. Kahden muuttujan havaintoaineiston kuvaaminen Pistediagrammi

Tarkastellaan tilannetta, jossa tutkimuksen kohteina olevistahavaintoyksiköistä on mitattukahden järjestys-,välimatka- taisuhdeasteikollisen muuttujanx jay arvot. Muuttujienx jay arvojen samaan havaintoyksikköön liittyvienparien muodostamaa havainto-aineistoa voidaan kuvata graafisesti

(12)

pistediagrammilla. Pistediagrammi sopii erityisesti kahden muuttujan välisenriippuvuuden havainnollistamiseen ja se on keskeinen työvälinekorrelaatio- jaregressioanalyysissa.

Olkoot

x1,x2, … ,xn

ja

y1,y2, … ,yn

välimatka- taisuhdeasteikollisten muuttujienx jay havaittuja arvoja. Oletetaan lisäksi, että havaintoarvotxi jayi liittyvätsamaan havaintoyksikköön kaikillei= 1, 2, … ,n. Havaintoarvojen x1,x2, … ,xn jay1,y2, … ,yn parienpistediagrammi saadaan esittämällälukuparit

(xi ,yi) ,i = 1, 2, … ,n pisteinä avaruudessa 2.

Havainnollistus:

Kuvio oikealla esittää lukuparien (xi ,yi)

ja

(xj ,yj)

määrittelemien pisteiden esittämistä tasokoordinaatistossa

Huomautus:

• Kahden tai useamman muuttujan havaintoaineistoja kannattaa tietysti kuvata myös soveltamalla jokaiseen muuttujaan erikseen yhden muuttujan havaintoaineistojen kuvaamiseen tarkoitettuja välineitä; ks. lukuaTilastollisten aineistojen

kuvaaminen.

Esimerkki 1: Hooken laki.

Hooken lain mukaan kierrejousen (ns. ideaalijousen) pituusy riippuulineaarisesti jouseen ripustetusta painostax:

y= +α βx jossa

α = jousen pituus ilman painoa β = ns.jousivakio

Alla olevassa taulukossa esitetään tulokset kokeesta, jossa Hooken lain pätevyyttä tutkittiin mittaamalla jousen pituus ilman painoa sekä painoilla, jotka olivat 2, 4, 6, 8 ja 10 kg.

Merkitään:

(xi ,yi) ,i = 1, 2, 3, 4, 5, 6 jossa

xi = painoi

(xi,yi)

(xj,yj)

xi xj

yi yj

y

x (xi,yi)

(xj,yj)

xi xj

yi yj

y

x

(13)

yi = jousen pituus, kun painona onxi

Alla oleva pistediagrammi havainnollistaa koetuloksia graafisesti.

Kysymys: Ovatko koetulokset sopusoinnussa Hooken lain kanssa?

Vastausta tähän kysymykseen tarkastellaan luvuissaJohdatus regressioanalyysiin jaYhden selittäjän lineaarinen regressiomalli.

Esimerkki 2. Poikien pituuden riippuvuus isien pituudesta.

Perinnöllisyystieteen mukaan lapset perivät geneettiset ominaisuutensa vanhemmiltaan.

Kysymys: Periytyykö isien pituus heidän pojilleen?

Havaintoaineistona on tässä 300:n isän ja heidän poikiensa pituuksien muodostamaa lukuparia

(xi ,yi) ,i = 1, 2, … , 300 jossa siis

xi = isäni pituus yi = isäni pojan pituus Ks. pistediagrammia oikealla.

Pojan pituuden riippuvuus isän pituudesta ei selvästikään oleeksaktia: Saman mittaisten isien poikien pituudet näyttävät vaihtelevan paljonkin.

Kuvasta nähdään kuitenkin se, että lyhyillä isillä näyttää olevan

keskimäärin lyhyempiä poikia kuin pitkillä isillä ja vastaavasti pitkillä isillä näyttää olevan keskimäärin pitempiä poikia kuin lyhyillä isillä.

Paino (kg) Pituus (cm)

0 43.00

2 43.60

4 44.05

6 44.55

8 45.00

10 45.50

Kierrejousen pituuden riippuvuus jouseen ripustetusta painosta

42.50 43.00 43.50 44.00 44.50 45.00 45.50 46.00

-2 0 2 4 6 8 10 12

Paino (kg)

Jousen pituus (cm)

Isien ja poikien pituudet

160 165 170 175 180 185 190 195

155 160 165 170 175 180 185 190 Isän pituus (cm)

Pojan pituus (cm)

(14)

Tällaistentilastollisten riippuvuuksien analysoimistalineaaristen regressiomallien avulla tarkastellaan luvuissaJohdatus regressioanalyysiin jaYhden selittäjän lineaarinen regressiomalli.

Esimerkki 3. Keuhkosyövän yleisyyden riippuvuus savukkeiden kulutuksesta.

Onko keuhkosyöpä yleisempää sellaisissa maissa, joissa tupakoidaan paljon?

Oikealla on taulukko, jossa on tiedot savukkeiden kulutuksesta ja keuhkosyövän yleisyydestä 10:ssä maailman maassa.

Huomaa, että keuhkosyövän yleisyys on mitattu 20 vuotta savukkeiden kulutuksen mittaamisen jälkeen.

Tämä johtuu tietysti siitä, että keuhkosyövän kehittyminen vaatii pitkän altistusajan.

Havaintoaineistona on tässä siis 10 lukuparia

(xi ,yi) ,i = 1, 2, … , 10 jossa

xi = savukkeiden kulutus maassai vuonna 1930

yi = sairastuvuus keuhkosyöpään maassai vuonna 1950 Oikealla oleva pistediagrammi

havainnollistaa savukkeiden kulutuksen ja keuhkosyövän yleisyyden välistä yhteyttä.

Sairastuvuus keuhkosyöpään näyttää olevankeskimäärin korkeampaa sellaisissa maissa, joissa savukkeiden kulutus on ollut keskimääräistä suurempaa.

Tällaistentilastollisten riippuvuuksien analysoimista lineaaristen regressiomallien avulla tarkastellaan luvussa Yhden selittäjän lineaarinen regressiomalli.

Esimerkki 4. Betonin lujuuden riippuvuus kuivumisajasta.

Kokeessa tutkittiin betonin vetolujuuden riippuvuutta betonin kuivumisajasta.

Maa

Savukkeiden kulutus (kpl) per

capita 1930

Keuhkosyöpä- tapausten lkm

per 1 milj.

henkilöä 1950

Islanti 220 58

Norja 250 90

Ruotsi 310 115

Kanada 510 150

Tanska 380 165

Itävalta 455 170

Hollanti 460 245

Sveitsi 530 250

Suomi 1115 350

Englanti 1145 465

Savukkeiden kulutus ja sairastuvuus keuhkosyöpään

Englanti

Suomi

Sveitsi Hollanti TanskaItävaltakanada Ruotsi

Norja Islanti 0

100 200 300 400 500

0 200 400 600 800 1000 1200 1400 Savukkeiden kulutus (kpl)

per capita 1930 Keuhkosyöpätapausten lkm per 1 milj. henkiä 1950

(15)

(xi ,yi) ,i = 1, 2, … , 21 jossa

xi = betoniharkoni kuivumisaika yi = betoniharkoni vetolujuus Ks. pistediagrammia oikealla.

Vetolujuus näyttää kuvan perusteella riippuvanepä- lineaarisesti kuivumisajasta.

Tässä tapauksessa muuttujien välinen ilmeinen epälineaarinen riippuvuus voidaan kuitenkin linearisoida; ks. lukuaJohdatus regressioanalyysiin.

Linearisoinnin jälkeen

riippuvuutta voidaan analysoida lineaaristen regressiomallien avulla.

Aikasarjadiagrammi

Oletetaan, ettäjärjestys-,välimatka- taisuhdeasteikollisen muuttujanx havaitut arvot x1,x2, … ,xn

muodostavataikasarjan. Tällä tarkoitetaan sitä, että havaintoarvot xt ,t = 1, 2, … ,n on indeksoitu niin, että indeksii viittaaperäkkäisiin ajanhetkiin, jolloin havainnot ovat aikajärjestyksessä.Aika- sarjadiagrammi on pistediagrammi, joka saadaan esittämällälukuparit

(t ,xt) ,t = 1, 2, … ,n

pisteinä avaruudessa 2. Lisäksiperäkkäisiin ajanhetkiin liittyvät pisteet (t–1 ,xt–1) ja (t ,xt) ,

t = 2, 3, … ,n

yhdistetään aikasarjadiagrammissa tavallisesti toisiinsajanoilla.

Havainnollistus:

Kuvio oikealla esittää aikasarjan xt ,t = 1, 2, … ,n peräkkäisten havaintoarvojen

xt–1 ,xt ,xt+1

Betonin vetolujuuden riippuvuus kuivumisajasta

0.0 10.0 20.0 30.0 40.0 50.0

0 5 10 15 20 25 30

Kuivumisaika (vrk)

Vetolujuus (kg/cm2)

(t+1,xt+1)

xt−1 xt+1 x

t

xt (t,xt)

(t−1, xt−1)

(t+1,xt+1)

xt−1 xt+1 x

t

xt (t,xt)

(t−1, xt−1)

(t+1,xt+1)

xt−1 xt+1 x

t

xt (t,xt)

(t−1, xt−1)

(16)

määrittelemien pisteiden esittämistä tasokoordinaatistossa.

Esimerkki 5. Kuukausimyynnin arvon kehitys.

Alla on aikasarjadiagrammi, joka esittää erään tukkukaupan kk-myynnin arvon vaihtelua.

Havaintoaineistona on 144 lukuparia (t ,xt)

jossa

t = aika (1970/1-1981/12)

xt = kk-myynnin arvoa kuvaava indeksi (1960/1 = 100) Huomaa, että kk-myynnissä on

ollut nouseva trendi ja selvää kausivaihtelua.

Tällaisten aikasarjojen

analysoiminen vaatii menetelmiä, jotka menevät tässä monisteessa käsiteltävän alueen ulkopuolelle.

Aikasarjojen analyysia ja ennustamista käsitellään monisteessaAikasarja- analyysi.

Aritmeettiset keskiarvot

Kahdenvälimatka- taisuhdeasteikollisen muuttujan havaintoarvojen parien muodostamaa jakaumaa voidaankarakterisoida seuraavillatunnusluvuilla:

• Havaintoarvojen keskimääräistäsijaintia kuvataanaritmeettisilla keskiarvoilla.

• Havaintoarvojenhajaantuneisuutta taikeskittyneisyyttä kuvataankeskihajonnoilla tai (otos-)variansseilla.

• Havaintoarvojen (lineaarista) riippuvuutta kuvataanotoskovarianssilla ja otoskorrelaatiokertoimella.

Olkoot

x1,x2, … ,xn

ja

y1,y2, … ,yn

Myynti 1970/1-1981/12

100 150 200 250 300

1970 1972 1974 1976 1978 1980 1982

Myynti (indeksi)

(17)

välimatka- taisuhdeasteikollisten muuttujienx jay havaittuja arvoja. Oletetaan lisäksi, että havaintoarvotxi jayi liittyvätsamaan havaintoyksikköön kaikillei= 1, 2, … ,n.

Havaintoarvojenx1,x2, … ,xnaritmeettinen keskiarvo on

1

1 n

i i

x x

n =

=

Havaintoarvojeny1,y2, … ,ynaritmeettinen keskiarvo on

1

1 n

i i

y y

n =

=

Havaintoarvojen aritmeettinen keskiarvo kuvaa havaintoarvojenkeskimääräistä sijaintia. Havainto- arvojen pareista

(xi ,yi ) ,i = 1, 2, … ,n

laskettujen aritmeettisten keskiarvojen x ja y muodostama lukupari ( , )x y

on havaintoarvojen parien muodostamien pisteidenpainopiste. Havaintoarvojen aritmeettinen keskiarvo kuvaa havainto-arvojenkeskimääräistä sijaintia.

Otosvarianssit ja otoskeskihajonnat

Havaintoarvojenx1,x2, … ,xn (otos-)varianssi on

( )

2

2

1

1 1

n

x i

i

s x x

n =

= −

jossa x onx-havaintoarvojen aritmeettinen keskiarvo ja havaintoarvojeny1,y2, … ,yn (otos-) varianssi on

( )

2

2

1

1 1

n

y i

i

s y y

n =

= −

jossa y ony-havaintoarvojen aritmeettinen keskiarvo. Havaintoarvojen varianssi mittaa havainto- arvojenhajaantuneisuutta taikeskittyneisyyttä havaintoarvojen aritmeettisen keskiarvon suhteen.

Havaintoarvojenx1,x2, … ,xnkeskihajonta on

( )

2

2

1

1 1

n

x x i

i

s s x x

n =

= = −

jossa x onx-havaintoarvojen aritmeettinen keskiarvo ja havaintoarvojeny1,y2, … ,ynkeski- hajonta on

( )

2

2

1

1 1

n

y y i

i

s s y y

n =

= = −

jossa y ony-havaintoarvojen aritmeettinen keskiarvo. Havaintoarvojen keskihajonta mittaa (kuten havaintoarvojen otosvarianssi) havaintoarvojenhajaantuneisuutta taikeskittyneisyyttä havainto- arvojen aritmeettisen keskiarvon suhteen.

(18)

Otoskovarianssi

Havaintoarvojen pareista (xi ,yi) ,i = 1, 2, … ,n laskettuotoskovarianssi on

( )( )

1

1 1

n

xy i i

i

s x x y y

n =

= − −

jossa

x =x-havaintoarvojen aritmeettinen keskiarvo y =y-havaintoarvojen aritmeettinen keskiarvo

Huomaa, ettäx- jay-havaintoarvojen otoskovarianssit niiden itsensä kanssa ovat niidenvariansseja:

2 2

xx x

yy y

s s

s s

=

=

Otoskovarianssisxy mittaax- jay-havaintoarvojenyhteisvaihtelua niiden aritmeettisten keski-arvojen ympärillä. Mitä suurempi on otoskovarianssinsxy itseisarvo

| sxy |

sitä voimakkaampaa onx- jay-havaintoarvojen yhteisvaihtelu.

Tarkastellaan seuraavaksi miten otoskovarianssinsxymerkin määräytymistä. Merkin määrää se onko summalauseke

(1)

(xix)(yiy) negatiivinen vai positiivinen.

Todetaan ensin, että summalausekkeen (1)i. termin (xix y)( iy)

itseisarvo

|xix| |yiy|

on sellaisensuorakaiteen pinta-ala, jonka sivujen pituudet ovat |xix| ja |yiy|. Summalausekkeen (1)i. termin

(xix y)( iy) merkki määräytyy seuraavalla tavalla:

jos ja

( )( ) 0

jos ja jos ja

( )( ) 0

jos ja

i i

i i

i i

i i

i i

i i

x x y y

x x y y

x x y y

x x y y

x x y y

x x y y

≥ ≥

− − ≥  ≤ ≤

≥ ≤

− − ≤  ≤ ≥

Otoskovarianssin merkin määräytymistä voidaanhavainnollistaa geometrisesti seuraavalla tavalla:

(i) Jaetaanxy-taso neljään osaan elineljännekseen pisteen ( , )x y

(19)

kautta piirretyillä koordinaattiakseleiden suuntaisilla suorilla.

(ii) Termin

(xix y)( iy)

merkin määrää se, mihin neljännekseen havaintopiste (xi , yi) sijoittuu.

Ks. alla olevaa kuvaa:

Jos positiiviset termit summalausekkeeseen (1)

(xix)(yiy)

tuottavien suorakaiteiden yhteenlaskettu pinta-ala onsuurempi (pienempi) kuin negatiiviset termit tuottavien suorakaiteiden yhteenlaskettu pinta-ala, otoskovarianssinsxy merkki onpositiivinen (negatiivinen).

Tästä seuraa se, että otoskovarianssilla on taipumus saadapositiivisia (negatiivisia) arvoja, jos havaintopisteiden muodostama pistepilvi tai -parvinäyttää nousevalta (laskevalta)oikealle mentäessä; ks.pistediagrammin ilmeen ja Pearsoninotoskorrelaatiokertoimen yhteyttä

havainnollistavaa kuvasarjaa tässä kappaleessa.

Otoskorrelaatio

Otoskovarianssinsxy avulla voidaan määritelläx- jay-havaintoarvojenlineaarisen tilastollisen riippuvuuden voimakkuuden mittari, jota kutsutaanPearsonin otoskorrelaatiokertoimeksi.

Pearsonin otoskorrelaatiokerroinrxy saadaan otoskovarianssistasxynormeerausoperaatiolla, jossa x- jay-havaintoarvojen otoskovarianssisxy jaetaanx- jay-havaintoarvojen keskihajonnoillasx jasy . Havaintoarvojen pareista (xi ,yi) ,i = 1, 2, … , n laskettuPearsonin otoskorrelaatiokerroin on

xy xy

x y

r s

=s s jossa

sxy = x- jay-havaintoarvojen otoskovarianssi sx = x-havaintoarvojen keskihajonta

( x

i

x y )(

i

y ) ≤ 0 ( x

i

x y )(

i

y ) ≥ 0

( x

i

x y )(

i

y ) ≥ 0 ( x

i

x y )(

i

y ) ≤ 0 ( , ) x y

( , x y

i i

) ( , x y

i i

)

( , x y

i i

) ( , x y

i i

)

( x

i

x y )(

i

y ) ≤ 0 ( x

i

x y )(

i

y ) ≥ 0

( x

i

x y )(

i

y ) ≥ 0 ( x

i

x y )(

i

y ) ≤ 0 ( , ) x y

( , x y

i i

) ( , x y

i i

)

( , x y

i i

) ( , x y

i i

)

(20)

sy = y-havaintoarvojen keskihajonta

Pearsonin otoskorrelaatiokertoimen kaava voidaan kirjoittaa myös muotoon

( )( )

( ) ( )

1

2 2

1 1

n

i i

i

xy n n

i i

i i

x x y y

r

x x y y

=

= =

− −

=

− −

∑ ∑

jossa

x = x-havaintoarvojen aritmeettinen keskiarvo y = y-havaintoarvojen aritmeettinen keskiarvo

Havaintoarvojen pareista (xi ,yi) ,i = 1, 2, … ,n lasketulla Pearsonin otoskorrelaatiokertoimella rxy

on seuraavat ominaisuudet:

(i) –1≤rxy≤ +1

(ii) rxy =±1

jos ja vain jos

yi =α +βxi ,i = 1, 2, … ,n jossaα jaβ ≠ 0 ovat reaalisia vakioita.

(iii) Korrelaatiokertoimellarxy ja kovarianssillasxy on ainasama merkki.

Pearsonin otoskorrelaatiokerroinrxy mittaax- jay-havaintoarvojen lineaarisen tilastollisen riippuvuuden voimakkuutta:

(i) Jos

rxy =±1

niinx- jay-havaintoarvojen välilläon eksakti elifunktionaalinen lineaarinen riippuvuus, mikä merkitsee sitä, että kaikki havaintopisteet (xi ,yi) ,i = 1, 2, … ,n asettuvat samalle suoralle.

(ii) Jos

rxy = 0

niin x- ja y-havaintoarvojen välillä ei voi olla eksaktia lineaarista riippuvuutta.

Huomautus:

• Vaikka

rxy = 0

niin x- ja y-havaintoarvojen välillä saattaa olla jopa eksakti epälineaarinen riippuvuus.

Korrelaatiokertoimenmerkki ja jopasuuruusluokka (jollakin tarkkuudella) voidaan melko helposti oppia arvioimaan pistediagrammin avulla. Alla olevat kuviot havainnollistavat kahden muuttujan havaittujen arvojen (n = 30) pistediagrammin ilmeen jakorrelaation välistä yhteyttä.

Viittaukset

LIITTYVÄT TIEDOSTOT

Niiden luonne vain on muuttunut: eleet ja kasvottainen puhe ovat vaihtuneet kirjoitukseksi ja ku- viksi sitä mukaa kuin kirjapainotaito on kehittynyt.. Sa- malla ilmaisu on

Heinonen, Tarja Riitta 2013: Idiomien leksikaalinen kuvaus kielenkäytön ja vaihtelun

– Yhteinen korkean vaihtelun regiimi: Taso korkeampi ja virhetermit positiivisesti korreloituneita. – Ranskan ja Japanin osalta korkean vaihtelun regiimi jakautuu kahteen eri

5PJTJO QÅJO TJJT KPOPKB uTFMWÅ LVJO u MBTLFĨBFTTB UÕSNÅUÅÅO FOTJO NÅÅSJĨFMZWBJ LFVLTJJO UVMJTJLP PTVVT MBTLFB WBJO TFMMBJTJTUB TBOBKPOPJTUB KPULB FTJJOUZWÅU

• Oletetaan, että haluamme selittää jonkin selitettävän tekijän tai muuttujan havaittujen arvojen vaihtelun joidenkin selittävien tekijöiden tai muuttujien havaittujen

• Oletetaan, että haluamme selittää jonkin selitettävän tekijän tai muuttujan havaittujen arvojen vaihtelun joidenkin selittävien tekijöiden tai muuttujien.. havaittujen

Järjestysasteikollisten muuttujien tunnuslukuja saa käyttää ja on usein myös järkevää käyttää kuvaamaan välimatka- ja suhde- asteikollisten muuttujien havaittujen

Kaksi- tai useampisuuntaisessa varianssianalyysissa perusjoukko on jaettu ryhmiin kahden tai useamman ryhmittelevän tekijän suhteen ja nytkin tavoitteena on testata hypoteesia,