Tilastolliset menetelmät:
Lineaarinen regressioanalyysi
13. Tilastollinen riippuvuus ja korrelaatio 14. Johdatus regressioanalyysiin
15. Yhden selittäjän lineaarinen regressiomalli 16. Yleinen lineaarinen malli
17. Regressiomallin valinta 18. Regressiodiagnostiikka
19. Erityiskysymyksiä yleisen lineaarisen mallin soveltamisessa
Sisällys
13. TILASTOLLINEN RIIPPUVUUS JA KORRELAATIO ____________________________ 239 13.1. TILASTOLLINEN RIIPPUVUUS, KORRELAATIO JA REGRESSIO________________________ 240 13.2. KAHDEN MUUTTUJAN HAVAINTOAINEISTON KUVAAMINEN__________________________ 241 PISTEDIAGRAMMI_____________________________________________________________ 241 AIKASARJADIAGRAMMI_________________________________________________________ 245 ARITMEETTISET KESKIARVOT____________________________________________________ 246 OTOSVARIANSSIT JA OTOSKESKIHAJONNAT__________________________________________ 247 OTOSKOVARIANSSI ___________________________________________________________ 248 OTOSKORRELAATIO___________________________________________________________ 249 OTOSTUNNUSLUKUJEN LASKEMINEN_______________________________________________ 251 13.3. PEARSONIN KORRELAATIOKERTOIMEN ESTIMOINTI JA TESTAUS_____________________ 254 OTOS KAKSIULOTTEISESTA NORMAALIJAKAUMASTA____________________________________ 254 KAKSIULOTTEISEN NORMAALIJAKAUMAN PARAMETRIEN ESTIMOINTI ________________________ 255 FISHERINZ-MUUNNOS_________________________________________________________ 256 KORRELAATIOKERTOIMEN LUOTTAMUSVÄLI__________________________________________ 256 KORRELOIMATTOMUUDEN TESTAAMINEN____________________________________________ 258 YLEINEN TESTI KORRELAATIOKERTOIMELLE__________________________________________ 259 KORRELAATIOKERTOIMIEN VERTAILUTESTI __________________________________________ 261 13.4. JÄRJESTYSKORRELAATIOKERTOIMET________________________________________ 262 SPEARMANIN JÄRJESTYSKORRELAATIOKERROIN______________________________________ 262 SPEARMANIN JÄRJESTYSKORRELAATIOKERTOIMEN OMINAISUUDET_________________________ 263 KORRELOIMATTOMUUDEN TESTAAMINEN____________________________________________ 263 KENDALLIN JÄRJESTYSKORRELAATIOKERROIN________________________________________ 264 KENDALLIN JÄRJESTYSKORRELAATIOKERTOIMEN OMININAISUUDET_________________________ 265 KORRELOIMATTOMUUDEN TESTAAMINEN____________________________________________ 265
14. JOHDATUS REGRESSIOANALYYSIIN ______________________________________ 267 14.1. REGRESSIOANALYYSIN LÄHTÖKOHDAT JA TAVOITTEET ___________________________ 268 REGRESSIOANALYYSIN TAVOITTEET_______________________________________________ 268 REGRESSIOMALLIEN LUOKITTELU_________________________________________________ 268 REGRESSIOANALYYSIN SOVELLUKSET TILASTOTIETEESSÄ _______________________________ 269 REGRESSIOANALYYSIN LÄHTÖKOHDAT _____________________________________________ 269 14.2. DETERMINISTISET MALLIT JA REGRESSIOANALYYSI ______________________________ 269 DETERMINISTISET MALLIT_______________________________________________________ 269 DETERMINISTISET MALLIT JA REGRESSIO-ONGELMA____________________________________ 270 SYYT REGRESSIO-ONGELMAN SYNTYYN ____________________________________________ 270 REGRESSIOMALLI JA KIINTEÄT SELITTÄJÄT __________________________________________ 272 14.3. REGRESSIOFUNKTIOT JA REGRESSIOANALYYSI _________________________________ 273 EHDOLLISET JAKAUMAT JA EHDOLLISET ODOTUSARVOT_________________________________ 273 REGRESSIOFUNKTIOT _________________________________________________________ 274 REGRESSIOFUNKTIOT JA ENNUSTAMINEN ___________________________________________ 274 REGRESSIOFUNKTIOT JA REGRESSIO-ONGELMA ______________________________________ 275 REGRESSIOMALLI JA SATUNNAISET SELITTÄJÄT_______________________________________ 278 14.4. KAKSIULOTTEISEN NORMAALIJAKAUMAN REGRESSIOFUNKTIOT_____________________ 278 KAKSIULOTTEISEN NORMAALIJAKAUMAN TIHEYSFUNKTIO________________________________ 279 KAKSIULOTTEISEN NORMAALIJAKAUMAN PARAMETRIT __________________________________ 279
KAKSIULOTTEISEN NORMAALIJAKAUMAN PARAMETRIEN TULKINTA__________________________ 279 KAKSIULOTTEISEN NORMAALIJAKAUMAN EHDOLLISET JAKAUMAT __________________________ 280 KAKSIULOTTEISEN NORMAALIJAKAUMAN REGRESSIOFUNKTIOT____________________________ 280 KAKSIULOTTEISEN NORMAALIJAKAUMAN EHDOLLISET VARIANSSIT _________________________ 282 14.5. REGRESSIOANALYYSIN TEHTÄVÄT___________________________________________ 283 14.6. REGRESSIOMALLIN LINEAARISUUS __________________________________________ 283 15. YHDEN SELITTÄJÄN LINEAARINEN REGRESSIOMALLI _______________________ 286 15.1. YHDEN SELITTÄJÄN LINEAARINEN REGRESSIOMALLI JA SITÄ KOSKEVAT OLETUKSET______ 287 HAVAINNOT_________________________________________________________________ 287 YHDEN SELITTÄJÄN LINEAARINEN REGRESSIOMALLI____________________________________ 287 JÄÄNNÖSTERMIÄ KOSKEVAT STOKASTISET OLETUKSET _________________________________ 288 SELITETTÄVÄN MUUTTUJAN OMINAISUUDET__________________________________________ 288 MALLIN PARAMETRIT __________________________________________________________ 289 MALLIN SYSTEMAATTINEN OSA JA SATUNNAINEN OSA___________________________________ 289 REGRESSIOSUORA ___________________________________________________________ 290 REGRESSIOSUORAN KULMAKERTOIMEN TULKINTA_____________________________________ 290 15.2. REGRESSIOKERTOIMIEN ESTIMOINTI_________________________________________ 290 REGRESSIOKERTOIMIENPNS-ESTIMOINTI___________________________________________ 291 ESTIMOITU REGRESSIOSUORA ___________________________________________________ 293 REGRESSIOKERTOIMIENPNS-ESTIMAATTOREIDEN OMINAINAISUUDET ______________________ 294 15.3. SOVITTEET JA RESIDUAALIT _______________________________________________ 300 SOVITTEIDEN JA RESIDUAALIEN OMINAISUUKSIA ______________________________________ 300 SOVITTEET JA RESIDUAALIT: HAVAINNOLLISTUS ______________________________________ 301 15.4. JÄÄNNÖSVARIANSSIN ESTIMOINTI___________________________________________ 302 15.5. VARIANSSIANALYYSIHAJOTELMA JA SELITYSASTE_______________________________ 303 SELITYSASTE _______________________________________________________________ 307 SELITYSASTEEN OMINAISUUDET__________________________________________________ 308 15.6. LASKUTOIMITUSTEN JÄRJESTÄMINEN ________________________________________ 308 ESIMERKKEJÄ ESTIMOINTITULOSTEN TULKINNASTA ____________________________________ 313 15.7. PÄÄTTELY YHDEN SELITTÄJÄN LINEAARISESTA REGRESSIOMALLISTA_________________ 315 REGRESSIOKERTOIMIENPNS-ESTIMAATTOREIDEN OTOSJAKAUMAT________________________ 315 JÄÄNNÖSVARIANSSIN OTOSJAKAUMA ______________________________________________ 316 REGRESSIOKERTOIMIEN LUOTTAMUSVÄLIT __________________________________________ 317 REGRESSIOKERTOIMIA KOSKEVAT TESTIT___________________________________________ 317 15.8. ENNUSTAMINEN YHDEN SELITTÄJÄN LINEAARISELLA REGRESSIOMALLILLA_____________ 321 SELITETTÄVÄN MUUTTUJAN ODOTETTAVISSA OLEVAN ARVON ENNUSTAMINEN_________________ 321 SELITETTÄVÄN MUUTTUJAN ODOTETTAVISSA OLEVAN ARVON ENNUSTEEN OTOSJAKAUMA ________ 321 SELITETTÄVÄN MUUTTUJAN ODOTETTAVISSA OLEVAN ARVON LUOTTAMUSVÄLI ________________ 322 SELITETTÄVÄN MUUTTUJAN ODOTETTAVISSA OLEVAN ARVON LUOTTAMUSVÄLIN OMINAISUUDET____ 323 SELITETTÄVÄN MUUTTUJAN ARVON ENNUSTAMINEN____________________________________ 323 SELITETTÄVÄN MUUTTUJAN ARVON ENNUSTEEN OTOSJAKAUMA___________________________ 323 SELITETTÄVÄN MUUTTUJAN ARVON LUOTTAMUSVÄLI ___________________________________ 324 SELITETTÄVÄN MUUTTUJAN ARVON LUOTTAMUSVÄLIN OMINAISUUDET_______________________ 324 SELITETTÄVÄN MUUTTUJAN ODOTETTAVISSA OLEVAN ARVON LUOTTAMUSVÄLIVS SELITETTÄVÄN
MUUTTUJAN ARVON LUOTTAMUSVÄLI_______________________________________________ 324 15.9. YHDEN SELITTÄJÄN LINEAARINEN REGRESSIOMALLI JA SATUNNAINEN SELITTÄJÄ________ 324 15.10. KAKSIULOTTEISEN NORMAALIJAKAUMAN REGRESSIOFUNKTIOIDEN ESTIMOINTI_________ 324 KAKSIULOTTEINEN NORMAALIJAKAUMA JA SEN TIHEYSFUNKTIO ___________________________ 324 KAKSIULOTTEISEN NORMAALIJAKAUMAN EHDOLLISET JAKAUMAT __________________________ 325
OTOS KAKSIULOTTEISESTA NORMAALIJAKAUMASTA____________________________________ 326 KAKSIULOTTEISEN NORMAALIJAKAUMAN REGRESSIOFUNKTIOIDENPNS-ESTIMOINTI ____________ 326 KAKSIULOTTEISEN NORMAALIJAKAUMAN REGRESSIOFUNKTIOIDEN ESTIMOINTI MOMENTTIMENETELMÄLLÄ JA SUURIMMAN USKOTTAVUUDEN MENETELMÄLLÄ _____________________________________ 334
16. YLEINEN LINEAARINEN MALLI ____________________________________________ 335 16.1. YLEINEN LINEAARINEN MALLI JA SITÄ KOSKEVAT OLETUKSET_______________________ 336 HAVAINNOT_________________________________________________________________ 336 YLEINEN LINEAARINEN MALLI ____________________________________________________ 337 MALLIA KOSKEVAT STANDARDIOLETUKSET __________________________________________ 337 KOMMENTTEJA STANDARDIOLETUKSIIN_____________________________________________ 338 SELITETTÄVÄN MUUTTUJAN OMINAISUUDET__________________________________________ 339 MALLIN PARAMETRIT __________________________________________________________ 339 MALLIN SYSTEMAATTINEN OSA JA SATUNAINEN OSA____________________________________ 340 REGRESSIOTASO_____________________________________________________________ 340 REGRESSIOKERTOIMIEN TULKINTA ________________________________________________ 340 16.2. YLEISEN LINEAARISEN MALLIN MATRIISIESITYS _________________________________ 341 ODOTUSARVOVEKTORI JA KOVARIANSSIMATRIISI______________________________________ 341 STANDARDIOLETUKSET MATRIISIMUODOSSA_________________________________________ 342 16.3. YLEISEN LINEAARISEN MALLIN PARAMETRIEN ESTIMOINTI _________________________ 343 PIENIMMÄN NELIÖSUMMAN ESTIMOINTIMENETELMÄ____________________________________ 343 REGRESSIOKERTOIMIEN VEKTORINPNS-ETIMAATTORI _________________________________ 343 PNS-ESTIMAATTORIN ODOTUSARVOVEKTORI JA KOVARIANSSIMATRIISI______________________ 344 GAUSSIN JAMARKOVIN LAUSE ___________________________________________________ 345 GAUSSIN JAMARKOVIN LAUSEEN TULKINTA__________________________________________ 347 PNS-ESTIMAATTORIN STOKASTISET OMINAISUUDET ___________________________________ 348 SOVITTEET JA RESIDUAALIT _____________________________________________________ 348 SOVITTEIDEN JA RESIDUAALIEN MATRIISIESITYKSET____________________________________ 349 SOVITTEIDEN JA RESIDUAALIEN OMINAISUUDET_______________________________________ 350 SOVITTEIDEN JA RESIDUAALIEN STOKASTISET OMINAISUUDET ____________________________ 351 JÄÄNNÖSVARIANSSIN ESTIMOINTI_________________________________________________ 352 ESTIMOITU REGRESSIOTASO ____________________________________________________ 354 16.4. VARIANSSIANALYYSIHAJOTELMA JA SELITYSASTE_______________________________ 354 VARIANSSIANALYYSIHAJOTELMAN TULKINTA _________________________________________ 357 SELITYSASTE _______________________________________________________________ 357 SELITYSASTEEN OMINAISUUDET__________________________________________________ 358 16.5. TILASTOLLINEN PÄÄTTELY YLEISESTÄ LINEAARISESTA MALLISTA____________________ 358 REGRESSIOKERTOIMIEN ESTIMAATTOREIDEN ODOTUSARVOT, VARIANSSIT JA OTOSJAKAUMAT_____ 359 JÄÄNNÖSVARIANSSIN OTOSJAKAUMA ______________________________________________ 360 REGRESSIOKERTOIMIEN LUOTTAMUSVÄLIT __________________________________________ 360 REGRESSIOKERTOIMIEN LUOTTAMUSVÄLIEN TULKINTAT_________________________________ 361 YLEISTESTI REGRESSION OLEMASSAOLOLLE_________________________________________ 361 TESTIT YKSITTÄISILLE REGRESSIOKERTOIMILLE_______________________________________ 362 16.6. ENNUSTAMINEN YLEISELLÄ LINEAARISELLA MALLILLA____________________________ 362 SELITETTÄVÄN MUUTTUJAN ODOTETTAVISSA OLEVAN ARVON ENNUSTAMINEN_________________ 362 SELITETTÄVÄN MUUTTUJAN ODOTETTAVISSA OLEVAN ARVON ENNUSTEEN OTOSJAKAUMA ________ 363 SELITETTÄVÄN MUUTTUJAN ODOTETTAVISSA OLEVAN ARVON LUOTTAMUSVÄLI ________________ 363 SELITETTÄVÄN MUUTTUJAN ARVON ENNUSTAMINEN____________________________________ 364 SELITETTÄVÄN MUUTTUJAN ARVON ENNUSTEEN OTOSJAKAUMA___________________________ 364 SELITETTÄVÄN MUUTTUJAN ARVON LUOTTAMUSVÄLI ___________________________________ 364
SELITETTÄVÄN MUUTTUJAN ODOTETTAVISSA OLEVAN ARVON LUOTTAMUSVÄLIVS SELITETTÄVÄN
MUUTTUJAN ARVON LUOTTAMUSVÄLI_______________________________________________ 365 16.7. YLEINEN LINEAARINEN MALLI JA SATUNNAISET SELITTÄJÄT________________________ 365 YLEINEN LINEAARINEN MALLI JA STANDARDIOLETUKSET_________________________________ 365 SELITTÄJIEN SATUNNAISUUS ____________________________________________________ 365 REGRESSIOKERTOIMIEN VEKTORINPNS-ESTIMAATTORIN HARHATTOMUUS___________________ 366 YLEINEN LINEAARINEN MALLI JA MODIFIOIDUT STANDARDIOLETUKSET SATUNNAISTEN SELITTÄJIEN
TAPAUKSELLE _______________________________________________________________ 367 KOMMENTTEJA ______________________________________________________________ 367
17. REGRESSIOMALLIN VALINTA ____________________________________________ 368 17.1. REGRESSIOMALLIN VALINTA: JOHDANTO _____________________________________ 369 17.2. YLEINEN LINEAARINEN MALLI ______________________________________________ 369 MALLIN RAKENNEOSA JA JÄÄNNÖSOSA _____________________________________________ 370 REGRESSIOKERTOIMIENPNS-ESTIMAATTORIT JA NIIDEN OMINAISUUDET ____________________ 370 ESTIMOIDUN MALLIN SOVITTEET JA RESIDUAALIT SEKÄ NIIDEN OMINAISUUDET_________________ 371 JÄÄNNÖSVARIANSSIN ESTIMOINTI_________________________________________________ 372 YLEISEN LINEAARISEN MALLIN RAKENNEOSA JA SEN SPESIFIOINTI__________________________ 372 MIKSI OIKEIDEN SELITTÄJIEN LÖYTÄMINEN REGRESSIOMALLIIN ONTÄRKEÄTÄ? ________________ 373 MIKSI OIKEIDEN SELITTÄJIEN LÖYTÄMINEN REGRESSIOMALLIIN ONVAIKEATA? _________________ 373 PUUTTUVIEN SELITTÄJIEN ONGELMA_______________________________________________ 373 SELITTÄJIEN VALINNAN MENETELMÄT ______________________________________________ 374 17.3. MALLINVALINTATESTIT ___________________________________________________ 375 ALAPÄIN ASKELLUS ___________________________________________________________ 375 ASKELTAVA REGRESSIO________________________________________________________ 376 17.4. MALLINVALINTAKRITEERIT ________________________________________________ 376 MALLIVALINTAKRITEERIEN YLEINEN MUOTO__________________________________________ 377 MALLINVALINTAKRITEEREIDEN SOVELTAMINEN _______________________________________ 377 MALLINVALINTAKRITEEREITÄ ____________________________________________________ 378 JÄÄNNÖSVARIANSSIKRITEERI____________________________________________________ 378 KORJATTU SELITYSASTE _______________________________________________________ 378 MALLOWSINCP ______________________________________________________________ 379 AKAIKEN INFORNAATIOKRITEERI__________________________________________________ 380 SCHWARZINBAYESLAINEN INFORMAATIOKRITEERI ____________________________________ 380 17.5. TILASTOLLISET MENETELMÄT TILASTOLLISEN MALLIN VALINNASSA: KOMMENTTEJA______ 380 17.6. EPÄLINEAARISTEN RIIPPUVUUKSIEN LINEARISOINTI ______________________________ 381 LINEARISOINTI YHDEN SELITTÄJÄN REGRESSIOMALLEISSA _______________________________ 381 LINEARISOIVIEN MUUNNOSTEN ETSIMINEN___________________________________________ 382 LINEARISOIVIA MUUNNOKSIA ____________________________________________________ 382 VAATIMUKSET MUUNNOKSILLE ___________________________________________________ 383
18. REGRESSIODIAGNOSTIIKKA _____________________________________________ 384 18.1. REGRESSIOMALLIT JA REGRESSIODIAGNOSTIIKKA_______________________________ 385 REGRESSIOANALYYSIN PERUSKYSYMYKSET _________________________________________ 385 REGRESSIOANALYYSIN PERUSKYSYMYKSET JA REGRESSIODIAGNOSTIIKKA___________________ 385 REGRESSIOMALLIN SPESIFIOINTI _________________________________________________ 386 18.2. YLEINEN LINEAARINEN MALLI ______________________________________________ 386 MALLIN RAKENNEOSA JA JÄÄNNÖSOSA _____________________________________________ 387
ESTIMOIDUN MALLIN SOVITTEET JA RESIDUAALIT SEKÄ NIIDEN OMINAISUUDET_________________ 388 JÄÄNNÖSVARIANSSIN ESTIMOINTI_________________________________________________ 390 YLEISEN LINEAARISEN MALLIN RAKENNEOSAN SPESIFIOINTI______________________________ 390 YLEISEN LINEAARISEN MALLIN JÄÄNNÖSOSAN SPESIFIOINTI ______________________________ 391 SPESIFIOINTIVIRHEIDEN VAIKUTUKSET _____________________________________________ 391 DIAGNOSTISET TARKISTUKSET___________________________________________________ 392 18.3. REGRESSIOGRAFIIKKA___________________________________________________ 392 PISTEDIAGRAMMIT____________________________________________________________ 392 RESIDUAALIDIAGRAMMIT _______________________________________________________ 393 AIKASARJADIAGRAMMIT________________________________________________________ 393 18.4. POIKKEAVAT HAVAINNOT _________________________________________________ 394 RESIDUAALIT________________________________________________________________ 395 STANDARDOIDUT RESIDUAALIT___________________________________________________ 396 POISTORESIDUAALIT __________________________________________________________ 396 STANDARDOIDUT POISTORESIDUAALIT _____________________________________________ 397 VIPULUVUT_________________________________________________________________ 398 COOKIN ETÄISYYDET__________________________________________________________ 398 TILASTOGRAFIIKKA JA POIKKEAVIEN HAVAINTOJEN TUNNISTAMINEN ________________________ 399 18.5. REGRESSIOKERTOIMIEN VAKIOISUUS ________________________________________ 399 TESTI REGRESSIOKERTOIMIEN VAKIOISUUDELLE______________________________________ 399 TESTIN TOINEN MUOTOILU______________________________________________________ 401 18.6. MULTIKOLLINEAARISUUS _________________________________________________ 402 MULTIKOLLINEAARISUUS _______________________________________________________ 402 VARIANSSIN INFLAATIOTEKIJÄ____________________________________________________ 402 MOMENTTIMATRIISI, OTOSKOVARIANSSIMATRIISI JA OTOSKORRELAATIOMATRIISI_______________ 404 MULTIKOLLINEAARISUUDEN TUTKIMINEN____________________________________________ 405 18.7. HOMOSKEDASTISUUS JA HETEROSKEDASTISUUS________________________________ 405 HETEROSKEDASTISUUDEN VAIKUTUKSET ___________________________________________ 406 HETEROSKEDASTISUUDEN HAVAITSEMINEN__________________________________________ 406 HETEROSKEDASTISUUDEN TESTAAMINEN ___________________________________________ 406 VARIANSSIN STABILOIVAT MUUNNOKSET____________________________________________ 407 18.8. AUTOKORRELAATIO _____________________________________________________ 407 KORRELOITUNEISUUDEN VAIKUTUKSET_____________________________________________ 408 AIKASARJOJEN REGRESSIOMALLIT JA AUTOKORRELAATIO _______________________________ 408 DURBININ JAWATSONIN TESTI1. KERTALUVUN AUTOKORRELAATIOLLE _____________________ 409 18.9. NORMAALISUUS________________________________________________________ 410 EPÄNORMAALISUUDEN VAIKUTUKSET ______________________________________________ 410 BOWMANIN JASHENTONIN TESTI _________________________________________________ 410 18.10. MALLIN ENNUSTUSKYKY_________________________________________________ 411 19. ERITYISKYSYMYKSIÄ YLEISEN LINEAARISEN MALLIN SOVELTAMISESSA _______ 414 19.1. ERITYISKYSYMYKSIÄ YLEISEN LINEAARISEN MALLIN SOVELTAMISESSA: JOHDANTO ______ 415 YLEINEN LINEAARINEN MALLI ____________________________________________________ 415 REGRESSIOKERTOIMIENPNS-ESTIMAATTORIT JA NIIDEN OMINAISUUDET ____________________ 416 GAUSSIN JAMARKOVIN LAUSE ___________________________________________________ 417 GAUSSIN JAMARKOVIN LAUSEEN TULKINTA__________________________________________ 417 KUNPNS-ESTIMAATTORIEI OLE PARAS ____________________________________________ 418 KUNPNS-ESTIMAATTORIAEI SAA KÄYTTÄÄ__________________________________________ 418 19.2. YLEISTETTY PIENIMMÄN NELIÖSUMMAN MENETELMÄ_____________________________ 418 YLEISTETYNPNS-ESTIMAATTORIN ODOTUSARVO JA KOVARIANSSIMATRIISI___________________ 420
MODIFIOITUGAUSSIN JAMARKOVIN LAUSE YLEISTETYLLEPNS-ESTIMAATTORILLE_____________ 421 YLEISTETYNPNS-ESTIMAATTORIN STOKASTISET OMINAISUUDET__________________________ 423 LASKETTAVA YLEISTETTYPNS-ESTIMAATTORI _______________________________________ 423 PAINOTETTUPNS-ESTIMAATTORI_________________________________________________ 424 19.3. RAJOITETTU PIENIMMÄN NELIÖSUMMAN MENETELMÄ_____________________________ 424 RAJOITETUNPNS-ESTIMAATTORIN ODOTUSARVO JA KOVARIANSSIMATRIISI __________________ 426 MODIFIOITUGAUSSIN JAMARKOVIN LAUSE RAJOITETULLEPNS-ESTIMAATTORILLE_____________ 427 RAJOITETUNPNS-ESTIMAATTORIN STOKASTISET OMINAISUUDET__________________________ 428 RAJOITUSTEN TESTAUS________________________________________________________ 428 RAJOITUSTEN SPESIFIOINTI _____________________________________________________ 430 19.4. INSTRUMENTTIMUUTTUJAMENETELMÄ________________________________________ 430 REGRESSIOKERTOIMIEN VEKTORINPNS-ESTIMAATTORIN HARHATTOMUUS___________________ 430 INSTRUMENTTIMUUTTUJAMENETELMÄ______________________________________________ 432 INSTRUMENTTIEN SPESIFIOINTI___________________________________________________ 433
13. Tilastollinen riippuvuus ja korrelaatio
13.1. Tilastollinen riippuvuus, korrelaatio ja regressio 13.2. Kahden muuttujan havaintoaineiston kuvaaminen 13.3. Pearsonin korrelaatiokertoimen estimointi ja testaus 13.4. Järjestyskorrelaatiokertoimet
Tarkastelemme tässä luvussakahden (tai useamman)muuttujan tilastollisten aineistojen analyysia.
Pyrimme vastaamaan seuraaviin kysymyksiin:
• Mitenkahden (tai useamman)muuttujan samanaikainen tarkastelu vaikuttaa tilastollisen analyysin suorittamiseen?
• Miten kahden (tai useamman) muuttujan tilastollista aineistoakuvataan?
• Mitä tarkoitetaan kahden tekijän tai muuttujantilastollisella riippuvuudella ja miten tilastollinen riippuvuus eroaaeksaktista riippuvuudesta?
• Mitä onkorrelaatio?
• Mikä onkorrelaation jariippuvuuden suhde?
• Miten korrelaatiot estimoidaan?
• Miten korrelaatioita koskeviahypoteeseja testataan?
Tämä kappale on johdantoa tämän tilastotiedettä käsittelevän monisteen osan pääkohteelle, mikä on lineaariset regressiomallit.
Avainsanat:
Aikasarjadiagrammi, Aritmeettinen keskiarvo, Eksakti riippuvuus, Estimaattori, Estimointi, Fisherinz- muunnos, Järjestyskorrelaatiokerroin, Kendallin järjestyskorrelaatiokerroin, Keskihajonta, Korrelaatio, Korrelaatiokerroin, Korrelaatiokertoimien vertailutesti, Korrelaation testaaminen,
Korreloimattomuuden testaaminen, Kovarianssi, Keskihajonta, Kriittinen arvo, Luottamustaso, Luottamusväli, Merkitsevyys-
taso, Normaalijakauma, Otos, Otostunnusluku,p-arvo, Pearsonin otoskorrelaatiokerroin, Piste- diagrammi, Regressioanalyysi, Regressiomalli, Riippuvuus, Spearmanin järjestyskorrelaatiokerroin, Testi, Testi korrelaatiokertoimelle, Tilastollinen riippuvuus, Usean muuttujan havaintoaineiston kuvaaminen, Varianssi
13.1. Tilastollinen riippuvuus, korrelaatio ja regressio
Tieteellisen tutkimuksentärkeimmät jamielenkiintoisimmat kysymykset liittyvät tavallisesti
tutkimuksen kohteena olevaa ilmiötä kuvaavientekijöiden taimuuttujien välisiin riippuvuuksiin.
Jos tilastollisen tutkimuksen kohteena olevaan ilmiöön liittyy useampia kuin yksi muuttuja, yhden muuttujan tilastolliset menetelmät antavat tavallisesti vainrajoittuneen kuvan ilmiöstä. Sovellusten kannalta ehkä merkittävin osa tilastotiedettä käsittelee kahden tai useamman muuttujan välisten riippuvuuksien kuvaamista jamallintamista.
Esimerkki 1: Riippuvuustarkasteluja.
• Miten työttömyysaste Suomessa (% työvoimasta)riippuu BKT:n (bruttokansantuotteen) kasvuvauhdista Suomessa, Suomen viennin volyymista sekä BKT:n kasvuvauhdista muissa EU-maissa ja USA:ssa?
• Miten alkoholin kulutus (lper capita vuodessa)riippuu alkoholijuomien hintatasosta, ihmisten käytettävissä olevista tuloista ja alkoholin saatavuudesta?
• Miten todennäköisyys sairastua keuhkosyöpään (p)riippuu tupakoinnin määrästä ja kestosta?
• Miten vehnän hehtaarisato (t/ha)riippuu kesän keskilämpötilasta ja sademäärästä sekä maan muokkauksesta, lannoituksesta ja tuholaisten torjunnasta?
• Miten betonin lujuus (kg/cm2)riippuu sen kuivumisajasta?
• Miten kemiallisen aineen saanto (%)riippuu valmistusprosessissa käytettävästä lämpötilasta?
Tarkastelemme tässä esityksessä yksinkertaisuuden vuoksi vainkahden muuttujan välisiä riippuvuuksia:
(i) Muuttujien välinen riippuvuus oneksaktia, jostoisen arvot voidaan ennustaa tarkasti toisen saamien arvojen perusteella.
(ii) Muuttujien välinen riippuvuus ontilastollista, jos niiden välilläei ole eksaktia riippuvuutta, muttatoisen muuttujan arvoja voidaan käyttää apuna toisen muuttujan arvojen
ennustamisessa.
Kahden muuttujan välistä (lineaarista)tilastollista riippuvuutta kutsutaan tilastotieteessä tavallisesti korrelaatioksi.Korrelaation eli (lineaarisen)tilastollisen riippuvuuden voimakkuutta mittaavia tilastollisia tunnuslukuja kutsutaankorrelaatiokertoimiksi. Korrelaatiot muodostavatperustan muuttujien välisten (lineaaristen)riippuvuuksien ymmärtämiselle.
Vaikka korrelaatiot muodostavat perustan muuttujien välisten riippuvuuksien ymmärtämiselle, riippuvuuksia halutaan tavallisestianalysoida myös tarkemmin.Regressioanalyysi on tilastollinen menetelmä, jossa jonkin, ns.selitettävän muuttujan tilastollista riippuvuutta joistakin toisista, ns.
selittävistä muuttujista pyritään mallintamaanregressiomalliksi kutsutulla tilastollisella mallilla; ks.
lukuaJohdatus regressioanalyysiin.
Huomautus:
• Tässä luvussa rajoitutaan tarkastelemaan tilastollisten riippuvuuksien kuvaamista ja mittaamista.
Kuten yhden muuttujan havaintoaineistojen tapauksessa, lähtökohdan kahden tai useamman
muuttujan havaintoaineistojen kuvaamiselle muodostaa tutustuminenhavaintoarvojen jakaumaan.
Havaintoarvojen jakaumaa voidaan kuvailla ja esitellätiivistämällä havaintoarvoihin sisältyväinformaatio sopivaan muotoon:
• Havaintoarvojenjakaumaa kokonaisuutena voidaan kuvata sopivasti valituillagraafisilla esityksillä.
• Havaintoarvojenjakauman karakteristisia ominaisuuksia voidaan kuvata sopivasti valituillaotostunnusluvuilla.
Koska useampi- kuin kaksiulotteisten kuvioiden tekeminen ei ole käytännössä mahdollista, kolmen tai useamman muuttujan havaintoaineistoja havainnollistetaan tavallisesti niin, että muuttujia tarkastellaan pareittain.
Kahdenjärjestys-,välimatka- taisuhdeasteikoillisen muuttujan havaittujen arvojen pareja havainnollistetaan tavallisesti graafisella esityksellä, jota kutsutaanpistediagrammiksi.
Huomautus:
• Monimuuttujamenetelmissä on kehitetty myös sellaisia tilastografiikan menetelmiä, joilla voidaan havainnollistaauseampi- kuin kaksiulotteisia aineistoja.
Usean muuttujan havaintoaineistojen karakteristisia ominaisuuksia voidaan kuvatamuuttuja- kohtaisillaotostunnusluvuilla. Muuttujakohtaiset otostunnusluvuteivät kuitenkaanvoi antaa informaatiota muuttujien välisistä riippuvuuksista. Muuttujienpareittaisia tilastollisia
riippuvuuksia voidaan kuvata sopivasti valitullakorrelaation mitalla.
Tutkittavien muuttujienmitta-asteikolliset ominaisuudet ohjaavat korrelaation mitan valintaa:
• Välimatka- ja suhdeasteikollisille muuttujille käytetään tavallisestiPearsonin korrelaatiokerrointa.
• Järjestysasteikollisille muuttujille käytetään tavallisestiSpearmanin taiKendallin järjestyskorrelaatiokerrointa.
Satunnaismuuttujien väliseen korrelaatioon voidaan kohdistaa erilaisia tilastollisia testejä.
Tässä esityksessä tarkastellaan seuraaviaPearsonin korrelaatiokertoimelle sopivia testejä:
• Yhden otoksen testi korrelaatiokertoimelle
• Korrelaatiokertoimien vertailutesti
• Testi korreloimattomuudelle
Lisäksi tässä esityksessä tarkastellaan seuraavia Spearmanin ja Kendallin järjestyskorrelaatio- kertoimille sopivia testejä:
• Testit korreloimattomuudelle
13.2. Kahden muuttujan havaintoaineiston kuvaaminen Pistediagrammi
Tarkastellaan tilannetta, jossa tutkimuksen kohteina olevistahavaintoyksiköistä on mitattukahden järjestys-,välimatka- taisuhdeasteikollisen muuttujanx jay arvot. Muuttujienx jay arvojen samaan havaintoyksikköön liittyvienparien muodostamaa havainto-aineistoa voidaan kuvata graafisesti
pistediagrammilla. Pistediagrammi sopii erityisesti kahden muuttujan välisenriippuvuuden havainnollistamiseen ja se on keskeinen työvälinekorrelaatio- jaregressioanalyysissa.
Olkoot
x1,x2, … ,xn
ja
y1,y2, … ,yn
välimatka- taisuhdeasteikollisten muuttujienx jay havaittuja arvoja. Oletetaan lisäksi, että havaintoarvotxi jayi liittyvätsamaan havaintoyksikköön kaikillei= 1, 2, … ,n. Havaintoarvojen x1,x2, … ,xn jay1,y2, … ,yn parienpistediagrammi saadaan esittämällälukuparit
(xi ,yi) ,i = 1, 2, … ,n pisteinä avaruudessa 2.
Havainnollistus:
Kuvio oikealla esittää lukuparien (xi ,yi)
ja
(xj ,yj)
määrittelemien pisteiden esittämistä tasokoordinaatistossa
Huomautus:
• Kahden tai useamman muuttujan havaintoaineistoja kannattaa tietysti kuvata myös soveltamalla jokaiseen muuttujaan erikseen yhden muuttujan havaintoaineistojen kuvaamiseen tarkoitettuja välineitä; ks. lukuaTilastollisten aineistojen
kuvaaminen.
Esimerkki 1: Hooken laki.
Hooken lain mukaan kierrejousen (ns. ideaalijousen) pituusy riippuulineaarisesti jouseen ripustetusta painostax:
y= +α βx jossa
α = jousen pituus ilman painoa β = ns.jousivakio
Alla olevassa taulukossa esitetään tulokset kokeesta, jossa Hooken lain pätevyyttä tutkittiin mittaamalla jousen pituus ilman painoa sekä painoilla, jotka olivat 2, 4, 6, 8 ja 10 kg.
Merkitään:
(xi ,yi) ,i = 1, 2, 3, 4, 5, 6 jossa
xi = painoi
(xi,yi)
(xj,yj)
xi xj
yi yj
y
x (xi,yi)
(xj,yj)
xi xj
yi yj
y
x
yi = jousen pituus, kun painona onxi
Alla oleva pistediagrammi havainnollistaa koetuloksia graafisesti.
Kysymys: Ovatko koetulokset sopusoinnussa Hooken lain kanssa?
Vastausta tähän kysymykseen tarkastellaan luvuissaJohdatus regressioanalyysiin jaYhden selittäjän lineaarinen regressiomalli.
Esimerkki 2. Poikien pituuden riippuvuus isien pituudesta.
Perinnöllisyystieteen mukaan lapset perivät geneettiset ominaisuutensa vanhemmiltaan.
Kysymys: Periytyykö isien pituus heidän pojilleen?
Havaintoaineistona on tässä 300:n isän ja heidän poikiensa pituuksien muodostamaa lukuparia
(xi ,yi) ,i = 1, 2, … , 300 jossa siis
xi = isäni pituus yi = isäni pojan pituus Ks. pistediagrammia oikealla.
Pojan pituuden riippuvuus isän pituudesta ei selvästikään oleeksaktia: Saman mittaisten isien poikien pituudet näyttävät vaihtelevan paljonkin.
Kuvasta nähdään kuitenkin se, että lyhyillä isillä näyttää olevan
keskimäärin lyhyempiä poikia kuin pitkillä isillä ja vastaavasti pitkillä isillä näyttää olevan keskimäärin pitempiä poikia kuin lyhyillä isillä.
Paino (kg) Pituus (cm)
0 43.00
2 43.60
4 44.05
6 44.55
8 45.00
10 45.50
Kierrejousen pituuden riippuvuus jouseen ripustetusta painosta
42.50 43.00 43.50 44.00 44.50 45.00 45.50 46.00
-2 0 2 4 6 8 10 12
Paino (kg)
Jousen pituus (cm)
Isien ja poikien pituudet
160 165 170 175 180 185 190 195
155 160 165 170 175 180 185 190 Isän pituus (cm)
Pojan pituus (cm)
Tällaistentilastollisten riippuvuuksien analysoimistalineaaristen regressiomallien avulla tarkastellaan luvuissaJohdatus regressioanalyysiin jaYhden selittäjän lineaarinen regressiomalli.
Esimerkki 3. Keuhkosyövän yleisyyden riippuvuus savukkeiden kulutuksesta.
Onko keuhkosyöpä yleisempää sellaisissa maissa, joissa tupakoidaan paljon?
Oikealla on taulukko, jossa on tiedot savukkeiden kulutuksesta ja keuhkosyövän yleisyydestä 10:ssä maailman maassa.
Huomaa, että keuhkosyövän yleisyys on mitattu 20 vuotta savukkeiden kulutuksen mittaamisen jälkeen.
Tämä johtuu tietysti siitä, että keuhkosyövän kehittyminen vaatii pitkän altistusajan.
Havaintoaineistona on tässä siis 10 lukuparia
(xi ,yi) ,i = 1, 2, … , 10 jossa
xi = savukkeiden kulutus maassai vuonna 1930
yi = sairastuvuus keuhkosyöpään maassai vuonna 1950 Oikealla oleva pistediagrammi
havainnollistaa savukkeiden kulutuksen ja keuhkosyövän yleisyyden välistä yhteyttä.
Sairastuvuus keuhkosyöpään näyttää olevankeskimäärin korkeampaa sellaisissa maissa, joissa savukkeiden kulutus on ollut keskimääräistä suurempaa.
Tällaistentilastollisten riippuvuuksien analysoimista lineaaristen regressiomallien avulla tarkastellaan luvussa Yhden selittäjän lineaarinen regressiomalli.
Esimerkki 4. Betonin lujuuden riippuvuus kuivumisajasta.
Kokeessa tutkittiin betonin vetolujuuden riippuvuutta betonin kuivumisajasta.
Maa
Savukkeiden kulutus (kpl) per
capita 1930
Keuhkosyöpä- tapausten lkm
per 1 milj.
henkilöä 1950
Islanti 220 58
Norja 250 90
Ruotsi 310 115
Kanada 510 150
Tanska 380 165
Itävalta 455 170
Hollanti 460 245
Sveitsi 530 250
Suomi 1115 350
Englanti 1145 465
Savukkeiden kulutus ja sairastuvuus keuhkosyöpään
Englanti
Suomi
Sveitsi Hollanti TanskaItävaltakanada Ruotsi
Norja Islanti 0
100 200 300 400 500
0 200 400 600 800 1000 1200 1400 Savukkeiden kulutus (kpl)
per capita 1930 Keuhkosyöpätapausten lkm per 1 milj. henkilöä 1950
(xi ,yi) ,i = 1, 2, … , 21 jossa
xi = betoniharkoni kuivumisaika yi = betoniharkoni vetolujuus Ks. pistediagrammia oikealla.
Vetolujuus näyttää kuvan perusteella riippuvanepä- lineaarisesti kuivumisajasta.
Tässä tapauksessa muuttujien välinen ilmeinen epälineaarinen riippuvuus voidaan kuitenkin linearisoida; ks. lukuaJohdatus regressioanalyysiin.
Linearisoinnin jälkeen
riippuvuutta voidaan analysoida lineaaristen regressiomallien avulla.
Aikasarjadiagrammi
Oletetaan, ettäjärjestys-,välimatka- taisuhdeasteikollisen muuttujanx havaitut arvot x1,x2, … ,xn
muodostavataikasarjan. Tällä tarkoitetaan sitä, että havaintoarvot xt ,t = 1, 2, … ,n on indeksoitu niin, että indeksii viittaaperäkkäisiin ajanhetkiin, jolloin havainnot ovat aikajärjestyksessä.Aika- sarjadiagrammi on pistediagrammi, joka saadaan esittämällälukuparit
(t ,xt) ,t = 1, 2, … ,n
pisteinä avaruudessa 2. Lisäksiperäkkäisiin ajanhetkiin liittyvät pisteet (t–1 ,xt–1) ja (t ,xt) ,
t = 2, 3, … ,n
yhdistetään aikasarjadiagrammissa tavallisesti toisiinsajanoilla.
Havainnollistus:
Kuvio oikealla esittää aikasarjan xt ,t = 1, 2, … ,n peräkkäisten havaintoarvojen
xt–1 ,xt ,xt+1
Betonin vetolujuuden riippuvuus kuivumisajasta
0.0 10.0 20.0 30.0 40.0 50.0
0 5 10 15 20 25 30
Kuivumisaika (vrk)
Vetolujuus (kg/cm2)
(t+1,xt+1)
xt−1 xt+1 x
t
xt (t,xt)
(t−1, xt−1)
(t+1,xt+1)
xt−1 xt+1 x
t
xt (t,xt)
(t−1, xt−1)
(t+1,xt+1)
xt−1 xt+1 x
t
xt (t,xt)
(t−1, xt−1)
määrittelemien pisteiden esittämistä tasokoordinaatistossa.
Esimerkki 5. Kuukausimyynnin arvon kehitys.
Alla on aikasarjadiagrammi, joka esittää erään tukkukaupan kk-myynnin arvon vaihtelua.
Havaintoaineistona on 144 lukuparia (t ,xt)
jossa
t = aika (1970/1-1981/12)
xt = kk-myynnin arvoa kuvaava indeksi (1960/1 = 100) Huomaa, että kk-myynnissä on
ollut nouseva trendi ja selvää kausivaihtelua.
Tällaisten aikasarjojen
analysoiminen vaatii menetelmiä, jotka menevät tässä monisteessa käsiteltävän alueen ulkopuolelle.
Aikasarjojen analyysia ja ennustamista käsitellään monisteessaAikasarja- analyysi.
Aritmeettiset keskiarvot
Kahdenvälimatka- taisuhdeasteikollisen muuttujan havaintoarvojen parien muodostamaa jakaumaa voidaankarakterisoida seuraavillatunnusluvuilla:
• Havaintoarvojen keskimääräistäsijaintia kuvataanaritmeettisilla keskiarvoilla.
• Havaintoarvojenhajaantuneisuutta taikeskittyneisyyttä kuvataankeskihajonnoilla tai (otos-)variansseilla.
• Havaintoarvojen (lineaarista) riippuvuutta kuvataanotoskovarianssilla ja otoskorrelaatiokertoimella.
Olkoot
x1,x2, … ,xn
ja
y1,y2, … ,yn
Myynti 1970/1-1981/12
100 150 200 250 300
1970 1972 1974 1976 1978 1980 1982
Myynti (indeksi)
välimatka- taisuhdeasteikollisten muuttujienx jay havaittuja arvoja. Oletetaan lisäksi, että havaintoarvotxi jayi liittyvätsamaan havaintoyksikköön kaikillei= 1, 2, … ,n.
Havaintoarvojenx1,x2, … ,xnaritmeettinen keskiarvo on
1
1 n
i i
x x
n =
=
∑
Havaintoarvojeny1,y2, … ,ynaritmeettinen keskiarvo on
1
1 n
i i
y y
n =
=
∑
Havaintoarvojen aritmeettinen keskiarvo kuvaa havaintoarvojenkeskimääräistä sijaintia. Havainto- arvojen pareista
(xi ,yi ) ,i = 1, 2, … ,n
laskettujen aritmeettisten keskiarvojen x ja y muodostama lukupari ( , )x y
on havaintoarvojen parien muodostamien pisteidenpainopiste. Havaintoarvojen aritmeettinen keskiarvo kuvaa havainto-arvojenkeskimääräistä sijaintia.
Otosvarianssit ja otoskeskihajonnat
Havaintoarvojenx1,x2, … ,xn (otos-)varianssi on
( )
22
1
1 1
n
x i
i
s x x
n =
= −
−
∑
jossa x onx-havaintoarvojen aritmeettinen keskiarvo ja havaintoarvojeny1,y2, … ,yn (otos-) varianssi on
( )
22
1
1 1
n
y i
i
s y y
n =
= −
−
∑
jossa y ony-havaintoarvojen aritmeettinen keskiarvo. Havaintoarvojen varianssi mittaa havainto- arvojenhajaantuneisuutta taikeskittyneisyyttä havaintoarvojen aritmeettisen keskiarvon suhteen.
Havaintoarvojenx1,x2, … ,xnkeskihajonta on
( )
22
1
1 1
n
x x i
i
s s x x
n =
= = −
−
∑
jossa x onx-havaintoarvojen aritmeettinen keskiarvo ja havaintoarvojeny1,y2, … ,ynkeski- hajonta on
( )
22
1
1 1
n
y y i
i
s s y y
n =
= = −
−
∑
jossa y ony-havaintoarvojen aritmeettinen keskiarvo. Havaintoarvojen keskihajonta mittaa (kuten havaintoarvojen otosvarianssi) havaintoarvojenhajaantuneisuutta taikeskittyneisyyttä havainto- arvojen aritmeettisen keskiarvon suhteen.
Otoskovarianssi
Havaintoarvojen pareista (xi ,yi) ,i = 1, 2, … ,n laskettuotoskovarianssi on
( )( )
1
1 1
n
xy i i
i
s x x y y
n =
= − −
−
∑
jossa
x =x-havaintoarvojen aritmeettinen keskiarvo y =y-havaintoarvojen aritmeettinen keskiarvo
Huomaa, ettäx- jay-havaintoarvojen otoskovarianssit niiden itsensä kanssa ovat niidenvariansseja:
2 2
xx x
yy y
s s
s s
=
=
Otoskovarianssisxy mittaax- jay-havaintoarvojenyhteisvaihtelua niiden aritmeettisten keski-arvojen ympärillä. Mitä suurempi on otoskovarianssinsxy itseisarvo
| sxy |
sitä voimakkaampaa onx- jay-havaintoarvojen yhteisvaihtelu.
Tarkastellaan seuraavaksi miten otoskovarianssinsxymerkin määräytymistä. Merkin määrää se onko summalauseke
(1)
∑
(xi−x)(yi−y) negatiivinen vai positiivinen.Todetaan ensin, että summalausekkeen (1)i. termin (xi−x y)( i −y)
itseisarvo
|xi −x| |yi−y|
on sellaisensuorakaiteen pinta-ala, jonka sivujen pituudet ovat |xi−x| ja |yi−y|. Summalausekkeen (1)i. termin
(xi−x y)( i −y) merkki määräytyy seuraavalla tavalla:
jos ja
( )( ) 0
jos ja jos ja
( )( ) 0
jos ja
i i
i i
i i
i i
i i
i i
x x y y
x x y y
x x y y
x x y y
x x y y
x x y y
≥ ≥
− − ≥ ≤ ≤
≥ ≤
− − ≤ ≤ ≥
Otoskovarianssin merkin määräytymistä voidaanhavainnollistaa geometrisesti seuraavalla tavalla:
(i) Jaetaanxy-taso neljään osaan elineljännekseen pisteen ( , )x y
kautta piirretyillä koordinaattiakseleiden suuntaisilla suorilla.
(ii) Termin
(xi−x y)( i −y)
merkin määrää se, mihin neljännekseen havaintopiste (xi , yi) sijoittuu.
Ks. alla olevaa kuvaa:
Jos positiiviset termit summalausekkeeseen (1)
∑
(xi−x)(yi−y)tuottavien suorakaiteiden yhteenlaskettu pinta-ala onsuurempi (pienempi) kuin negatiiviset termit tuottavien suorakaiteiden yhteenlaskettu pinta-ala, otoskovarianssinsxy merkki onpositiivinen (negatiivinen).
Tästä seuraa se, että otoskovarianssilla on taipumus saadapositiivisia (negatiivisia) arvoja, jos havaintopisteiden muodostama pistepilvi tai -parvinäyttää nousevalta (laskevalta)oikealle mentäessä; ks.pistediagrammin ilmeen ja Pearsoninotoskorrelaatiokertoimen yhteyttä
havainnollistavaa kuvasarjaa tässä kappaleessa.
Otoskorrelaatio
Otoskovarianssinsxy avulla voidaan määritelläx- jay-havaintoarvojenlineaarisen tilastollisen riippuvuuden voimakkuuden mittari, jota kutsutaanPearsonin otoskorrelaatiokertoimeksi.
Pearsonin otoskorrelaatiokerroinrxy saadaan otoskovarianssistasxynormeerausoperaatiolla, jossa x- jay-havaintoarvojen otoskovarianssisxy jaetaanx- jay-havaintoarvojen keskihajonnoillasx jasy . Havaintoarvojen pareista (xi ,yi) ,i = 1, 2, … , n laskettuPearsonin otoskorrelaatiokerroin on
xy xy
x y
r s
=s s jossa
sxy = x- jay-havaintoarvojen otoskovarianssi sx = x-havaintoarvojen keskihajonta
( x
i− x y )(
i− y ) ≤ 0 ( x
i− x y )(
i− y ) ≥ 0
( x
i− x y )(
i− y ) ≥ 0 ( x
i− x y )(
i− y ) ≤ 0 ( , ) x y
( , x y
i i) ( , x y
i i)
( , x y
i i) ( , x y
i i)
( x
i− x y )(
i− y ) ≤ 0 ( x
i− x y )(
i− y ) ≥ 0
( x
i− x y )(
i− y ) ≥ 0 ( x
i− x y )(
i− y ) ≤ 0 ( , ) x y
( , x y
i i) ( , x y
i i)
( , x y
i i) ( , x y
i i)
sy = y-havaintoarvojen keskihajonta
Pearsonin otoskorrelaatiokertoimen kaava voidaan kirjoittaa myös muotoon
( )( )
( ) ( )
1
2 2
1 1
n
i i
i
xy n n
i i
i i
x x y y
r
x x y y
=
= =
− −
=
− −
∑
∑ ∑
jossa
x = x-havaintoarvojen aritmeettinen keskiarvo y = y-havaintoarvojen aritmeettinen keskiarvo
Havaintoarvojen pareista (xi ,yi) ,i = 1, 2, … ,n lasketulla Pearsonin otoskorrelaatiokertoimella rxy
on seuraavat ominaisuudet:
(i) –1≤rxy≤ +1
(ii) rxy =±1
jos ja vain jos
yi =α +βxi ,i = 1, 2, … ,n jossaα jaβ ≠ 0 ovat reaalisia vakioita.
(iii) Korrelaatiokertoimellarxy ja kovarianssillasxy on ainasama merkki.
Pearsonin otoskorrelaatiokerroinrxy mittaax- jay-havaintoarvojen lineaarisen tilastollisen riippuvuuden voimakkuutta:
(i) Jos
rxy =±1
niinx- jay-havaintoarvojen välilläon eksakti elifunktionaalinen lineaarinen riippuvuus, mikä merkitsee sitä, että kaikki havaintopisteet (xi ,yi) ,i = 1, 2, … ,n asettuvat samalle suoralle.
(ii) Jos
rxy = 0
niin x- ja y-havaintoarvojen välillä ei voi olla eksaktia lineaarista riippuvuutta.
Huomautus:
• Vaikka
rxy = 0
niin x- ja y-havaintoarvojen välillä saattaa olla jopa eksakti epälineaarinen riippuvuus.
Korrelaatiokertoimenmerkki ja jopasuuruusluokka (jollakin tarkkuudella) voidaan melko helposti oppia arvioimaan pistediagrammin avulla. Alla olevat kuviot havainnollistavat kahden muuttujan havaittujen arvojen (n = 30) pistediagrammin ilmeen jakorrelaation välistä yhteyttä.