Standardoinnin haasteita nyt ja tulevaisuudessa

Tehtävien taitotasoille asettamisen suurimmat haasteet nyt ja tulevaisuudessa liittyvät sekä menetelmällisiin että hyvinkin käytännönläheisiin kysymyksiin.

Pitkän aikavälin tavoitteena on saada standardointi kiinteäksi osaksi koko tut-kintojärjestelmää ja laajennettua se suomen kielen lisäksi myös muihin kieliin.

Se, miten näihin tavoitteisiin käytännössä päästään, on pitkälti henkilöstö- ja kustannuskysymys. Ratkaisua vaatii muun muassa nykyisen tehtävätietokannan muokkaaminen joustavammaksi ja tarkoitustaan paremmin palvelevaksi. Esimer-kiksi taitotasoille asettelun myötä kerätty tieto tehtävien vaikeustasosta tulisi olla helposti saavutettavissa ja hyödynnettävissä.

Menetelmällisistä haasteista tärkein liittyy Yleisissä kielitutkinnoissa kehitetyn menetelmän osio- ja tehtäväkohtaisuuteen. Standardoinnin pääasiallinen tavoite on, että tehtäväpankkiin tallennettujen osioiden vaikeustasoa kuvaavia tunnus-lukuja hyödynnetään myös jatkossa eri tutkintokertojen vaikeustason vakioi-misessa. Tällöin ei kuitenkaan voida täysin ennakoida, miten esimerkiksi teh-tävän paikka tehtävävihkossa vaikuttaa osioiden kulloiseenkin vaikeustasoon osallistujan näkökulmasta. Tarvitaankin lisätietoa siitä, mikä vaikutus ensinnä-kin tehtävän sijoittelulla on saatuihin tuloksiin, toiseksi, miten vuosien mittaan kerätty tieto tehtävien toimivuudesta kynä-paperi-testeissä voidaan hyödyntää tutkintojärjestelmän mahdollisessa digitalisoinnissa.

Standardointiin osallistuvien panelistien näkökulmasta nykyinen, artikkelissa kuvattu kaksivaiheinen menetelmä on osoittautunut varsin helppokäyttöiseksi.

Ongelmia on jonkin verran aiheutunut siitä, että panelistien käsitys tehtävän vaikeustasosta voi erota varsin paljon tutkinnon suorittajan kokemuksesta. Myös tässä suhteessa taitotasokuvaimet ja niiden edelleen kehittäminen ovat avain-asemassa. EVK:ssa olevat ymmärtämistaitojen kuvaimet on useassa yhteydessä todettu suppeiksi ja liian yleisluonteisiksi verrattuna esimerkiksi puhumistaitoa kuvaaviin kriteereihin. Yleisissä kielitutkinnoissa on havaittu sama ongelma, ja siksi kuvaimia on ollut tarpeen kehittää. Myös kielikohtaisten kriteerien tar-peesta on keskusteltu. Esimerkiksi kirjoittamisen kriteereissä muodollisen ja epämuodollisen rekisterin erottaminen mainitaan vasta Yleisten kielitutkintojen kuvaimissa tasolla 4, mutta erityisesti romaanisissa kielissä puhuttelumuotojen hallintaa voidaan edellyttää jo tasolla 2. Missä määrin siis kielikohtaisten ”lisä-kriteerien” kehittäminen olisi perusteltua ja ylipäätään mahdollista toteuttaa?

Standardointijärjestelmään koulutettujen panelistien sitouttaminen on työsken-telyn jatkuvuuden kannalta ensiarvoisen tärkeää. Koulutustilaisuudet on myös jatkossa järjestettävä niin, että mahdollisimman moni pääsee niihin osallistu-maan. Työ on koettava mielekkääksi, koko tutkintojärjestelmää kehittäväksi toiminnaksi, joka antaa myös osallistujille kokemuksia oman asiantuntijuutensa kehittymisestä. Yksi merkittävä piirre Bookmark-tyyppisessä standardoinnissa panelistien kouluttautumisen kannalta on se, että he joutuvat koko ajan vertaa-maan omaa ennakkokäsitystään osioiden keskinäisestä vaikeudesta suoritusai-neiston osoittamaan tilanteeseen. Tehtävän vaikeustason arviointi ilman tietoa sen vaativuudesta oikean testin osana on erittäin vaikeaa. Yllättävän vaikeiksi tai helpoiksi osoittautuneet osiot todennäköisesti kehittävät panelistien kykyä arvioida osioiden vaikeustasoa, koska he joutuvat yhdessä pohtimaan, mitkä tekstin ja tehtäväosion ominaisuudet johtivat yllättävään lopputulokseen.

Myös Yleisten kielitutkintojen henkilöstön kannalta osa standardoinnin haasteis-ta liittyy juuri koulutustilaisuuksiin ja niiden käytännön toteutukseen. Panelis-tien erilainen työskentelytahti ja jaksaminen vaikuttavat myös siihen, paljonko standardoitavia tehtäviä voidaan antaa. Omat haasteensa tuo myös esimerkiksi puheen ymmärtämistehtävien standardointi. Miten standardointi toteutetaan käytännössä niin, että panelistien käsitys tehtävien vaikeustasosta vastaa mah-dollisimman tarkasti tutkinnon suorittajan aidossa tutkintotilaisuudessa saamaa käsitystä?

Muita lähinnä tehtävätason ongelmia ovat muun muassa avotehtävien pistey-tykseen liittyvät asiat. Avotehtävät voivat tällä hetkellä olla yhden tai kahden pisteen tehtäviä. Taitotasoille asettamisessa yhden pisteen vastaus ei ole aina osoittautunut osallistujille kahden pisteen vastausta helpommaksi. Tällöin

joudu-taan pohtimaan vastausten pisteytystä ja sen loogisuutta: onko kysymys todella sellainen, josta kahden pisteen saaminen on mitta paremmasta kielitaidosta kuin yhden pisteen vastaus? Jotta panelistien tehtävä olisi helpompi, tällaiset ristirii-taiset avovastausten pisteytystavat kannattaakin korjata jo etukäteen ja muuttaa esimerkiksi huonosti toiminut kahden pisteen vastausasteikko yksinkertaisem-maksi 0/1-asteikoksi.

Toinen tehtävätason haaste liittyy kokonaisen tehtävän taitotason määrittele-miseen. Yleensä yksi tehtävä sisältää kolmesta viiteen osiota. Ratkaistavaksi jää, miten tällöin määritellään koko tehtävän vaikeustaso, sillä osa osioista on kenties helpompia, osa vaikeampia kuin itse teksti, johon osiot liittyvät. Muo-dostuuko tehtävän vaikeustaso tällöin osioiden vaikeustason keskiarvosta vai jostain muusta? Ja kuinka monta osiota tutkinnon suorittajan tällöin pitäisi saada tehtävästä oikein, jotta hänen kielitaitonsa voitaisiin sanoa olevan esimerkiksi taitotasolla 3?

Taitotasojen asettamiseen liittyy siis monia haasteita, joihin ei välttämättä ole olemassa täysin aukottomia ratkaisuja. Työ on kuitenkin välttämätöntä, jotta ymmärtämistestien pistemäärät voitaisiin nykyistä tarkemmin ja perustellummin kytkeä raportoinnissa käytettyyn 1–6-taitotasoasteikkoon. Tällainen standardoin-ti on myös yksi osa laadukasta ja ammatstandardoin-timaista kielitaidon testausta, johon Yleiset kielitutkinnot on sitoutunut mm. olemalla jäsenenä kansainvälisessä AL-TE-tutkintojärjestössä⁴ ja osallistumalla sen tekemiin toiminnan auditointeihin.

Kuten edellä jo todettiin, taitotasojen asettaminen palvelee myös tutkinnossa mukana olevien opettaja-arvioijien täydennyskoulutusta. Tehtävien intensiivinen tarkastelu ja niiden vaatimustasojen arviointi suhteessa tasokuvauksiin on mitä parasta kouluttautumista ymmärtämiseen ilmiönä sekä sitä mittaavien testiteh-tävien laadintaan.

4 ALTE = Association of Language Testers in Europe

Lähteet

Alderson, J. C. 1991. Bands and scores. Teoksessa Alderson, J. C. ja North, B. (Eds.) Language Testing in the 1990s: The Communicative Legacy. Lontoo: Macmillan, 71– 86.

Angoff, W. H. 1971. Scales, norms, and equivalent scores. Teoksessa R. L. Thorndike (Ed.), Edu-cational Measurement (2^nd ed.) Washington, DC: American Council on Education.

Buckendahl, C., Russell. W., Impara, J. & Plake, B. 2002. A Comparison of Angoff and book-mark standard setting methods. Journal of Educational Measurement, Vol. 39 (3), 253– 263.

Cizek, G. & Bunch, M. 2007. Standard setting. A guide to establishing and evaluating perfor-mance standards on tests. Sage Publications. California: Thousand Oaks.

EVK, Eurooppalainen viitekehys. 2003. Kielten oppimisen, opettamisen ja arvioinnin yhteinen eurooppalainen viitekehys. Alkuteoksesta The Common European Framework of Reference for Languages: Learning, Teaching, Assessment. Suomentaneet I. Huttunen ja H. Jaakkola. Euroo-pan Neuvosto. WSOY.

Kaftandjieva, F. 2004. Section B: Standard setting. Council of Europe. Reference Supplement to the Preliminary Pilot Version of the Manual for Relating Language Examinations to the CEFR for Languages: Learning, Teaching, Assessment. Strasbourg: Language Policy Division.

Lewis, D., Mitzel, H. Mercado, R. & Schultz, M. 2012. The bookmark standard setting proce-dure. Teoksessa G. Cizek (Ed.) Setting Performance Standards: Foundations, Methods, and Innovations (2^nd ed.). New York: Routledge, 225–254.

Nykysuomen sanakirja. 1980. Porvoo; Helsinki; Juva: Suomalaisen kirjallisuuden seura: WSOY.

Opetushallitus 2004. Perusopetuksen opetussuunnitelman perusteet 2004. Helsinki: Opetushal-litus.

Törmäkangas, K. & Törmäkangas, T. 2009. Osioanalyysi testien arvioinnissa. Jyväskylä: Jyväsky-län yliopistopaino.

Wang, N. 2003. Use of the rasch IRT model in standard setting: An Item-Mapping Method. Jour-nal of EducatioJour-nal Measurement, Vol. 40 (3), 231 ̶ 253.

Wright, B. D. & Stone, M. H. 1979. Best test design. MESA.

OSA IV

Arviointi

Mirja Tarnanen professori

Jyväskylän yliopisto, opettajankoulutuslaitos

In document Yleiset kielitutkinnot 20 vuotta (sivua 108-115)