• Ei tuloksia

SUS-mittarin jatkokehityksestä

Tässä luvussa perehdytään SUS-mittarin jatkokehitykseen. Useiden eri tahojen te-kemä kehitystyö ja tutkimus SUS-mittariin liittyen on mahdollistanut sen muodos-tumisen luotettavaksi ja validiksi mittaristoksi käytettävyyden tutkimuksessa. [7]

Brooken mukaan yksinkertaiset selkeät väittämät eivät sotke testihenkilön aja-tuksia, vaan antavat luotettavan kuvan testihenkilön kokemuksista. SUS-mittari on saavuttanut kaikista luotettavimmat tulokset pienillä koehenkilömäärillä. Kuiten-kin kyselylomakkeiden termit tulisi valita mahdollisimman yleisesti ymmärrettä-viksi ja välttää harvinaisia sanoja [7]. Finstad löysi tutkimuksessaan SUS-lomak-keesta termin, jonka vain syntyperäiset englannin kielen puhujat ovat ongelmitta ymmärtäneet (cumbersome = vaivalloinen/hankala). Käyttäjät voivat vastata tutki-mukseen netissä valvomattomassa tilanteessa toteutettu, jolloin väärinymmärryksiä voi esimerkiksi käytetyn kielen vuoksi tapahtua. Lisäksi analyysivaiheessa yhden-kin väittämän kohdalla mahdollisesti tapahtuva datan väärä kirjaus muuttaa koko testin tuloksen. Tällaisilla seikoilla on luonnollisesti suuri merkitys testin tulkintaan ja luotettavuuteen. Finstad totesi tutkimuksensa pohjalta, että termi cumbersome voidaan korvata termillä awkward, jolloin ongelma poistui ja mittariston validiteet-ti säilyi. Muiden termien kohdalla ongelmia ei esiintynyt [10].

Bangor, Kortum ja Miller toteavat SUS-mittarin eduiksi sen käyttämisen nopeu-den, kustannustehokkuuden ja laajat käyttömahdollisuudet eri teknologioista riip-pumatta [6]. He viittaavat myös vuonna 2008 julkaisemaansa tutkimukseen, jossa he tarkastelivat 2324 SUS-tutkimuksen tuloksia ja havaitsivat SUS-mittarin olevan erittäin luotettava ja käyttökelpoinen monenlaisten käyttöliittymien suhteen. Lisäk-si he havaitLisäk-sivat, että SUS-mittari on sukupuolineutraali [6].

Bangor ja muut pohtivat SUS-mittarin tulosten hyödynnettävyyttä: mikä mer-kitys tietyllä SUS-mittarin antamalla luvulla on, kun pyritään kuvamaan tutkitun kohteen käytettävyyttä [6]. Jos tutkittu kohde, esimerkiksi tietokoneohjelma, saa tu-lokseksi 50, voidaanko sanoa sen olevan käytettävä vai olisiko vaadittava tutu-lokseksi esimerkiksi vähintään 75. Bangor ja muut tutkimuksia tehdessään alkoivat havaita, että SUS-tutkimusten arvoja voisi suhteuttaa yliopistoissa käytettyihin kirjainarvo-sanoihin: esimerkiksi 90 pistettä saava tutkimuskohde olisi erinomainen, 80 hyvä ja 70 hyväksyttävä [6]. Alle 70 pistettä saavan tutkimuskohteen käytettävyydessä olisi huolta herättäviä seikkoja. Kirjainarvosanat ovat siinä määrin laajasti käytös-sä, että niiden ymmärtäminen tutkimuskäytössäkin olisi helppoa. Tarkastellakseen tätä asiaa tarkemmin, he toteuttivat tutkimuksen, jossa he lisäsivät SUS-mittariin 7-kohtaisen Likert-adjektiiviasteikon [6].

Asteikossa käytetään termin käytettävyys (usability) sijaan termiä käyttäjäys-tävällisyys (user-friendliness), joka on laajasti tunnettu synonyymi käytettävyys-termille. Adjektiiveille annettiin numeraaliset vastineet 1-7. Tähän tutkimukseen osallistui 964 vastaajaa. Tutkimuksen korrelaatioanalyysi osoitti, että vastaajien Li-kert-asteikon vastaukset korreloivat erittäin merkittävästi heidän antamiensa SUS-pisteiden kanssa. Bangor ja muut pohtivat tutkimuksensa pohjalta, että olisi hou-kuttelevaa korvata SUS-mittari tällä yhdellä adjektiivipohjaisella asteikolla ottaen

huomioon niiden korkean keskinäisen korrelaation [6]. He kuitenkin päätyvät usei-den muiusei-den tutkimusten perusteella siihen, että mittaristot, joissa on useita kysy-myksiä, antavat luotettavampia tuloksia kuin vain yhteen kysymyksen perustuvat mittarit [6].

Bangor ja muut toteavat esimerkiksi Oshagbemin vuonna 1999 julkaistun työhy-vinvointia tarkastelleen tutkimuksen osoittaneen, että vastattaessa vain yhteen ky-symykseen työhyvinvointi tulee liioitellun myönteisesti arvioiduksi [6]. Tämä joh-tuu siitä, ettei ole mahdollisuutta arvioida työhyvinvoinnin kokonaisuutta sen osae-lementtien kautta yksityiskohtaisemmin. He tuovat esiin, että tarkasteltaessa konk-reettista ja yksinkertaista kohdetta, on mahdollista käyttää yhtä kysymystä käytet-tävyyden arvioinnissa. Kuitenkin he toteavat, etteivät esimerkiksi käyttöliittymät ole konkreettisia ja yksinkertaisia. Näin ollen tutkijat esittävät tutkimuksensa poh-jalta, että adjektiivipohjainen asteikko SUS-mittarin lisänä voisi olla hyödyllinen li-sä tulkittaessa tutkimuksessa saatua SUS-pistemäärää. Yksi vaihtoehto olisi käyttää korkeakoulujen käyttämiä kirjainarviointeja, joista monilla on omakohtaisiakin ko-kemuksia. Sen myötä voisi olettaa arvion tekemisen olevan helpompaa vastaajille.

Tutkimusryhmä aikoo jatkaa tämän asian selvittelyä. Esimerkiksi tässä tarkastellus-sa tutkimuksestarkastellus-sa käytetyn Likert-asteikon "OK" antaa viitteen hyväksyttävästä, jo-ten sen tilalle tulisi löytää jokin neutraalimpi termi [6].

McLellan, Muddimer ja Peres toteavat viimeaikaisiin tutkimuksiin perustuen, että käyttäjien arviot käyttämästään tuotteesta eroavat riippuen siitä, kuinka paljon aiempaa kokemusta heillä on ko. tuotteen käyttämisestä. Tyypillisesti SUS-mittarin pisteet ovat jopa 15-16 prosenttia korkeammat eli tuotteen käytettävyyttä myöntei-semmin arvioivia niiden henkilöiden arvioimina, joilla on jo aiempaa kokemusta ko.

tuotteen käyttämisestä. He tuovat esiin jo vuonna 2007 Vaughanin ja Couragen esit-tämän seikan, että tyypillisesti käytettävyyden arvioinnissa on keskitytty ensiker-talaisten kokemuksiin. Tällöin kuitenkin tavoitetaan ennemminkin tuotteen opitta-vuuteen liittyviä ongelmia, kuin todellisia käytettävyyteen liittyviä ongelmia, jotka eivät poistu tuotteen pitkäaikaisesta käyttämisestä huolimatta. [6]

Tutkijoiden mukaan käytettävyystutkimuksen vastaajia valitessa tulisikin pitää mielessä tutkittavan tuotteen tuleva käyttäjäkunta. Esimerkiksi jonkin tietokoneoh-jelman asennusohtietokoneoh-jelman tulisi olla mahdollisimman helppokäyttöinen ja vahvasti käyttäjää neuvova, koska tyypillisesti tämän kaltaista ohjelmaa käytetään vain ker-ran tai erittäin harvoin. Sen sijaan ammattikäyttöön suunnitellut ohjelmat voivat edellyttää käyttäjältään enemmän vaivannäköä, koska sen sujuva käyttö tulee

hel-pottamaan ja tehostamaan työskentelyä. [6]

Aiemmat tutkimukset osoittavat, että tietyn tuotteen tai vastaavan kaltaisen tuot-teen aiempi käyttö saa aikaan myönteisempiä käytettävyysarvioita. McLellan ja muut halusivat tutkimuksessaan tarkastella SUS-mittarin avulla tietylle ammattialle suun-niteltujen ammattilaisohjelmistojen aiemman käytön vaikutusta käytettävyysarvi-oon yleisesti käytössä olevien toimisto-ohjelmistojen ja Internet-pohjaisten käyttö-liittymien sijaan [42]. Heidän tutkimusasetelmassaan tarkasteltiin geologien työs-sään käyttämiä kahta ohjelmaa, joista toinen oli Internet-pohjainen ja toinen tieto-koneohjelma. Tutkimukseen vastasi 262 henkilöä, joilta kysyttiin ennen uusiin ver-sioihin tutustumista heidän aiempaa kokemustaan ohjelmistojen käytöstä: ei kos-kaan/vähäinen kokemus/runsaasti kokemusta. Vastaajien joukossa oli sekä äidin-kieleltään englantia käyttäviä että heitä, joille englanti oli vieras kieli [6].

Tulokset osoittivat, että vastaajien aiempi käyttökokemus vaikutti SUS-mittarin tulokseen. Käyttökokemuksen vaikutus oli jopa 15 - 16 prosenttia verrattaessa ryh-mää, jolla oli runsaasti aiempaa kokemusta ryhmään, jolla ei ollut lainkaan käyttö-kokemusta. Tutkijat huomauttavat Tractinskyn ja Finstadin tutkimuksiin perustuen, että myös vastaajien kulttuuritaustalla ja äidinkielellä saattaa olla merkitystä käytet-tävyyden arviointiin. Lisäksi he tuovat esiin, että Mockusin, Zhangin ja Luo Lin ja Shawin, DeLonen ja Niedermanin tutkimukset ovat osoittaneet esimerkiksi ohjel-miston asennukseen ja käyttöönottoon liittyvien tekijöiden, helppous/hankaluus, vaikuttavan informanttien arviointiin käyttäjätyytyväisyydestä. Näin ollen McLel-lan ja muut suosittavat muun muassa, että vastaajilta kysytään heidän aiempaa käyttökokemustaan arvioitavan tuotteen suhteen. [42]