• Ei tuloksia

Merkkijonoista suomen kielen sanoiksi näkymä

N/A
N/A
Info
Lataa
Protected

Academic year: 2022

Jaa "Merkkijonoista suomen kielen sanoiksi näkymä"

Copied!
2
0
0

Kokoteksti

(1)

VÄITÖSKIRJAN TIIVISTELMÄ

Riitta Alkula

Merkkijonoista suomen kielen sanoiksi*

Alkula, Riitta: Merkkijonoista suomen kielen sanoiksi: Suomen kielen morfologisten tulkintaohjelmien liittäminen tekstitiedonhakujärjestelmään ja liittämisen vaikutukset tekstin tallennukseen ja hakuun. Informaatiotutkimuksen laitos, Tampereen yliopisto.

Acta Universitatis Tamperensis 763.

Väitöskirjatutkimuksessa selvitettiin, miten suomen kielen morfologisten tulkintaohjelmien avulla voidaan ratkaista sellaisia tiedon tallennuksen ja haun ongelmia, jotka johtuvat suomen kielen erityispiirteistä.

Tutkimusta varten rakennettiin oma testaus- ympäristönsä, jossa samasta tekstiaineistosta (23244 sanomalehtiartikkelia) tuotettiin joukko erilaisia tietokantoja. Eri tietokantoja luotaessa sovellettiin usealla eri tavalla suomen kielen morfogisia tulkintaoh- jelmia, ja näitä tietokantoja sekä niistä tehtyjen tiedonhakujen tuloksia vertailtiin toisiinsa saanti- ja tarkkuusarvojen perusteella. Projekti oli siis luonteeltaan laboratorioympäristössä toteutettu evaluointitutkimus.

Testauksissa käytetty hakujärjestelmä oli käänteis- hakemistoon perustuva, Boolen operaattoreita käyttävä BASIS.

Vertaillut tutkimusympäristöt olivat seuraavat:

T1) Perinteinen hakeminen: hakijan katkaisemat hakusanat (kysely kohdistui taivutusmuotohake- mistoon, joka sisälsi dokumenttien sanat sellaisinaan, taivutusmuodoissaan)

T2) Automaattinen katkaisu: perusmuotoisten hakusanojen syöttäminen taivutusvartaloita tuottaville ohjelmille, kysely vartaloilla (kysely kohdistui taivutusmuotohakemistoon)

T3) Seulonta: automaattinen taivutusvartaloiden tuottaminen, kysely vartaloilla sekä tulosten seulonta perusmuotoon palauttavalla ohjelmalla (kysely kohdistui taivutusmuotohakemistoon)

*Alkulan väitöstilaisuus pidettiin 25.8.2000 Tampereen yliopistossa. Väitöskirja on luettavissa kokotekstinä osoitteessa http://acta.uta.fi/pdf/951-44-4886-3.pdf

T4) Perusmuotojen ja yhdyssanojen alkuosien hakeminen (kysely kohdistui perusmuotohakemistoon, jossa morfologisen tulkintaohjelmantunnistamatsanatolivat perusmuodossa, tunnistamatta jääneet sanat taivutus- muotoisina)

T5) Perusmuotojen ja yhdyssanan kaikkien osien hakeminen (kysely kohdistui ositettuun perusmuoto- hakemistoon, jonne perusmuotojen lisäksi on tallennettu yhdyssanoista kaikki niiden osat sekä näiden osien yhdistelmät)

Lisäksi tutkimuksessa rakennettiin yksi tutkimus- ympäristö (T6), jossa tutkittiin tarkemmin kyselyjä, jotka eivät perusmuotohakemistossa tuottaneet oikeaa tulosta. Perusmuotoistamisen riskinä nimittäin on, että tulkintaohjelmilletuntemattomatsanattulkitaanväärinjolloin hakemistoon päätyy vääriä sanoja. Tutkimuksessa kokeiltiin muutamia yksinkertaisia korjausmenetelmiä, joilla tällaisetväärättulkinnat voidaan hakuvaiheessa kiertää ja siten varmistaa dokumenttien löytyminen tai parantaa hakutulosten tarkkuutta.

Tutkimusta varten koottiin 26 kyselyn perusjoukko, jonka lisäksi johdoksia ja yhdyssanoja tarkasteltiin tarkemmin omissa osajoukoissaan. Kyselyistä muodostettiin kahdeksan eri tyyppiä. Ensimmäisissä neljässä tyypissä kyselyä laajennettiin hakusanojen perusmuodoista lähtien:

A) Peruskysely, joka sisälsi alkuperäiset haku- pyynnössä esiintyneet sanat perusmuodossaan

AB) Johdoskysely, joka sisälsi peruskyselyn hakusanat sekä näiden johdokset perusmuodossaan

AC) Yhdyssanakysely, joka sisälsi peruskyselyn hakusanat sekä yhdyssanat, jonka osana hakusanat esiintyivät

ABC) Yhdistelmäkysely, joka sisälsi peruskyselyn hakusanat ja näiden johdokset sekä yhdyssanat, joiden osana hakusanattai niiden johdokset esiintyivät

(2)

Informaatiotutkimus 20 (1) - 2001 Alkula: Merkkijonoista... 19

Neljässä muussa kyselytyypissä jaettiin osiinsa sellaiset hakusanat, jotka olivat yhdyssanoja. Tämän jälkeen kyselyihin lisättiin nämä yhdyssanojen osat seuraavasti:

Aa) Osien peruskysely, joka sisälsi alkuperäiset hakupyynnössä esiintyneet sanat sekä yhdyssanojen osat perusmuodossaan

ABab) Osien johdoskysely, osien peruskysely laajennettuna hakusanojen ja näiden osien johdoksilla perusmuodossaan

ACac) Osien yhdyssanakysely, osien peruskysely laajennettuna sellaisilla yhdyssanoilla, joiden osana jokin hakusanan osa oli

ABCabc) Osien yhdistelmäkysely, edellisten kyselytyyppien yhdistelmä

Kun hakemistoon tallennettavat sanat perus- muotoistettiin, perusmuotohakemisto vei vähemmän muistitilaa kuin taivutusmuotohakemisto. Tämä päti myös ositetussa perusmuotohakemistossaeli kun hake- mistoon tallennettiin perusmuotojen lisäksi myös yhdys- sanojen osat ja niiden yhdistelmät.

Kun kyselyjen tulosjoukkoja vertailtiin saannin keskiarvojen perusteella, paras tulos saatiin ositetusta perusmuotohakemistosta (T5) ja toiseksi paras perusmuotohakemistosta (T4). Erot toisiin tutkimus- ympäristöihin olivat systemaattisia, mutta yleensä eivät tilastollisesti merkitseviä. Kolmanneksi paras oli taivutusmuotohakemisto (T1), jonne tekstien sanat oli tallennettu taivutusmuodossaan ja hakija käytti katkaistuja hakusanoja. Tosin automaattisella katkaisulla (T2) päästiin lähes samoihin tuloksiin.

Selvästi huonoimman tuloksen tuotti seulonta (T3) - ero toisiin tutkimusympäristöihin oli myös tilastollisesti merkitsevä.

Tarkkuuden keskiarvojen vertailussa parhaat tarkkuusarvot sai seulonta (T3). Seuraavaksi parhaat tarkkuusarvotsaatiin perusmuotohakemistosta (T4), mutta lähesyhtä hyvättarkkuusarvotsaatiin ositetusta perus- muotohakemistosta (T5). Tarkkuudeltaan huonoimpia olivat hakijan katkaisemilla hakusanoilla taivutusmuoto- hakemistosta (T1) saadut tulosjoukot. Hakusanojen katkaiseminen automaattisesti (T2) paransi tarkkuutta, mutta varsin vähän. Eri tutkimusympäristöjen tarkkuus- arvojen väliseteroteivätolleettilastollisesti merkitsevät.

Perusmuotohakemisto oli yleisesti ottaen tarkempi kuin taivutusmuotohakemisto: kun esimerkiksi molem- missa käytettiin täsmälleen samoja, taivutusvartalo- ohjelman katkaisemia hakusanoja, perusmuotohake- mistosta saatujen tulosjoukkojen tarkkuus oli parempi kuin samanlaisella kyselyllä taivutusmuotohakemistosta saatujen tulosjoukkojen tarkkuus.

Toisaalta perusmuotohakemistoon tehdyissä kyse- lyissä ei kannata käyttää pelkkiä hakusanan perusmuo- toja. Kun perusmuotohakemistosta haettiin antamalla muuten samat hakusanat kuin taivutusmuotohakemistosta haettaessa, mutta jättämällä ne katkaisematta, saanti romahti. Kun kyselyyn lisättiin hakusanan perusmuotojen lisäksi sen johdoksettai hakusanan sisältävätyhdyssanat, tulosjoukon saanti nousi useampia prosenttiyksikköjä kuin tarkkuus samalla laski.

Perusmuotohakemistoista haettaessa hakijan on siis muistettavaottaamyösjohdoksetjayhdyssanathuomioon.

Toisaalta hakija pystyy perinteistä hakutapaa (kysely

katkaistuilla hakusanoilla taivutusmuotohakemistosta)

paremmin valitsemaan, haluaako painottaa saantia vai

tarkkuutta.

Viittaukset

LIITTYVÄT TIEDOSTOT

Toimintaohjelmassa käsitellään suomen kielen julkisen käytön ja aseman kehitys- tä, Pohjoismaiden kielipolitiikkaa, suomen kielen käyttöä ja kielenopetusta koulussa,

Tutkimukseni ei kohdistu tunteisiin si- nänsä, vaan tavoitteenani on ollut selvittää suomen kielen tunnesanaston ominaisuuk- sia ja semantiikkaa sekä niitä käsityksiä ja

Ikonisuuden alalajeiksi Croft erottaa Haimania (1985) seuraillen isomorfian (kielen rakenteen ja kuvattavan rakenteen osien vastaavuus) ja ikonisen motivaation (osien

En halua tässä myöskään yksityiskohtaisemmin analysoida Rytkösen kirjaa vaan muistutan, että tilaa riittää kielen kaikkien osien tutkimiselle.. Areenana ei nyt enää saisi olla

8 Vuoden 1969 lopussa oli Suomen kielen nauhoitearkistossa äänitteitä suomen kansan- kielestä yli 11 000 tuntia; sellaisia pitäjiä, joiden murretta on tallennettu vähintään

Kaikki Suomen Akatemian kieli- lautakunnan päätökset olisi saatava tiedoksi, sillä on muistettava, että moni suomen kielen lehtori joutuu toimimaan oman

Siihen on elävästi, asiallisesti ja ennen kaikkea luotettavasti tallennettu 1900-luvun alkupuolella puhutun ja kirjoitetun suomen kielen perusainekset sekä nykyisiä

Sopii mekaanisen suomen kielen lukutaidon omak- suneelle tai semilukutaitoiselle aikuiselle, joka opis- kelee hitaasti etenevässä kotoutumiskoulutuksessa. Kieltä opiskellaan