• Ei tuloksia

Konteksti termien ja käsitetiedon poiminnassa

Olen edellä tarkastellut termien kvantitatiivisia ja lingvistisiä ominaisuuksia, joita kos-keva tieto on tarpeen termien tunnistamisen ja poiminnan automatisoinnissa. Lisäksi termien ja varsinkin käsitetiedon poimintaan vaikuttaa konteksti, sillä vaikka perinteisen terminologian teorian mukaan termin käyttö ei riipu kontekstista, käytäntö on osoitta-nut, että pelkän termiehdokaslistan perusteella on ainakin joistakin termiehdokkaista vaikea sanoa, mitä käsitettä ne nimeävät ja ovatko ne termejä ollenkaan (vrt. Antia 2000: 115–116). Määrälliset ja kielelliset mittarit, kuten termin pituus sanoina, frek-venssi ja termikaava, eivät siis riitä termintunnistuksessa, sillä termiyden kannalta rat-kaisevaa on muodon sijasta käyttö ja lopulta erikoisalakonteksti laajasti ymmärrettynä.

Joissakin tapauksissa on tarkasteltava erikoisalakontekstiakin laajempaa kontekstia, jota kutsun maailmantiedoksi.

Konteksti voidaan määritellä hyvin monella tavalla tavoitteesta ja näkökulmasta riippuen. Sanastotyön yhteydessä kontekstilla tarkoitetaan yleensä käsitteen nimityksen tekstiympäristöä. ISO-standardissa 1087-1 konteksti on määritelty tekstiksi, joka kuvaa käsitettä tai käsitteen nimityksen käyttöä (ISO 1087-1:2000(E/F): 12). Laajemmin ym-märrettynä se voidaan jakaa Heikkisen (2003: 3) tavoin lingvistiseen eli kielensisäiseen kontekstiin ja ekstralingvistiseen eli kielenulkoiseen kontekstiin. Myös Kostera (1996:

284) laajentaa kontekstin käsitteen kielen ulkopuolelle. Hänen mukaansa konteksti on teksti- tai muu ympäristö eli asia-, lause-, teksti- tai kulttuuriyhteys. Diskurssintutki-muksessa käytetään termejä lause- ja episodikonteksti, vuorovaikutuskonteksti ja kult-tuurinen konteksti (Jokinen, Juhila & Suoninen 2004: 30–33). Vuorovaikutuskonteksti on tilanne, jossa diskurssi tapahtuu. Terminologiaan sovellettuna se on tilanne, jossa erikoisalaviestintä tapahtuu. Kulttuurinen konteksti vastaa maailmantietoa, joka pysyy samana tilanteesta riippumatta. Sekä vuorovaikutuskonteksti että kulttuurinen konteksti sijoittuvat Heikkisen mainitseman ekstralingvistisen kontekstin alueelle. Kognitiivisen lingvistiikan edustajat Croft ja Cruse (2004: 102–103) jakavat kontekstin neljään ta-soon. Ensimmäisenä on kielellinen konteksti, johon kuuluu aiempi diskurssi, välitön lauseyhteys ja tekstilaji. He sisällyttävät kielelliseen kontekstiin myös erikoisalan. Toi-sena on fyysinen konteksti, jolla Croft ja Cruse tarkoittavat viestintätapahtumaan osal-listuvien aistein havaittavaa ympäristöä. Kolmantena on sosiaalinen konteksti, joka viit-taa viestintään osallistuvien tilanteeseen ja keskinäisiin suhteisiin. Neljäntenä on niin sanottu tallennetun tietämyksen (stored knowledge) konteksti, joka vastaa maailmantie-toa. Fyysinen ja sosiaalinen konteksti voidaan yhdistää tekstinulkoiseksi erikoisalakon-tekstiksi, jossa viestintä tapahtuu. (Ks. myös Yli-Jokipii 2006: 109–110.) Tarkasteltavan erikoisalan näkökulmasta voidaan siis puhua kolmen tason kontekstista. Ulommainen, staattinen konteksti on erikoisalan ulkoista kontekstia eli maailmantietoa ja keskimmäi-nen, dynaaminen konteksti on tarkasteltavan tekstin ulkoista erikoisalakontekstia. Yh-dessä nämä kontekstin tasot muodostavat ekstralingvistisen kontekstin. Kolmas kon-tekstin taso eli lingvistinen konteksti on tarkasteltavan kon-tekstin tai korpuksen konteksti.

KUVIO 5. Kontekstin kolme tasoa terminologisen tiedon poiminnassa

Kun termejä ja käsitetietoa poimitaan teksteistä, kaikki kolme kontekstitasoa on otettava huomioon. Termiehdokaslistan termiehdokkaiden arvioinnissa on palattava tekstikon-tekstiin eli tutkittava termiehdokkaan ympäristöä tekstissä ja haettava sieltä käsitetietoa eli tietoa käsitteiden välisistä suhteista ja käsitepiirteistä. Termiä ympäröivä tekstikon-teksti voi myös johtaa uusien termien jäljille semanttisten linkkien kautta (Vivaldi &

Rodríguez 2001: 38). Myös Pearson (1998: 10, 36) pitää kontekstia oleellisesti termiin liittyvänä sanoessaan, että termejä voidaan pitää termeinä vain, kun niitä käytetään tie-tyssä kontekstissa. Tässä kontekstin käsitteen voi laajentaa tarkoittamaan tekstikonteks-tin lisäksi erikoisalakontekstia. Riggs (1993: 207) kysyykin, onko mahdollista tai edes toivottavaa ymmärtää termejä sen kontekstin ulkopuolella, jossa niitä käytetään. Riggsin mainitsema konteksti on tässä tulkittava erikoisalakontekstiksi. Erikoisalakonteksti luo kehyksen, joka auttaa terminpoimijaa ratkaisemaan, mitkä termiehdokkaat kuuluvat termilistaan (Antia 2000: 115). Erikoisalakonteksti myös ohjaa terminpoimijaa etsimään termejä, jotka puuttuvat tutkittavasta lähdetekstistä. Synonymian ja variaation selvittä-minen vaatii sekin tekstikontekstia ja erikoisalakontekstia. Erikoisalan ulkopuolisen kontekstin tunteminen on tarpeen, kun on ratkaistava, onko yleiskielen sana tutkittavas-sa tekstissä termi ja ovatko termit monen alan yhteisiä termejä.

Kaikki kontekstitasot ovat siis välttämättömiä termintunnistuksessa, kun on päätet-tävä termiehdokkaiden termiydestä, vaikka termiehdokaslistan tuottaminen onkin mah-dollista automaattisesti kvantitatiivisten ja lingvististen kriteerien perusteella. Käsi-tesuhteiden ja käsitepiirteiden poiminnassa tekstikonteksti on vieläkin tärkeämpää, sillä niiden tunnistamiseksi on tekstille tehtävä semanttinen analyysi. Yksittäisen tekstin kä-sitetieto ei kuitenkaan riitä kuvaamaan koko käsitettä, sillä teksteissä annetut määritel-mät ovat ehkä vain yhden asiantuntijan näkemyksiä käsitteistä. Käsitteen kaikkien piir-teiden selvittämiseksi tarvitaan monta tekstikontekstia, jolloin lähestytään käsitettä yk-sittäisen tekstikontekstin sijasta erikoisalakontekstin näkökulmasta. Yhdistämällä mo-nen tekstin käsitetieto voidaan saada käsitteelle likimääräimo-nen kuvaus, johon tosin vai-kuttavat näkökulma ja mahdollisesti historialliset, sosiaaliset ja poliittiset seikat. Eri-koisalan ulkopuolinen maailma onkin tekstissä aina mukana ja vaikuttaa tulkintaan (Croft & Cruse 2004: 103). Sosiaalisuus on mukana kielessä tai ainakin kielen merki-tyspotentiaalissa, joten kaikessa tutkimuksessa, myös terminologiassa, on välttämättä olemassa sosiaalinen aspekti (Pälli 2003: 56).

maailmantieto erikoisala

korpus lingvistinen

konteksti dynaaminen konteksti

staattinen konteksti

Olen edellä käsitellyt ensin termin kontekstista riippumattomia kvantitatiivisia ja lingvistisiä ominaisuuksia ja sitten kontekstin vaikutusta terminpoimintaan. Seuraavaksi selostan tutkimukseeni kuulunutta manuaalista ja puoliautomaattista terminpoimintaa.

6 MANUAALINEN JA PUOLIAUTOMAATTINEN TERMINPOIMINTA SUOMALAISISTA JA VENÄLÄISISTÄ MERENKULUN TURVALLISUUTTA KÄSITTELEVISTÄ TEKSTEISTÄ

Johdannossa asetin tutkimukseni tavoitteeksi kehittää termien ja käsitetiedon poiminta-menetelmiä aidoista käyttöteksteistä. Tavoitteen taustalla on oletus, että deskriptiivises-sä sanastotyösdeskriptiivises-sä tarvittava terminologisesti kiinnostava tieto tai ainakin olennainen osa siitä on teksteissä. Tähän pääoletukseen liittyy oletus, että terminologisesti kiinnostava tieto on teksteissä usein ”piilossa” eli termit eivät esiinny teksteissä sanakirjamuodossa eikä käsitetietoa ole osoitettu eksplisiittisesti.

Tutkimukseni ensimmäinen osatavoite on terminpoimintamenetelmien kehittäminen.

Termit voidaan poimia erikoisalan teksteistä periaatteessa kahdella tavalla. Käsitejärjes-telmässä voidaan edetä yläkäsitteistä alakäsitteisiin, jolloin lähdetään liikkeelle pienestä käsitejoukosta, jota laajennetaan, kunnes toivottu laajuus on saavutettu (induktiivinen menetelmä). Toinen mahdollisuus on aloittaa suuresta termiehdokasmäärästä, jolloin kohdealan teksteistä poimitaan kaikki mahdolliset termiehdokkaat määritelmineen (de-duktiivinen menetelmä). Käsiteanalyysiin ja sanastoon valitaan kuitenkin vain osa ter-miehdokkaista. (Nykänen 1999: 65; vrt. Martin 1992: 250.)

Tässä luvussa selostan terminpoimintaa, jossa termiehdokkaat poimittiin suomenkie-lisestä esitelmätekstistä ja venäjänkiesuomenkie-lisestä artikkelista kahdella deduktiivisella mene-telmällä, manuaalisesti ja puoliautomaattisesti. Tavoitteena oli selvittää, miten erikois-alan opiskelijoista tai kieliaineiden opiskelijoista koostuvat koehenkilöryhmät ja tieto-koneohjelmat selviävät terminpoiminnasta. Myös induktiivista menetelmää termiehdok-kaiden valinnassa voisi soveltaa manuaalisesti tai puoliautomaattisesti, mutta induktiivi-sen menetelmän testaus ja arviointi jää tämän tutkimuksen ulkopuolelle. Aloitan ter-minpoimintaosuuden käsittelyn kuvaamalla poiminnassa käytettyä aineistoa ja mene-telmiä.