Kalervo Järvelin: Omakielinen tiedonhaku helpommaksi
Toimimme nykyään kansainvälisessä ja monikielisessä työ- ja kulttuuri-ympäristössä. Tärkeä osa työtämme ja vapaa-aikaamme on tiedon hankinta tietoverkkojen avulla. Usein pärjäämme omalla äidinkielellämme suomeksi tai ruotsiksi, mutta usein tieto tarvitaan vieraskielisistä lähteistä - yhä useammin muulla kielellä kuin englanniksi. Tällöin webin hakukoneelle pitäisi osata kirjoittaa hakutehtävä ao. kielellä. Pienessä kulttuurissa monet meistä ovat kielellisiä moniosaajia, valmiita lukemaan tekstejä englanniksi, ranskaksi, saksaksi, kiinaksi, jne.
Kielen sujuvakaan ymmärtäminen ei välttämättä tee kielen tuotantoa sujuvaksi, vaivattomaksi saati virheettömäksi. Kuinkas se Tsetsenia kirjoitetaankaan englanniksi? Tiedonhaussa on lukuisia ongelmia, mutta kieltenvälisessä tiedonhaussa on mausteena käännösongelma moitteettomiksi kohdekielen sanoiksi. Omakielisessä tiedonhaussa hakusanojen keksiminen on tavallisesti nopeampaa ja virheettömämpää kuin vieraalla kielellä. Vieraskielisiä lähteitä haettaessa tämän tehtävän voi suorittaa tiedonhakija itse tai se voidaan suorittaa automaattisesti hakijan puolesta hakujärjestelmässä.
Akatemiaprofessorin projektissani kieltenvälinen tiedonhaku oli yksi tutkimusalueistani. Projektissa kehitettiin aktiivisesti menetelmiä omakielisten hakutehtävien automaattiseen kääntämiseen useille kohdekielille. Laboratoriotesteissä voitiin osoittaa monen menetelmän tuloksellisuus. Onko niistä oikeasti hyötyä jokapäiväisessä monikielisessä aherruksessa?
Tutkimusalue on jo perinteinen, mutta tätä kysymystä ei ole selvitetty. Eija Airion väitöskirja (Tampereen yliopisto, Informaatiotutkimuksen ja interaktiivisen median laitos, 2009) osoitti yhtenä tuloksenaan, että kielitaidoltaan keskinkertaiset tai heikommat henkilöt hyötyivät olennaisesti automaattisista menetelmistä hakutehtävien kääntämisessä. He siis saivat parempia tuloksia sekä löysivät nopeammin ja parempia kohdekielisiä lähteitä hakemalla äidinkielellään ja jättämällä hakusanojen kääntämisen automaattisille menetelmillemme.
On huomattava, että kielitaidoltaan keskinkertaiset henkilöt usein ovat sujuvia lukemaan löytämiään vieraskielisiä lähteitä. Näin ollen he saavat merkittävän avun eikä menetelmiä kehitetä turhaan. Toisaalta ei ollut yllättävää, että kielitaidoltaan erinomaisten henkilöiden joukossa omakielisen automaattisesti käännetyn haun ja suoran kohdekielisen haun tuloksien välillä ei ollut merkittävää laatueroa. Airion tutkimus osoitti myös, mitä seikkoja käännösmenetelmissä erityisesti kannattaisi parantaa omakielisen tiedonhaun tukemiseksi.
Kehitettiin niitä menetelmiäkin…
Kieltenvälisen tiedonhaun tutkimukseen sisältyi lisäksi menetelmäkehitystä ja menetelmien tuloksellisuuden laboratoriotestausta. Erityisen huomion kohteena olivat sanakirjariippumattomat käännösmenetelmät kielten välillä. Ne ovat tarpeen, koska käännöstilanteissa keskeiset hakusanat usein kuuluvat erikoissanastoon - kuten tekninen terminologia tai kirjoitusasuiltaan vaihtelevat erisnimet - jotka eivät sisälly sähköisiin käännössanakirjoihin. Ne luonnollisesti keskittyvät kielten yleissanastoon.
Sanakirjojen ulkopuolisten sanojen hallintaan liittyvässä tutkimuksessa lähtökohtana on se havainto, että vastinsanat eri kielissä ovat toisiaan muistuttavia kirjoitusasuvariantteja, esim. kemoterapia vs. chemotherapy. Kirjoitusasujen etäisyys voidaan mitata ja omakielistä sanaa lähin kohdekielen sanakokoelmasta löytyvä sana päätellä oikeaksi käännökseksi. Vaihtoehtoisesti voidaan hyödyntää eri kielten terminologian yhteistä taustaa latinassa ja kreikassa; oikeinkirjoituksen pintataso vain vaihtelee nykykielten välillä.
Näin voimme havaita, että kemoterapian ’ke’ on englannissa ’che’, ’te’ taas ’the’ ja ’pia’ on ’py’. Analysoimalla suurehkoja aineistoja voidaan oppia tilastolliset korvaussäännöt. Sääntöjä soveltamalla voidaan myös ennen näkemättömät samakantaiset sanat kääntää eri kohdekielille. Tällaisilla keinoilla voidaan myös suomen sana tsetsenia kääntää englannin sanaksi chechnya, vaikkapa monissa suomenkielisissä taivutusmuodoissaan. Jos kääntämisen lähtö- ja kohdekielet ovat lähisukulaisia, kuten skandinaaviset kielet keskenään, tiedonhaun kannalta kelvollisiin käännöksiin päästään pelkästään tällaisia tilastollisia menettelemiä soveltamalla.
Translatologien ei tarvitse kuitenkaan häkeltyä: kuvatuilla menetelmillä käännetään sanoja hakua varten, ei tuoteta moitteettomia kohdekielen lauseita.
Rinnakkaiskokoelmiin perustuvissa menetelmissä lähtökohtana on pariuttaa samaa aihetta käsittelevät erikieliset lähteet. Kun pareja on kerätty runsaasti (useita tuhansia), niistä voidaan muodostaa sanojen yhteisesiintymiin perustuva tilastollinen käännössanakirja. Pariutettavia lähteitä voivat olla esim. kaksi- tai monikieliset lakikokoelmat – pariutus onnistuu jopa lausetasolla – tai erikieliset eri sanomalehtien artikkelit. ’Kääntäminen’ ei tuota pelkästään tai välttämättä oikeaa käännöstä, vaan lähtökielen sanaan tilastollisesti assosioituvia kohdekielen sanoja. Sanalle venäjä saataisiin käännöksiksi esimerkiksi russia, moscow, putin, petersburg, gazprom, military, jotka voivat olla hyviä hakusanoja haettaessa englanninkielisiä Venäjää koskevia tekstejä uutisarkistosta.
Tutkimusprojektissa kehitettiin menetelmiä pariutettavien lähteiden etsimiseen (mm. louhimalla automaattisesti Webistä), parien muodostamiseen sekä itse kääntämiseen.
Kalervo Järvelin
Akatemiaprofessori
Tampereen yliopisto, informaatiotutkimuksen ja interaktiivisen media laitos
Aiemmin ilmestyneitä blogeja