Tietokone oppii suomea esimerkeistä (Väitös: FM Katri Haverinen, 4.9.2014, tietojenkäsittelytiede)

28.08.2014

Kieliteknologiamenetelmien kehittäminen suomen kielelle on ollut ongelmallista vapaasti saatavilla olevien resurssien puutteen vuoksi. Tähän ongelmaan tarttuu Katri Haverisen Turun yliopistossa tarkastettava väitöskirjatutkimus, jossa kehitettyjen aineistojen avulla voidaan analysoida automaattisesti sekä yleissuomea että potilasasiakirjojen kieltä.

 

​Turun yliopiston tiedote 28.8.2014

Maailma on pullollaan kielellisessä muodossa olevaa tietoa: arkikeskusteluja, lehtiartikkeleita, blogikirjoituksia, ruokaohjeita, lakitekstejä. Tätä tekstitulvaa pyrkii hallitsemaan tutkimusala nimeltään luonnollisen kielen käsittely tai kieliteknologia.

– Monet alan sovelluksista ovat tuttuja jokapäiväisestä elämästä: esimerkiksi oikolukuohjelmat, internetin hakukoneet ja konekäännösohjelmat ovat kaikki kieliteknologiaa, Turun yliopistossa väittelevä Katri Haverinen havainnollistaa.

Monien kieliteknologiamenetelmien kehittäminen vaatii laajaa, ihmistyönä tehdyillä merkinnöillä varustettua tekstikokoelmaa, joten sellainen on erikseen kehitettävä jokaiselle kielelle, jota halutaan käsitellä. Haverisen väitöskirja tarttuu suomenkielisten kieliteknologiaresurssien puutteeseen ja esittää ratkaisuksi kaksi suomenkielistä tekstikokoelmaa, joissa molemmissa on merkinnät sekä syntaksille että semantiikalle.

Tietokoneen oppimateriaaleina yleissuomea ja potilasasiakirjoja

Monet nykyaikaiset kieliteknologiamenetelmät käyttävät hyödykseen merkinnöillä varustettuja korpuksia eli elektronisia tekstikokoelmia, joihin on merkitty esimerkiksi sanojen sanaluokat tai virkkeiden kieliopillinen rakenne.

– Korpuksia käyttävien menetelmien on mahdollista annettujen esimerkkien perusteella oppia analysoimaan ennen näkemätöntä tekstiä: siis esimerkiksi antamaan uudelle sanalle sen todennäköisin sanaluokka tai uudelle virkkeelle syntaktinen rakenne, Haverinen kertoo.

Toinen väitösprojektissa kehitetyistä tekstikorpuksista sisältää yleissuomea useista eri lähteistä ja toinen tehosairaanhoidon potilasraporteissa käytettyä kieltä.

– Jotta kieliteknologiamenetelmän antama tulos olisi mahdollisimman hyvä, käytetyn tekstikorpuksen kannattaa muistuttaa mahdollisimman paljon sitä kieltä, jota halutaan analysoida. Näin voidaan nyt analysoida sekä yleisesti esiintyvää suomen kieltä että siitä huomattavasti poikkeavaa potilasasiakirjojen kieltä.

Lisäksi tehohoidon suomen korpuksen kehittämisprojekti toimi samalla pilottiprojektina laajemmalle yleissuomea koskevalle projektille.

Väitöskirjaprojekti herättänyt myös kansainvälistä kiinnostusta

Väitöskirjaprojekti on jo nyt poikinut lisää suomen kielen kieliteknologiaa käsittelevää tutkimusta ja menetelmiä suomelle. Yleissuomen korpusta on käytetty muun muassa jäsentämisen ja konekääntämisen tutkimuksessa, ja kansainvälinen kieliteknologian tutkimusyhteisö on kiinnittänyt huomiota suomen kielen jäsentämisen tutkimiseen. Myös hakukoneyhtiö Google on osoittanut kiinnostusta tutkimuksessa kehitettyihin resursseihin.

Tällä hetkellä Turun yliopiston kieliteknologiaryhmässä on työn alla Haverisen väitöskirjaprojektia suoraan hyödyntävä jatkoprojekti: erittäin laaja, automaattisesti analysoitu tekstiaineisto, joka on herättänyt innostusta sekä kieliteknologeissa että kielentutkijoissa.

Molemmat tekstikokoelmat ja niihin liittyvät merkinnät ovat saatavilla ilmaiseksi ja vapaalla lisenssillä ryhmän kotisivuilla osoitteessa http://bionlp.utu.fi/  

– Näin alan tutkijoiden työ helpottuu, suomen kieli saa tarvitsemaansa kansainvälisen yhteisön huomiota, ja periaatteessa kuka tahansa voi tutkimuksen konkreettisia tuloksia hyödyntäen kehittää oman kieliteknologiasovelluksensa, Haverinen summaa.

***

Torstaina 4. syyskuuta 2014 kello 12 esitetään Turun yliopistossa (ICT-talo, sali Beta, Joukahaisenkatu 3–5) julkisesti tarkastettavaksi filosofian maisteri Katri Haverisen väitöskirja ”Natural Language Processing Resources for Finnish: Corpus Development in the General and Clinical Domains” (Yleisen ja kliinisen suomen kielen resursseja luonnollisen kielen käsittelyä varten). Virallisena vastaväittäjänä toimii filosofian tohtori Anna Korhonen Cambridgen yliopistosta ja kustoksena professori Tapio Salakoski.

FM Katri Haverinen on syntynyt 1983 Turussa. Filosofian maisteriksi hän valmistui 2009 Turun yliopistosta. Väitös kuuluu tietojenkäsittelytieteen alaan.

Luotu 28.08.2014 | Muokattu 23.07.2021