Oppijansuomen korpuksen kieliopillinen ja virheannotointi

Jarmo Harri Jantunen
Jyväskylän yliopisto
jarmo.jantunen _arvaa_ jyu.fi

Sisko Brunni, Liisa-Maria Lehto
Oulun yliopisto

Esittelemme posterissamme Kansainvälisen oppijansuomen korpuksen (ICLFI) annotointiprosesseja ja annotoinnin ongelmia. ICLFI on suomea vieraana kielenä -opiskelijoiden tuottamien tekstien sähköinen, runsaan miljoonan saneen tekstiaineisto. Oppijankielikorpusten taksonomian (Jantunen 2011) mukaan aineisto on mm. moniäidinkielinen ja monitekstilajinen. Siihen on kerätty yhteensä 22 taustamuuttujaa tekstintuottajasta, oppimiskontekstista ja itse tekstistä. Korpuksesta on annotoitu kieliopillisesti noin 40 %. Virheannotoinnin periaatteiden suunnittelu on aloitettu tammikuussa 2013. Sekä kieliopillinen että virheannotointi on haastavaa kielivariantin luonteen vuoksi: aineisto sisältää ei-norminmukaista kieltä, joka ei noudata oikeinkirjoitukseltaan, taivutukseltaan ja syntaktisilta suhteiltaan kohdekielen kaltaista ilmaisua. Posterissamme tarkastelemme joitakin menetelmällisiä keinoja näiden ongelmien ratkaisemiseksi.

Sähköisen oppijankielen korpuksen käytettävyyttä voidaan parantaa lisäämällä siihen erilaisia (puoli)automaattisia annotointeja, jolloin aineistosta saadaan huomattavasti enemmän informaatiota kuin raakatekstistä (Granger 2007). Ongelmana on kuitenkin se, että täysin automaattinen annotointi ei tavoita kaikkia morfologisia ja morfosyntaktisia muotoja, joita oppijat tuottavat (Dagneaux et al. 1998). Myöskään virheannotointi ei voi olla automatisoitua, mutta hitaan annotoinnin tuomat edut ovat kuitenkin suuret: virheiden systemaattinen merkitseminen oppijankielen aineistoon mahdollistaa virheiden tilastollisen ja automatisoidun analyysin (ks. esim. Granger 2003). Virheannotointi edellyttää johdonmukaista ja systemaattista virheiden merkitsemistä (Granger 2003), ja lisäksi annotointisysteemin tulisi olla mahdollisimman informatiivinen, monikäyttöinen ja yksityiskohtainen (ks. Díaz-Negrillo & Fernandez-Domínguez 2006; Granger 2003).

 

Lähteet:

Dagneaux, E., Denness, S. & Granger, S. 1998. Computer-aided error analysis. System 26, 163–187.

Díaz-Negrillo, A. & Fernández-Domínguez, J. 2006. Error tagging systems for learner corpora. RESLA 19, 83–102.

Granger, S. 2003. Error-tagged Learner Corpora and CALL: A Promising Synergy. CALICO Journal 20, 465–480.

Granger, S. 2007. A Bird’s-eye View of Learner Corpus Research. Teoksessa W. Teubert & R. Krishnamurthy (toim.) Corpus Linguistics. Critical Consepts in Linguistics. London & New York: Routledge, 44-72.

Jantunen, J. H. 2011. Kansainvälinen oppijansuomen korpus (ICLFI): typologia, taustamuuttujat ja annotointi. Lähivõrdlusi. Lähivertailuja 21, 86–105.

Asiasana:
Tagit:

20014 Turun yliopisto, Finland
Puhelinvaihde: 029 450 5000

Henkilöhaku

Seuraa meitä: 
Facebook   Twitter   Instagram   Youtube   LinkedIn
Opiskelu Tutkimus Palvelut ja yhteistyö Yliopisto Tiedekunnat ja yksiköt Ajankohtaista Lahjoita
© Turun yliopisto