Edistyneiden suomenoppijoiden korpus
Avainsanat: akateeminen kieli, pitkittäiskorpus
LAS2 sisältää suomea toisena kielenään käyttävien informanttien kirjoittamia akateemisia tekstejä. Korpus jakautuu edelleen kolmeen alakorpukseen: 1) tenttivastaukset, 2) pro gradu -tutkielmat ja 3) esseet ja muut tekstit. Kaikki informantit ovat aineiston keruun aikaan asuneet ja opiskelleet Suomessa, ja aineistoa on mahdollisuuksien mukaan kerätty opintojen edetessä pitkittäistutkimuksen mahdollistamiseksi. Kullekin alakorpukselle on niin ikään koottu suomea ensikielenä käyttävien informanttien vertailukorpus.
Korpuksen tarkempi kuvaus: Ivaska, Ilmari. 2014. The Corpus of Advanced Learner Finnish (LAS2): Database and toolkit to study academic learner Finnish. Apples – Journal of Applied Language Studies 8(3). 21–38. http://apples.jyu.fi/article/abstract/317
Aineiston tiedot
- kieli: suomi
- aineiston muoto: kirjoitettu kieli
- tekstilaji: opinnäytteet, tieteelliset tekstit
- aineiston koko: 400 tekstiä
- aineiston aikajänne: 2007–2019
- lemmatisaatio
- sanaluokka
- morfologia
- syntaksi
Morfologisessa annotoinnissa on käytetty Lauseopin arkiston morfologista tagsettiä ja sanaluokkien annotoinnissa Lauseopin arkiston POS-tagsettiä. Syntaktisessa annotaatiossa on käytetty Lauseopin arkiston syntaktisten funktioiden tagsettiä. Aineistoon ei ole annotoitu dependenssijäsennystä.
| Ilmari Ivaska | perustaja ja hankkeen vastuullinen johtaja |
Saatavilla osoitteessa
Yhteyshenkilö
| Ilmari Ivaska | itivas *at* utu.fi |