FinCORE
Avainsana: Internet-kieli
Aineisto on käsin rekisteri (genre) -annotoitu otanta Finnish Internet Parsebankin aineistosta, joka on louhittu vapaasta internetistä. Annotointi seuraa Douglas Biberin ja Jesse Egbertin esittelemää rekisteritaksonomiaa (ks. Biber, D., & Egbert, J. (2018). Register Variation Online. Cambridge University Press.), joka käsittää kahdeksan ylärekisteriä ja 33 alarekisteriä, ja jolla pyritään kattamaan koko internetin variaatio.
Annotoidut tekstit on valmiiksi jaettu tiedoistoihin train.tsv, dev.tsv ja test.tsv kansiossa data. TSV-muotoisissa tiedostoissa on annotoinnit riveittäin siten, että ensimmäisessä sarakkeessa on tekstille annettu rekisteri ja toisessa sarakkeessa itse annotoitu teksti. Yhteensä aineistossa on 2 226 annotoitua tekstiä.
Aineiston tiedot
- kieli: suomi
- aineiston muoto: kirjoitettu kieli
- tekstilaji: Internet-kieli
- aineiston koko: 2 226 tekstiä
- rekisteri
Kuhunkin tekstiin on käsin annotoitu 1–2 rekisteriä
| Valtteri Skantsi | |
| Roosa Kyllönen | |
| Veronika Laippala | |
| Jesse Egbert | |
| Douglas Biber | |
| Sampo Pyysalo |
Saatavilla osoitteessa
Yhteyshenkilöt
| Veronika Laippala | mavela *at* utu.fi |