FreCORE
Avainsanat: Internet-kieli
Aineisto on käsin rekisteri (genre) -annotoitu otanta ranskankielisestä vapaasta internetistä. Annotointi seuraa Douglas Biberin ja Jesse Egbertin esittelemää rekisteritaksonomiaa (ks. Biber, D., & Egbert, J. (2018). Register Variation Online. Cambridge University Press.), joka käsittää kahdeksan ylärekisteriä ja 33 alarekisteriä, ja jolla pyritään kattamaan koko internetin variaatio.
Annotoidut tekstit on valmiiksi jaettu tiedoistoihin train.tsv, dev.tsv ja test.tsv kansiossa data/FreCORE. TSV-muotoisissa tiedostoissa on annotoinnit riveittäin siten, että ensimmäisessä sarakkeessa on tekstille annettu rekisteri ja toisessa sarakkeessa itse annotoitu teksti. Yhteensä aineistossa on 1 818 annotoitua tekstiä.
Aineiston tiedot
- kieli: ranska
- aineiston muoto: kirjoitettu kieli
- tekstilaji: Internet-kieli
- aineiston koko: 1 818 tekstiä
rekisteri
Kuhunkin tekstiin on annotoitu 1–2 rekisteriä
| Veronika Laippala | |
| Jesse Egbert | |
| Douglas Biber | |
| Sampo Pyysalo | |
| Saara Hellström | |
| Anna Salmela | |
| Liina Repo | |
| Samuel Rönnqvist | |
| Miika Oinonen |
Saatavilla osoitteessa
Yhteyshenkilöt
| Veronika Laippala | mavela *at* utu.fi |