FinCORE

Avainsana: Internet-kieli

Aineisto on käsin rekisteri (genre) -annotoitu otanta Finnish Internet Parsebankin aineistosta, joka on louhittu vapaasta internetistä. Annotointi seuraa Douglas Biberin ja Jesse Egbertin esittelemää rekisteritaksonomiaa (ks. Biber, D., & Egbert, J. (2018). Register Variation Online. Cambridge University Press.), joka käsittää kahdeksan ylärekisteriä ja 33 alarekisteriä, ja jolla pyritään kattamaan koko internetin variaatio.

Annotoidut tekstit on valmiiksi jaettu tiedoistoihin train.tsv, dev.tsv ja test.tsv kansiossa data. TSV-muotoisissa tiedostoissa on annotoinnit riveittäin siten, että ensimmäisessä sarakkeessa on tekstille annettu rekisteri ja toisessa sarakkeessa itse annotoitu teksti. Yhteensä aineistossa on 2 226 annotoitua tekstiä.

Aineiston tiedot

Sisältö
  • kieli: suomi
  • aineiston muoto: kirjoitettu kieli
  • tekstilaji: Internet-kieli
  • aineiston koko: 2 226 tekstiä
Annotoinnit
  • rekisteri

Kuhunkin tekstiin on käsin annotoitu 1–2 rekisteriä 

Tekijät
Valtteri Skantsi 
Roosa Kyllönen 
Veronika Laippala 
Jesse Egbert 
Douglas Biber 
Sampo Pyysalo 
Saatavuus

Yhteyshenkilöt

Veronika Laippalamavela *at* utu.fi

Käyttölisenssi

CC BY
Viittaaminen

Viittausohje

Laippala, V., Kyllönen, R., Egbert, J., Biber, D., & Pyysalo, S. (2019). Toward Multilingual Identification of Online Registers. Proceedings of the 22nd Nordic Conference on Computational Linguistics, 292–297. https://www.aclweb.org/anthology/W19-6130