SweCORE

Avainsanat: Internet-kieli

Aineisto on käsin rekisteri (genre) -annotoitu otanta ruotsinkielisestä vapaasta internetistä. Annotointi seuraa Douglas Biberin ja Jesse Egbertin esittelemää rekisteritaksonomiaa (ks. Biber, D., & Egbert, J. (2018). Register Variation Online. Cambridge University Press.), joka käsittää kahdeksan ylärekisteriä ja 33 alarekisteriä, ja jolla pyritään kattamaan koko internetin variaatio.

Annotoidut tekstit on valmiiksi jaettu tiedoistoihin train.tsv, dev.tsv ja test.tsv kansiossa data/SweCORE. TSV-muotoisissa tiedostoissa on annotoinnit riveittäin siten, että ensimmäisessä sarakkeessa on tekstille annettu rekisteri ja toisessa sarakkeessa itse annotoitu teksti. Yhteensä aineistossa on 2 182 annotoitua tekstiä.

Aineiston tiedot

Sisältö
  • kieli: ruotsi
  • aineiston muoto: kirjoitettu kieli
  • tekstilaji: Internet-kieli
  • aineiston koko: 2 182 tekstiä
Annotoinnit
  • rekisteri

Kuhunkin tekstiin on annotoitu 1–2 rekisteriä 

Tekijät
Veronika Laippala 
Jesse Egbert 
Douglas Biber 
Sampo Pyysalo 
Saara Hellström 
Anna Salmela 
Liina Repo 
Samuel Rönnqvist 
Miika Oinonen 
Saatavuus

Yhteyshenkilö

Veronika Laippalamavela *at* utu.fi

Käyttölisenssi

CC BY
Viittaaminen

Viittausohje

Repo, L., Skantsi, V., Rönnqvist, S., Hellström, S., Oinonen, M., Salmela, A., Biber, D., Egbert, J., Pyysalo, S., & Laippala, V. (2021). Beyond the English Web: Zero-Shot Cross-Lingual and Lightweight Monolingual Classification of Registers. EACL 2021 - 16th Conference of the European Chapter of the Association for Computational Linguistics, Proceedings of the Student Research Workshop, 183–191. http://arxiv.org/abs/2102.07396