Rekisteriluokiteltu OSCAR

Avainsanat: Internet-kieli

Rekisteriluokiteltu OSCAR (Open Super-large Crawled ALMAnaCH coRpus) on koneellisesti rekistereihin (genreihin) luokiteltu monikielinen otanta vapaasta internetistä. Rekisteriluokittelu seuraa Douglas Biberin ja Jesse Egbertin esittelemää rekisteritaksonomiaa (ks. Biber, D., & Egbert, J. (2018). Register Variation Online. Cambridge University Press.), joka käsittää kahdeksan ylärekisteriä ja 33 alarekisteriä, ja jolla pyritään kattamaan koko internetin variaatio.

Tämä korpus sisältää yhteensä n. 2 Tb dataa. Kielinä arabia, englanti, espanja, ranska, hindi, portugali, swahili, urdu ja kiina. Tiedostot ovat jsonl-tiedostoja muotoa {id: integer, labels: [label, label], text: document}, jossa "id"-avain merkitsee tekstin numerotunnusta, labels sisältää listan luokitelluista rekisteristä ja text luokitellun tekstin.

Lisätietoa OSCARista:

https://huggingface.co/datasets/oscar

Aineiston tiedot

Sisältö
  • kieli: arabia, englanti, espanja, ranska, hindi, portugali, swahili, urdu, kiina
  • aineiston muoto: kirjoitettu kieli
  • tekstilaji: Internet-kieli
  • aineiston koko: n. 2 Tb dataa
Annotoinnit
  • rekisteri 
Tekijät
Veronika Laippala 
Sampo Pyysalo 
Miika Oinonen 
Samuel Rönnqvist 
Saatavuus

Yhteyshenkilöt

Veronika Laippalamavela *at* utu.fi