Rekisteriluokiteltu OSCAR
Avainsanat: Internet-kieli
Rekisteriluokiteltu OSCAR (Open Super-large Crawled ALMAnaCH coRpus) on koneellisesti rekistereihin (genreihin) luokiteltu monikielinen otanta vapaasta internetistä. Rekisteriluokittelu seuraa Douglas Biberin ja Jesse Egbertin esittelemää rekisteritaksonomiaa (ks. Biber, D., & Egbert, J. (2018). Register Variation Online. Cambridge University Press.), joka käsittää kahdeksan ylärekisteriä ja 33 alarekisteriä, ja jolla pyritään kattamaan koko internetin variaatio.
Tämä korpus sisältää yhteensä n. 2 Tb dataa. Kielinä arabia, englanti, espanja, ranska, hindi, portugali, swahili, urdu ja kiina. Tiedostot ovat jsonl-tiedostoja muotoa {id: integer, labels: [label, label], text: document}, jossa "id"-avain merkitsee tekstin numerotunnusta, labels sisältää listan luokitelluista rekisteristä ja text luokitellun tekstin.
Lisätietoa OSCARista:
Aineiston tiedot
- kieli: arabia, englanti, espanja, ranska, hindi, portugali, swahili, urdu, kiina
- aineiston muoto: kirjoitettu kieli
- tekstilaji: Internet-kieli
- aineiston koko: n. 2 Tb dataa
- rekisteri
| Veronika Laippala | |
| Sampo Pyysalo | |
| Miika Oinonen | |
| Samuel Rönnqvist |
Saatavilla osoitteessa
Yhteyshenkilöt
| Veronika Laippala | mavela *at* utu.fi |