Turku Chuvash Corpus (TuChC)

Avainsanat: kirjakieli, lehtitekstit, akateeminen kieli, kaunokirjallisuus

Turku Chuvash Corpus v1.1 on kokoelma eri genrejä edustavia tšuvassinkielisiä tekstejä. Korpus sisältää 219 tekstiä eli noin 1 237 000 sanetta.

Tekstien genrejakauma ja saneiden määrä genreittäin on seuraava:

  • kaunokirjallisuus: 45 tekstiä, n. 295 000 sanetta
  • runous: 14 tekstiä, n. 13 000 sanetta
  • käännökset: 4 tekstiä, n. 3 000 sanetta
  • lehtitekstit: 78 tekstiä, n. 157 000 sanetta
  • akateemiset tekstit: 44 tekstiä, n. 560 000 sanetta
  • Raamattu: 31 tekstiä, n. 209 000 sanetta
  • muu: 3 tekstiä, n. 500 sanetta

Jorma Luutonen ja Eduard Fomin keräsivät tekstit vuosien 2003 ja 2009 välillä.

Korpus on käytettävissä Finno-Ugric Corpora portal -käyttöliittymän kautta. 

Aineiston tiedot

Sisältö
  • kieli: tšuvassi
  • aineiston muoto: kirjoitettu kieli
  • tekstilaji: kaunokirjallisuus, lehtitekstit, lyriikka, tieteelliset tekstit, uskonnolliset tekstit
  • aineiston koko: 219 tekstiä, noin 1 237 000 sanetta
Tekijät
Jorma Luutonenkoordinaattori
Eduard Fomin 
Saatavuus

Yhteyshenkilöt

Jussi Ylikoskivolgaserver *at* utu.fi