MarKo Corpus (Mari texts)

Avainsanat: kirjakieli, lehtitekstit, akateeminen kieli, kansanrunous, kaunokirjallisuus

Niittymarin ja vuorimarin MarKo-korpus on peräisin 1980-luvun lopulta. Eri lähteistä peräisin olevat tekstikatkelmat on kirjoitettu tiedostoihin manuaalisesti.

Korpuksen niittymaria käsittelevä osuus sisältää noin 313 000 sanetta, vuorimaria käsittelevää taas 75 000.

Niittymarinkieliset tekstit on numeroitu numeroilla 1–150 ja vuorimarinkieliset 301–331. Myös tekstien rivit on numeroitu. Tekstin kohtiin viitataan tekstin ja rivin numeroiden yhdistelmällä. Esimerkiksi 33:67 kertoo, että kyseessä on tekstin 33 rivi 67.

Tekstit 77–79 sisältävät esimerkkilauseita niittymarista. Ne on poimittu kolmesta kieliopista: Alhoniemi 1984, Sovremennyy mariyskiy yazyk 1961, Vasikova 1982.

Ota huomioon, että tekstit on ensin kirjoitettu standardista poikkeavalla latinalaisella translitteraatiolla ja myöhemmin automaattisesti muunnettu kyrilliseksi tekstiksi. Joissain tilanteissa korpuksen kyrillinen teksti ei välttämättä täysin vastaa alkuperäistekstiä. Alkuperäinen latinalainen translitterointi on edelleen näkyvissä tekstien nimissä.

Korpus on käytettävissä Finno-Ugric Corpora portal -käyttöliittymän kautta. 

Aineiston tiedot

Sisältö
  • kieli: niittymari, vuorimari
  • aineiston muoto: kirjoitettu kieli
  • tekstilaji: kaunokirjallisuus, lehtitekstit, tieteelliset tekstit, kansanrunous
  • aineiston koko: 388 000 sanetta
Tekijät
Jorma Luutonenkoordinaattori
Saatavuus

Yhteyshenkilöt

Jussi Ylikoskivolgaserver *at* utu.fi