Turku Tatar Corpus (TuTaC)
Avainsanat: kaunokirjallisuus, lehtitekstit
Turku Tatar Corpus v1.0 sisältää kokoelman tataarinkielisiä tekstejä, jotka on kerätty Internetistä ja koostettu korpukseksi elokuussa 2009. Korpus on käytettävissä Finno-Ugric Corpora portal -käyttöliittymän kautta.
Tekstit on kopioitu kahdelta verkkosivulta, Tatar Electronic Library (Татарская электронная библиотека, http://kitap.net.ru/) ja All Tatar Press page (Matbugat.ru, Бөтен татар матбугаты, http://www.matbugat.ru/). Ensimmäinen sivu ei ole enää saatavilla.
Projektin käynnistäjä oli Jorma Luutonen, ja tekstit keräsi ja muokkasi Annika Setälä. Korpuksen kerääjät haluavat myös kiittää Mansur Saykhunovia hänen avustaan.
Korpuksen sisältö
Korpus sisältää 713 tekstitiedostoa, jotka sisältävät yhteensä noin 1 700 000 sanetta. Tekstien koko vaihtelee kokonaisista kirjoista lyhyisiin artikkeleihin.
Suurin osa Tatar Electronic Libraryn materiaaleista on kaunokirjallisuutta (245 tekstiä, n. 1 161 000 sanaa). Lisäksi ne sisältävät 65 runoteosta (136 000 sanaa) ja 11 akateemista tekstiä (63 000).
All Tatar Pressin tekstit edustavat seuraavia aiheita: onnettomuudet, neuvot, autot, maaseutu, rikokset, kulttuuri, ekologia, talous, koulutus, kohtalo, juhlat, ruoka, huumori, internet, kirjeet, lääketiede, ihmeet, kansa, politiikka, journalismi, ihmissuhteet, uskonto, showbisnes, yhteiskunta ja urheilu. Tekstien määrä kategorioissa vaihtelee 5:stä (ekologia) 24:ään (kulttuuri).
Aineiston tiedot
- kieli: tataari
- aineiston muoto: kirjoitettu kieli
- tekstilaji: kaunokirjallisuus, lehtitekstit, lyriikka
- aineiston koko: 713 tekstiä, n. 1 700 000 sanetta
| Jorma Luutonen | koordinaattori |
Saatavilla osoitteessa
Yhteyshenkilö
| Jussi Ylikoski | volgaserver *at* utu.fi |
Viittausohje
Viittauksen korpukseen tulisi sisältää seuraavat osat:
- korpuksen nimi: Turku Tatar Corpus (TuTaC)
- tekstin nimi tai lyhenne
- viittauskohteen rivinumero tekstissä
Korpuksen tekstien nimille ei ole ennalta määrättyjä lyhenteitä. Voit muodostaa lyhenteet itse.
Jos käytät korpusta Finno-Ugric Corpora portal -käyttöliittymän kautta, tietoa teksteistä on saatavilla seuraavalla tavalla. Tehtyäsi tiedustelun paina tekstin tunnistetta (esim. A6) sarakkeessa "Text". Näin näet tekstin nimen. Joistakin teksteistä on saatavilla myös lisätietoa.
All Tatar Pagen tekstien nimet sisältävät yleensä myös alkuperäisen julkaisun nimen. Tatar Electronic Libraryn tekstit eivät yleensä sisällä lisätietoa alkuperäisestä julkaisusta tai julkaisupäivässä.
Korpuksen tekstitiedostojen alkuperäiset rivinumerot ovat nähtävillä tiedustelun tuloksissa muodossa "8:", "9:" jne. Niiden avulla voit tarkentaa sijaintia tietyssä tekstissä.