in English
 
 
Tutkimusmateriaalit ja niiden käyttö

Koodaamattomat tekstit

Tutkimusyksikön tavoitteena on kerätä kaikista tutkimusyksikön kohdekielistä vähintään miljoonan sanan laajuinen tekstiaineisto. Tähän mennessä laajoja aineistoja on kerätty udmurtista, komipermjakista, marista, mordvasta, tshuvassista ja tataarista. Osa näistä teksteistä on käytettävissä myös Internetin kautta. Koska teksteihin ei ole liitetty morfosyntaktista koodausta, niistä voi tehdä vain merkkijonohakuja.

Kieliopillisesti koodatut tekstit

Toistaiseksi ainoa koodattu korpus sisältää ersää ja mokshaa. Korpuksen laajuus on n. 240 000 sanaa, ja se käsittää sekä kansanrunoutta että kirjakielisiä tekstejä. Jokaiseen sanaan on liitetty tiedot sanan sanaluokasta ja taivutuksesta. Käyttäjä voi siis esimerkiksi pyytää kaikki aineistossa esiintyvät monikon inessiivit.

Paralleelitekstit

Kielten morfosyntaktista ja semanttista vertailua helpottamaan on laadittu paralleelitekstikorpuksia. Ne sisältävät saman tekstin monella eri kielellä, ja toisiaan vastaavat virkkeet on numeroitu, joten käyttäjä näkee helposti, miten sama asia on ilmaistu eri kielissä. Paralleeliteksteistä voi tietenkin tehdä myös merkkijonohakuja.

Kirjakielen historian korpukset

Kirjakielen historian korpukset sisältävät sanoma- ja aikakauslehtitekstejä, joita on kerätty eri vuosikymmeniltä koko kirjakielen historian ajalta. Eri-ikäisiä tekstejä vertailemalla saadaan kuva kirjakielen muutostendensseistä. Mordvan kirjakielten historian korpus on jo valmistunut, ja marin vastaava aineisto on valmistumassa.

Sanaluettelot

Tutkimusyksikkö pyrkii saamaan jokaisesta Volgan-Kaman alueen kielestä tutkijoiden käyttöön laajan sähköisen sanaluettelon, jota voidaan käyttää erityisesti sananmuodostuksen tutkimiseen. Koska eri kielten sanalistat on laadittu saman mallin mukaan ja ovat käsiteltävissä yhtä aikaa saman käyttöliittymäohjelmiston avulla, ne mahdollistavat kielten sanaston rakenteen vertailun. Kymmenien tuhansien sanojen sanalistoja on jo laadittu marista, mordvasta, udmurtista, komista, tshuvassista ja tataarista. Sanalistoissa on kunkin sanan kohdalla ilmoitettu sen edustama kielimuoto (esim. ersä tai moksha), sanaluokka ja lähdeteos, josta se on poimittu. Sanalistoissa ei ole tietoja sanojen merkityksestä.

Hakuohjelmat

Useimpia korpustyyppejä varten on laadittu erityiset hakuohjelmat, joiden avulla käyttäjä helposti löytää häntä kiinnostavat kielenainekset. Ohjelmat ovat käytettävissä tutkimusyksikön tiloissa Turussa. Eräitä koodaamattomia tekstiaineistoja voidaan kuitenkin käyttää Internetin kautta. Sanalistojen käsittelyohjelma sisältyy Suomalais-Ugrilaisen Seuran julkaisuun Electronic Word Lists: Mari, Mordvin and Udmurt (2007).

Käyttöoikeus

Tutkimusaineistot ovat maksutta suomalais-ugrilaisen kielentutkimuksen henkilökunnan ja opiskelijoiden sekä oppiaineen tai tutkimusyksikön kanssa yhteistyötä tekevien tutkijoiden käytettävissä. Aineistojen käyttöoikeus myönnetään selvästi määriteltyä tutkimushanketta varten. Tutkimusaineistojen käytöstä kiinnostuneita neuvotaan ottamaan yhteys tutkija Jorma Luutoseen (luutonen_at_utu.fi).

Asiasana:
Tagit: