UTU-Digilang

UTU-Digilang on aineistoinfrastruktuuri, joka kerää yhteen Turun yliopistossa kehitettyjä digitaalisia kieliaineistoja, jotta tutkijat, opiskelijat ja kaikki kielistä kiinnostuneet voisivat perehtyä niihin. Aineistoja on kehitetty kieli- ja käännöstieteiden laitoksessa ja tietotekniikan laitoksessa.

Turun yliopistolla on pitkä historia digitaalisten kieliaineistojen kehittämisessä. UTU-Digilang yhdistää historiallista ja uudempaa kieltä käsitteleviä tekstikorpuksia ja äänitteitä uusiin teknologioihin, kuten kirjoittamisprosesseja taltioiviin aineistoihin ja Internet-kieltä kuvaaviin tekstikorpuksiin. Eri oppiaineissa tuotettujen aineistojen kokoaminen yhdelle sivulle kertoo Turun yliopiston kielentutkimuksen laajuudesta ja tarjoaa uusia näkökulmia tutkimukseen. 

UTU-Digilangin aineistot

Alla oleva taulukko esittelee UTU-Digilangin aineistoja. Lisätietoja aineistoista saa niiden omilta sivuilta, joihin pääsee aineistojen nimien linkeistä. Linkit aukeavat uusissa välilehdissä. 

Jos haluat keräämäsi aineiston mukaan UTU-Digilangiin, täytä Webropol-lomake.

NimiLyhenneKieliAvainsanatSisältö
Agricolan 1548 Biblian referatiivirakenteet ja vastaavat että-lauseet ja niiden vastineet myöhemmissä käännöksissä  suomikirjakieli, vanha kirjasuomikirjoitettu kieli
Akateemisen suomen korpus - pro gradutLAS1suomiakateeminen kielikirjoitettu kieli
Diachronic Corpus of Literary Meadow Mari niittymarikirjakieli, lehtitekstitkirjoitettu kieli
Diachronic Corpus of Literary Mordvin ersä, mokšakirjakieli, lehtitekstitkirjoitettu kieli
Edistyneiden suomenoppijoiden korpusLAS2suomiakateeminen kieli, pitkittäiskorpuskirjoitettu kieli
Electronic Word Lists: Mari, Mordvin, Udmurt, Komi, Chuvash, Tatar mari, mokša, udkmurtti, komi, tšuvassi, tataarisanalistatsanalistat
Eläinhahmot ja pronominit käännetyissä ja ei-käännetyissä suomenkielisissä lasten kuvakirjoissa -tietokanta  suomikirjakieli, kaunokirjallisuuskirjoitettu kieli, numeerinen data
FinCOREFinCOREsuomiInternet-kielikirjoitettu kieli
'Finland - Past and Present' Corpus (parallel texts) suomi, venäjä, ersä, mokša, niittymari, udmurtti, komirinnakkaiskorpuskirjoitettu kieli
Finnish Internet Parsebank suomiInternet-kielikirjoitettu kieli
FreCOREFreCOREranskaInternet-kielikirjoitettu kieli
Lauseopin arkiston murrekorpus suomimurteetäänitteet, litteraatit
LOG: Post-editing Finnish suomikatseenseuranta, näppäilyntallennus, konekäännös, jälkieditointi, TransLoglokitiedostot
LOG: Writing English englantinäppäilyntallennus, ScriptLogkirjoitettu kieli, lokitiedostot
LOG: Writing Finnish suominäppäilyntallennus, ScriptLogkirjoitettu kieli, lokitiedostot
LOG: Writing French ranskaGenoGraphiX, näppäilyntallennus, visualisointi, ScriptLoglokitiedostot
LOG: Writing German saksanäppäilyntallennus, ScriptLogkirjoitettu kieli, lokitiedostot
LOG: Writing Swedish ruotsinäppäilyntallennus, ScriptLogkirjoitettu kieli, lokitiedostot
MarKo Corpus (Mari texts)MarKoniittymari, vuorimarikirjakieli, lehtitekstit, akateeminen kieli, kansanrunous, kaunokirjallisuuskirjoitettu kieli
Mikael Agricolan teosten morfosyntaktinen tietokanta suomivanha kirjasuomikirjoitettu kieli
MokshEr CorpusMokshErersä, mokšakirjakieli, lehtitekstit, kaunokirjallisuuskirjoitettu kieli
Monikielisten kirjoittajien kirjoitusprosessit: sanastokeskittymien ja sujuvuuden visualisointi graafiteorian avullaKISUVIsuomi, englanti, ranska, saksa, ruotsi, (muutamassa tekstissä espanja, viro, japani)näppäilyntallennus, oppijan kieli, yliopistotaso, jälkikäteishaastattelukirjoitettu kieli, videot, litteraatit
Mormula: Grammatically Annotated Mordvin TextsMormulaersä, mokšakirjakieli, murteetkirjoitettu kieli
Namibialaisten opettajien käsitykset ja käytänteet englanti äänitteet, litteraatit
Rekisteriluokiteltu OSCAR arabia, englanti, espanja, ranska, hindi, portugali, swahili, urdu, kiinaInternet-kielikirjoitettu kieli
Satakuntalaisuus puheessaSapusuomimurteet, puhekieliäänitteet, litteraatit
Suomen kielen prosodian alueellisen ja sosiaalisen variaation korpusProsovarsuomimurteet, elisitoidut äänitystehtävät, prosodia, puhekieliäänitteet
Suomenkielisten arkikeskustelujen morfosyntaktinen tietokantaArkisynsuomiarkikeskustelu, puhekieliäänitteet, litteraatit
SweCORESweCOREruotsiInternet-kielikirjoitettu kieli
Turku Chuvash CorpusTuChCtšuvassikirjakieli, lehtitekstit, akateeminen kieli, kaunokirjallisuuskirjoitettu kieli
Turku Izhevsk Corpus udmurttikirjakieli, lehtitekstitkirjoitettu kieli
Turku Komi-Permyak CorpusTuKPCkomipermjakkikirjakieli, lehtitekstit, kaunokirjallisuus, akateeminen kielikirjoitettu kieli
Turku Onchyko Corpus niittymarikaunokirjallisuus, lehtitekstit, akateeminen kielikirjoitettu kieli
Turku 'Pavlik Morozov' Corpus venäjä, suomi, ersä, mokša, niittymari, vuorimari, udmurtti, komipermjakki, komi, hanti, mansi, unkari, tšuvassi, tataaririnnakkaiskorpus, kaunokirjallisuuskirjoitettu kieli
Turku Tatar CorpusTuTaCtataarikaunokirjallisuus, lehtitekstitkirjoitettu kieli
TY:n suomen kielen äänitearkisto: B-nauhastoTYSKÄsuomi äänitteet
TY:n suomen kielen äänitearkisto: murrenauhasto (A-nauhasto)TYSKÄsuomimurteetäänitteet
TY:N suomen kielen äänitearkisto: Turun puhekielen aineisto (C-nauhasto)TYSKÄsuomimurteet, puhekieliäänitteet, litteraatit
Uralilainen typologinen atlasUraTypuralilaiset kieletkielitypologia, kieltenvälinen vertailutypologinen kysymyslista, numeerinen data
Uusi versio Lauri Kettusen Suomen murrekartastosta Kettusen murrekartastosuomimurteet, puhekieli, puhuma-alueetpaikkatieto, pitäjäkohtainen tieto kielivarianteista, puhuma-alueiden koordinaatit ja polygonit