UTU-Digilang
Digitaaliset kieliaineistot ja kieliteknologian työkalut
UTU-Digilangissa yhdistyvät Turun yliopiston pitkät perinteet digitaalisten kieliaineistojen kehittämisessä ja ylläpitämisessä sekä uudet teknologiat ja huippuluokan kieliteknologiaresurssit.
UTU-Digilang on aineistoinfrastruktuuri, joka kerää yhteen Turun yliopistossa kehitettyjä digitaalisia kieliaineistoja, jotta tutkijat, opiskelijat ja kaikki kielistä kiinnostuneet voisivat perehtyä niihin. Aineistoja on kehitetty kieli- ja käännöstieteiden laitoksessa ja tietotekniikan laitoksessa.
Turun yliopistolla on pitkä historia digitaalisten kieliaineistojen kehittämisessä. UTU-Digilang yhdistää historiallista ja uudempaa kieltä käsitteleviä tekstikorpuksia ja äänitteitä uusiin teknologioihin, kuten kirjoittamisprosesseja taltioiviin aineistoihin ja Internet-kieltä kuvaaviin tekstikorpuksiin. Eri oppiaineissa tuotettujen aineistojen kokoaminen yhdelle sivulle kertoo Turun yliopiston kielentutkimuksen laajuudesta ja tarjoaa uusia näkökulmia tutkimukseen.
UTU-Digilangin aineistot
Alla oleva taulukko esittelee UTU-Digilangin aineistoja. Lisätietoja aineistoista saa niiden omilta sivuilta, joihin pääsee aineistojen nimien linkeistä. Linkit aukeavat uusissa välilehdissä.
Jos haluat keräämäsi aineiston mukaan UTU-Digilangiin, täytä Webropol-lomake.
| Nimi | Lyhenne | Kieli | Avainsanat | Sisältö |
| Agricolan 1548 Biblian referatiivirakenteet ja vastaavat että-lauseet ja niiden vastineet myöhemmissä käännöksissä | suomi | kirjakieli, vanha kirjasuomi | kirjoitettu kieli | |
| Akateemisen suomen korpus - pro gradut | LAS1 | suomi | akateeminen kieli | kirjoitettu kieli |
| Diachronic Corpus of Literary Meadow Mari | niittymari | kirjakieli, lehtitekstit | kirjoitettu kieli | |
| Diachronic Corpus of Literary Mordvin | ersä, mokša | kirjakieli, lehtitekstit | kirjoitettu kieli | |
| Edistyneiden suomenoppijoiden korpus | LAS2 | suomi | akateeminen kieli, pitkittäiskorpus | kirjoitettu kieli |
| Electronic Word Lists: Mari, Mordvin, Udmurt, Komi, Chuvash, Tatar | mari, mokša, udkmurtti, komi, tšuvassi, tataari | sanalistat | sanalistat | |
| Eläinhahmot ja pronominit käännetyissä ja ei-käännetyissä suomenkielisissä lasten kuvakirjoissa -tietokanta | suomi | kirjakieli, kaunokirjallisuus | kirjoitettu kieli, numeerinen data | |
| FinCORE | FinCORE | suomi | Internet-kieli | kirjoitettu kieli |
| 'Finland - Past and Present' Corpus (parallel texts) | suomi, venäjä, ersä, mokša, niittymari, udmurtti, komi | rinnakkaiskorpus | kirjoitettu kieli | |
| Finnish Internet Parsebank | suomi | Internet-kieli | kirjoitettu kieli | |
| FreCORE | FreCORE | ranska | Internet-kieli | kirjoitettu kieli |
| Lauseopin arkiston murrekorpus | suomi | murteet | äänitteet, litteraatit | |
| LOG: Post-editing Finnish | suomi | katseenseuranta, näppäilyntallennus, konekäännös, jälkieditointi, TransLog | lokitiedostot | |
| LOG: Writing English | englanti | näppäilyntallennus, ScriptLog | kirjoitettu kieli, lokitiedostot | |
| LOG: Writing Finnish | suomi | näppäilyntallennus, ScriptLog | kirjoitettu kieli, lokitiedostot | |
| LOG: Writing French | ranska | GenoGraphiX, näppäilyntallennus, visualisointi, ScriptLog | lokitiedostot | |
| LOG: Writing German | saksa | näppäilyntallennus, ScriptLog | kirjoitettu kieli, lokitiedostot | |
| LOG: Writing Swedish | ruotsi | näppäilyntallennus, ScriptLog | kirjoitettu kieli, lokitiedostot | |
| MarKo Corpus (Mari texts) | MarKo | niittymari, vuorimari | kirjakieli, lehtitekstit, akateeminen kieli, kansanrunous, kaunokirjallisuus | kirjoitettu kieli |
| Mikael Agricolan teosten morfosyntaktinen tietokanta | suomi | vanha kirjasuomi | kirjoitettu kieli | |
| MokshEr Corpus | MokshEr | ersä, mokša | kirjakieli, lehtitekstit, kaunokirjallisuus | kirjoitettu kieli |
| Monikielisten kirjoittajien kirjoitusprosessit: sanastokeskittymien ja sujuvuuden visualisointi graafiteorian avulla | KISUVI | suomi, englanti, ranska, saksa, ruotsi, (muutamassa tekstissä espanja, viro, japani) | näppäilyntallennus, oppijan kieli, yliopistotaso, jälkikäteishaastattelu | kirjoitettu kieli, videot, litteraatit |
| Mormula: Grammatically Annotated Mordvin Texts | Mormula | ersä, mokša | kirjakieli, murteet | kirjoitettu kieli |
| Namibialaisten opettajien käsitykset ja käytänteet | englanti | äänitteet, litteraatit | ||
| Rekisteriluokiteltu OSCAR | arabia, englanti, espanja, ranska, hindi, portugali, swahili, urdu, kiina | Internet-kieli | kirjoitettu kieli | |
| Satakuntalaisuus puheessa | Sapu | suomi | murteet, puhekieli | äänitteet, litteraatit |
| Suomen kielen prosodian alueellisen ja sosiaalisen variaation korpus | Prosovar | suomi | murteet, elisitoidut äänitystehtävät, prosodia, puhekieli | äänitteet |
| Suomenkielisten arkikeskustelujen morfosyntaktinen tietokanta | Arkisyn | suomi | arkikeskustelu, puhekieli | äänitteet, litteraatit |
| SweCORE | SweCORE | ruotsi | Internet-kieli | kirjoitettu kieli |
| Turku Chuvash Corpus | TuChC | tšuvassi | kirjakieli, lehtitekstit, akateeminen kieli, kaunokirjallisuus | kirjoitettu kieli |
| Turku Izhevsk Corpus | udmurtti | kirjakieli, lehtitekstit | kirjoitettu kieli | |
| Turku Komi-Permyak Corpus | TuKPC | komipermjakki | kirjakieli, lehtitekstit, kaunokirjallisuus, akateeminen kieli | kirjoitettu kieli |
| Turku Onchyko Corpus | niittymari | kaunokirjallisuus, lehtitekstit, akateeminen kieli | kirjoitettu kieli | |
| Turku 'Pavlik Morozov' Corpus | venäjä, suomi, ersä, mokša, niittymari, vuorimari, udmurtti, komipermjakki, komi, hanti, mansi, unkari, tšuvassi, tataari | rinnakkaiskorpus, kaunokirjallisuus | kirjoitettu kieli | |
| Turku Tatar Corpus | TuTaC | tataari | kaunokirjallisuus, lehtitekstit | kirjoitettu kieli |
| TY:n suomen kielen äänitearkisto: B-nauhasto | TYSKÄ | suomi | äänitteet | |
| TY:n suomen kielen äänitearkisto: murrenauhasto (A-nauhasto) | TYSKÄ | suomi | murteet | äänitteet |
| TY:N suomen kielen äänitearkisto: Turun puhekielen aineisto (C-nauhasto) | TYSKÄ | suomi | murteet, puhekieli | äänitteet, litteraatit |
| Uralilainen typologinen atlas | UraTyp | uralilaiset kielet | kielitypologia, kieltenvälinen vertailu | typologinen kysymyslista, numeerinen data |
| Uusi versio Lauri Kettusen Suomen murrekartastosta | Kettusen murrekartasto | suomi | murteet, puhekieli, puhuma-alueet | paikkatieto, pitäjäkohtainen tieto kielivarianteista, puhuma-alueiden koordinaatit ja polygonit |