Suomen kielen aineistot

Suomen kielen aineistot sisältävät puhuttua ja kirjoitettua kieltä eri aikakausilta digitaalisessa muodossa. Aineistot jakautuvat kolmeen pääryhmään: kieliopillisesti annotoidut korpukset, annotoimattomat tekstiaineistot ja ääni- ja videoaineistot. Kieliopillisesti koodatut korpukset on koottu Lauseopin arkistoon ja muut Suomen kielen äänitearkistoon.

Suomen kielen aineistot ovat osa Suomen ja sen sukukielten arkistoa, joka palvelee opiskelijoita ja tutkijoita. Aineistot ovat esillä myös kieli- ja käännöstieteiden laitoksen yhteisessä Digilang-portaalissa.

Lauseopin arkisto (LA)

Lauseopin arkiston piirissä on sekä puhutusta että kirjoitetusta suomesta kehitetty viisi digitaalista morfologisesti ja syntaktisesti analysoitua korpusta (Lauseopin arkiston murrekorpus, Arkisyn-korpus, Mikael Agricolan teosten morfosyntaktinen tietokanta, Edistyneiden suomenoppijoiden korpus ja Akateeminen suomi -korpus). Näitä korpuksia voi käyttää Kielipankin Korp-hakuliittymän kautta.

Kieliopillisesti koodatut korpukset

Lauseopin arkiston murrekorpus (LA)

Litteroiduista murrehaastatteluista koostuva korpus, joka kattaa kaikki Suomen murrealueet.

  • Sisältää 70 190 virkettä, 193 947 lausetta, 1 078 183 sanaa ja käsittää 133 pitäjää.
  • Suomen ensimmäinen morfologisesti ja syntaktisesti koodattu kieliaineisto.
  • Kehitetty yhteistyössä Kotimaisten kielten keskuksen kanssa.
Arkisyn-korpus

Litteroiduista suomenkielisistä arkikeskusteluista koostuva korpus, jonka tarkoituksena on keskustelupuheen kieliopillisen tutkimuksen mahdollistaminen laajan aineiston perusteella ja vertailtavuuden edistäminen suhteessa muiden aineistotyyppien tutkimukseen. Korpuksen perusaineisto koostuu Helsingin yliopiston keskusteluntutkimuksen arkiston ja Turun yliopiston suomen kielen äänitearkiston litteraateista, mutta mukana on myös projektin yhteydessä tuotettuja nauhoituksia.

  • Käsittää tällä hetkellä (24.10.2018) 27 tiedostoa ja sisältää 44 607 puheenvuoroa, 46 795 lausetta, 6 243 nominilauseketta, 18 582 partikkelijonoa, 4 969 fragmentoitunutta puheenosaa ja 278 910 sanaa.
  • Morfologisesti ja syntaktisesti koodattu.
Mikael Agricolan teosten morfosyntaktinen tietokanta

Mikael Agricolan yhdeksän teoksen kaikki suomenkieliset osat käsittävä vanhan kirjasuomen korpus.

  • Sisältää 38 308 virkettä, 83 678 lausetta ja 428 314 sanaa.
  • Morfologisesti ja syntaktisesti koodattu.
  • Kehitetty Mikael Agricolan teosten tieteellinen editio ja morfosyntaktinen tietokanta -hankkeessa yhteistyössä Kotimaisten kielten keskuksen kanssa vuosina 2004–2007.
Edistyneiden suomenoppijoiden korpus (LAS2)

Edistyneiden suomenoppijoiden akateemisissa yhteyksissä tuotetusta kirjallisesta materiaalista (tenttivastauksista, tutkielmista ja esseistä) koottu korpus. Korpuksessa on mukana vertailuaineistona suomenkielisten suomen kielen opiskelijoiden vastaavaa materiaalia.

  • Perustuu 57 ei-suomenkielisen informantin tuotoksiin ja sisältää tällä hetkellä (24.4.2017) 20 791 virkettä (tenttivastaukset 12 332, tutkielmat 4 289, esseet 4 170), 41 628 lausetta (tenttivastaukset 26 203, tutkielmat 7 850, esseet 7 175) ja 271 331 sanaa (tenttivastaukset 163 497, tutkielmat 56 589, esseet 51 245).
  • Suomenkielisiltä saatua vertailumateriaalia tällä hetkellä (26.8.2016): tenttivastaukset 61 209 sanetta, tutkielmat 86 511 sanetta ja esseet 28 806 sanetta.
  • ​Morfologisesti ja syntaktisesti koodattu.
Akateeminen suomi -korpus (LAS1)

Eri tieteenalojen kirjoitettua akateemista suomea käsittävä korpus. Korpuksen avulla voidaan selvittää muun muassa, millaista on tyypillinen akateeminen suomi ja millaisia eroja eri tieteenalojen ja akateemiseen diskurssiin kuuluvien keskenään erilaisten tekstilajien suomessa on. Tarkoituksena on tämän korpuksen rinnalla hyödyntää myös Kielipankkiin koottuja 1990- ja 2000-luvun suomenkielisiä tiedelehtiä.

  • Käsittää tällä hetkellä (25.10.2018) 59 pro gradu -tutkielmaa, joista 25 on valmiiksi koodattuja (yht. 19 918 virkettä, 36 347 lausetta ja 295 850 sanaa).
  • ​Morfologisesti ja syntaktisesti koodattu.

Suomen kielen äänitearkisto (TYSKÄ/TÄ)

Turun yliopiston suomen kielen äänitearkiston muodostavat koodaamattomat korpukset ja ääni- ja videotallenteet, jotka on kerätty eri hankkeiden yhteydessä kuuteen eri nauhastoon. Lisäksi on kaksi nimikkonauhastoa (Tuomaalan nauhasto ja Rautionmaan nauhasto), joista toinen on hankittu ja toinen saatu lahjoituksena. Kaikki aineistot ovat digitaalisessa muodossa.

Koodaamattomat korpukset

Koodaamattomiin korpuksiin kuuluvat seuraavat:

  • Satakuntalaisuus puheessa -hankkeen (Sapu) äänitteistä tehdyt 255 litteraattia (yli 200 tuntia)
  • Suomen kielen prosodian alueellista ja sosiaalista variaatiota tutkivan Prosovar-hankkeen aineistot
  • Turun puhekielen hankkeen (Tupu) äänitteistä tehdyt litteraatit.

Ääni- ja videoaineistot

Ääni- ja videoaineistot on järjestetty kahdeksaan eri nauhastoon:

  • Murrehaastattelunauhoitteet (A-nauhasto), 5 897 äänitettä ja yht. 4 480 tuntia.
  • Luentojen, kokousten yms. eri tilaisuuksien nauhoitteet (B-nauhasto), 582 äänitettä ja yht. 265 tuntia.
  • Turun puhekielen hankkeen nauhoitteet (C-nauhasto, Tupu-nauhasto), 333 äänitettä ja yht. 251 tuntia.
  • Keskustelujen nauhoitteet (D-nauhasto), 224 äänitettä ja yht. 150 tuntia.
  • Lapsenkielen nauhoitteet (L-nauhasto), 94 äänitettä ja yht. 30 tuntia.
  • Pohjanmaan murteiden nauhoitteet (Tuomaalan nauhasto), 455 äänitettä ja yht. 180 tuntia.
  • Punkalaitumen murteen nauhoitteet (Rautionmaan nauhasto), 65 äänitettä ja yht. 50 tuntia.
  • Satakuntalaisuus puheessa -hankkeen äänitteet (Sapu-nauhasto), 303 äänitettä ja yht. 231 tuntia.