Lauseopin arkisto

Lauseopin arkisto on tutkimusarkisto, joka on erikoistunut suomen kielen tutkimukseen liittyvän aineiston säilyttämiseen ja kehittämiseen. Se tarjoaa digitaalisia teksti-, ääni- ja videoaineistoja tutkijoille ja opiskelijoille. Suuri osa aineistosta on järjestetty annotoiduiksi digitaalisiksi korpuksiksi. Arkisto palvelee myös yliopiston ulkopuolisia tutkijoita.

Lauseopin arkiston piirissä on sekä puhutusta että kirjoitetusta suomesta kehitetty viisi digitaalista morfologisesti ja syntaktisesti analysoitua korpusta (Lauseopin arkiston murrekorpus, Arkisyn-korpus, Mikael Agricolan teosten morfosyntaktinen tietokanta, Edistyneiden suomenoppijoiden korpus ja Akateeminen suomi -korpus). Näitä korpuksia voi käyttää Kielipankin Korp-hakuliittymän kautta. Lisäksi on tarjolla joukko sähköisiä kieliopillisesti koodaamattomia aineistoja ja runsaasti ääni- ja videotallenteita. Lauseopin arkisto on mukana Digilang-hankkeessa, jossa kehitetään ja täydennetään kieli- ja käännöstieteiden laitoksen digitaalisia kieliaineistoja.

Kieliopillisesti koodatut korpukset

Lauseopin arkiston murrekorpus (LA)

Litteroiduista murrehaastatteluista koostuva korpus, joka kattaa kaikki Suomen murrealueet.

  • Sisältää 70 190 virkettä, 193 947 lausetta, 1 078 183 sanaa ja käsittää 133 pitäjää.
  • Suomen ensimmäinen morfologisesti ja syntaktisesti koodattu kieliaineisto.
  • Kehitetty yhteistyössä Kotimaisten kielten keskuksen kanssa.
Arkisyn-korpus

Litteroiduista suomenkielisistä arkikeskusteluista koostuva korpus, jonka tarkoituksena on keskustelupuheen kieliopillisen tutkimuksen mahdollistaminen laajan aineiston perusteella ja vertailtavuuden edistäminen suhteessa muiden aineistotyyppien tutkimukseen. Korpuksen perusaineisto koostuu Helsingin yliopiston keskusteluntutkimuksen arkiston ja Turun yliopiston suomen kielen äänitearkiston litteraateista, mutta mukana on myös projektin yhteydessä tuotettuja nauhoituksia.

  • Käsittää tällä hetkellä (24.10.2018) 27 tiedostoa ja sisältää 44 607 puheenvuoroa, 46 795 lausetta, 6 243 nominilauseketta, 18 582 partikkelijonoa, 4 969 fragmentoitunutta puheenosaa ja 278 910 sanaa.
  • Morfologisesti ja syntaktisesti koodattu.
Mikael Agricolan teosten morfosyntaktinen tietokanta

Mikael Agricolan yhdeksän teoksen kaikki suomenkieliset osat käsittävä vanhan kirjasuomen korpus.

  • Sisältää 38 308 virkettä, 83 678 lausetta ja 428 314 sanaa.
  • Morfologisesti ja syntaktisesti koodattu.
  • Kehitetty Mikael Agricolan teosten tieteellinen editio ja morfosyntaktinen tietokanta -hankkeessa yhteistyössä Kotimaisten kielten keskuksen kanssa vuosina 2004–2007.
Edistyneiden suomenoppijoiden korpus (LAS2)

Edistyneiden suomenoppijoiden akateemisissa yhteyksissä tuotetusta kirjallisesta materiaalista (tenttivastauksista, tutkielmista ja esseistä) koottu korpus. Korpuksessa on mukana vertailuaineistona suomenkielisten suomen kielen opiskelijoiden vastaavaa materiaalia.

  • Perustuu 57 ei-suomenkielisen informantin tuotoksiin ja sisältää tällä hetkellä (24.4.2017) 20 791 virkettä (tenttivastaukset 12 332, tutkielmat 4 289, esseet 4 170), 41 628 lausetta (tenttivastaukset 26 203, tutkielmat 7 850, esseet 7 175) ja 271 331 sanaa (tenttivastaukset 163 497, tutkielmat 56 589, esseet 51 245).
  • Suomenkielisiltä saatua vertailumateriaalia tällä hetkellä (26.8.2016): tenttivastaukset 61 209 sanetta, tutkielmat 86 511 sanetta ja esseet 28 806 sanetta.
  • ​Morfologisesti ja syntaktisesti koodattu.
Akateeminen suomi -korpus (LAS1)

Eri tieteenalojen kirjoitettua akateemista suomea käsittävä korpus. Korpuksen avulla voidaan selvittää muun muassa, millaista on tyypillinen akateeminen suomi ja millaisia eroja eri tieteenalojen ja akateemiseen diskurssiin kuuluvien keskenään erilaisten tekstilajien suomessa on. Tarkoituksena on tämän korpuksen rinnalla hyödyntää myös Kielipankkiin koottuja 1990- ja 2000-luvun suomenkielisiä tiedelehtiä.

  • Käsittää tällä hetkellä (25.10.2018) 59 pro gradu -tutkielmaa, joista 25 on valmiiksi koodattuja (yht. 19 918 virkettä, 36 347 lausetta ja 295 850 sanaa).
  • ​Morfologisesti ja syntaktisesti koodattu.

Koodaamattomat korpukset

Satakuntalaisuus puheessa -hankkeen (Sapu) äänitteistä tehdyt 255 litteraattia (yli 200 tuntia). Prosodian alueellista variaatiota tutkivan Prosovar-hankkeen aineistot. Turun ja sen lähiseutujen puhutusta suomesta (Tupu) tehdyt litteraatit.

Ääni- ja videoaineistot

Lauseopin arkistossa on tarjolla Turun yliopiston suomen kielen äänitearkiston (TYSKÄ, TÄ) äänitteet, jotka on kerätty eri hankkeiden yhteydessä kuuteen eri nauhastoon. Lisäksi on kaksi nimikkonauhastoa (Tuomaalan nauhasto ja Rautionmaan nauhasto), joista toinen on hankittu ja toinen saatu lahjoituksena. Kaikki äänitteet ovat digitaalisessa muodossa.

  • Murrehaastattelunauhoitteet (A-nauhasto), 5 897 äänitettä ja yht. 4 480 tuntia.
  • Luentojen, kokousten yms. eri tilaisuuksien nauhoitteet (B-nauhasto), 582 äänitettä ja yht. 265 tuntia.
  • Turun ja sen lähiseutujen puhekielen nauhoitteet (C-nauhasto, Tupu-nauhasto), 333 äänitettä ja yht. 251 tuntia.
  • Keskustelujen nauhoitteet (D-nauhasto), 224 äänitettä ja yht. 150 tuntia.
  • Lapsenkielen nauhoitteet (L-nauhasto), 94 äänitettä ja yht. 30 tuntia.
  • Pohjanmaan murteiden nauhoitteet (Tuomaalan nauhasto), 455 äänitettä ja yht. 180 tuntia.
  • Punkalaitumen murteen nauhoitteet (Rautionmaan nauhasto), 65 äänitettä ja yht. 50 tuntia.
  • Satakuntalaisuus puheessa -hankkeen äänitteet (Sapu-nauhasto), 303 äänitettä ja yht. 231 tuntia.

Yhteystiedot

Käyntiosoite
Hämeenkatu 1, Turku

Postiosoite
Lauseopin arkisto
Suomen kieli ja suomalais-ugrilainen kielentutkimus
20014 Turun yliopisto