in English
 
 
Lauseopin arkisto

 Digitaaliset korpukset

Puhuttu kieli

         Kieliopillisesti koodatut aineistot

1)  Lauseopin arkiston murrekorpus

2) Arkisyn-korpus

         Koodaamattomat aineistot

1) Satakuntalaisuus puheessa -hankkeen litteraatit

2) Turun ja sen lähiseutujen puhutusta suomesta tehdyt litteraatit

3) Opinnäytetöissä mm. murrehaastatteluista tehdyt litteraatit

Kirjoitettu kieli

         Kieliopillisesti koodatut aineistot

1) Mikael Agricolan morfosyntaktinen tietokanta

2) Edistyneiden suomenoppijoiden korpus

3) Akateeminen suomi -aineisto

 Ääniaineistot (Turun yliopiston suomen kielen äänitearkiston eli Tyskä:n aineistot)

1) Murrehaastattelunauhoitteet (A-nauhasto)

2) Luentojen, kokousten yms. eri tilaisuuksien nauhoitteet (B-nauhasto)

3)  Turun ja sen lähiseutujen puhekielen nauhoitteet (C-nauhasto, Tupu-nauhasto)

4) Keskustelutilaisuuksien nauhoitteet (D-nauhasto)

5)  Lapsenkielen nauhoitteet (L-nauhasto)

6) Pohjanmaan murteiden nauhoitteet (Tuomaalan nauhasto)

7)  Punkalaitumen murteen nauhoitteet (Rautionmaan nauhasto)

8)  Satakuntalaisuus puheessa -hankkeen äänitteet (Sapu-nauhasto)

 

 

Digitaaliset korpukset

Lauseopin arkiston piirissä on sekä puhutusta että kirjoitetusta suomesta kehitetty viisi digitaalista morfologisesti ja syntaktisesti analysoitua korpusta (Lauseopin arkiston murrekorpus, Arkisyn-korpus, Mikael Agricolan teosten morfosyntaktinen tietokanta, Edistyneiden suomenoppijoiden korpus ja Akateeminen suomi -korpus). Muun muassa sanan tason metatiedot hakusana (≈ sanan sanakirjamuoto), sanaluokka (substantiivi, adjektiivi, verbi jne.), morfologiset tiedot (nominatiivi, A-infinitiivi jne.) ja kieliopillinen funktio (subjekti, predikaatti jne.) ovat kaikille koodatuille korpuksille yhteisiä yksiköitä. Näitä korpuksia voi käyttää Kielipankin Korp-hakuliittymän kautta. Lisäksi on tarjolla joukko sähköisiä kieliopillisesti koodaamattomia litteraatteja.

 

Puhutun kielen korpukset

Kieliopillisesti koodatut korpukset

​1) Lauseopin arkiston murrekorpus (LA)

Litteroiduista murrehaastatteluista koostuva korpus, joka kattaa kaikki Suomen murrealueet.

  • ​sisältää 70 190 virkettä, 193 947 lausetta, 1 078 183 sanaa ja käsittää 133 pitäjää.
  • Suomen ensimmäinen morfologisesti ja syntaktisesti koodattu kieliaineisto.
  • kehitetty yhteistyössä Kotimaisten kielten keskuksen kanssa.


2) Arkisyn-korpus

Litteroiduista suomenkielisistä arkikeskusteluista koostuva korpus, jonka tarkoituksena on keskustelupuheen kieliopillisen tutkimuksen mahdollistaminen laajan aineiston perusteella ja vertailtavuuden edistäminen suhteessa muiden aineistotyyppien tutkimukseen. Korpuksen perusaineisto koostuu Helsingin yliopiston keskusteluntutkimuksen arkiston ja Turun yliopiston suomen kielen äänitearkiston litteraateista, mutta mukana on myös projektin yhteydessä tuotettuja nauhoituksia.

  • käsittää tällä hetkellä (24.4.2017) 27 tiedostoa ja sisältää 44 608 puheenvuoroa, 46 808 lausetta, 6 246 nominilauseketta, 18 583 partikkelijonoa, 4 969 fragmentoitunutta puheenosaa ja 279 023 sanaa.
  • morfologisesti ja syntaktisesti koodattu.    


Koodaamattomat korpukset

  1. Satakuntalaisuus puheessa -hankkeen (Sapu) äänitteistä tehdyt 255 litteraattia (yli 200 tuntia).
  2. Turun ja sen lähiseutujen puhutusta suomesta (Tupu) tehdyt litteraatit.
  3. ​Opinnäytetöissä mm. murrehaastatteluista tehdyt litteraatit.

 


Kirjoitetun kielen korpukset

1) Mikael Agricolan teosten morfosyntaktinen tietokanta

​Mikael Agricolan yhdeksän teoksen kaikki suomenkieliset osat käsittävä vanhan kirjasuomen korpus.

  • sisältää 38 308 virkettä, 83 678 lausetta ja 428 314 sanaa.
  • morfologisesti ja syntaktisesti koodattu.
  • kehitetty Mikael Agricolan teosten tieteellinen editio ja morfosyntaktinen tietokanta -hankkeessa yhteistyössä Kotimaisten kielten keskuksen kanssa vuosina 2004–2007.

 

2) Edistyneiden suomenoppijoiden korpus (LAS2)

Edistyneiden suomenoppijoiden akateemisissa yhteyksissä tuotetusta kirjallisesta materiaalista (tenttivastauksista, tutkielmista ja esseistä) koottu korpus. Korpuksessa on mukana vertailuaineistona suomenkielisten suomen kielen opiskelijoiden vastaavaa materiaalia.

  • perustuu 57 ei-suomenkielisen informantin tuotoksiin ja sisältää tällä hetkellä (24.4.2017) 20 791 virkettä (tenttivastaukset 12 332, tutkielmat 4 289, esseet 4 170), 41 628 lausetta (tenttivastaukset 26 203, tutkielmat 7 850, esseet 7 175) ja 271 331 sanaa (tenttivastaukset 163 497, tutkielmat 56 589, esseet 51 245).
  • suomenkielisiltä saatua vertailumateriaalia tällä hetkellä (26.8.2016): tenttivastaukset 61 209 sanetta, tutkielmat 86 511 sanetta ja esseet 28 806 sanetta.
  • ​morfologisesti ja syntaktisesti koodattu.

  

3) Akateeminen suomi -korpus (LAS1)

Eri tieteenalojen kirjoitettua akateemista suomea käsittävä korpus. Korpuksen avulla voidaan selvittää muun muassa, millaista on tyypillinen akateeminen suomi ja millaisia eroja eri tieteenalojen ja akateemiseen diskurssiin kuuluvien keskenään erilaisten tekstilajien suomessa on. Tarkoituksena on tämän korpuksen rinnalla hyödyntää myös Kielipankkiin koottuja 1990- ja 2000-luvun suomenkielisiä tiedelehtiä.

  • käsittää tällä hetkellä (24.4.2017) 29 pro gradu -tutkielmaa, joista 14 on koodattuja (yht. 15 771 virkettä, 28 680 lausetta ja 219 371 sanaa).
  • ​morfologisesti ja syntaktisesti koodattu.

 


 Ääniaineistot

Lauseopin arkistossa on tarjolla Turun yliopiston suomen kielen äänitearkiston (TYSKÄ, TÄ) äänitteet, jotka on kerätty eri hankkeiden yhteydessä kuuteen eri nauhastoon. Lisäksi on kaksi nimikkonauhastoa (Tuomaalan nauhasto ja Rautionmaan nauhasto), joista toinen on hankittu ja toinen saatu lahjoituksena. Kaikki äänitteet ovat digitaalisessa muodossa.

  1. Murrehaastattelunauhoitteet (A-nauhasto), 5 897 äänitettä ja yht. 4 480 tuntia.
  2. Luentojen, kokousten yms. eri tilaisuuksien nauhoitteet (B-nauhasto), 582 äänitettä ja yht. 265 tuntia.
  3. Turun ja sen lähiseutujen puhekielen nauhoitteet (C-nauhasto, Tupu-nauhasto), 333 äänitettä ja yht. 251 tuntia.
  4. Keskustelujen nauhoitteet (D-nauhasto), 224 äänitettä ja yht. 150 tuntia.
  5. Lapsenkielen nauhoitteet (L-nauhasto), 94 äänitettä ja yht. 30 tuntia.
  6. Pohjanmaan murteiden nauhoitteet (Tuomaalan nauhasto), 455 äänitettä ja yht. 180 tuntia.
  7. Punkalaitumen murteen nauhoitteet (Rautionmaan nauhasto), 65 äänitettä ja yht. 50 tuntia.
  8. Satakuntalaisuus puheessa -hankkeen äänitteet (Sapu-nauhasto), 303 äänitettä ja yht. 231 tuntia.

 


​​​​​​​​​​​​​​
Asiasana:
Tagit:
 

 Yhteystiedot

 

​Lauseopin arkiston tutkija Nobufumi Inaba (Hämeenkatu 1)

Tavattavissa: sopimuksen mukaan
Sähköposti: nobufumi.inaba_at_utu.fi
Puhelin: 050 3289925