Satakuntalaisuus puheessa -korpus

Avainsanat: murteet, puhekieli

Tämä aineisto on tulossa saataville Kielipankkiin. Sapu-korpus on sosiolingvistinen 2000-luvun satakuntalaista puhekieltä edustava korpus (laajemmin nykysuomalaista puhekieltä edustava korpus), joka on lemmatisoitu sekä annotoitu morfologisesti ja syntaktisesti. Aineisto on kerätty vanhalta murrerajavyöhykkeeltä, jota on halkonut vanhastaan yksi suomen vahvimmista murrerajoista.

Korpuksessa on 40 tietuetta, jotka edustavat kuuden paikkakunnan puhekieltä (Rauma, Honkilahti, Luvia; Pori, Ulvila-Nakkila, Kokemäki). Tietueet koostuvat äänitteistä ja niitä vastaavista litteraateista. Äänitteiden yhteiskesto on 37 tuntia ja 3 minuuttia (2 223 minuuttia). Informantteja on mukana 51.

Korpus on osa laajempaa Sapu-aineistoa, joka koostuu yli 262 tunnista äänitteitä ja 213 tunnista suomalais-ugrilaisella tarkekirjoituksella transkriboituja litteraatteja. Keruu on toteutettu vuosina 2007–2019. Sapu-aineistossa on äänitteitä ja litteraatteja 16:lta rajavyöhykkeen paikkakunnalta eri-ikäisiltä ja eritaustaisilta puhujilta. 

Annotoituun korpukseen päätyneet otokset ovat peräisin vuosilta 2007–2013, ja niissä on edustettuina eri-ikäisten puhujien nykykieltä vanhan murrerajan lounaismurteiselta puolelta (Rauma, Honkilahti, Luvia) ja hämäläisvaikutteiselta siirymurteiselta puolelta (Pori, Ulvila-Nakkila, Kokemäki). Mukana on kaupunkilaisten ja maaseutulaisten kieltä. Aineistoa ja korpusta on hyödynnetty murteentutkimuksen, sosiolingvistiikan, vuorovaikutuslingvistiikan, vuorovaikutussosiolingvistiikan ja kansanlingvistiikan sekä havaintodialektologian alaan kuuluvissa opinnäytteissä ja julkaisuissa.

Huomaa, että aineiston eri versioissa on mukana henkilötietoja. Henkilötietojen käsittelyssä on noudatettava aineistokohtaisia tietosuojaehtoja.

Aineiston tästä ja muista versioista löytyy tietoja Kielipankin aineistoryhmän sivulta, ks. http://urn.fi/urn:nbn:fi:lb-2025091122.

Tämän aineistoversion lisenssi: http://urn.fi/urn:nbn:fi:lb-2022092123.

Yleiskuvaus korpuksesta löytyy esimerkiksi seuraavasta julkaisusta:
Kurki, Tommi, Huhtala, Atte, Koivunen, Tomi & Mäkitalo, Nelli (2022). Satakuntalaisuus puheessa -korpus ja siitä tehtyjä synkretismihavaintoja: Syncretism in Colloquial Finnish – Observations of the Satakunta corpus. AFinLA-teema, 14, pp. 103-134. doi:10.30660/afinla.11124 

Aineiston tiedot

Sisältö
  • kieli: suomi
  • aineiston muoto: äänitteet, litteraatit, lemmat, morfologinen ja syntaktinen annotaatio
  • tekstilaji: haastattelut, tilannenauhoitukset
  • aineiston koko: 40 litteroitua, lemmatisoitua ja annotoitua äänitettä, kesto 2 223 minuuttia
  • aineiston aikajänne: 2007–2019
Annotoinnit
  • lemma
  • morfologia
  • syntaksi
Tekijät
Tommi Kurkiperustaja ja hankkeen vastuullinen johtaja
Kirsti Siitonenperustaja ja ohjausryhmän jäsen
Nobufumi Inabatutkija
Saatavuus

Aineisto on käytettävissä ottamalla yhteyttä yhteyshenkilöön. Aineisto on luovutettu Kielipankkiin siellä julkaistavaksi (tulossa). 

Yhteyshenkilö

Tommi Kurkitommi.kurki *at* utu.fi

Muuta huomioitavaa

sisältää arkaluontoisia henkilötietoja