FIN-CLARIAH

FIN-CLARIAH (Common Language Resources and Technology Infrastructure) on valtakunnallinen ihmistieteiden tutkimusinfrastruktuuri, joka koostuu kahdesta komponentista: FIN-CLARIN ja DARIAH-FI.

Turun yliopisto edistää FIN-CLARIAHin tavoitteita aineistotyön avulla. Historian, kulttuurin ja taiteiden tutkimuksen laitoksen arkiston aineistoja ylläpidetään ja digitoidaan, ja UTU-Digilang-portaalin kautta voi tutustua Kieli- ja käännöstieteiden laitoksessa kerättyihin ja ylläpidettyihin korpuksiin ja muihin kieliaineistoihin. Digitaalisia ihmistieteitä edistetään myös lukuisten hankkeiden avulla ja ne ovat tärkeä osa Turun yliopiston tarjoamaa koulutusta.

Toimintaa johtavat tutkimusryhmät TurkuNLP ja Turku Data Science Group, jotka edistävät laskennallisia ihmistieteitä. 

FIN-CLARIAH-projektit

Fennica: Harmonized Finnish national bibliography

Koodirepositorio, jonka työkalut mahdollistavat Suomen kansallisbibliografia Fennican siivoamisen ja täydentämisen sekä raporttien automaattisen generoinnin. 

Lisätietoja ja koodit ovat saatavilla GitHub-sivulla. 

Tekijät: Julia Matveeva, Leo Lahti, Pyry Kantanen ja Akewak Jeba

Machine learning-based enrichment of social media

Projektissa kehitettiin työkaluja, joissa koneoppimista käytetään sosiaalisen median tekstilajien automaattiseen tunnistamiseen verkkotekstistä. Projektin aikana luotiin seuraavat työkalut: 

Tekijät: Erik Henriksson, Tuomas Lundberg ja Veronika Laippala

Corpora of non-standard language

Tämä projekti koostuu kolmesta osasta:

  • Tekstin laatu: työkaluja, jotka mahdollistavat verkosta kerätyn datan siivoamisen siten, että ei-halutut elementit kuten "klikkaa tästä" tai "lue lisää" saadaan pois datasta
  • Oscar-datasetin rekisteriannotaatiot: monikielinen tekstikokoelma, johon on merkitty tieto tekstien rekistereistä
  • Toksisuusluokittelija: työkaluja, joiden avulla voidaan tunnistaa toksista suomenkielistä tekstiä ja luokitella sitä 

Tekijät: Veronika Laippala, Filip Ginter, Sampo Pyysalo, Anni Eskelinen ja Anna Salmela
 

Models for retrieving QA pairs from the web

Kysymys-vastauspareja verkosta keräävä työkalupaketti sisältää kaksi osaa: ensimmäinen kerää verkkokorpuksista dokumentteja, jotka saattavat sisältää kysymys-vastauspareja ja toinen kerää parit dokumenteista. Molemmista työkaluista on versiot suomen ja englannin kielille. 

Työkalujen lisäksi projekti tuotti annotoituja korpuksia kysymys-vastauspareista suomeksi ja englanniksi.

Linkit työkaluihin ja korpuksiin ovat saatavilla Kielipankissa. 

Tekijät: Anni Eskelinen, Veronika Laippala, Amanda Myntti, Erik Henriksson ja Sampo Pyysalo

Text network analysis of political texts

Projekti tarjoaa työkaluja poliittisten tekstien tutkimukseen. Työkalut kehitettiin FinParl-korpusta varten. Se sisältää parlamenttaarisia puheita vuodesta 1907 alkaen. 

LAWPOL-sivulla on saatavilla kaksi työkalua: 

  • KWIC-työkalu (Keyword in Context) mahdollistaa annetun sanan asiayhteyksien avainsanojen ja n-grammien tarkastelun parlamenttipuheessa.
  • TNA-työkalu (Text network analysis) kertoo sanojen käytöstä eri kansanedustajien puheessa. Käyttäjä voi valita kansanedustajan ja nähdä aikajanan hänen eduskuntapuheistaan, sanapilven hänen eniten käyttämistään sanoista sekä verkoston, joka kertoo valitun kansanedustajan ja samankaltaisten kollegoiden puheissa useiten esiintyvät käsitteet.  

Tekijät: Kimmo Elo, Veronika Laippala, Otto Tarkka, Pyry Kantanen ja Markus Korhonen

Lawpol-hankkeelle on myönnetty Euroopan unionin elpymisvälinerahoitusta (NextGenerationEU) Suomen Akatemian kautta projektinumeroilla 352827, 353569 ja 352828.

Muut digitaalisten ihmistieteiden hankkeet, tutkimusryhmät ja verkostot

Ihmisen monimuotoisuuden huippututkimusyksikkö

Yksikkö on yksi Suomen akatemian vuosille 2026–2033 valitsemista tutkimuksen huippuyksiköistä, jotka kuuluvat tieteenalojensa kansainväliseen kärkeen. 

Huippuyksikkö tutkii ihmisen monimuotoisuutta ja sen ajallisia ja paikallisia muutoksia. Keinoina ovat internetkieli, kieli- ja kulttuuriaineistot sekä muinainen ja nykyinen geneettinen data. Yksikössä tutkitaan muun muassa ihmisten sopeutumista uusiin paikkoihin suhteessa elämäntapoihin, kieliin, kulttuuriin ja genetiikkaan. Yksikkö keskittyy Suomea koskeviin aineistoihin, mutta paikalliset muutokset kytketään uralilaisten kielten puhuma-alueen historiaan ja internetkielen osalta myös globaaliin kontekstiin. 

Huippuyksikköä johtaa evoluutiobiologian professori Virpi Lummaa, ja tutkijoina toimivat digitaalisen kielentutkimuksen professori Veronika Laippala, evolutiivisen genomiikan professori Päivi Onkamo sekä kielellisen ja evolutiivisen kielentutkimuksen apulaisprofessori Outi Vesakoski.

TurkuNLP

TurkuNLP:n keskiössä on luonnollisen kielen käsittely. Sitä lähestytään monista näkökulmista korpusten annotoinnista ja analyysistä koneoppimisen teoriaan ja sovelluksiin. Kansainvälinen ja monitieteinen ryhmä lähestyy sitä monista näkökulmista, kuten korpusten annotoinnin ja analyysin tai koneoppimisen teorian ja sovellusten kautta.

Keskeisimmät tutkimuskohteet ovat:

  • suomen kielen syntaktinen ja semanttinen analyysi
  • suuret kielimallit suomesta ja muista kielistä
  • BioNLP: biologian, biolääketieteen ja kliinisen lääketieteen tekstien louhinta ja mallinnus
  • internetin rekisterien ja genrejen mallinnus ja analyysi
  • internetin kielenkäytön kielitieteellinen analyysi

TurkuNLP:n verkkosivut (englanniksi)

Turku Data Science Group

Turku Data Science Group keskittyy monimutkaisten luonnollisten ja sosiaalisten järjestelmien koneelliseen analyysiin. Tärkeimpiin sovelluskohteisiin kuuluvat mikrobiomien tutkimus, populaatiotutkimus ja laskennalliset ihmistieteet. 

Ryhmä yhdistää koneoppimista, tekoälyä, tilasto- ja todennäköisyysohjemointia, monimutkaisia järjestelmiä ja datatiedettä. Tarkoituksena on kehittää uusia kohdistettuja tekniikoita, joilla voidaan saada tietoa ja ymmärrystä laajoista datavirroista yhdistäen ihmis- ja koneälyä.

Tutkimusryhmän verkkosivut (englanniksi)

Ryhmän työtä ovat tukeneet Euroopan unioni/Horizon, Suomen Akatemia, Strategisen tutkimuksen neuvosto, Koneen säätiö, Sakari Alhopuron säätiö, Suomen kulttuurirahasto, Turun yliopistosäätiö, Biocity Turku, CIMO/EFUDI, Turun yliopiston tutkijakoulu UTUGS sekä Turun yliopisto.

Human Diversity -tutkimuskonsortio

Tutkimuskonsortio tarkastelee ihmisten välisten kontaktien ja kommunikaatioverkostojen vaikutuksia kieleen, kulttuuriin ja genetiikkaan. Näkökulma on monitieteinen, ja tutkimusaineistoina käytetään muinaisgeneettistä aineistoa, kirkonkirjoja, murrekarttoja ja arkeologisia löytöjä. 

Konsortion sivut (englanniksi)

Konsortiota rahoittaa Suomen Akatemia (Profi7).

Cultural Heritage in the Digital Age (DigiHeri)

DigiHeri-hanke keskittyy digitoituun ja/tai digisyntyiseen kultuuriperintöaineistoon, sen tunnistamiseen, hyödyntämiseen, rikastamiseen ja kriittiseen tutkimukseen. Se yhdistää kulttuuriperinnön tutkimusta digitaalisuuden, kielipohjaisen tekoälyn ja luonnollisen kielen prosessoinnin tutkimukseen. Tavoitteena on ymmärtää kulttuuriperinnön muutosta ja sen vaikutuksia digitaalisella aikakaudella. Millaisia uusia kulttuuriperinnön muotoja digitalisaatio tuottaa ja on tuottanut? Miten jako digitaaliseen ja ei-digitaaliseen kulttuuriperintöön vaikuttaa tapaan, jolla näemme maailman ja voimme sitä tutkia? Millainen on digitoidun ja digisyntyisen kulttuuriperinnön suhde?

DigiHerin pääperiaatteena on monitieteinen tutkimus. Hanke yhdistää tietojenkäsittelytiedettä, kulttuuriperinnön tutkimusta, digitaalista kulttuuria, kasvatustiedettä, historiaa ja arkeologiaa, kieliteknologiaa, kielitiedettä, oikeustiedettä, mediatutkimusta ja digitaalisia ihmistieteitä. Hanke painottaa sosiaalista vaikutusta, kulttuuriperinnön näkyvyyttä julkisuudessa ja sen vaikutusta koulutukseen.

Hankkeen keskiössä ovat digitaalisen kulttuuriperinnön tutkimus, avoimien menetelmien ja työkalujen tutkimus ja kehittäminen, yhteisten digitaalisten infrastruktuurien rakentaminen sekä kulttuuriperinnön uusien muotojen yhteiskunnalliset ja kulttuuriset vaikutukset.

Hankkeen verkkosivut (englanniksi)

Hanketta rahoittaa Suomen Akatemia (Profi8).

BEDLAN-tutkimusryhmä

BEDLAN (Biological Evolution and Diversification of LANguages) on monitieteinen ryhmä asiantuntijoita, jotka tutkivat kielten evoluutiota. Tarkoituksena on yhdistää uralilaisten kielten kielellinen historia niiden puhuma-alueen ihmisten historiaan. Tavoitteen saavuttamiseksi ryhmä yhdistää kielitiedettä, maantiedettä, arkeologiaa, kulttuurihistoriaa ja ympäristötieteitä.

Ryhmän keräämä data julkaistaan avoimen tieteen periaatteiden mukaisesti. Data sisältää tietoja uralilaisten kielten ja suomen murteiden piirteistä, maantieteellistä tietoa kielten puhuma-alueista sekä arkeologista dataa. 

Työryhmän sivut (englanniksi)

Työryhmän työtä ovat tukeneet Koneen säätiö, Kotimaisten kielten keskus, Otto A. Malm lahjoitusrahasto sekä Ella ja Georg Ehrnroothin säätiö.

DIGIN: Digitaalisen vuorovaikutuksen tutkijaverkosto

Tutkimusverkosto yhdistää digitaalisen kulttuurin, diskurssianalyysin ja digitaalisten ihmistieteiden menetelmiä. Verkosto pyrkii kehittämään kvantitatiivisia menetelmiä niin, että suuria digitaalisia aineistoja voitaisiin hyödyntää ihmistieteissä entistä paremmin. 

Tutkimuskohteita ovat erilaiset sosiaalisen median ja internetin ilmiöt, kuten verkkokulttuurit ja -yhteisöt, muuttuvat viestinnän muodot, prosessit ja genret sekä yhteiskunnallinen ja institutionaalinen viestintä sosiaalisessa mediassa. Näitä tarkastellaan niin historiallisista, viestinnällisistä, kulttuurisista kuin kielellisistäkin näkökulmista.
 
Verkostoon kuuluu tällä hetkellä tutkijoita useasta yksiköstä viidestä Turun yliopiston tiedekunnasta.

Verkoston verkkosivu

Turku Group for Digital History

Tutkimusryhmä käyttää ja kehittää laskennallisia menetelmiä menneisyyden tutkimiseen. 

Ryhmän projektit:

Tutkimusryhmän verkkosivut

Kuvitellut kotimaat

Hankkeessa tarkastellaan digitoituja vuosina 1876–1923 Pohjois-Amerikassa julkaistuja suomalaisia sanoma- ja aikakauslehtiä. Uudet teknologiat tarjoavat uusia tutkimusmahdollisuuksia, joita hyödyntämällä hanke kehittää menetelmiä ylirajaisen, Pohjois-Amerikan suomalaisen kulttuurin tutkimukselle.

Hankkeen tavoitteena on tutkia, mitä digitaalisten ihmistieteiden menetelmät kertovat Pohjois-Amerikan suomalaisen lehdistön rakentumisesta ja suhteesta entiseen ja nykyiseen kotimaahan. Tutkimuksen toteuttaa monitieteinen työryhmä, joka tekstilajien ja tekstintoistojen tunnistuksen sekä nimentunnistuksen menetelmin mahdollistaa laajan aineiston etä- ja lähilukemisen.

Kuvitellut kotimaat -hankkeella on painava kulttuurinen merkitys. Pohjois-Amerikan suomalaiset lehdet ovat toistaiseksi olleet tietokoneavusteisessa tutkimuksessa hyödyntämätön resurssi niin tutkijoille kuin kansalaisille. Kansalliskirjaston digitoima lehtiaineisto hyödyttää jatkossa esimerkiksi sukututkimusta, sillä aineisto tarjoaa korvaamatonta tietoa niistä sukupolvista, jotka lähtivät etsimään parempaa elämää Atlantin tuolta puolen. Hankkeen aikana tutkijoiden käytettävissä on noin 350 000 sivua Pohjois-Amerikan suomalaisia kausijulkaisuja, ja aineisto on jo heinäkuusta 2024 alkaen kaikille avoimena käytettävissä digi.kansalliskirjasto.fi-palvelun kautta.

Projektin rahoittaa Koneen Säätiö vuosina 2024–2027, ja hanke pohjautuu Helsingin yliopiston, Turun yliopiston ja Kansalliskirjaston yhteistyöhön. Hanketta johtaa professori Hannu Salmi, Turun yliopisto.

Hankkeen verkkosivut

Intiimiys datavetoisessa kulttuurissa

IDA-konsortio tarkastelee kriittisesti digitalisaatiota, datavetoista mediaa ja yksityisyyttä sekä niiden ristiriitoja nyky-Suomessa. 

Hanke tutkii:

  • datavetoisen kulttuurin vaikutusta sosiaalisiin rooleihin ja suhteisiin sekä niihin liittyviä haavoittuvuuksia
  • intiimiyden hyödyntämistä sosiaalisissa suhteissa ja julkisissa ammateissa kuten luovilla aloilla tai politiikassa
  • henkilökohtaisen datan oikeudenmukaista hallintaa, jakamista ja käyttöä

Hanke kehittää innovatiivisia laadullisia ja määrällisiä menetelmiä yhdistäviä työkaluja, joilla voidaan tutkia datakulttuuria ja datavuotoja. Konsortion tavoitteena on editää oikeudenmukaisia ja avoimia käytäntöjä henkilökohtaisen datan käsittelyssä. 

Hankkeen työpaketteja ”Digitaaliset intiimiydet”, ”Politisoidut intiimiydet” ja ”Oikeudelliset intiimiydet” johdetaan Turun yliopistossa.

Hankkeen kotisivut

Hanketta rahoittaa Suomen Akatemia.

Digitaaliset menetelmät kotimaisen kirjallisuushistorian uudistajana

Kansalliskirjaston, Turun yliopiston ja Itä-Suomen yliopiston muodostaman konsortion tavoitteena on kartoittaa ja tutkia 1800-luvun Suomessa kirjamuotoisena julkaistua kaunokirjallisuutta Suomen kansallisbibliografian Fennican bibliografisten kuvailutietojen pohjalta. Hankkeessa tutkitaan sekä määrällisesti että laadullisesti vähemmälle huomiolle jääneitä teoksia, joita aiempi tutkimus ei ole nostanut esiin. Suomen- ja ruotsinkielisen 1800-luvulla julkaistun kaunokirjallisuuden taustatietoja kerätään yhtenäiseen muotoon, joka mahdollistaa laajamittaisen tilastollisen analysoinnin. Hanke keskittyy erityisesti autonomian aikaan eli vuosiin 1809–1917.

Kirjallisuushistoriallisten tutkimustulosten lisäksi hanke tuottaa avoimia tutkimusaineistoja ja datatieteen menetelmiä, joita sekä tutkimusyhteisö että suuri yleisö voivat käyttää. 

Hankkeen verkkosivut

Hanketta rahoittavat Suomen Akatemia ja mukana olevat yliopistot.

Kertova teksti, kääntäjä ja kone: käyttäjäystävällistä kaunokirjallisuuden käännösteknologiaa etsimässä

Tutkimushanke yhdistää käännöstiedettä, kirjallisuustiedettä sekä kieli- ja käännösteknologiaa. Tutkimuksen kohteena ovat kerronnallisuus ja sen mallintaminen, kaunokirjalliset piirteet ja niiden käännösongelmat, kaunokirjallisuuden kääntäjien työskentelytavat ja teknologiatarpeet sekä eettiset haasteet, kuten tekijänoikeuskysymykset ja kestävän kehityksen näkökulmat, jotka liittyvät käännösteknologian hyödyntämiseen kaunokirjallisuuden kääntämisessä.

Hankkeen tarkoituksena on kehittää prototyyppi käännösteknologian sovelluksesta, joka avustaa ihmiskääntäjää kaunokirjallisuuden ammattimaisessa kääntämisessä kieliparissa englanti–suomi.

Hankkeen sivut

Hanketta rahoittaa Suomen Akatemia

Women Writers in History

Kirjallisuustieteiden professori Viola Parente-Čapková on mukana DARIAH-EU:n työryhmässä, jonka tarkoituksena on selvittää, miten naiskirjailijoita on luettu historiassa. 

Lisätietoa

Digitaalisiin ihmistieteisiin liittyviä kursseja ja opinto-ohjelmia

Digitaalisen kielentutkimuksen sivuaine

Digitaalinen kielentutkimus yhdistelee kielentutkimusta ja kieliteknologiaa. Kieliteknologia kehittää koneellisia menetelmiä ihmisten tuottaman kielen käsittelyyn. Tunnettuja sovelluksia ovat esimerkiksi konekäännös, chatbotit ja erilaiset tekstinlouhinnan menetelmät, kuten mielipiteiden tunnistaminen tekstistä.

Nykymaailmassa kieliteknologian mahdollistamat tekoälymallit, puheentunnistusohjelmat ja tekstinluokittelutyökalut ovat kaikkialla ympärillämme. Kieliteknologian ja sen sovellusten merkitys yrityksissä ja yliopistoissa on viime vuosina kasvanut, ja sen vuoksi ymmärrystä kieliteknologiasta tarvitsevat niin kielialan kuin informaatiotekniikan ammattilaiset. 

Digitaalisen kielentutkimuksen sivuainetta järjestävät yhteistyössä kieli- ja käännöstieteiden laitos ja tietotekniikan laitos. Sivuaineen 25 opintopisteen perusopinnot sekä vapaavalintaiset opinnot tarjoavat laajan katsauksen kielenkäyttöön digitaalisissa ympäristöissä ja koneellisten menetelmien mahdollisuuksiin kielentutkimuksessa. 

Opinnot antavat erinomaiset valmiudet laajojen big data -aineistojen hallintaan ja prosessointiin sekä kielentutkimuksen että tekstinlouhinnan tarpeisiin. Etukäteistietoja ohjelmoinnista tai tietokoneista ei tarvita.

Sivuaineen opetussuunnitelma

Digitaalisen kielentutkimuksen maisteriohjelma

Kieliasiantuntijuuden tutkinto-ohjelmassa opiskelija voi valita erikoistumisalakseen digitaalisen kielentutkimuksen. 

Digitaalisen kielentutkimuksen opintojen tavoitteena on kouluttaa kieliasiantuntijoita, jotka osaavat soveltaa kieliteknologian menetelmiä ja ymmärtävät niiden toimintaperiaatteet ja mahdollisuudet. Opiskelijalla on koulutuksen suoritettuaan on vahva osaaminen kieliteknologian työkalujen soveltamisessa ja tekstimuotoisen datan kvantitatiivisessa analyysissä.

Lisätietoa oppiaineesta 

Kieliasiantuntijuuden tutkinto-ohjelman opetussuunnitelma

Master's Degree Programme in Information and Communication Technology: Data Analytics

Englanninkielinen ICT-alan maisteriohjelma tarjoaa monipuolista ja laadukasta opetusta informaatio- ja kommunikaatioteknologian eri aloista. Sillä on vakiintunut maine innovatiivisena, monitieteisenä ja kansainvälisenä koulutuksena. 

Data-analytiikan pääainevaihtoehto kouluttaa asiantuntijoita datan tehokkaaseen käyttöön ja kommunikaatioon tutkimuksessa, päätöksenteossa ja yhteiskunnassa. Opetuksen keskiössä on data-analyysin keskeisten metodien ymmärtäminen ja niiden käytännön sovelluksen. 

Lisätietoja maisteriohjelmasta englanniksi

Opetussuunnitelma

Digitaalisen kulttuurin, maiseman ja kulttuuriperinnön tutkinto-ohjelma

Tutkinto-ohjelmassa voi opiskella digitaalista kulttuuria, maisemantutkimusta ja kulttuuriperinnön tutkimusta. Digitaalisen kulttuurin tutkimuskohteita ovat verkkoyhteisöt ja sosiaalinen media, pelikulttuurit sekä teknologian kulttuurinen muutos. Maisemantutkimus tutkii rakennettua ympäristöä, luonnonmaisemaa ja kulttuurimaisemaa humanistisesta näkökulmasta. Kulttuuriperinnön tutkimus tarkastelee eri yhteisöissä ja instituutioissa muodostuvaa ja tuotettua kulttuuriperintöä, niihin liittyvää muistamista, historiaa, suojelua ja säilyttämistä.

Digitaalisen kulttuurin opinnot tarjoavat monipuolisia sisällöllisiä, teoreettisia ja menetelmällisiä valmiuksia, jotka ovat sovellettavissa monenlaisissa työtehtävissä. Suuntautumisvaihtoehdon kolme painopistealuetta, teknologian kulttuurinen muutos, pelikulttuurit sekä verkkoyhteisöt ja sosiaalinen media, ovat vahvasti läsnä opetuksessa paitsi temaattisesti, myös tapausesimerkkien ja käytännön sovellusten muodossa. Opetus ja tutkimus kulkevat käsi kädessä: kursseja kytketään käynnissä oleviin tutkimushankkeisiin, jolloin opetus pohjautuu tuoreimpaan tutkimukseen ja opiskelijat osallistetaan tutkimuksen tekoon.

Lisätietoa tutkinto-ohjelmasta

Digitaalisen kulttuurin suuntautumisvaihtoehto

Tutkinto-ohjelman opinto-opas

Kieli- ja käännöstieteiden tohtoriohjelma Utuling

Utuling kouluttaa monipuolisia kielen asiantuntijoita maailmaan, jossa kielten vuorovaikutus sekä monikielisyys ja -kulttuurisuus lisääntyvät koko ajan. 

Utulingissa väitöskirjatutkijoiden tutkimusalat liittyvät kieli-, käännös- ja kirjallisuustieteelliseen tutkimusalaan sekä muihin ihmistieteiden aloihin, jolloin tutkimus on usein moni- tai poikkitieteellistä. Utuling-tohtoriohjelma kattaa kieli- ja käännöstieteiden laitoksen kaikki oppiaineet ja kaksi muuta pääainetta.

Lisätietoa tohtoriohjelmasta

Digitaaliset ihmistieteet kirjallisuudentutkimuksessa

Kurssi tutustuttaa opiskelijan kirjallisuudentutkimukseen liittyviin digitaalisiin ihmistieteisiin. Tutkimusartikkeleita ja teoriaa lukemalla opiskelija oppii tuntemaan digitaalisen kirjallisuudentutkimuksen erilaisia suuntauksia ja hahmottamaan kriittisesti alan keskeisiä keskusteluja.

Kurssin tiedot