Tohtorinhatut (2)

Väitös (digitaalinen kielentutkimus): FM Liina Repo

Aika

30.1.2026 klo 12.00 – 16.00

FM Liina Repo esittää väitöskirjansa ”Machine Learning in Modeling Historical Registers - A New Perspective to Text Linguistics” julkisesti tarkastettavaksi Turun yliopistossa perjantaina 30.1.2026 klo 12.00 (Turun yliopisto, Publicum, Pub2-luentosali, Assistentinkatu 7, Turku).

Vastaväittäjänä toimii apulaisprofessori Daniel Keller (Western Kentucky University, Yhdysvallat) ja kustoksena professori Veronika Laippala (Turun yliopisto). Tilaisuus on englanninkielinen. Väitöksen alana on digitaalinen kielentutkimus.

Tiivistelmä väitöstutkimuksesta:

Väitöskirjani tarkastelee sitä, miten koneoppimismenetelmät pystyvät erottamaan eri tekstilajeja historiallisista aineistoista ja siten auttavat hahmottamaan kielen vaihtelua. Selvitän erityisesti, miten eri tekstilajit, kuten kirjeet, oikeustapaukset tai esseet, vaikuttavat kielen vaihteluun historiallisissa aineistoissa.

Keskeinen tulos on, että koneoppimisen avulla on mahdollista tunnistaa historiallisten tekstien tekstilajit yllättävän tarkasti, vaikka aineistot ovat vanhoja, laajoja ja usein myös huonolaatuisia esimerkiksi tekstien digitoinnissa tapahtuneiden virheiden vuoksi. Koneoppimismallit oppivat tunnistamaan tekstilajeille tyypillisiä piirteitä, kuten kirjeiden henkilökohtaisen sävyn tai oikeustapausten muodollisen rakenteen. Selkeät ja yhtenäiset tekstilajit on helppo tunnistaa, mutta epätavalliset tekstit tuottavat enemmän virheitä. Tutkimus osoittaa myös, että tekstin alku on usein paras kohta tekstilajin tunnistamiseen.

Uutta tietoa tutkimukseni tuo erityisesti siitä, miten koneoppimisen menetelmät toimivat historiallisissa aineistoissa ja miksi ne tekevät tiettyjä virheitä. Käytin koneoppimismallien selitysmenetelmiä, joiden avulla voi nähdä, mihin kielellisiin piirteisiin mallit todella kiinnittävät huomiota. Tämä auttaa ymmärtämään sekä mallien vahvuuksia että niiden rajoituksia. Lisäksi tutkimus osoittaa, että näitä menetelmiä voidaan hyödyntää isojen historiallisten aineistojen rikastamiseen uusilla tekstilajitiedoilla.

Tutkimukseni vaikutus ulottuu useille aloille. Se tarjoaa uusia työkaluja historiallisen kielen tutkimukseen, mikä helpottaa tutkijoiden työtä suurten tekstimäärien parissa. Tuloksia voidaan hyödyntää myös esimerkiksi oikeushistorian tutkimuksessa, jossa tekstilajien tunnistaminen auttaa hahmottamaan erilaisten asiakirjojen käyttöä menneisyydessä. Lisäksi työ tukee digitaalista humanistista tutkimusta, jossa teknologiaa hyödynnetään ihmistieteellisissä kysymyksissä.

Viestintä