Tohtorinhattu tekniikka 3

Väitös (tietojenkäsittelytiede): FM Riikka Numminen

Aika

8.9.2026 klo 12.00 – 16.00

FM Riikka Numminen esittää väitöskirjansa ”Developing Methods for Predictive Data Science: With Applications to Bayesian Inference, Cross-Validation, and Kernel Methods” julkisesti tarkastettavaksi Turun yliopistossa tiistaina 8.9.2026 klo 12.00 (Turun yliopisto, Agora, luentosali XXI, Vesilinnantie 3, Turku).

Vastaväittäjänä toimii professori Michael Cochez (Åbo Akademi) ja kustoksena professori Tapio Pahikkala (Turun yliopisto). Tilaisuus on englanninkielinen. Väitöksen alana on tietojenkäsittelytiede.

Tiivistelmä väitöstutkimuksesta:

Suurten tietomäärien hyödyntäminen vaatii laadukkaita ja tehokkaita data-analytiikan menetelmiä. Ne eivät kuitenkaan ole yleispäteviä, joka tilanteeseen sopivia, vaan usein olemassa olevia menetelmiä joudutaan muokkaamaan tai kehittämään tilanteeseen sopiviksi. Menetelmien laatua voidaan arvioida useilla eri kriteereillä ja niiden vaatimien resurssien määrä vaikuttaa niiden käytännöllisyyteen. Menetelmäkehitys on tasapainoilua eri ominaisuuksien välillä, eli jotakin ominaisuutta joudutaan heikentämään, jotta saavutetaan parannus toisen ominaisuuden suhteen.

Väitöstutkimuksen lähestymistapa datatieteeseen on teoreettinen ja keskeiset tulokset ovat kehitettyjä ennustavan datatieteen menetelmiä. Väitöstutkimus kattaa koko ennustavan datatieteen prosessin alkaen mallintamisesta ja edeten mallin opettamisen kautta mallin arviointiin. Kehitetyt menetelmät ovat kuitenkin keskenään erilaisia, pohjautuvat eri menetelmiin, liittyvät ennustavan datatieteen prosessin eri osa-alueisiin ja ovat ratkaisuvaihtoehtoja erilaisiin ongelmiin.

Ensimmäisenä kehitettiin menetelmä, jolla voidaan ennustaa ilmaisten mobiilipelien tuottavuutta jo lyhyellä aikavälillä kerätystä datasta. Pelin tuottavuutta tarkasteltiin siltä kannalta, että kuinka suuri osa sitä pelaavista henkilöistä tekee pelin sisäisiä ostoja oikealla rahalla saadakseen esimerkiksi lisäsisältöä tai etuja. Menetelmä perustuu tilastolliseen malliin, joka arvioi pelaajien todennäköisyyttä käyttää peliin oikeaa rahaa ja tuottaa arvion pelin tuottavuudesta ilman pitkää datankeruujaksoa.

Toisena kehitettiin tapa nopeuttaa menetelmää, jolla voidaan arvioida luotettavasti pienellä aineistolla opetetun kaksiluokkaisen luokittelijan ennustuskykyä. Ennustuskyvyn mittarina käytettiin ROC-käyrää, joka kuvaa mallin kykyä erottaa kaksi luokkaa toisistaan eri päätöskynnyksillä. Kun dataa on vähän, mallin arviointi tehdään yleensä toistamalla opetus ja testaus useilla samalla periaatteella määritellyillä opetus-testijaoilla ja laskemalla tuloksista keskiarvo, mutta tämä on hidasta, koska malli täytyy opettaa jokaisessa jaossa uudelleen. Uusi menetelmä vähentää keskimäärin tarvittavien jakojen määrää hyödyntämällä lajitteluun perustuvaa laskentaa, jolloin ROC-käyrä saadaan arvioitua nopeammin ilman että luotettavuus kärsii.

Kolmantena kehitettiin parittaiselle datalle oppimisalgoritmi, joka oppii datasta harvan hypoteesin: se asettaa suurimman osan havaintoihin liittyvistä painokertoimista nolliksi, jolloin ennuste perustuu vain pieneen osaan havainnoista. Käyttämässämme parittaisessa datassa on lääkeaineita ja kohdeproteiineja, joiden yhteisvaikutuksesta ollaan kiinnostuneita. Menetelmä hyödyntää ydinfunktiomenetelmien kykyä mallintaa monimutkaisia riippuvuuksia, mutta keskittyy kuitenkin vain ennustustehtävän kannalta olennaisiin havaintoihin tehden opitusta hypoteesista helpommin tulkittavan. Näin saadaan hypoteesi, joka on samanaikaisesti sekä aiempaa ymmärrettävämpi että yleistyy hyvin uuteen dataan.

Numeeriset kokeet olivat oleellinen osa menetelmien toimivuuden arviointia. Niillä saatiin osoitettua menetelmien toimivuus, mutta havaittiin myös rajoitteita liittyen menetelmän ennakko-oletuksista johtuviin vaikutuksiin, menetelmän tuottaman tuloksen yksikäsitteisyyteen ja menetelmän käytettävyyteen.

Viestintä