Koneoppimisella tarkkoja ennustuksia myös sensuroiduissa datajoukoissa (Väitös: FM Markus Viljanen, 5.5.2021, tietojenkäsittelytiede)

28.04.2021

Koneoppiminen on yksi tekoälyn menestyneistä osa-alueista, jolle on löydetty monia käytännön sovelluskohteita. Turun yliopistossa väittelevän Markus Viljasen väitöstutkimus ratkaisee sensuroidun datan ongelman tietyillä koneoppimisen sovellusalueilla määrittelemällä parittaiseen dataan perustuvia matemaattisia malleja, joiden avulla koneoppimista voidaan soveltaa ennustustehtävään. Uusilla menetelmillä ennustuksia voidaan tuottaa reaaliajassa.

Turun yliopistossa väittelevän Markus Viljasen mukaan koneoppimisen soveltaminen on tänä päivänä helppoa. Koneoppimisen ideana on ratkaista ennustustehtäviä automaattisesti käyttäen niin sanottua yleistä oppimisalgoritmia, joka oppii tekemään ennustuksia kerättyyn historialliseen datajoukkoon perustuen.

– Määrittelemällä datajoukko syötteitä ja oikeita vastauksia ja soveltamalla valmiissa ohjelmointikirjastossa olevaa oppimisalgoritmia tähän datajoukkoon, on mahdollista ennustaa oikea vastaus, Viljanen kertoo.

Moniin käytännön ongelmiin ei kuitenkaan voi suoraan soveltaa koneoppimista, koska datajoukon keräämiseen kuluu liikaa aikaa. Sellaista datajoukkoa, jossa oikeita esimerkkivastauksia ei ole täysin havaittu, sanotaan sensuroiduksi.

– Esimerkkivastausten keräämiseen voi kulua vuosia, jos halutaan esimerkiksi ennustaa, kuinka paljon asiakas kuluttaa rahaa elinkaarensa aikana, miten paljon uusia vertaislainoja maksetaan takaisin, tai kuinka kauan ihminen on työttömänä työuransa aikana. Kutsun tutkimuksessa tämänkaltaista datajoukkoa sensuroiduksi ja se asettaakin haasteita koneoppimisen soveltamiselle, Viljanen sanoo.

Uudet menetelmät mahdollistavat reaaliaikaisen ennustamisen

Nykypäivänä erilaisia ennustuksia halutaan tehdä reaaliajassa samaan aikaan, kun dataa ollaan vielä keräämässä. Markus Viljasen väitöstutkimus esittelee uusia koneoppimisen sovelluksia muun muassa digitaalisen markkinoinnin, vertaislainauksen, työttömyyden ja suosittelujärjestelmien alueilla.

– Tutkimuksessani ehdotettu ratkaisu ottaa huomioon sensuroinnin siinä missä aiemmat ratkaisut ovat käyttäneet vuosia vanhaa historiallista dataa, vastanneet yksinkertaisempaan kysymykseen tai saaneet vääristyneitä tuloksia. Ratkaisu on abstraktilla tasolla jokaisessa julkaisussa sama, mutta sovelluksissa hyödynnetään niitä varten suunniteltua matemaattista kuvausta ja koneoppimisalgoritmia, Viljanen kertoo.

Viljasen tutkimuksessa havaittiin, että koneoppimisella voidaan tuottaa tarkkoja ennustuksia myös sensuroiduissa datajoukoissa, eikä sensuroinnin tarvitse rajoittaa kysymyksiä, joihin koneoppimisella voidaan vastata. Uusilla menetelmillä ennustuksia voidaan tuottaa reaaliajassa ilman että datan keräämiseen käytetään mahdollisesti vuosia aikaa.

***
FM Markus Viljanen esittää väitöskirjansa ”Machine Learning Applications for Censored Data” julkisesti tarkastettavaksi Turun yliopistossa keskiviikkona 5.5.2021 klo 9.00. Väitöstilaisuutta voi seurata etäyhteydellä: https://utu.zoom.us/j/69626086034

Vastaväittäjänä toimii apulaisprofessori Arto Klami (Helsingin yliopisto) ja kustoksena professori Jukka Heikkonen (Turun yliopisto). Tilaisuus on suomenkielinen. Väitöksen alana on tietojenkäsittelytiede.

Turun yliopisto seuraa aktiivisesti koronavirustilannetta ja viranomaisten ohjeita. Yliopisto päivittää ohjeitaan tilanteen mukaan. Ohjeet ja linkit löytyvät osoitteesta: utu.fi/koronavirus

Väittelijän yhteystiedot: markus.viljanen@outlook.com, p. 050 324 7540

Väittelijän kuva

Väitöskirja on julkaistu sähköisenä UTUPubissa