Väittelijä kehitti menetelmiä suurten datamäärien analysointiin (Väitös: FM Joni Virta, 13.4.2018, tilastotiede)

05.04.2018

Vanhentuneiden analyysimenetelmien käyttö johtaa pahimmillaan siihen, että tutkimusaineistosta katoaa tärkeää tietoa. Joni Virta kehitti Turun yliopistoon tekemässään väitöstutkimuksessa uusia data-analyysin menetelmiä, jotka ottavat huomioon nykyajan tutkimusaineistojen suuren koon ja monimutkaisen rakenteen.

​Turun yliopiston tiedote 5.4.2018

Nykyään tutkimuksissa kerätyt havaintoaineistot ovat alati kehittyvän tekniikan ansiosta satoja kertoja isompia ja rakenteeltaan monimutkaisempia kuin aikaisemmin.

– Valitettavan tyypillinen tapa lähestyä tällaisia aineistoja on, että ne pakottaen tiivistetään sellaiseen muotoon ja kokoon, jossa klassiset analyysimenetelmät pystyvät niitä käsittelemään. Tämä datan luonnollisen rakenteen rikkominen tehdään niin sanotuilla dimensionpienennysmenetelmillä, ja se voi pahimmillaan johtaa siihen, että aineistosta katoaa tärkeää informaatiota, Joni Virta sanoo.

Väitöskirjatyössään Virta tarjoaa vaihtoehtoisen keinon, jossa aineistoa ei pakoteta tiettyyn muottiin, vaan menetelmiä taivutetaan, jotta ne toimivat datan ehdoilla.

– Monia perinteisiä tilastotieteen menetelmiä voidaan laajentaa eri aineistotyyppien vaatimiin tilanteisiin yllättävänkin hyvin. Useimmiten menetelmien ominaisuudet pysyvät vieläpä lähes muuttumattomina, sanoo Virta.

Uudet menetelmät ottavat huomioon aineistojen erityispiirteet

Virta on keskittynyt väitöskirjassaan riippumattomien komponenttien analyysiin, joka on yksi käytetyimmistä dimensionpienennystekniikoista etenkin aivotutkimuksen alalla. Aivokuva-aineistoja mallinnetaan tyypillisesti hyvin isokokoisilla, niin sanotuilla array- tai tensoriarvoisilla satunnaisobjekteilla. Näissä tapauksissa on erityisen hyödyllistä tiivistää data sopivalla, rakenteen säilyttävällä dimensionpienennystekniikalla.

– Vaikka dimensionpienennystekniikoita on olemassa pilvin pimein, suuri osa niistä ei säilytä aineiston rakennetta ja hukkaa täten arvokasta informaatiota. Ongelman ratkaisemiseksi olen laajentanut kaksi tunnettua riippumattomien komponenttien analyysin menetelmää ottamaan huomioon tensoriarvoisten havaintoaineistojen erityispiirteet. Lopputuloksena syntyneet menetelmät ottavat huomioon halutun rakenteen, ja ne ovat myös matemaattisesti hyvin kauniita. Matematiikassa kun tyypillisesti se mikä on kaunista, on myös oikein, Virta toteaa.

Tensoriarvoisten aineistojen lisäksi Virran väitöstutkimuksen toisena tärkeänä osa-alueena ovat olleet nykyään hyvin suositut funktionaaliset aineistot. Funktionaalinen data koostuu nimensä mukaisesti funktioista, esimerkiksi joukolta ihmisiä mitatuista verenpainekäyristä.

– Vaikka funktionaalisen datan teoria eroaa huomattavan paljon perinteisten satunnaismuuttujien käsittelyssä käytettävästä matematiikasta, sain kehitettyä samoista kahdesta riippumattomien komponenttien analyysin menetelmästä luonnolliset versiot myös tälle aineistotyypille, Virta kertoo.

Menetelmiä testataan matemaattisten mallien avulla

Väitöskirjassaan Virta on myös tarkastellut kehittämiensä menetelmien matemaattisia ominaisuuksia.

– Yleensä pohjaksi valitaan joku sopiva todellisuutta heijasteleva malli, joka konkretisoi samalla tavoitteen, eli sen mihin menetelmällä pyritään. Mallin avulla voidaan sitten teoreettisesti tarkastella, kuinka hyvin menetelmä suoriutuu tehtävästään, Virta kuvailee.

Erityisen mielenkiintoisina Virta pitää metodien asymptoottisia ominaisuuksia eli niiden käyttäytymistä, kun havaintojen määrä kasvaa rajatta. Ja vaikka kyseinen oletus on joskus voinut kuulostaa käytännössä järjettömältä, nykyinen datamassojen tulva on tehnyt myös asymptotiikasta relevantimpaa kuin koskaan ennen.

***

FM Joni Virta esittää väitöskirjansa Independent Component Analysis for Non-Standard Data Structures julkisesti tarkastettavaksi Turun yliopistossa perjantaina 13.4.2018 klo 12.00 (Turun yliopisto, Natura, luentosali IX, Turku).

Vastaväittäjänä toimii professori Davy Paindaveine (Université libre de Bruxelles, Belgia) ja kustoksena professori Mervi Eerola (Turun yliopisto). Tilaisuus on englanninkielinen.

FM Joni Virta on syntynyt vuonna 1988 ja kirjoitti ylioppilaaksi Porin suomalaisen yhteislyseon lukiossa vuonna 2007. Virta suoritti korkeakoulututkintonsa (FM) Turun yliopistossa vuonna 2014. Väitöksen alana on tilastotiede. Virta työskentelee tutkijana Aalto-yliopistossa.

Väittelijän yhteystiedot: p. 050 348 3398, joni.virta@utu.fi

Väittelijän kuva: https://apps.utu.fi/media/vaittelijat/virta_joni.jpg

Väitöskirja on julkaistu sähköisenä: http://urn.fi/URN:ISBN:978-951-29-7149-7

Luotu 05.04.2018 | Muokattu 05.04.2018