Koodaus auttaa tallentamaan suuria tietomääriä (Väitös: FM Toni Ernvall, 13.2.2015, matematiikka)

06.02.2015

Kun suuren tietomäärän haluaa tallentaa turvallisesti, data täytyy koodata uuteen muotoon. Turun yliopistossa väittelevä Toni Ernvall esittelee tutkimuksessaan uusia tehokkaita ratkaisuja tiedon tallentamiseen ja tutkii tiedon säilytykseen liittyviä teoreettisia rajoja.

 

​Internetin aikakaudella tallennettavan tiedon määrä on kasvanut räjähdysmäisesti. Suuret datakeskukset säilövät valtavia määriä tietoa ja moni tavallinen kuluttajakin on tekemisissä esimerkiksi pilvipalvelujen kanssa.

Tiedon hajautettu säilytys on yksinkertaisessa muodossa kaikille tuttua puuhaa. Esimerkiksi tietokoneella olevasta tiedostosta voi ottaa muistitikulle kopion. Tässä tietoa on hajautettu kahteen eri fyysiseen tallennusyksikköön. Jos tietokone hajoaa, tieto on muistitikulla yhä tallessa ja toisin päin. Toisaalta yhden tiedoston säilyttämiseen tarvitaankin nyt kaksinkertainen määrä tallennustilaa.

– Kun säilytettävää tietoa on valtava määrä, myös fyysisiä tallennusyksiköitä on paljon. Tällöin todennäköisyys jonkun tallennusyksikön hajoamiselle kasvaa suureksi. Tallennusjärjestelmää suunniteltaessa pitää siis huomioida, että tietoa ei saa kadota, vaikka osa tietoa säilövistä yksiköistä menisi rikki tai olisi muuten poissa käytöstä, Ernvall sanoo.

Ernvallin mukaan tämä saavutetaan koodaamalla data uuteen muotoon siten, että siihen on lisätty alkuperäistä informaatiota muunnetussa ja tiivistetyssä muodossa. Koodaus pitää tehdä niin, ettei tarvittava tallennustila kasva kohtuuttomasti.
Kun järjestelmä on suuri, siinä täytyy tehdä usein korjauksia. Pitää siis varmistaa, että systeemi on suunniteltu siten, että korjaukset eivät vaadi liikaa resursseja.

– Yksinkertaistetusti voisi sanoa, että mitä paremmin tiedon haluaa olevan turvassa ja mitä helpompia korjausten haluaa olevan, sitä enemmän tiedon säilytys vaatii resursseja, eli fyysistä tallennustilaa. Näiden asioiden välinen suhde on kuitenkin mutkikkaampi kysymys. Matematiikan avulla voimme tutkia näitä teoreettisia rajoja, Ernvall toteaa.

Oikea koodityyppi valitaan tarpeen mukaan

Hajautettu tallennus kattaa monia erityyppisiä tallennusratkaisuja, eli koodeja. Ernvallin väitöstutkimuksessaan käsittelemät koodityypit olivat: “functionally regenerating codes”, “exact-regenerating codes” ja “locally repairable codes”. Korjausmetodille asetetut vaatimukset erottavat koodityypit toisistaan.

– Tiettyihin tilanteisiin tarvitaan koodeja, joissa korjaukset pystytään suorittamaan mahdollisimman helposti, kun taas toisissa tapauksissa on oleellista, että järjestelmä kokonaisuudessaan tarvitsee mahdollisimman vähän tallennustilaa. Sekin riippuu tilanteesta, pitääkö järjestelmän olla varautunut siihen, että yhtä aikaa rikkoutuu monta erillistä tallennusyksikköä, Ernvall kertoo.

– Jos tarkoituksena on esimerkiksi arkistoida tietoa, jota ei tarvitse lukea usein, ei haittaa, jos järjestelmä on suunniteltu niin, että tiedon palauttaminen vie hiukan pidempään. Sitä vastoin on luultavasti oleellista, että tieto on hyvin varmasti suojattu mahdollista laitteiston hajoamista vastaan, hän lisää.

***

Perjantaina 13. helmikuuta 2015 kello 12 esitetään Turun yliopistossa (Quantumin auditorio, Vesilinnantie 5, Turku) julkisesti tarkastettavaksi FM Toni Ernvallin väitöskirja On Distributed Storage Codes (Hajautettuun tallennukseen tarkoitetuista koodeista). Virallisena vastaväittäjänä toimii professori Joachim Rosenthal Zürichin yliopistosta Sveitsistä ja kustoksena dosentti Jyrki Lahtonen Turun yliopistosta.

FM Toni Ernvall on syntynyt 1986 Turussa ja kirjoittanut ylioppilaaksi vuonna 2005 Kastun lukiosta. Filosofian maisteriksi Ernvall valmistui 2011 Turun yliopistosta, jossa hän parhaillaan toimii tohtorikoulutettavana. Väitös kuuluu matematiikan alaan.

Luotu 06.02.2015 | Muokattu 29.07.2021