Kohti suomenkielistä keskustelevaa tekoälyä Avoin Avustaja -verkkoalustalla

21.12.2023

Turun yliopiston TurkuNLP-tutkimusryhmä on julkaissut Avoin Avustaja -verkkoalustan, joka kerää vapaaehtoisten käyttäjien keskusteludataa suomenkielisen tekoälyn kehittämiseksi.

Keskustelevat kielimallit ja tekoäly nousivat nopeasti ihmisten tietoisuuteen, kun marraskuussa 2022 OpenAI lanseerasi ChatGPT-verkkopalvelun. Palvelu teki sen aikaisen ennätyksen miljoonasta rekisteröityneestä käyttäjästä lyhimmässä ajassa, vain viidessä vuorokaudessa. Vaikka suomi onkin yksi palvelun tukemista kielistä, jättää sen tuottama englannin kieleen pohjautuva teksti usein paljon parantamisen varaa. Mahdollisimman moninaisen ja selkeän suomenkielisen tekstin tuottamiseksi kielimallin kehityksen tuleekin alkaa jo perusteista lähtien luonnollista suomen kieltä käyttämällä. 

Turun yliopiston kieliteknologian tutkimusryhmä TurkuNLP on tehnyt merkittävää tutkimusta luonnollisen kielen prosessoinnin ja tekoälyn aloilla jo yli 20 vuoden ajan. Vuoden 2023 alussa TurkuNLP julkaisi FinGPT-kielimalliperheen, jonka malleja voidaan käyttää suomenkielisen tekstin tuottamisessa ja monimutkaisempien mallien perustana. Tällä hetkellä TurkuNLP kehittää Silo AI:n tytäryhtiö SiloGen:in kanssa Poro-kielimallia, jonka tavoitteena on ennen pitkää kattaa kaikki viralliset euroopan kielet ja olla paras suomenkielinen kielimalli, jolla on myös merkittävät englannin kielen sekä ohjelmointikielien kapasiteetit.

TurkuNLP on nyt julkaissut suomenkielisen Avoin Avustaja -verkkoalustan. Se pohjautuu aiempaan LAION AI:n avoimen lähdekoodin Open Assistant -projektiin, joka keräsi vapaaehtoisten käyttäjien tuottamaa keskusteludataa monilla eri kielillä. Projektissa tuotettu data oli kuitenkin pääosin englanninkielistä eikä samankaltaista dataa ole saatavilla muualla, joten tutkimusryhmän tavoitteena on luoda suomenkielinen vastine. Kuten Open Assistant, myös Avoimen Avustajan ohjelmakoodi sekä tuotettu data ovat vapaasti ladattavissa ja käytettävissä avoimesta lähteestä. 

- Koska generatiivisesta tekoälystä on tulossa yhä suurempi osa elämäämme, on tärkeää, että suurten yritysten hallitsemille kielimalleille on avoimia vaihtoehtoja. Avoin Avustaja tarjoaa kaikille yksinkertaisen ja hauskan tavan olla osana täysin suomalaisen keskustelevan tekoälyn kehittämisessä, sanoo Turun yliopiston data-analytiikan yliopistotutkija Sampo Pyysalo.

Laajalti tunnetut sovellukset kuten ChatGPT ja Bing AI ovat suljettua lähdekoodia ja niiden kehitysprosessista tiedetään hyvin vähän. Tästä poiketen TurkuNLP kutsuu vapaaehtoisia käyttäjiä mukaan ainutlaatuiseen mahdollisuuteen osallistua suomenkielisen tekoälyn kehittämiseen. Avoimen Avustajan käyttö ei edellytä erityistä teknistä osaamista, ja se on avoin kaikille asiasta kiinnostuneille. Verkkoalustalle rekisteröidytään sähköpostia käyttämällä.

Luotu 21.12.2023 | Muokattu 21.12.2023