TurkuNLP ja Silo AI kehittävät uutta kielimalliperhettä pohjoismaisille kielille

12.04.2024

Turun yliopiston TurkuNLP-tutkimusryhmä ja Euroopan suurin yksityinen tekoälylaboratorio Silo AI ovat julkaisseet yhdessä kehittämänsä uuden kielimalliperheen, Vikingin, ensimmäiset varhaiset versiot. Viking on jatkoa yhteistyössä aikaisemmin valmistuneelle, suomen kieltä painottavalle kielimalli Porolle. Viking-perheen mallit pystyvät käsittelemään pohjoismaisia kieliä, englantia ja suurinta osaa ohjelmointikielistä.

TurkuNLP kehittää osana Euroopan unionin rahoittamaa High Performance Language Technologies (HPLT) - projektia monikielisiä avoimia kielimalleja yhdessä Silo AI:n kanssa. Yhteistyön tavoitteena on vahvistaa eurooppalaista digitaalista suvereniteettia ja mahdollistaa suurten monikielisten kielimallien saatavuus kaikille tahoille. Yhteistyössä aiemmin kehitetty Poro on avoin kielimalli, joka päihittää suorituskyvyssään kaikki muut olemassa olevat suomen kielen käsittelyyn kykenevät avoimet kielimallit. TurkuNLP ja Silo AI:n generatiiviseen tekoälyyn keskittyvä tytäryhtiö SiloGen julkaisevat nyt varhaiset versiot Viking-perheen malleista, laajentaen merkittävästi mallien kielitaitoa.

Pohjoismaalaisten kielien sanojen merkityksien ymmärtämisen lisäksi Viking-mallit ovat koulutettu teksteillä, jotka ovat sidoksissa pohjoismaalaisiin kulttuureihin. Mallit ymmärtävät siis paremmin maailmaa, jossa pohjoismaalaiset elävät. Kuten Poro, Viking perustuu koulutustapaan, jossa painotetaan kieliä, joita ei ole paljoa saatavilla kirjoitetussa muodossa verrattuna englantiin tai ohjelmointikieliin. Poroon verrattuna malliperheessä on lisäksi nykyaikaisempi arkkitehtuuri sekä useita eri mallikokoja. Kutakin mallikokoa – 7, 13, ja 33 miljardin parametrin malleja – koulutettiin 2000 miljardia sanaa sisältävällä materiaalilla LUMI-supertietokoneella.

Vaikka Viking-perheen mallien koulutus on vielä kesken, alustavat tulokset niiden suorituskyvystä ovat lupaavat: mallit ovat saavuttaneet hyvän tason kaikilla pohjoismaisilla kielillä ja samalla pysyneet kilpailukykyisinä vastaavien mallien kanssa englannin kielen käsittelyssä.

–  Poro ja Viking todistavat lähestymistapamme tehokkuuden suurten kielimallien kouluttamisessa kielille, joille on tarjolla vain rajallisesti korkealaatuista tekstiaineistoa. Seuraava tavoitteemme on kouluttaa huipputason kielimalleja kaikkia EU:n virallisia kieliä varten, toteaa Sampo Pyysalo.

Eurooppalaiset kielimallit rakentavat Euroopan digitaalista infrastruktuuria ja vahvistavat digitaalista suvereniteettia

Poro- ja Viking-kielimallien kehittäminen on osa TurkuNLP:n ja Silo AI:n strategista tavoitetta vahvistaa kielellistä monimuotoisuutta koko mantereella ja jatkuvasti parantaa suurten kielimallien valmiuksia valta-asemassa olevan englannin lisäksi myös vähäresurssisilla kielillä.

Hyödyntämällä monikielisten mallien uusimpia edistysaskeleita Silo AI ja TurkuNLP pyrkivät luomaan malleja, jotka eivät ole ainoastaan kielellisesti suorituskykyisiä vaan myös edustavat paikallisia arvoja ja kulttuureita. Poron valmistuminen ja Vikingin julkaiseminen ovat ensimmäiset askeleet TurkuNLP:n ja Silo AI:n pyrkimyksissä kouluttaa nykyaikaisia malleja kaikille EU:n virallisille kielille. Nämä etapit osoittavat, että laajemmalle eurooppalaiselle yleisölle räätälöity aloite on hyvässä vauhdissa ja johtaa suorituskykyisiin malleihin.

 

Lue lisää:

>> TurkuNLP:n kotisivut

>> HPLT-hankkeen kotisivut

>> Silon AI:n tiedote 

>> Viking 33B malli 

Luotu 12.04.2024 | Muokattu 15.05.2024