Euroopan avoin kielimalli Poro: eurooppalaisen tekoälyn ja kielten monimuotoisuuden virstanpylväs

21.02.2024

Turun yliopiston TurkuNLP-tutkimusryhmä on saavuttanut merkittävän virstanpylvään, kun Poro-kielimallin koulutus on saatu onnistuneesti päätökseen yhdessä Euroopan suurimman yksityisen tekoälylaboratorion Silo AI:n kanssa. TurkuNLP kehittää suuria avoimia kielimalleja eurooppalaisille kielille osana Euroopan unionin rahoittamaa High Performance Language Technologies (HPLT) -projektia. Poro-mallin julkaisu on ratkaiseva askel pyrkimyksille vahvistaa Euroopan digitaalista suvereniteettia ja demokratisoida suurten kielimallien (LLM) saatavuus kaikilla eurooppalaisilla kielillä. Poro on osoitus uudenlaisen menetelmän menestyksekkäästä soveltamisesta LLM-mallien kouluttamiseen vähäresurssisille kielille.

TurkuNLP ja Silo AI rakentavat monikielisiä avoimen lähdekoodin LLM-malleja, joiden tavoitteena on vahvistaa eurooppalaista digitaalista suvereniteettia ja demokratisoida LLM-mallien saatavuutta. Eurooppalaisten arvojen mukaisten perusmallien kehittäminen on tässä pyrkimyksessä ratkaisevan tärkeää, jotta voidaan varmistaa, että ne perustuvat dataan ja tietoihin, jotka edustavat Euroopan unionin eri kieliä, kansalaisia, organisaatioita ja kulttuurimaisemaa. Tämä lähestymistapa ei ainoastaan vastaa eurooppalaisia arvoja, vaan mahdollistaa myös suvereniteetin siinä, miten ja missä jatkokehityksen sovellukset ja arvonluonti tapahtuvat.

Todistettu lähestymistapa suorituskykyisten suurten kielimallien rakentamiseen vähäisten resurssien kielille

Poron koulutuksen valmistuminen toimii todisteena innovatiivisesta lähestymistavasta, jolla kehitetään tekoälymalleja kielille, joilla on niukasti koulutusdataa. Poro päihittää kaikki olemassa olevat avoimet suomen kielen kielimallit, mukaan lukien TurkuNLP:n aikaisemmin julkaisemat FinGPT-mallit sekä 176 miljardin parametrin BLUUMI-mallin.

Tämä menestys johtuu siitä, että suomen kieli, jonka resurssit ovat vähäiset, on yhdistetty koulutuksessa korkean resurssin kieleen, englantiin. Ryhmä on pyrkinyt määrittelemään optimaalisen datan toistotiheyden vähäresurssisille kielille ja sisällyttänyt koulutusdataan suomenkielisen ja englanninkielisen tekstin käännöspareja. Tässä lähestymistavassa kielten välisellä signaalilla parannetaan mallin ymmärrystä kielten välisistä yhteyksistä, ja se on osoittautunut ratkaisevan tärkeäksi, jotta voidaan saavuttaa erinomainen suorituskyky vähäresurssisessa kielessä tinkimättä suorituskyvystä englannin kielessä.

Poron valmistuminen on osoitus TurkuNLP:n ja Silo AI:n sitoutumisesta tekoälymallien kehittämiseen vähäresurssisia kieliä varten. Poron julkaiseminen avoimen lähdekoodin mallina helpottaa laajamittaista saatavuutta ja yhteistoiminnallista parantamista erityisesti pienempien eurooppalaisten kielten osalta. Tämä lähestymistapa rikastuttaa maailmanlaajuista tekoäly-yhteisöä tarjoamalla arvokkaan resurssin tutkimukseen ja tuotekehitykseen ja on osoitus tietoisesta pyrkimyksestä lisätä kielellistä monimuotoisuutta tekoälysovelluksissa.

Poron valmistuminen on ensimmäinen askel TurkuNLP:n pyrkimyksissä kouluttaa huipputason LLM-malleja kaikille EU:n virallisille kielille.

Poro 34B:n ominaisuudet

Alla on yhteenveto Poro 34B:n tärkeimmistä ominaisuuksista. Mallin arkkitehtuurin, datan ja muiden teknisten tietojen läpinäkyvyyden varmistamiseksi kehittäjät ovat julkaisseet myös virallisen mallikortin.

  • Poro-tutkimuksen tarkistuspisteet: Mallin tarkistuspisteitä julkaistaan koko koulutusprosessin ajan, mikä antaa ulkopuolisille tutkijoille ennennäkemättömän mahdollisuuden tutkia mallin koulutusprosessia.
  • Malliarkkitehtuuri: Poro 34B on 34 miljardia parametria, ja se käyttää BLOOM-arkkitehtuuria.
  • Monikieliset ominaisuudet: Poro on suunniteltu käsittelemään englantia ja suomea, ja se hallitsee useita ohjelmointikieliä. Lisäksi se pystyy kääntämään tekstiä englannin ja suomen välillä.
  • Avoin lähdekoodi: Poro on vapaasti saatavilla Apache 2.0 -lisenssin alaisuudessa, mikä tarkoittaa sovellettavuutta sekä kaupalliseen että tutkimuskäyttöön.
  • Tietokanta: Malli on koulutettu 1 biljoonan sanan tekstidatalla, jossa on edustettuna suomi, englanti, sekä monia ohjelmointikieliä.
  • Koulutuksen yksityiskohdat: Poro koulutettiin käyttäen 512:ta AMD MI250X GPU:ta LUMI-supertietokoneella Suomessa.

Poro on koulutettu vahvaksi perusmalliksi, jota voidaan jatkokouluttaa erityistarkoituksiin. Mallin kohderyhmä on akateeminen ja teollinen tutkimus. Malli ei sovellu tuotantokäyttöön ilman lisäkoulutusta, hienosäätöä ja testausta.

TurkuNLP ja Silo AI haluavat kiittää LUMI/EuroHPC-supertietokoneen ylläpitäjiä laskennallisista resursseista ja teknisestä tuesta, mukaan lukien AMD, HPE ja CSC - Tieteen tietotekniikan keskus. TurkuNLP:n tutkijat ovat saaneet rahoitusta Euroopan unionin Horisontti Eurooppa -tutkimus- ja innovaatio-ohjelmasta High Performance Language Technologies (HPLT) sopimuksella nro 101070350.

Luotu 21.02.2024 | Muokattu 21.02.2024