Hanna-Mari Kupari profiilikuva
Hanna-Mari
Kupari
väitöskirjatutkija, digitaalinen kielentutkimus, espanja, italia, kiina, ranska, saksa
filosofian maisteri - Master of Arts
Keskiajan latinan tutkimus korpuslingvistiikan metodeilla

Ota yhteyttä

Arcanuminkuja 1
20500
Turku

Asiantuntijuusalueet

Keskiajan latina
korpuslingvistiikka
TEI-xml
automaattinen morfosyntaktinen jäsentäminen

Biografia

Olen digitaalisen kielentutkimuksen väitöskirjatutkija Turun yliopistossa Emil Aaltosen säätiön rahoituksella. Yhdistän työssäni keskiaikaiset aineistot uusimpiin nykyaikasiin koneoppimismallintamisen menetelmiin. Maisterin tutkintoni olen suorittanut klassillisesta filologiasta pääaineenani latinalainen filologia. Erityisesti olen kiinnostunut kieliopin tutkimuksesta, määrällisistä menetelmistä ja paikallishistorian näkökulmista.

Olen kiinnostunut tiedeviestinnästä ja toiminut Hiiskuttua verkkojulkaisun apulaispäätoimittajana.

Tohtoriverkosto ry:ssä olen ollut aktiivinen jäsen jo muutaman vuoden ajan.
Opetus

Tarton yliopisto, Viro

A practical workshop on automatic morpho-syntactic annotation of large language corpora using the Universal Dependencies framework. Kevät 2024. Viiden tapaamisen väitöskirjatutkijoille ja henkilökunnalle suunnatun työpajamuotinen kurssi automaattisesta kieliopillisesta jäsentämisestä. Käsiteltävät aihepiirit: teoria, käsitteet, jäsennystyökalut, oman puupankin rakentaminen käytännössä. 

Kurssin nettisivu:

https://github.com/HannaKoo/ParsersTartu

https://maailmakeeled.ut.ee/en/content/multi-day-practical-workshop-automatic-morpho-syntactic-annotation-coming

Klassillisten kielten kurssi: Digitaalisten resurssien kurssi. Treebanks and automatic linguistic annotation for Classical Languages. Kevät 2024. Yksi luento kandivaiheen opiskelijoille.

Turun yliopistossa

Digitaalinen vuorovaikutus luentokurssi, kevät 2024. Tietokoneavusteisten menetelmien käyttö kieliopin jäsennyksessä. Yksi luento.

Korpuksia ja kieliteknologiaa kurssi perustutkinto-opiskelijoille, syksy 2023. Viisi luentoa. Käsiteltävät aihepiirit: opiskelijaprojekti, eettiset näkökulmat ja generatiiviset kielimallit, nimitettyjen entiteettien tunnistus, sentimenttianalyysi, automaattinen morfosyntaktinen jäsennys, kielen esittäminen vektoreina sekä ohjattu ja ohjaamaton koneoppiminen.

Kielimaisemat kurssi perustutkinto-opiskelijoille, kevät 2023. Yksi luento yhdessä professori Marko Lambergin kanssa "Historiallisten kirjallisten lähteiden näkökulmia kielimaisemiin Turussa".


Tutkimus

Nykyaikaiset menetelmät - keskiaikaiset lähteet

Digitaalisten ihmistieteiden väitöskirjassani tutkin keskiaikaisia apostolisia penitentiariaattiasiakirjoja ja Registrum ecclesiae Aboensis -kopiokirjaa korpuslingvistiikan menetelmin. Tarkastelen keskiaikaisen latinan kielenkäyttöä ja kielellistä variaatiota (eli rekisterianalyysiä) metatiedoilla rikastettujen ja morfosyntaktisesti annotoitujen korpusten avulla. Työni edistää avoimen tieteen periaatteita, ja julkaisen kaiken koodini, aineistoni ja tulokseni kaikkien hyödynnettäväksi.

Olen TurkuNLP- ja TUCEMEMS-tutkimusryhmien jäsen.

Apurahat

Työni ovat mahdollistaneet Emil Aaltosen säätiö -rahoitus 2022-2024, Turun yliopistosäätiön matka-apuraha 2023, Turun yliopiston tutkimusapurahat 2022 ja 2021, Suomen Kulttuurirahaston Varsinais-Suomen maakuntarahaston apuraha 2021, Uskelan opintorahastosäätiö 2020. Lisäksi olen saanut Turun yliopistosäätiön Villa Tammekann -stipendin (Tartto, Viro) 2023 ja 2024. Tammikuussa 2024 työskentelin Suomen Rooman instituutissa väitöskirjani parissa penitentiariaattiarkistossa ja tein kirjastovierailuja.


Julkaisut

Järjestä:

FinGPT: Large Generative Models for a Small Language (2023)

Conference on Empirical Methods in Natural Language Processing
Luukkonen Risto, Komulainen Ville, Luoma Jouni, Eskelinen Anni, Kanerva Jenna, Kupari Hanna-Mari, Ginter Filip, Laippala Veronika, Muennighoff Niklas, Piktus Aleksandra, Wang Thomas, Tazi Nouamane, Scao Le Teven, Wolf Thomas, Suominen Osma, Sairanen Samuli, Merioksa Mikko, Heinonen Jyrki, Vahtola Aija, Antao Samuel, Pyysalo Sampo
(Vertaisarvioitu artikkeli konferenssijulkaisussa (A4))