Väitös (tietojenkäsittelytieteet): DI Kai Hakala

Paikka

EDU 2, EDUCARIUM, Assistentinkatu 5, 20500, TURKU

Aika

5.6.2024 klo 11.00 – 15.00

‎

DI Kai Hakala esittää väitöskirjansa ”APPLICATIONS OF NEURAL LANGUAGE REPRESENTATIONS IN BIOMEDICAL AND CLINICAL TEXT CLASSIFICATION AND NAMED ENTITY RECOGNITION” julkisesti tarkastettavaksi Turun yliopistossa keskiviikkona 05.06.2024 klo 11.00 (Turun yliopisto, Educarium, EDU2, Assistentinkatu 5, Turku).

Vastaväittäjänä toimii professori Hanna Suominen (Australian National University, Australia) ja kustoksena professori Filip Ginter (Turun yliopisto). Tilaisuus on englanninkielinen. Väitöksen alana on tietojenkäsittelytieteet.

Väitöskirja yliopiston julkaisuarkistossa: https://urn.fi/URN:ISBN:978-951-29-9726-8

***

Tiivistelmä väitöstutkimuksesta:

Biolääketieteen tutkimuskirjallisuuden ja hoitotyöstä muodostuvan dokumentaation runsauden aiheuttama informaatiokuormitus ja dokumentaation laadulliset ongelmat tuottavat haasteita biolääketieteen tutkimusyhteisölle sekä vaikeuttavat kliinistä päätöksentekoa.

Lisäksi dokumentoinnin luoma taakka vaikeuttaa resurssien kohdentamista varsinaiseen hoitotyöhön. Näistä syistä lääketieteellisen tekstin tuottamiseen, standardointiin, rakenteellistamiseen ja tiivistämiseen kehitettyjen työkalujen tarve on korostunut.

Viime vuosikymmenen aikana kieliteknologia on ottanut huomattavia harppauksia kielen rakenteen ja merkitysten mallintamisessa. Suuressa roolissa tässä kehityksessä ovat olleet neuroverkkoihin perustuvat kielimallit, jotka ovat tilastollisia malleja kirjoitetun kielen rakenteista ja merkityksistä.

Väitöstutkimukseni tarkastelee neuroverkkopohjaisten kielimallien käyttöä kliinisessä ja biolääketieteellisessä tekstinlouhinnassa etenkin tekstinluokittelun ja tekstinlouhinnan muodossa. Painopiste on neuroverkkoihin perustuvien mallien perusteellisessa arvioinnissa valituissa tekstinlouhintatehtävissä, jotka kattavat kliinisen hoidon dokumentaation, biolääketieteellisen kirjallisuuden sekä sosiaalisen median. Tarkasteltavat tekstilähteet muodostuvat englannin-, espanjan- sekä ennen kaikkea suomenkielisisistä sisällöistä. Tehtävien laaja kirjo antaa hyvän yleiskuvan siirto-oppimisen sovellettavuudesta kliinisen tekstin koneelliseen tulkintaan.

Tutkimukseni tulokset osoittavat, että kehitettyjen menetelmien tarkkuus on tarkastelluissa tehtävissä verrattavissa hoitotyön asiantuntijoihin, mikä tukee vastaavien menetelmien käyttöönottoa aidoissa työympäristöissä. Lisäksi tutkimukseni osoittaa, että tarkastellut kielimallit pystyvät siirtämään oppimaansa tietoa kielten ja toimialojen välillä, sillä tutkimuksessa kehitetyt toimialariippumattomat menetelmät ylittävät toimialakohtaisten verrokkimenetelmien suorituskyvyn. Menetelmien kehittämisen ja arvioinnin lisäksi tutkimuksessa tarkastellaan neuroverkkokielimallien sisäisiä kielen esityksiä. Tämä osuus havainnollistaa neuroverkkomallien kieliesitysten toisiokäyttöä lääketieteellisten ontologioiden kehityksessä.

Viestintä

viestinta@utu.fi

Asiasanat

viestintä