Sampo
Pyysalo
yliopistotutkija, data-analytiikka
Ota yhteyttä
Julkaisut
Poro 34B and the Blessing of Multilinguality (2025)
NEALT proceedings series
(A4 Vertaisarvioitu artikkeli konferenssijulkaisussa)
Question Answering models for information extraction from perovskite materials science literature (2025)
Communications materials
(A1 Vertaisarvioitu alkuperäisartikkeli tieteellisessä lehdessä )
Annotated textual dataset PV600 of perovskite bandgaps for information extraction from literature (2025)
Scientific Data
(A1 Vertaisarvioitu data-artikkeli tieteellisessä lehdessä)
LSD600: the first corpus of biomedical abstracts annotated with lifestyle–disease relations (2025)
Database: The Journal of Biological Databases and Curation
(A1 Vertaisarvioitu alkuperäisartikkeli tieteellisessä lehdessä )
Register Always Matters: Analysis of LLM Pretraining Data Through the Lens of Language Variation (2025)
(D3 Artikkeli ammatillisessa konferenssijulkaisussa )Got Compute, but No Data: Lessons From Post-training a Finnish LLM (2025)
NEALT proceedings series
(A4 Vertaisarvioitu artikkeli konferenssijulkaisussa)
An Expanded Massive Multilingual Dataset for High-Performance Language Technologies (HPLT) (2025)
Annual Meeting of the Association for Computational Linguistics
(A4 Vertaisarvioitu artikkeli konferenssijulkaisussa)
Scaling Data-Constrained Language Models (2025)
Journal of Machine Learning Research
(A1 Vertaisarvioitu alkuperäisartikkeli tieteellisessä lehdessä )