Kuvituskuva, jossa kaksi ihmistä mikrofonin ääressä

Statistiikan aalloilla

Kiinnostaako sinua tutkimusdatan analysointi ja tilastollinen ajattelu?

Sukella tilastotieteen maailmaan uudessa Statistiikan aalloilla -podcastissa! Biostatistiikan yksikkö on kutsunut studioon asiantuntijoita jakamaan tietoa tutkimuksen tekemisestä ja datan analysoinnista. Podcastin avulla voi kehittää tilastollista ajattelua.

Kuuntele ja opi ymmärtämään tutkimusta ja dataa paremmin – Statistiikan aalto kerrallaan!

Kuuntele SoundCloudissa, Apple Podcastsissa tai Spotifyssa!

Jaksojen kuvaukset ja tekstivastineet

Tilastollinen oppiminen

Tilastollinen oppiminen voidaan määritellä menetelmäkokonaisuudeksi, jolla voidaan mallintaa ja ymmärtää monimutkaisia aineistoja. Käytännössä tämä tarkoittaa monesti perinteisten tilastollisten menetelmien päivittämistä kohti modernimpia, mahdollisimman yleistettäviä oppivia malleja. Tilastollinen oppiminen on saanut paljon vaikutteita tietojenkäsittelytieteestä ja varsinkin koneoppimisesta; monesti tilastollista oppimista ja koneoppimista saatetaankin käyttää lähes synonyymeinä toisilleen.

Tässä Statistiikan aallossa tilastotieteen professori Henri Nyberg kertoo mm. tilastollisen oppimisen historiasta, eri mallinnusmuodoista, sekä harhan ja varianssin välisen suhteen tärkeydestä. Tämä podcastin jakso sopii kaikille, joita kiinnostaa ymmärtää syvemmin, mitä tilastollinen oppiminen on ja mitä tulevaisuuden näkymiä sillä voi olla.


 Tervetuloa jälleen statistiikan aalloille.
Olit sitten opiskelija, tutkija tai ihan muuten vaan kiinnostunut tilastotieteestä, niin hienoa, että sä oot kuulolla.
Minä olen biostatistikko Markus Riskumäki ja tänään minulla on haastateltavana professori Henri Nyberg Turun yliopistotilastotieteen laitokselta.
Tervetuloa.
Kiitos.
Ennen kuin me päästään itse tähän päivän aiheeseen eli tilastolliseen oppimiseen, niin haluaisitko kertoa vähän itsestäsi ja sun taustoista?
Joo, eli kiitoksia Markus ja mukava olla mukana statistiikan aalloilla. Tosiaan mun tausta, niin no ensinnäkin nyt tällä hetkellä, niin mä olen tosiaan täällä matematiikan ja tilastojen laitoksen tilastieteen oppijainen vastaavana, myöskin koko laitoksen varajohtajana, samoin itse asiassa mun vastuulla on tämän Turun yliopiston tilastieteen keskuksen ja myöskin ekonometrian tutkimusryhmän kipparointi, eli aika paljon kaikenlaista tällaista tällä hetkellä.
Mutta tosiaan, jos puhutaan näistä opinnoista, mihinkä ehkä tuossa palataankin vielä vähän myöhemmin, niin tosiaan mun opinnot on Helsingin yliopistosta, eli mä oon tosiaan HYN kasvattaja ja tilastieteen puolelta siis, ja mun opinnot on alkanut 2002 vuonna siellä, ja jälleen tähänkin, tuossa palataan vielä myöhemmin, kun pohditaan tämän tilastollisen oppimisen kehittymistä, niin tosiaan sieltä lähtien, ja no käytännössä sitten tämä viimeinen vaihe väitöskirjan osalta, niin tämä on käytännössä toteutettu sillä tavalla,
Mä oon ollut taloustieteessä Helsingin yliopistossa töissä vuodesta 2007 alkaen. Väitellyt 2010 jälkeen tilastieteestä, mutta tosiaan ollut taloustieteen puolella töissä.
Ja sitten postdoc-vaiheessa mä oon ollut yhden vuoden Cambridgein yliopistossa myöskin postdocina. Ja nyt sitten Turun yliopistossa vuodesta 2015 alkaen.
Silloin yliopiston lehtorina aluksi, mutta nyt sitä sitten pikkuhiljaa edennyt tähän tehtävään.
Tässä välissä on tullut oltu yksi vuosi näiden TEY-töiden lisäksi myöskin määräaikaisena professorina Tampereella taloustieteen puolella.
Tosiaan mun sovelluskentä on nyt tuolla ekonometrian ja haikasharjan analyysin puolella.
Tässä äsken mainittiin, että mä oon Helsingin yliopiston taloustieteen puolella ollut töissä, niin heidän kanssaan edelleen vahvaa tutkimuksellista ja opetusyhteistyötä.
Näin. Mutta ehkä se, mikä tässä nyt myöskin ilmenee tässä keskustelussa, niin mun tausta on kuitenkin tällainen klassinen tilastotieteilijän tausta, eli mulla ei ole tällaista mitään koneoppimistaustaa varsinaisesti opintojen osalta, eli sieltä klassiselta puolelta olen nyt sieltä ponnistanut eteenpäin.
Okei. Tämä klassinen tilastotieteilijän tausta nyt sitten tarkoittaa juurikin sitä, että sä et ole varsinaisesti opiskellut tämmöistä koneoppimista, niin kuin sanoitkin, niin oliko sitä edes mahdollista opiskella sun yliopistoaikoina?
Joo, eli pitää paikkansa. Eli tällä terminologialla en ole opiskellut kyllä tilastollista oppimista aikanaan siinä opintovaiheessa. Eli ei ollut tällaista vastaavaa AI ja koneoppimishypeä siihen aikaan, kun mä olen opiskellut.
Kyllä tietojen käsitytiede itse asiassa oli aika vahva näillä silloin vuosituhannen vaihteen jälkeen ja näin, mutta tosiaan näillä terminologioilla ei.
Eli kyllä meidän opintojen vaiheessa suurinta hottia oli melkein se, että PDF-tiedostot tuli silloin isommaksi osaksi kurssien materiaaleja, eli se oli sitä kuuminta hottia siihen aikaan.
Niin justiin.
Eli ei varsinaisesti nää tilastoissa oppimiseen tyypillisesti luettavat menetelmät.
Eli tosiaan näitä kursseja ei ollut mahdollista samalla lailla opiskella siihen aikaan.
Eli kyllä tämä on ihan näiden viimeisten vuosien tulosta laajemminkin Suomessa käsittääkseni.
Totta kai nyt sitten tuossa jälleen kerran myöhemmin palataan vielä tähän koneoppimisen ja tilastoisen oppimisen yhteyteen,
mutta siis koneoppimisen puolella tietysti voi ajatella, että ehkä on ollut jopa tarjolla tämän tyyppistä,
mutta ei tosiaan näillä terminologioilla ja tällä ikään kuin tällä tyyppisellä hypellä, mikä tässä nyt on ympärillä, niin ei.
Okei. No minkä takia sinä olet nyt sitten kiinnostunut näistä oppimista malleista?
Että sinähän opetatkin turviyliopistossa tilastollisen oppimisen kursseja.
Joo, kyllä vaan. Eli kyllä mä sanoisin, että tässä ehkä tämmöinen iso kuva oikein on oikeastaan se, että uudistumiskyky, niin se on kyllä hirveän tärkeä. Se on näitä ihan isompia oppeja, mitä tässä nyt ylipäätään elämän ja matkan varrella on saanut. Eli asia kuin asia, niin tällainen muuttumiskyky, uudistumiskyky on kyllä hyvin tärkeä.
Ja kyllä tässä on yksi sellainen asia just, mikä varmaan on siinä pitkälti taustalla, että minkä takia mä olen nyt sitten näitä kursseja muun muassa pitänyt ja myöskin perehtynyt jonkun verran näihin menetelmiin.
No sitten toinen puoli on tietysti tämä äsken mainitut nämä oppiaineen vastaavuuteen liittyvät ikään kuin seikat, niin kyllä itse koen sen niin, että nämä tilastoiden oppiaineen kipparina, niin kyllä se aika paljon on myös mun vastuulla alaperillä niistä kehitystrendeistä ja muista.
Ja tässä ilman muuta on sellainen trendi olemassa, josta on meidänkin syytä täällä perillä olla. Eli kyllä tässä on ehkä tämmöinen velvollisuuden tunto ja mielenkiinto ja monella tavalla ikään kuin monet seikat taustalla, että mistä tämä kiinnostus on tullut.
Eli näin. Mutta kyllä mä luulen, että me kaikki, jotka tosiaan tilastieteen ympärillä tai tässä lähimaastossa eri sektoreilla ollaan toimittu, ollaan havaittu, millä tavalla tosiaan tämä koneoppiminen, tilastollinen oppiminen, tämän tyyppiset mallit on tosiaan lyönyt vahvimmin ja vahvimmin läpi tässä viime vuosina. Eli kyllä tässä on ihan tällaista laajemmastakin trendistä nyt kysymystä.
No, mutta sitten päästäänkin tähän itse aiheeseen, niin mitä on tilastollinen oppiminen ja miten se eroaa tästä klassisesta tilastieteestä?
No niin, nyt päästiin näin paljon vaikeampiin kysymyksiin.
Eli ehkä voidaan aloittaa siitä, että tässä varmaan aika paljon kysymys nyt sitten siitä,
että keltä tosiaan ylipäätään edes kysyy.
Eli mun käsittääkseni ei meillä mitään tästä kovin yleistä määrittelyä ole sille,
että mitä tilastollinen oppiminnot täsmällisesti ottaen on,
ja millä tavalla se nyt tosiaan eroaa tilastietoista tai koneoppimisesta tai näin poispäin.
Eli jos lähdetään nyt sitten siitä liikkeelle, niin ehkä mä sanoisin näin,
että näissä tilastollisen oppimisen menetelmiissä meillä on enemmän painoarvoa ikään kuin esimerkiksi ennusteiden tekemisessä, ylipäätään pyritään ikään kuin analysoimaan sen varsinaisen ikään kuin opetusaineiston, sen aineiston siis jonka perusteella tällaisia tilastollisia malleja optimoidaan, siis estimoidaan, niin tavallaan se ennustaminen, ylipäätään se mitä siis tapahtuu sitten kun niitä uusia havaintoja meillä tulee saataville, niin se on yksi puoli tätä.
Toisaalta sitten tähän tilastollisen oppimisen menetelmiin tuetaan näitä ryhmittely- ja klusterointimenetelmiä myöskin, niin se on ehkä toinen puoli nyt sitten myöskin, joka on vahvana tällä puolella.
No joo, mitä on tilaston oppiminen? No jos tuosta nyt joitain muita huomioita vielä, niin jos me otetaan vaikka tuon meillä ja monissa muissakin yliopistossa käytetyn Jamesin Wittenin hastiin ja Tips Hiranin kirjan An Introduction to Statistical Learning määrittely tässä suhteessa, niin he määrittelivät, että tilaston oppiminen on menetelmäkokonaisuus, jolla voidaan mallintaa tai ymmärtää monimutkaisia aineistoja.
No, tämä musta menisi kyllä tilastotieteenkin alle ihan samalla lailla, mutta ehkä siinä korostuu se, että aineistot voi olla vähän jotain muutakin tyyppiä kuin ehkä ne perinteiset tilastoaineistot, mitä meillä on vuosikymmeniä ollut.
Eli tosiaan kyllä ne erot aika, ne on hyvinkin veteen piirttyjä kyllä tilastojeteeseenkin nähden.
Eli musta ehkä yksi tapa ajatella tätä asiaa on niin, että on tilastotiede, jolla jossa on sitten näitä ikään kuin osa-alueita, ja tämä tilaston oppiminen on yksi merkittävä osa tilastotiedettä, ikään kuin oma osa-alueensa, ja siinä on paljon vaikutteita nyt sitten tietojen käsittelytieteestä ja erityisesti koneoppimisesta.
Joo, tuosta koneoppimisesta tulikin mieleen, sä mainitsitkin esimerkiksi nuo luokittelu- ja klusterointiongelmat, joka taas sitten mun kuorvaan esimerkiksi kuulostaa hyvin paljon koneoppimiselta,
Niin miten sitten tilastollinen oppiminen eroaa tästä koneoppimisesta vai eroaako se mitenkään?
No niin, jälleen hyviä vaikeita kysymyksiä lisää.
Eli ehkä mä vaan aloitan itse asiassa vähän samalta aloittaa kuin äskeiseen kysymykseen.
Jälleen varmaan riippuu hyvin paljon siitä, että keltä nyt kysyy.
Eli tämä vastaus, minkä mä nyt annan, niin on ehkä nyt vaan yhden henkilön näkökulman tähän asiaan, mutta näin.
Eli ensinnäkin siis kyllä tämä tilastollinen oppiminen ja koneoppiminen on tosiaan hyvin lähellä toisiaan.
Voi sanoa, että monissa yhteyksissä tuntuu siltä, että niitä käytetään aika suorastaan synonyymeinä. Ehkä kuitenkin sillä on hyvä tähän alkuun ja korostaa. Kyllä minä itse näen, että koneoppiminen on kuitenkin laajempi kokonaisuus ja tilastollinen oppiminen. Eli koneoppimiseen liittyy paljon myöskin sellaisia piirteitä, mitkä nyt ehkä ei enää tilastieteen ja tilastollisen oppimisen puolelle oikeastaan mene.
Kun palataan tuohon vielä hetken päästä. Eli tosiaan ero on minusta aika marginaalinen nyt näiden kahden kesken, ja kyllä se liittyy enemmän tällaiseen, sanoisiko vähän niin kuin markkinointiaspekteihin, eli osa meistä tutkijoista tykkää enemmän käyttää nimenomaan tätä tilastollisuuden oppimisen kulmaa tähän kuin koneoppimista, ja sitten varmasti ehkä tietoinkästynyt tieteessä taas vastaavasti toisinpäin.
Ja kyllä siinä on paljon kyse siitä, että mikä on tutkijan kautta opettaja nyt taustat, miten tähän asiaan ikään kuin suhtautuu.
No jos nyt ajatellaan sitten niitä jotain painotuseroja ehkä, mitä mä olen itse tässä ollut havaitsevinani ja uskoisin, että aika monet pystyvät se myös allekirjoittamaan, niin kyllä tässä tilastoissa oppimisessa aika usein on ajatus siitä, että me pyritään kiinnittämään enemmän huomiota näihin tilastollisiin yksityiskohtiin, ikään kuin tilastollisiin perusteisiin, mitä näiden menetelmien taustalla on.
Eli tilastieteessä tämmöinen tyypillinen malliajattelu, mikä meillä on siellä taustalla, niin kyllä se korostuu tässä tilastollisen oppimisen näkökulmasta tätä aihetta ikään kuin lähestyttäessä, kun taas ehkä koneoppimisessa on enemmän se, että meillä on algoritmeja ja niitä käytetään ikään kuin sanosikaan aika fleksibelisti siellä, eli se mikä toimii, niin se toimii, eikä nyt välttämättä niin mietitä sitä ikään kuin tilastollisempaa puolta, eli ehkä tällainen jonkinlainen ero siinä on.
Ja totta kai tosiaan koneoppiminen on laajempi kokonaisuus muutenkin. Ehkä sitten on hyvä korostaa myös se, että jos tässä nyt näkee jonkinlaisen eron näiden kahden kesken, niin ehkä se paras kokonaistulos kuitenkin päästään sillä, että ikään kuin otetaan niitä molemmista hyviä piirteitä.
Eli kyllä varmasti on monia sellaisia aineistoja ja analyysitilanteita, joissa on ikään kuin luontevampaa ottaa suoraan sieltä sanoisiko koneoppimistyökalu pakista niitä ratkaisuja, eikä niinkään ehkä tilastollisen oppimisen puolelta.
Eli näin. Ja no edelleen, mikä sitä yhdistää, niin on totta kai se, että kyllä tämä suurten aineistojen, monimutkaisten aineiston analyysin, musta koskee molempia. Eli vaikka tuossa nyt toi äskenen määrittely, mikä todettiin tuohon kirjaan liittyen, korosti sitä, että meillä olisi monimutkaisia aineistot, no kyllä siellä koneoppimisessakin niitä monimutkaisia aineistoita on, että jälleen erot on aika pieniä nyt sitten tässä suhteessa.
Eli ehkä tuossa nyt jotain aspekteja tähän, tuossa ehkä myöhemminkin tulee vielä joitain,
mitkä nyt sitten saattaa osoittaa näitä konkreettisempia eroja vielä näiden kahden kesken,
mutta hyvin samoista aihepiiristä on paikoin kyllä tosiaan kysymys.
Nyt kun ymmärretään vähän, mitä tilastollinen oppiminen ehkä tarkoittaa,
niin voitaisiin hieman puhua historiasta tässä välissä, että miten tähän on päädytty
ja kuinka tilastollinen oppiminen on saanut alkunsa?
No jälleen, nyt riippuu aika paljon sitten näkökulmasta, että mistä tähän lähdetään, minkä mä otan nyt tässä kohtaa, niin on aika tällainen yleinen, eli varmaan jos aletaan kaivamaa sitä vähän tarkemmin, niin me pystytään tässä luomaan tämmöinen ihan tilastollisen oppimisen oma historia, että mitkä nyt on ollut ne keskeisimmät vaiheet.
Ennen kuin mennään ehkä noin vähän kauempi historia kohti, niin voisi jopa mainita sen, että tässä on äsken mainittu tämä niin sanottu ISLR-kirja, niin sen naapurikirjat, mitä nyt monesti käytään meilläkin ja monissa muissa yliopistoissa, niin voisi jopa sanoa, että se historia on jopa niinkin lyhyt, että ne aikanaan, kun on tullut markkinoille, niin ne tuntuu dominoivan aika usein niitä kursseja, mitä maailmalla eri yliopistoissa pidetään.
Eli voisi ajatella, että se jopa vasta siitä alkaa jollain tasolla oikeastaan saanut enemmän nyt nostetta, mutta sitten jos mennään sinne pidempään historiaan, niin tosiaan kun nämä tilastotieteen oppimisen menetelmiä on hyvin lähellä tilastotieteen menetelmiä, niin voi ajatella, että oikeastaan se historia on jollain tasolla samanlainen, mikä meillä on tilastotieteen näiden menetelmien osalta.
Eli jos ajatellaan jotain yleistettyihin linaarisiin malleihin muun muassa liittyviä menetelmiä, niin 70-luvulla meillä oli merkittäviä kontribuutioita näistä GLM-tyyppisistä malleista, niin voi ajatella, että siellä on tätä tilastollisen oppimisenkin historiaa tältä osin.
No sitten esimerkiksi nämä linaarista regressiot ja linaarien diskirinantti-analyysi, niin näähän menee sitten vielä paljon pidemmälle menneisyyteen tästä.
Eli oikeastaan sieltä alkaen sitä historiaa nyt sitten on löydettävissä.
No toisaalta puumallit, nyt sitten erilaiset muut laajennukset, niin näitä nyt on sitten alkanut tulla tuossa 80- ja 90-luvun aikoihin.
Ylipäätään ehkä tämä, että ainakin mulle on se näyttäytynyt aina sillä tavalla, että nämä neuroverkot ja vastavat, niin näähän oli ikään kuin tuloillaan jo tuossa vahvasti 80- ja 90-luvulla,
ainakin näissä sanoisiko taloudellisimmissa sovelluksissa, mitkä mulle on itselle tuttuja.
Mutta niissä ehkä käviste vielä siinä vaiheessa vähän niin, että tavallaan se teoria ja menetelmätyypit tavallaan oli olemassa, mutta nyt sitten se laskentateho, mikä tietokoneeseen siihen aikaan oli, niin se ei ollut vielä riittävä ikään kuin hallitsemaan niitä.
No niin, nyt tietysti tilanne on hyvin toinen, eli tavallaan tässä mielessä nyt tämän tyyppiset lähestymiskulmat, niin ei nämä mene enää pois tästä ikään kuin meidän työkalupakista, koska nyt se laskentarutiinit, laskentateho ei enää rajoita tavallaan niiden käyttökelpoisuutta.
Eli sanoisin näin, että tämä historia on siinä mielessä aika pitkäkin, mutta se on myöskin vivahteikas, eli vaikea vähän erottaa sitä, mikä nyt on sitten se historian tämän tilastollisen oppimisen osalta nimenomaan.
Eli se on hyvin vahvasti linkittyneenä myöskin näihin eri kontribuutioihin, mitä nyt periaatteessa oikeastaan tilastieteen puolella on jo näihin liittyen tapahtunut silloin menneisyydessäni.
Joo. Yksi tarkentava kysymys. Sä mainitsit esimerkiksi tämän ISLR-kirjan, mistä puhuit, että voisi ajatella, että nimenomaan tilastollinen oppiminen on vähän siitä lähtenyt, kun se on julkaistu. Koska se on julkaistu? Miten tuoreesta tiedosta ollaan puhutaan nyt tässä?
Itse asiassa ehkä voidaan ottaa vielä seuraavaksi taaksepäin, että ennen tuota ISLR-kirjohan julkaistiin tämä ESLR-kirja, eli Elements of Statistical Learning-kirja, eli tämä ISLR-kirja, sen voisi ajatella, että se on jonkinlaista lastenversio tästä ESLR-kirjasta jollain tasolla, eli se on enemmän tämmöinen vielä johdattelevampi kirja.
Tämä Hastin, Friedman ja Tipsiraanin kirja, niin täytyisi kyllä tarkistaa tätä ulkoa kyllä nyt muista, mutta viimeisten pari vuosikymmenen aikana nämä kirjat on tosiaan tullut markkinoille, eli ei sen kauemman aikaa.
Ja näissä kirjoissahan tosiaan se merkittävä seikka, mikä on ihan mielenkiintoinen myöskin tämän kokonaisuuden kannalta, on se, että nämähän on ollut koko ajan ikään kuin vapaasti saatavilla.
Eli kuka tahansa meistä voi mennä nettiin ja ladata sen version sieltä, ei tarvitse lähteä etsimään sitä mistään muista yhteyksistä netin kautta tai mitään muuta.
Ja toki näitä saa siis ihan ostettuakin myös.
Mutta se, että se on ollut tosiaan vapaasti, jatkuvasti saatavilla nämä kirjat ja myöskin ikään kuin taustamateriaalia niihin liittyen,
niin mä luulen, että tämä on myös osittain ehkä ollut helpottamassa sitä, että miksi just nämä kirjat tuntuvat siltä,
että on aika lailla tällä tilastieteen puolella tuntuu muodostuneen tällaisissa perusteoksissa tällä sektorilla.
Joo. Tuossa historian havinaa-osiossa taas ihan ymmärrettävästi, kun ollaan monesti jo puhuttu tästä,
että miten läheisesti nämä koneoppiminen ja tilastollinen oppiminen on kietoutunut toisiinsa.
Mä mainitsit esimerkiksi puurakenteita tai neuroverkkoja, jotka ehkä yleisesti ihmiset just mieltää koneoppimisen puolelle.
Niin voisiko sulla antaa jotain vähän konkreettisempaa, että millaisia menetelmiä nyt voisi sitten suoranaisesti sanoa
kuulevan just tähän tilastollisen oppimisen piiriin?
Joo, eli jos me ajatellaan, otetaan edelleen taas lähtökohdaksi tämä äsken jo mainittu ISLR-kirja,
Jos me esimerkiksi sen perusteella katsotaan, mitä menetelmiä sinne kirjassa käsitellään, niin siinä on alkuun ihan näitä perinteisiä lineaarisia regressiomalleja, logistisia regressiomalleja, eli ihan tätä peruskauraa, mitä tilastieteessä nyt ylipäätään on.
No sen aikaisin kirjassa on luokitteluun liittyviä myös muita menetelmiä, lineaarista diskriminanttianalyysiä ja tukivektorikonetta. No sitten toisaalta siinä on sitten ikään kuin näille molemmityyppisille muuttujille, eli jatkuville ja diskreetille vastenmuuttujille esiteltyjä menetelmiä, näitä regularisointiin, parametreen sakottamiseen liittyviä menetelmiä, rich- ja lassoestimaattoreita siis ja vastaavia.
Ja toisaalta sitten myöhemmin esitellään myöskin näitä puumenetelmien perusideoita.
Ja ylipäätään nyt sitten myöskin siellä on jakso myöskin nyt sitten näistä tilanteista,
mikä on tietysti monesti läsnä näissä yhteyksissä, eli tällaiset epälineariset riippuvuudet,
miten niitä voidaan mallintaa ja ennustaa.
Eli puhutaan splaineista ja yleisityisistä additiivisista malleista ja näistä.
Eli esimerkiksi nyt tämän tyyppiset menetelmät, niin esimerkiksi tuossa kirjassa on ne,
mitä he on ajatellut, että kuuluu tähän johdatteluun nyt tähän tilastolliseen oppimiseen liittyen.
Mutta tosiaan sitten vielä ehkä se, mikä merkittävä jako siinä kirjassa tapahtuu ja myöskin muissa lähdeteoksissa on tämä jako näyttää niin sanottujen ohjattujen ja ohjaamattomien menetelmien, eli supervised ja unsupervised menetelmien välillä. Eli se myöskin korostuu siinä heidän kirjassa aika vahvasti.
Avaisitko vielä vähän, että mitä siis tarkoittaa, että menetelmä on ohjattu tai ohjaamaton?
Joo, eli tällainen ehkä yleisluonehdinta voisi olla sellainen, että tässä ohjatussa menetelmässä ajatus on se, että meillä on selkeä vastemuuttaja, mitä me pyritään mallintamaan.
Eli jos me ajatellaan, palataan takaisin sinne tilastieteen perusoppimäärään ja kursseille, niin ihan tämmöinen perinteinen regressiomallin idea, jossa meillä ei siellä ikään kuin yhtälön vasemmalla puolella on se joku vaste Y, jota pyritään nyt sitten mallintamaan.
Ja tässä yhteydessä ehkä käytetään sitä terminologiaa opettamaan ikään kuin siinä vaiheessa, kun ikään kuin opetetaan sitä mallia kautta algoritmia ja rakennetaan sitä ikään kuin meidän mallia, sitä meidän opetusaineistoa käyttää.
Eli pyritään ikään kuin saada mallinnettua tai ikään kuin ennustettua sen opetusaineiston sisällä sitä vastenmuuttaja mahdollisimman hyvin, jotta nyt sitten kun siirrytään myöhemmässä vaiheessa sinne ennustekyvyn arvioinnin puolelle, niin sitten ennusteet olisi mahdollisimman tarkkoja.
Kun taas nyt siinä ohjaamattomassa menetelmässä oikeastaan voisi ajatella niin, että tällaista vastenmuuttoja ei tyypillisesti oikeastaan ole, vaan ne perustuu ajatukseen siitä, että meillä on tällaisia ryhmittely- ja klusterointimenetelmiä, joilla ikään kuin voidaan esimerkiksi nyt sitten ryhmitellä aineistoja erilaisiin ryhmiin.
Eli ehkä tuossa nyt sitten on se tyypillinen ajatus noiden kahden ikään kuin kategorian taustalta. Eli tämä ikään kuin, miten tämä vastenmuuttoja suhtaudutaan, niin se ikään kuin erottaa enää kaksi kategoriaa.
Joo, eli kuulostaa siis siltä, että se mikä tekee menetelmästä tilastollista oppimista, niin niin kuin mainitsitkin aiemmin, että ikään kuin nämä menetelmät on vähän niin kuin perinteisen tilastotieteen laajennuksia tai modernisointeja, niin siltä se vähän kuulostikin, että peruskauralta, tilastotieteen peruskursseilta, mutta vaan vähän jännittömämmin.
Nyt tulee varmaan vähän kertausta, mutta voitaisiinko vielä käydä vähän tarkemmin, että mistä tässä nyt sitten kumminkin on pohjimmiltaan kyse?
Mitä olisi ikään kuin semmoiset tilastollisen oppimisen kulmakivet?
Joo, no tietysti tuossa jossain määrin ehkä nyt on käsiteltykin jo, mutta ehkä nyt jotain voisi vielä ylisummaa ikään kuin koostaa tuosta.
Eli ehkä nyt sitten tosiaan se ajatus siitä, että meillä voi olla suuria ja monimutkaisia aineistoja. Aineisto on ehkä vähän korostuneempi vielä tällä puolella kuin ehkä tässä perinteisemmässä tilastieteessä, mutta tosiaan nämä erot ovat hyvin häilyviä kyllä tätä nykyään jo.
No, sitten se äsken alussakin on mainittu ajatus sitä, että ehkä tämmöinen ennustaminen, pyrkimys ikään kuin rakentaa sellaisia malleja, jotka tosiaan aidosti toimii myöskin sitten sen jälkeen, kun tulee sitä uutta aineistoa, ikään kuin tämä yleistämiskyky, niin kyllähän tämä aika paljon ehkä vahvemmin on näissä esillä tilastietoissa monesti saatetaan jäädä ikään kuin siihen opetusvaiheeseen, eli pyritään löytää se mahdollisimman hyvä malli sille aineistolle, mikä on käsittelyssä ja sen mukaan mennään, mutta näissä tilastojen oppimisen puolella aika usein mennään sitä vielä askeleita eteenpäin.
Ja joitain nyt sitten tällaisia, ja saatetaan vähän tilastollisempaa taustaa, niin kyllähän tämä harhan ja varianssin välinen kompromissi on tällainen keskeinen rakennuspalikka, joka oikeastaan karakterisoi tätä ikään kuin tilastoista oppimista hyvinkin paljon.
Okei, toi onkin nyt sitten uusi asia. Mitä tämä harhan ja varianssin kompromissi tarkoittaa?
No joo, eli jos tätä nyt sitten tässä hieman yritetään hahmotella taas hyvin yleisellä tasolla menemättä mihinkään yksityiskohtiin kovin tarkoin, niin eli tosiaan ehkä hyvä korostaa, että jotta pääsee tähän vielä syvemmin sisälle, niin suositellaan tilastieteen opintoja nyt sitten hyvinkin paljon ennen sitä jo.
Mutta jos nyt tämä lähdetään siitä, siis tässä on toistunut itse asiassa
jo muutaman kerran tämä sana opetusaineisto, jolla oikeastaan tässä nyt tartutaan
vaan sitä aineistoa, jolla me sitä tilastollista mallia ikään kuin
estimoidaan niitä tuntemattomia parametreja, pyritään ikään kuin
opettamaan sitä mallia mahdollisimman hyvin.
Niin se tosiaan on monesti menneisyydessä ajateltu, että se on se ikään kuin
vähestään lukoon ainoa askel, mikä tilastieteessä on.
No nythän tilanne on nyt sitten se, että jos ajatellaan näitä
tilastollisen oppimisenkin algoritmeja ja kaikkea, mitä tässä nyt kehittyy
jatkuvasti, niin nythän ei ole mikään ongelma enää näillä monimutkaisemmilla
menetelmillä, saadaan ikään kuin syntymään tilanne, että me saadaan lähes täydellinen
sovite aikaiseksi siinä opetusvaiheessa. Eli voi syntyä tällaista sisottua
ylisovittamista, ei välttämättä aina sitä edes, vaan ylipäätä ne algoritmit
on vaan niin hyviä, että ne oppii sen aineiston hyvinkin täydellisesti itse asiassa.
No jos on näin, niin millä se me sitten verrataan näitä meidän eri menetelmiä
keskenään enää siinä vaiheessa? Niin silloin tulee just mieleen, että tämä
yleistämiskyky, ikään kuin ennustekykyhän on se luontava tapa, eli silloin sitten siirrytään
siinä toisessa vaiheessa opetusaineistosta tähän testiaineiston puolelle, jossa ikään kuin
nyt sitä muodostaa aidosti sillä opetetulla mallilla nyt ennusteita niille uusille havainnoille.
Ja nyt sitten saadaan sitä testiaineistoa, ja ikään kuin siellä kuitenkin tapahtuu
sitten ennustevirheitä, niin jos ajatellaan tästä tyypillisintä ehkä tilastieteen
ennustevirhekriteeriä, eli keskinieliövirhettä nyt niille ennusteille, niin voidaan osoittaa,
että tällaisessa, sanotaan esimerkiksi lineaariseen regressiomalliin liittyen,
niin voidaan johtaa tämmöinen esitysmuoto, jossa se ennustevirhe ikään kuin voidaan hajottaa
tällaiseen harha- ja varianssikomponenttiin. Tämä sama argumentti pätee kyllä laajemminkin
eri algoritmeille, mutta ehkä helpointa on ymmärtää sitä nyt tämän lineaarisen mallin ikään kuin kautta.
Niin nyt tilanne on tosiaan se, että jos me verrataan nyt, että meillä olisi tämmöinen joku,
sanoisiko moderni menetelmä, joka tosiaan sovittuu siihen opetusaineeseen tosi tehokkaasti,
niin se tarkoittaa siis silloin sitä, että siinä tyypillisesti tämä ikään kuin harha-aspekti on varsin pieni.
Se ikään kuin pystyy mallintamaan tällaisia hyvin epälineaarisia, monimutkaisia riippuvuuksia,
mitä saattaa olla muuttujen välillä.
Mutta sitten taas se toinen puoli siinä on se, että jos me pikkusen muutetaan esimerkiksi sitä opetusaineistoa,
niin se saattaa herkästi heilauttaa sen ikään kuin mallin implikoimia ennusteita tosi paljon.
Eli tavallaan varianssi on suuri nyt sitten siinä yhteydessä.
Kun taas sitten ehkä näissä perinteisimmissä menetelmissä, kuten tämä lineaarinen regressiomalli,
niin tilanne on juuri vähän ikään kuin päinvastoin.
Eli jos meillä on monimutkainen ilmiö, mahdollisesti hyvinkin epälinearinen ilmiö, niin meillä tulee ikään kuin tiettyä harhaa siihen meidän päättelyyn sen vuoksi, että meillä on vähän ikään kuin liiankin yksinkertainen se malli.
Mutta sitten taas se variansi on tyypillisesti pienempi, koska nyt sitten se ei heila aina niin paljon sen opetusaineiston muutosten perusteella.
Niin tästä syntyy nyt sitten se, että kun me lopulta arvioidaan sitä ennustekykyä, niin yleisesti ei voida sanoa, että mikä ikään kuin menetelmä on yleisesti aina parempi kuin joku toinen.
Koska tosiaan tämä kompromissi on sen kaltainen, että ikään kuin tämä harha tai varjassikomponentti, jompikumpi niistä saattaa dominoida sitä tilannetta.
Mutta se ikään kuin ymmärrys siitä, että meillä on tämmöinen kompromissi siinä vaiheessa, kun mennään sen ikään kuin opetusvaiheen ulkopuolella, on musta tosi fundamentaalinen ja mä itse tykkään tätä myöskin korostaa monesti näissä yhteyksissä.
Eli siitä oikeastaan voi ajatella, että koko tämä tilaston oppiminen ja suorastaan ihan koneoppiminenkin näiltä osin, niin hyvin pitkälti tästä on itse asiassa se kysymys.
Ne eri ratkaisut, mitä meillä sitten on, niin on erilaisia ikään kuin valintoja tässä kompromissin maailmassa.
Joo, ei ole mahdollista saada molemmissa optimaalia tilannetta.
No siis ehkä hyvä korostaa, että nämä on tosiaan tietysti sovellus- ja aineiston riippuvaisia,
eli varmasti tietyissä tilanteissa joku algoritmi tai malli on varmasti paras jopa näissä molemmissa mielissä,
mutta ikään kuin näin yleisellä tasolla, niin tämän tyyppinen jako tässä pystytään kyllä näkemään.
No mitäs sitten sovelluskentät, mihin kaikkein tilastollista oppimista voi käyttää?
No niin, tässä voisi luotella nyt sitä aika joukon niitä sovelluksia.
Eli mä sanoisin näin, että ehkä se yksi syy, miksi tämä on myös aika suosittua monelta tavan nykyään,
on se, että tämä soveltuu melkein sovelluskentälle kuin kentälle.
Eli löytyy eri kentiltä sovelluksia, mistä tätä voidaan käyttää.
Ehkä tällaisia aika klassisia esimerkkejä, mitä nyt näkee,
niin sanoisikin tällaisessa hyvin yleisessä tilastotieteessä saattaisi olla tällaisia, että on jotain esimerkiksi kuva-aineistoa ja pyritään tunnistamaan nyt sitten ikään kuin tiettyjä piirteitä niistä kuvista.
Meillä tulee lopulta sitten se ikään kuin testiaineiston vaihe, missä ikään kuin pyritään sitten ennustamaan, että nähdään kuinka hyvin se algoritmi todella sitten löytää niiden uusien kuvien ikään kuin piirteitä.
Tämä voisi olla yksi esimerkki.
No mulle itselle sitten tutumpia on nämä taloudellisemmat esimerkit ja no ei varmaan tule suurina yllätyksenä, että heti kun ollaan rahan kanssa tekemisissä,
Eli just osakkeiden tuotot, osakemarkkinoiden käyttäytyminen, tämän tyyppinen, niin kyllähän siellä kovasti kiinnostustaa näitä ikään kuin keinoja käyttämään, koska jos me pystyttäisiin puristamaan sitä ennustekykyä enemmän näiden kautta, niin no joku voisi sanoa, että me ei oltaisi täällä podcast-studiossa ollenkaan siinä tapauksessa, jos näin olisi.
Eli tosiaan näitä sovelluksia löytyy kentältä kuin kentältä, eli se riippuu ihan siitä, että mikä ne omat mielenkiinnon alueet on, eli toisaalta voi ajatella niinkin, että oikeastaan aika lailla ne samat sovellukset, mitä nyt tilastotieteen ylipäätäänkin, jos niissä on tämän tyyppisiä piirteitä, mitä nyt tähän tilastolliseen oppimiseen kuuluu, niin nehän on niitä sovelluksia nyt sitten, mitä tällä kentällä tulee vastaan.
Joo, tässä on useampaan otteeseen mainittu siitä, kuinka tilastollinen oppiminen on vähän niin kuin perinteisen tilastotieteen osa-alue, tai että tilastollisen oppimisen mallit tai menetelmät on yleensä tällaisia uudelleen lämmitettyjä versioita ihan perinteisestä tilastotieteestä, niin mitä tulevaisuuden näkömiä nyt sitten tilastollisella oppimisella on verrattuna ihan tällaiseen perinteiseen tilastotieteeseen?
No joo, tässä varmaan päästään tässä ehkä jopa kaikkein mielenkiintoisimpiin vaiheisiin tästä, eli nyt tämä podcast tehdään tänä vuonna, mutta jos joku tätä kuuntelee sitten joskus vuosien päästä, niin voi tulla nauramaan nyt sitten näille ennustuksille, mitä tässä nyt tehdään, mutta tilastieteen ehkä aina voi välistää sitä, etteikö jotain ennusteita pidä tehdä.
No joo, eli jos ajatellaan nyt sitten tätä puolta, niin jälleen kerran ehkä minä toiston vielä sitä, että tässä varmasti nyt riippuu sitten taskelta vähän kysyä, että mikä tämä näkökulma on, mutta siis myöskin mikä näissä lähedetouksissa paljon korostuu, niin liittyy juuri tähän ikään kuin suhteeseen, mikä meillä on ikään kuin näiden tilastollisten menetelmien tulkinnallisuuden kautta sitten tämän fleksibelisyyden välillä.
Eli jos ajatellaan tästä perinteisiä tilastollisia menetelmiä, niin monethan niistä on siinä mielessä hyviä, että me pystytään tekemään ikään kuin hyviä tulkintoja siellä,
jos vaan tietyt oletukset on voimassa ja näin, niin pystytään tulkitsemaan ikään kuin, että mikä tekijä nyt esimerkiksi erityisesti vaikuttaa sitten niihin lopputulemiin ja näin.
Mutta sitten jos me mennään näihin ikään kuin, sanoisiko tosiaan fleksipelimpiin, eli tällaisiin esimerkiksi pehmeempiin menetelmiin,
jotka tosiaan sovittuu sen aineistoon paljon ikään kuin helpommin, tai sanotaan näin, että jos meillä on monimutkaisia aineistoja ja epälineaarisia riippuvuuksia ja muuta,
niin ne kykenevät ottaa tosiaan paremmin sellaisia huomioon, niin niissä sitten tyypillisesti aika usein on taas läsnä sitten se,
että me ei olla, se ikään kuin tulkittavuus kärsii aika paljon siinä, vaikka ne ei pystytä oikeastaan tulkitsemaan oikein mitään,
mitä siellä tapahtuu, eli nämä tämmöiset neuroverkot esimerkiksi joltain osin, toki sielläkin tapahtuu nyt kehitystyötä,
missä pyritään löytämään myöskin vaihtoehtoja, tai ylipäätään nyt siis tilastollisessa oppimisessa ikään kuin voidaan tulkita myös niitä lopputulemia,
mutta joka tapauksessa monesti niistä on sellaisia, että vähän tällaisia mustia laatikkoja ikään kuin, että ei oikein tarkalleen tiedetä,
että minkä takia se ennuste nyt on tietyn kaltainen, tai jos se menetelmä toimii paremmin kuin joku aiempi, niin mistä se ikään kuin paremmuus nyt johtuu,
niin tällaista on hyvin vaikeaa ikään kuin selvittää niissä yhteyksissä.
Mutta tästä me päästään sitten siihen, mitä mä oon itse niin kuin jossain yhteydessä vähän nostanut esille,
eli mä hyvin ymmärrän sen, että tulkittavuutta halutaan jatkossakin, siis optimimaailmassa me halutaan tietysti aina päästä niihin oikeisiin tulkintoihin,
pystyä muodostamaan jopa tällaisia kausaallisuustyyppisiä ikään kuin lopputulemia niistä meidän analyyseistä.
Mutta ainakin varsinkin minä, joka nyt toimin tuolla taloudellisten ilmiöiden parissa, niin ei voi mitenkään välttyä sillä tahtauksilla,
että monet ilmiöt on erittäin kaoottisia, hankalasti mallinnettavia ja myöskin ennustettavia ilmiöitä,
jolloin herää nyt sitten kysymys, että itse asiassa, kun me tätä tulkittavuutta kovasti vaaditaan,
niin kuinka usein me sitten tehdään myös ihan pelkästään ihan virheellisiä tulkintoja toisaalta sen kannalta,
että me käytetään liian yksinkertaisia menetelmiä tiettyihin sovelluksiin.
Tätä puolta monesti myöskin unohdetaan, eli yleensä hypätään vain siihen, että emme käytä näitä ikään kuin pehmeitä menetelmiä,
fleksiibilejä menetelmiä, kun niitä ei voida tulkita, mutta harviin puhutaan tästä toisesta puolesta,
Tällainenkin tässä nyt on ikään kuin tulossa koko ajan enemmän esille.
Eli tämä on tavallaan, jos sanoisiko, ylitulkinta, mikä myöskin voi liittyä näihin tilastollisiin sovelluksiin ja näin.
Tämä ei toki nyt tarvita sitä, että kaikki tulkinat, mitä tehdään tilastollisten mallien perusteella, on tästä eteenpäin jotain ylitulkintoja.
Näin ei missä tapauksessa asia ole.
Mutta tässäkin kokonaisuudessa, niin tämäkin puoli minusta on mielenkiintoista nähdä, miten tämä nyt sitten tulee etenemään jatkossa.
No sitten oma luku on tietysti se, että eri alueillahan on vielä tiettyjä esteitä vähän senkin suhteen jopa, että kuinka paljon voidaan ottaa nyt käyttöön tällaisia uusia moderneja menetelmiä. Toki tässäkin suhteessa koko ajan nyt tapahtuu muutosta ja uskoisin, että seuraavan vuosien aikana mennään eteenpäin tässä suhteessa myöskin.
Mutta ylipäätään siis mielenkiintoista tosiaan nähdä, miten tämä tulee tästä nyt etenemään jatkossani.
Joo, eli tällä hetkellä ainakin molempia tarvitaan ja molemmissa mennään eteenpäin.
Mutta mulla ainakin herää kysymys, että miten sitten vähän kauempana tulevaisuudessa,
että tarvitaanko jossain vaiheessa enää tavanomaista tai perinteistä tilastotiedettä
vai onko se niin sanotusti menneen talven lumi ja tilasto oli se oppimisen tiellä?
No nyt tehdään taas näitä ennusteita tässä yhteydessä. Voidaan palata tähän podcast-sarjaan sitten myöhemmin joskus, niin kauttaan miten tämä sitten meni. Mutta kyllä mä uskoisin, että tämä menee niin, että kyllä tätä perinteistä tilastietoja tarvitaan ja mä sanoisin näin myöskin, että kyllä se aivan hyvin voi edelleen.
Eli kyllä tilastotieteen kentillä on myöskin paljon sellaisia sektoreita, mistä on perinteinen tilastotiede, hyvin määritelty, hyvin ikään kuin tehty tilastotiede, ikään kuin katsotaan, että mallit ikään kuin sovittuu aineistoon, tehdään diagnostisia tarkasteluita, tehdään tilastollisia testejä ja muuta kaikkea, niin kyllä tämä voi edelleen aivan hyvin ja en usko, että se on mitenkään tästä häviämässä nyt sitten seuraavaksi.
Mutta ehkä mä kuitenkin sen haluan korostaa, että kyllä tämä peli on ikään kuin muuttunut ja muuttumassa, eli kyllä se, että tavallaan me ollaan tietoisia siitä, että meillä on myös muita keinoja, että me ei pelkästään rajoittaudu siihen ikään kuin menneisiin menetelmiin jollain tasolla, niin kyllä se on hyvä olla tiedossa ja sinne tavallaan työkalupakissa, mutta tosiaan tulevaisuus nyt sitten näyttää, että millä tavalla tästä nyt sitten tämä ikään kuin kehittyy eteenpäin, eli ylipäätään tosiaan mielenkiintoista nähdä, miten tämä ala kehittyy.
Siis tiedetään, että tämä tilastollinen oppiminen siis ei ole mikään kuin kyljessä.
Kiitos sinulle, Henri, että jait meille asiantuntemustasi.
Jos jotain kuuntelijaa alkoi nyt oikein kunnolla kiinnostamaan nimenomaan tilastollinen oppiminen,
niin haluaisitko sinä kertoa vielä lopuksi, että miten sitä voi opiskella vaikka meillä täällä Turun yliopistossa?
Joo, kiitos. Eli jos ajatellaan nyt sitten tilastollista oppimista näillä terminologioilla,
niin tällä hetkellä ajatellaan niin, että nimenomaan tuolla matematikatilastollinen,
eli meidän puolella on näitä kursseja, eli siellä täytyy aina syöntävistä opinnoista nyt sitten kursseja näillä nimikkeillä.
Ehkä tähänkin mä haluan kuitenkin vielä korostaa sen, että jotta niissäkin menetelmissä ja niissä kursseissa pääsee mukavasti eteenpäin,
pääsee tavallaan kiinni siihen ytimeen, niin ei voi kyllä liikaa korostaa sitä, että ikään kuin näin tilastieteen aineopintovaiheen kurssit,
tilastollisen päättelyn ikään kuin aineopinnot, lineaaristen ja yleistetyt lineaaristen mallien kurssit,
niin kyllä nämä on hyvin tärkeitä ikään kuin ottaa ensin haltuun, jotta sitten pystyy ikään kuin paremmin ymmärtämään,
että millä tavalla tämä tilastollinen oppiminen tosiaan eroaa tästä, sanoisiko, klassisesta tilastotieteellisestä lähestymiskulmasta.
Mutta ehkä on hyvä mainita vielä tähän nyt sitten lisäksi, että ihan tilastollisen oppimisen kurssien lisäksi,
niin meinhän yliopistolla on paljon muutakin tarjontaa muissa oppiaineissa.
Eli esimerkiksi meilläkin matematiikan puolella löytyy nyt sitten koneoppimisen perusteita koskevia kursseja.
Siellä ehkä korostuu enemmän tämmöinen matemaattisuus nyt sitten näiltä osin ikään kuin se matemaattinen puoli.
Ja sitten tietysti tietotekniikan puolella meillä on laajasti kursseja syvää oppimisesta, kielimallit vastaavat, niin niitä löytyy runsaasti sieltä ja niitä voi lämpimästi suositella samoin noita matikan kursseja.
Ja ainakin mun tietääkseni myös muun muassa kauppakorkeakoululla meillä on yksittäisiä kursseja, missä vahvasti tämä tilastollisen oppimisen idea myöskin on mukana.
Eli niitä löytyy monilta eri laitoksilta, eri tiedekunnista ja meiltä muun muassa nyt sitten niitä löytyy ja kaikki kiinnostuneet on sinne hyvinkin tervetulleita nyt kursseille.
Joo, voitaisiin ottaa tähän loppuun vielä lyhyt kertaus, kun tässä meidän puheessa on vilissyt näitä muutamia kirjoja, mitä sä oot mainostanut, niin kiinnostuneille, niin mitä nämä vapaasti saatavilla olleet tilastollisen oppimisen kirjat nyt sitten oli?
Jeps, eli tässä vilahti ainakin kaksi kirjaa nyt tuossa meidän aiemmassa keskustelussa, eli ensimmäinen on tämä An Introduction to Statistical Learning with Applications in R, eli tämä on tämä Garrett Jameson, Daniela Wittenin, Trevor Hastin ja Robert Tipsiraanin kirja.
Eli tämä on oikeastaan tämmöinen johdantokirja nyt sitten tähän tilastolliseen oppimiseen.
Tätä kirjaa on edellisi jo aiempi kirja nyt sitten osin näiltä samalta tekijöiltä,
eli Hastilta, Tipsiraanilta, ja sitten Jerome Friedman oli tässä kolmas tekijä tässä toisessa kirjassa.
Eli tämä toinen kirja on tämä The Elements of Statistical Learning, Data Mining, Inference and Prediction.
Eli nämä kaksi kirjaa on tällaisia kirjoja, jotka tosiaan on vapaasti saatavilla verkosta,
ja pystyy sieltä lataamaan sen oman versioon, mutta toki voi siis myöskin hankkia kyseiset kirjat.
Ehkä mä mainitsen vielä tuosta kolmannenkin kirjan, joka nyt sitten on näiden jälkeen tullut markkinoille,
eli Bradley Efronin ja Trevor Hastin kirja, Computer Age, Statistical Inference, Algorithms, Evidence and Data Science,
eli tässä viimeisessä kirjassa nyt on sitten, ehkä menee pikkusen pidemmälle jo, ainakin tästä johdantovaiheesta,
Eli tässä on vielä enemmän tämmöinen näkökulma, että miltä tavalla tämä ikään kuin, no kuten nimi sanoo, Computer Age Statistical Inference, niin miten tämä tietokoneaika on nyt tätä tilastollista ikään kuin päättelyä muuttanut ja siinä kertaa ollaan myöskin niitä aiempia vaiheita ja nyt sitten näitä tilastollisen oppimiseen liittyviä näkökulmia.
Eli no kolme kirjaa on ehkä tällaisia ydinkirjoja, mitä monesti näkee näissä yhteyksissä käytettävän ja näin myöskin täällä meillä Turun ylopistossa.
Hei kiitos vielä kerran, että tulit tänne vielä haasteeltavaksi.
Ja kiitos sinulle kuuntelija, että olit linjoilla. Toivottavasti tämä jakso innosti sinua oppimaan lisää paitsi tilastollisesta oppimisesta, niin myös yleisemmin tilastotieteestä. Kuullaan taas Statistiikan aloilla.
Tämän podcastin on tuottanut Turun yliopiston lääketieteellisen tiedekunnan biostatistiikan yksikkö.

Väestötutkimus

Väestötutkimukset muodostavat perustan monelle lääketieteelliselle tutkimukselle ja tuottavat ainutkertaista tietoa. Tässä Statistiikan aalloilla -podcastin jaksossa studioisäntä Markus Riskumäki haastattelee apulaisprofessori Suvi Roviota ja tilastotieteen väitöskirjatutkija Noora Kartiosuota Turun yliopiston Sydäntutkimuskeskuksesta. Jaksossa keskustellaan siitä, mitä väestötutkimus tarkoittaa ja miksi sen toteuttaminen on vaativaa, mutta palkitsevaa sekä käydään läpi väestötutkimuksen peruskäsitteitä, kuten pitkittäis- ja poikittaistutkimus. Kuulet myös esimerkkejä suomalaisista väestötutkimuksista, ja kuinka niistä saadut tutkimustulokset ovat ohjanneet kansanterveyden kehitystä ja poliittisia päätöksiä.


Tervetuloa jälleen statistiikan aalloille.
Olit sitten opiskelija, tutkija tai ihan muuten vaan kiinnostunut biostatistiikasta tai kansanterveystieteestä, niin hienoa, että sä oot kuulolla.
Minä olen biostatistikko Markus Riskumäki ja tänään mulla on haastateltavana tutkijoita Turun yliopiston sydäntutkimuskeskuksesta.
Eli dosentti Suvi Rovio sekä statistikko- ja väitöskirjatutkija Noora Kartiosuo. Tervetuloa.
Kiitos.
Ennen kuin aloitetaan, niin haluaisitteko te nopeasti vähän kertoa itsestänne ja taustoistanne, jos vaikka Suvi aloittaa?
Joo, minä olen tosiaan senioritutkijana tuolla sydäntutkimuskeskuksella ollut nyt sellaisen reilu 12 vuotta täällä Turun yliopistolla ja sitä ennen olen ollut tuolla Karolinska-instituutetis Ruotsissa ja siellä kanssa tehnyt tutkimustyötä.
Pitkän aikaa sitten jo tulin tänne sydäntutkimuskeskukselle ja nyt sitten oikeastaan 2019 perustetussa väestötutkimuskeskuksessa toimin senioritutkijana ja myöskin sitten kansanterveystieteellä kliinisena opettajana.
Minun mielenkiinnon kohde on erityisesti kognitiiviset toiminnat ja tutkimus, että voi väestöaineistoilla tehdä tähän aiheeseen liittyen.
Mutta teen myöskin paljon tutkimusta sydänterveydestä ja kardiovaskularisista riskitekijöistä ja tämän tyyppisistä asioista.
Tällä hetkellä minä sitten myöskin vedän tämmöistä akatemia-projektia tai hanketta, joka keskittyy suolistomikrobiston yhteyksiin sekä kognitiiviseen fenotyyppiin eli kognitiivisiin toimintoihin ja sitten myöskin siihen, että miten tämmöiset neurodegeneratiiviset aivoista tulevat biomarkkerit sitten linkkaa tähän suolistomikrobistokoustaan.
Eli tämän tyyppistä tutkimusta teen siellä.
Okei, kiitos. Mites sitten Nora?
Joo, tota niin, niin minä olen tosiaan myös statistikkona tuolla sydäntutkimuskeskuksella ja väestötutkimuskeskuksella.
Sitä kautta tunnen suvin ja olen itse asiassa ollut myös aika pitkään siellä, että melkein kymmenen vuotta sitten menin sinne just vastavalmistuneena kandina.
Ja olen sen jälkeen tehnyt mun gradututkielman itse asiassa keskuksen aineistoista ja tällä hetkellä sitten täällä mun statistikon roollin lisäksi teen väitöskirjaa tuonne tilastotieteen oppiaineeseen.
Ja käytän siinä hyödynnän näitä meidän väestötutkimuskeskuksen tutkimuksia ja aineistoja ja tutkimuskysymyksiä.
Ja tutkin sitten tämmöistä, että miten tilastotieteen keinoin voitaisiin tarkastella näitä tämmöisiä isoja omiikka-aineistoja.
Eli esimerkiksi tämmöinen suvin mainitsema mikrobiomikoostumus tai sitten muunlaisia omiikoita, mitä meidän tämmöisistä ihmisnäytteistä voidaan mitata.
Ja että miten ne voi välittää sitten erilaisten altistusten vaikutusta terveyteen.
Tänään meillä on tosiaan aiheena väestötutkimus.
Ja me ollaan aiemmissa jaksoissa puhuttu hieman jo väestötutkimuksen eri tyypeistä.
Joten tämä alku tulee monelle kuuntelijalle varmasti hieman kertauksena, mutta sehän on vaan hyvä juttu.
Eli otetaan alkun pieni kertaus havainnoivista tutkimustyypeistä.
Eli havainnoivan tutkimuksen päätyypit oli poikkileikkaustutkimus, tapausverrokkitutkimus ja kohorttitutkimus.
Tänään me kuitenkin keskitytään vähän yleisemmällä tasolla poikittaisten ja pitkittäisten tutkimuksien vertailuun.
Päästään siihen kohta.
Mutta mites nämä kaikki liittyy väestötutkimukseen ja mitä ihmettä ne väestötutkimukset ees oikeastaan on?
No väestötutkimukset on tällaisia tutkimushankkeita, jotka perustuu väestöltä kerättäviin tietoihin.
Aika yllättävää.
Ja jos ajatellaan tällaista terveyteen keskittyvää väestötutkimusta, niin silloin ollaan kiinnostuneita väestön terveydestä ja hyvinvoinnista tai toisaalta myöskin erilaisista sairauksista.
Ja sitten näihin terveyteen ja hyvinvointiin ja sairauksiin liittyvistä tekijöistä tai tämmöisistä ilmiöistä, jotka niihin liittyy.
Ja niin kuin tuossa just Markus sanoit, niin ehkä tällainen tyypillisimmillään väestötutkimus on tällaista havainnoivaa tutkimusta.
Eli juurikin niin, että havainnoidaan tiettyä väestön osaa, joka on sitten tietyillä kriteereillä valittu.
Ja nämä tutkimustyypit just, mitkä tässä sitten tämmöisessä havainnoivassa tutkimuksessa tulikin tuossa hienosti kerrattua.
Eli juurikin poikittaistutkimus, tapausverrokkitutkimus ja pitkittäistutkimus.
Joo. Aletaan käymään vähän tarkemmin näitä poikittaisten ja pitkittäisten tutkimuksien eroja.
Ja aloitetaan vaikka poikkileikkaustutkimuksesta, niin mitäs ne oikein pitää sisällään?
No poikkileikkaustutkimukset on tällaisia ajallisia poikkileikkauksia.
Että jos ajatellaan väestötutkimuksen sisällä, niin ajallinen poikkileikkaus siitä väestön osasta tai tietystä lähdeväestöstä, mistä ollaan kiinnostuneita.
Ja poikkileikkaustutkimuksella voidaan tutkia ilmiöiden välisiä yhteyksiä.
Huomioiden se, että silloin nämä eri ilmiöt, joiden yhteyksiä tutkitaan, kuten esimerkiksi vaikka jotkut altisteet ja vaikkapa jotkut sairaudet tai muut tämmöiset vastemuuttujat,
niin ne mitataan tosiaan samaan aikaan.
Eli siinä molemmat on mitattu täsmälleen tai lähes täsmälleen samassa ajan hetkessä.
No mihin näitä poikkileikkaustutkimuksia sitten käytetään ja millaisia haasteita niissä voi ilmätä?
No näitä poikkileikkaustutkimuksia voidaan käyttää esimerkiksi sellaiseen, että tutkitaan ihan jonkun sairauden prevalenssia eli vallitsevuutta.
Ja kuten Suvi tuossa mainitsikin, niin ilmiöiden välisten assosiaatioiden tutkimiseen.
Mutta tosiaan tämä aina perustuu siihen, että nämä mittaukset on tehty yhdessä ajan hetkessä.
Eli jos me tutkitaan jotain altistetta ja sairautta, niin niiden ajallista järjestystä ei voida tämmöisessä asetelmassa todeta ollenkaan.
Ja tällöin se on mahdotonta tehdä mitään johtopäätöksiä siitä, että millaisia vaikutus- tai syyseuraussuhteita mahdollisesti tässä taustalla on.
Eli tällaisia poikkileikkausasetelmia voidaan käyttää enemmän tällaisiin hypoteesien luomisiin eikä todistamisiin niinkään.
Ja sitten näitä hypoteeseja, mitä sitten ollaan luotu tällaisten poikkileikkausasetelmien perusteella, niin voidaan tutkia tarkemmin esimerkiksi pitkittäistutkimuksissa tai interventiotutkimuksissa.
Ja tosiaan, jos ollaan valittu se otos siihen poikkileikkaustutkimukseen hyvin, niin silloin se otos edustaa sitä lähdeväestöä.
Ja tällöin sen tulokset on yleistettävissä siihen populaatioon, mistä se otos on otettu.
Ja näin ollen tämä otanta onkin tosi tärkeä vaihe, kun suunnitellaan poikkileikkaustutkimusta.
Ja haasteita on rajoitteena se, että ei voida tehdä niitä tulkintoja syy-seuraussuhteista.
Ja muutenkin haasteena näissä voi olla valikoitumisharha tai sitten selviytymisharha.
Eli esimerkiksi se, että jos tutkitaan jotain sairautta ja saadaankin mukaan sellaisia tutkittavia, keillä se sairaus on ollut lievempi.
Ja sitten taas vakavammat tapaukset jäävät osallistumatta.
Joo. Siinä tuli poikkileikkaustutkimuksesta, mutta mitä sitten tämä toinen, eli pitkittäistutkimus?
Pitkittäistutkimus tosiaan tarkoitti semmoista tutkimusta, jossa samoilta potilailta seurataan samojen asioiden muutosta ja kehittymistä jonkin pitkä aikavälin yli.
Ja monesti nämä tutkimukset kestää useita vuosia tai jopa vuosikymmeniä.
Kyllä, joo. Olet aivan oikeassa.
Nämä nimet poikkileikkaus ja pitkittäistutkimus on mun mielestä hirmu kuvaavia.
Ja niistä oikeastaan se jo tuleekin hyvin ilmi, että mistä niissä on kysymys ja mikä se ero on.
Jos tuossa just äsken mietittiin poikkileikkaustutkimusta, joka on tämmöinen ajallinen snapshot tavallaan siitä tietystä ajasta, niin pitkittäistutkimus on sitten jotain aivan muuta.
Eli siinä seurataan näitä ilmiöitä tai niiden välisiä yhteyksiä ajassa eteenpäin tai taaksepäin.
Nehän voi olla kumpaa vain, joko prospektiivisia tai retrospektiivisia.
Ja sellainen oikeastaan tyyppipiirre, mikä pitkittäistutkimuksessa on hyvä pitää mielessä, on se, että kun siitä lähdeväestöstä on jollain nooran mainitsemalla tarkalla otantamenetelmällä otettu tämä meidän kohortti, josta me ollaan kiinnostuneita, niin pitkittäistutkimus seuraa tätä kohorttia ajassa.
Eli niitä samoja ihmisiä siinä ajassa eteenpäin.
Ja tästä esimerkiksi hyvänä huomiona on juurikin se, että ne on näitä samoja ihmisiä, että meillä voi olla myöskin sellaisia pitkittäisessä tai ajallisesti pitkittäin olevassa perspektiivissä tällaisia sarjoittaisia poikkileikkaustutkimuksia, jotka helposti sekoittuu näiden varsinaisten pitkittäistutkimusten kanssa.
Eli semmoinen tavallaan kannattaa myöskin pitää mielessä esimerkiksi, jos arvioi pitkittäistutkimusta tai yrittää miettiä jostain tietystä tutkimuksesta, että onko tämä nyt poikkileikkaus vai pitkittäistutkimus, niin poikkileikkauksia voidaan toistaa vaikka samasta lähdeväestöstä sarjassa vaikka viiden vuoden välein, niin kuin on tehty esimerkiksi kansallisessa finriskitutkimuksessa.
Ja silloin se on tavallaan sarja poikkileikkauksia eikä tämmöinen yhden kohortin pitkittäistutkimus.
Okei.
Joo, ja voisin tähän Suvin pointtiin vielä jatkaa, että tosiaan toi on tosi hyvä erottaa nämä kaksi tapausta toisistaan.
Ja toinen esimerkki tällaisesta Suvin mainitsemasta peräkkäisistä poikkileikkaustutkimuksista on vaikka nämä koululaistutkimukset.
Eli esimerkiksi tällaiset kouluterveyskyselyt, niin näitähän toistetaan säännöllisin väliajoin ja niistä aina saadaan tietoa esimerkiksi siitä, että miten suuri osuus kahdeksas- tai yhdeksäsluokkalaisista polttaa tupakkaa.
Ja tälleen pystytään vaikka seuraamaan ajassa tällaisia trendejä, että miten nuorison tupakointikäyttäytyminen muuttuu.
Mutta tässä nyt huomioarvoista on se, että joka kerta kun tämä kouluterveyskysely tehdään uudestaan, niin aina otetaan uudet kahdeksas- ja yhdeksäsluokkalaiset, joilta tämä kysytään.
Eli näin ollen tämä ei kerro yhtään mitään siitä, että miten ne koululaiset, jotka kymmenen vuotta sitten on vastannut tupakoinnistaan, niin on muuttanut tupakointikäyttäytymistään ajassa.
Eli tämän ihan oikean pitkittäisen datan ja pitkittäistutkimuksen tärkeä piirre on se, että näiltä samoilta ihmisiltä on sitten kerätty toistuvasti mittauksia.
Joo, tämä on tosi hyvä pointti just pitkittäistutkimusta miettiessä ja tämä oikeastaan kerii myöskin vähän siihen, että samalla sitten kun tätä samaa kohorttia seurataan koko ajan
tai toistuvasti ajassa, oli se aika tai seuranta-aika jännes sitten lyhyt tai pitkä, että sehän voi olla vaikka yhden vuoden tai sitten se voi olla vuosikymmeniä, niin kuin Markus tuossa mainitsit.
Niin tässä pitkittäis-asetelmassa pystytään just esimerkiksi vaikka tätä tupakointia seuraamaan just tämän yksilön sisällä, että onkohan muuttanut tupakointikäytöstään esimerkiksi siinä seuranta-ajan kuluessa.
Siinä mielessä sama asia voidaan tutkia kyllä ihan monenlaisissa asetelmissa.
Ja tässä mulla itse asiassa tuli vielä lisänä mieleen, kun näitä poikkileikkaus- ja pitkittäistutkimusten eroja miettii, niin jos tuossa poikkileikkauksessa puhuttiin siitä, tai Noora mainitsit, että siinä voidaan tutkia esimerkiksi sairauksien prevalenssia, joka on vallitsevuus siinä tietyissä ajan hetkessä.
Eli voidaan katsoa sitä, että kuinka paljon tiettyä sairautta sairastavia on siinä lähdeväestössä tietyllä ajan hetkellä, niin tämmöisellä pitkittäis-asetelmalla me voidaan tutkia myöskin insidenssiä, eli sitä ilmaantuvuutta sen vaikka kyseisen sairauksen osalta myöskin.
Eli että kuinka usein tai kuinka moni niistä alunperin oireettomista ja terveistä henkilöistä sitten sairastuu tämän seuranta-ajan kuluessa.
Eli tavallaan se näkökulma on aika erilainen myöskin ihan tämmöiseen tietyn sairauden olemassa oloon tai ilmaantumiseen.
Ja sitten oikeastaan toinen, mikä vähän sitten jo valuukin tuonne mallien ja statistiikan maailmaan, niin on myöskin tämä kausallisuusasia.
Eli kun Noora mainitsi tuossa, että poikkileikkausasetelmalla ei voida ottaa kantaa siihen altisteiden ja vasteiden järjestykseen, että onko altiste ennen vastetta vai jopa toisinpäin, niin pitkittäistutkimuksella pystytään hiukan paremmin sitä asiaa myöskin tutkimaan ja siihen asiaan kurkistamaan,
joskaan me ei täyttä varmuutta siitä kausallisuudesta saada siltikään tämmöisellä havainnoivalla tutkimuksella.
Mutta jos ajatellaan, että seurataan vaikka pari vuosikymmentäkin tiettyä kohorttia, niin ehkä siinä on jonkun verran ainakin viitettä siitä, että altiste on ollut ennen kuin vasten.
Niin, parhaassa tapauksessa pystytään ainakin sulkemaan ulos tämmöisen käänteisen kausaallisuuden mahdollisuutta.
Jous. Joo, toi on hyvä pointti. Eli mitä se käänteinen kausaallisuus nuora sitten on?
No, se tarkoittaa sitä, että kun ollaan havaittu joku yhteys altisteen ja vasteen välillä, niin käykin niin, että itse asiassa se vaste, eli vaikka sairaus, onkin aiheuttanut sen altisteen jotenkin.
Eli tämä kausaallisuus menee eri suuntaan kuin mitä kysytään.
Joo, tästä on hyvänä esimerkkinä esimerkiksi vaikka lihavuus ja joku tietty sairaus, että voidaan ajatella, että lihavuus voisi olla vaikka riskitekijä jollekin tietylle sairaudelle, mutta sitten kun se sairauden patofysiologia siellä taustalla jyllää, niin se saattaakin sitten itsessään se tautiprosessi aiheuttaa vaikkapa laihtumista.
Ja jolloin sitten tavallaan riippuen vähän siitä, että missä kohdassa sitä tautiprosessia me ikään kuin leikataan sisään siihen näihin yhteyksiin, niin se vaikuttaa aika paljon siihen, että minkälainen tulos me saadaan.
Niinpä, joo. Ja toinen hyvä esimerkki on vaikka jotkut sairaudet, jotka hankaloittaa liikkumista.
Niin jos me katsotaan yhdellä ajan hetkellä, että ne kellaan, että sairaus liikkuu vähemmän, niin joku voikin sitten olettaa siitä, että vähäinen liikkuminen olisi riskitekijä tälle sairaudelle.
Mutta siinä poikkileikkaustilanteessa me ei voida oikeastaan tietää, että onko se sitten niin päin, että tämä sairaus on hankaloittanut liikkumista, jonka takia ne sairastuneet liikkuu vähemmän.
Joo, tämä on tosi hyvä pointti. Ja myöskin sitten, jos palataan siihen pitkittäisasetelmaan, niin siinä myöskin sitten se seuranta-ajan pituus on tietysti aika tärkeässä asemassa.
Että jos vaikkapa just tutkitaan liikunnan merkitystä jollekin tietylle sairaudelle ja meillä on tosi pitkä seuranta-aika, niin päästään ikään kuin siihen liikuntaan kiinni siinä kohdassa, ennen kuin se tauti on päällä.
Ja sitten jos se vaikka se tauti hankaloittaa sitä liikkumista, niin tietysti mitä lähempänä me ollaan vaikkapa sairauden vaikeaa tai vaikeasti oireista vaihetta, niin sitä vähemmänhän ne ihmiset silloin liikkuvat, jotka tämän sairauden kourissa ovat.
Ja silloin tietysti voidaan just saada ihan erilainen tulos.
Joo. Tästä kaikesta päästienkin vähän niin kuin kivalla aasinsillalla aiheeseen, mikä tietysti meitä täällä tilastotiedeaiheisessa podcastissa kiinnostaa, eli mallintaminen.
Niin mites tällaisen pitkittäisen aineiston mallinnus sitten eroaa poikittaisesta?
No tosiaan niin kuin mä tuossa aiemmin sanoin, niin pitkittäisen aineiston tosi tärkeä piirre on se, että me ollaan kerätty samoilta ihmisiltä useita mittauksia.
Ja tietenkin kun me tehdään samasta yksilöstä näitä mittauksia, niin ne on keskenään samanlaisempia kuin eri yksilöiden mittaukset.
Ja tämä samanlaisuus pitää sitten jollain tavalla huomioida, kun me lähdetään mallintamaan sitä dataa.
Eli poikkilaikkaustutkimuksessa me voidaan usein tehdä sellainen oletus, että ne meidän havainnot on toisistaan riippumattomia, mutta pitkittäistutkimuksessa sitten taas ne saman yksilön havainnot korreloi keskenään.
Ja tämän huomiointiin tarvitaan erilaisia tilastollisia malleja, jotka sitten huomioi tämän datan sisällä olevan tällaisen korrelaatiorakenteen.
Sellaisena kiinnostavana voimavarana näissä pitkittäistutkimuksissa on se, että me pystytään myös tutkimaan muutosta ajassa.
Eli lähtöpisteestä eteenpäin katsomaan, että miten näiden yksilöiden terveys tai mitkä tahansa tällaiset muuttajat, mitä katsotaan, niin lähtee kehittymään sitten yli ajan.
No nyt kun ollaan käyty Aimo-annosta vähän tämmöistä teoreettisempaa väestötutkimusta, niin me voitaisiin ottaa tähän väliin ihan oikean esimerkkitarkasteluun.
Te olette molemmat mukana yhdessä maailman suurimmista seurantatutkimuksista, eli tämmöisessä kuin LASERI, eli lasten sepelvaltimotaudin riskitekijät-tutkimus.
Haluaisitteko te kertoa siitä vähän lisää?
No totta kai me halutaan.
Joo, LASERI on tosiaan tällainen suuri väestötutkimus, kohorttitutkimus, jossa samaa tutkimusjoukkoa on seurattu tällä hetkellä 40 vuotta jo.
LASERI on saanut alkunsa oikeastaan semmoisesta ilmiöstä, mikä tuolla sodan jälkeisessä Suomessa havaittiin, eli siitä, että suomalaiset kuolivat hyvin usein sydän- ja verisuonitauteihin.
Nämä olivat hyvin yleisiä kuolemansyitä Suomessa siihen aikaan, ja verrattain muihin väestöihin muualta maailmasta, niin se ero oli aika merkittävä.
Ja lisäksi sitten Suomen sisällä oli tällaisia maantieteellisiä eroja irän ja lännen välillä, eli Itä-Suomessa nämä kuolemaan johtavat sydän- ja verisuonitaudit olivat sitten vielä yleisempiä kuin Länsi-Suomessa.
Ja näiden havaintojen kanssa, että suomalaiset kuolivat hyvin usein näihin sepelvaltimotautiin ja sydän- ja verisuonisairauksiin, niin oli maailmalla tehty tällaisia havaintoja, että näiden takana oleva ateroskleroosi alkaa kuitenkin kehittyä jo hyvin varhaisessa vaiheessa.
Eli tämmöisiltä nuorena kuoleelta sotilailta oli ruumiavauksen yhteydessä havaittu ateroskleroosi ja heidän verisuonissaan.
Ja tästä sitten kaikesta evidenssistä, mitä oli kerääntynyt, niin mietittiin, että tätä sydän- ja verisuonitautien etiologiaa oli syytä alkaa selvittää jo lapsena ja nuorena.
Ja siitä tarpeesta on laseritutkimus saanut aikanaan 70-luvun lopulla alkunsa.
Ja nykyään emeritusprofessori Jorma Viikari, joka tätä oli käynnistämässä silloin 70-luvun lopulla aika lailla erilaisissa tutkimusympäristöissä, missä me nyt toimitaan, niin hän on kertonut, että tämä on tämmöinen monikeskustutkimus.
Eli meillä on viidessä yliopistosairaalakaupungissa tutkimuskeskukset, niin professori Viikari on autolla ajellut näitä keskuksia läpi ja käynyt neuvotteluja.
Tämä aloittamisesta, kun nykyään laitettaisiin vaan yksinkertaisesti sähköpostia ja zoomailtaisiin, niin siinä on ollut aika erilainen tämä meininki.
Tuntuu paljonkin kaukaisella.
Kyllä, joo. Kirjeenvaihto on käyty ihan paperilla ja näitä on tallessa.
Se on hyvin mielenkiintoinen tämä laseritutkimuksen historia, mutta kaiken tämän jälkeen niin vuonna 80 sitten polkaistiin varsinainen tutkimuskäynti ja silloin oli ensimmäinen tutkimuskäynti.
Siihen osallistui likipitäen 3600 lasta ja nuorta ympäri Suomen.
Eli oli just nämä yliopistosairaalakaupungit ja sitten niiden ympäristössä olevia maaseutukuntia, jolloin saatiin myös tämmöinen kaupunkimaaseutuvertailuasetelma tähän.
Eli paitsi se itä ja länsi, niin myöskin tämmöinen kaupunki- ja maaseutuasetelma.
Ja tämähän lähti itse asiassa tämmöisestä poikkileikkaustutkimuksesta.
Eli luotiin tämmöinen kohortti ja katsottiin näiden lasten ja nuorten riskitekijöitä, erilaisia riskitekijöitä ja sitten myöskin näitä sydän- ja verisuonitautien riskitekijöitä spesifisti, niin siinä 3-18 vuoden iässä.
Ja sitten sen jälkeen tutkimusjoukkoa lähdettiin seuraamaan aluksi kolmen vuoden välein ja sitten aikuisuudessa 6-9 vuoden välein.
Ja nyt viimeisin seurantatutkimuslaserissa toteutettiin tuossa just ennen koronavuosia, eli 18-20 niiden vuosien aikana, jolloin sitten kutsuttiin mukaan taas tämä sama porukka.
He on 40 vuotta nyt tullut.
Ja tässä yhteydessä kutsuttiin sitten myöskin heidän omat vanhemmat ja lapset mukaan tähän tutkimukseen.
Eli paitsi, että meillä on tämmöinen 40 vuoden mittava seuranta-aineisto, pitkittäisaineisto, niin meillä on myöskin tästä viimeisestä aikapisteestä, viimeisestä seurantatutkimuksesta tämmöinen kolmen sukupolven kattava tämmöinen poikkileikkausaineisto.
Eli tämä on aika hyvä esimerkki siitä, että pitkittäistutkimus voi tässä seuranta-ajan puitteissa laajentua tai mukautua tai muuntua vähän sen mukaan, että minkälaista evidenssiä ikään kuin kertyy tiedemaailmassa ja minkälaisiin kysymyksiin halutaan vastata.
Joo. Kerrotko vielä, että mitä tämä laserin osallistuminen velvoittaa näiltä tutkimukseen osallistuneilta, kun sä kerroit esimerkiksi tästä Jorma Viikarista, joka kierteli autollaan pitkin Suomen yliopistosairaaloita, niin mutta miten tämä itse tutkimusaineisto on, se miten sen keruu on käytännössä toteutettu?
Joo. Tutkittaville lähetetään kutsut tietysti ensin kotiin ja kerrotaan, että tämä tutkimus on taas saamassa uusia kierroksia ja pyydetään heitä osallistumaan.
Ja se itse tutkimuksen osallistuminen on totta kai vapaaehtoista, että he siihen itse suostuu tai sitten jättävät suostumatta.
Meillä kuuluu siihen tutkimusdatan keruuseen sekä kyselylomakkeita että myöskin sitten tämmöinen kliininen tutkimuskäynti.
Ja kyselylomakkeilla heiltä kysellään paljon tällaista perustietoa, myöskin esimerkiksi ihan taustatietoja niin kuin koulutustyösuhteesta, sitten kun kysellään elintavoista, miten he itse kokevat terveytensä ja tämän tyyppisiä asioita myöskin paljon, että onko lääkäri diagnosoinut heillä jotain sairauksia lähinnä tietysti keskittyen näihin sydän- ja verisuonintauteihin nyt, kun se on tämä laserin pääfokus.
Ja sitten heidät kutsutaan sinne kliiniselle tutkimuskäynnille, missä sitten heidät mitataan ja punnitaan ja mitataan verenpainetta ja esimerkiksi sitten tehdään tämmöinen kaulavaltimoiden ultraäänitutkimus, maksanultraäänitutkimus ja juurikin näitä kognitiivisen toiminnan tutkimuksia.
Eli se on hyvin tämmöinen laaja-alainen sitten myöskin se kliininen tutkimuskäynti.
Ja tutkittava saa ihan itse valita, että osallistuuko hän ollenkaan, osallistuuko hän pelkkään kyselytutkimukseen näiden lomakkeiden kautta.
Tai sitten osallistuuko hän osaan niistä kyselytutkimuksista esimerkiksi pelkästään, että meillähän on paitsi tämä perustietokysely, niin sitten meillä on myöskin psykologista hyvinvointia kartoittava kysely ja sitten myöskin tämmöistä ruokaa ja ravintoa koskeva laaja kyselypatteristo mukana tässä kyselytutkimusvaiheessa.
Ja he voi tosiaan valita vaikka yhden näistä lomakkeista tai kaikkiin ja jättää tulematta sinne kliiniselle käynnille tai sitten tulla ja hoitaa ikään kuin koko paketin.
Että mittava ponnistus se on aina tutkittavalta ja toki hän saa siitä sitten tietysti aina jotain palautetta myöskin siitä omasta terveydentilastaan.
Että siellä kliinisellä tutkimuskäynnillä otetaan myöskin verinäyte ja siitä tehdään esimerkiksi tämmöiset serumilipidit, verensokerit, insulinitasot, tällaisia asioita määritetään ja nämä tiedot he saa itselle.
Että kyllähän se toisaalta sitten myöskin motivoi, kun se on tällainen silloin tällöin tuleva kattava terveystarkastus tavallaan siinä sitten ohessa itselle myöskin.
Ja tietysti nyt kun ajatellaan, että aika mittava se datankeruvaihe on sille yksittäiselle tutkittavallekin, niin on kyllä siis aivan mielettömän hienoa, että he on näin monta vuosikymmentä jatkanut tässä mukana.
Ja edelleen innostuneena osallistuvat tähän ja ovat nyt tuoneet sitten myöskin näitä omia vanhempia ja omia jälkikasvujaan tähän tutkimukseen mukaan.
Että se on äärimmäisen tärkeätä ja arvokasta.
Me ollaan saatu tätä kautta kerättyä tänne Suomeen aivan tämmöinen maailmanlaajuisesti todella merkittävä aineisto.
Ja se on semmoinen asia, mistä tietysti koko tutkimusryhmä haluaa olla kiitollisia näille tutkittaville.
Että jos linjoilla sattuu nyt joku sellainen olemaan, joka itse osallistuu laseritutkimukseen tai jonka vanhemmat tai isovanhemmat on osallistunut, niin lämmin kiitos koko tutkimusryhmän puolesta kaikille tutkittaville.
Joo.
Mulla tuli tässä tämmöinen kysymys mieleen, mitä varmasti käydään myöhemmin, kun käydään tämän tutkimuksen heikkouksia läpi.
Mutta pakko kysyä tässä välissä, että jos näitä samoja ihmisiä on nyt 40 vuotta seurattu, niin kuinka paljon semmoista tutkimuspopulaation katoaa?
Että jaksaako nämä samat ihmiset käydä vuositoisesta ainaista täyttämässä kyselyitä?
Tämä on hyvä kysymys. Meillä oli tosiaan 3600 likipitäen tutkittavaa silloin ensimmäisessä tutkimusvaiheessa mukana.
Ja tällä hetkellä heistä noin 2100 käy edelleen mukana.
Eli aika hyvin me on saatu heidät kyllä pysymään tässä.
Ja tässä on varmasti myöskin sillä merkitystä, että nämä seurantatutkimusvaiheet on aika harvakseltaan.
Eli se ei välttämättä koeta kauhean kuormittavaksi, että mitä tiheämmässä seurantakäynnit on, niin tietysti siinä sitten tutkittavat väsyvät siihen jatkuvaan käymiseen ja muuhun.
Että on ehkä ollut laserissa semmoinen hyväkin asia siinä mielessä, että tutkittavat ovat jaksaneet tulla sitten muutaman vuoden välein mukaan.
Mutta toki tämä kato on sellainen, mistä on mielenkiintoista puhua.
Vaikka vähän myöhemmin tässä nyt lisää, että mitä kaikkea se aiheuttaa siihen tutkimuspopulaatioon.
Joo, mutta ennen kuin päästään siihen, niin minua kiinnostaa, että kun tämä laseritutkimus on tässä paisunut vuosikymmenien ajan, niin mitä kaikkia erilaisia tutkimusasetelmia tämän laserin alla on hyödynnetty?
No ehkäpä yleisin asetelma, mitä meillä on tässä ollut käytössä on ollut se, että me ollaan tutkittu näiden lapsuuden riskitekijöiden yhteyksiä sitten myöhemmän elämän terveyden kanssa.
Ja tosiaan tässä nyt ihan muutama vuosi sitten päästiin tähän tämän tutkimuksen alkuperäiseen tavoitteeseen, joka aikanaan motivoi tämän tutkimuksen kokonaan perustamisen.
Eli yhdistettiin meidän voimat muutaman ulkomaalaisen, vähän samankaltaisen ja samoihin aikoihin alkaneen tutkimuksen kanssa.
Ja yhdessä tuumin sitten tutkittiin näiden lapsuuden riskitekijöiden yhteyttä myöhemmän elämän sydän- ja verisuonitauteihin.
Ja löydettiin kyllä se, että nämä riskitekijät niin lapsuudessa mitattuna kuin sitten koko elämän läpimitattuna olivat yhteydessä sydän- ja verisuonitauteihin aikuisuudessa.
Okei.
Ja tosiaan mun tietääkseni tämä oli ensimmäinen tutkimus maailmassa, jossa tällainen yhteys on löydetty, että jo lapsuudessa mitattut riskitekijät ovat yhteydessä sydän- ja verisuonitauteihin myöhemmin elämässä.
Millaisia nämä riskitekijät sitten on?
Siinä tutkittiin painoindeksiä, sitten veren kokonaiskolesterolia ja triglyseriditasoja, verenpainetta ja tupakointia sekä sitten näiden kaikkeen sellaista yhdistelmää.
Joo.
Ja tosiaan sen lisäksi, että ollaan nyt tämä ihan alkuperäinen tutkimuskysymys selvitetty, niin niin kuin Suvi tuossa jo mainitsi, niin tässä on tullut myös matkan varolla monenlaisia uusia teemoja mukaan.
Vähän sen perusteella, että mitä kiinnostavaa meidän viisaat tutkijat on keksinyt ja mikä on maailmalla ollut sellaista kiinnostavaa ja nousevaa.
Esimerkiksi tämä kognitio on meillä nyt yksi tärkeä osa-alue, mitä Suvi onkin johtanut tuossa projektissa oikein onnistuneesti.
Haluatko sinä kertoa siitä vähän lisää?
No joo, tai kognitiivisiin toimintoihin keskittyvä tutkimus on tullut laseritutkimukseen aikaisemmin muista kohorteista tulleen tutkimusnäytön perusteella.
Ja näissä muissa kohorteissa on vähän vanhemmilla ja henkilöillä pystytty osoittamaan sellaista, että nämä tämmöiset ateroskleroosin,
eli sepelvaltimon taudin taustalla olevat riskitekijät on yhteydessä myöskin dementiariskiin.
Ja se on aika vankkaa tämä näyttö jo tällaisista vanhemmista kohorteista, missä on esimerkiksi katsottu keski-iässä mitattuja riskitekijätasoja
ja sitten tosiaan linkattu sinne vanhuuden dementiariskiin tai Alzheimerin taudin riskiin.
Mutta nyt laseritutkimuksissa pystytään tuomaan tätä ikään kuin elinkaaren ajalla varhaisempia vaiheisia.
Me pystytään nyt tällä hetkellä katsomaan sieltä ihan lapsuudesta ja nuoruudesta alkaen näitä samoja riskitekijöitä.
Eli juurikin esimerkiksi nämä, mitä nuora luetteli, verenpaineet, seruminlipidit ja paljon paljon muita,
niin pystytään katsoa, että miten nämä riskitekijät lapsuudesta alkaen vaikuttavat siihen,
että miten aivot toimii tai miten ihmisen kognitiivinen toiminta kehittyy ajassa.
Tällä hetkellä meillä on kaksi mittausta näistä kognitiivisista toiminnoista näiltä tutkittavilta
ja pystytään tässä kohdassa katsomaan sellaista keskiään muutosta kognitiivisten toiminnan lähinnä laskussa valitettavasti.
Mutta vielä ei pystytä ikään kuin siihen dementiariski-asiaan ottaa kantaa.
Mutta koska me ollaan tekemisissä pitkittäistutkimuksen kanssa,
niin ehkä jatkossa pystytään sitten myöskin ihan tällaisiin aivoterveyden kannalta koviin päätetapohtumiin myöskin puuttumaan.
No niin.
Niinpä, joo. Mutta tosiaan tämäkin on ihan kiinnostava, että tässäkin on yksi vähän erilainen asetelma tässä suvin kysymyksessä.
Eli kun niitä kognitio-mittauksia on nyt kaksi kertaa toistettu myös meidän tutkittaville,
niin me pystytään katsomaan just nimenomaan sekä lapsuuden, terveyden ja riskitekijöiden vaikutusta siihen tasoon kognitiossa,
mutta myös siihen, että millaisilla riskitekijöillä se kognitio-taso lähtee laskemaan vaikka nopeammin.
Eli tämäkin on tämmöinen kiinnostava mahdollisuus, mitä tämä pitkittäisaineisto antaa.
Mutta toisaalta myös tällä otoksella pystytään tavallaan julkaisemaan myös vaikka tai tekemään tämmöisiä poikkileikkaustutkimuksia.
Eli ihan vaan vaikka havainnollistamaan sitä, että monellako tällaisessa populaatiossa on vaikka paksuuntunut kaulavaltimon seinämä tai muunlaisia sairauksia.
Joo, totta. Tässä on mahdollisuuksia kylläkin monenlaisiin asetelmiin.
Ja oikeastaan semmoinen, mikä mun mielestä on tosi mielenkiintoista näissä pitkittäistutkimuksissa,
ja erityisesti tietysti laserissa, kun on seurattu samoja ihmisiä lapsuudesta ja nuoruudesta alkaen,
niin on se, että me pystytään myöskin katsomaan tämmöistä riskitekijöiden kumulatiivista assosiaatiota erilaisiin päätetapahtumiin.
Ja nyt pystytään sieltä lapsuudesta alkaen mallintamaan sitä, että vaikka riskitekijät eivät olisi kliinisesti katsoen ollut kovin huonolla tolallaan,
niin jos on vaikka tämmöistä hienoista nousua tai hienoista huononemaa näissä riskitekijätasoissa,
niin miten jos se jatkuu pitkän aikaa, jos se jatkuu vaikka 20-30 vuotta, niin mitä sitten tapahtuu näiden päätetapahtumien osalta?
Se on minusta hirveän mielenkiintoinen näkökulma siinä mielessä, että paitsi, että pystytään ottaen kantaa ehkä siihen,
että onko kliiniset raja-arvot ikään kuin riittävällä tasolla, että onko se riittävä taso puuttua kliinisesti määritettäessä näitä riskitekijöitä,
vai pitäisikö meidän ikään kuin puuttua jo paljon varhemmin, etenkin jos vaikka lapsilla verenpaine kasaantuu.
Niin tämmöiset on semmoinen näkökulma, mikä esimerkiksi lyhyemmän mittakaavan pitkittäistutkimuksissa ei onnistu.
Niinpä, tosi hyvä pointti Suvilla tämä ja minulle tuli siitä mieleen, että toki tässäkin nyt on myös mahdollisuus katsoa sitä ylipäätään,
että miten näiden ihmisten terveys ja vaikka riskitekijät kehittyy yli ajan, että vaikka joillain olisi ollut lapsuudessa suunnilleen samalla tasolla verenpaineet,
niin toisilla lähtee se koko elämän aikainen trajektori sitten vähän korkeammalle tasolle ja toisilla se pysyy matalammalla.
Ja tällaistakin pystytään tunnistamaan ja tutkimaan sitäkin eri elämänvaiheissa, että missä elämänvaiheessa se on vaikka kriittisintä,
että tietyt riskitekijät on korkeammalla tasolla.
Joo ja nämä tietysti niin kuin herkästi tämä tämmöinen kumulatiivinen altistus lähtee siitä näkökulmasta,
että halutaan just tietää sitä, että onko vaikka hienoinen verenpaineen nousu jollain tavalla altistavaa jollekin sairaudelle myöhemmin,
mutta sittenhän me voidaan toisaalta niin kuin tällaiset näkökulmat hylätä ja lähteä ikään kuin datalähtöisesti myöskin piirtämään sieltä aineistosta näitä trajektoreita.
Eli pystytään vaan niin kuin katsomaan, että mitä se data näyttää, että miten tässä meidän väestössä esimerkiksi,
vaikka BMI on tässä 40 vuoden seuranta-ajan aikana, että minkälaisia ryhmiä sieltä tulee.
Tällainenkin on pitkittäistutkimuksessa tosi mielenkiintoinen, etenkin tämmöisessä taas vuosikymmeniä jatkuneessa pitkittäistutkimuksessa.
Niin tosi mielenkiintoinen pointti.
Ja tietysti tämä nyt tämä viimeisen seurantavaiheen laajennus tähän ylisukupolviseen aineiston keruuseen,
niin sehän luo tietysti myöskin aivan valtavasti uusia mahdollisuuksia yhteyksien selvittämiseen.
No niin, siinä onkin jo tullut tosi paljon tämmöisen pitkittäistutkimuksen vahvuuksia,
mutta tuleeko teille vielä lisää jotain vahvuuksia, mutta toisaalta jotain heikkouksia mieleen,
esimerkiksi tästä laseritutkimuksesta, jotka on ilmennyt,
ja mitkä olisivat etenkin yleistettävissä myös muihin pitkittäistutkimuksiin?
Joo, no laserissa tietysti just tämä poikkeuksellisen pitkä seuranta-aika on tosi tärkeä tämmöinen vahvuus,
ja samoin sitten nämä säännölliset seurannat, mitä on toistettu aina sitten säännöllisesti tähän päivään asti,
ja siinä niiden sisällä tietysti sitten se, että riskitekijöitä on tosi systemaattisesti seurattu,
eli samoja riskitekijöitä mahdollisimman samoilla menetelmillä,
ja näin ollen se aineisto on sillä tavalla laadukasta.
Mutta tietysti Suomessa ylipäätään tämmöisissä pitkittäistutkimuksissa,
ja miksei muissakin tutkimustyypeissä tietysti, ei pelkästään pitkittäistutkimuksessa,
niin yksi huomattavan vahvuus väestötutkimuksen sisällä on tämä rekisteritietojen olemassaolo,
että Suomessa on aivan valtavan hienot rekisterit,
ja näiden käyttäminen tämmöisessä terveystutkimuksessa,
ja lääketieteellisessä tutkimuksessa on kyllä suuri vahvuus,
että se on ehkä semmoinen, mikä tässä kohdassa nyt tulee tämmöisessä käytännön tasolla
ehkä mieleen tässä näistä vahvuuksista vielä lisää.
Ja eikö tämä nimenomaan maailmanlaajuisesti aika poikkeuksellista Suomessa?
On, joo, ja sehän on ihan sen takia, että meillä on nämä henkilötunnukset,
joiden avulla ihmisiä pystytään linkkaamaan eri tavoin eri rekisterien väleillä,
ja sitten myöskin tietysti näihin tutkimuksien yhteydessä kerättyihin aineistoihin.
Mutta Nooralla voisi olla ehkä jotain kivaa sanottavaa yleistettämyydestä ja otannasta.
Kyllä, joo. Eli jos otanta on onnistunut,
ja se meidän tutkimuspopulaation edustava otos siitä lähtöpopulaatiosta,
niin silloin nämä tulokset on yleistettävissä siihen lähtöpopulaatioon.
Mutta kaikki pitkittäistutkimukset eivät välttämättä ole yleistettävissä,
mutta mä sanoisin, että meidän laseritutkimuksessa niin ainakin siinä alkuperäisessä otannassa
on huomioitu monia eri tekijöitä, eli ollaan otettu laajasti eri-ikäisiä lapsia ja nuoria sinne,
ja ollaan huomioitu tämä maantieteellinen alue, eli tämä Itä-Länsi-ero, minkä Suvikin mainitsi,
sekä sitten kaupunkimaaseutu-ero.
Eli siinä mielessä ollaan otettu monia tällaisia asioita huomioon,
mitkä on voinut sitten vaikuttaa siihen, että millaista elämää ne lapset ja nuoret on elänyt sen tutkimuksen alettua.
Mutta toisaalta sitten tosiaan kaikki tutkimukset ei lähtökohtaisestikaan ole välttämättä yleistettäviä,
jos se otos ei ole edustava.
Ja vaikka olisi tosi hyvin suunniteltu otanta tämmöisessä pitkittäisaineistossa,
niin ajan myötä se edustavuus voi kuitenkin sitten heikentyä.
Eli tutkimuspopulaatiossa voi tapahtua tällaista katoa, jolloin osa niistä tutkittavista lopettaa siihen tutkimukseen osallistumisen.
Ja tästähän me nyt jo vähän puhuttiinkin ja todettiin, että jonkun verran katoa meilläkin on laseritutkimuksessa tapahtunut.
Ja tosiaan, jos tällaista tapahtuu, niin sitten on mahdollista, että se jäljelle jäävä ryhmä ei enää edustakaan sitä populaatiota, mistä lähdettiin liikkeelle.
Eli jos esimerkiksi joku tosi tärkeä taustatekijä tai sairastuvuus vaikuttaa siihen, että jääkö ne tutkittavat mukaan siihen populaatioon vai ei.
Ja yleensä tällaisissa pitkittäistutkimuksissa kuuluukin raportoida tällainen, en ole varma mikä sille on yleisen nimi, mutta katoanalyysi tai atritioanalyysi,
jossa sitten vertaillaan niitä, jotka on jäänyt tutkimukseen ja niitä, jotka on sieltä lähtenyt niillä tiedoilla, mitä meillä heistä on ennen kuin he on lähtenyt sieltä tutkimuksesta.
Ja jotain tällaista me ollaan myös laseritutkimuksessa tehty ja Suvi ehkä osaa siitä sitten kertoa enemmän.
Joo, no jos ajatellaan nyt laseritutkimuksen katoanalyysejä, niin tällä ei päällisin puolin voidaan sanoa, että pois on jäänyt enemmän miehiä, hiukan vanhempia tutkittavia.
Ja sitten jos ajatellaan vaikkapa, minusta hyvä esimerkki on tämä kognitiotutkimus, että nyt kun heillä on tehty kaksi kertaa tämä kognitiivisten toimintojen mittaus,
niin kun tätä aineistoa katsoo, niin siitä viimeisimmästä kognitiomittauksesta on jäänyt pois niitä, joilla on ollut heikompi kognitiivisen toiminnan taso silloin ensimmäisessä mittauksessa.
Eli juurikin tavallaan se selekoituu sellaisen suuntaan, että nämä tämmöiset ehkä korkeammilla riskitekijätasoilla olevat henkilöt jäävät pois,
jolloin se ikään kuin vähän koko ajan ohjautuu semmoiseen terveempään suuntaan se populaatio, jolloin sitten se yleistettävyys juurikin kärsii.
Ja yksi semmoinen oikeastaan, mikä monessa pitkittäistutkimuksessa on eroa näiden tutkimuksessa jatkavien ja siitä pois jäävien keskuudessa,
on esimerkiksi sukupuoli, että naiset on kuuliaisempia siinä mielessä, että he pysyvät paremmin mukana,
jolloin sitten tämä esimerkiksi vaikkapa just alunperin laserissakin tosi hyvin katsottu edustavuus sen sukupuolen osalta,
niin niitä saattaa kärsiä sitten jatkossa, kun miehiä tippuu enemmän pois.
Ja näitä heikkouksia miettiessä, niin itse asiassa mulle tulee tällaiset pari pientä juttua vielä mieleen,
että tämmöiset tosi pitkään jatkuvat pitkittäistutkimukset, niin jotta me saadaan se aineisto laadukkaaksi,
niin meidän on tietysti käytettävä samoja tutkimusmenetelmiä mahdollisuuksien mukaan läpi vuosien.
Ja tietysti jos ajatellaan, että vuosikymmeniä vierii siinä seurantojen tuoksinassa, niin totta kai uusia tutkimusmenetelmiäkin tulee sitten kehiteltyä.
Ja tekisi mieli ottaa niitä tutkimusmenetelmiä esimerkiksi jotain tiettyjä mittausmenetelmiä käyttöön,
mutta kuitenkin sen edustavuuden vuoksi meidän pitäisi käyttää kuitenkin myös niitä vanhoja.
Eli siinä on sitten semmoista kompromissia tehtävää, että pidetäänkö samat vanhat mittausmenetelmät siellä jäykästi ehkä jossain mielessä,
otetaanko uusia rinnalle vai vaihdetaanko jossain kohdassa kokonaan uusiksi ja miten vertailukelpoisia nämä uudet ja vanhat menetelmät sitten keskenään on.
Se on semmoinen asia, minkä kanssa näissä pitkittäistutkimusten kanssa työskennellessä hyvin usein itse asiassa painitaan ja mietitään sitä,
että kuinka samalla lailla nämä asiat on mitattu ja pitääkö tehdä esimerkiksi korjauskertoimia lipiditasojen kaltaistamiseksi tai uusien menetelmien osalta.
Ja toisaalta sitten tietysti se, että me tutkitaan isoja väestöotoksia, niin sehän on hirmu kallista myöskin.
Meillä pitää olla aika paljon rahaa, että me pystytään tämmöinen kenttävaihe viemään läpi,
mikä sitten tietysti taas tuo omaa haastettansa tässä rahoituksen järjestämisessä.
Ja hidastahan se on, että jos nyt mietitään just esimerkiksi dementian näkökulmaa,
minkä tuossa aikaisemmin otin esille, niin tässähän voi mennä hyvin vielä muutama vuosikymmenen
ennen kuin laserilaisista kukaan alkaa dementoitumaan.
Kärsivällisyyttä vaatii tutkijalta kyllä jossain määrin myöskin.
Jos nyt ajatellaan ihan tutkijan näkökulmasta vielä, niin mikä on ollut teidän semmoisia huippuhetkejä
tämän laseritutkimuksen kanssa, että onko se ollut jotain tosi innostavia tuloksia esimerkiksi?
No haluatko sä Noora aloittaa? Meillähän on innostavia tuloksia tietysti, vaikka kuinka paljon?
Varmasti.
No mä voin vaikka aloittaa.
Joo, kyllä ehkä eniten mua on innostanut tosiaan se, kun täytettiin tämä tavoite,
mikä laserin on silloin 70-luvulla alun perin motivoinut.
Eli löydettiin tosiaan se yhteys isolla kansainvälisellä tutkijaporukalla
lapsuuden riskityköiden ja sydän- ja verisuonitautien välillä.
Eli se oli kyllä tosi iso juttu ja pääsi hienoon lehteen ja sitä oli tosi kiinnostavaa ja mukavaa olla tekemässä mukana.
Että se oli ainakin sellainen yksittäinen huippuhetki.
Toki jotenkin itse on vielä niin tämmöinen nuori tutkijan alku, että aina kun tulee ulos joku juttu,
missä itse saan olla mukana, niin tuntuuhan se ihan valtavan hienolta ja innostavalta,
että minä pieni tilastotieteilijä olen siellä hienojen tutkijoiden kanssa mukana nimilistossa.
Ja ehkä sitten tämmöinen henkilökohtainen onnistuminen tai silleen, mikä on nyt tullut tässä,
kun olen ollut statistikkona ja väitöskirjatutkijana, on se, että tosiaan olen tässä ajan kuluessa löytänyt
tämmöisen tutkijan itsestäni ja oppinut sitten tämmöisten vanhempien hyvien tutkijoiden rinnalla
sitten ajattelemaan näitä väestötutkimuskysymyksiä ja tilastotiedettä ja kaikkea muutakin.
Niin se on ollut hirveän hieno matka.
Joo, no nämä on tietysti upeita nämä tällaiset tieteelliset löydöt, mitä tämmöisillä datoilla pystytään tekemään.
Ja tämän Nooran mainitseman lisäksi tietysti omasta näkökulmasta katsoen
on tosi hienoa se, että me on ensimmäisenä maailmassa pystytty myöskin osoittamaan se,
että lapsuuden kardiovaskulaaririskitekijöillä on yhteyttä aikuisuuden kognitiivisen toiminnan tasoon
ja pystytään sitä nyt jatkamaan.
Sehän on aivan valtava hienoa ja ollut todella kaukonäköistä näitä meitäkin senioreimmeiltä tutkijoilta siinä,
että he on tällaista väestöhanketta jatkaneet sinnikkäästi väliaikaisista vaikeuksista huolimatta.
Tietysti resurssit ovat olleet välillä vähissä.
Siitä huolimatta on ikään kuin puskettu läpi harmaan kive ja oltu avarakatseisia siihen,
että mukaan on tullut tällaisia uusia tutkimusalueita, esimerkiksi just tämä kognitiiviset toiminnat.
Ja kyllä minä myöskin koen siis sellaisen tähtihetken tai tähtihetkenä sellaisen asian,
mitä tässä väestötutkimuskeskuksen sisällä, paitsi laserissa, niin myöskin näissä muissa kohorteissa,
niin tämä on jotenkin valtavan lämminhenkistä yhteistyötä yli kohorttien.
Ja tietysti sitten meidän laseritutkimuksen sisällä,
että jos ajatellaan, että meillä on aivan valtavan paljon erilaisia tutkimusalueita,
on teemoja, on omiikkadatoja, on käyttäytymistiedettä, on psykologista hyvinvointia,
on sydänterveyttä ihan lääketieteellisesti katsottuna ja kaiken näköistä.
Ja silti ikään kuin tehdään saumattomasti yhteistyötä ja hyvässä hengessä,
niin kyllä minä koen, että se on tutkimuksen tekemisen ihan tähtihetki tällaisessa aineistossa.
Että yhteistyö on todellakin todella antoisaa ja mukavaa.
Ja oikeastaan se kilpistyy aina kerran vuodessa pidettävään tämmöiseen yhteiseen symposiumiin,
missä sitten monet monet tutkijat tulevat paikalle ja pystytään vaihtamaan uusia ajatuksia
ja kuullaan toinen toistemme tuloksista ja saadaan ikään kuin yhdessä hehkutella näitä väestötutkimusaiheita
ja niiden mahdollisuuksia. Eli kyllä se on ihan semmoista tähtihetkiä kyllä.
Kiitos paljon Suvi ja Noora, että te tulitte tänne jakamaan meille teidän asiantuntijuutta.
Olisiko teillä vielä jotain sanottavaa, esimerkiksi millaista kurssitarjontaa Turun yliopistolla olisi,
jos joku kuuntelija haluaisi vielä lisää syventyä tähän aiheeseen?
Joo, no näitä teemoja on ainakin lääketieteellisessä tiedekunnassa jonkun verran perusopinnoissa,
esimerkiksi havainnoista päättelyyn opintojaksossa, mutta sitten meillä on väestötutkimuskeskuksella myöskin
tällainen väestötutkimuksen perusteet-kurssi, jossa syvennytään näihin väestötutkimuksen erityispiirteisiin
ja aineistoihin ja niiden mahdollisuuksiin.
Sinne on kaikki tervetulleita, se on jatko-opiskelijoille suunnattu, mutta sinne voi kysellä kyllä paikkaa vaikka vaan ihan yleisestä kiinnostuksestakin.
Esimerkiksi tällaisissa yhteyksissä voi näihin teemoihin törmätä.
Kiitos vielä kerran Suvi ja Noora.
Ja kiitos sinulle kuuntelija, että olit limjoilla.
Toivottavasti tämä jakso innosti sinua oppimaan lisää paitsi väestötutkimuksen erityispiirteistä, niin myös yleisemmin biostatistiikasta.
Kuullaan taas statistiikan alueella.
Tämän podcastin on tuottanut Turun yliopiston lääketieteellisen tiedekunnan biostatistiikan yksikkö.

Havainnoiva vs. kokeellinen tutkimus

Tässä Statistiikan aalloilla -podcastin jaksossa keskitytään havainnoivan ja kokeellisen tutkimuksen eroihin. Turun yliopiston professorit Sari Stenholm ja Kari Auranen johdattavat kuulijan tutkimusasetelmien maailmaan. Jaksossa kerrotaan, mitä havainnoiva tutkimus ja sen päätyypit, poikkileikkaustutkimus, tapaus-verrokkitutkimus ja kohorttitutkimus, tarkoittavat ja mitkä ovat näiden tutkimusasetelmien vahvuudet ja heikkoudet. Lisäksi selviää, miten kokeellinen tutkimus toimii, miksi satunnaistaminen ja sokkouttaminen ovat sen kulmakiviä, ja milloin kokeellista tutkimusta ei voida toteuttaa. Jakso tarjoaa tiiviin ja innostavan katsauksen lääke- ja terveystieteellisen tutkimuksen metodologisiin perusteisiin.

Tämä podcast on osa lääketieteen, bio- ja hammaslääketieteen opiskelijoiden Havainnoista päättelyyn -kurssimateriaalia. Jakso sopii kuitenkin kaikille, jotka haluavat tietää mitä ovat havainnoiva tutkimus ja kokeellinen tutkimus. Kuuntele ja opi, kuinka tutkimusasetelma vaikuttaa siihen, millaisia päätelmiä voimme tehdä erilaisten tutkimusten perusteella.


Tervetuloa statistiikan aalloille.
Olit sitten yleisen bio- tai hammaslääketieteen opiskelija, tutkija tai ihan muuten vaan kiinnostanut biostatistiikasta, niin hienoa, että saat kuulolla.
Minä olen biostatistikko Markus Riskumäki ja tänään mulla on haastateltavana Turun yliopistosta kansanterveystieteen ja epidemiologian professori Sari Steenholm sekä tilastotieteen professori Kari Auranen. Tervetuloa.
Kiitoksia.
Kiitos.
Ennen kuin me aloitetaan, niin haluaisitteko te nopeasti kertoa vähän itsestänne ja taustoistanne, jos Sari vaikka aloittaa?
Joo. No minä olen ollut Turun yliopistossa töissä reilut kymmenen vuotta ja vuodesta 2019 asti olen toiminut kansanterveystieteen oppiaineessa professorina.
Ja minä opetan lääketieteen ja biolääketieteen perus- ja jatko-opiskelijoille epidemiologiaa ja kansanterveystiedettä.
Ja sitten minä ohjaan useita väitöskirjoja ja vedän tutkimusryhmää, jossa on sitten postdoc-tutkijoita myös.
Väitöskirjan minä tein aikanaan kansanterveyslaitokselle ja se käsitteli ikääntyvien lihavuutta ja sen seuramuksia liikkumis- ja toimintakykyyn kahdessa isossa väestötutkimusaineistossa, eli minisomi-tutkimus ja terveyskaksitohtatutkimus.
Ja sen jälkeen minä lähdin postdoc-tutkijaksi Yhdysvaltoihin, National Institute of Agingiin, jossa minä jatkoin työskentelyä tämmöisten pitkien seurantatutkimusaineistojen parissa ja keskityin ikääntyvien kehonkoostumuksen muutoksiin ja niiden seuramuksiin.
Eli juurikin tämmöisiä havainnoivia tutkimuksia.
Ja sitten Suomeen palattua, niin minä olen jatkanut työskentelyä kotimaisten ja ulkomaisten seurantatutkimusaineistojen parissa ja olen tutkinut aika laajasti, miten elintavat ja työnkuormitustekijät ennustavat terveyden ja toimintakyvyn kehittymistä ikääntyessä.
Ja nyt sitten täällä Turun yliopistolla, niin reilu kymmenen vuotta sitten me käynnistettiin uusi kohortitutkimus, Finnish Retirement Aging Study, eli FIREA-tutkimus.
Ja siinä me ollaan seurattu ikääntyviä työntekijöitä noin 60 vuoden iästä eläkkeelle siirtymiseen ja sen jälkeen.
Ja tällä hetkellä meidän tutkittavat on noin 70-vuotiaita ja tavoitteena on seurata heitä vanhuuteen asti.
Ja tässä tutkimuksessa me ollaan tutkittu monipuolisesti heidän elintapoja, fyysistä ja kognista toimintakykyä ja sydän- ja verisuoniterveyttä.
Eli mä oon pääasiassa työskennellyt tällaisten havainnoivien pitkittäisaineistojen parissa, joissa sitten on hyödynnetty erilaisia tilastollisia menetelmiä näiden pitkittäismuutosten tarkasteluun.
Ja jonkun verran mulla on myöskin kokemusta kokeellisesta tutkimuksesta, esimerkiksi ergonomia-interventiotutkimuksista ja liikunta-interventiotutkimuksesta.
Okei, kiitos. Miten sitten Kari?
No, mä oon tilastotieteen professori ja ollut täällä nimenomaan tässä toimessa nyt Turussa noin kymmenen vuotta.
Mun päätoimi on tilastotieteen opiskelijoiden opettaminen matematiikka- ja tilastotieteen laitoksessa.
Ja sitten mulla on siellä myös tosiaan tai myöskin väitöskirjaohjattavia.
Ja sitten mä oon myös lääketieteellisen palveluksessa täällä Turussa, niin että mulla on sielläkin sitten hieman opetusta.
Ja myöskin sitten näitä mun vaikkapa graduoppilaita yleensä ohjaan sinne lääketieteellisen puolelle erilaisiin projekteihin tekemään näitä tilastotieteen opinnäytteitä.
Samoin sitten väitöskirjatyöntekijöinen kohdalla samanlainen juttu.
No mun aikaisempi historia on sellainen, että mä olin noin 20 vuotta terveyden ja hyvinvoinnin laitoksessa siellä soveltavana matemaatikkona ja tilastotieteilijän ja sitten vähän sotkeudun siihen epidemiologiaankin nimenomaan rokotuksilla ehkäistävien tautien tutkimuksessa.
Eli tehtiin tämmöistä tartuntautien matemaattista mallinnusta, niiden leviämisen matemaattista mallinnusta ja sitten myöskin ihan rokotekokeiden ja havainnoivien tutkimusten analyysiä ja niiden menetelmien kehittämistä.
Ja yksi semmoinen iso asia siellä oli erilaiset bakteeriinfektiot, vaikkapa pientenlaisten pneumokokkiinfektiot, jotka on yleensä semmoisia oireettomia tartuntoja, kantajuuksia,
mutta sitten niissä voi tulla joskus vakavakin tauti ja näitä sitten tutkittiin sitä koko epidemiologiaa ja se on kiinnostava myöskin tilasto matemaattisesti,
koska siellä on paljon semmoista, mikä jää havaitsematta sen ikään kuin ilmipinnan ja havaintojen alle ja sen mallintamisessa on sitten paljon haastetta.
Ja nyt se osiaan on ollut täällä kymmenisen vuotta Turussa. Opetan lähinnä biometrian, biostatistiikan menetelmiä.
Okei. No mutta tänään meillä on tosiaan aiheena havainnoiva tutkimus ja kokeellinen tutkimus.
Eli me ollaan kahden oleellisesti lääke- ja terveystieteeseen liittyvän tutkimusasetelman äärelle.
Tiedoksi jos näitä asioita erinäisistä lähteistä katselee, niin englanniksi näistä käytetään siis termejä observational ja experimental studies.
Ja tästä päästäänkin sitten päivän aiheeseen suoraan.
Joten tota, jos vaikka sarja aloittaa ton havainnoivan tutkimuksen puolelta, ennen kuin me näemme eri tutkimusasetelmien eroihin, niin mitä on havainnoiva tutkimus?
Joo. Havainnoivassa tutkimuksessa nimensä mukaisesti tutkija havainnoi ja analysoi erilaisten altisteiden yhteyksiä kiinnostuksen kohteena olevan vasteeseen.
Esimerkiksi miten tupakointi on yhteydessä sydäninfarktiriskiin.
Ja päänäkökulma siinä on se, että tutkija ei itse aktiivisesti vaikuta mitenkään tutkittavien altistumiseen tai tekemisiin, mikä sitten taas on tämän kokeellisen tutkimuksen pääidea.
Okei. Miten tätä havainnoiva tutkimusta sitten käytännössä toteutetaan tai millaista tietoa siinä hyödynnetään?
Havainnoivassa tutkimuksessa hyödynnetään tutkittavilta kerättyä tietoa yhdestä tai usein useammasta aikapisteestä.
Ja näiden altisteiden eli selittävien tekijöiden osalta tietolähteenä voi olla esimerkiksi kyselyt, joilla saadaan tietoa elintavoista, esimerkiksi tupakoinnista tai nukkumisesta.
Ja tarkempaa tietoa biologisista riskitekijöistä tietysti saadaan erilaisilla mittauksilla. Voidaan mitata verenpainetta, kehon koostumusta, tämän tyyppisiä asioita.
Ja verinäytteitä hyödynnetään tietysti paljon ja niistä voidaan sitten määrittää lukuisia erilaisia biomarkkereita, kolesterialvoja, tulehdusmarkkereita ja näin eteenpäin.
Ja näiden selitettävien eli niiden tutkittavien sairauksien tai muiden terveysvasteiden osalta, niin sieltä tieto voi sitten olla peräisin kyselyistä, myöskin erilaisista mittauksista tai hyvin usein terveydenhuollon rekistereistä,
joista sitten saadaan tietoa lääkityksistä, diagnooseista tai vaikkapa tapaturmista.
Joo. No mites tota, onko meillä erilaisia tutkimustyyppejä tämän havainnoivan tutkimuksen alla tai miten niitä jaotellaan?
Joo. Tyypillisesti nämä havainnoivat tutkimukset jaotellaan poikkileikkaustutkimuksiin, tapausverokkitutkimuksiin ja kohorttitutkimuksiin.
No aloitetaanpa sitten vaikka poikkileikkaustutkimuksesta, niin kertoisitko sä siitä vähän lisää?
Nimensä mukaisesti tämä poikkileikkaustutkimus on ajallinen poikkileikkaus siitä tutkittavasta väestöstä.
Ja voisi sanoa, että se keskeisen tunnuspiirre on se, että altisten ja vasten mitataan samanaikaisesti.
Joo.
Ja tämän takia, niin näiden poikkileikkaustutkimusten avulla, niin me oikeastaan voidaan tutkia ainoastaan asioiden välisiä yhteyksiä,
mutta ei pystytä ottaa kantaa siihen asioiden väliseen ajalliseen järjestykseen.
Ja esimerkkinä, vaikka jos me havaitaan yhteys univaikeuksien ja korkean painoindeksin välillä poikkileikkausasetelmassa,
niin ei pystytä sanomaan, että johtuuko se korkeampi painoindeksi huonosta nukkumisesta vai johtaako se korkeampi painoindeksi univaikeuksiin.
Niin justiin.
Ja näihin, jos me halutaan päästä tämmöisiin pitkittäisyhteyksiin ja näihin syy-seuraussuhteisiin, niin me tarvitaan pitkittäistä asetelmaa,
jossa tutkittavilta on sitten useampi unia-painoindeksin mittaus saatavilla.
Ja ehkä vielä yksi näkökulma tähän poikkileikkaustutkimuksen on se, että hyvin usein sitä käytetäänkin tämmöisiin tavallaan ensivaiheen tutkimuksiin ja hypoteesien luomiseen.
Ja sitten niitä koetellaan ja tarkastellaan pitkittäisasetelmassa myöhemmin.
Sitten toinen tämmöinen tutkimusasetelma, minkä mainitsit, oli tapausverrokkitutkimus, niin mitä se sitten on?
Joo, tapausverrokkitutkimus, eli englanniksi case control-tutkimus, niin sitä kutsutaan usein tämmöiseksi sairauslähtöiseksi tutkimukseksi.
Ja se on tyypiltään pitkittäistutkimus.
Ja sen pääidea on siinä, että meillä on tapaukset, keissit ja kontrollit, eli verrokit.
Ja tapaukset on sellaisia henkilöillä, joilla on se tutkittava sairaus.
Niistä lähdetään liikkeelle.
Ja sitten meillä on heille verrokit, kontrollit.
Ja he ovat valittuja, valikoituja henkilöitä, tai otos semmoisesta väestöstä, jolla ei ole sitä kyseistä sairautta.
Ja pääideana on se, että me verrataan tapauksien ja verrokkien altistumista, ja voidaan sitten tehdä päätelmiä niistä altistuksen ja sairauksien yhteyksistä.
Ja tästä voisi ottaa esimerkkinä esimerkiksi sen, että miten tutkitaan asbestialtistuksen yhteyttä keuhkosyöpäriskiin.
Eli ensin me tunnistetaan keuhkosyöpään sairastuneita potilaita, etsitään heille verrokit, ja sen jälkeen tutkitaan, että millaisille tekijöille he ovat altistuneet, esimerkiksi työuransa aikana, että onko siellä tätä asbestialtistusta.
Ja voisi sanoa, että tämä tapausverrokkitutkimus soveltuu parhaiten tällaisten harvinaisten sairauksien tutkimukseen.
Ensinnäkin siitä syystä, että se on aika nopea toteuttaa. Siinä lähdetään liikkeelle jo niistä sairastuneista, ja sitten selvitetään heidän sitä altistumishistoriaa.
Mutta tätä tapausverrokkitutkimusta käytetään myöskin uusien sairauksien ja riskitekijöiden tunnistamisessa.
Esimerkiksi just tuossa koronapandemian aikana, niin silloin ne ensimmäiset tutkimukset olivat juurikin näitä tapausverrokkitutkimuksia,
kun haluttiin tutkia niitä riskitekijöitä, esimerkiksi vakavaan koronainfektioon.
Silloin tiedon tarve oli suuri, eikä ollut aikaa käynnistää tai odottaa pitkittäistutkimusten tuloksia.
Sitten viimeisenä oli vielä kohorttitutkimus. Kertoisitko siitä vielä?
Joo, no kohorttitutkimus sitten taas, niin se on tämmöinen etenevä pitkittäistutkimus,
jossa tutkittavia seurataan mittauksilla tai vaikkapa rekistereistä vuosia tai jopa vuosikymmeniä.
Ja siinä pääideana on se, että halutaan tutkia uusien tautitapahtumien ilmaantumista
tai vaikkapa tutkia muutoksia erilaisissa terveysindikaattoreissa, vaikkapa verenpaineessa tai painoindeksissä.
Ja toisin kuin sitten tuo tapausverokkitutkimus, niin kohorttitutkimusta sanotaan usein altisten lähtöiseksi tutkimukseksi,
koska siinä nämä vertailtavat ryhmät muodostetaankin sen altistumisen perusteella.
Ja esimerkkinä voisi olla vaikkapa, että se ollaan kiinnostuneita fyysisen aktiivisuuden merkityksestä diabetesriskille,
niin me muodostetaan vertaatavat ryhmät sen lähtötilanteen fyysisen aktiivisuuden mukaan.
Ja sitten seurataan eteenpäin ja katsotaan, että kenelle kehittyy diabetes.
Ja voidaan verrata diabetesriskiä niillä vähän ja paljon liikkuvilla ja sen jälkeen saada sitten arvio siitä,
että kuinka suuri diabetesriski liittyy vähäiseen fyysisen aktiivisuuteen.
Ja oikeastaan se tärkeä etu tämmöisessä pitkittäistutkimuksessa on se, että me voidaan varmistaa se ajallinen järjestys.
Jos me otetaan mukaan vain terveitä tutkittavia, niin silloin ollaan varmoja, että se altistuminen on tapahtunut aikaisemmin ennen kuin se sairaus on puhjennut.
Eli sitä monesti tarkastellaan ja se on tärkeä näkökulma.
Mutta ehkä sitten vielä semmoinen näkökulma tässä, että jotta me oikeasti voidaan tehdä luotettavia päätelmiä siitä,
että voidaanko me ehkäistä ennaltaehkäistä sairastuminen muokkaamalla altistusta,
voidaanko ehkäistä esimerkiksi diabeteksen kehittyminen lisäämällä liikuntaa,
niin siihen me tarvitaan kokeellista tutkimusta.
Joo, no siitä mehän me päästäänkin näppärästi Aasinsillala tähän meidän toiseen päivän pääaiheeseen.
Eli Kari, mitä on kokeellinen tutkimus?
No yritetään purkaa sitä nyt sitten vähän osin ja sitten tässä pikkuhiljaa ehkä myöskin rinnastaa tuohon äsken kuultuun havainnoivien tutkimusten piirteisiin.
No kokeellisessa tutkimuksessa tutkija päättää sen altistuksen ja tästä altistuksesta puhutaan ehkä silloin useammin sanalla käsittely,
englanniksi treatment, kun taas altistus olisi exposure ja halutaan tehdä tämmöinen ero siinä tältä osin.
Kyseessä on se tämmöinen interventio, joka kohdistetaan näihin tutkittaviin ulkopuolelta,
täysin riippumatta siitä, että millaisia he ovat, millaisia heidän muut ominaisuutensa ovat.
Palaan tähän sitten kohta vielä tarkemmin.
Tämä käsittely eli treatment, se voi olla joku lääke tai rokote, eli tämmöinen lääkitys tai rokottaminen,
tai sitten vaikka elintapoihin liittyvä interventio.
Se, että tutkija päättää tämän altistuksen, niin tarkoittaa myös sitä, että vaikka tämmöisen elintapaintervention intensiteetillä
voi olla erilaisia tasoja, jotka sitten on tarkasti määriteltyjä.
Ne eivät ole sellaisia, että me vain havainnoimme, että miten joku käyttäytyy tai liikkui tai muuta,
vaan ikään kuin annetaan tämmöisinä altisteina eli käsittelyinä tietyn tasoisina.
Ja silloin myös tämä altistumisen ajankohta ja tapa on ikään kuin ainakin periaatteessa silloin tutkijan
ja tämän tutkimuksen ikään kuin hallussa ja päätettävissä.
Usein kokeellisessa tutkimuksessa on vähintään kaksi eri käsittelyn tasoa.
Eli se voisi tarkoittaa esimerkiksi uutta lääkettä ja sitten semmoista käytössä olevaa standardilääkettä
tai joskus jopa sitten ihan placeboa, tämmöistä lumelääkitystä.
Ja puhutaankin tällainen kontrolloiduista kokeista, jossa meillä on tämmöinen vertailuasetelma,
että meillä on aina tyypillisesti kaksi tämmöistä ryhmää.
On ne uuden käsittelyn tai uuden lääkkeen tai uuden rokotteen saaneet
ja sitten nämä, jotka saavat standardi tai sitten lume käsittelyn.
Ja tärkeintä tässä on nyt kokeellisessa tutkimuksessa se, tai ainakin useimmiten se,
että pyöritään satunnaistaan tämän käsittelyn.
Eli tarkoittaa silloin sitä, että tämä altistuminen, eli kun kohdistetaan näihin tutkittaviin
täysin sattumanvaraisesti riippumatta heidän ominaisuuksistonsa.
Ja silloin tämä altistuminen tälle käsittelylle ei olekaan aina se yksilön oma päätös,
vaan se tulee ulkopuolelta tämmöisen satunnaistamismekanismin kautta.
Ja tällä tavalla pyöritään siihen, että nämä tutkittavat ryhmät,
joita me käytännössä sitten on, vaikkapa rokotteen saaneet,
ja sitten ne, jotka eivät saaneet rokotetta,
niin ovat kaikilta muilta ominaisuuksiltaan täysin samanlaisia,
ainakin näin keskimäärin, eli tilastollisesti ottaen.
Ja silloin, jos me nähdään joku ero, vaikkapa sairauden ilmaantuvuudessa
rokotettujen ja rokottamattomien välillä, tämmöisessä satunnaistetuissa kokeessa,
niin silloin voidaan sanoa, että se johtuu tästä rokotuksesta,
tästä rokotteesta, eikä jostakin taustalla olevasta muusta tekijästä.
Eli tässä kannattaa ehkä nyt jo verrata tätä vähän tuohon havainnoivaan tutkimukseen,
että jos meillä olisi vaikkapa kysymyksenä,
että mikä on kausi-influenssarokotusten vaikuttavuus väestössä,
niin se ei ole satunnaistettu koe, vaan se on havainnoiva tutkimus,
jossa ihmiset itse päättävät mennä ottamaan sen rokotteen,
tai sitten eivät mene ottamaan rokotetta.
Ja se ero, mikä me sitten nähdään vaikkapa vakavien influenssarokotusten ilmaantuvuudessa,
rokotetta ottaen ja rokotetta ottamattomien välillä,
niin voisi ainakin osin johtua myös muista tekijöistä.
Siitä, että tavallista hauraamat tai iäkkäämmät tai terveystietoisemmat
menevät ottamaan rokotteen, ja sitten tämä samat piirteet myös
on yhteydessä siihen sairauden riskiin,
jolloin silloin se meidän havaittu yhteys rokotteen ottamiseen
ja sitten vastattapahtuman välillä on sekoittunut näillä taustatekijöillä.
Puhutaan tämmöisestä sekoittumisen tuottamasta harhasta,
ja englanniksi olisi confounding tämä termi, mitä silloin käytetään.
Joo, tässäpä olikin tosi hyvä ja kattava kuvaus jo kokeellisesta tutkimuksesta,
mutta haluaisitko vähän vielä kertoa lisää näistä syy-seuraussuhteista,
joihin tällä kokeellisella tutkimuksella pyritään?
Mitä se oikein tarkoittaa?
No, sehän onkin kysymys.
Mutta nimenomaan siihen ehkä kokeellisella tutkimuksella juurikin pyritään,
että voitaisiin sanoa maalaisimman hyvin tai vakuuttavasti jotakin altisteiden
ja sitten vastetapahtumien syy-seuraussuhteista.
Tosiaan esimerkiksi, että suojaako rokotus oikeasti vai johtuuko se nähty suojateho
sitten jostakin muista tekijöistä tai on ainakin niiden jotenkin sekoittama mahdollisesti.
Ja tässä nyt se perus, jos vielä kerrotaan vähän, niin idea on se,
että meillä on tosiaan tämä satunnaistaminen ja käsittelyn eri tasot
rokotteen saaminen tai lumerokotteen saaminen on täysin sattumanvaraisesti jaettu tutkittavien kesken.
Eli tässä kannattaa korostaa vielä kerran sitä, että meillä on aina tämmöisessä asetelmassa
tämmöinen kontrolliryhmä, johon sitten verrataan.
Tämä syy-seuraussuhte tarkoittaa se tämmöistä kausaalista suhdetta ja se kausaalisuus
tavallaan määritellään näiden kahden ryhmän keskimääräisten vasteiden erona.
Ja puhutaan tämmöistä satunnaistusta kontrolloidusta kokeesta juuri silloin, kun on käytetty satunnaistamista tämän käsittelyn
ikään kuin antamiseksi eri käsittelyryhmille.
Pitäisikö itse asiassa tässä vaiheessa vähän pysähtyä ja miettiä näitä käsitteitä, joita tässä jo sivuttiinkin,
että eli mitä tämä kausaalisuus oikeastaan nyt sitten tarkoittaa?
No kausaalisuus tarkoittaa juuri tämmöisiä syy-seuraussuhteita, että joku X aiheuttaa Yn.
Ja meillä kaikilla on varmaan jonkinnäköinen ehkä tämmöinen luontainen tai intuitio siitä, että mitä kausaalisuus tarkoittaa.
Mutta jos me aloitetaan sitä vähänkään muodollisemmin tai formaalimmin pohtia, niin käy aika pian ilmi,
että se on aika pakeneva käsite ja aika hankala ja ehkä myös monitulkintainen.
Tai ainakin siitä on monta eri teoriaa tai tämmöistä lähestymiskulmaa, sanotaan ainakin näin.
Eli se on kyse oikeastaan filosofisesta käsitteestä.
Mutta jos me yritetään yksinkertaisesti, miten ehkä tilastoanalyysin kannalta tätä ajatellaan,
ja ehkä myöskin tämmöisen tutkimuksen kannalta sitten sitä kautta,
niin kausaalisuus tarkoittaa semmoista keskimääräistä eroa, vaikkapa jonkun sairaalinen riskissä,
niiden välillä, tai sellaisessa väestössä, jossa kaikki ottaisivat sen lääkkeen,
versus että samat yksilöt samassa väestössä eivät ottaisi sitä lääkettä.
Eli siinä tehdään tämmöinen ikään kuin jonkinnäköinen hypoteettinen koeasetelma,
jossa verrataan samoja yksilöitä sekä lääkityksen alaisuudessa että sitten ilman lääkitystä.
Ja koska tämäkin on ihan selvästikin vielä mahdoton tehtävä,
koska samalla yksilöllä ei voi sekä antaa että ei antaa tätä lääkettä,
niin silloin meidän täytyy tyytyä semmoiseen asetelmaan,
jossa me vertaamme lääkettä ottaneita tai lääkettä saaneita ja sellaisia, jotka eivät lääkettä saaneet.
Ja jotta voidaan sitten varmistua, että tämä vertailisema tuottaa sen, mitä me halutaan,
niin sitten tehdään tämmöisiä oletuksia siitä juuri sen käsittelyn,
eli sen lääkkeen saamisen sattumanvaraisuudesta.
Eli nämä kaksi vertailtavaa ryhmää ovat aivan samanlaisia kaikkien muiden ominaisuuksien suhteen,
paitsi sen, että toiset saavat lääkettä ja toiset ei.
Ja silloin voidaan tässä näiden formaaliakin teoreettisempien tarkastelujen perusteella
mennä sanomaan, että okei, nyt meillä on sitten kausaalinen vaikutus osattu arvioida.
Joo. Siinä mainittiinkin monta kertaa tämä satunnaistamisen tärkeys kontrolloidussa kokeissa,
mutta yksi semmoinen täsmennys vielä tähän väliin, joka saattaa mennä monilla tsekaisin,
että haluaisitko sä kertoa, että mitä ero on satunnaistamisella ja sokkouttamisella?
No, sokkouttaminen on joskus mahdollista tämmöisessä satunnaistutussa kokeessa.
Se tarkoittaa yksinkertaisesti sitä, että tutkittavat ja usein myös tutkijat,
eli ne, jotka keräävät sitä tietoa tutkimusta varten, eivät tiedä sen tiedonkeruun aikana,
että mihin käsittelyryhmään kukin kuuluu.
Eli pidetään sokkona sen suhteen, että onko yksilö saanut vaikka uutta,
ehkä paremmaksi jo arvioitua rokotetta, tai sitten standardirokotetta, sanotaanko näin.
Ja tällöin pyritään ehkäisemään se, että tämmöiset subjektiiviset käsitykset ja tieto siitä,
että miten yksilö on altistunut tälle käsittelylle, vaikuttaisi siihen, että miten tietoa kerätään.
Tai sitten jopa näin, että jos se tutkittava itse tietäisi, että mä oon saanut tätä uutta lääkettä,
niin hän sitten tekisi sen päätöksensä hakeutua hoitoon, ja sen perusteella ainakin se voisi vaikuttaa hänen päätökseensä,
jos hän tietäisi, että kumpaa lääkettä hän on saanut.
Mutta yritetään välttää tämmöisiä tiedostamattomiakin ikään kuin polkuja,
jotka voisivat vaikuttaa siihen, että kuinka puolueettomasti sitä tietoa,
sitä vastettapahtuman sattumisesta pyritään, tai voidaan rekisteröidä.
Ja yksi esimerkki voisi olla vaikka kivun lievittyminen, joka on subjektiivinen arvio siitä,
jos nyt yksilö tietäisi, että mä oon saanut lääkettä A enkä lääkettä B,
niin sekin voi taas vaikuttaa siihen, että miten hän raportoi tämän oman tilansa.
Aina tämä sokkouttaminen ei kuitenkaan ole mahdollista, se riippuu vain sitä interventioista.
Tyyppellisesti semmoisissa, missä nyt annetaan joku pilleri, joka näyttää samalta,
on se sitten aktiivinen lääke tai placebo tai rokote, voisi olla toinen tämmöinen,
niin silloin tämä on tietenkin mahdollista, tähän pyritään.
Ja se on ehkä nyt pienempi juttu, mutta joskus puhutaan myöskin tämmöistä kolmannesta sokkouttamisen asteesta,
jossa tarkoittaa, että se tilastoanalyysin tekijäkään ei vielä tiedä, että kuka on kuka,
vaan ne on kohdattu vain yksi ja nolle, eikä tiedetä, että mitä ne tarkoittaa altisteen kannalta.
Eli meidän on kaikki mahdolliset tämmöiset virheet tai harhan mahdollisuudet siinä,
että miten sitä aineistoa käsitellään.
Ja eli tämä kaikki tämmöinen, no tämähän on niin kuin kontrollointia sille tutkimusasetelmalle,
niin mitä enemmän tätä tehdään, niin sitä varmemmin me voidaan olla niistä,
varmempia me voidaan olla niistä kausaallisuussuhteista.
No kyllä se toki, sillä pyritään ehkäisemään tämmöisiä harhoja siinä tiedon ikään kuin siinä kerätyssä tiedossa.
Jos palataan sitten vielä tämmöisestä ehkä filosofisemmasta aiheesta itse näihin kokeellisiin tutkimustyyppeihin,
niin onko tämän kokeellisen tutkimuksen alla jotain alatyyppejä, tai minkä tyyppisiä kokeelliset tutkimukset on?
No mä sanoisin ehkä, että jos mietitään tuota, mitä Sari kertoi aluksi näistä erilaisista havainnoimista tutkimusasetelmista,
niin kokeelliset tutkimukset, niissä aina altistet, eli tämä käsittely edeltää sen vastetapahtuman mittaamista.
Siinä on tietty aileinen yhteys, jolla silläkin pyritään jo siihen, että ollaan lähempänä sitä kausaallisuutta,
niin kuin ajallista, ainakin periaatteessa tämmöistä yhteyttä.
Eli voisi sanoa, että nämä on aina tämmöisiä eteneviä kohorttitutkimuksia,
ja silloin näitä tutkittavia seurataan tyypillisesti havainnoivia tutkimuksia paljon aktiivisemmin ihan online,
eli reaaliajassa, ja kerätään sitä uutta tietoa, ja näin ehkä sitä voidaan myös varmistua,
että se tiedon laatu on jollakin tavalla taas tutkimussuunnitelman mukaista ja jotenkin ideaalista.
Ja myöskin, että kaikki tapahtumat, mitä sitten sattuu seurannan aikana, niin tulevat rekisteriytyksi juuri siinä aika järjestyksessä,
kun ne oikeasti tapahtuivat. Niitä ei tarvitse jälkikäteen rekonstruoida esimerkiksi rekistereistä.
Ja kontrolloiduissa kokeissa on tosiaan aina vähintään ja tyypillisesti ehkä juurikin kaksi tämmöistä käsittelyryhmää.
Se on tietenkin semmoinen piirre, mikä on sitten nimenomaan näissä kohorttitutkimuksissa tärkeä.
Ja kokeelliset tutkimukset edellyttävät hyvin, ja tyypillisesti niitä vaaditaankin, semmoista hyvin tarkkaa ennakkosuunnittelua.
Että jos me ajatellaan vaikka uuden lääkkeen tai uuden rokotteen lisenssiointia, niin ne perustuvat juuri tämmöisiin satunnaistettuihin kokeisiin.
Ainakin ihan valtaosi, voi sanoa näin.
Ja myöskin silloin vaatimuksena on, että ne on todella hyvin ennakkoon suunniteltu.
Eli koko se tiedon kerru on etukäteen kirjattu paperille.
Ja tilastonallisen kannalta voisi sanoa, että se tarkoittaa myös sitä, että se tilastoanalyysisuunnitelma on tehty etukäteen.
Eli jos ajatellaan ihan sitä lopullista analyysiä, sitten kun se aineisto on kerätty, niin se on itse asiassa paljon helpompaa.
Tämä on nyt ehkä vähän liioteltua, mutta siinä vaiheessa vähintäänkin helpompaa kuin havainnoavissa tutkimuksissa.
Havainnoavissa tutkimuksissa on todella kiinnostavia tilastollisia ja tämmöisiä juuri siihen otantaan ja siihen mahdollisin harhoihin liittyviä ongelmia,
joita sitten pyritään mallintamisen kautta hallitsemaan.
Tilastoanalyysi täällä kokeellisen tutkimuksen puolella on jotenkin suoraviivaisempaa siinä mielessä.
Te molemmat opetatte perusvaiheen opiskelijoille kursseilla, jossa puhutaan näiden havainnoivia ja kokeellisten tai ylipäätään erilaisten tutkimusasetelmien eroista.
Ja usein nämä tutkimusasetelmat esitellään semmoisen pyramiidimallin avulla, joka mun mielestä ainakin hienosti kiteyttää eri tutkimustyyppien suhteita ja toisaalta myös mahdollisuuksia.
Eli jos nyt kuuntelijat pystytte visualisoimaan pyramiidin mielessänne, niin yleensä se tiedon luotettavuus ja mahdollisuus tehdä syy-seerauspäätelmiä kasvaa pyramiidin tasoja noustessa,
kun taas sitten harhan mahdollisuus kasvaa mentäessä asetelmiaportaita alaspäin.
Ja näistä asetelmista, mitä me tänään käsitellään, niin kokeellinen tutkimus on tällaisen pyramiidin yläosassa ja sen alapuolella järjestyksessä sitten kohdattitutkimus, tapausverrokkitutkimus ja lopuksi poikkileikkaustutkimus.
Mutta joo, nyt me ollaan opittu näistä eri tutkimusasetelmista, niin kernataanpas vielä kokeellisen ja havainnoivan tutkimuksen keskeiset enot.
Joo, no mä voisin vaikka siitä sanoa, niin tämä interventiotutkimus eroaa keskeisesti havainnoivista tutkimuksista siinä, että tutkijalla on niin sanotusti kädet pelissä, eli hän vaikuttaa altisteen kestoon ja määrään.
Ja esimerkkinä voitaisiin ottaa toinen esimerkki, oli hyviä esimerkkejä rokotetutkimuksesta, mutta esimerkiksi jos ajatellaan, että kiinnostaisi, että voidaanko ikääntyviä lonkkamurtumia ehkäistä vaikka lihasvoimaharjoittelulla.
Niin emme pelkästään, se ei tavallaan riitä, että me kysytään tutkittavilta, että käyvätkö he kuntosalilla ja sitten katsotaan, että kenelle tulee lonkkamurtoja ja kenelle ei.
Vaan että jos me sitä oikein kokeellisesti halutaan tarkastella, niin sitten me voidaan toteuttaa interventiotutkimus, jossa me ohjelmoidaan kuntosaliharjoittelua tälle interventioryhmälle,
jossa tehdään tämmöistä progressioita, lisätään vastuussa sitä mukaan, kun voima lisääntyy ja vertailuryhmä sitten taas vaihtoisesti tekisi vaikka jotain yläraajojen voimisteluliikkeitä, millä ei ole mitään vaikutusta kaatumisriskiin tai murtumariskiin.
Eli silloin me todellakin vaikutetaan, pyritään vaikuttamaan tutkittavien käyttäytymiseen ja katsotaan, että onko se todellakin se lihasvoimaharjoittelu, mikä ehkäisee sitten niitä lonkkamurtumia.
Joo. Ja sitten toinen tärkeä vahvuus näissä interventiotutkimuksissa, tämän käsittelyn lisäksi on satunnaistaminen ja jossain tapauksissa myöskin sokkouttaminen.
Joo, että siitä meillä tuossa taisi olla nyt jo esimerkkejä ja nimenomaan tästä satunnaistamisesta, että se on se oleellisin keino, jolla vältetään se sekoittumisen aiheuttama harha.
Ja voidaan sitten sanoa, että se ero, mikä nähdään käsittelyryhmien välillä, johtuu siitä käsittelyiden erosta, eikä mistään muusta.
Tähän sillä pyritään se satunnaistamisella.
Ja sokkouttaminen nyt taas liittyy siihen ikään kuin tiedonkeruun jonkinnäköiseen tarkkuuteen, että siinä ei tapahdu harhoja.
Mutta ihan kiinnostava varmaan tuohon äskeisen saarin esimerkkiin, että tässäkin liashahdottelussa sitä olisi aika hankala sokkouttaa.
Ja sitten voidaan kysyä, että kaikissa tilanteissa se ehkä nyt ole sitten, riippuen vähän sitä vastetapahtumasta ja sen ikään kuin rekisterölin tavasta, että kuinka ehkä oleellinen se on.
Mutta joka tapauksessa ei aina ole mahdollista.
Joo, ja sitten jos mietitään vielä näitä eroja havainnoiva ja interventiotutkimusten välillä, niin usein interventiotutkimukset on myöskin pikkasen kalliimpia toteuttaa, koska ne itse tutkimusjärjestelyt vaatii niiltä tutkijolta aikaa, järjestelyä ja myöskin se sitouttaa aika paljon enemmän niitä tutkittavia.
Ja sitten ehkä haasteena voi olla se, että kuinka yleistettäviä ne tulokset on sitten laajempaan kohdejoukkoon.
Joo, siinä voisi ehkä sanoa niin, että siinä on montakin syytä, että miksi ne eivät ole ehkä yleistettävissä, että kokeelliset tutkimukset tehdään usein semmoisessa ehkä keskimäärin vähän terveemmässä ja vähän ikään kuin terveemmässä väestössä, voisiko sanoa näin.
Siinä tulee tietysti tämmöiset sisäänottokriteerit, joita pitää täyttöä, että ihmisiä voidaan altistaa tietyille ikään kuin toimille ja siinä olla vähän varovaisia, että se olisi myös eettistä ja näin.
Jolloin sitten se meidän tutkimusjoukko tai se otos saattaa olla jonkinnäköinen vähän kuin idealisoitu kuva siitä meidän perusväestöstä, johon sitten lopulta tämmöistä interventiota haluttaisiin kohdistaa.
Tai tämmöistä vaikkapa tiettyä uutta lääkettä tai rokotetta tai sitten tämmöistä terveysinterventioneuvontaa.
Eli se meidän väestö ei välttämättä siinä tutkimuksessa vastaa ihan kokonaan koostumukseltaan sitä meidän ikään kuin loppukäytön väestö, miten sen sanoisi.
Ja sitten ehkä tärkeä pointti tässä on se, että siellä satunnaistamisella pyritään kyllä sen sekoittuminen ikään kuin hallitsemaan.
Mutta se käytännössä tarkoittaa, tai ainakin periaatteessa tarkoittaa sitä, että ne tulokset ovat voimassa vain siinä samassa populaatiossa, missä taustamuuttoon jakama on täsmälleen sama.
Ja jos me sitten yritetään mennä ihan toiseen väestöön, niin se intervention tai tehokkuus, vaikuttavuus ei välttämättä ole sama kuin sen teho siinä, eli se havaittu ero tämmöisessä satunnaistamisessa kokeessa.
Eli tässäkin on yksi semmoinen asia, mikä sitten me pyritään osoittamaan näitä kausaallisia suhteita kokeellisella tutkimuksella, mutta sitten on hieman eri asia kysyä, että mikä semmoisen vaikuttavuus olisi oikeassa väestössä.
Jos ihmiset eivät välttämättä sitten ota niitä lääkkeitä täsmälleen sen mukaan, kun resepti sanoo tai noudata ohjeita tai käyttäytyvät vähän ikään kuin eri tavalla kuin tämmöisessä ideaalisessa, vähän valvotussa ikään kuin kokeen piirissä.
Ja ehkä tähän vie sinne lisänäkökulmaan sitten se, että puhutaan, että tehdään yksittäisiä interventiotutkimuksia, niin monestikaan hoitokäytäntöjä ei muuteta yhden tutkimuksen perusteella,
vaan sitä tietoa kootaankin useista interventioista, eli tavallaan kootaan useamman tutkimuksen näyttö.
Ja te puhutaan tämmöistä meta-analyyseistä, niin vasta kun useampi tutkimus on näyttänyt sen hyödyn, niin vasta sillä sitten voidaan ajatella, että muuttaa vaan jotakin käytännön hoitokäytäntöjä.
Että näin se usein menee, että se tieto tavallaan tarvitaan paljon näyttöä.
Ei luoteta tai ei riitä yksittäisen tutkimuksen tulokset.
Vaikka nämä kokeelliset tutkimukset on erittäin hyödyllisiä ja ne antaa tosi tarkkoa tietoa näiden hoitojen vaikutuksista, niin aina ei ole kuitenkaan mahdollista tehdä kokeellista tutkimusta.
Niin mitäs Kari on, että mitä voisi olla tällaisia tilanteita?
No, ehkä voi muutamia tämmöisiä syitä luetella.
Joskus meillä on hyvä tutkimuskysymys, mutta sen altisteen satunnaistaminen olisi epäeettistä.
Esimerkiksi jos se on vaikkapa alkoholin liikakäyttö tai ylen syöminen tai tupakointi, niin ei ole eettistä satunnaista ihmisiä juomaan liikaa tai sitten vähän vähemmän.
Eli tämmöistä haitallisten altisteiden satunnaistaminen on aika mahdotonta.
Ja joskus sitten voi olla myös liian kallista, eli Sarilla oli tuossa tuo tapausverrokkiesimerkki, että meillä voisi kestää vuosikymmeniä, että me joiden tiettyjen altisteiden vaikutusta johonkin syöpien ilmaantuvuuteen tutkittaisiin kokeellisesti, jolloin on pakko mennä toisinpäin sairauslähtöisesti liikkeelle.
Ja silloin se on liian aikaa viepää ja käytännössä hankalaa tai mahdotonta ja myöskin kallista.
Joo. Miten Sari, tuleeko sinulle muita tilanteita mieleen, milloin kokeellista tutkimusta ei voida tehdä?
Joo, no oikeastaan semmoisissa tilanteissa, missä sitten juurikin meillä ei ole mahdollisuutta sitä altistetta satunnaistaa.
Että se on joku semmoinen asia, mitä me pystymme ennakoimaan.
Jos me ajatellaan vaikka luonnonkatastrofeja tai sotatilanteita, missä me haluttaisiin tutkia vaikka, että millainen vaikutus silloin ihmisten psyykkiseen terveyteen ja tämän tyyppisiin asioihin esimerkiksi, niin semmoisia me ei voida ennakoida millään tavalla, eikä me voida silloin satunnaistaa näitä ryhmiä.
Että sitten niitä tutkitaan tämmöisissä havainnoivissa asetelmissa.
Ja sitten voisi ehkä vielä sanoa, että jos ajatellaan nyt vaikka tämmöisiä sairauden biologisia prosesseja, niin ne on aika varmasti monimutkaisia.
Ja ne on tämmöisiä systeemejä, oikeastaan monimutkaisia syy-seurauspolkuja ja monien muuten tekijöiden ikään kuin yhdelmiä, niin on ihan mahdotonta varmaan tietyin tyyppisissä ongelmissa pilkkoa se ongelma niin pieniin osiin, että jokaista voitaisiin tutkia kokeellisesti.
Ja silloin tarvitaan tämmöistä holistisempaa otetta siihen, että miten sitä mekanismia ikään kuin ymmärrätään.
Joo joo. Aiemmin tuossa mainittiinkin ohimenneen, kuinka havainnoivissa tutkimuksissa ei voida osoittaa kausaallisuutta, mutta niitä kausaallisuuteita voidaan arvioida.
Niin mitä tämä tarkoittaa? Miten se tapahtuu käytännössä?
No aloitanko mä ja ehkä sitten Sari voi täydentää, että tämä tarkoittaa sitä useimmissa havainnoivien tutkimusten tämmöisissä asetelmatyypeissä,
että siinä analyysivaiheessa pyritään niin sanotusti vakioimaan sekoittumisen aiheuttamat harhat pois.
Eli ihan yksinkertaisimmillaan se tarkoittaa sitä, että kun olemme tunnistaneet, että mitkä ne sekoittavat tekijät ovat ja voisivat olla,
niin sitten me analyysimme tavallaan erikseen eri vaikkapa miehissä ja naisissa tai eri ikäluokissa sitä käsittelyn vaikutusta.
Ja näin pyritään eristämään se sekoittavan tekijän tämmöinen vaikutus siihen eroon.
Ja tästä on sitten erilaisia muunnelmia.
Tämä osittamisen lisäksi voidaan sitten rakentaa niin sanottuja regressiomallia, jotka on oikeastaan ihan sama asia,
mutta vähän ikään kuin kootummin, johon voidaan tuoda paljon erilaisia sekoittavia tekijöitä samaan analyysiin.
Ja sitten tapausverrokitutkimuksissa, mitkä mainittiin tuossa, niin niissä sitten taas yksi tapa hoitaa tätä on tämmöinen kaltaistaminen,
eli matching englanniksi.
Eli pyritään valitsemaan ne verrokit ikään kuin samasta sairaalasta tai samalta alueelta ja samanikäisistä ja niin poispäin.
Tämän eri taustatekijän suhteen mahdollisimman samanlaisina, paitsi että heillä ei ole sitä sairautta, jota siinä tutkitaan.
Eli nämä koskivat kaikki tämmöisiä, ehkä tätä kaltaistamista lukuun, että kaltaistaminen tapahtuu siinä tutkimuksen suunnitteluvaiheessa,
tiedon keruvaiheessa, mutta muuten yleensä sitten tässä analyysivaiheessa pyritään tämmöiseen vakiointiin.
Joo. Mites Sari, tuleeko jotain lisättävää mieleen?
Joo, no sitten yksi mahdollisuus on näissä seurantatutkimuksissa rakentaa ikään kuin tämmöinen kvasikokeellinen asetelma sinne aineistun sisään.
Että jos ajatellaan, että meillä on seurantatutkimus, missä on monta aikapistettä, niin me voidaan ottaa sieltä kolme peräkkäistä aikapistettä
ja hyödyntää, rakentaa sinne sisään tämmöinen interventioasetelma.
Eli lähtökohtana voisi olla se, että otetaan mukaan, no me ollaan tehty tutkimusta esimerkiksi työnkuormitustekijöistä
ja ollaan tehty, upotettu tämmöiseen isoon kohortitutkimukseen tämmöinen, missä meillä on tavallaan ensin semmoinen lähtöjoukko,
missä kukaan tutkittavista ei raportoi työstressiä.
Ja sitten seuraavassa mittauspisteessä osajoukosta raportoi työstressiä, eli heille tavallaan tulee se altistuminen.
Ja toinen joukko edelleenkin sanoo, että ei ole työstressiä.
Sitten meillä on kolmas mittauspiste.
Ja sitten katsotaan, että ilmaantuuko, tässä tapauksessa me tutkittiin univaikeuksia,
että ilmaantuuko niille, ketkä kokivat työstressiä, ilmaantuuko heille univaikeuksia useammin kuin sille joukolle, ketkä eivät kokeneet työstressiä.
Eli tietyllä tavalla meillä on ihan semmoinen interventioasetelma siellä, mutta ainut on, että me ei pystytä niitä,
sitten meillä on niitä taustatekijöiden hallintaa, otetaan tilastollisesti huomioon.
Mutta tietyllä tavalla tämmöisissä, missä meillä on monta mittauspistettä, niin sinne voidaan sisään rakentaa tämmöisiä.
Puhutaan tämmöistä kvasikokeellisista asetelmista.
Okei, aika näppärä.
Joo.
Siinä tulikin suuri määrä infoa näistä eri tutkimustyypeistä ja niiden eroista.
Pienenä yhteenvetona voitaisiin vielä sanoa, että tutkimusasetelma auttaa hahmottamaan mitä ja miten tutkimus on tehty ja miten niitä tuloksia tulee tulkita.
Mutta asetelma ei kerro siitä, että onko tutkimus hyvä vai huono, vaan tämä tämmöinen lainausmerkissä paremmuusjärjestys riippuu ihan täysin siitä, että mitä me halutaan tietää.
Pitäisikö meidän tähän loppuun vielä nopeasti kerrata nämä eri tutkimustyypit, joita tänään on käsitelty?
Vaikka Sari aloittaa havainnoivaan puolelta.
Joo, juurikin näin, että riippuu aina siitä, mistä ollaan kiinnostuneita, niin sen mukaista tutkimusta sitten tehdään.
Eli jos me ollaan kiinnostuneita asioiden välisestä yhteyksistä ottamatta lainkaan kantaa siihen ajalliseen ulottuvuuteen, niin silloin poikkileikkaustutkimus on soveltuva asetelma.
Ja siinä tosiaan altista ja vasten mitataan samalla aikahetkellä.
Ja sitten tämä tapausverokkitutkimus, niin se on hyvä asetelma silloin, jos meillä on kohteena aika harvinainen sairaus, jonka kehittyminen vie vuosikymmeniä.
Niin silloin on luonnollista aloittaa niistä sairastuneista ja sitten etsiä heille ne verrokit ja käyttää sitten esimerkiksi juuri tätä Karin mainitsemaa kaltaistamista, että heidät saadaan maailman samankaltaisiksi.
Ja sitten tutkitaan heidän altistumishistoriaa.
Eli se on semmoinen nopea, suhteellisen nopea tutkimustyyppi toteuttaa, koska siinä hyödynnetään jo sitä saatavilla olevaa aineistoa.
Ja sitten se kolmas tutkimustyyppi, mistä puhuttiin, oli tämä pitkittäistutkimukset eli kohortitutkimukset.
Se on soveltuva asetelma silloin, kun me ollaan kiinnostuneita, miten joku asia muuttuu ajassa tai miten halutaan tutkia sitä, että miten joku tekijä ennustaa sairauden ilmaantumista.
Niin silloin hyödynnetään tätä kohortitutkimusta.
Kiitos. Sitten Kari Kokeellisen puolelta.
No, kokeellisessa tutkimuksessa tavoitteena on syy-seuraussuhteiden osoittaminen.
Se on voimakasana se osoittaminen, mutta siihen sillä pyritään.
Ja se on tämmöinen etenevä kohorttiasetelma, jossa tärkeää on se vertailuasetelma ja sitten sen käsittelyn satunnaistaminen.
Tuli jo mainittua, että joskus jonkin uusien, nimenomaan ehkä nyt lääkkeiden ja rokotteiden käyttöönotto, niin vaatii tämmöistä satunnaistettua kokeita tai joskus jopa useampia.
Että voidaan ikään kuin varmentaa se, että tätä kannattaa alkaa sitten, tälle kannattaa antaa myyntilupa.
Mutta sitten sanotaan myös meidän terveystieteellisessä tutkimuksessa, niin kyllä niissäkin voidaan sitten ajatella, että se on se vahvin näyttö, jos se on mahdollista toteuttaa, niin tämmöisen kokeellisen tutkimuksen kautta.
Mutta sitten täytyy sanoa, että aina sitä ei voi tosiaan tehdä ja meidän on lopulta kuitenkin varmaan sitten muodostettava kokonaisnäkemys Xn ja Yn yhteydestä monen eri tiedonpalasen varassa.
Usein miten on näin varmaan kuitenkin.
Okei. Hei kiitos paljon Sarja ja Kari, että te tulitte tänne jakamaan meille tehdä asiantuntijuutta.
Mutta olisiko teille vielä jotain sanottavaa esimerkiksi, että millaista kurssitarjontaa Turun yliopistolla on, jossa tähänkin aiheeseen voisi syventyä lisää?
Joo, ne me tosiaan Karin kanssa molemmat opetetaan näitä asioita lääketieteen ja biolääketieteen opiskelijoille havainnoista päättelyyn opintojaksolla.
Ja sitten jos ajatellaan jatkotutkimusta tekeviä, niin lääketieteellisessä tiedonkunnassa on tämmöinen jatko-opintokurssi väestötutkimuksen perusteet, mikä on myöskin avoin tutkijalinjalaisille.
Eli näitä asioita siellä käsitellään.
Ja ehkä kolmantena voisi mainita epidemiologian tilastolliset menetelmätkurssit, joka pidetään tuolla matematiikan ja tilastotieteen laitoksessa.
Sekin on avoin nimenomaan kaikille jatkotutkintoa tekeville yliopistossa.
Okei. Tässä jaksossa käytiin tosiaan läpi havainnoivia ja kokeellisia tutkimustyyppejä, eli englanniksi Observational ja Experimental Studies.
Näistä kerrottiin nyt melko lyhyesti ja yleisellä tasolla, mutta jos joku saa haluaa oppia erilaisista tutkimustyypeistä tarkemmin, niin meillä on näistä kaikista myös erilliset jaksot, missä mennään sitten hieman pintaa syvemmälle.
Mutta tosiaan, kiitos vielä kerran, Sarja ja Kari, että tulitte tänne aviantuntijuutta jakamaan.
Kiitos. Tämä oli oikein mukava tulla kertomaan asioita.
Joo, kiitos. Ja toivottavasti tämä avasi hieman tarkemmin näitä eri tutkimusasetelmien eroja.
Jep. Ja hei, toivottavasti tämä jakso tosiaan innosti sinua kuuntelija oppimaan lisää paitsi eri tutkimusasetelmista ja niiden eroista, niin myös yleisemmin biostatistiikasta.
Kuullaan taas statistiikan aaloille.
Tämä podcastin on tuottanut Turun yliopiston lääketieteellisen tiedekunnan biostatistiikan yksikkö.

Logistinen regressioanalyysi

Logistinen regressioanalyysi on keskeinen tilastollinen menetelmä lääketieteellisessä tutkimuksessa. Toisin kuin yleisemmin tunnetussa lineaarisessa regressiossa, logistisessa regressiossa selitettävä vastemuuttuja on luokitteluasteikollinen: kaksiluokkainen, luokittelu- tai järjestysasteikollinen.

Tässä podcastin jaksossa biostatistikko Tero Vahlberg esittelee logistisen regressioanalyysin perusteet ja sen, kuinka tuloksia tulkitaan. Jaksossa käydään läpi, kuinka binäärinen, multinomiaalinen, kumulatiivinen ja ehdollinen logistinen regressio eroavat toisistaan sekä huomioidaan logistinen regressio korreloituneelle aineistolle ja subjekti-spesifiset logistiset mallit. Esimerkeillä havainnollistetaan kuinka eri menetelmiä sovelletaan erilaisiin tutkimusasetelmiin.


 Tervetuloa statistiikan aalloille.
Olit sitten tutkija, yleisen bio- tai hammaslääketieteen tai hoitotieteen opiskelija,
tai ihan muuten vaan kiinnostunut biostatistiikasta, niin hienoa, että saat kuulolla.
Minä olen biostatistikko Markus Riskumäki, ja tänään mulla on taas haastateltavana
biostatistikko Tero Wolberi Turun yliopiston biostatistiikan yksiköstä. Tervetuloa.
Kiitoksia.
Tänään meillä onkin aika iso aihe, joka on varsinkin lääketieteellisessä tutkimuksessa
hyvin yleisessä käytössä oleva menetelmä, eli logistinen regressio.
Ja regressiosta varmasti monikin kuuntelija on joskus kuullut,
mutta kertoisitko Tero lyhyesti, että mitä erityistä just logistisessa regressiossa on,
ja miten se eroaa esimerkiksi lineaarisesta regressiosta?
Joo, eli lineaarisessa regressiossa se selitettävä muuttuja,
eli vastenmuuttuja on tällainen numeerinen muuttuja,
eli esimerkiksi verenpaine, podimasindeksi, erilaiset summamuuttujat.
Eli se niin sanottu mallin y-muuttuja, tilastollisin termein, on numeerinen.
Sitten taas logistisessa regressiossa, niin se vastenmuuttuja on kategorinen,
joko kaksiluokkanen tai moniluokkanen.
Eli silloin se vastenmuuttaja voisi olla vaikka, että onko tutkittavalla oireita,
kyllä ei-tyyppinen, onko sairautta, kyllä ei.
Tai mikä on itse koettu terveydentila, yksi erittäin huono, viisi erittäin hyvä.
Eli se oleellinen ero on se, että logistisessa regressiossa se vastenmuuttuja on luokitteluasteikollinen,
ja lineaarisessa mallissa numeerinen.
Okei. Eli tärkeimpänä erona aiemmin käsiteltyyn lineaariseen regressioon on tosiaan se,
että toisin kuin lineaarisessa regressiossa, jossa vastenmuuttuja oli jatkuva, eli numeerinen,
niin nyt logistisessa regressiossa vastenmuuttuja onkin kategorinen,
jolloin tarvitaan ihan omia menetelmiä.
Kyllä. Ja tosiaan logistisia regressioita on erityyppisiä,
riippuen siitä, että onko se vastenmuuttuja kaksiluokkanen vai moniluokkanen.
Eli se yleisimmin käytetty malli on binäärinen logistinen regressio,
ja siinä se vastenmuuttuja on kaksiluokkanen.
Sitten on moniluokkaisille vastenmuuttuille tarkoitettuja malleja,
eli multinominen logistinen regressio, niin siinä sitten vasteena on tämmöinen
nominaaliasteikollinen, tai voi olla myös järjestysasteikollinen.
Ja sitten on kolmantena mallityyppinä on sitten kumulatiivinen,
eli tämmöinen järjestysasteikollisen vasten logistinen regressio,
ja siinä se vastenmuuttuja on taas järjestysasteikollinen.
Ja lineaarisessa mallissa vastenmuuttuja on suoraan se tutkittava vaste,
eli esimerkiksi se verenpaine, kun sitten taas logistisessa regressiossa,
niin siinä vähän eri tavalla mallinnetaan sitä yhtälön vasenta puolta.
Eli siinä pelataan tämmöisillä todennäköisyyksillä,
ja tarkemmin, jos me vaikka tutkitaan, että mitkä tekijät on yhteydessä johonkin sairauteen,
niin silloin se yhtälön vasempaa, eli se mallinnettava asia noin tilastollisitermein,
niin siinä mallinnetaan, mikä on sen kahden ryhmän välillä esimerkiksi,
niin mikä on se sairauksien todennäköisyyksien suhteen luonnollinen lokaritmi.
Kuulostaa mutkikkaalta kyllä, mutta ei tämä ole niin mutkikasta sitten käytännössä,
että mallin muotoilu on monimutkaisempi verrattuna niihin lineaarisiin malleihin,
mutta käytännössä tämän logistisen regression soveltaminen,
niin ei kuitenkaan ole niin monimutkasta, miltä tuo äskeinen saattoi kuulostaa.
Mutta tosiaan siinä logistisessa regressiössä sitten se yhtälön toinen palikainen selittävät tekijät,
niin ne voi olla minkä tyyppisiä tahansa.
Eli meillä voi olla yksinkertaisia asetelmaa, missä meillä on kaksi ryhmää, mitä me verrataan.
Voi olla tutkimusryhmiä tai voi olla, että verrataan, että onko jossakin asiassa eroa,
vaikka Turun ja Helsingin välillä.
Eli mikä tahansa tämmöinen kaksiluokkainen muuttoja voi olla se selittävä tekijä.
Sitten meillä voi olla moniluokkaisia selittäviä tekijöitä,
voi olla numeerisia ja voi olla sitten useampi kuin yksi selittävä tekijä niissä malleissa.
Eli tavallaan siellä selittäviä muutteja puolta siellä yhtälö oikealla puolella,
niin siellä voi olla sitten sekä niitä numeerisia kategorisia tai sitten molempia.
Ja kuten yleensä tilastoissa malleissa, niin myös tässä logistisessa regressiossa
voidaan mallintaa sitten, tehdä tämmöisiä vakioituja analyysejä,
että missä kiinnostuksen kohe tutkia sitten vaikka tutkimusryhmien välisiä eroja vaikka oireellisuudessa.
Ja sitten me voidaan ottaa tämmöiset confounderit, sekoittavat tekijät huomioon vakioimalla
erilaisia tämmöisiä perustaustatekijöitä.
Esimerkiksi jos huomataan, että on eroa ryhmien välillä iässä tai PMIssä tai koulutuksessa,
ja ajatellaan, että ne asiat vaikuttaisiin siihen tutkittavaan asiaan, eli oireellisuuteen,
niin silloin me pystytään tällaisia huomioimaan ja adjustoimaan niissä analyyseissä.
Ja sitten on mahdollista myös tutkia tämmöisiä vaikutusmuovaavia tekijöitä,
eli tämmöisiä interaktioita ja yhdysvaikutuksia,
että onko sitten joku interventiovaikutus vaikkapa erilaista naisten ja miesten välillä.
Siinä oli paljon asiaa silleen vähän yleisemmin logistisesta regressiosta,
mutta sä mainitsitkin näitä erityyppisiä logistisia regressioita,
niin voitaisiin alkaa purkamaan tätä aihetta sieltä yksinkertaisimmasta päästä,
eli binäärisestä logistisesta regressiosta.
Ja niin kuin nimikin kertoo, ja niin kuin mainittiinkin,
niin binäärisessä logistisessa regressiossa
tämä vastenmuuttoja on binäärinen, eli kaksiluokkainen.
Haluaisitko sä kertoa teillä vähän lisää siitä?
Joo, eli tämä on nyt kaiken perusta näille logistisille regressioille,
tämä binäärinen logistinen regressio.
Eli nyt kun tätä aihepiiriä alkaa tutkimaan ja menetelmään tutustumaan,
niin kannattaa tämä binäärinen logistinen regressio ensin opiskella hyvin,
ja sen jälkeen nämä muut logistiset regressiomallit on yleistyksiä tähän binääriseen.
Mutta tämä on se kaiken pohja.
Eli tosiaan se outcome, se vastenmuuttoja on kaksiluokkainen.
Se voi olla niin, että se on luonnostaan jo mitattuna kaksiluokkainen.
Eli tyypillisesti, että tutkitaan vaikka, että mitkä on riskitekijöitä jollekin sairaudelle,
niin silloin se vaste on kyllä ei-tyyppinen, että on sairas tai terve.
Tai sitten voi olla vaikka kahteen luokkaan jaettuna, niin työllistymistä voidaan tutkia.
Meillä voi olla nykypäivällä hyvin karkea jaottelu töissä ja työtön,
mutta siinä meidän pitää sitten miettiä, että etsitäänkö me selittäviä tekijöitä sille,
että mitkä tekijät selittää sitä työllistymistä vai mitkä tekijät selittää työttömyyttä.
Eli meidän pitää miettiä se, mikä on se mallinnettava todennäköisyysluokka
silloin, kun meillä on tämmöinen kaksiluokkainen vaste.
Ja tosiaan se vaste voi olla vaikka, yleensä kyllä ei-tyyppinen tyyli,
että oletko syönyt tänään aamupalaa. Kyllä ei.
Se voisi olla se vaste ja sitten tutkittaisi, että mitkä tekijät opiskelijalle vaikuttaa siihen,
että onko se aamupala nyt syöty sitten tänään.
Ja sitten tosiaan se oli se yhtälle vasempaa, eli vaste on tämmöinen kaksiluokkainen.
Mutta sitten ne selittävät tekijät, niin ne voi olla sitten tosiaan kategorisiin kaksiluokkaisia.
Nominaali- ja ordinaaliasteikon muuttujia tai sitten tällaisia numeerisiä muuttujia.
Ja nyt kun me lähdetään sitä rakentamaan sitä mallia, tutkitaan, että mitkä tekijät on yhteydessä siihen aamupalan syömiseen.
Me saadaan päätettyä, että mitä yhteyksiä me tutkitaan, mitkä ovat ne selittävät tekijät.
Saadaan analyysit tehtyä, niin tässä logistisessa regressiossa se tulosten tulkinta tehdään noiden odds race-lukujen avulla.
Eli taas verrattuna lineaarisiin malleisiin, niin siellä kun me julkaisuissa esitetään tuloksia, niin siellä me esitetään ne regressiokertoimet, niitä estimaatteja.
Eli suoraan siitä mallista ne niin sanotut beta-estimaatit, kulmakertoimet numeerisille selittäjille ja keskiarvoerot kategorisille.
Niin täällä nyt kun meillä on pinäärinen logistinen regressio, niin tosiaan me saadaan siitä, tai malli antaa kyllä sen beta-kertoimen, mutta sitä ei ilmaista suoraan niissä julkaisuissa, vaan se käännetään odds race-lukujen.
Eli mennäkseni siihen teorian vähän, niin se on, sitten korotetaan se beta-en potenssiin, niin silloin me saadaan näin tilastollisesti matemaattisesti se odds ratio sieltä mallista laskettua.
Joo, sä puhuit tässä nyt näistä odds ratioista, ja nyt tämä on nyt se asian vähän niin kuin ydin tässä logistisessa regressiossa, niin tota, tilastotieteen sanasto sanoo, että odds ratio on suomeksi ristisuhde tai vetosuhde, mutta nää ei ilmeisesti ainakaan lääketieteen sovelluksessa kauhean yleisessä käytössä olevia termejä, vai käytäksä koskaan näitä suomeksi?
No joo, tämä on ehkä yksi niistä termeistä, mille on hankala keksiä sellaista hyvin sointuvaa suomenkielistä versiota, ja tässä on vuosien varrella erilaisia versioita ja suomennoksia keksitty tälle odds ratiolle,
mutta tota, itse käytän henkilökohtaisesti nykyään, jos on suomenkielisiä julkaisuja, niin odds phrase, or tai or luku, ja niin myös tässä podcastissa käytän näitä termejä.
Okei, no mitäs tota, mitäs tämä odds ratio nyt sitten semmoisella selkokielellä tarkalleen ottaen puvaa, ja ehkä tärkeimmä, että miten sitä oikein tulkitaan?
Joo, eli siinä tosiaan se odds ratio, niin tulkinta menee sillä tavalla, että silloin, jos meillä on vaikkapa vertailu, että tutkitaan, että onko kahden tutkimusryhmän välillä eroa, vaikka raskaus diabeteksessä,
niin silloin, jos me saadaan odds ratioksi ykkönen sille ryhmälle, niin se tarkoittaa, että ryhmien välillä ei ole eroa raskaus diabeteksessä.
Okei.
Ja sitten, jos se on yli yhden, niin se riippuu sitten siitä, että kumminkapäin me verrataan niitä ryhmiä.
Eli jos me nyt verrataan, jos meillä olisi vaikka se ykkösryhmä interventio ja kaksi olisi kontrolli, niin sitten, jos me saadaan odds ratio yli ykkösen,
niin se tarkoittaisi sitä, että siinä interventioryhmässä, niin siinä olisi suhteessa enempi siitä raskausdiabetesta verrattuna kontrolliryhmään.
Eli se odds ratio yksi tarkoittaa, että ryhmiä välillä ei ole eroa.
Jos me saadaan odds ratio, mikä on suurempi kuin yksi, niin se tarkoittaa, että ykkösryhmässä on enempi sitä vastetapahtumaa.
Ja sitten taas sen alle yhden, niin tarkoittaa, että siellä on ykkösryhmässä vähemmän sitä vastetapahtumaa.
Eli toisaalta se on suojaava tekijä siltä.
Ja jos mennään vielä vähän syvemmin tähän tarkempaan odds ratio tulkintaan, niin ja jos ajatellaan, että jos meillä olisi vasteena vaikka, että onko potilaalla sairauteen liittyviä oireita,
niin ja verrataan kahta tutkimusryhmää, niin me saadaan se odds ratio siltä vaan laskettua, että me määritetään eka, että siellä ensimmäisessä ryhmässä,
niin puhutaan tämmöisestä kuin oireiden odssi, niin se lasketaan niin, että mikä on se oireiden todennäköisyys siinä ykkösryhmässä verrattuna siihen, että ei tule niitä oireita.
Eli toisin sanoen se lasketaan niin, että mikä on se oireellisten määrä siinä ykkösryhmässä verrattuna niihin oireettomien määrään.
Niin se on se oireellisuuden odssi siinä ykkösryhmässä.
Ja sitten me lasketaan vastaava luku siellä kakkosryhmässä ja sitten näiden ykkös- ja kakkosryhmän odssien välinen suhde, niin siitä me saadaan se odds ratio laskettua.
Eli tulkintana, tämä on aina hankala, jos tähän menetelmään tutustuu ja muutenkin tämä sanatarkka, ainakin suomenkielinen tulkinta on pikkasen haastava,
mutta näissä on tärkeää, että sitten kun tämmöisiä analyyseja lukee niistä julkaisuista ja sitten kun itse soveltaa omaan dataan näitä logistisia regressioita,
niin osaa sitten tulkita nämä yhteydet oikeaan suuntaan ja esittää oikein siellä raportissa, että siellä ei välttämättä tarvitse niihin sanatarkkoihin tulkintoihin mennä.
Mutta tosiaan se sanatarkka tulkinta olisi sitten sille oddphrasella se, että jos meillä on vaikka oddphrase on kaksi ja puoli ja verrataan,
että mikä on tutkimusryhmässä yksi oireellisuuden odssi verrattuna tutkimusryhmään kaksi,
se tarkoittaisi, että ykkösryhmässä niin se oireellisten ja oireettomien välinen suhde on kaksi ja puoli kertainen verrattuna siihen kakkosryhmään.
Sitten me voidaan kääntää, eli se riippuu nyt, että miten me halutaan se tulos esittää.
Nythän tuossa sitten se ensimmäisessä ryhmässä olisi enemmän niitä oireita, mutta jos me halutaan kääntää ja tavallaan raportoida se tulos sillä tavalla,
että me etsitäänkin, että mitkä tekijät suojaa niiltä oireilta, niin silloin me voidaan esittää se tulos niin,
että me verrataankin sitä, että tavallaan siinä selittävässä muuttajassa verrataankin sitä kakkosluokkaa siihen ensimmäiseen luokkaan.
Ja silloin se on käytännössä tuon odds race on käänteisluku, eli yksi jaettuna kahdella ja puolella,
niin sitten me saadaan esitettyä se vertailu toisinpäin.
Eli tässä voi mennä tosiaan kahdessa kohtaa sekaisin näissä logistisissa regressioissa, tai ainakin kahdessa,
mutta ne tyypilliset on se, että ensiksi meillä on se yhtälön vasenpuolella ja se vastenmuuttuja,
eli mitä me mallinnetaan, minkä luokan todennäköisyyttä me mallinnetaan.
Se on usein aika selkeä, että varsinkin jos me mallinnetaan sairauksia tai oireita tai tämän tyyppisiä,
niin yleensä halutaan sitä oiretta tai sairautta mallintaa.
Ja sitten toinen asia, mikä vaikuttaa odds race on, on sitten se, että mitenkään ne selittävät tekijät,
että mikä siellä valitaan vertailuluokaksi.
Jep, ja julkaisus on tärkeä sitten, kun lasketaan odds racea,
niin aina yleensä esitetään sitten ne luottamusvälit odds raceaille,
ja niistähän sitten näkee ne, että onko yhteydet merkitseviä vai ei,
siitä, että kuuluuko se ykkönen sinne luottamusvälin sisälle.
Ja jos kuuluu, niin silloin se odds racea ei eroa merkitsevästi ykkösestä,
eli ero ei ole merkitsevä.
Sitten päästäänkin vähän astetta monimutkaisempaan malliin,
eli jatketaan edelleen binäärisellä logistisella regressiolla,
mutta toisen kuin noissa äsken puutuissa lyhyissä esimerkkeissä,
niin mitäs nyt, jos mallissamme onkin useampi selittävä muuttuja,
niin mitäs nyt tilanne muuttuu, ja onko tulosten tulkinta jotenkin erilaista?
Joo, eli nyt kun mietitään noita tieteellisiä tutkimuksia,
niin ne on tyypillisesti ne lopulliset paalit, mitä julkaisuissa raportoidaan,
niin on tällaisia useamman tekijän malleja.
Monasti lähdetään liikenteeseen siitä, että meillä on ensin yhden selittävä tekijän malli,
ja millä me tutkitaan sitten, että mitkä tekijät on yhteydessä siihen aamupalan,
että onko syönyt aamupala vai ei,
ja siitä me sitten tilastollisin työkalui rakennetaan se meidän malli,
ja saadaan sitten tämmöinen useamman selittävä tekijän malli,
josta sitten saadaan tietoa, että mitkä tekijät itsenäisesti on selittäviä tekijöitä sille aamupalan syönnille.
Tai sitten me voimme näillä monen selittävä tekijän malleja tehdä näitä vakioituja analyysejä,
että meillä voi olla sitten vaikka se tutkimusryhmien ero, mikä on se kiinnostava,
mikä on yleensä keissi tämmöisessä vertailevassa tutkimuksessa,
ja sitten meillä on niitä confoundereita, niitä vakioitavia tekijöitä,
mitä me halutaan huomioida siinä mallissa,
niin se tehdään yhtä lailla tämmöisellä monen selittävä tekijän mallilla.
Mutta silloin tosiaan ne oddsracet, mitä se malli antaa sieltä,
ja ne P-arvot, niin ne on tämmöisiä adjustoituja, vakioituja oddsracerja, vakioituja P-arvoja.
Ja tosiaan ne on yleensä sitten se lopullinen tulos sieltä siellä mallissa.
Eli tavallaan saadaan tietää, että kun kaikki muut mallissa olevat tekijät
on tilastollisesti huomioitu, vakioitu,
niin mille tekijöille jää itsenäisselitysvoimaa siinä mallissa.
No, mites nyt kun näitä tämmöisiä mahdollisia selittäviä muuttoja,
voi ainakin, no periaatteessa olla niin kuin loputtomiin,
mutta ei ole mitään järkeä tehdä älyttömän isoa mallia,
niin miten osataan valita tilastollisesti oikeat selittävät muuttojat sinne malliin?
Se onkin hyvä kysymys.
Kaikki lähtee siitä sovellusalasta,
eli ensiksi pitää olla, että ylipäätään,
se on sitten yleensä tutkijan vastuu,
että ylipäätään meillä on ne mietittyneet,
mitkä on ne potentiaaliset selittävät tekijät,
mitkä vastaa siihen tutkimuskysymyksiin.
Ja sitten, kun on nämä rajattu sitten aiemmin tutkimuskirjallisuuden perusteella
ja otettu niitä tietoja, mitä siinä datassa on saatavilla,
niin niistä aletaan tekemään sitten sitä tilastollista mallinnusta,
niin on eri tapoja rakentaa malleja.
Että oli se sitten kyseislineaarinen malli,
logistinen regressio, koksiregressio,
tai mikä tahansa tilastollinen malli,
niin periaatteessa samat rakennusperiaatteet pätevät niihin.
Eli yksi tärkeä asia pitää huomioida se,
että malliin ei ota niitä sellaisia tekijöitä,
jotka korreloivat hyvin voimakkaasti keskenään.
Eli siitä tulee sitten tämmöinen tilastoisesti tämmöinen
multikolineaarisuusongelma,
että tavallaan, että ei oteta samaan selitysmalliin
kahta muuttujaa, mitkä mittaa samaa asiaa,
vaikka, tai korreloivat voimakkaasti.
Vaikka systollinen ja diastollinen verenpaine,
se ei korreloi hyvin voimakkaasti.
Tavallaan valitsee vain jommankumman niistä.
Tai sitten, jos on tämmöiset perustota,
jutut pitää huomioida,
että jos on vaikka selittäjänä PMI,
niin sitten ei voi ottaa painoa,
koska siellä on sitten tämmöinen,
ne on laskettu toistensa avulla,
että ne on ne lineaarikombinaatio,
ne on tilastollisia termejä.
Eli nämä asiat, kun miettii etukäteen,
niin silloin yleensä ei joudu ongelmiin
sen multikolineaarisuuden kanssa.
Ja sitten on semmoisia tilastollisia kriteereitä,
eli voidaan esimerkiksi semmoinen toleranssiluvun avulla tutkia,
että onko siellä liian voimakkaita korrelaatioita selittäviä tekijöiden välillä.
Ja yksi tärkeä tekijä, kun miettii niitä,
että kuinka paljon siellä voisi olla niitä selittäviä tekijöitä siinä mallissa,
niin huomioida se,
että suositus on se,
että on yksi selittävä tekijä mallissa,
niin pitäisi olla se kymmenen vastetapahtuma.
Eli jos meillä on vaikka kolme selittävää tekijää,
niin vähintään sitten 30 vastetapahtumaan pitäisi olla.
On sitten julkaisuja,
että vähän pienempikin määrä riittäisi,
mutta tämä on se, mihin olisi hyvä pyrkiä.
Okei.
Eli sillä tavalla, niin kuin Otoskon kannalta,
niin tämä on vaativampi menetelmä,
kuin sitten tämmöiset lineaariset maalit,
missä on numeerinen vaste.
Eli siellähän se suositus on sitten,
että yksi selittävä tekijä yhtä,
tai yhtä selittävää tekijää,
niin pitäisi olla se kymmenen havaintoa,
mutta täällä se on tosiaan yhtä selittävää kohti,
vain tässä se kymmenen vastetapahtumaan.
Että se, mitä siinä käy,
että jos siellä on liikaa selittäviä tekijöitä mallissa,
niin sitten jää luu käteen,
eli siellä ei tule mitään tekijöitä merkitseväksi,
että jos meillä on liian monimutkainen
se meidän tilastollinen malli
suhteessa siihen käytettävissä olevan datan määrään,
eli tavallaan yritetään liian monimutkaisesti
mallintaa sitä ilmiötä sillä datalla,
mitä meillä on.
Ja silloin tilastollisesti käy sillä tavalla,
että ne keskivirheet kasvaa niissä oddsracerissa,
luottamusvälit kasvavat,
tai parametreissa kasvavat keskivirheet,
oddsracerissa kasvavat luottamusvälit,
ja p-arvot tulee ei-merkitseviksi.
Eli toisaalta saadaan hyvin epätarkkoja estimaatteita,
jos on liikaa niitä selittäviä tekijöitä.
Ja jos mennään vielä siihen mallintamisasiaan,
niin tosiaan se teoreettinen pohdiskelu siitä,
että mitkä nyt on ne potentiaaliset selittävät tekijät,
niin niitä aletaan siitä sitten tilastollisesti mallintaa.
Ja yksi keino on esimerkiksi tehdä malli,
että tähän rakentamallisilta,
vaan katsotaan ekaksi yksi selittävä tekijä kerrallaan,
että mitkä on yhteydessä vaikka johonkin tutkittavaan sairauteen,
ja sitten ne, mitkä tulee merkitseväksi siitä yhden selittävä tekijän malleista,
niin ne sisällytetään sitten niihin monen selittävän tekijän malleihin.
Tai sitten on myös erilaisia automaattisia proseduureja,
mitä voi käyttää,
mutta siinä sitten semmoinen pieni varaus sitten niihin,
että pitää sitten tietää, mitä ne mallit tekee,
jotta niitä pystyy hyödyntämään,
mutta ne on ehkä enempi tapauksia,
missä meillä on sitten todella paljon niitä selittäviä tekijöitä.
Mutta aina paras tapa olisi tutkia itse rakentaa sitä mallia,
ja kun me otetaan joku uusi tekijä malliin mukaan,
mitenkä se vaikuttaa sitten niihin muihin arvoisiin ja näin.
Mutta rakensi sen mallin miltahan tavalla tahansa,
niin se pitää sitten hyvin kuvata niissä julkaisujen statistisissa metodeissa,
että pystytään sitten toistamaan se sama analyysi sitten toisissakin tutkimuksissa.
Joo, siinä käytinkin monta eri esimerkkiä logistisesta regressiosta,
vähän erilaisilla selittävillä muuttujilla,
mutta vaste on ollut meillä tähän asti koko ajan binäärinen.
Mutta mitä sitten, jos sillä vastenmuuttujilla onkin useampi kuin kaksi luokkaa?
Joo, eli silloin voidaan käyttää siinä analysoinnista
multinomista logistista regressiota tai sitten ordinaalista logistista regressiota.
Ja jos me aloitetaan nyt siitä multinomisesta logistisesta regressiosta,
niin siinä tosiaan sillä voidaan mallintaa joko näitä nominaaliasteikon muuttujia,
eli moniluokkaisia muuttujia, missä luokkien väliin ei ole mitään luonnollista järjestystä,
ja myös noita järjestysasteikollisia muuttujia,
eli esimerkiksi liikertasteikon tyyppisiä muuttujia.
Mutta sitten niille järjestysasteikollisille muuttujille,
niin niille on myös sitten tosiaan se ordinaalisen vaste,
eli se järjestysasteikollisen vaste logistinen regressio,
mitä voidaan hyödyntää.
Mutta tästä multinomisesta mallista,
niin tässä tosiaan, että jos meillä on esimerkiksi kolmiluokkainen vaste,
vaste, niin se voisi olla esimerkiksi meillä on vaikka kolme eri sairautta,
joista sitten tutkittavalla voi olla vain yksi sairaus,
voisi olla sellainen vaste,
tai sitten meillä voisi olla vaikka vasteena,
että mikä on liikkumisväline, millä tulee töihin,
että tuleeko kävellen sähköskuutilla, bussilla, autolla,
pyöräillen helikopterilla,
eli se voi olla tämän tyyppinen se vaste.
Tai sitten voi olla, että mikä on suosikkijäätelä,
annettu kolme vaihtoa,
tai mikä on näistä suosikkijäätelö,
se että vanilja, vansikka, suklaa,
tämän tyyppiset vasteet.
Ja jos jäänyt,
hypätään taas siihen tilastolliseen malliin,
niin siellä se nyt se yhtälön vasen puoli,
niin siellä onkin nyt sitten se useampi kuin kaksi luokkaa.
Ja silloin, jos meillä on esimerkiksi kolmiluokkainen se vaste,
niin silloin me lasketaan jokaiselle selittävällä tekijälle
kaksi kappaletta oddsracioja.
Eli me valitaan siitä,
että mikä sieltä vastemuuttujaluokista on se vertailuluokka,
eli referenssiluokka, mihin me verrataan niitä muita luokkia.
Ja sitten meidän tulee,
jos meillä on tosiaan vaikka valitaan,
että se ensimmäinen luokka on se referenssiluokka,
niin sitten meille tulee vertailu
kakkosluokka verrattuna ensimmäiseen
ja kolmosluokka verrattuna ensimmäiseen.
Eli saadaan jokaiselle,
se on ikään kuin tehtäisiin kaksi pinääristä logistista regressioja,
että unohdetaan se yksi luokka,
ja sitten mallinnetaan niitä kahden jäljellä oleva muuttuja
välistä yhteyttä ihan samalla logiikalla
kuin pinäärisessä logistisessa regressiossa.
Mutta toki tämä multinominen malli
sitten tekee sen mallinnuksen yhtä aikaa,
jolloin sitten se tulee huomioitua niissä keskivirheissä
ja P-arvoissa,
että kyseessä on multinominen malli,
eikä kaksi erillistä pinääristä logistista regressiomallia.
Eli sinällään haastavampi malli,
koska nyt tulee enemmän sitä tulkittavaa tavaraa,
eli enemmän niitä odds-reissoja
sitten tähän multinomiseen malliin.
Ja jos on moni, enemmän kuin kolme luokkaa,
niin tosiaan vaikka viisiluokkaiden vaste
tarkoittaa, että vaikka sitten ryhmien välisellä erolla
tulee neljä kappalet niitä odds-reissoja.
Eli se on ehkä yksi semmoinen haaste,
mutta löytyy omiin hyviin sovelluksiin myös
tälle multinomiselle,
missä tätä pystytään soveltaa ja hyödyntää
näitä mallintamisia.
Sä puhuit ohimennän tuossa aiemmin
myös järjestysasteikollisista,
eli ordinaalisista selittävistä muuttujista.
Eli järjestysasteikolliset muuttujat tosiaan
oli semmoisia, joilla on jokin mielekäs järjestys.
Ja siis anteeksi vastenmuuttujasta,
nyt puhutaan ei-selittävästä muuttujasta.
Niin mites sitten tällaiselle vasteelle?
Muuttuuko se tulkinta?
Joo, analytiikka ja malli hyvin samantyyppinen.
Tosiaan puhutaan kumulatiivisesta,
logistisesta regressiosta.
Käytetään myös tämmöisiä englanninkielisiä termejä
kuin Proposional Odds Model
ja sitten Ordinal Logistic Regression.
Tämä on kumulatiivista logistisesta regressiosta
tai järjestysasteikollisen vasteen logistisesta regressiosta.
Ja silloin se yhtälön oikea puoli on täysin sama,
mitä aiemminkin tuossa binäärisessä ja multinomisessa.
Eli oikealla puolella yhtälöön selittävät tekeet,
voi olla kategorisiin tai numeerisiin,
voi olla päävaikutuksi, voi olla yhdysvaikutuksi,
mitä mallinnetaan.
Mutta nyt se vasen puoli,
niin siellä mallinnetaankin tämmöisiä
kumulatiivisia todennäköisyyksiä,
mistä se mallin nimi myös tulee.
Eli sinällään tämä ordinaalilogistinen regressio,
niin sieltä tulee nyt sama määrä niitä tulkittavia tuloksia,
tulkittavia oddfreshoja ja p-arvoja,
kuin mitä tulee binäärisestä mallista.
Mutta idea tässä kumulatiivisessa mallissa on se,
että siellä yhdistetään niitä luokkia.
Eli tosiaan se vaste tässä ordinaalismaalisessa
voisi olla vaikka sairauden vaikeusaste,
että yksi olisi lievä ja viisi olisi vaikein sairaudenaste.
Tai sitten voisi olla vaikka,
mikä on itse kokemasi fyysinen terveyditilasi tällä hetkellä,
että yksi erittäin huono ja neljä erittäin hyvä.
Tämän tyyppisiä vasteita.
Ja tähän kumulatiiviseen malliin liittyy tämmöinen oletus,
tämmöinen Proportional Odds-oletus,
mikä testaa sen, että onko tämä malli käyttökelpoinen,
toteutuuko tämä mallin oletus.
Ja ajatuksen siinä on semmoinen,
että jos meillä on kolmiluokkainen vaste,
niin sen tavallaan taas pilkotaan takaisin
tavallaan siihen binääriseen logistiseen regression.
Eli tehdään ensiksi mallinnus,
missä me yhdistetään sen vastenmuuttajan
kakkos- ja kolmosluokan havaintomäärät yhteen
ja verrataan siihen ekaan luokkaan.
Ja sieltä me saadaan tämmöinen odds ratio numero yksi.
Ja sitten me tehdään toinen mallinnus,
missä siellä verrataan sitä kolmatta vastenmuuttajan luokkaa
siihen ykkös- ja kakkosluokkaan.
Eli ykkös- ja kakkosluokan arvot yhdistetään.
Ja sieltä me saadaan sitten se odds ratio numero kaksi.
Ja se Proportional Odds-oletus testaa sen,
että voidaanko me tehdä tällä tavalla,
että onko se odds ratio yksi ja odds ratio kaksi yhtä suuret,
että voidaanko me käyttää niistä yhteistä estimaattia.
Eli jos sieltä tulee vaikka,
että kaksi ja puoli olisi se odds ratio ykkönen
ja kolme ja puoli odds ratio kakkonen,
niin silloin se testaa, että eroako ne,
että voidaanko me yhdistää nämä kaksi odds ratioja
tai esittää se yhteinen estimaatti sieltä välistä.
Eli se olisi sitten siellä kolmosen tietä,
millä se yhteinen estimaatti.
Ja jos oletus ei toteudu,
niin silloin vaihtoehto on tehdä siitä kaksluokkainen
siitä vasteesta, jolloin käyttää
binääristä logistista regressioa.
Tai sitten käyttää multinomista logistista regressioa,
koska sitä tosiaan pystyy myös järjestysasteekoon
sille vasteille soveltamaan.
Sitten päästäänkin seuraavaksi vähän monimutkaisempiin malleihin,
mutta otetaan tässä välin pieni kertaus
näistä tähänastisista malleista.
Eli yleisimmin vastenmuuttoja on kaksluokkainen,
jolloin me sovellettavan menetelmän nimi on
binäärinen logistinen regressio.
Eli vastenmuuttoja on nimensä mukaan binäärinen,
eli kaksluokkainen, ja selittäjiä voi olla yksi tai useampi,
ja ne voi olla mitä tahansa,
kategorisia tai numeerisia.
Sitten, jos luokkia on enemmän kuin kaksi,
puhutaan nominaaliasteikollisesta vastenmuuttujasta,
ja tällaisille vasteille sovelletaan
multinomiaalista logistista regressiota.
Ja sitten vielä vastenmuuttoja voi olla tämmöinen useampi luokkanen,
mutta että sillä muuttujan luokkien järjestyksellä on jotain merkitystä,
eli se on järjestys tai ordinaaliasteikollinen,
niin silloin me käytetään kumulatiivista logistista regressiota.
Ja muistutuksena, että näistä varsinkin tämä binäärinen logistinen regressio
kannattaa painaa mieleen ja opetella hyvin,
koska nämä kaikki muut on ikään kuin sen binäärisen logistisen regressien laajennuksia.
Mutta logistisista regressiomalleista löytyy myös malleja,
joilla voidaan analysoida esimerkiksi matsattuja aineistoja,
toistettuja mittauksia, klusteroitunutta aineistoa,
eli tämmöisiä monimutkaisempia juttuja.
Niin otetaan ensiksi tarkasteluun tämmöinen kuin ehdollinen logistinen regressio.
Mitäs se oikein pitää sisällään, Tero?
Joo, eli ehdollinen logistinen regressio on logistinen regressiomalli,
jota käytetään tämmöisissä case-control-asetelmissa.
Eli meillä on matsattu aineisto, että meillä on tautia sairastavat keissit,
ja sitten näille matsatut kontrollit, joita voi olla yksi tai useampi.
Eli silloin ne on matsattu tällaisten tekijöiden suhteen,
millä ajatellaan, että on jotakin yhteyttä siihen tutkittavaan vasteeseen,
eli sairauteen.
Esimerkiksi tyypillisiä tämmöisiä tekijöitä,
minkä muka niille case-seille, eli tapauksille,
etsitään niitä verrokkeja,
henkilökohtaisia verrokkeja,
niin esimerkiksi iän suhteen,
PMIin suhteen,
sairauteen liittyviä tekijöiden suhteen,
sukupuolen suhteen.
Että nämä on niitä tyypillisiä tekijöitä.
Ja tosiaan se matsaus,
tämä ehdollin logistinen regressio
sallii sen, että se matsaus on tehty sitten,
että ei välttämättä tarvitse olla yhden suhde yhteen,
vaan voi olla myös,
myös voi olla yhden casein useampi verrokki,
tai päinvastonkin.
Joo, eli ideana tässä ehdollis-logistisessa regressisessa
on se, että me saadaan tavallaan tehokkaammin
mallinnettua sitä niiden selittäviä tekijöiden
ja yhteyttä siihen tutkittavaan sairauteen.
Että saadaan tavallaan huomioitua sillä
aineiston keruulla se,
että siellä tämmöiset,
tai ne tekijät, minkä mukaan se matsataan,
että ne ei sitten vaikuttaisi siihen meidän tulokseen,
vaan saadaan tavallaan tutkittua juurikin
niitä yhteyksiä, mistä me ollaan kiinnostuneita.
Eli tämä on tavallaan tehokkaampi menetelmä,
että jos on tämmöinen case control study
ja on mahdollisuus tämmöiseen
tämmöiseen matsaukseen,
niin tämä on tehokkaampi keino,
että pienemmällä datamäärällä saadaan niitä
tuloksia verrattuna sitten siihen,
jos meillä on tämmöiset riippumattomat havainnot,
ettei ole tehty tätä matsausta.
Mutta se on sitten aina,
niin kuin pitää käytännössä pohtia
ja ottaa selvää, että onko se mahdollista
tämmöinen matsaus.
Ja se on usein,
voi olla haastavaa löytää niitä sopivia verrokkeja,
yksi yhteen sopivia verrokkeja.
Siinä voi mennä paljon aikaa
ja käytännössä toteuttaminen voi olla vaikeaa.
Mutta se riippuu sitten aina,
minkälainen aineisto on käytössä
ja mistä se aineisto tulee,
että onko se sitten rekistereistä vai mistä,
niin sen mukaan sitten pohtii,
että onko mahdollista tehdä tämmöinen
matsattu asetelma siinä,
että soveltaa tämmöistä case control-tyyppistä tutkimusta.
Mutta tosiaan ehdollinen logistinen regressio
soveltuu sitten niille case control-stadeille.
Joo, misä sitten jos me halutaan tutkia kategorista vastetta
tällaisessa toistomittausasetelmassa?
No joo, siihenkin löytyy sitten
työkalut täältä logistisen regressio maailmasta.
Yksi vaihtoehto on käyttää tällaista G-estimointia.
G-estimointia.
G-estimointi tulee englanninkielistä sanoista
generalised estimating equations
ja suomeksi tosiaan hienosti suomennettu G-estimointi.
Eli se on tämmöinen tilastollinen laskentamenetelmä,
minkä käytännössä huomioi sen,
että ne mitatut havainnot eivät ole riippumattomia,
vaan siellä on jonkunnäköinen riippuvuussuhde,
eli ne on tilastollisesti riippuvaisia ne havainnot.
Ja tyypillisesti se tulee sitten siitä,
että samalta tutkittavalta on vähintään kahdessa aikapisteessä
mitattu sitä samaa asiaa,
niin silloin ne on riippuvaisia.
Ja tämä on yksi metodi,
mitä täällä logistisen regressiomaailmassa
voi käyttää sitten tämän riippuvaisuuden
ja toistomittausasetelman huomioimiseen.
Eli sinällään ne perusteet on ihan samat,
mitä nyt on ollut siinä pinäärisessä mallissa
ja kumulatiivisessa logistisessa regressiossa.
Että samalla tavalla näitä tuloksia tulkitaan
niiden oddsreissojen avulla ja luottamusvälinen avulla.
Mutta se ylimääräinen näkökulma,
mikä tässä tulee ja mikä sitten pitää
tämän tyyppisissä aineistossa huomioida,
mistä ne havainnot eivät ole riippumattomia,
niin sitten me mallinnetaan sitä,
että kuinka vahvasti ne riippuvat havainnot korrelloin.
Eli jos meillä on vaikka kolme aikapistet tutkimuksessa
ja tutkitaan sitten sitä,
että mitenkä oireet muuttuu siinä tutkimuksen aikana,
niin silloin me tehdään käytännössä,
kun tämmöistä mallinnusta tehdään,
niin tehdään joku oletus siitä,
että oletetaanko me,
että se lähtötilanteen ja puolen vuoden arvot
korrelloin yhtä voimakkaasti kuin lähtötilanteen ja vuoden arvot.
Ja siellä on erilaisia vaihtoehtoja,
mitä me sitten voidaan riippuen vähän siitä
tilastotyökalusta tai tilastoohjelmasta,
mitä käytetään,
niin vähän erilaisia vaihtoehtoja,
mitä on tarjolla.
Mutta silloin me tehdään tämmöinen korrelaatio-oletus,
että oletetaanko me samansuuruiset korrelaatiot
joka aikapisteen välillä,
vai sallitaanko erisuuruiset korrelaatiot.
Ja niitä voidaan sitten eri tilastollisiin suurein verrata,
tai mikä toimii parhaiten just siinä kyseisessä datassa.
Ja tämä on yksi,
sieltä on se tyypillinen,
että on se ajallinen muutos,
mistä me ollaan kiinnostuneita.
Mutta sitten tämmöisiä,
tätä samaa mallinnustekniikkaa,
G-estimointi logistiselle regressiolle,
niin sillä saadaan myös sitten huomioitu,
että jos on tämmöisiä erityyppisiä
riippuvaisuussuhteet siellä datassa,
että on vaikkapa,
tutkitaan perheen ruokailutottumuksia,
ja sitten siellä on mittauksia lapsilta
ja aikuisilta,
niin silloin se perhe tämän tyyppisessä datassa muodostaa,
sen puhutaan tämmöisistä klustereista,
eli siellä perheen sisällä,
usein ainakin kerrapäivässä,
istuu samassa ruokapöydässä,
ja sitä kautta tulee se niihin ruokailutapoihin,
ja toki muitakin kautta tulee se,
että ruokailutottumusta on enemmän samankaltaisia
kuin sitten kahdella eri perheellä.
Tai sitten voi olla tämmöisiä,
että on vaikkapa useampi tutkimuskeskus
tai on joku koulustadi,
niin siellä sitten saadaan huomioitua
tämä tutkimuskeskuskoulu-efektit
tämmöisen G-estimointitekniikan avulla.
Näitä toistettuja kategorisiin mittauksia
voidaan myös analysoida ihan yksilötasolla,
eli subjektispesifisillä logistisilla malleilla.
Haluaisitko niistä kertoa vähän lisää?
Joo, eli tosiaan toi G-estimointi,
niin se on tämmöinen tilastollisi terme,
tämmöinen marginaalimalli,
eli tavallaan populaatiotasolla
tai NS-keskiarvotasolla mallinnetaan,
mallinnetaan niitä efektejä
tai yhteyksiä ja suuruuksia,
mutta sitten nämä subjektispesifiset mallit,
niin siinä tavallaan saadaan mallinnettua
sitä yksilötason vaihtelua,
yksilötason satunnaisvaihtelua,
niin saadaan se huomioitua siinä mallissa.
Eli näillä pystyy myös sitten
tekemään tämmöisen toistomittausanalyysin
ja tekemään tämmöisiä monitasomallinnuksia myös.
Eli tavallaan saadaan huomioitua
myös näiden subjektispesifisillä malleilla,
että jos meillä on data,
missä ne havainnot ei ole riippumattomia,
vaan siellä on joku riippuvuussuhde.
Meillä voisi olla vaikka joku koulututkimus,
missä meillä tutkitaan matemaattista osaamista,
niin meillä voi olla mitattu siellä sitten siihen oppilaaseen liittyviä asioita,
eli muuttujia.
Sitten voi olla kouluun siihen kyseiseen luokkaan liittyviä asioita,
luokkakokoa ja muuta.
Ja sitten voi olla kouluun liittyviä tekijöitä, mitä on mitattu.
Eli silloin me voidaan tavallaan useammalla tasolla mallintaa,
että meillä on koulutason selittäviä tekijöitä,
luokkatason selittäviä tekijöitä, oppilastason selittäviä tekijöitä.
Ja silloin meillä on tämmöinen, puhutaan tämmöistä multilevelle,
eli monitasomallista.
Niin tämmöisiä me voidaan näin subjektispesifisillä logistisilla regressioilla mallintaa.
Okei.
Eli voisiko nyt sanoa, että nämä subjektispesifiset mallit,
niin ne on vähän niin kuin tarkennuksia tai laajennuksia
jostain näistä aiemmin käydyistä malleista,
missä otetaan yksilötasolla lisäksi huomioon
jonkin selittävän satunnaistekijän vaikutus.
Kyllä, kyllä.
Eli sitten näillä subjektispesifisillä malleilla tosiaan päästään sille,
että jos meillä on kysymyksenä se,
että mitä juuri, että me halutaan ennustaa juuri jonkun tietyn potilaan,
että mikä on todennäköisyys sairastoa
tai todennäköisyys joutua uusinta leikkaukseen,
todennäköisyys saada leikkauksen jälkeisiä komplikaatioita,
niin jos me halutaan sitä yksilötason todennäköisyyt mallintaa,
niin ne on juuri näitä subjektispesifisiä malleja.
Ja silloin nämä mallit tosiaan sallii,
että me pystytään näille subjektispesifisille malleille
myös niitä toistomittauksia mallintaa,
eli tämmöisiä pitkittäistutkimuksia tekemään,
ja siellä voi olla myös puuttuvia arvoja,
että nämä sallii sekä se geestimointi että tämä subjektispesifinen,
ne puuttuvat arvot siellä meidän analyysimallissa.
Tai sitten meillä voi olla erilaisia vähän matsattuja aineistoja,
mitä me voidaan hyödyntää tämmöisiä subjektispesifille malleilla.
Tai sitten voi olla tämmöisiä erilaisia klustereita,
niin kuin mainitsin sen kouluesimerkin,
ja sitten voi olla, että on vaikka useammasta sairaalasta tehty mittauksia,
niin silloin tämä sairaala voisi olla tämmöinen klusteri siinä.
Eli sitten me saadaan tavallaan sieltä mallista se tieto,
että mikä se, kuinka paljon vaikka siinä koulututkimuksessa,
niin kuinka paljon se luokkataso selittää siitä vastenmuuttujasta,
ja kuinka paljon se koulutaso selittää.
Eli tavallaan saadaan sitten ne efektit,
ja kuitenkin niissä usein päämielenkiintokohteena on sitten nämä
niin sanotut kiinteet tekijät,
eli se, että me ollaan sitten kiinnostuneet,
mitkä tekijät on yhteydessä sitten vaikkapa itse koettuun terveytään,
tai mitkä tekijät on yhteydessä johonkin sairauteen,
niin ne on sitten niin sanottuja kiinteitä tekijöitä.
Mutta että näillä tavalla pystytään huomioimaan se,
että jos siellä on datassa tämmöisiä erilaisia riippuvuusrakenteita,
niin pystytään näillä GEE-estimoinnilla ja subjektispesifillin malleilla
niin näitä asioita huomioimaan,
jotta meillä tulee oikeilla tilastollisilla malleilla laskettua ne oddfragersot sieltä,
ja silloin me saadaan oikeat oddfragersot ja oikeat P-arvot,
mitkä vastaa sitten sitä mallin rakennetta.
Eli ei voi tuommoisessa tilanteessa käsitellä riippumattomina niitä arvoja.
Mutta tosiaan nämä on sitten yleistyksiä,
että jos on se aineistumis, ei ole mitään riippuvaisuuksia,
eli kaikki havainnot on riippumattomia,
eli yhdestä aikapisteestä on vaan mittauksia,
ja tavallaan siinä datassa yhdellä rivillä on yhden henkilön tiedot,
niin silloin ne on riippumattomia ne havainnot,
ja silloin me päästään niillä peruslogistisilla regressioilla,
binäärinen, multinominen, kumulatiivinen logistinen regressio,
niillä pystytään analysoimaan,
mutta sitten muistetaan se, että jos siellä tulee,
on jotakin riippuvaisuusrakennetta tai toistomittausta,
niin sitten pitää ottaa nämä GEE-estimoinnit tai subjektin spesifiset mallit siellä.
Ja sitten siinä kohtaa sitten käyttöä sieltä tilastollisista työkalupakista.
Siinä tuli taas paljon asiaa kerralla,
toivottavasti pysyitte kärryillä.
Kertauksena vielä näistä vähän monimutkaisemmista logistisista malleista.
Eli ensimmäisenä meillä oli ehdollinen logistinen regressio,
ja tätä sovelletaan tilanteissa,
joissa tämä aineisto koostuu matsatuista,
eli englanniksi matched-havainnoista,
ja suomeksi tämä olisi kaltaistaminen.
Ja tyypillinen esimerkki tästä on tapausverrokkiasetelma,
eli englanniksi case control study.
Sitten oli logistinen regressio korreloituneelle aineistolle G-menetelmällä.
Voidaan käyttää esimerkiksi toistettujen mittauksien analysointiin,
ja tässä menetelmässä oletettiin tosiaan se havaintojen korreloituneisuus keskenään.
Ja sitten oli lopuksi vielä subjektispesifiset logistiset mallit,
joissa aineistoa mallinnetaan yksilötasolla tilanteessa,
jossa aineiston havainnot ei ole toisistaan riippumattomia.
Eli tätäkin voi käyttää toistettuihin mittauksiin,
tai sitten esimerkiksi monitasomalleihin.
Ja näissä malleissa oli mukana satunnaistekijöitä,
jotka vaikuttavat yksilötasolla havaintoihin.
Esimerkiksi jos potilas on käynyt vaikka monella lääkärillä samasta asiasta,
niin tämä lääkäri on silloin satunnaistekijä.
Kuulostiko oikealta, Tero?
Kyllä, hyvin vedetty yhteen nämä monimutkaisemmat logistiset mallit.
Joo.
Hei, kiitos paljon, Tero, että sä tulit taas jakamaan sun asiantuntijuuttasi meille.
Kiitoksia.
Mukava oli olla puhumassa logististrekressiosta.
Kiitoksia.
Joo.
Ja hei, kiitos sulle kuuntelija, että sä olit mukana.
Toivottavasti tämä jakso innosti sinua paitsi oppimaan lisää logistisesta regressiosta,
tai aineistoanalysoinnista yleensä,
tai sitten ihan vaan ylipäätään biostatistiikasta.
Kuullaan taas statistiikan alla.
Tämä podcastin on tuottanut Turun yliopiston lääketieteellisen tiedekunnan biostatistiikan yksikkö.
Kiitos.

Biostatistiikan uranuurtaja Juhani Tuominen 80 vuotta

Biostatistiikan uranuurtaja Suomessa, emeritus Juhani Tuominen, täytti toukokuun lopussa 80 vuotta. Juhani tunnetaan erityisesti tilastotieteen osaamisen viemisestä suomalaiseen lääketeollisuuteen 1980-luvulla sekä biostatistiikan maisteriohjelman perustamisesta Turun yliopistoon.

Tässä Statistiikan aaltojen juhlajaksossa Juhani Tuominen kertoo urastaan ja biostatistiikan kehityksestä lääketeollisuudessa. Haastattelijana toimii Sami Hokkanen.

Tervetuloa sukeltamaan suomalaisen biostatistiikan historiaan! Ja onneksi olkoon, Juhani.


Kiitos.
Kiitos.
Kiitos.
En tiedä, en oikea osa vastata, en kuitenkaan koskaan ajatellut, että musta tulee esimerkiksi opettaja.
Joo, eikä teoreettinen matematiikan opiskelu sinänsä sen teorian takia opiskelu, vaan halusin hyödyntää sitä johonkin.
Niin.
Miten se oli sovellettu matematiikka? Oliko siellä todennäköislaskentaa, tilastotiedettä?
Mä luulen, että siellä pääsuuntautuminen oli niin sanottu operaatioanalyysi.
Joo, joo. Itsellesi on ihan uusi ala operaatioanalyysi. Muistatko, mitä se oli?
Joo, ne on kyllä unohtunut. Kai siinä kysymyksessä on lähinnä, voisi sanoa, vaikka lineaarinen optimointi.
Jakamalla resursseja pystytään saamaan optimaalisen tuloksen. Jollakin hyötyfunktioilla on mitattu.
Joo, joo. Miten se tilastotiede, miten se saatiin sitten kuvaan?
No, pääasia kuitenkin tässä oli ihan matematiikkaa. Perusmatematiikan opetusta. Tämä oli vaan osa, tämä niin sanottu sovellettu matematiikka.
Siellä oli varmaan todennäköisyys olla siinä kurssi, ja todennäköisyys on se matematiikan ala, joka mua on eniten kiehtunut.
Joo. Mikä siinä sitten viehätti?
En tiedä, osaako siihen vastata. Ehkä se epävarmuuden hallinta.
Joo, kyllä.
Miten tämä opiskelu sujui? Valmistuit jossain ajassa sitten maisteriksi?
Kyllä, ihan normaalin tahtiin. Olisiko kuutisen vuotta tai siinä.
Joo, ja mitä sen jälkeen tapahtui Juhanin elämässä tässä?
No, minä olin siinä sitten, siinä tuli tämä tilastotiede niin kuin sivuaineksi.
Eli siinähän oli silloin yleensä otettiin kaksi sivuainetta, ja normaalisti matematikolla ne oli fysiikka ja kemia.
Ja fysikasta mä suoritin approbaattoria, ja kyllästiin sitten näihin fysiikan labrassa tehtäviin kokeisiin loputtominen, vöytäkirjain.
Ja kemiasta mä en ollut koskaan kiinnostunut, ja sitten jäljelle jäi, että tämmöinen tilastotiede, joka pohjautui sitten todennäköisyyslaskentaa, ja se tuntui sitten sellaiselta sopivalta vaihtoehdolta.
Niin sitten opiskeluaika, tilastotieteen, että opiskellessa, niin sitten mut pyydettiin tuntiopettajaksi, että mä olin varsinainen demonstraatiokone sitten jossakin jo ehdossa.
Okei, että siinä tuli heti jo opetuskokemusta.
No tuli kyllä, joo.
Joo, kyllä, kyllä. Oliko se pitkä sivuaini se tilastotiede sitten?
Niin, no siitä mä suoritin sitten lauraattoria ja myöhemmin lisenssijätituttelua.
Joo, kyllä, kyllä. Eli se on sitten matematiikka vaihtunut tilastotieteeseen tässä kohtaa, voisi sanoa.
Niin, siis valmistumisen jälkeen.
Joo, kyllä, kyllä. Mitä sitten, jäitkö yliopistolle siinä vaiheessa vielä sitten enemmän opettamaan vai mikä oli?
No joo, siinä oli sitten erilaisia lyhytaikaisia tilastotieteessistenttureja ja sitten myöhemmin myös tämmöinen viisivuotiskausi toi assistentti.
Sitten ilmeisesti se on ollut siirtyminen lääkikseen, lääketieteessä tiedekuntaan.
No joo, se jossain vaiheessa lääkeksessä tuli biostatistikalehtori virasiaisuus haettavaksi.
Ja mä olin silloin itseasiassa Suomen Akatemian tutkimusassistentti.
Mutta kun näitä tilastotieteilijän paikkoja ei todellakaan ollut, ainakaan yliopistojen ulkopuolella ja vähäisen yliopistojen sisälläkään,
niin sitten ajattelin, että mä nyt sitten hain sitten virasiaisuutta ja hyppäsin siitä tutkimusmaailmasta sitten tänne lääkeksi.
Joo, kyllä. Teollisuus oli edelleen takaraivossa tai mietinnässä, että miten sitä voisi auttaa.
No voisi olla jotenkin pihilevänä.
Joo, kyllä. Miten täällä oli sitten se biostatistiikka hoidettu?
Sanoit, että olit viransijaisena, eli täällä oli ollut joku virassa.
Joo, se biostatistiikan lehtoraatio oli perustettu varmaan muutama vuosi aikaisemmin.
Mä en sitä vuotta tiedä, koska ei se silloin sitten kiinnostunut.
Enkä sitä oikeastaan jälkeenkäpäin selvittänyt.
Siinä oli myös sitä matematikko, tyttö tai nainen hoiti sitä, jos mä oikein muistan.
Hänen nimensä oli Lindström.
Mutta mä en tiedä, hoitiko hän sitä käytännössä juuri ollenkaan.
Joka tapauksessa tämä tuli sitten, hän oli ottanut virkavapautta ja tämä tuli haittauksesta.
Joo, joo. Kuinka kauan siellä lääkeksessä meni tai biostatistiikan laitoksella sitten loppujen lopuksi?
No se oli aika monivaiheinen, että sitten siinä 80, tämä oli niin kuin 80 muistakseni, siinä välillä mä kerkesin saamaan sovellettu matematiikan lehtoraatin tuolta Helsinkin yliopistosta, maatalousmetsätieteilisestä tiedekunnasta.
Ja mä pidin sitä kaksi vuotta ja hoidin vuoden.
Ja sitten siinä aikaa, kun mä olin siellä Helsinkissä, niin sitten tuli tämä biostatistiikan lehtoraatti haettavaksi ja mä hain sitten sitä ja sitten sain sen.
Niin kyllä mä sen lääkeksessä sitten olin siihen asti, kun tämä biostatistiikan maisteriohjelma alkoi, niin olisiko se 99 vai milloin se alkoi?
Sä ehkä muistat paremmin.
Niin kyllä, olin itse tosiaankin ensimmäisessä ohjelmassa.
Niin.
Kyllä, kyllä, silloin se oli. Niinä aikoina joo.
Helsingissä aika lyhyt aika milloin olit, mutta niistäkin materiaalistelmistä tehtiin biometriakirja silloin.
No joo, siinä se toi Hannu Ritaa käytti, mä luenton monisteita sitten se.
Joo, joo se ilmeisesti aika kauana oli se kirja käytössä, ymmärsin Helsingissä ainakin.
Niin muistaakseni myös Turussa joku on kimian opiskelija, joka on nähnyt sellaisen kirjan myöhemmin.
Joo, sitten joo.
90-luvulla.
Niin nyt ollaan tällä hetkellä Juhanin työelämässä.
Ollaan lääkeksessä ja biostatistiikassa.
Ja tuliko tässä vaiheessa lääkekehitys jotenkin jo mukaan vai missä vaiheessa lähti?
Oliko Orion ensimmäinen firma, missä sitten tuli?
Ei.
No ensinnäkin tämä lehtori, että se oli ihan opetusvirka periaatteessa, että siinä siis se pääpaino oli siinä opetuksessa sekä peruskoulutusopetuksessa, että näissä postgraduate schoolin jatkokoulutuskursseilla.
Ja niitä siis pidettiin lähinnä lääkäreille, jotka aikoivat tehdä väitöskirjaa.
Ja näissä PGS-kursseilla oli sitten mukana Hannu Aallonen, joka oli leiraksena.
Silloin se leiraksen tutkimus, tai kliinisen tutkimuksen johtaja, kaikki tämmöinen kuulostaa, että kliinisen tutkimuksen johtaja, niin aika suurelliselta, koska kaikki oli silloin kovin pientä, että Hannulla voisi olla pari, oli Hannu itse ja pari alaista suurin piirtein.
No joka tapauksessa tämä Allonen sitten pyysi, että mä olisin niin kuin asiantuntijaksi tai konsultiksi heille.
Siitä se alkoi, siis se leiraks oli se ensimmäinen.
Joo, eli Suomen lääkekehitys oli aika alkutekijöissään tämmöisen ainakin uusien molekyylien kehittäminen ja uusien tuotteen kehittäminen.
Sekä Orion että leiraks oli ihan geneerisiä valmista.
Joo, kyllä, kyllä, että siihen asti oltiin menty muiden keksinöillä ja sitten alettiin pikkuhiljaa tekemään jotain omaa.
Leiras oli ensimmäinen, oliko siellä silloin jo nämä pölymeerikehitykset vai mikä oliko pitekehitys?
Ei mun mielestäni ollut, että kyllä se oli ihan, aika paljon oli näitä bioakviolenssikokeita ja jolloin mä sitten perehdyin krossoverkokeiden ihmeelliseen maailmaan.
Sitten ihan lääkärilähtöisiä pieniä tutkimuksia.
Siinä vaiheessa ei sitten vielä tullut näitä, niin kuin mulle näitä.
Leirassa oli varsinaisesti näitä ehkäisimie valmista ja oli kuparikerruja ja pillereitä.
Ne tuli sitten kuvioon mukaan myöhemmin, niin kuin paljonkin myöhemmin, niin kuin sitten tämä Mirena, josta sinänsä voisi vaikka uuden kirjan kirjoittaa.
Kyllä, Mirenahan on edelleen, Shearinghan nosti sitten Leiraksen ja nykyään Bayer nostanut Shearingin ja se on edelleen siellä, Mirenahan on siellä Bayerninkin ihan top-tuotteita, että myytimäärät ovat miljoonia tai satoja miljoonia euroja.
Bayer on yksi Turunkin alueen suurimpia veronmaksajia.
Taitaa olla suuri, niin ihan.
Kyllä, että siellä on oltu heti alusta lähtien mukana.
Niin, no se Mirena, jos siihen nyt hypätään.
Voidaan ottaa sekin vaikka tässä.
Niin, niin se on sitten paljon myöhempiä aikoja.
Alkuperäiset Mirena-tutkimukset tehtiin Population Councilissa tuolla USAssa.
Ja sitten jossakin vaiheessa tulee Mirena rekisteröinti USAhan ja ne Population Councilin tutkimukset oli paljon tällaisia, vähän niin kuin yliopistotutkimuksia.
Nämä ei toteuttanut niitä formaattia, minkälaista toi FDA-ohjeistusta, josta seurauksena oli, että ne kaikki data piti uudestaan tallentaa ja analysoida uudestaan.
Ja sitten nämä rekisteröintipaperit, ne kyllä tehtiin mun mielestä, ne aika paljon turkuleisvoimin ja loppu onkin sitten ne hyväksytti ja loppu onkin sitten jo historiaa ja nykypäivää.
Eli siitähän on tullut sitten todellinen menestystuoto.
Kyllä.
Tässä vaiheessa Leireksallahan täytyy olla sitten jo statistikkoja useampiakin ja ryhmä siellä.
Kyllä, joo.
Miten mahtui jo olla ensimmäinen palkkaaminen, statistikon palkkaaminen, olitko mukana siinä tai?
No olin, että se kyllä tässä pompitannut yhä sinne sun tänne, että silloin kun mä aloin sen pyynnöstä niin kuin statistikkona, niin se koski, niin kuin jo kerrottiin,
että tutkimukset olivat hyvin pienimuotoisia, mutta sitten myös siellä biolääketieteen keskuksessa, prekliinisissä tutkimuksissa sitten.
Heillä oli sitten kaikennäköisiä pieniä muun muassa näitä niin sanottuja ponefos-tutkimuksia ja ponefos-valmista, joka on tarkoitettu osteoporosin ehkäisyyn.
Joo.
No sitten jossakin vaiheessa leirassa siirsi tämän kliinisen tutkimuksensa Helsinkiin ja Allonen sitten ehdotti, että mä olisin tullut mukana, mutta ei se sitten oikein sopinut.
On ajatuksi ja silloin sinne väärivättiin oikeastaan ilmeisesti, olisikohan se Suomen lääketiollisuuden ensimmäinen biostatistikka, mutta hän ei oikein menestynyt siinä hommassa ja se sitten lopahti.
No sitten jopa muutamia vuosia jälkeen niin Kari Aranko valittiin leiraksen kliinisen tutkimuksen johtajaksi ja hän alkoi perustamaan biometria ja deittämään itse yksikköä.
Ja hän pyysi mua siihen sitten perustamaan sitä.
Ja samaan aikaan Allonen halusi, että tulee toinen yksikkö, joka keskittyy näihin ehkäisytutkimuksiin.
Joo.
Jolloin sitten ekat leiraksi varsinaiset statistikot oli, niin Elisa tuli sinne kliinisellä puolelle ja sitten Marja Oinonen tuli sinne ehkäisypuolelle.
Marja oli ollut, kun mä olin ollut Jyväskylässä pitämässä tämmöistä suunniteltujen kokeiden analysointikurssia tai tavallaan varjanssina, kun Marja oli tehnyt vaikutuksia siellä opiskelijana ja sen harjoitustyönsä, niin mä sitten soitin Marjalle, että olisiko se kiinnostunut tulemaan Turkuun.
Joo.
Ja sitten Marjakin tuli.
Joo.
Eli siitä alkoi se, mutta sitä ennen olisit jo paljon tapahtunut Orionilla.
Joo, joo.
Voidaan palata kohta siihen, mutta Elisa löyttyniin, minkä näistä juuri siis puhuit, niin hänhän on nykyään sitten lääketieteellisessä täällä Turun yliopistossa biostatistikalehtoraattina.
Onko se tavallaan vähän se sinun vanha paikkasi tai ei?
Joo, vaikka se nimike taitaa nykyisiä olla, olisiko se biostatistikko vai...
Joo.
Ja sitten kun jossain vaiheessa mun seuraajana Hans, Helene, onko se Hans halusi vaihtaa sen nimikkiä?
Nimikkiä.
Nimikkiä.
Joo, joo, kyllä.
Niistä alkuvaiheesta, niin ensin siellä leirakse muuttui tuonne Helsinkiin.
Joo.
Ja silloinhan mulla ei sitten ollut muuta kontakteja kuin leirakse sinne biolääketieteen tutkimuskeskukseen vai mikä se nyt nimeltään olikaan.
Joo.
Sitten kyllä vähän joku muunkinlainen yhteys teollisuuteen voisi olla hyvä.
Ajatus oli lähinnä se, että kun kerran opiskellaan tämmöisiä kaikenlaisia hienoja menetelmiä, niin kyllähän niitä tarvitsisi käytännössäkin käyttää.
Muutenhan me ollaan niin kuin kirurgeja, jotka opiskelee vaan teoriassa, miten leikataan, mutta ei leikkaa ikäänä.
Niin toi...
Sitten tuli semmoinen väitöskirjatyöntekijä, kun on Esa Heinoni, joka oli Orionilla.
Ja mä sitten sanoin, että mites jos mä tulisin teillekin vähän hommiin.
Joo.
Esa oli... Niin anteeksi.
Silloin kysymys oli... Silloin oli Farmos ja Orion.
Joo.
Ja tämä oli Farmos. Farmos ja Orion oli eri firma vielä siinä vaiheessa.
Eli tämä oli Farmoksen aikana.
Joo.
Eli Heinose Esa oli Farmoksella ja...
Farmoksella, joo.
Sitten hän oli lääketieteellisessä jatko-opiskelijana.
Joo.
Väitöskirjatyöntekijä.
Ja myöhemmin hän oli sitten koko Orionin kliinisen tutkimuksen johtaja ja niin edelleen.
Joo, joo.
No Esa oli puhunut siellä sitten siellä heidän firmassa ja ne oli sitten kysynyt, että kuin niitä nyt sitten ennen tehtiin.
Ja sitten oli saanut kuitenkin jotenkin ylipuhuttua.
Että otetaan sitten tuominen sitten.
Se oli varmaan ihan tuntipohjainen.
Joo, joo.
Ja yliopistolehtoraatio oli edelleen siellä taustalla.
Koko ajan.
Koko ajan, joo.
Niin kuin sanotaan, torta potortta.
Niin, koko ajan.
No silloin Orionilla...
Silloin oli todennäköisesti Suomen ensimmäiset alkuperäismolekiili valmistui tai kehitettiin Farmoksella.
oli tämä dexmedetominen, joka on eläinten rauhoituksen tarkoitettu lääke.
Ja sitten atipammatsolle, joka on sitten se käänteisiin vaikutuksen.
Sitten näiden rekisterinti tuli kysymykseen.
Ja mä kyllä analysoin ne, eikä se ihan simppeli homma ollutkaan, koska siinä...
Siis se periaate oli satunnaistettu ja lohkojen kokeen idea, että koirat on satunnaistettu näihin käsitteille.
Mutta siinä oli monta toistotekijätasoa.
Joten mä kyllä käytin näitä jo silloin näitä varianssikomponenttimalleja ja yritin estimoida sieltä sitten erilaisia päävaikutuksia ja yhdysvaikutuksia.
Tästä voitaisiinkin mennä vähän tähän tietokonemaailmaan.
Miten siihen aikaan analysoitiin?
Oliko ihan PC-tietokoneet ja SAS vai millä ohjelmalla?
Ei, kun se pääasiassa oli TPM, DPC, käyttämällä tätä yliopiston isoa myllyä.
Joo.
Kaikki kirjoitettiin. Ei varmaan ollut mitään graafisia käyttöliittymiä.
Ei.
Kohdaamalla.
Joo, joo.
Mistä löysit oppia esimerkiksi just näiden analysointiehden?
Jos löytyy joku malli, niin miten se sitten tehdään jollain tietokoneella?
Mistä se sitten mahtoi tulla?
Ei ainakaan internetistä, kun internet ei ollut.
No ei.
Varmaan ihan vaan aika paljon.
Yksi tämmöinen, joka voisi mainita, on olemassa tämmöinen tavallisen paksun kirja kuin Wieneris, Statistical Principles in Experimental Design.
Joo.
Niin se oli kyllä semmoinen, joka loi aivan uuden maailman.
Joo, joo.
Se toi.
No myöhemmin sitten se oppi sitten karttu tietysti perehtymällä kirjallisuuteen ja niin edelleen, mutta tosi paljon siis konferenssissa.
Mä olin kyllä aika ahkera kävijä.
Joo.
Että sieltä haettiin uutta tietoa.
Joo, näistä voisi mainita ja muillekin opiksi nämä ja saan Joint Meetings, jotka vuotuisesti ovat, joita pidetään Amerikassa eri...
Taitaa olla, ellei iso, niin ainakin isoimpia konferensseja.
Varmaa ei ole statistika-alalta iso.
Niin, juu, löytyy monelle eri osa-alalle.
Kyllä, joo, ja myös viran FDA on panossu siellä.
Joo, joo, kyllä.
Eli farmoksella aloitettiin.
Oliko farmos siis enemmän elänlääkäpuolta vai?
Ei, kyllä. Siellä sitten oli tämä selekilini ja tämä Parkinson, se oli heidän lippolaiva.
Niin, niin se on farmokselta tullut, niin kuin tämä Parkinson puoli sitten.
Vai oliko se sitten...
No, mä en osaa sitä.
Mutta mun mielestäni se on, koska se selekilinihan alkoi jo onkarilainen ja siellä oli tämmöinen...
Ja kyllä se farmoksessa oli tämmöinen proviisori, kun alajos haipoi ja hän on varmaan tuonut sen.
Sen, joo.
Kyllä, kyllä.
Eli farmos ja orinolivat vielä tässä vaiheessa eri firmoja.
Joo.
Miten, muistatko heidän yhdistymisen tai oliko orinolisten omaa biostatistikkaa ajatusta jossain vaiheessa?
No, Orionilla oli sitten jossain vaiheessa tuli yksi biostatistikka, Heli Ritaa nimeltään.
No, se farmoksen homma meni sitten sillä lailla, että kun mä olin siellä nyt sitten kuitenkin konsulttina tai asiantuntijana,
niin jossakin vaiheessa mä sitten vähän kyllästyi yliopistoon ja mä kerjäsin Suomen Akatemialta apurahan,
että niin kuin yliopistoon tai teollisuuden yhteistyön edistämiseksi ja meni niin kuin sillä rahalla sinne farmokseen töihin.
Silloin oli kyllä sitten jo mun mielestä, niin silloin, vaikka sinä Parkinsonin, niin silloin oli sitten jo tämä Tore Mifeni,
joka on siis naisten rintasöpäin tarkoitettu kehitys.
No, mä olin siellä vuoden ja sitten yliopisto oli sitä mieltä, että nyt sun täytyy sitten päättää, että kun jäät sinne tai tulet takaisin.
No, sitten mä tulin takaisin ja vuorisen jouni tuli sitten farmokseen täispäiväiseksi biostatistikoksi.
Se oli siis ensimmäinen täispäiväinen biostatistikko farmoksessa.
No, sitten jossain vaiheessa tuli se yhdistymisprosessi, että yhdistettiin farmasia orion, tai farmasia orion yhdistyivät,
jolloin sitten jounissa tuli koko orionin biostatistikkayksikön päällikkö.
Joo, ja sekin yksikkö sitten kasvoi sinne, palkattiin lisää.
Joo, sitten se kasvoi kymmenien ihmisiin, niin kuin kasvoi leiraksenkin.
Niin, kyllä.
Että kaikki on alkanut autotallista ja sitten yksi-kaksina räjähtäneet käsi.
Niin, kyllä. Siellä on ollut data management-osastoja, biostatistikka-osastoja, on ollut datan tallentamista.
Kyllä, kyllä.
Kaikkea on ohjeluttu uudella tavalla.
Niin, koska se kaikkihan muuttui sitten.
Tämä alkukeräis-peräislääkekehityksen mukaan, ja sitten tänne kulmanpiste on tämä FDA-julkaisema
Formatanta Content of Clinical Study Reports, joka on näiden ICH-kairansin esiinsä.
Se teki sen, että kaikesta tuli tämmöistä strukturoitumpaa ja ohjeistetumpaa.
Joo, joo, kyllä.
Otit esiin FDA, niin itsekin olit siis heidän kanssaan, tai heidän kanssa toiminnassa, eli lääkefirmojen kautta, kun haettiin Amerikkaa.
Noin, en suoraan, vaan siis lähinnä sitten juuri, että sieltä sitten seurasin tätä FDAa, ja se kävi näissä konferensseissa, muun muassa näissä asaan, missä se FDAa sitten esiin.
No, jotain pieniä adeknoottia voisi olla, että silloin kun Mirena rekisteröinti oli käynnissä, niin jossakin sehän on keltarahashormoni, joka on siellä se vaikuttava hormoni, niin sen hormonivalmistaja oli vaihtunut siinä kierukassa.
Ja jotta se rekisteröinti olisi edennyt, niin pitäisi näyttää, että tämä uusi valmiste vapauttaa sitä samalla lailla kuin se vanha.
Mutta jos se olisi tehty, niin kuin naisilla se koe, niin se olisi viisi vuotta kestänyt se rekisteröinti, eli piti yrittää kehittää tämmöinen in vivo in vitro yhteys, että koeputkissa nähty ennustaa se, miten se käyttäytyy sitten, kun se on ihmisessä.
Ja Virpin kanssa me sitten väsättiin tämmöinen in vivo in vitro yhdisysteemi, kummallakaan ei ole välttämättä ollut minkäännäköistä käsitystä siitä, eikä monella muullakaan, miten se sitten pitäisi tehtää.
No, me käytettiin jonkinnäköisiä epälinearisia rekessioja ja saatiin aikaiseksi ilmeisesti niin hämärä esitys, että se meni ähdeässä läpi.
Niin, joka tarkoitti sitä, että jos se ei oltaisi siinä onnistuttu, niin se olisi viidellä vuodella liikkääntynyt tämä rekisteröinti.
Niin, kyllä, että olisi pitänyt oikein tehdä ihmisessä sitten.
Niin, joo. Virpi oli Aholan Virpi.
Joo.
Joo, kyllä.
Eli tässä vaiheessa nyt Orionilla on statistiikkalaitos tai statistiikkaosasto, Leiraksella on statistiikkaosasto.
Joo.
Ja sitten yliopistossa oltiin perustamassa klinisen tutkimuksen palveluyksikköä.
Kyllä.
Mihin tarpeeseen tämä tuli sitten vielä?
No, CRST perusti, se oli varmaan 95 tai jotain sitä luokkaa.
Varmaan, joo.
CRST perustivat professorit Mika Seinin ja klinisen tai farmakologian professorit Mika Seinin ja Risto Huupponen.
Huupponen muuten menehtyi pari-kolme vuotta sitten ja olen menossa iltapäivälle Riston tämmöiseen memorial symposiumiin.
Muistatilaisuuden tietyllä tavalla vähän myöhemmin, joo.
Niin, ja toi Mika ja Risto perustivat tämän CRST, joka oli lähinnä siis prekliininen tutkimusyksikkö.
Tarkoituksena oli lääkekehityksessä tarjota prekliinisiä palveluja.
No, mä olin silloin sitten palkattuna asiantuntijana sekä Orionilla että Leiraksissa, mikä voi kuulostaa vähän kummalliselta.
Miten voi olla sama mies?
Kahdessa firmassa palkattuna ja niiden huippututkimuksissa mukana.
Joo, joo.
Se ei tuski enää, että ei taitaisi oikein onnistua enää tänä päivänä.
Mutta mun täytyy sanoa, että kummankaan firman puolelta ei ikänä kysytty yhtä ainoa sanaa toisen firman asioista.
Se näiden kunniaksi, niin kuin sanottakoon.
Joo, joo.
Sitten näitä, kun tämä alkuperäislääkekehitys oli sitten kyllä tässä vaiheessa jo aika kovassa vauhdissa, niin näitä erilaisia faasi kakkosia, jopa faasi kolmosia oli niin paljon, että nämä nopeasti kasvanneet satisikään yksi kyllä, että Orionilla ja Leiraks ei pystynyt mitenkään niitä enää täyttämään.
Ja niitä hommia annettiin sitten milloin minnekin jonnekin ulkomaille, pieniin CRO-taloihin.
Joo, joo.
Sitten mä ajattelin, että miksi tähän pre-kliiniseen yksikköön voisi sitten perustaa tämmöisen biometria- ja data-management-yksikön myös.
Koska silloinkin yliopistolta oli rahat loppu ja biostatistika-oppiainemäärärahat oli tosi pienet.
Joo.
Että päästä kiinni siihen, jolloin saisi tätä oppiaineen taloutta kohennettua.
Joo, kyllä.
No niin, no sitten perustettiin tähän CRST-yhtiöön biometria- ja data-management-osasto.
Joo.
Siinä oli ens kaksi statistikkoa, olisiko se Sakke ja sitten se toinen, jonka on nimennyt tähän hätään.
Pasi taisi olla.
Pasi, joo.
Ja sitten aika pian tuli Britmari, joka oli siis aivan nuorena opiskelijana Opu Akademista.
Joo, joo.
No sitten hyvin nopeasti tahdissa se paisoi aika suureksi, että siellä oli varmaan toistakymmentä henkilöä ja liikevaihto nousi tuommoisen puolentoista miljoonaa euroa.
Kyllä, kyllä. Ja otit sen aluksi, että Suomesta ehkä lähti rahaa tavallaan ulkomaille, mutta tämän CRST-biostatistiikkayksikkö, sehän ainakin Ruotsista sai sitten taas asiakkaita.
Että myös niin kuin ulkomaalta sitten haettiin ikään kuin töitä Suomeen.
Itse ajattelin, että tämä on siis ehkä ensimmäinen tämmöinen statistiikkafirma, kun on tehnyt palveluja ulkomaalaisille sitten.
Niin, ehkä se tuli sitten, olisiko se sitten Forfarma-aikaan, että se tuli sitten. Mä en sitä muista, olisiko meillä sitten jotain ruotsalaisiakin.
No itse muistan silloin olleennani CRST-llä, niin oli AstraZeneca ainakin.
Aina, aina. Mä en sä muistat paremmin kuin.
Mä muistan paremmin, joo. Ja otitkin tässä sen Forfarman esiin, eli sitten kun oliko se vähän jättäydyt pois CRST-toiminnasta, tai CRST jotenkin muuttui,
ja sitten se biostatistiikkayksikkö haluttiin omakseen, ja siitä tuli tämä Forfarma.
No joo, mutta ensin tämä, jos ajatellaan nyt tätä CRST-piomea, kaiken kattavinaan koko tämän toiminnan ihan sitä alusta lähtien tarkoitus on ollut kuitenkin tehdä biostatistikkoja tunnetuksi.
Siis ei ollut olemassa lääketieteellisessä tiedokunnassa, ei ollut ensimmäistäkään biostatistikkoja, ja se oli täysin tuntematon otus, että mikä se semmoinen on.
Ja sitten tilastotieteilijöitä kuitenkin koulutettiin, eikä ollut tilastotieteilijöiden työpaikkoja muuta kuin korkeintaan yliopistoissa, ja joissakin tutkimuslaitoksissa.
Eli tarkoituksena oli luoda tämmöinen biostatistikon ammattikunta myös yliopisto- ja tutkimuslaitosten ulkopuolelle.
No niin, no sitten se CRST-homma, kun se sitten paisui ja paisui, ja siellä oli sitten, sä taisit sitten olla mukana myös CRST jossakin, no sitten ne kaikki muutkin oli enempi tai vähempi opiskelijoita.
Ja aivan käsittämätöntä tehtiin jotakin faasikolmosia ja niin edelleen.
Mutta työvoimapula oli krooninen, ja kun tilastet ja opiskelijoita oli nyt kuitenkin kovin vähän.
Kyllä, kyllä.
Ja sitten mä hain niin kuin kissojen ja koirien avulla ympäri Suomea, että eikö nyt ketään löytyisi, joka voisi tulla.
Ja osoittautui, että kaikissa yliopistossa se oli todella vähäistä, mitä sieltä valmistui.
Se oli siis uskomattoman vähä, ja ketään ei oikein löytynyt mihinkään hommaan.
Ja sitten mä ajattelin, no tästä ei nyt ottu mitään, että kun tämä homma pyörii vaikka kui hyvin, niin mun täytyy ruveta itse kouluttamaan näitä statistikkoja.
Joo, joo.
Ja sitten mä menin tilastotieteen Apuläs-Pohjoissa, ja se uusi paikka joutui sille yhteiskuntatieteellisen tiedekunnan hallintojohtaja Liisa Santin.
Ja sitten yhteiskuntatieteellisen tiedekunnan varadeka, niin nyt mä muistan sen nimeä, oliko se Salavuo?
Ehkä Salavuo.
Salavuo varmaan, joka menehtikin sitten aika nuorena.
Ja sitten, no ne innostui sitten tähän konseptiin, ja sitten me marsittiin yliopiston rehtori Virtasen puheelle.
Ja ainakin omaksi hämmästykseksi, niin hän sitten suostui, että perustetaan, tai hän ehdottui tämmöistä määräaikaisen prosessoriviran perustamista.
Ja, mutta aluksi vaan vuodeksi.
Joo.
No, se jätkui mun osalta siihen asti, kun mä elä kelle, eli kymmenen vuotta, ja sitten tota, noin, sitten me se on vakiinaistettu.
No niin, no sitten, eli se oli synty, niin kuin biostatistika maisteriohjelmalle.
Joo.
Miten muuten se rahoitus?
No niin, no, rahoja mä sitten kerjäsin Orionilta ja Leirakselta.
Kumpikin antoi ihan hyvän starttirahan, ja myöhemmin tuo Turun kaupunki.
Joo.
Ja sitten tietenkin, koska sitten käytettiin CRS-tuottoja, myös niin kuin on kaikennäköisen tukitoimintaan, mitä tämä pyörittämme vaatii.
Että kaikki kunnia silloisille opiskelijoille, että se osittain on myös teidän selkänähasta se.
Kyllä, kyllä.
Se homma, yliopisto-osuus oli se, että se maksoi ainoastaan mun palkkani.
Kaikki muu tuli, rahoitus tuli ulkopuolelta.
Joo, joo.
Ja alusta lähtien oli selvää, että kunnallisen maisteriohjelman synnyttämisen, ei siihen kotimaiset voimat liitä.
Niin, kyllä.
Niinpä mä päätin palkata näitä tämmöisiä ulkomaisia kuruja, joihin mä olin sitten eri yhteyksissä tutustunut.
Joo.
Muun muassa Mike Kenward, crossover-kokeeseen, Dave Colley, Elina Eka-malli ja Charles McCulloch, yleistettyjä lineaarisia malleja.
Ja hehän kävi sitten säännöllisesti vierailemassa tuolla.
Ja kukaan, ketä mä pyysin, niin kieltäytynyt.
Minkä musta oli tosi hämmästyttävä, ja vielä se, että ne tuli sillä yliopistoliksalla.
Niin, joo.
Tietenkin päivärahat ja majoitukset ja leinnat ja semmoiset maksut, ne varmaan tunsivat sympatiaa.
Mennään ne vähän auttamaan sinne periferiaan, että katsotaan, että saataisiin sitä homma pyörimään.
Nämä kontaktit oli luotu sitten niissä konferensseissa aikanaan.
Joo, mä tunsin, tai tiesin.
Joo, joo, joo.
No sitten se ohjelma, sen mä mielestäni rakensin aika huolellisesti.
Se oli siis, se on periaatteessa regressiomallien ohjelma hyvin yleisessä mielessä, joka käsittää siis lineaariset mallit, yleistetyt lineaariset mallit, lineaariset sekamallit, yleistetyt lineaariset sekamallit ja elinaika-analyysit.
Valitetti tuosta ja paketti on ilmeisesti täysin hajonnut nykyisen, että onkohan sitten enää mitään jäljellä.
No mun mielestä, niin millä mittakaavalla mitattuna tähänsä, se oli aika menestyksekä se maisteriohjelma.
Ja opiskelijat, sinne tuli sitten opiskelijoita sen suunnitelman mukaan, mikä otettiin, ja sitten kun se lähti pyörimään parin-kolmen kurssin jälkeen, niin valmistumisen, kun se oli tehty kaksivuotiseksi.
Eli kaksi vuotta ensin piti opiskella tilastotiedettä tai vastaavia, ja sitten kaksi vuotta, missä oli kolmen kuukauden kesäharjoittelu.
Niin, niin sitten ne rupes valmistumaan tosi hyvissä ajoissa, ja se vauhti oli tosi kovaa, että niitä gradojakin rupes tulla tippumaan niin, että mä tahton oikein alta päästä pois.
Ja kuitenkin kaiken aikaa ne opiskelijat olivat jollakin lailla töissä, ja sitten ne sai, sitten ne oli työpaikka, kaikki sai työpaikan viimeistä siinä vaiheessa, kun paperi oli kourassa.
Ja se, kun nyt puhutaan tässä, että työnteko haittaa opiskelijojen valmistumista, mä en oikein sitä allekirjoita.
Eihän se opiskelija kuitenkaan sataprosenttisesti käytä ajasta opiskeluun, jos ei ne tee tämmöisiä hommia, niin ne kuluttaa se jossakin muussa se aikansa.
Niin, kyllä.
Ja toi, ei se ainakaan tässä haitanut yhtään sitä, pikemminkin päinvastoin.
Se motivaatio varmaan oli se, että kun sä valmistut, nyt saat töitä.
Niin, kyllä.
Ja sitten oli kiire.
Joo, joo.
Tai näin mä otaksun, että se valmistui.
Joo.
Itse silloin opiskelijana muistelisin, että tällaiset maisterohjelmat eivät olleet vielä kauhean yleisiä.
Silloin esimerkiksi kandia ei ollut pakko tehdä itseäni, olette nyt kandia, vaan opiskeltiin vain putkeen aineita peräkkäin.
Ja tämä maisterohjelma oli tämmöinen tervetullut uutuus.
Ja kuten totesit, se motivaatio, kun on ollut töissä, nähnyt, mitä siellä tehdään, niin sitten tulee joku ulkomaalainen puhuja, kun puhuu siitä aiheesta.
Niin sehän on ihan loistavaa.
Ei ollutkaan enää, että nyt vain opiskellaan opiskelemisen takia, vaan hetkinen, saatan tarvita tätä kohta työelämässä.
Niin sehän oli ihan huippu yhdistelmä.
Niin.
Nähdä, mitä näillä asioilla, kun opitaan, niin tehdään sitten samaan aikaan.
No, sitten jos mennään takaisin siihen CRST, niin jossakin vaiheessa, kun mä sitten kuitenkin olin tämä biostatistiikka määräaikainen professori ja vedin sitä CRST, ja sen lisäksi oli Orionilja leiraksessa.
Ja sitten oli vielä lääkelaitoksessa.
Joo, joo.
Ja se alkoi käydä hiukan tööläksi, niin tuli ajatus, että yksityistytään tämä CRST biometriayksikkö.
Ja siihen mä sitten kanssa yritin saada, että kukaan nyt sitten olisi halukas tulemaan sitä johtamaan.
Ja erilaisten yritysten jälkeen, niin Vuorisen Jouni sitten innostui.
Hän oli silloin koko Orionin biometriä deittämään päälle, mutta hän hyppäsi sitten tähän yrityspuoleen.
Ja se, olisiko se 2003, niin se yksityistytään syntyi For Pharma-niminen yritys.
Joo, joo, joo.
Siitä seuraus oli sitten, että CRST, kun siellä oli noin kolme miljoonaa liikevaihtoa, niin sieltä putosi puolet pois, eli puolitoista miljoonaa lähti pois.
Mutta siitä huolimatta, mikä ne mun välit on kyllä seudunut ihan hyvin, ihan samaa ei voisi sanoa Orionin kanssa, että sitten kun heiltä lähti tämä kliinisen tai biometriayksikön päällikkö, niin jonkun ajan kuluttua mä sain potkut sieltä Orionin.
Mikä ehkä on ymmärrettävä, että olihan se tavallaan törkeä tempu. Orionia ajatellut.
Niin, niin.
For Pharmahan on nykyään osa kansainvälistä PC-platform-firmaa, näin olen ymmärtänyt.
Mä en ole seurannut sen, en tiedä.
Joo, näin ne hommat etenee, että isompi kala syy pienemmän kala.
Niin, mutta mielenkiintoinen ilmiähän tässä on, että Turkuhan on sitten syntynyt, kun siellä on Säteellä näitä pieniä CR-firmoja.
Ja ennen tätä sitten For Pharmaankin suurempi, niin Korhaisen perusti For Pharmaan tai Statfin, jossa tuli varsin.
Kyllä.
Mielestäni tämän tyyppistä kehitystä ei kyllä missään muualla päin Suomessa ole ollut.
Kyllä, ja olen ymmärtänyt näistä uusistakin firmoista, että ongelma on edelleen sama, että ei saa valmistuvia työntekijöitä.
No se on.
Eli maisteriohjelmalle olisi edelleen tarvetta.
No on, ei munkin mielestä.
Niin, niin. Miten tukevat ne eläkepäivät onkaan, että pitäisikö lähteä uudestaan?
Ei, en kyllä enää lähde.
Niin.
Viivin sitten 14 vuotta se aktiviteetti on ollut aivan jossakin muualla.
Joo, joo. Missä se on ollut?
No meillähän on kohtalaisen koko ne maatila, jota sanot yritetty pyörittää.
Niin, niin. Siellä tehdään sitten näitä kokeita sitten, lohkokokeita ja muuta.
No en. Niitä mä oon tehnyt tai osallistunut tarpeeksi.
Että kyllä mä yritän sitten päästä vähän vähemmälle.
Että ei uudestaan syöksytä tähän.
Niin, niin. Tilastotieteen maailmaan sinänsä.
Niin ja suunniteltuihin kokeisiin.
Niin, joo.
Kyllä, kenne.
Tarvetta kyllä on.
Siis alkujahan, kokesuunnitteluahan, sehän on maataloudellista kokeista peräisin.
Niin.
Fischerhän on kirjoittanut.
Fischerhän on siellä toiminut.
Niin, niin.
Kyllä, että tamallaan sullakin on nyt paluu juurille sitten, tilastotieteen juurille.
No tavallaanhan.
Joo.
Ehkä olisi silloin aikana pitänyt harkita ja jäädä sinne Helsinkiin, mutta perhe ei ollut yhtään innostunut lähtemään.
No ehkä se oli Turun onni, että näin ei käynyt.
Kuten totesit, meillä on täällä hyvä vauhti edelleen statistiikkahommissa ja tilastohommissa.
No ilmeisesti sitä ihan mielenkiintoista noin sivusta seurata.
Niin, kyllä, kyllä.
Vähän sivuisitkö siihen viranomaispuolelle ja olet ollut myös pöydän ikään kuin sillä puolella, eli viranomaispuolella asiantuntijana.
Joo.
Euroopan viranomaisella ja Suomen viranomaisella ilmeisesti.
Niin, jossakin vaiheessa, silloin kun tuli tämä keskitymätty myyntilupahakemussysteemi, niin joku sieltä silloisesta lääkelaitoksesta pyysi,
että voisinko minä tulla arvioimaan näiden keskityttyjen myyntilupahakemusten statistiikkaa.
Siis silloin, kun Suomi on raportoja maa.
Niin, joo.
Onko varmaan hyvin tiedä, että systeemin, että näihin myyntilupahakemuksiin haetaan kaksi raportoja maa.
Toinen on pääraportoja ja toinen on korraportoja.
Joo.
Joo, niin minä olin siinä sitten varmaan melkein parisen kemmentä vuotta, käytännössä kaikki Suomeen tulleet,
missä Suomi on ollut keskitetty ja myyntilupahakemus raportoja maa, niin kävi sitten läpi ihan varmaan.
Sitten tuli Tiina Hakonen, oli ensimmäinen biostatistikko, joka sinne valittiin niin kuin...
Niin, kokopäiväiseksi.
Kokopäiväiseksi ja jossakin vaiheessa tässä, olisiko se joskus vuosi tuohon ne vaihteessa,
tai olisi sitten mahtava olla, tai siis 2020 vaihteessa.
Sitten Tiina päätti lähteä Ranskaan, no sitten ne oli taas pinteessä,
sitten minä tein yhden kevään vielä tässä reilusti yli seitsemänkymppisenä,
niin täyspäiväisesti heidän hommiaan.
Ja sitten haki epätoivoisesti biostatistikkoja, ja sitten onneksi Elina,
asiakannuksen Elina, joka on Turusta lähtöä sen kanssa,
suostui tulemaan sinne, ja sitten Elinan jälkeen Nurmisen Tommi.
Joo, joo.
Ja nyt siellä on sitten vielä kolmaskin, eli nyt siellä on kolme koko päiväistä biostatistikkoja.
Joo, kolmen tarvitaan korvaamaan yksi juhani.
Kaikki kolme taitaa, mutta olla Turusta lähtöisiä.
Ainakin kaksi.
No Elina ja Tommi, ne on ainakin kumpikin valmistuneet Turussa.
Joo.
Voitaisin vähän jutella ehkä yhdistysmaailmasta.
Biostatistikan seurahan täyttää kohta 40 vuotta, ja olet ollut siellä alkuvaiheessa
hallituksessa jo heti mukana.
Muistatko mitään seuran syntyhistoriasta?
No en kovin hyvin.
En mä ole ihan perusta.
Mun ymmärtääkseni ensimmäinen, joka sinne tuli, niin oli valittu,
ne oli Seppo Sarna.
Ja Sarna sitten vissiin ei kauhean aktiivisesti toiminut,
ja sitten tuli toi Elia Arias ja Juni Palmgren.
Joo, joo.
Ja tota, olisiko se Elia sitten ollut puheenjohtaja vai...
Oli silloin aluksi, joo, kyllä.
Aluksi, ja sitten aika pian sitten ne pysiin motkansa sinne piosta
seurahan hallituksessa.
Joo, kyllä.
Joo.
Ja myöhemmin olit myös puheenjohtaja.
Jossakin vaiheessa, joo.
Joo, joo.
Sitten oli tämä Statistokot Suomen lääketeollisuudessa,
se oli siihen aikaan, kun Orion ja Leiraas,
ja sitten oli tämä CRSTkin.
Niin nämä kaikki olivat sitä perustamassa.
Siinäkin olit vähintään taustapiruna.
Joo, mä itse asiassa en oikein tiedä,
miten se sitten syntyi,
tämä Statistokot Suomen lääketeollisuudessa.
Meillähän oli silloin tapana,
kun oli Orionin ja Leiraksen Statistikot,
nehän oli kaikki hyvin nuoria,
lukun ottanut minua.
Jälkeenpäin mä olin vähän miettinyt,
että tuliko tehty virhe rekrytoinnissa,
että kaikki oli niin nuoria,
että nyt kaikki sitten vanhene samaan aikaan.
Mutta ei kuitenkaan,
kyllähän niitä hakivat yliopistosta erilaisia ihmisiä,
mutta silloin mun ajatus oli,
että kun ei nyt tähänkä mennessä ole niin kiinnostuneita ollut
näistä sovellutuksista,
niin onko sillä nytkään niin väliä.
Joo.
Joo, mutta me ihan tämmöisiä epävirallisia tapaamuksia järjeseen.
Se porukka kokoontuu milloin kenenkin firman sponsoroimana.
Joo, joo.
Ja sitä mä en sitten tarkkaan tiedä,
että kuka sitten päätti sen tehdä siitä.
Se lähti varmaan osittain siitä,
että Euroopassa oli myös eri maissa biostatistikko,
tai lääketyötys- ja statistikkajärjestöjä,
ja sitten on Euroopan laajuinen.
Ja sinne toivottiin jokaisesta maasta edustaja.
F-SPAI.
Ja silloin ajateltiin, että se on tavallaan selkeämpää,
että se on rekisteröity yhdistys.
Toimintahan jatkuu samanlaisena,
että vuorotellen joku sponsoroija.
Ja kuten totesit, että itsekin teit Leirakselle ja Orionille töitä,
niin myös olen kokenut, että tämä SSL on ollut siitä hyvä,
että siellä on eri firmojen statistiikot,
ja voidaan kuitenkin puhua statistiikasta,
tilastotieteestä, miten sitä sovelletaan yhteisesti.
Että tavallaan ei nähdä siinä kohtaa sitten kilpailijana
muita firmoja, vaan yritetään veristää tilastotiedet eteenpäin.
Nimenomaan se oli ajatus, joo,
näissä kokoontumisissa.
Silloin ennen SSL,
ja toivottavasti nämä Fimea-statisti,
jotka olisivat tuttuja hommin kanssa.
Kyllä, ne on ainakin kutsuttu on.
Kyllä, kyllä.
Tämä Piosteikan seuran toiminta 80-luvun lopulla 90-luvun laulussa,
mitä muistat siitä?
No se ensimmäinen suuri kokous oli,
kun Arjaksella oli sen kaverikon Johan Mau,
ja hän pysi sitä häntä luenoimaan.
Tämä Mau on muun muassa crossover-kokeista,
ja hänhän oli takana siinä,
että kun tämä ekvivalenssin osoittamisen riittää
90 prosentin luottamusväliin,
eli viiden prosentin riskin kontrolloimiseksi,
niin hän kutsui sitten Mauniaan,
ja pidettiin tämmöinen,
missä oli varmaan muutama kymmenen ihminen,
ja siihen se rahoitus oli mun osalta sellainen,
että kun mä olin silloin sekä Orionille että Leiraksen,
ja mä menin kysymään Orionille,
kun me järjestetään tämmöinen,
niin kai te osallistutte siihen,
kun Leiraskin maksaa siihen osaan,
ja sitten oli niin päivästi.
Ja siitä saatiin aika hyvin se järjestetty.
Mun puheenjohtaja aikana pidettiin ainakin kaksi tämmöistä
tosi isoa kokousta.
Joo, ja olen ymmärtänyt,
että niistä ajoista on jäänyt joku rahapottikin,
että ne olivat niin suosittuja,
että saatiin niin paljon osaistumismaksoja.
No joo, mun mielestäni joo.
Eli olet kokenut,
että Piosteen seura on just parhaimmillaan
ehkä järjestämässä tällaista tapahtumat,
joku ulkomaalainen puhuja,
ja sitten järjestetään jäsenille ja muille
mahdollisuus tulla.
Mun mielestäni ne on ainakin suosittuja,
niissä oli ihan parhaimmillaan
tai satamäärin ihmisiä laittu.
Joo, joo.
Että se, mun mielestä se on ollut vähän vaatimatonta se.
Nykytoiminta.
Joo, tarvittaisiin lisää tämmöistä toimintaa ja puhujia.
Että SSL on toiminut mun mielestä paljon aktiivisemmin
kuin Piosteen.
Niin, niin.
Joo, joo, joo.
Ja mutta kyllä mä kaksi kertaa miettisin,
että kannattaako se yhdistäminen.
Kyllä kummallakin on oma profiilinsa sitten kuitenkin.
Niin, niin.
SSL on sellainen yhdistymyys,
johon ei voi liittyä,
vaan siihen kuuluvat ikään kuin nämä firmat
ja firmojen työntekijät.
Ja sitten taas Biosteikaseuras, siellä on paljon akatemiaa ja tutkimuslaitoksia
ja siihen henkilöjäsenet liittyvät.
Niin.
Että on sillä tavalla erilainen konsepti.
Ja toisaalta rahoituskin on ehkä vähän eri, erilainen.
Niin.
Niin.
Jos ajatellaan, että mitkä on mielestäsi suurimmat muutokset lääkekehityksessä vuosikymmenen yli Suomessa ja ylipäätään.
No se on tietenkin se alkuperäislääkekehitys, jota Suomessa ei ollut.
Ja sitten se 90-luku oli tällaista huippuaikaa.
Ja nyt se on sitten taas, mä en oikein tiedä sitä,
mutta ei aina kanssa kovin suuria menestyksiä ole tullut mun mielestäni alkuperäislääkekehityksen suhteen.
Joo.
No sitten mitä tulee biostatistikkaa, niin suurin muutos on,
että tämmöisestä yliopistomaisesta tutkijalähtöisistä tutkimuksista on siirrytty tämmöisiin kontrolloituihin ja säädeltyihin systeemeihin,
jotka toisaalta voi ajatella, että ne on vähän liiankin massiivisia.
No sitten ihan puhtaisin statistiikan.
Mä mainitsin jo se FDA-format and contact, clinical study report,
sitten tämä ICH, good clinical practice guidance ja siitä eteenpäin.
Joo.
Niin nehän nyt on muuttaneet tätä sekä DM että statistiikkaa niin kuin ulkoisesti tosi paljon.
Että onko vastaava taso sitten varsinaisesti menetelmällisesti puolesta, niin siinä mä en kyllä olla aika varma.
Niin, niin.
Että siihen mun voisi vähän olla niin kuin tämmöistä kritiikkiä ihmeteltävääkin.
Että on ehkä keskitytty väärin asioihin tai painotettu väärin asioita tai jotkut asiat ovat jääneet ikään kuin unholaan tai kehitys on jääneet.
Niin, jotkut on jääneet.
Joo.
Kuten totesitkin, Turussa pyörii hyvin nämä statistiikkafirmat, teollisuuspuolelta, mistä aloititkin, että teollisuutta tuetaan.
Miten näet esimerkiksi vaikka Turun tulevaisuuden, jos nyt ei ole piöstä ehkä maisteroamalla samalla formaatilla pyörimässä, että miten pystymme tuottamaan näille tööntekijöitä tai...
Niin, kaikki on loppujen lopuksi kiinni yksiteisistä ihmisistä ja heidän tahdostaan.
Että onhan se todella surkeata, että jos kysyntä olisi, mutta yliopistolle ei ole tarjonta, niin kyllä se silloin yliopisto on epäonnistunut siinä tehtävässä.
Joo, kyllä.
Tuo on jo hyvin sanottu, että paljon yksittäisen ihmisen tahdosta kiinni.
Tämä, mitä olemme tässä podcastissa nyt keskustelleet, niin tämä on nimenomaan osoittanut Juhani Tuomisen tahtotilan.
Olet halunnut pitää sen yliopiston siellä ikään kuin taustalla, mutta sitten perustanut, ollut riittävässä määrin näissä lääkefirmoissa, että siellä saadaan statistiikat käyntiin.
Jos täytyy kaosastot ja sitten ollut mukana, että ne pyörivät varmistamassa sen, niin kyllä tämä on aika huikea tarina suorastaan.
Siinä on täytynyt joskus painaa pitkää päivää niin sanotusti.
No se pitää paikkansa. Ehkä vähän liiankin pitkää.
Joo, joo.
Ja sen takia ehkä nyttenkään nyt ihan eläkkeellä suostumman lepäämään, vaan pitää sitten keväällä on kyntöhommia.
Ja syksyllä katsotaan, mitä satoa on tullut. Ja talvella tehdään ehkä vielä metsäpuuhommia.
Niin, kyntöminen on syksyllä ja keväällä kyllä.
Niin, niin. No näin päin. Kyllä, kyllä, kyllä.
Edelleen jatkuu työnteko, mutta ehkä toivottavasti vähän lyhyempiä päiviä keskimäärin kuin silloin joskus.
No ehkä keskimäärin kyllä.
Keskimäärin, joo.
Keväällä ja syksyllä kiirettäjä sitten.
No silloin se on tietysti tällaista pakkotahdista.
Vähän niin kuin silloin, kun halsin kolmas raportit alkoivat valmistumaan, niin silloin varmaan paljon on nähty yötä eikä päivää.
Niin, kyllä, kyllä.
Mites kalastaminen? Sitä harrastit joskus.
No kyllä sitten, tai joo, myös sitä.
Niin, joo, kyllä.
Mutta on kyllä aika paljon vähentynyt.
Joo, joo.
Ja ehkä se joo, tommosista ikäriippuvuudesta, että ollaan ulkomerilla käyntiin, että sitä mun kuulemaa ei pitäisi enää niin kauheasti harrastaa.
Niin, niin. Kyllä, kyllä ne.
Joo, joo.
Kotiväen mielestä.
Joo, arvasin vähän, että siitä saattaa tulla, että onko taas pakko lähteä.
Nyt on vähän huono keli.
Jos ajatellaan nyt Juhani urasi taaksepäin, elämäsi taaksepäin, tuleeko mieleen jotain oivalluksia, mitä voisi vielä mainita?
Tämä biostatisika maisteriohjelma, siis olihan se itselle hyppy tuntemattoman ja se tuntui aikaan.
Että onnistun, kun mä sen ja mä olen edelleen sitä mieltä, että se on mun elämäni parhaita päätöksiä.
Että se, ja musta on kovin harmi, että se paketti on hajonnut.
Mutta kyllä mä siis toisaalta ymmärrän, että jolle ei ole lääketeollisuustausta, niin eihän kuka professori sitä tulisi vetämään millään pätevyydellä, koska heillä taas se puoli on täysin tuntematon.
Että miten rakentaa tämä silta, niin kuin sanotaan käytännön elämän ja yliopiston välille, että jossakin vaiheessa se sitten välttämättä katkee, eikä sitten enää kommunikoida keskenään.
Joo, joo. Korhosen, Pasi ja Nevalaisen ja Aakkohan jatkoivat sinun jälkeen ja silloin se vielä toimi, koska he kummatkin tulivat lääkettelysyöstä.
Joo, joo. Nevalaisen aikana vielä erittäin hyvin. On tosi harmi, että hän päätti lähteä sitten sinne Tamperelle.
Niin, se oli Turulle menetys siinä mielessä.
Oli, oli.
Mitä muistopuolella löytyykö vielä tilastotieteen biostatistiikan alan muistoja, mitä ei ole vielä nyt tässä muisteltu?
No, jos ajattelee sitä yliopisto- ja teollisuusyliopistoyhteistyötä CRST kanssa, niin kuin jossakin vaiheessa, miten onnistui yliopistojen ja yritysten ja yliopiston yhteistyö, niin mun mielestä monia yritysten välin yhteistyö onnistui varsin hyvin.
Mutta yliopiston kanssa se ei sitten aina, se koko yliopistokirjanpidon ja taloushallinnon idea on ihan päinvastainen, kun yrityshän pyrkii hankkimaan rahaa kassaansa ja omistajalle.
Yliopisto lähtee siitä, että joka vuosi myönnetään jotakin määrää rahaa ja sitten se yritetään kuluttaa mahdollisuuksien mukaan, jotta jäisi seuraaville.
Niin tämä oli tosi hankala saada, eikä sitä sitten missään vaiheessa oikein ymmärretty siellä.
Joku tämmöinen pieni adekvaatti, että kun sitten jossain vaiheessa oli vähän kiire, ja mä käytin omaa autoa ja kävin Hesassa ja siellä ja täällä, niin siitä tuli muti noita.
Ja eikä ne yhtään tajunnut sitä, että kun mä sanoin, että mitä sillä väliä on, kun mä menin helikopterilla, koska ne kaikki matkalaskut sisällytetään siihen tilaajan laskutukseen.
Että ei se maksa yliopiston yhtään penniä. Joku tämmöinen oli täysin mahdotonta, niin kuin saadaan ymmärretyksi.
Joo, kyllä näet siellä oli.
No sitten semmoinen, meillä oli se järjestä aikana satoja tuhansia euroja oli laskutusta Orionilta ja leiraksesta.
Ja sitten mä päätin, että ostetaanpa konjakkipullo joululahjaksi, niin leiraksen silloin se tutkimus- ja toitekehitysjohtajalle lähtemään Pekalle.
Ja sitten se oli varmaan Jounille.
Joo, joo.
Ja toi se ei mennyt yliopiston kirjanpidolla läpi, ja mä oon tosi itse maksaneet.
Niin, niin. Yliopiston vieläkin vähän velkaa sitten.
No joo, mun mielestä.
Niin, kyllä, kyllä.
Mutta joku väittää, että yliopiston suhtautuminen on nyt kyllä muuttunut yliopiston.
Silloin 70- ja 80-luvun vaihteessa, mutta olisi varmaan tervetta ja kierryty höyhenissä, ja sitä olisi tullut julkisesti esille kaikki tämä teollisuus ja yliopiston.
Niin, niin. Se rahamäärä, mitä sieltä teollisuudesta on tullut yliopistolle, niin on ollut aika huomattavaa.
Ja se ei kuitenkaan vaarantanut yliopiston riippumattomuutta, koska se oli palkkatehdystä työstä.
Ei todellakaan.
Niin tätä, kyllä, kyllä.
Toihan oli, Santtenhan oli myös CR-sten asiakas, yksi näistä suomalaisista, tai siihen aikaan aika iso.
Kyllä, joo, Santteni on se.
No, mä sitten, kyllä sitten jossain vaiheessa oli itse asiassa myös Santtenin.
Niin, niin, joo.
Ja, ja tuota, me, CR-ste, mutta se oli jo Forfarm-aika, niin toi, silloin vielä suunniteltiin varsin suuret faasi-kolmostutkimukset, tämmöisen kombinaatiosilmänpainelääkkeen.
Niissä oli, siinä meni kaksi rinnakkaista koetta, niin se oli varmaan 300 ihmistä per koe.
Ja se DM ja statistiikka tehtiin täysin Forfarmassa, se koordinointi, siinä varmaan voisi olla, että sen käytettiin jotain ulkomaisia.
Mutta se on osoitus siitä, että kyllä me aivan hyvin pystytään täällä tekemään minkä tason tahansa faasi-kolmosen tutkimuksia.
Mä en ollenkaan sitä ymmärrä, että miksi Orion esimerkiksi jossain vaiheessa siirtyy siinä, että ei tehdä enää in-house näitä faasi-kolmosia.
Tietotaitoa ja kyvykkyyttä kyllä riittää.
Niin, niin, kyllä. Koko kliinisen tutkimuksen, ei pelkästään statistiikka, niin löytyisi varmasti Suomesta, kyllä on Suomesta.
Oikein paljon kiitoksia, Juhani, tämä oli mukava rupatteluhetki ja saatiin vähän historiaa tallennettua.
Ääninauhalle ja katsotaan, miten tulevaisuus ottaa nämä historian sanat vastaan.
Eipä. Mukava rupatella, että sitähän ne kuitenkin jo 14 vuotta aikaa, kun mä oon jäänyt eläkkeelle.
Ja palauttaminen tänne, tähän maailmaan, ei välttämättä ollut niin yksinkertaista.
Niin, niin, se on ne. Maatalouspuuhat on enemmän mielessä ja nämä lääketteellisuusjutut on.
Mutta hyvin, hyvin ne oli siellä muistissa, kyllä. Niitä on silloin tehty suurella sydämellä.
Pyritty ainakin.
Kiitos sinulle, Juhani, ja kiitos sinulle kuulija, kun kuuntelit tämän podcastin.
 

Toistomittaus

Toistomittausanalyysit eli lineaariset sekamallit toistetuille mittauksille ovat yksi keskeisimmistä tilastollisista menetelmistä prospektiivisissa tutkimuksissa. Prospektiivisissa tutkimuksissa tutkittavilta henkilöiltä mitataan toistuvasti samaa muuttujaa, kuten verensokeria tai luuntiheyttä tai he vastaavat samaan kyselyyn monta kertaa. Analysoitaessa toistuvia mittauksia on tärkeää huomioida mittausten välinen korrelaatio, eli se, että yksilön sisäinen vaihtelu on aina pienempää kuin yksilöiden välinen vaihtelu. Korrelaatiorakenteen huomiointi tekee analyysistä hieman monimutkaisempaa, mutta samalla tehokkaampaa, ja tutkimukseen tarvitaan vähemmän osallistujia.

Tässä podcastissa biostatistikko Eliisa Löyttyniemi kertoo tutkijoille ja opiskelijoille jatkuvan muuttujan toistomittausanalyysistä sekä sen monipuolisesta soveltuvuudesta erilaisiin tutkimustilanteisiin.


00:06

Puhuja 1

Tervetuloa jälleen statistiikan aalloille.

00:09

Olit sitten opiskelija, tutkija tai ihan muuten vaan kiinnostunut tilastotieteestä, niin hienoa, että sä oot kuulolla.

00:16

Minä olen biostatistikko Markus Riskumäki, ja tänään mun kanssa studiossa on jälleen biostatistikko Elisa Löytyniemi, Turun yliopiston biostatistiikan yksiköstä.

00:26

Tervetuloa.

00:27

Kiitos, kiva olla taas täällä.

00:29

Nonii, ja tänäänhän meillä on aiheena toistettujen mittausten analyysit.

00:34

Puhuja 2

Jippii tähän on oikeastaan mun Niinku lempiaihe kaikista analyysimetodeista.

00:39

Aijaa, OK.

00:40

Puhuja 1

tota me voitaisiin aloittaa lyhyellä määrittelyllä, mistä me tänään puhutaan.

00:46

Öö tilastollisen testin valintajaksoissa me vähän sivuttiin toistomittauksia, mutta koska tää aihe on luultavasti teille kuuntelijoille vieraampi, niin me ajateltiin, että voisi olla hyvä tehdä ihan oma jaksonsa tästä aiheesta.

00:57

Toivottavasti

00:57

Puhuja 2

tästä ei tuu maratonin mittana.

00:59

Puhuja 1

Katsotaan, katsotaan.

01:02

Eli toistomittauksessa tarkastellaan muutoksia useimmiten yli ajan.

01:07

Eli me mitataan samoilta henkilöiltä useampaan kertaan jotain samaa asiaa, vaikka jotain laboratorioarvoa, kuten kolesterolia.

01:15

Esim muutaman kuukauden välein, eli aika on nyt tässä se tärkeä termi.

01:21

Toki toistomittausanalyysejä voi käyttää monenlaisiin muihinkin tutkimusasetelmiin, mutta aloitetaan nyt tällä.

01:27

tota Elisa, jos me halutaan tutkia potilailta jotain ajan yli toistomittausanalyysillä, niin minkälaisia tutkimusasetelmia meillä voisi olla?

01:37

Itselle tulee ainakin heti ensimmäisenä mieleen ne prospektiiviset eli seurantatutkimukset.

01:42

Puhuja 2

Joo, pääsit itse asiassa ihan siihen ytimeen, että tyypillisin esimerkki on tämmöinen Niinku prospektiivinen vielä interventiotutkimukset, eli Öö usein vielä satunnaistetaan sitä, että mihin ryhmään kukin ihminen sitten päätyy, mut sitten tota Öö ja sitten he saa sitä interventiota, onko se sitten lääkeinterventiota, osa saa tutkittavaa lääkettä, osa placebo, vai onko se joku ihan muunlainen interventio, mut kuitenkin me tehdään sitten mittauksia tai kyselyjä siinä yli ajan ja sit lopulta tutkitaan, että että onko tapahtunut sitten muutosta, interventiollahan me pyritään aina saamaan muutosta aikaiseksi.

02:21

Ja tärkeintä tämmöisessä, jos meillä on satunnais- tuettu tutkimus, että me halutaan tutkia, onko se muutos erilaista yli ajan.

02:28

Esimerkiksi just se lääkeryhmä versus placebo, niin totta kai me halutaan tutkia, että se lääkeryhmä sitten muuttuisi, niitten Öö keskiarvot muuttuisi eri tavalla, kun Öö sen placeboryhmäläisten.

02:41

Ja tota ja tietenkin se, että kun me tutkitaan muutosta, niin hyvin tärkeätä on myös ottaa se lähtötilanteen taso, Öö eli meidän täytyy tehdä se eka mittaus tietenkin ennen kun se interventio alkaa.

02:53

Mut sit meillä on vielä tänkin piirissä Niinku monenlaisia mahdollisuuksia, et me voidaan tehdä semmoista tutkimusta, jossa aikapisteet on Niinku tasavälein.

03:04

Esimerkiksi baseline eka lähtötilanne ja sit on kolme kuukautta, kuus kuukautta ja ka- yhdeksän kuukautta, kakstoista kuukautta, tai sit ne voi olla Öö epätasaisesti, että meillä onkin Öö lähtötilanne kolme kuukautta ja kakstoista kuukautta, että me hypätään vähän pitempi aika.

03:21

Ja tota mmm ja useimmiten kaikissa tämmöisissä tutkimuksissa me tähdätään siihen, että niitä mittauksia otetaan aikalailla samaan aikaan näiltä subjekteilta, mut aina se ei vaan oo mahdollista toteuttaa semmoista tutkimusta.

03:36

Puhuja 1

OK.

03:37

No mites tota, voiko toistomittaustutkimus olla retrospektiivinen sitten?

03:42

Joo,

03:43

Puhuja 2

toki Öö varsinkin kun meilläkin analysoidaan paljon dataa, jotka tulee sairaalasta ja ne on oikeasti tämmöistä real world dataa, eli Öö potilaat on ollut esimerkiksi nyt vaikka tehohoitoyksikössä ja niiltä otetaan paljon labra-mittauksia.

04:00

Öö nimenomaan sen, että pystytään hoitamaan niitä potilaita, niin eihän se silloin ole sellaisia suunnitelmallisia aikapisteitä, kuten tämmöisessä prospektiivisessä tutkimuksessa.

04:10

Mut siinäkin meillä on toistomittauksia, joita me voidaan hyödyntää, koska ne on mitattu samoilta henkilöltä useasti.

04:16

Ja sit jos me mennään aika monimutkaisiinkin malleihin, niin me voidaan myös miettiä sitä, että voidaanko näitä toistomittauksia hyödyntää sitten vaikka potilaan tämmöiseen outcoming Öö tulevan diagnoosin Niinku ennustamiseen.

04:34

Puhuja 1

No nyt kun me tiedetään vähän ajatuksen tasolla, mitä tarkoittaa toistomittausanalyysi, niin päästään sukeltaa vähän syvemmälle aiheeseen.

04:41

Mutta yksi tärkeä pointti on kuitenkin tärkeä alleviivata heti tässä alkuun, eli mikä on oleellinen ero toistomittausanalyysien ja muiden tyyppisten analyysien välillä.

04:52

Ja sehän on riippuvuus.

04:55

aiemmissa analyysityypeissä, mitä me ollaan käyty läpi tässä podcastissa, kuten vaikka varianssianalyysi tai kahden otoksen T-testi, Öö niissä on ollut taustalla oletus havaintojen riippumattomuudesta, eli ne ei vaikuta mitenkään toisiinsa.

05:08

Puhuja 2

Niin ne on mitattu eri henkilöiltä ja ja ja esimerkiksi niin, että jos me verrataan vaikka Öö miesten ja naisten hemoglobiinitasoja, niin meillä on vaan yksi mittaus per

05:19

Puhuja 1

henkilö.

05:20

Niinpä.

05:21

Toistomittaisanalyysissä taas oletetaan nimenomaan päinvastainen, eli havaintojen riippuvuus, joka käy siis ihan järkeen, kun ajattelee, että me otetaan useampi havainto samasta tilastoyksiköstä, esimerkiksi ne verenpainearvot samasta potilaasta eri aikapisteissä.

05:37

Ja koska nää mittaukset tehdään samasta tilastoyksiköstä, eli tässä tapauksessa ihmisestä, niin eri aikapisteissä mitatut vasteen arvot on korreloituneita.

05:46

Ne eivät siis voi olla riippumattomia.

05:49

Ja tota vaikka voisi ajatella, että tällaiset riippuvat havainnot hankaloittaa analyysejä, niin toisaalta ottamalla huomioon samoista henkilöistä tehtävien mittausten välinen riippuvuus, niin me saadaan aikaiseksi itse asiassa tosi voimakkaita testejä.

06:03

Puhuja 2

Joo ja ootko sä koskaan miettinyt, mistä se johtuu.

06:07

Se oikeasti Öö perustuu siihen, että subjektin sisäinen vaihtelu, eli kun multa mitataan sitä verenpainetta useasti, niin se on aina paljon pienempää kuin subjektien välinen vaihtelu, että meiltä kahdelta ihmiseltä mitattaisiin se verenpaine.

06:20

Ja joo, ja ja se tekee just sen Öö näitten te, et nää testit on voimakkaita, joka tarkoittaa myös sitä, että me tarvitaan vähemmän henkilöitä tutkimukseen, eli pienempi otoskoko riittää, kun me tutkitaan näitä muutoksia.

06:35

Ja ja tota ja sit jos me mennään oikein tota Öö hienosäätämään, niin me voidaan jopa Öö otoksi tutkimusta suunnitellessa miettiä sitä, että me voidaan optimoida myös niitä aikapisteitä, eli me voitaisiin myöskin optimoida, kuinka monta aikapistettä me tarvitaan matemaattisessa mielessä.

06:56

Ja ja tota ja mikä on niiden aikapisteiden etäisyys, että jos Öö ne havainnot korreloi tosi voimakkaasti, kun on otettu vaikka kuukauden välein vaikka luuntiheys, niin sieltä tulee käytännössä katsoen sama tulos, niin se ei matemaattisesti tuo mitään informaatiota.

07:12

Öö lisää siihen siihen tutkimuksen analyysivaihe- vaiheeseen.

07:18

Mutta tarvii, mä korostan sanaa matemaattisesti, että kun mä oon joskus ehdottanut, että joku aikapiste poistetaan, niin kliinikot sanoo, että kyllä me kliinisesti se tarvitaan.

07:29

Puhuja 1

Joo, tota siirrytäänpäs sitten tähän itse analyysiin.

07:34

Vaikka tota tietysti hirveän kaikennäköistä monimutkaisia malleja ja erilaisia tutkimusasetelmia voi tehdä myös toistomittausanalyysissä, niin nyt me keskitytään sellaisiin tilanteisiin, joissa on Siis yksi numeerinen jatkuva vaste, jota on mitattu useassa aikapisteessä.

07:52

Siis samoilta tilastoyksiköiltä eli subjekteilta on mitattu samaa asiaa toistuvasti.

07:57

Ja me keskitytään nyt myös nimenomaan niihin siihen prospektiiviseen tutkimusasetelmaan, jossa on vaikka Öö yksinkertaisuuden vuoksi nyt kaksi ryhmää, se tutkimusinterventioryhmä ja niin sanottu placeboryhmä.

08:10

Ja toki on siis tehty satunnaistaminen näihin ryhmiin.

08:13

Puhuja 2

Joo, joo, ja silloin meidän tutkimukseen Niinku käytännössä katsoen se kiinnekohta, se kaikista tärkein on Öö tutkia, tai mielenkiintoisin on tutkia se, että tapahtuuko yli ajan sitä muutosta ja tapahtuuko erilaista muutosta, Niinku me puhuttiin tuossa alussa jo.

08:30

Öö Mutta se, että se täytyy todella tarkkaan kirjoittaa siinä tutkimussuunnitelmassa, että mikä on se juttu, joka meitä kiinnostaa.

08:39

Öö se muutoksen erilaisuus yli koko tutkimusajan, mitäs jos meillä on follow-up siellä seurantaa vaan, niin mitä sitten?

08:47

Ja Öö monet tutkijat kuitenkin on sitä mieltä, että meitä kiinnostaakin vaan se, että onko se eroa siellä loppupisteessä tutkimuksen lopuksi, eli tääkin tarvitsee hyvin tarkkaan tutkimussuunnitelmassa selostaa, että mikä on se meidän pääjuttu.

09:00

Mutta tota Markus, muistatko sä, mitkä on ne jutut, mitkä Niinku ylipäätänsä sun pitää aina tietää, ennen kuin sä ryhdyt Niinku analysoimaan dataa?

09:09

Puhuja 1

Joo, oikean tilastollisen testin löytäminen omaan tilanteeseensa kannattaa aloittaa tietysti ihan samalla lailla myös toistomittausanalyysissä kuin minkä tahansa analyysin kanssa, eli tutkimalla aineistoa tarkemmin.

09:22

Öö No tässä toistomittaustilanteessa meidän pitää määrittää siitä havaintoaineistosta seuraavat asiat.

09:27

Eli ihan ensimmäisenä se tilastoyksikkö, eli mikä meillä on tutkittava kohde.

09:32

Se tilastoyksikkö voi olla esimerkiksi se ihminen, jolta tehdään monta mittausta ajassa, tai sit se voi olla esimerkiksi silmä, jos halutaan tutkia vaikuttaako jokin interventio eri lailla

09:42

Puhuja 2

eri silmissä.

09:43

Joo joo, mä oon ollut silmätutkimuksessa, että toiseen silmään pistetään tutkimuslääkettä ja toiseen sitten taas jotain muuta.

09:48

Puhuja 1

Joo.

09:51

Sit seuraava tärkeä asia tutkia sieltä aineistosta on, että mikä on riippumatonta ja mikä riippuvaa.

09:58

Ja tosiaan Niinku aiemminkin jo mainittiin tai alleviivattiin, että tällaisessa toistomittausanalyysissä riippumatonta on vaan ne subjektit, eli esimerkiksi potilaat aineistossa.

10:10

Öö Sitten taas riippuvaa on ne itse mittaukset, eli esimerkiksi kolesteroliarvot samalta potilaalta eri aikapisteissä.

10:18

No seuraava asia, mitä katsoo aineistosta on vastetekijärakenne.

10:23

Eli mitä me oikeastaan halutaan tutkia?

10:25

mikä meillä on se mielenkiinnon kohteena oleva muuttuja ja minkä tekijöiden me uskotaan vaikuttavan siihen.

10:32

Ja viimeiseksi vielä, niin kuin aina kannattaa katsoa jakaumia.

10:37

Muttaj jakaumia kannattaa tarkastella, että me huomataan mahdolliset virheet ja Odit siellä datassa ja tietysti testistä riippuen Öö esimerkiksi muuttujan jakauman se normaalisuus saattaa olla alkuoletus.

10:49

Puhuja 2

Joo, joo, ja hauska toi sun sana Odit.

10:51

Mä käytän aina sanaa poikkeava havainto tai outlier, mutta OD on se oikeasti se virallinen termi näille poikkeapelihavainnoille.

11:01

joo.

11:02

Mut sitten tota ja jakaumista vielä sen verran, että että näissä malleissa tarvitsee kanssa muistaa se, että se on nimenomaan se jäännösten jakauma, josta ollaan jos- jossain muussakin jaksossa jo puhuttu, eli se on Niinku se oleellinen, mutta sä kuitenkin hyvin pystyt tarkastelemaan tietenkin e- ennen jo analyysejä, että onko se Öö sun Öö muuttuja Niinku selkeästi normaalisti jakautunut, vai onko se vino, Niinku usein labran muuttujat on vinoja, jolloin auttaa se logaritmin muunnos tai neliööyrim muunnos.

11:33

Mutta sitten kannattaa siirtyä tähän Öö yhteen tärkeeseen erityispiirteeseen, mikä on aina meillä mukana toistettujen mittausten datassa, eli Öö puuttuvat havainnot.

11:46

Ja ja tota Öö en tiedä, onko koskaan saanut semmoista täydellistä dataa, jos mulla on ollut toistomittausdataa, vaan usein siellä aina on puuttuvaa dataa.

11:57

Ja useimmiten se johtuu siitä, että jotkut potilaat tai jotkut henkilöt ha- kyllästyy tutkimukseen ja sanoo, että hei, muuten enää palaa näihin mittauksiin, eli heiltä loppuu sit tai lopusta sitten puuttuu näitä mittauksia.

12:13

Ja sitten tietenkin.

12:15

Öö on myös niitä, että et potilas nyt sattuu olemaan tota hiihtolomalla sen mittauksen aikana, ja sit siltä jää joku yksi aikapiste esimerkiksi välistä, mut sit hän Niinku palaa siihen.

12:28

Öö tutkimukseen takaisin.

12:30

Mutta tota mitäs niistä puuttuvista arvoista pitäisi sitten tutkia, mitä muistatko sä Markus?

12:36

Puhuja 1

Joo.

12:37

Otetaan tähän väliin tämmöinen lisähuomio, että pitää vähän tarkemmin pohtia näitä meidän puuttuvia arvoja.

12:44

Öö näissä metodeissa, mitä me nyt käydään läpi, niin me oletetaan, että puuttuvat arvot on niin sanotusti missing at random tai missing completely at random.

12:53

Mitä se sitten tarkoittaa?

12:55

No, tää tarkoittaa monta asiaa, mutta ehkä yksinkertaistuksena olisi semmoinen, että se puuttuva arvo ei saa korreloida arvoon, joka puuttuu.

13:03

Puhuja 2

No, mistä sä sen sitten voit tietää?

13:06

Puhuja 1

No, sitä pitää vähän funtsia tarkemmin niitä sun tota puuttuvia arvoja ja miettiä Siis, että minkä takia ne nyt ehkä voisi olla puuttuvia.

13:15

Öö Esimerkiksi arvo ei saa puuttua sen takia, että subjektin sairaus on pahentunut ja puuttuva arvo olisi sen takia luultavasti koholla tai matala.

13:23

Puhuja 2

Joo, tästä on aika hyvä esimerkki.

13:25

Mulla on ollut pari tämmöistä Öö syöpäpotilaiden tutkimusta, missä me tutkitaan syöpäpotilaiden elämänlaatua.

13:32

Ja toinen oli nimenomaan keuhkosyöpäpotilaat.

13:35

ja ja tota siinä datan perusteella, mitä mulla oli pöydällä, niin näytti siltä, että keuhkosyöpäpotilaiden elämänlaatu suorastaan Öö kohoaa, nousee, mutta se oikeasti valitettavasti johtui siitä, että että tota Öö suurella joukolla se heidän til paheni niin paljon ja suurin osa myös menehtyi, joten heiltä ei todellakaan saatu sitten elämänlaatua.

14:02

Eli tällä tavalla, jos et sä kiinnitä puuttuviin Öö havaintoihin Niinku huomiota, niin sä saatat raportoida aika omituisia omituiselta näyttäviä

14:12

Puhuja 1

tuloksia.

14:14

Ja joo, ja tosiaan toinen tota tämmöinen yleinen, Niinku Elisa siitä jo mainitsikin, että aika yleinen syy, miksi tulee puuttuvia arvoja tällaisissa toistomittauksissa on tosiaan se, että subjektit on lopettaneet kokonaan sen tutkimuksen, kun heidän tilansa on Öö pahentunut tai parantunut niin paljon.

14:32

Joo,

14:33

Puhuja 2

ja sitten kannattaa myös miettiä sitä, että me voidaan tarvita tämmöisiä sensitiivisyysanalyysejä joko ehkä vaikka imputointejakin, jolloin me Niinku mietitään sitä, että mikä arvo me voitaisiin korvata sillä, että me kuvataan, että se on todellakin pahentunut tai sitten parantunut, jos meillä on jotain tietoa siitä, kaikissa tutkimuksissa meillä ei ole tietoa siitä, että minkä takia ne tutkittavat vaan katoaa tutkimuksesta.

15:00

Puhuja 1

Joo, ja tosiaan alleviivauksena, että me ei tietenkään voida tietää näistä puuttuvista arvoista koskaan sitä oikeaa totuutta, mutta pitää Niinku miettiä, että onko se meidän olettamus uskottava.

15:11

Ja tosiaan Niinku mainittiin jo, että näissä metodeissa, mitä me nyt läpi käydään, niin me oletetaan se, että se on satunnaista se puuttuminen.

15:20

Eli se missing at random tai missing completely at random.

15:23

Puhuja 2

Juu, eli hiihtolomalle saa ihmiset mennä ja tulla takaisin ja ja se on selkeästi tämmöistä satunnaista.

15:30

Ja tota, mut sit jos me mennään Niinku itse niihin analyyseihin, niin mehän on aikaisemmin puhuttu siitä vaikka parittaisesta T- testissä, jossa on myöskin riippuvuutta Öö näitten kahden aikapisteen välillä.

15:43

Mutta totta kai sitten kun me tota meillä onkin kolme tai enemmän aikapisteitä, niin tää parittainen T-testi ei enää käy.

15:51

Ja parittaiseen T- testiin me ei tietenkään saada myöskään näitä tekijöitä tarpeeksi, mitkä meitä kiinnostaa.

15:56

Eli me tarvitaan monimutkaisempaa mallia.

15:58

Ja useimmiten julkaisussa mä itse sanon, että et mä käytin linear mixed model for repeated measures tai measurements, Öö eli lineaarisia sekamalleja Niinku toistomittausaineistoon.

16:13

mm ja Öö se voi laajentua myöskin, että mä mainitsen, että se on hierarkinen, jos meillä on jotain hierarkisuutta, esimerkiksi Öö toistoja Öö periodin sisällä.

16:26

Niinku crossover Öö vaihtovuorokokeissa.

16:30

Öö ja sitten lineaarisuushan tässä tapauksessa tarkoittaa sitä, et me testataan vaan lineaarisia tai polynomisia funktioita, ettei mitään epälineaarisia funktioita nyt vielä pohdita.

16:42

Mutta tota muistatko sä, mitä se sekamalli sitten tarkoittaa, Markus?

16:47

Puhuja 1

Salli tarkoittaa sitä, että mallissa voi olla sekä kiinteitä että satunnaisia tekijä.

16:54

Joo, käydään näitä läpi.

16:55

Öö eli kiinteä tekijä on semmoinen, että tota analyysin johtopäätökset vedetään vain siitä tekijästä havaittuihin arvoihin.

17:04

Esimerkiksi Öö jos sulla on vaikka lääkeannokset, viisikymmentä milligrammaa ja sata milligrammaa sun tutkimuksessa, niin Öö me ei tehdä silloin mitään johtopäätöksiä, miten seitkytviis milligrammaa voisi vaikuttaa.

17:18

Öö muita esimerkkejä voisi olla sukupuoli, veriryhmä, syövän vakavuusaste.

17:23

Sit tää toinen muuttajatyyppi on tämmöinen satunnaistekijä.

17:27

Öö ja se tarkoittaa sitä, että analyysin johtopäätökset vedetään Öö tekijän koko jakaumaan.

17:33

Esimerkiksi Öö tutkimuksessa on kuusi tutkimuskeskusta, ja näiden keskusten uskotaan kuuluvan Öö kaikkien mahdollisten tutkimuskeskusten populaatioon, joka muodostaa jonkun jakauman.

17:44

Ja näistä analyysistä tehdyistä johtopäätöksistä johtopäätöksistä Öö me halutaan yleistää kaikkiin maailman tutkimuskeskuksiin, eikä siis vaan näihin kuuteen tutkim todellakin.

17:56

Jep.

17:57

Eli yleisesti oletetaan Öö subjektin olevan myös satunnaistekijä.

18:02

Öö samalla lailla kuin tän tutkimuskeskuksen tilanteessa, niin me tulokset halutaan yleistää kaikkia subjekteja vastaavaan populaatioon.

18:10

Esimerkiksi jos jotain Niinku Öö lääkettä tutkitaan, että toimiiko se jossain Öö sairaudessa, niin eihän me tietenkään haluta vain, että se niiden meidän tutkimuspotilaille toimii, vaan että se toimisi kaikille sairaille.

18:25

Tämä siis olettaa sen, että subjektien tasoerot muodostaa normaalijakauman.

18:30

Mutta haluttaessa tätä mallia voidaan vielä monimutkaistaa, eli laittaa sinne malliin myös sille subjektille lisäksi satunnainen kulmakerroin, eli random slope, jossa me sallitaan kaikille subjekteille erilaiset muutokset.

18:44

Mut me voidaan toki tutkia, että onko tää tarpeellista datassa, että useissa tapauksissa ei tarvita tämmöisiä monimutkaisempia

18:51

Puhuja 2

slope-malleja.

18:52

Joo, ne on tosi tosi harvinaisia.

18:54

Ja useimmitenhan ne on Niinku nuo kategoriset tekijät, niin ne käsitellään tosiaan kiinteinä Niinku sä sanoit, että et me ei haluta Niinku laajentaa niitä meidän Öö päätelmiä.

19:05

Ja ja sa- satunnaistekijänä useimmiten on se pelkkä subjekti tai sitten toi tutkimuskeskus.

19:11

Ja sit meidän täytyy taas muistella vähän sitä Öö mallinnusstrategiaakin, eli me pistetään vaan kohtuullinen määrä niitä tekijöitä sinne malliin.

19:20

Riippuu tietenkin siitä Öö datan koosta, kuinka paljon meillä on subjekteja mukana ollut tutkimuksessa.

19:27

Ja taas muistutan siitä, että ei parane laittaa sinne tekijöitä, jotka kovin voimakkaasti assosioi, korreloi keskenään, koska ne saattaa sotkea sen Öö mallin ja tuottaa sitä kautta vähän omituisia tai jopa Niinku vähän vääriä tuloksia.

19:45

Ja sit meidän täytyy miettiä hyvin tarkkaan tässä, kun meillä on nyt tää aika mukana ja nimenomaan sitten Öö nää yhdysvaikutukset myös, että minkä tekijän mukaan meillä se muutos on erilaista.

19:59

Että Öö riittääkö meillä pelkästään se interventio kertaa aika, vai onko meillä jotain muuta?

20:04

Halutaanko me tutkia, että onko muutokset erilaisia miehillä ja naisilla, että tarvitaanko me tämmöisiä yhdysvaikutuksia?

20:13

Mut sit jos me taas palataan tähän toistomittauksen Niinku ytimeen eli siihen riippuvuuteen eli korrelaatioon, niin miten me sitä nyt sitten tutkitaan?

20:24

Puhuja 1

Joo, tosiaan Niinku ollaan jo monesti alleviivattu, niin toistomittausanalyyseissä riippuvaisuus on nyt se iso juttu.

20:31

Eli aikapisteiden välillä oleva korrelaatio täytyy ottaa tietenkin mallissa huomioon.

20:37

Öö Ja yksi tapa arvioida datassa olevaa korrelaatiorakennetta on aluksi tehdä korrelaation matriisi.

20:43

Öö ja tähän tarvitaan useimmiten datarakenteeksi sellainen data, jossa eri aikapisteet on eri sarakkeissa kautta muuttujissa.

20:51

Puhuja 2

sä tarkoitat korrelaatiomatisilla?

20:54

Puhuja 1

No, korrelaatiomatriisi on semmoinen, mistä näkee, mitä korrelaatiolle tapahtuu, kun aikapisteiden välinen etäisyys kasvaa.

21:02

Ja tässä on yleensä kolme eri vaihtoehtoa sille korrelaatiorakenteelle.

21:07

Eli ensimmäinen se korrelaatio voi olla vakioaikapisteen väleillä, eli puhutaan tasakorrelaatiorakenteesta, eli englanniksi compound symmetry tai pelkkä CS.

21:19

Toinen on sitten, että korrelaatio pienenee, mitä suuremmaksi aikaetäisyys tulee, ja tätä sanotaan autoregressioksi, eli AR.

21:28

Tai sitten viimeinen vaihtoehto on, että ei oo Niinku ei pystytä saamaan mi- mitään Niinku järkevää rakennetta siihen.

21:35

Eli sanotaan, että korrelaatiorakenne on unstructured, eli UN.

21:40

Ja tota yleensä ainakin, jos muutokset on tosi pieniä sun datassa, tai jos sulla on muutenkin otoskoko aika pieni, niin yleensä tää CS sopii semmoisiin datoihin.

21:51

Puhuja 2

Varsinkin jos se muutos on Niinku Öö hyvin hitaita.

21:57

Esimerkkinä se luun tiheys, niin tota Öö siinä sopii aina toi Öö compound symmetry.

22:04

Puhuja 1

Ja tosiaan kannattaa muistaa, että koska meitä kiinnostaa enemmän se keskiarvokäyrän estimointi kuin se itse korrelaatio, niin me pyritään mahdollisimman yksinkertaiseen korrelaatiorakenteeseen, minkä se data sallii.

22:18

Eli varsinkin tilanteissa, joissa on paljon aikapisteitä.

22:20

Tässäkin Niinku monesti muutenkin, niin yksinkertaisempi on yleensä parempi.

22:26

Puhuja 2

Miten sitten tutkitaan?

22:28

Puhuja 1

No, jos sä et oo ihan varma, että mikä korrelaatiorakenne sun pitäisi valita, niin sitä voi tietysti testata yleisillä tilasto-ohjelmilla.

22:36

Öö Tässä on yleensä kaksi vaihtoehtoa, että joko vertaamalla monimutkaisempia korrelaatiorakenteita siihen yksinkertaiseen, eli CS korrelaatioon Öö ja johtamalla siitä P arvoja, minkä perusteella sitten katsoa, mikä on merkitsevin.

22:51

Tai sit sä voit katsoa suoraan eri korrelaatiorakenteesta tämmöistä lukua kun AIC, joka kertoo sen, että mitä pienempi AIC luku milläkin korrelaatiokertoimella, niin sitä paremmin se sopii siihen sun dataan.

23:05

Puhuja 2

Joo ja me oikeasti etsitään semmoista Niinku mahdollisimman yksinkertaista rakennetta, mikä on Niinku tavallaan riittävä Niinku siihen dataan.

23:14

P arvojen tai sitten AIC Öö luvun avulla.

23:18

Mut sitten mielenkiintoista on myös se, että tää aika voidaan mallintaa oikeasti monella eri tavalla.

23:25

Ja tää on Niinku oikeasti tosi iso asia, Öö koska e- eri biostatistikot tykkää erilaisista aikamalleista ja ne voi käsitellä sen ajan ihan eri tavalla.

23:37

Si se aika voidaan mallintaa joko kategorisena tai sitten jatkuvana siinä mallissa.

23:44

Kategorina se se tarkoittaa sitä, että mä pystyn mallintaan siitä datasta, vaikka se keskiarvokäppyrä olisi minkälainen zigzag- muotoinen tahansa, niin mä saan kaiken siitä selville.

23:57

Mä saan selville sen, että onko se muutos erilaista yliajan ja sit kun mä saan sen selville, niin mä ryhdyn katsomaan, että onko se nyt noiden kahden aikapisteen välillä erilaista yliajan vai tuolla, vai tuolla lopussa vai alussa, vai missä.

24:11

Eli mä saan Niinku tämmöisillä lisäanalyyseillä selville tosi tarkkaan, että missä ja milloin Öö erilaisuutta tapahtuu.

24:19

No sitten taas joskus me laitetaankin se aika jatkuvana, jolloin me nimenomaan ajatellaan useimmiten, että se Öö aika on Niinku tämmöistä hyvin lineaarisen Öö funktion muotoista tai voi meillä joku polynomifunktiokin olla, mutta usein ajatellaan tämmöistä lineaarista jatkumoa.

24:41

Ja silloin me saadaan Öö tulokseksi tietenkin Niinku kulmakerroin.

24:45

Ja mut meidän pitää Niinku ymmärtää, että silloin se kulmakerroin on koko ajan sama yli koko tutkimuksen.

24:53

Ja usein mu- Öö niissä datoissa, mitä mulla on ollut, niin tää ei oo ollut kauhean usein, vaan enemmän tapahtuu ensin nousua ja sitten tulee tämmöinen tasainen vaihe tai laskua tai jotakin muuta.

25:05

Eli mun datoissa ei usein ole tuommoinen jatkuva aika sopinut siihen, mutta se on Niinku mahdollinen.

25:15

Ja ja sitten tota Öö joskus Öö erikoistapauksissa käytetään myös tämmöistä spline eli tämmöistä Niinku pehmennettyä Öö aikakäppyrääkö sitä sanoisi.

25:27

Öö ne niitten tulkinnat on aika haasteellisia, mut esimerkiksi mä muistan, kun mä oon nähnyt kerran julkaisun, missä on tutkittu astman referenssi Öö tota keskiarvojen käyttäytymistä eri ikäisille, niin se on selvästi ollut tämmöinen, että siihen ei kumpikaan näistä Öö aikaisemmista malleista välttämättä ole Niinku paras.

25:50

Mut sit jos me ruvetaan taas rakentamaan sitä mallia, niin miten sä siitä sanot?

25:55

Puhuja 1

Joo, tota nyt kun meillä on taustatiedot alkaa olla aika selkeitä, niin me päästään tosiaan siihen mallin muodostukseen.

26:01

Ja se näyttää tämmöisessä sekamallissa esimerkiksi seuraavalta, eli jokin vaste on yhtä suuri kuin sukupuoli plus BMI plus ryhmä plus aika esimerkiksi.

26:12

Eli nämä kiinteät tekijät oli tällaisia päävaikutuksia.

26:18

Ja lisäksi voidaan sitten mahdollisesti lisätä yhdysvaikutuksia, mitkä voisi olla sitten esimerkiksi sukupuoli kertaa aika tai BMI kertaa aika.

26:27

Öö yleensä kannattaa kumminkin lisätä vain semmoisia yhdysvaikutuksia, joissa on kaksi tekijää, eli esimerkiksi just se sukupuoli kertaa aika.

26:35

Eli tässäkin kannattaa yksinkertaisemmalla mennä mennä, että sitten jos lisää semmoisia yhdysvaikutuksia, kun sukupuoli kertaa aika kertaa BMI

26:48

Puhuja 2

kertaa ryhmä, niin ne voi olla hyvin vaikeatulkintaisia eikä yleensä meidän datat siihen oikein riitä.

26:52

Puhuja 1

Ja semmoinen kannattaa myös muistaa, että jos mallissa on näitä yhdysvaikutuksia, eli esimerkiksi se sukupuoli kertaa aika, niin silloin on pakko pitää myös ne molemmat päävaikutuksetkin, eli sekä sukupuoli, että aika

27:04

Puhuja 2

yksittäisenä.

27:05

Joo, tää on tärkeä asia, koska tää tarvitaan sen laskennan kannalta, et muuten ne tulokset estimoituu Niinku vääräksi.

27:12

Puhuja 1

Ja ja tosiaan me ollaan nyt tässä puhuttu vähän niistä tota mallin strategioista, niin jotkut teki tykkää tehdä sitten vähän Niinku sillä lailla, että ne kokeilee laittaa siihen malliin näitä yhdysvaikutuksia ja sitten jos ne ei nouse tilastollisesti merkitseväksi, niin tiputtaa niitä ja tekee uuden mallin.

27:30

Puhuja 2

Joo ja tarvii vielä sanoa yhdysvaikutuksista, että usein Öö yhdysvaikutusten Niinku se tilastollinen voima ei ole niin kova, niin sen takia usein sitten tykkää siitä, että tehdään siitä lopullisesta mallista mahdollisimman yksinkertainen.

27:48

minkä se data Niinku sallii.

27:50

Mutta totta kai me aina esimerkiksi jos meillä oli tää interventioryhmä

kerta-aika, niin totta kai me se pidetään mallissa loppuun asti, tuli meille siitä hyvät tulokset tai ei, mutta kun se on meidän tutkimuksen aihe.

28:04

Ja hirveän usein me pidetään myös esimerkiksi se sukupuoli ja ikä siellä mallissa loppuun asti, et me voidaan sanoa, että the models were gender and age adjusted Öö julkaisussa.

28:18

Puhuja 1

Mitä Eliisa, Oisiko sulla vähän semmoisena tiivistyksenä heittää tähän väliin jotain, että mitä vinkkejä toistomittauksiin?

28:26

Puhuja 2

No, Öö sanotaan, että kun niitä on analysoinut satoja kertoja, niin on tullut semmoinen näppituntuma, mistä itse tykkää.

28:35

Eli nää ei oo mitään semmoisia tieteellisiä, vaan näppituntuma vinkkejä, että mä analysoin aina niitä originaaliarvoja, mä vihaan itse niitä prosentuaalisia muutoksia, mistä moni tuntuu tykkäävän.

28:47

Ne prosentuaaliset muutokset vaan ei käyttäydy Niinku jakaumina ollenkaan kivasti, Niillä on isompi hajonta.

28:56

Öö ja sitten jos sulla on jo prosenttimuutos tai muutos ylipäätänsä, niin yhdysvaikutusten tulkintahan on ihan erilainen, mitä me ollaan nyt puhuttu, et se täytyy tajuta, että pienillä muutoksella kaikki mallin tulkinnat muuttuu.

29:11

Ja ja silloin Öö jos sä pistät muutoksen olemaan sun vaste ja sit sä pistät yhdysvaikutuksen, niin silloinhan sä puhut siitä, että muuttuuko muutos yli ajan.

29:22

Ja sit me ollaan jo jossain aika eri sfääreissä.

29:27

Öö Ja tota, mut sitten jos tykkää analysoida muutosta.

29:32

Et se muutos on sun vaste, niin tarvii muistaa, että tämmöisiksi lääkeviranomaisten puolella he vaatii, että se lähtötilanne, se baseline arvo pitää olla silloin mallissa kovariaattina, koska se baseline Öö lähtötilanteen arvot aina korreloi siihen muutoksen suuruuteen.

29:49

Se on ihan jotenkin kanssa semmoinen fakta, mikä aina toteutuu niissä datoissa.

29:55

Ja sitten se Öö itse jos analysoi sitä muutosta, niin niin tota sä pystyt kyllä tietyllä tavalla se voi olla jopa yksinkertaisempi malli, mutta mulle se on ollut haastavampi, koska silloin on vaikeampi estimoida sitä, että et mikä vaikuttaa siihen nimenomaan lähtötilanteen ja ekan aikapisteen väliseen muutokseen.

30:18

Mut nää on makuasioita.

30:19

Öö Tarvii vaan ymmärtää niitä tulkintojen ero, että tota, mut koska mä saan siinä, kun mulla on ne originaaliarvot Öö kaikissa aikapisteissä mukana, niin mä saan sitten niillä jatkoanalyyseille, eli kontrasteista me puhutaan, kun me koodataan niitä lisäanalyysejä, niin mä saan selville sen, että missä aikapisteiden välillä se muutos on tapahtunut.

30:38

Mä saan myös selville sieltä analyyseistä, joka aikapisteen välillä, onko ryhmien välillä eroa, koska se kliinikoita myös hirveän usein kiinnostaa.

30:47

Puhuja 1

Joo, kiitos.

30:49

Siinä taisi olla sitten lyhykäisyydessään tämmöisten monimutkaisempien sekamallien muodostus toistomittauksissa.

30:56

tota semmoinen huomio vielä tähän loppuun, että yleensähän näitä toistomittauksia Niinku noin Niinku muutenkin tilastollisia analyysejä tehdään jollain tilasto-ohjelmalla.

31:06

Ja tota tässä vaiheessa olisi varmaan hyvä käydä läpi, että miten ne sitten tehdään niillä ohjelmilla, mutta näin audomuodossa on vähän vaikea käydä sitä läpi, että miten mitä kannattaa tietokoneelle iskeä.

31:18

Mutta tota mainittakoon näistä ohjelmista, helppokäyttöisempiä on tämmöiset esimerkiksi kun JMP ja SPSS.

31:26

Tai sitten jos osaat koodata, niin sit sä voit käyttää esimerkiksi SASia tai Rä.

31:31

Puhuja 2

Joo, ja tarvitsee sanoa sen, että nää perustoistomittausanalyysit pystyy tekemään hyvin näillä valikkopohjaisilla JMP llä ja SPSS llä, mut heti kun ruvet- pitäisi ruveta tekemään näitä lisäanalyysejä, eli kontrasteja ja muita, niin sitten niilläkin täytyy ryhtyä koodaamaan, tai sitten niittenkin rajat alkaa tulla vastaan.

31:52

Puhuja 1

Kuten me tuolla jakson alussa jo mainittiin, niin vaikka näitä toistomittausanalyysejä käytetäänkin useimmiten juuri näihin satunnaistettuihin prospektiivisiin interventiotutkimuksiin, mitä tässä ollaan käyty läpi, niin voihan niitä käyttää paljon muuhunkin.

32:07

Eli että ei esimerkiksi mitata potilailta samaa asiaa, eli vaikkapa verenpainetta heidän aikapisteessä, vaan tutkittavana on jotain Öö muita toisistaan riippuvaisia mittauksia.

32:17

Niin olisiko sulla Elisa antaa jotain valaisevia esimerkkejä tämmöisistä erikoisemmista tilanteista?

32:22

Puhuja 2

No joo, tossa aikaisemmin jo tota puhuttiin niistä, että mitataankin Öö kummastakin silmästä jotakin, silmänpainetta tai jotakin.

32:31

Me ollaan tehty tutkimuksia, missä mitataan useammasta lihaksesta, siis saman ihmisen sisällä.

32:37

Öö luuntiheyttä Öö tyypillisesti mitataan sekä lonkasta että lannerangasta.

32:42

Öö hyvin tyypillistä on se, että me tehdään Öö jotenkin mitataan aivoja ja sitten sieltä tulee eri tulokset eri aivoalueista.

32:51

Ja ja eli hyvin tämmöisiä erilaisia asetelmia me voidaan Öö ajatella, että ne, se ei ole yli ajan, vaan se onkin jotenkin ihmisen sisällä.

33:03

Öö mutta siinä on myös tää riippuvuus.

33:06

Ja sitten kun päästään oikein vauhtiin, niin sithän meillä on myöskin tämmöisiä kahden Öö tota suht- Öö Niinku kahden asian suhteen toistoja.

33:16

Eli jos meillä on se silmätutkimus, jos mitataan vaikka silmänpainetta, mut me mitataankin sitä myös sit yli ajan, niin meillä on sekä silmien välinen mittaukset että ajan yliväliset mittaukset, niin semmoisetkin mallit onnistuu, mut ne on sit kyllä jo aika haastavia.

33:33

Puhuja 1

Nonii, siinä taisikin olla sitten kaikki tällä kertaa.

33:36

Puhuja 2

ehkä nyt alkaa riittää.

33:39

Puhuja 1

Ei kiitos sulle, Elisa, että sä tulit taas tänne juttelemaan mun kanssa.

33:43

Puhuja 2

Joo, vähän lähti mopo käsistä, mutta menköö.

33:46

Puhuja 1

Ja hei, kiitos sinulle kuuntelija, että olit linjoilla.

33:50

Toivottavasti tää jakso innosti sua oppimaan lisää paitsi toistomittausanalyyseistä, niin myös yleisemminkin biostatistiikasta.

33:57

Kuullaan taas statistiikan aalloilla.

34:10

Puhuja 2

Tämän podcastin on tuottanut Turun yliopiston lääketieteellisen tiedekunnan biostatistiikan yksikkö.

REDCap - monipuolinen työkalu sensitiivisen tutkimusdatan keräämiseen ja säilyttämiseen

Huolellisesti kerätty aineisto on laadukkaan tutkimuksen perusta ja myös nopeuttaa aineiston analyysiä. REDCap on monipuolinen työkalu tutkimusdatan keräämiseen ja säilyttämiseen. REDCap täyttää sensitiivisen datan keräämisen vaatimukset. Monipuoliset ominaisuudet mahdollistavat erityyppisten datojen ja web-kyselyiden yhdistämisen tietokannoiksi ja satunnaistamisen.

Tällä Statistiikan aallolla biostatistikko Helena Ollila ja Markus Riskumäki kertovat REDCap-järjestelmästä. Jos haluat aloittaa REDCapin käytön, tukenasi on kaikille avoin peruskurssi DigiCampuksella UTU/MOOC: Tutkimusdatan keruu REDCap -järjestelmän avulla.


1
00:00:06,230 --> 00:00:08,470
Tervetuloa jälleen statistiikan aalloille.
2
00:00:09,270 --> 00:00:17,790
Olit sitten yleisen, hammas- tai biolääketieteen opiskelija, tutkija tai ihan muuta vaan kiinnostunut biostatistiikasta, niin hienoa, että saat kuulla.
3
00:00:18,770 --> 00:00:25,450
Minä olen biostatistikko Markus Riskumäki, ja tänään mulla on haastateltavana biostatistikko Helena Ollila varhaalta
4
00:00:25,450 --> 00:00:26,120
tervetuloa.
5
00:00:26,409 --> 00:00:27,040
Kiitos, kiitos.
6
00:00:27,909 --> 00:00:37,549
tota ennen kuin me päästään tähän itse päivän aiheeseen, eli elektroniseen tiedonkeruujärjestelmään Redcap, niin kertoisitko sä vähän itsestäsi ja taustoistasi?
7
00:00:38,540 --> 00:00:53,580
Joo, no mä oon tosiaan valmistunut täällä Turussa, niin Mika ja tilastotieteen laitokselta vuonna kakstuhat kakskyt, mut sit mä pääsin kuitenkin oman töihin jo vähän aiemmin tuossa kaksituhattakahdeksantoista, jolloin mä aloitin sit tuolla lääketieteellisessä tiedekunnassa, niin semmoisessa yhdessä projektissa.
8
00:00:54,380 --> 00:01:06,849
Sit tän jälkeen mä siirryin TYKSin töihin ja sitten siitä luonnollisesti nykyään sitten varhaalle eli varsinais-Suomen hyvinvointialueelle, mut käytännössä tosiaan työskentelen sit yliopiston biostatistiikan yksikössä.
9
00:01:07,739 --> 00:01:16,059
Me ollaan edellisessä jaksoissa Öö puhuttu lähinnä tutkimusan analysoinnista, mutta sitä ei tietenkään luonnollisesti voi tehdä, ennen kuin me ollaan kerätty tutkimusaineistoa.
10
00:01:17,519 --> 00:01:26,690
Ja tota mieluusti, jotta helpotetaan kaikkien osapuolten työtä, niin se ois hyvä, et se tutkimusaineisto on kerätty mahdollisimman hyvässä muodossa ja johonkin mahdollisimman hyvään säilöön.
11
00:01:27,400 --> 00:01:30,150
Ja tästä päästäänkin hyvällä asinsilalla tähän päivän aiheeseen.
12
00:01:30,739 --> 00:01:32,430
Eli Helena, mikä on retk?
13
00:01:33,410 --> 00:01:37,650
Joo eli Redcap on tosiaan tämmöinen nettipohjainen datankeruujärjestelmä.
14
00:01:38,029 --> 00:02:02,279
Se tulee noista sanoista researc electronic data capture, ja se on tosiaan kehitetty tuolla Vanderbiltin yliopistossa USA ssa vuonna kaksituhattaneljä, mut tällä hetkellä sitä käytetään about sadas viideskymmenesyhdeksäs maassa, ja sitten katsoin netistä, että yli neljäkymmenessäyh- yhdessä tuhannessa tutkimusartikkelissa, niin on käytetty Redcappiä, eli tosi paljon sitä käytetään.
15
00:02:03,309 --> 00:02:12,520
ja suomalaiset yliopistot on liittynyt sellaiseen Redcap yhteisöön, et sitten saa sellaisen oman lisenssin ja voi asentaa sen ohjelman omalle serverilleen.
16
00:02:13,130 --> 00:02:23,429
ja akateemisilla yhteisöille eli just esimerkiksi yliopistoille, niin ei oo just mitään lisenssimaksua, mut, sit kaupallisessa yhteisössä, niin on sitten jonkinmoinen maksu.
17
00:02:24,089 --> 00:02:25,529
Joo joo, eli tota.
18
00:02:25,710 --> 00:02:35,750
Jos yliopisto ottaa tai tutkimusryhmä tai Redcapin käyttöön, niin se heidän datansa ei mene mihinkään jonnekin sinne Vanderbiltin yliopistoon, vaan pysyy siellä oman yliopiston serverillä.
19
00:02:35,789 --> 00:02:35,949
Eikö
20
00:02:35,949 --> 00:02:36,130
näin?
21
00:02:36,389 --> 00:02:37,179
Juurikin näin.
22
00:02:40,039 --> 00:02:42,119
No mitä siellä Redcapissä sitten oikein voi tehdä?
23
00:02:43,029 --> 00:02:43,199
Joo.
24
00:02:43,589 --> 00:02:58,779
No, ensinnäkin sen avulla voidaan sitten kerätä sitä kuuluisaa dataa ja sitä dataa voidaan kerätä muutamalla eri tekniikalla eli voidaan kerätä sitä dataa lomakkeella potilastutkimukselle eli potilas tulee vaikka lääkärikäynnille ja sit siellä kysytään joitain kysymyksiä.
25
00:02:59,380 --> 00:03:18,800
Ja sitten tutkimushoitaja täyttää ne tiedot sinne redcappiin sitten sen vastaanoton jälkeen tai sit voidaan luoda vaikka kyselytutkimuksia, eli tehdä tällaisia web-lomakkeita, jotka lähetetään sitten tutkittaville ja tutkittavat voi sitten itse täyttää ne kysymykset Öö kirjautumatta redcappiin webissä.
26
00:03:20,250 --> 00:03:40,139
Tai sit voidaan luoda projekti, joka koostuu sit näistä molemmista tekniikoista, eli on vaikka leikkaus ja sit siitä leikkauksesta kerätään jotain tietoja ja tallennetaan sinne redcapin ja sit laitetaan automaattisesti lähettämään kyselyitä sille tutkittavalle, et miten vaikka siitä leikkauksesta toipuminen on lähtenyt liikkeelle.
27
00:03:40,350 --> 00:03:40,610
mm.
28
00:03:41,350 --> 00:03:47,119
Sit näitten datankeruumenetelmien lisäksi voidaan ihan importoida vanhaa dataa ja säilyttää sitä siellä redissä Joo joo,
29
00:03:48,389 --> 00:03:49,080
eli pitäisi vähän Niinku tietokana tutkimukselle kyllä juurikin näin
30
00:03:53,869 --> 00:04:03,389
Ja sit siellä on tosi paljon myös valmiita pohjia ja kyselyitä, mitä voi käyttää, et välttämättä kaikkea ei tarvita, kaikkea ei tarvitse ihan itse rakentaa alusta saakka.
31
00:04:04,020 --> 00:04:04,029
Joo.
32
00:04:04,570 --> 00:04:18,769
Joo ja niitten valmiiden pohjien lisäksi, niin tietenkin jos sun kollega on tehnyt vaikka jonkun projektin tai kyselyn, mitä itse haluaisi myös käyttää, niin kollega voi lähettää sitten sen kyselyn ja sen pystyy myös itse tota importoimaan sinne Redcappiin.
33
00:04:19,839 --> 00:04:31,709
Joo, eli pienenä tiivistelmänä, eli Siis Redcapin avulla voidaan luoda sun tutkimukselle erittäin monipuolinen ja ehdottomasti tietoturvallinen sekä hyvin dokumentoitu ja selkeä tietokanta.
34
00:04:32,519 --> 00:04:37,750
Ja sitten sieltä sitä sun dataa pystytään käyttämään eteenpäin hyvin monipuolisesti.
35
00:04:40,489 --> 00:05:01,690
No nyt kun tiedetään vähän, mikä Red Cat on, niin voitaisiin käydä läpi asioita, että mitkä asiat tekee sen käytöstä huomattavasti paremman valinnan, kun esimerkiksi lääketieteellisessä tutkimuksessa tämmöisen aika perinteisin tavoin, että tallennetaan sitä potilasdataa vaan erinäisiin Exceleihin ja sitten ne pitää etsiä kaikista eri paikoista.
36
00:05:01,769 --> 00:05:05,709
Eli minkä takia kysymys on, että miksi Redcapin käyttö kannattaa?
37
00:05:06,619 --> 00:05:06,730
Joo.
38
00:05:06,820 --> 00:05:17,700
No, se tärkein mun mielestä on se datan tietoturvallinen säilytys eli koska se ohjelma on asennettu yliopiston omalle palvelimelle, niin se data säilyy siellä Turun yliopiston omalla serverillä.
39
00:05:18,429 --> 00:05:31,950
ja sit sille dataan pystytään antaa oikeudet niin tietyille ihmisille ja sitten vaan nää tietyt ihmiset pääsee käsiksi siihen projektiin ja dataan eli Redcap toteuttaa aika kattavasti kaikki nää datasäilytyksen säännöt.
40
00:05:32,809 --> 00:05:49,980
Et just kun puhutaan esim lääketieteen herkästä aineistosta, mikä nyt sisältää hyvin henkilökohtaisia tietoja, niin sitähän ei voi tietty säilyttää missään ulkopuolisissa pilvipalveluissa, koska tällöin se data voi fyysisesti sijoita vaikka Suomen tai ETA alueen ulkopuolella ja näin voi vahingossa rikkoa jopa lakia, mikä ei tietenkään ole hyvä asia.
41
00:05:51,329 --> 00:06:12,500
Mutta tässä täytyy tietenkin huomioida, että jokaiselle järjestöllä yliopistolla on sit se oma redcap palvelimensa, et tän takia esim Helsingin yliopiston tutkija ei pääse Turun yliopiston redcapin ilman näitä Turun yliopiston vierailijatunnuksia, et jos tutkimuksessa on monta keskusta, niin sit pitää päättää, et kenen keskuksen redcappiin se data sit tallennetaan.
42
00:06:13,890 --> 00:06:23,149
Toinen asia, mistä vähän jo sivuttiin tossa aiemminkin, oli se Niinku, että data olisi mahdollisimman laadukasta heti alkuun, niin tulee mieleen datan validointi.
43
00:06:24,010 --> 00:06:40,850
Eli Redcapissa näille vastauksille voidaan asettaa tyypit, eli että onko se esimerkiksi numeerista dataa, vai onko se tekstiä, päivämääriä, sähköpostiosoitteita, ja sitten esimerkiksi labra-arvoille voidaan asettaa tämmöisiä raja-arvoja, että mikä on mahdollinen minimi- ja maksimiarvo.
44
00:06:41,440 --> 00:06:59,040
Ja tämä siis tarkoittaa sitä, että jos kysytään esimerkiksi, että minkä ikäinen olet ja siihen kenttään yrittää kirjoittaa tuhat tai vaikka vaan tekstillä moi, niin se ohjelma valittaa, että tämä vastaus ei ole kokonaisluku ja se ei ole vaikka välillä kolmekymmentä viiva kuusikymmentä.
45
00:06:59,119 --> 00:07:03,410
Eli tällä lailla sitten Niinku estetään huonon datan syöttäminen heti alkuunsa.
46
00:07:03,880 --> 00:07:04,279
Kyllä.
47
00:07:04,929 --> 00:07:10,880
Sit lisäksi sinne voidaan Öö antaa valmiita vaihtoehtoja ja että kuinka moneen vaihtoehtoon, edes ylipäätään pystyy vastaamaan.
48
00:07:11,559 --> 00:07:16,369
Öö Tän lisäksi voidaan kysyä allekirjoituista tai että vastaaja lataa jonkin liitteen.
49
00:07:18,119 --> 00:07:28,160
Öö Eli Siis Öö siellä on tosi monipuolinen kysymystyyppi patteri, ja siihen kannattaa huolella tutustua siinä vaiheessa, kun rakennat omalle tutkimuksellesi tota retkepohjaa.
50
00:07:29,179 --> 00:07:53,089
Joo, ja tosiaan Niinku vielä alleviivauksena, että tää, kuinka tärkeätä tää datan validointi ja alusta asti hyvä tallentaminen on, että jos sä meet sillä perinteisellä tavalla, että tallennat dataa vaan näpyttelemällä itse Exceliin, niin sulla saattaa tulla helposti virheitä, esimerkiksi tekstien numeroiden sek- sekaan tai tuplaklikkailuja esimerkiksi, että sun olisi pitänyt laittaa arvo yksi, mutta laitatkin yksi
51
00:07:53,089 --> 00:07:53,390
yksi.
52
00:07:53,920 --> 00:07:56,609
Joo, ja näitä tulee väkisinkin, vaikka niitä yrittäisi välttää.
53
00:07:57,450 --> 00:08:02,250
Sen takia kannattaa jotenkin automatisoida se datan tarkistus heti alkuunsa.
54
00:08:02,480 --> 00:08:02,869
Kyllä.
55
00:08:03,350 --> 00:08:12,429
Joo ja toinen tähän datan validointiin liittyen on tällainen branding logic tekniikka, eli tietyt kysymykset tulee esille vain, jos vastaa vain tietyllä tavalla.
56
00:08:12,670 --> 00:08:23,359
Et jos halutaan kysyä vaikka jotain tarkentavia kysymyksiä tupakoivilta ihmisiltä, niin vaan he sit vastaa niihin tarkentaviin kysymyksiin, et ei sit tuu turhia vastauksia näiltä muilta vastaajilta.
57
00:08:23,670 --> 00:08:45,799
Ja sit se, mikä tälleen statistikkona on ihanaa, niin sieltä tulee automaattisesti tilasto-ohjelmaan sopivaa dataa, sopivat muuttujan nimet ja sit automaattisesti myös koodikirja niistä muuttujista, et just mikä kysymys ja mikä sen kysymyksen muuttujan nimi on ja sitten et mikä sen muuttujan formaatit on, eli just yksi arvo kuvastaa miestä ja kakkonen kuvastaa naista esimerkiksi.
58
00:08:46,890 --> 00:09:01,309
Ja sit sen datan saa ulos moneen eri tilasto-ohjelmaan hyvin helposti, siellä on esimerkiksi SPSS, SAS, sit on staatta, R, eli sieltä tulee automaattisesti koodit, miten sieltä saa importattua sen oman datansa helposti.
59
00:09:01,809 --> 00:09:25,799
Ja sit se mikä on kans tosi kiva on se et sen aineiston voi tietty ottaa ulos ihan monia kertoja, et sitten kun itse on analyysissä vaikka tehnyt jonkun pienen koodausvirheen ja pilannut itseltään sen analyysiaineiston niin sit aina voi palata sinne redcappiin ja ottaa sen alkuperäisen aineiston sieltä ulos tai sitten voi ihan vaan palata sinne aineistoon ja tarkistaa niitä et onko sit itse tehnyt just sit analyysivaiheessa jotain virheitä.
60
00:09:27,210 --> 00:09:49,309
Ja tohon koodikirjaan liittyy vielä just tää automaattinen datan dokumentointi, eli se nyt on tietty tosi tärkeetä, se on tietty se, mistä yleensä aina itse lähtee joustamaan, kun ei oo aikaa aikaa välttämättä siinä datan keruuvaiheessa, mutta siitä nyt tietty ei saisi joustaa, et sitten kun ne päätutkijat on jäänyt eläkkeelle, niin sitä dataa pystytään silti käyttämään, kun se on dokumentoitu hyvin.
61
00:09:50,090 --> 00:10:18,530
Joo, eli lopputuloksena voisi sanoa tästä Niinku datan validoinnista Redcapissa on se, että Öö Redcapissa vuo- saadaan helposti tuotettua siistiä ja luotettavaa dataa, josta päästään sitten tekemään suoraan tilastollisia analyysejä, eikä siihen datan siivoamiseen mene niin paljon aikaa, sillä Öö kokemuksesta voi sanoa, että välillä sitä saatua tutkimusryhmältä saatua dataa joutuu siivoamaan päiviä, jotta sen saa ladattua sisälle tilasto-ohjelmaan.
62
00:10:21,229 --> 00:10:22,219
No mitäs muuta sitten vielä?
63
00:10:23,530 --> 00:10:23,690
Joo.
64
00:10:23,849 --> 00:10:39,539
No, sit niitä niistä kyselylomakkeista, eli niitä web-lomakkeita, niin niitten ulkoasua voi muokata melkein rajatta, et sinne saa laitettua vaikka sitä oman tutkimuksen logoa, liitettä, videoita, jopa pieniä Niinku audiopätkiä.
65
00:10:40,380 --> 00:10:40,849
Ja.
66
00:10:41,179 --> 00:10:57,059
Se, mikä on tosi kätevää on myös niin niitä kyselyitä pystytään just asettaa lähettää automaattisesti, et kenenkään ei tarvitse mennä sinne Öö redcapin Öö klikkaamaan sitä lähetä nappulaa ja täähän automaattiseen lähetykseen liittyy myös automaattinen muistutus.
67
00:10:57,205 --> 00:11:13,854
Eli Redcap katsoo, että kuka on vastannut jo siihen lomakkeeseen ja kuka ei ja sit niille jotka ei ole vielä vastannut niin lähtee automaattisesti muistutus sen nyt saa itse päättää, että kuinka tehästi niitä muistutuksia haluaa lähettää niin tällä saadaan maksimoitua sitä datan määrää.
68
00:11:14,650 --> 00:11:26,690
Sit niissä kyselyissä myös pystytään linkkaan niitä kyselyitä toisiinsa, eli jos sama vastaaja vastaa vaikka viiteen eri kyselyyn, niin sit saadaan yhdistettyä nää henkilön vastaukset, mikä tietty analyysivaiheessa on sit tosi tärkeätä.
69
00:11:28,669 --> 00:11:49,059
Öö Sit toinen tämmöinen Redcapin hyvä ominaisuus on audit trail, joka on tämmöinen logi, se tallentaa oikeastaan kaikki toimenpiteet, mitä siellä Redcap projektissa tapahtuu, eli kun sitä Redcap projektia rakennetaan, niin kaikki siihen liittyvät toimenpiteet plus sitten myös kaikki sille datalle tehdyt toimenpiteet.
70
00:11:49,549 --> 00:12:04,640
Et jos on nyt siellä datassa tullut joku pieni virhe, niin sitten pystytään siitä audit trailistä katsomaan, että milloin se virhe on tapahtunut, että kuinka paljon taakse pitäisi sitten mennä ja sitten tietty aina kun pitää löytää se syyllinen niin sekin sitten löytyy sitten sieltä audit trailistä.
71
00:12:06,049 --> 00:12:33,609
Ja tässä nyt ei ehkä pointtina kumpikaan ole se, että tota päästään nyt sitten häpäisemään se, joka on tehnyt sen virheen sinne, vaan että tota tää helpottaa tätä Niinku korjausprosessia hirveästi, että jos on esimerkiksi monen eri yliopiston, esimerkiksi Oulun, vaikka Oulun yliopisto on mukana tässä sun tutkimuksessa ja joku siellä on tehnyt jonkun
virheen, niin se on paljon helpompaa, et sä näet, että OK, tää on ollut tää oululainen tyyppi, laitanpa hänelle nyt viestiä, että mitä sä oot tehnyt, että saadaan korjattua.
72
00:12:35,330 --> 00:12:35,340
Joo.
73
00:12:36,260 --> 00:13:06,739
Ja tosta tuli muuten mieleen vielä, että jos nyt on sattunut, ollaan satuttu tekemään jotain tosi peruuttamatonta, niin sekään ei oo vielä Niinku maailmanloppu, koska no paitsi, että kannattaa Niinku se, joka rakentaa tätä datapohjaa, hänellä kannattaa olla tietenkin itsellään Öö varmuuskopioita siitä projektista, mutta myös sen sun Redcapin serverin ylläpitäjä kyllä pitää varastossa sun projektista myös varmuuskopioita, että niitä voi tarvittaessa pyytää, mutta tietysti kannattaa aina pysyä
74
00:13:06,739 --> 00:13:07,130
tarkkana.
75
00:13:07,619 --> 00:13:12,500
Kyllä, juu, eli se admin pystyy aina palaamaan sitten tiettyyn vanhaan projektiin kiinni.
76
00:13:14,059 --> 00:13:19,890
Joo, yksi asia, mikä Redcapin käytöstä tekee hienoa, on se, että siellä voidaan tehdä tota satunnaistaminen.
77
00:13:20,619 --> 00:13:48,650
Eli tota no edelleen sä tarvitset sun tutkimukseen jonkun statistikon, joka Siis tota luo sen semmoisen Öö randomointi Excel-taulukon, joka sitten Niinku Öö luultavasti itse se statistikko sinne sun pohjaan pistää sisälle, mutta tämän jälkeen tutkijoiden homma helpottuu hirveästi, koska tän jälkeen sinne tietokantaan tulee vaan semmoinen nappula, jota klikkaamalla se sun potilas randomisoituu johonkin ryhmään, mitä sä oot sinne asettanut.
78
00:13:49,219 --> 00:13:54,679
Että tän jälkeen esimerkiksi automaattisesti lähettää eri lomakkeita näihin sun kahteen eri ryhmään.
79
00:13:55,440 --> 00:13:55,450
Joo.
80
00:13:56,400 --> 00:14:03,869
Joo, Sit seuraava asia, mikä tekee Redcapin käytöstä tosi näppärää, on tota monipuolinen käyttäjien hallinta.
81
00:14:04,400 --> 00:14:08,770
Eli että eri käyttäjille voidaan asettaa siellä sun datapohjassa eri oikeudet.
82
00:14:09,400 --> 00:14:15,880
Eli kaikki ei esimerkiksi nää sitä sun Öö potilaiden herkkiä tietoja, kuten nimiä tai osoitteita.
83
00:14:16,650 --> 00:14:23,809
Ja Niinku ollaan jo mainittu monta kertaa tässä aiemmin siitä, että tutkimuksessa saattaa olla mukana vaikka monia eri keskuksia.
84
00:14:24,210 --> 00:14:38,090
Esimerkiksi dataa kerätään sekä TYKSissä että HUSissa, niin sinne datapohjaan saadaan laitettua, että esimerkiksi, että jos halutaan, että TYKSiläiset näkee vain oman aineistonsa ja HUSilaiset vain omansa, niin se on helppoa toteuttaa siellä.
85
00:14:39,119 --> 00:14:47,479
Ja sitten tietysti semmoinen yleisempi, että sinne voidaan laittaa ihan mitä sääntöjä sä haluat, että kaikki ei pääse tekemään kaikkea.
86
00:14:47,960 --> 00:14:54,609
Kyllä, juurikin näin, et esim yleensä asetetaan vaan muutamalle henkilölle oikeudet sitten muokata sitä dataa itsessään.
87
00:14:55,280 --> 00:15:00,789
Kuitenkin yleensä, että mitä useampi pääsee siihen dataan käsiksi, niin sitä enemmän sinne tulee niitä virheitä valitettavasti.
88
00:15:01,059 --> 00:15:07,919
Jep, Eli taas painotetaan sitä, että halutaan alusta asti säilyttää se data mahdollisimman Niinku hyvässä muodossa.
89
00:15:08,320 --> 00:15:08,450
Juu.
90
00:15:11,039 --> 00:15:17,070
Nonii, siinä oli paljon asiaa ja toivottavasti kuuntelijat alkaa pikkuhiljaa ymmärtämään Redcapin käytön etuja.
91
00:15:18,070 --> 00:15:26,390
Seuraavaksi pitäisi tietysti opetella sit tekemään niitä kyselylomakkeita ja projekteja sinne Redcappiin, joka on onneksi tosi helppoa näillä meidän opetusmateriaaleilla.
92
00:15:26,630 --> 00:15:27,869
Puhutaan siitä kohta lisää.
93
00:15:28,150 --> 00:15:38,650
Mutta ensin voitaisiin kumminkin tähän väliin käydä vielä vähän käytännön asioita, mitä Redcapin käyttäjän kannattaa muistaa, sitten, kun se sun oman tutkimuksen Redcap projekti on jo valmis.
94
00:15:39,479 --> 00:16:06,109
Joo, no tärkein on varmaan se oman tietokannan testaaminen, et vaikka se ohjelma on hyvä, niin jos sinne itse rakentaa jotain virheitä, niin tietty sitten se tietokanta ei toimi kauhean hyvin eli kannattaa tarkistaa, että ne laitetut validoinnit toimii, halutut kysymykset tulee esiin ja sit tosi tärkeää on se, et jos käyttää niitä webkyselyitä, niin ne lähtee oikeaan aikaan oikeassa järjestyksessä ja niille oikeille tutkittaville.
95
00:16:06,950 --> 00:16:20,590
Sit tosi tärkeätä on kans eksportata se testidata ja katsoa, et se data näyttää oikealta ja et sillä pystyy varmasti sit vastaamaan siihen haluttuun tutkimuskysymykseen, et tulee kerättyä sitten analyysien kannalta oikeat tiedot.
96
00:16:21,789 --> 00:16:34,510
Ja sit vielä kun kirjoittaa vaikka tutkimusartikkelia, niin kun käyttää sitä redcappiä, niin viittaa omassa artikkelissa siihen redcappiin, et kunnioitetaan niitä redcapin rakentajia.
97
00:16:35,169 --> 00:16:38,979
ja ne oikeat viittausohjeet löytyy ihan sieltä Redcapin nettisivuilta.
98
00:16:41,669 --> 00:16:47,000
Tää jakso toimii enemmänkin ehkä tällaisena motivaationa ja tietoisuuden lisäämisenä Redcapistä.
99
00:16:47,909 --> 00:16:55,479
Mutta jos joku nyt innostui tästä hienosta järjestelmästä, niin kuinka tätä järjestelmää voi oppia itse helposti käyttämään?
100
00:16:56,960 --> 00:17:12,560
Öö Joo, eli Turun yliopistolla on digikampuksessa kurssi Redcapin käytöstä ja tää materiaali on vapaasti kaikkien käytettävissä, että vaikka nyt ei opiskelisikaan tai olisi töissä Turun yliopistolla, niin silti pääsee katsomaan sitä materiaalia, et siihen kannattaa tutustua.
101
00:17:13,250 --> 00:17:17,358
Lisäksi meillä on myös Öö live kurssi Redcapin käytöstä.
102
00:17:18,380 --> 00:17:23,140
Sitten lisäksi niitä neuvoja saa laittamalla ihan sähköpostia, niin redcap ät utu piste fi.
103
00:17:23,900 --> 00:17:26,098
Nonii, sitten ei muuta kuin oppimaan.
104
00:17:27,098 --> 00:17:33,300
tota me lisätään taas tän jakson kuvauksen linkki tonne digikampuksen kurssille, että kaikki innokkaat löytää sitten sen helposti.
105
00:17:34,060 --> 00:17:38,959
Ja tota tolla kurssilla saattaa päästä nauttimaan sunkin nauhoittamista opetusvideoista, eikö vain?
106
00:17:39,459 --> 00:17:42,619
Kyllä, jos haluaa kuunnella lisää, niin siellä pääsee kuuntelemaan.
107
00:17:42,979 --> 00:17:43,260
Nonii.
108
00:17:44,209 --> 00:17:47,329
Hei, kiitos sulle Helena, että tulit tänne haastateltavaksi.
109
00:17:47,920 --> 00:17:48,369
Kiitos, kiitos.
110
00:17:49,050 --> 00:17:51,569
Ja kiitos sulle, kuuntelija, että sä olit linjoilla.
111
00:17:52,170 --> 00:18:01,079
Toivottavasti tämä jakso innosti sinua oppimaan lisää paitsi Redcapin käytöstä, niin myös yleisemmin datan laadun ja tietoturvallisen säilytyksen tärkeydestä.
112
00:18:01,689 --> 00:18:03,709
Tai sitten ihan muuten vaan biostatistiikasta.
113
00:18:04,170 --> 00:18:06,469
Kuullaan taas statistiikan alalla.
114
00:18:16,250 --> 00:18:22,219
Tämän podcastin on tuottanut Turun yliopiston lääketieteellisen tiedekunnan biostatistiikan yksikkö.

Otoskoon arviointi ja voima-analyysi

Biostatistikko Tero Vahlberg kertoo Statistiikan aalloilla otoskoon määrittelystä ja tutkimuksen voima-analyysistä. Otoskoon arviointi ja tutkimuksen voima-analyysi ovat keskeinen osa tutkimuksen suunnittelua. Otoskoon on oltava riittävän suuri, jotta pystytään luotettavasti vastaamaan kiinnostuksen kohteena oleviin tutkimuskysymyksiin. Voima-analyysin avulla voidaan laskea tutkimukseen sopiva otoskoko.


1
00:00:06,179 --> 00:00:08,659
Tervetuloa jälleen statistiikan aalloille.
2
00:00:09,300 --> 00:00:18,709
Olit sitten lääketieteen, bio- tai hammaslääketieteen opiskelija, tutkija tai ihan muuten vaan
kiinnostunut biostatistiikasta, niin hienoa, että sä oot kuulolla.
3
00:00:19,809 --> 00:00:28,040
Minä olen Markus Riskumäki, ja tänään mulla on haastateltavana biostatistikka Tero
Wahlberg Turun yliopiston biostatistiikan yksiköstä.
4
00:00:28,280 --> 00:00:28,920
Tervetuloa.
5
00:00:28,959 --> 00:00:29,409
Kiitos.
6
00:00:30,780 --> 00:00:38,220
tota ennen kuin me päästään itse päivän aiheeseen, eli otoskokoon, niin haluaisitko sä Tero
vähän kertoa itsestäsi ja sun taustoista?
7
00:00:39,529 --> 00:00:45,060
Joo, eli olen ollut reilu kakskytä vuotta yliopistolla biostatistikkona.
8
00:00:46,009 --> 00:01:13,209
työkuvaan kuuluu opetushommat Öö perusopiskelijoille, jatko-opiskelijoille, lääketieteen ja
hoitotieteen puolella, ja suurin osa työajasta kuitenkin kuuluu tutkijoiden kanssa tota
painiessa erilaisten tilastoprobleemien kanssa, eli konsultoin erilaisissa Öö lääketieteellisissä
tutkimuksissa, ihan sieltä tutkimuksen alkuvaiheesta sitten julkaisun kirjoittamiseen asti.
9
00:01:14,690 --> 00:01:23,160
Ja siellä on julkaisuissa on sitten usein yksi osakirjoittaja, ja niitä on sellainen neljä ja puoli
sataa kertynyt tähän mennessä.
10
00:01:24,389 --> 00:01:28,980
Et sikäli on myös nämä otoskoko asiat suhteellisen tuttuja.
11
00:01:30,650 --> 00:01:34,889
Tänään meillä on tosiaan aiheena otoskoon laskeminen tieteellisessä tutkimuksessa.
12
00:01:35,980 --> 00:01:49,500
Mutta ennen kun me aletaan käymään läpi teoriaa tän laskemisen taustalla, niin me voitaisiin
varmaan vähän kerrata, että mitäs se otos nyt oikein tarkoittikaan ja miksi sen koolla on
merkitystä tilastollisissa analyyseissä.
13
00:01:50,360 --> 00:02:02,910
Joo, tosiaan, kun lähdetään suunnittelemaan tutkimusta, niin meidän pitää määrittää, että
mikä on se perusjoukko, eli se populaatio, mitä me lähdetään tutkimaan.
14
00:02:04,430 --> 00:02:12,029
Ja perusjoukko voi olla vaikka kaikki jotakin tiettyä tautia sairastavat potilaat Suomessa.
15
00:02:12,880 --> 00:02:25,360
Ja sit meidän pitää määrittää, että minkälainen otos me kerätään siitä populaatiosta, jotta me
saadaan luotettavasti vastattua meidän tutkimuskysymyksiin.
16
00:02:26,369 --> 00:02:52,490
Ja tää otos voidaan kerätä esimerkiksi erilaisilla satunnaismenetelmillä, tai sit se voi olla niin,
että me kerätään vaikka tietystä yliopistosairaalasta siellä hoidettavia potilaita ja ajatellaan,
että ne ne edustaa hyvin tätä kaikkia Suomessa tätä tautia sairastavia, ja silloin me
saataisiin kerättyä se data sieltä yhdestä Öö yliopistosairaalasta.
17
00:02:53,800 --> 00:03:06,029
Ja silloin kun me mietitään, että et kuinka paljon niitä tutkittavia pitäisi pitäisi sitten kerätä,
niin silloin astuu kuvioon tää otoskoko laskelma.
18
00:03:06,550 --> 00:03:12,619
Silloin meidän pitää arvioida ennen kun me aletaan sitä dataa keräämään, eli tutkimuksen
suunnitteluvaiheessa.
19
00:03:13,589 --> 00:03:19,179
et mikä on se sopiva otoskokoisen tutkimuksen toteuttamiseen.
20
00:03:19,889 --> 00:03:26,860
jotta me saadaan Niinku riittävän suurella todennäköisyydellä tehtyä ne meidän meidän
johtopäätökset.
21
00:03:28,119 --> 00:03:41,520
Eli tavoite on kerätä, ei liian suuri, ei liian pieni, vaan sopiva otoskoko, jotta pystytään Niinku
optimaalisella tavalla se tutkimus tekemään, optimaalisella tavalla vastaamaan niihin meidän
tutkimuskysymyksiin.
22
00:03:42,119 --> 00:03:55,869
Ja usein sitten se laskelma tehdään sen tärkeimmän vastemuuttajan eli- outcomin mukaan,
ja sitten muut vastemuuttajat on tämmöisiä sekondaari outcomeja.
23
00:03:56,270 --> 00:03:59,789
Mut yleensä se voimalaskelma on se päävastemuuttajan mukaan.
24
00:04:01,050 --> 00:04:17,630
Joskus voi olla vaikka, et ei o- ei pystytä päättämään, mikä se päävastemuuttuja on, saattaa
olla kolme päävastemuuttujaa, jolloin laskelmat tehdään kaikkien kolmen mukaan, ja näistä
sit valitaan se suurin otosk vaatimus siihen, mitä lähdetään sitten tavoittelemaan.
25
00:04:21,108 --> 00:04:26,010
No mites tota, pitääkö nää otoskokolaskelmat sisällyttää tutkimussuunnitelmassa?
26
00:04:27,119 --> 00:04:28,980
Öö ehdottomasti.
27
00:04:29,429 --> 00:04:34,790
Eli jokaisessa hyvin tehdyssä tutkimussuunnitelmassa pitäisi esittää otoskokolaskelmat.
28
00:04:35,660 --> 00:04:43,940
Öö ne kertoo siitä, että et tutkijalla tai tutkimusryhmällä on selkeä käsitys, että mitä tutkitaan,
mikä on tutkimushypoteesi.
29
00:04:44,750 --> 00:04:46,369
mitä ollaan tutkimassa.
30
00:04:46,910 --> 00:05:13,329
Ja tämä on edellytys myös kaikissa lääketieteen julkaisuissa, että on tehty
tutkimussuunnitelma ja joskus suuremmissa tutkimuksissa tehdään myös tämmöinen
tutkimusprotokolla, mikä julkais- julkaistaan sitten e- erillisenä tutkimusprotokollana, ja
erityisesti niissä on on hyvinkin tarkat vaatimukset myös näitten otoskokolaskelmien.
31
00:05:14,309 --> 00:05:15,019
suhteen.
32
00:05:16,140 --> 00:05:45,170
Mut e- e- ehdottomasti, eli siinä käy usein niin, et et jos tehdään tutkimus, kerätään aines,
tehdään analyysit, eikä ole tehty otoskoko laskelma, että mennään sen mukaan, että otetaan
samansuuruinen otoskoko kun ai- aiemminkin on ollut, niin hyvin usein sitten lehden
arvioitsijat antaa kysymyksen, että onko tehty tutkimussuunnitelma, onko korjaan, onko tehty
otoskoko laskelma.
33
00:05:45,839 --> 00:06:09,390
ja jos ei oo tehty, niin se voi olla haastavaa saada sitä jul- julkaisua, julkaisua läpi, koska
silloin siitä tulee esille, että että se on hyvinkin tämmöinen eksploratiivinen, ehkä luo-
luonteeltaan, että jos ei ole etukäteen mietitty sitä, että kuinka paljon pitäisi kerätä niitä
tutkittavia, jotta saadaan siihen tutkimushypoteesiin se vastaus.
34
00:06:11,250 --> 00:06:20,290
No mitäs mitä haittoja on sitten väärän kokoisella otoskoolla, Eli jos siinä tutkimuksessa ne
potilasmäärät on joko liian pieniä tai liian suuria.
35
00:06:22,049 --> 00:06:23,209
Joo, hyvä kysymys.
36
00:06:23,929 --> 00:06:38,649
Eli tosiaan jos kerätään liian suuri potilasmäärä, niin silloin hukataan paljon resursseja,
kuuluu euroja, taloudellisia resursseja, kuluu turhaa aikaa siihen.
37
00:06:39,130 --> 00:06:51,519
Eli jos me saataisiin pienemmällä tutkittavien määrällä luotettava vastaus
tutkimuskysymykseen, niin niin ei ei ei ole Niinku järkevää kerätä sitten enempää niitä
potilaita.
38
00:06:52,119 --> 00:07:03,269
Ja toki se voi olla myös sitten hyvin epäeettistä, jos tutkitaan jotakin uutta hoitomuotoa tai tai
tai lää- lääkettä, missä saattaa olla sitten jotakin haittavaikutuksia.
39
00:07:04,359 --> 00:07:14,880
niin silloin pyritään se tutkimus tekemään mahdollisimman pienellä potilasmäärällä, ei liian
suurella, ei liian pienellä, vaan sopivalla.
40
00:07:16,179 --> 00:07:36,109
Ja tilastollisesti, että jos ajatellaan, että jos kerätään hyvin suuri aineisto, niin mitä
tilastollisesti tapahtuu, että jos tutkitaan vaikka kolesterolilääkettä ja tutkitaan
kokonaiskolesterol keskiarvoeroja Öö lääkeryhmän ja ja placeboryhmän välillä.
41
00:07:36,820 --> 00:07:52,640
niin mitä tapahtuu, tilastollisesti, kun on suuri aineisto, niin siellä on hyvin pienet ne
keskivirheet niissä estimaateissa, elikkä esimerkiksi kolesterolin keskiarvoissa ja ryhmien
välisissä keskiarvoeroissa ja luottamusvälit menee pieniksi.
42
00:07:53,040 --> 00:08:04,309
Eli siinä on hyvin suuri se tilastollinen voima, jolloin käy sillä tavalla, että Öö kliinisesti
hyvinkin pieni ero saattaa tulla tilastollisesti merkitseväksi.
43
00:08:04,899 --> 00:08:16,670
Ja toisaalta, jos lähdetään sitten keräämään liian pientä aineistoa, niin sekin saattaa olla
hyvin epäeettistä.
44
00:08:16,910 --> 00:08:27,429
Eli jos on joku lääke lääketutkimus, hoitotutkimus, niin saatetaan turhaan altistaa ne potilaat
sitten mahdollisille ha- haittavaikutuksille.
45
00:08:28,589 --> 00:08:49,979
Ja jos ennen tutkimusta jo tiedetään, että nyt on liian pieni otoskoko, että todennäköisesti ei
saada riittävän suurella varmuudella vastauksia niihin tutkimuskysymyksiin, niin sitten
kannattaa Niinku kysyä, että onko järkevää ylipäätään toteuttaa tutkimustaan siinä
muodossa vai pitäisikö tehdä jotakin muutoksia.
46
00:08:51,000 --> 00:09:01,219
tutkimuskysymyksiin tai yrittää yhteistyötä muiden tota keskusten kanssa, jotta saisi
suuremman aineiston kerättyä.
47
00:09:02,030 --> 00:09:24,510
Ja mitä siellä sitten tilastollisesti tapahtuu, kun on liian pieni se aineisto, niin silloin meillä
tulee niissä, jos verrataan vaikka niitä kahden ryhmän kolesterolin keskiarvoeroja, niin silloin
tulee hyvinkin laajat ne luottamusvälit siihen tilastolliseen testaukseen, eli toisin sanoen
hyvin haastava saada tilastollisesti merkitseviä tuloksia.
48
00:09:25,219 --> 00:09:37,049
Eli keskiarvojen perusteella saattaa näyttää, että ero on kliinisesti merkittävä, mutta
kuitenkaan liian pienen aineiston takia ei saada sitä sitten sieltä tilastollisesti merkitseväksi
osoitettua.
49
00:09:40,539 --> 00:09:45,729
Käydään tänään vähän läpi teoriaa, mitä on hyvä ymmärtää otoskokulaskuja tehtäessä.
50
00:09:46,469 --> 00:10:03,669
Mutta ennen sitä olisi varmaan hyvä mainita, että jos joku kuuntelija on nyt vaikka
aloittelemassa omaa tutkimustaan, niin mitähän sitten käytännössä tekee näitä
otoskokolaskelmia sinne tutkimussuunnitelmaansa, että otetaanko kynä ja paperia esiin ja
lähdetään laskemaan, vai kuinka näitä Niinku tehdään?
51
00:10:04,650 --> 00:10:13,409
Joo, tosiaan voi kynän ja paperinkin kaivaa esiin ja niiden avulla tehdä laskelmia, mutta en
en lähtisi sitä suosittelemaan.
52
00:10:14,539 --> 00:10:29,219
Eli kannattaa käyttää Öö valmiita tilasto-ohjelmistoja ja ja nettilaskureita, että niissä on on
tarjolla erilaisiin tilanteisiin sitten näitä otoskokolaskureita.
53
00:10:29,940 --> 00:10:40,619
Eli se, että mitä otoskokolaskuria käytetään, riippuu sitten siitä tutkimuskysymyksestä ja
minkä tyyppisiä muuttuja siinä siinä tutkitaan.
54
00:10:41,489 --> 00:10:51,929
Mutta tosiaan monia yleisesti käytettyjä tilasto-ohjelmia on, mistä löytyy nämä tota työkalut
otoskokolaskelmien tekemiseen.
55
00:10:52,849 --> 00:11:03,200
esimerkiksi yliopistolla kä- käytössä olevia ohjelmia, niin SAS, SPSS, JMP ja R, siellä on
hyvät työkalut otoskokolaskujen tekemiseen.
56
00:11:03,950 --> 00:11:15,330
Ja sitten on nettilaskureita, esimerkiksi sample size piste net, niin siellä sieltä löytyy Öö
perustilanteisiin nämä nämä otoskok laskurit.
57
00:11:17,090 --> 00:11:21,210
tota aiemmin jo me ohimennen vähän mainittiinkin voima-analyysi.
58
00:11:22,020 --> 00:11:26,530
Ja tilastollisen testin voima liittyykin olennaisesti näihin otoskoon laskemisiin.
59
00:11:27,309 --> 00:11:37,900
Mutta ennen kuin päästään kuitenkaan niin pitkälle, niin olisi varmaan hyvä ymmärtää vähän
erilaisia virheitä, sillä jollain tavallahan tilastotieteessä tietysti aina pyritään virheen
minimoimiseen.
60
00:11:38,859 --> 00:11:41,690
Eli Tero, millaisia eri virheitä on olemassa?
61
00:11:42,640 --> 00:11:55,020
erittäin hyvä, hyvä kysymys, ja nyt tulee tämän podcastin raskain osuus eli tilastollisten
virheiden mää- määrittelyä.
62
00:11:55,799 --> 00:12:02,570
Mutta tosiaan nää on tärkeitä käsitteitä ymmärtää, jotta sitten pystyy tekemään nämä nää
otoskokolaskelmat.
63
00:12:04,049 --> 00:12:15,330
Eli tilastotieteessä on tämmöinen, kun hylkäämisvirhe, puhutaan tyypin yksi virheestä,
alfa-virheestä, P-arvosta, synonyymejä kaikki.
64
00:12:16,320 --> 00:12:33,159
Ja mitä tarkoittaa sitten se tyypin yksi virhe, niin se tarkoittaa sitä, että me saadaan
tilastollisella testillä merkitsevä tulos, vaikka todellisuudessa siellä populaatiossa ei ole sitä
eroa.
65
00:12:34,340 --> 00:12:50,380
Eli käytännössä voidaan tilastollinen testi voi kertoa, että verenpainearvoissa on kahden
tutkimusryhmän välillä tilastoisesti merkitsevä ero, mutta kuitenkaan sitten siellä
populaatiossa sitä sitä eroa ei ole.
66
00:12:50,710 --> 00:12:55,869
Eli saadaan virheellisesti tilastoisesti merkitsevä tulos tilanteessa, jossa eroa ei ole.
67
00:12:57,830 --> 00:13:05,650
Ja toinen virhe, puhutaan tällaisesta kuin hyväksymisvirheestä, eli se on sitten tyypin kaksi
virhe eli beeta-virhe.
68
00:13:06,799 --> 00:13:09,599
niin saadaan väärä negatiivinen tulos.
69
00:13:10,200 --> 00:13:23,900
Elikkä hyväksymisvirhe tarkoittaa sitä, että testin perusteella todetaan, että tilastollisesti
merkitsevä ero ero ei ole, vaikka sitten todellisuudessa siellä populaatiossa ero ero on.
70
00:13:25,020 --> 00:13:32,739
Eli toisin sanoen se tilastollinen testi ei kykene havaitsemaan sitä eroa, mikä populaatiossa
on.
71
00:13:33,380 --> 00:13:44,510
Eli niissä verenpainearvoissa niin tilastollinen testi kertoo, että ero ei ole tilastollisesti
merkitsevä sellaisessa tilanteessa, jossa siellä populaatiossa todellisuudessa on eroa.
72
00:13:45,219 --> 00:13:59,510
Ja nämä molemmat tämä hylkäämisvirhe, elikkä se alfa-virhe ja hyväksymisvirhe, eli
beeta-virhe niin niitä tarvitaan, kun me määritetään sitä tutkimuksen otoskokoa.
73
00:14:00,919 --> 00:14:19,440
Ja se tutkimuksen voima, testin voima liittyy tähän beeta-virheeseen, elikkä se on, jos meillä
on beeta-virhe nolla piste kaksikymmentä, niin silloin meillä on tutkimuksen voima yksi
miinus se nolla piste kaksikymmentä, eli nolla piste kahdeksankymmentä, eli puhutaan
kahdeksankymmenen prosentin voimasta.
74
00:14:20,400 --> 00:14:36,039
Ja mitä se testin voima, tutkimuksen voima tarkoittaa, niin se tarkoittaa käsittelen taas sitä,
että me saadaan tilastoisesti merkitsevä ero sellaisessa tilanteessa, jossa myös
todellisuudessa siellä populaatiossa on on eroa.
75
00:14:37,119 --> 00:14:50,710
Elikkä tois sanoen me saadaan, että tilastollisesti merkitsevä ero kahden ryhmän välille,
niissä verenpainekeskiarvoissa, tilanteessa, jossa siellä todellisuudessa se se ero on myös
populaatiotasolla.
76
00:14:51,510 --> 00:14:51,520
OK.
77
00:14:52,919 --> 00:15:05,799
Eli pienenä kertauksena, Siis kun me valitaan tutkimukselle merkitsevyystaso, joka yleensä
on tosiaan sen nolla piste nolla viisi, niin todellisuudessa valitaan yläraja hylkäämisvirheelle,
eli tyypin yksi virheelle.
78
00:15:06,570 --> 00:15:11,729
Eli sille todennäköisyydelle, että me hylätään nollahypoteesi, vaikka se on oikeasti totta.
79
00:15:12,750 --> 00:15:25,530
Ja tutkimuksen tai testin voima taas on todennäköisyys, että olemassa oleva ero oikeasti
myös havaitaan, eli se nollahypoteesi hylätään silloin, kun vaihtoehtoinen hypoteesi on tosi.
80
00:15:26,429 --> 00:15:32,409
Ja tää voima tosiaan oli yksi miinus se hyväksymisvirhe, eli tyypin kaksi virhe.
81
00:15:32,869 --> 00:15:35,770
Kuulostiko tää oikealta kertaukselta?
82
00:15:36,780 --> 00:15:37,520
Joo, juuri näin.
83
00:15:37,989 --> 00:15:40,289
Ky- kymmenen pistettä hyvin tiivistetty.
84
00:15:41,369 --> 00:15:54,859
Öö Sen lisäisin vielä, että Öö alfataso, elikkä se tyypin yksi virhe, niin se on välttämätön
edellytys sille kliiniselle merkittävyydelle, mutta se ei kerro siitä varsinaisesta efektis
suuruudesta.
85
00:15:56,580 --> 00:16:07,489
Ja otoskoko laskelmissa ja ylipäätään Öö tilastollisessa testauksessa on tärkeä asia se
hypoteesin muotoilu.
86
00:16:08,219 --> 00:16:18,479
Ja silloin kun me tehdään tilastollinen testaus ja voimalaskelma, niin me määritetään, että
mikä on sen testauksen nollahypoteesi ja mikä on vaihtoehtoinen hypoteesi.
87
00:16:19,729 --> 00:16:36,539
Ja se nollahypoteesi on, jos me esimerkiksi verrataan kahden ryhmän välisiä eroja
kolesterolin keskiarvossa, niin nollahypoteesi on on se, että Öö ka- kahden ryhmän välillä ei
ole eroa kolesterolin keskiarvoissa.
88
00:16:37,590 --> 00:16:47,599
Ja se kaksisuuntainen vaihtoehtoinen hypoteesi tarkoittaa sitä että kahden ryhmän välillä on
merkitsevä ero kolesterolin keskiarvoissa.
89
00:16:48,690 --> 00:17:08,780
Eli kaksisuuntainen vaihtoehtoinen hypoteesi tarkoittaa Öö sitä, että se vaihtoehtoinen
hypoteesi on muotoiltu niin, että eroa on ryhmien välillä, elikkä se voi olla niin, että
ykkösryhmässä voi olla suurempi, keskiarvo tai pienempi, ollaan kiinnostuneita niistä eroista
molempiin suuntiin, siitä, että onko ylipäätään eroa ryhmien välillä.
90
00:17:09,739 --> 00:17:19,329
Eli ennen kun me tehdään se testaus ja nähdään se data, niin me määritellään se hypoteesi
ja mietitään se siitä Öö tutkimuskysymyksen kannalta.
91
00:17:20,409 --> 00:17:23,779
että ollaanko me kiinnostuttu eroista molempiin suuntiin.
92
00:17:24,618 --> 00:17:32,380
Ja yleensä se on aina se kaksisuuntainen vaihtoehtoinen hypoteesi, mitä käytetään
voimalaskelmissa ja tilastollisissa testauksessa.
93
00:17:33,410 --> 00:17:39,920
Eli se yksisuuntainen vaihtoehtoinen hypoteesi tarkoittaa sitä, että oltaisiin vaan toiseen
suuntaan eroista kiinnostuneita.
94
00:17:40,449 --> 00:17:52,969
Esimerkiksi tilanteessa, jossa meillä on joku muuttujan arvo, mikä ei voi esimerkiksi laskea,
että arvot voi vaan nousta siinä toisessa ryhmässä, niin tällöin voitaisiin käyttää sitä
yksisuuntaista vaihtoehtoista hypoteesia.
95
00:17:53,489 --> 00:17:57,650
Mut tosiaan lähtökohtaisesti vaihtoehtoinen hypoteesi on kaksisuuntainen.
96
00:17:59,680 --> 00:18:17,079
Ja vielä niistä termeistä, niin tilastollinen voima, niin se oli sitten se yksi miinus se
hyväksymisvirhe, eli yksi miinus beeta, ja yleensä käytetään tasoja kahdeksankytä
prosenttia viiva yheksänkyt prosenttia näissä laskelmissa.
97
00:18:17,699 --> 00:18:21,880
Eli toi sanoen se beeta on nolla piste kymmenen viiva nolla piste kakskymmentä.
98
00:18:22,819 --> 00:18:38,859
OK, toi oli hyvä lisäys, eli tosiaan yleisesti ainakin kliinisessä tutkimuksessa, niin beeta- taso
valitaan nolla piste yksi tai nolla piste kaksi, ja sitten taas se alfa taso Eli se
merkitsevyystaso sitten oli nolla piste nolla viisi yleensä.
99
00:18:39,300 --> 00:18:40,500
Kyllä, juuri näin.
100
00:18:43,060 --> 00:18:54,819
No nyt me tiedetään, mihin otoskoon laskeminen ja voima-analyysi perustuu, mutta homma
ei valitettavasti taida olla ihan niin yksinkertainen, että joka tilanteeseen päätisi yksi ja sama
laskukaava.
101
00:18:55,920 --> 00:19:01,150
Eli mitkä tekijät vaikuttaa sitten tän sopivan otoskokolaskentamenetelmän valintaan?
102
00:19:03,040 --> 00:19:03,239
Joo.
103
00:19:04,430 --> 00:19:14,640
pitää tosiaan miettiä ja ottaa selvää monista asioista, jotta päästään sitten tekemään tää
otoskoko laskelma.
104
00:19:15,930 --> 00:19:25,930
Ja siihen, et mikä on se sopiva otoskokolaskentamenetelmä, niin siihen tosiaan vaikuttaa
monen monta asiaa.
105
00:19:26,900 --> 00:19:38,180
Öö Ensimmäinen on se tutkimushypoteesi ja se, että tutkitaanko me ryhmien välisiä eroja,
vai onko meillä tämmöinen ekvivalenssi, eli samankaltaisuustestaus.
106
00:19:38,689 --> 00:19:43,109
Eli pitää miettiä se hypoteesi, tutkitaanko eroja vai samankaltaisuutta.
107
00:19:43,569 --> 00:20:13,630
Öö aina ei välttämättä ole tutkimusasetelma ja kiinnostuksen kohde se, että vertaillaan
jotakin tutkimusryhmiä, vaan me- meillä voi olla myös ajatuksena se, että tutkitaan, että
mitkä tekijät Öö on riskitekijöitä vaikka Öö raskausdiabetekselle tai tai mit- mitkä tekijät on
yhteydessä tutkittavien elämänlaatuun, Mitkä tekijät selittää työssä viihtyvyyttä.
108
00:20:14,439 --> 00:20:23,880
Eli eli siellä voi olla erilainen se tutkimuskysymisen, nämä asiat vaikuttaa siihen siihen
otoskokola- laskelmaan.
109
00:20:24,680 --> 00:20:33,709
Eli sit kun on se tutkimushypoteesi selvillä, niin voidaan miettiä sitten näitä muita asioita,
mitkä vaikuttaa siihen sopivan otoskokolaskentamenetelmän valintaan.
110
00:20:35,300 --> 00:20:45,699
Ja kun tutkimushypoteesi on selvillä, niin seuraava asia, mitä pitää pohtia, että millä
vastemuuttajalla me saadaan vastaus siihen tutkimuskysymykseen.
111
00:20:46,219 --> 00:20:59,359
Eli onko se vastemuuttaja tämmöinen numeerinen vai onko se Öö kategorinen,
kaksiluokkainen, onko kyseessä joku tämmöinen prevalenssien vertailu?
112
00:21:00,589 --> 00:21:01,810
ja ja niin edelleen.
113
00:21:02,339 --> 00:21:15,810
Eli jos meillä on vaikka numeerinen vastemuuttuja, niin silloin me saatetaan olla
kiinnostuneita siitä, että onko kahden tai useamman tutkimusryhmän välillä eroa sen
numeerisen vastenmuuttujan keskiarvoissa.
114
00:21:16,930 --> 00:21:32,250
Ja sit taas, jos meillä on numeerinen selittäjä ja numeerinen vastemuuttuja, niin silloin ollaan
siitä korrelaatiokertoimesta tai tai lineaarisesta regressio regressiokertoimesta kii-
kiinnostuneita.
115
00:21:33,170 --> 00:21:45,910
Ja taas, jos meillä on kaksiluokkainen vaste, et tyyliin, et tutkitaan, et et onko jotkut tai onko
kahden ryhmän välillä eroa vaikka Öö oireellisuudessa.
116
00:21:46,839 --> 00:22:04,060
niin silloin kyseessä on tämmöinen prosenttien vertailu tai vaihtoehtoisia menetelmiä,
esimerkiksi logistinen regressio voidaan odd reisjen avulla tutkia tämmöistä Öö ryhmien
välistä eroa tai sitä, että mitkä tekijät on yhteydessä siihen oireellisuuteen.
117
00:22:05,000 --> 00:22:14,319
Ja sit meillä voi olla vastemuuttuja voi olla tutkitaan jonkun sairauden insidenssiä tai tai
prevalenssia.
118
00:22:16,109 --> 00:22:25,619
Öö voidaan tutkia vaikka, että et mi- mikä mikä on lasten korvatulehdusten Öö insidenssi
vaikka vuoden seurannan aikana.
119
00:22:26,339 --> 00:22:38,489
Ja silloin tilastollisin menetelminä voi olla ihan perus ki neliötesti, tai sitten voi olla
tämmöinen regressioanalyysi, Posin regressio, mikä sopii tällaisten insidenssien vertailuun.
120
00:22:39,359 --> 00:22:57,949
Vastenmuuttaja voi olla myös tämmöinen, että ollaan ollaan, meillä on ajallinen näkökulma
siitä, että meillä on jotakin kuolleisuus- analyysejä, eli tän tän tyyppisiä, että meillä on aika
siitä tutkimuksen alusta siihen päät- päättötapahtumaan, jolloin me voidaan esimerkiksi koksi
regressioanalyysillä tutkia sitä.
121
00:22:59,510 --> 00:23:00,540
tutkimuskysymystä.
122
00:23:01,390 --> 00:23:10,829
Eli tämä, että minkä tyyppinen se vastemuuttaja on, niin se on oleellinen osa sitä, kun
mietitään, mikä on se so- sopiva otoskoko laskentamenetelmä.
123
00:23:11,390 --> 00:23:31,180
Ja siihen li- tutkimuskysymykseen liittyen ja myös tää vastemuuttujaan liittyen, mainitsinkin
jo äsken, niin sitten pitää se miettiä, että onko meillä Öö kaksi ryhmää, mitä me vertaillaan,
onko useampi tutkimusryhmä, vai onko meillä jatkuva selittävä muuttuja.
124
00:23:31,750 --> 00:23:47,589
verrataanko riippumattomia vai sitten riippuvia ryhmiä, eli onko tämmöinen
toistomittausasetelma, jolloin kyse on riippuvista havainnoista, niin nämä vaikuttaa myös sit
siihen, et mikä on se oikea otoskoko laskentamenetelmä.
125
00:23:48,900 --> 00:24:01,219
Mutta tosiaan Niinku yksinkertaisimmillaan ja ehkä se yleisin tilanne tässä
otoskokolaskelmassa on se, että meillä on joku numeerinen vastenmuuttuja.
126
00:24:03,069 --> 00:24:05,780
ja verrataan kahta tutkimusryhmää.
127
00:24:06,819 --> 00:24:15,520
ja silloin se tilastollinen testi, siellä taustalla on kahden autoksen T-testi, ja sit siihen
pohjautuen saadaan tehtyä tää Otos koko laskelma.
128
00:24:16,219 --> 00:24:21,069
Ja ja toinen yleinen tilanne on se, että meillä on kaksiluokkainen vastenmuuttuja.
129
00:24:21,829 --> 00:24:29,569
Eli vaikka se, että on joku kyllä ei tyyppinen, mutta että on joku sairaus, ei oo sairautta, ja
sitten verrataan kahta ryhmää.
130
00:24:30,050 --> 00:24:38,810
Ja tätä me pystytään sitten analysoimaan tuolla K neliötestillä ja sitten otoskokolaskelma
siihen ki neliötestiin pohjautuu.
131
00:24:39,280 --> 00:25:01,540
Et nää on varmasti ne kaksi Niinku yleisintä yleisintä metodia sitten Öö otoskoon la-
laskemiseen, mut tosiaan Niinku paljon eri variaatioita löytyy sitten, ja kaikki riippuu, et mikä
on se tutkimuskysymys, mikä on se sopiva metodi, jotta me saadaan vastaus
tutkimuskysymykseen, niin myös tää otoskokolaskelman metodi määräytyy sen mukaisesti.
132
00:25:02,510 --> 00:25:18,640
Ja on muitakin asioita sitten, mikä vaikuttaa otoskokoon, esimerkiksi onko meillä Öö
balanssissa ne ryhmät, että onko se otoskoko molemmissa ryhmissä yhden suhde yhteen,
vaikka vai jos on tapaus verrokkiasetelma, niin onko sitten esimerkiksi yhden suhde neljä.
133
00:25:18,989 --> 00:25:21,130
Tällä on vaikutusta siihen otoskoko laskelmaan.
134
00:25:22,170 --> 00:25:32,339
Ja nämä oikeastaan siitä tilastolliset tai siitä, että minkä tyyppisiä muuttujia, että mikä on
vastenmuuttuja, mikä on selittävä muuttuja, ne pitää siinä siinä miettiä.
135
00:25:33,229 --> 00:25:46,020
Öö Mut yleensä se haastavin osuus on laskelmissa se, että saadaan määritettyä, että mikä
on se kliinisesti merkittävä ero siinä vastenmuuttujassa.
136
00:25:47,739 --> 00:25:53,079
Eli jos meillä on vaikkapa Öö tutkitaan elämänlaatua.
137
00:25:53,160 --> 00:25:54,640
Meillä on vasteena elämänlaatu.
138
00:25:55,729 --> 00:25:58,670
Ja meillä on kaksi tutkimusryhmää, interventiokontrolli.
139
00:25:59,589 --> 00:26:05,310
niin meidän pitää määrittää, että mikä on kliinisesti merkittävä ero elämänlaatupisteissä.
140
00:26:06,589 --> 00:26:09,000
jotta me voidaan tää otoskokolaskelma tehdä.
141
00:26:09,589 --> 00:26:23,780
Tai jos meillä on Öö kaksi numeerista muuttua ja tutkitaan vaikka korrelaatiokertoimella sitä
yhteyttä, niin mitä korrelaatiokerrointa me pidetään sitten käytännössä me- merkittävänä.
142
00:26:25,170 --> 00:26:52,300
Ja nämä arviot perustuu yleensä niihin aiempiin tutkimuksiin, elikkä meillä on Öö aiemmista
tutkimuksista saattaa olla määritetty niille vasteille tämmöinen M- M- MCID eli minimal
clinical important difference, Öö joka on sitten tilastollisin menetelmin määritetty tämmöinen,
että mikä on pienin kliinisesti merkittävä ero, jota me sitten halutaan sitten tutkimuksessa
havaita.
143
00:26:53,550 --> 00:26:59,150
Joskus saattaa olla tilanne, että on joku uusi mittari tai uus muuttuja, että ei ole olemassa
mitään.
144
00:27:00,000 --> 00:27:08,609
tämmöistä M MCID lukua tai jo aikaisempaa kokemusta ei ole aikaisempaa käytännön tietoa
tutkittavasta asiasta.
145
00:27:09,579 --> 00:27:23,930
niin si- silloin pitää vaan yrittää asiantuntijaraadin sitten mahdollisimman hyvin arvioida, että
mitä me voidaan nyt pitää sitten kliinisesti merkittävänä erona, että mitä sillä tutkimuksella
lähdetään tavoittelemaan.
146
00:27:25,000 --> 00:27:25,010
OK.
147
00:27:26,810 --> 00:27:48,459
lisäksi pitää Numeerisille vasten muuttujille, kun tehdään otoskokolaskelma ryhmien
vertailulle, niin pitää tän pienimmän kliinisesti merkittävän eron lisäksi muun muassa Öö
tehdä oletus sitten siitä vastenmuuttajan keskihajonnasta.
148
00:27:49,280 --> 00:28:01,380
Eli se, että kuinka suurta vaihtelua siinä elämänlaatu muuttujan arvoissa on, niin se on
tärkeä asia, mikä vaikuttaa myös sit- sit siihen tarvittavaan otoskoon määrään.
149
00:28:02,569 --> 00:28:15,369
Eli se kliinisesti pieni merkittävä ero, ja sit sen lisäksi pitää arvioida, mi- mikä minkä
suuruinen keskihajonta sillä elämänlaatu muuttujalla sitten mahdollisesti olisi.
150
00:28:15,890 --> 00:28:26,010
Ja tää arvio perustuu aikaisempiin tutkimuksiin, samantyyppisiin tutkimuksiin, niistä saadaan
Niinku luotettavimmin se estimaatti hajonnalle arvioitua.
151
00:28:27,630 --> 00:28:51,479
Ja noin yleisellä tasolla Öö niin sellainen huomio vielä, että Öö numeerinen vastemuuttuja,
niin on otosk kannalta tehokkaampi kuin kategorinen muuttuja, eli toisin sanoen on pienempi
otos otoskokovaatimus, siitä saadaan enempi koneesta irti, kun on on tuollainen numeerinen
vastemuuttuja.
152
00:28:54,400 --> 00:28:57,439
Siinä tulikin jo oikein kunnolla asiaa.
153
00:28:58,800 --> 00:29:09,660
mutta tota jos otetaan vähän vielä kumminkin takapakkia näistä varsinaisista muuttujista, niin
vaikuttaako myös toi itse tutkimusasetelma, Oasiko laskemiseen jotenkin?
154
00:29:10,910 --> 00:29:15,920
erittäin hyvä nosto, tutkimusasetelma.
155
00:29:16,750 --> 00:29:21,699
Se on Olennainen asia myös myös liittyy otoskokolaskelmiin.
156
00:29:22,339 --> 00:29:29,699
Eli tutkimusasetelman selkiydyttyä tosiaan valitaan siihen sopiva tutkimusasetelma.
157
00:29:30,219 --> 00:29:35,750
Se voi olla kyseessä voi olla kuvaileva tutkimus, voi olla tällainen kokeellinen tutkimus.
158
00:29:36,530 --> 00:29:52,880
Öö havainnoiva tutkimus voi olla poikittainen tutkimusasetelma pitkittäinen, voi olla case
control tutkimus, monenmoista tutkimusasetelmaa on tarjolla, ja ne valitaan sen mukaan, et
me saadaan vastaukset niihin meidän tutkimuskysymyksiin.
159
00:29:53,689 --> 00:30:08,300
Ja Öö näillä tosiaan niin riippuen, mikä meidän tutkimusasetelma on, niin niillä on vaikutus
niihin valittaviin tilastollisiin menetelmiin, niin sitä kautta tutkimusasetelma vaikuttaa näihin
näihin otoskokolaskelmiin.
160
00:30:09,290 --> 00:30:23,329
Ja kokeellinen tutkimus esimerkiksi voidaan toteuttaa myös tämmöisenä Öö crossover-
tutkimuksena, ja sit se pitää huomioida, että siellä on tämmöistä riippuvaisuutta niissä
mittauksissa, niin se pitää huomioida siinä otoskoko laskelmassa.
161
00:30:24,150 --> 00:30:31,510
Eli tärkeä huomioida se, että onko ne vertailtavat havainnot, ryhmät riippumattomia vai
riippuvaisia.
162
00:30:32,540 --> 00:30:44,609
riippuvaisuus voi tulla esimerkiksi siinä, että meillä on tosiaan se pitkittäisasetelma, että on
baseline mittaus ja seurantamittauksia niistä samoista tutkittavista, tai sit voi olla tämmöinen,
että on on tautia sairastava.
163
00:30:45,550 --> 00:30:59,760
Öö ja sitten on haettu henkilökohtainen Öö kon- kontrolli, niin on tämmöinen case control
asetelma, jolloin ne on riippuvaisia ne ne case control parit toisistaan, ja se se pitää sitten
huomioida sitten, kun case control studyn tehdään sitä otoskoko laskelmaa.
164
00:31:01,780 --> 00:31:27,180
Ja sit saattaa olla tämmöinen tutkimusasetelma, että tämmöinen Öö klusteri ran- randomoitu
tutkimus, missä tutkitaan esimerkiksi koulutasolla tai tai Öö eri tutkimuskeskuksissa, niin
ajatellaan silloin, että tämä tämä kouluefekti tai tutkimuskeskus ef- efekti, niin sillä on jollakin
tasolla vaikutus siihen tutkittavaan vasteeseen.
165
00:31:27,630 --> 00:31:54,130
Elikkä ne, jos meillä on vaikka Öö koululaisten matematiikan Öö arvosanoja tutkitaan, niin
silloin ne oppilaat, ketkä on samalla luokassa, samalla luokalla tai samassa koulussa, niin
siellä todennäköisesti ne matematiikka Öö kokee arvosanat on lähempänä toisiaan kuin se,
että jos meillä on eri koulua, eli koulujen välillä on suurempaa vaihtelua kuin siellä koulujen
sisällä.
166
00:31:54,660 --> 00:32:18,930
ja silloin tämmöisessä klusteri randomoitus tutkimusasetelmassa, niin saadaan erikseen
sitten mallinnettua sitä kouluefektiä ja lu- luo- luokka-efektiä, ja ja se saadaan myös sitten
tässä otoskoko laskelmassa tämmöisen design-efektin avulla Öö sitten määriteltyä, mi-
missä sitten huomioidaan se se tota klusteroituneisuus tällaisen intraclass korrelaation
avulla.
167
00:32:19,969 --> 00:32:20,250
OK.
168
00:32:21,339 --> 00:32:23,579
No otetaan tässä kohtaa pieni kertaus.
169
00:32:24,380 --> 00:32:30,579
Eli otoskoon laskemiseen vaikuttavat tekijät voisi jakaa esimerkiksi seuraaviin kuuteen
pääkysymykseen.
170
00:32:31,380 --> 00:32:37,209
Eli yksi Mikä on kokeen päätarkoitus, eli pitää määritellä tutkimushypoteesi.
171
00:32:38,209 --> 00:32:41,660
Kaksi, mikä on sun keskeisin vastemuuttuja?
172
00:32:42,650 --> 00:32:43,119
Kolme.
173
00:32:44,060 --> 00:32:48,780
Mitä tilastollista analyysimenetelmää sovelletaan tutkimushypoteesin testaamiseksi?
174
00:32:49,719 --> 00:32:55,560
Neljä, pitää päättää kliinisesti merkittävä ero, joka tutkimuksen avulla halutaan havaita.
175
00:32:56,420 --> 00:33:05,819
Eli esimerkiksi mikä on pienin kliinisesti merkittävä keskiarvoero, Öö jos on numeerinen
vastemuuttaja, jota verrataan esimerkiksi kahdessa eri ryhmässä.
176
00:33:06,260 --> 00:33:12,180
Ja tää kliinisesti merkittävä ero on Siis semmoinen asia, joka tutkimuksessa halutaan
havaita suurella varmuudella.
177
00:33:13,089 --> 00:33:19,880
Viisi, numeerisen vastemuuttajan ryhmien välisessä vertailussa pitää arvioida myös
vastemuuttajan keskihajonta.
178
00:33:20,790 --> 00:33:27,069
Ja kuusi, mitä tilastollista merkitsevyystasoa ja testin voimaa halutaan käyttää laskelmissa.
179
00:33:29,729 --> 00:33:29,739
Joo.
180
00:33:30,959 --> 00:33:37,920
Olisiko sulla Tero vielä tähän loppuun jotain käytännön lyhyttä esimerkkiä tästä otoskoon
laskusta.
181
00:33:38,439 --> 00:33:45,229
Se vähän ehkä voisi konkretisoida tätä suurta tota teoriakasaa, mikä tässä nyt on ollut tän
jakson aikana.
182
00:33:46,780 --> 00:33:53,800
Öö Joo, kyllä varsin varsin teoriapitoinen pläjäys tosiaan on on takana.
183
00:33:54,400 --> 00:33:58,949
Yritetään pikkasen konkretisoida tätä otoskokolaskelmaa.
184
00:34:00,270 --> 00:34:05,709
No, mietitään vaikka esimerkkinä otetaan työhyvinvointitutkimus.
185
00:34:07,069 --> 00:34:18,168
Ja suunnitellaan tutkimusta, jossa pyritään vaikuttamaan työpaikan työhyvinvointiin.
186
00:34:19,370 --> 00:34:28,228
Ja tutkimusta varten suunnitellaan, että kehitetään joku tämmöinen interventio, millä me
voitaisiin parantaa sitä työhyvinvointia.
187
00:34:29,179 --> 00:34:38,600
Eli sieltä saattaa olla, että on on jotakin lu- luentoja, jotakin Öö yhteisiä ak- aktiviteettejä.
188
00:34:39,820 --> 00:34:46,719
Öö m- m- mietitään, että mitkä ois ne tekijät, miltä millä mitkä mahdollisesti voisi parantaa
sitä työhyvinvointia.
189
00:34:47,550 --> 00:34:50,800
Ja sitten valitaan Öö kontrolliporukka.
190
00:34:51,590 --> 00:34:59,709
mille ei anneta mitään ekstraa, vaan on normaalit työhyvinvointi Öö työkalut sitten käytössä.
191
00:35:00,639 --> 00:35:07,389
Ja sitten haluttaisiin tutkia, että onko tämmöisellä työhyvinvointi-interventiolla jotakin
vaikutusta siihen työhyvinvointiin.
192
00:35:08,219 --> 00:35:15,229
Niin silloin se meidän kokeen päätarkoitus on on se ryhmien vertailu.
193
00:35:15,909 --> 00:35:28,030
Ja se tutkimushypoteesi on se, että tai tutkimuskysymys on se, että että onko tällä
työhyvinvointi-interventiolla vaikutusta siihen työhyvinvointiin.
194
00:35:29,489 --> 00:35:42,429
Ja tilastollinen Öö nollahypoteesi olisi silloin se, että interventio ja kontrolliryhmän välillä ei
ole eroa työhyvinvointimuuttujan keskiarvossa.
195
00:35:43,290 --> 00:35:52,750
Eli silloin se meidän vastemuuttuja olisi se työhyvinvointim muuttuja, mikä ois tämmöinen
numeerinen muuttuja vaikkapa skaalalla nollasta sataan mitattuna.
196
00:35:53,620 --> 00:36:02,860
Eli se olisi vaste, numeerinen vaste, kahden ryhmän vertailu, niin siihen tilanteeseen sopisi
sitten tilastolliseksi menetelmäksi kahden otoksen T-testi.
197
00:36:04,280 --> 00:36:17,550
Ja sitten meidän pitää päättää, että mikä on se pienin käytännössä merkittävä, eli kliinisesti
merkittävä ero, joka me tutkimuksen avulla halutaan havaita niissä työhyvinvointipisteissä.
198
00:36:18,639 --> 00:36:29,070
Ja aiemman tutkimuksen perusteella pidetään, että viiden pisteen ero on tämmöinen, että
mikä on tavoittelemisen arvoinen ja millä pidetään, että on käy- käytännön merkitystä.
199
00:36:29,850 --> 00:36:34,739
Eli lähdetään viiden pisteen eroa interventio kontrolliryhmän välillä.
200
00:36:35,639 --> 00:36:36,550
tavoittelemaan.
201
00:36:37,669 --> 00:36:54,340
Ja ajatellaan, että siinä ensi kestäisi vaikka kaksi kuukautta tämä interventio ja sitten me sen
jälkeen mitattaisiin, että mikä on se työhyvinvointi indeksin a taso.
202
00:36:55,169 --> 00:37:05,100
Eli tehtäisiin siinä intervention jälkeen sitten se työhyvinvointikysely ja saataisiin sitten dataa
kerättyä.
203
00:37:06,100 --> 00:37:17,620
Ja sitten meidän pitää arvioida sen lisäksi, että jos me pidettiin, että se viiden pisteen ero on
kliinisesti merkittävä, niin pitää arvioida myös, että että mikä se työhyvinvointimuuttajan
keskihajonta on.
204
00:37:18,139 --> 00:37:29,090
Ja on usein sellainen, et et se on haastava yhtä ainoaa keskihajontaa laittaa, koska täähän
on arvio, että mikä se tulee olemaan.
205
00:37:29,219 --> 00:37:32,179
Meillä ei ole dataa vielä kerättynä, se on puhdas arvio.
206
00:37:34,020 --> 00:38:02,000
paras arvaus, mitä meillä on on saa- saatavilla, niin usein näissä otoskokolaskelmissa
kokeillaan muutamia vaihtoehtoja, muutamia realistisia vaihtoehtoja sen ai- aiemman
tutkimustiedon pohjalta, koska jos on monta tutkimusta, niin jokaisesta tulee erisuuruinen
keskihajonta, eli me saadaan tavallaan se keskihajontajen haarukka niistä tutkimuksista, ja
sit me kokeillaan, et et jos keskihajonta pikkasen muuttuu, niin mikä sen vaikutus on siihen
otoskokoon.
207
00:38:03,010 --> 00:38:22,389
Ja meillä on tavallaan eri vaihtoehtoja niistä Öö otoskokolaskelmista, ja sit meidän pitää
vaan ar- arvioida, että mi- mikä nyt tuntuu, että tässä tutkimuksessa voisi olla se se paras
arvio siitä keskihajonnasta ja sen mukaan sitten Öö lähdetään sitä otoskokolaskelmaa
tekemään.
208
00:38:24,040 --> 00:38:33,709
Ja sitten tarvitaan lisäksi se tilastollinen merkitsevyystaso, mikä on se alfataso, usein se
nolla piste nolla viisi.
209
00:38:34,790 --> 00:38:42,580
ja kaksisuuntainen testaus ja sitten testauksen voima kahdeksankymmentä prosenttia viiva
yhdeksänkymmentä prosenttia.
210
00:38:43,969 --> 00:39:01,189
Ja nyt kun meillä on nämä asiat tiedossa, niin me saadaan nämä parametrit syötettyä sinne
otoskoko laskuriin tai sinne tilasto-ohjelmaan, ja sitten me saadaan saadaan sitten se arvio
siitä, että mikä se vaadittava otoskoko tähän tutkimukseen olisi.
211
00:39:03,909 --> 00:39:10,129
Hei, kiitos paljon Tero, että sä tulit tänne haastateltavaksi ja jakamaan sun ammattitaitoasi
meille.
212
00:39:11,389 --> 00:39:14,300
Öö Kiitos, Markus kutsusta.
213
00:39:14,419 --> 00:39:25,510
Oli mukava keskustella Öö otoskokolaskelmista, ja toivottavasti lukijatkin oppivat jotakin
uutta otoskokolaskelmiin liittyen.
214
00:39:27,060 --> 00:39:30,080
Ei ei muuta kuin hommiin.
215
00:39:34,889 --> 00:39:34,899
Joo.
216
00:39:35,729 --> 00:39:38,250
Kiitos sulle kuuntelija, että sä olit linjoilla.
217
00:39:39,090 --> 00:39:47,919
Toivottavasti tämä jakso innosti sua oppimaan lisää paitsi tilastollisten testien voimasta ja
otas koko laskennasta, niin myös yleisemmin biostatistiikasta.
218
00:39:48,810 --> 00:39:51,050
Kuullaan taas statistiikan aalloilla.
219
00:40:00,750 --> 00:40:06,699
tämän podcastin on tuottanut Turun yliopiston lääketieteellisen tiedekunnan biostatistiikan
yksikkö.

Elinaika-analyysi ja kohorttitutkimus

Elinaika-analyysi ja kohorttitutkimus ovat aiheena tässä Statistiikan aallossa. Elinaika-analyysillä tarkoitetaan ajan kestoa kuvaavien havaintojen tutkimista. Kesto voi olla mikä tahansa kahden tapahtuman välinen aika, esimerkiksi elinikä, aika hoidon aloittamisesta taudin uusimiseen tai aika lapsen syntymästä ensimmäiseen korvatulehdukseen. Aikajakaumien kuvailun ja vertailun lisäksi kiinnostuksen kohteena voi olla erilaisten altisteiden tai hoitojen vaikutus ajankeston jakaumaan. Tässä podcastissa tilastotieteen professori Kari Auranen kertoo tutkijoille ja opiskelijoille elinaika-analyysin monipuolisista mahdollisuuksista erityisesti kohorttitutkimuksissa.


[Speaker 1]

[00:07] Tervetuloa statistiikan aalloille kuuntelemaan yleisiä asioita tänään kohorttitutkimuksesta ja elinaikaanalyysesta.
[00:14] Olit sitten lääke tai tilastotieteen opiskelija, tutkija tai muuten vaan kiinnostunut biostatistiikasta niin mukavaa, että olet linjoilla.
[00:23] Minä olen biostatistikko Markus Riskumäki, ja tänään haastattelen tilastotieteen professori Kari Aurasta.
[00:30] Tervetuloa, Kari.

[Speaker 2]

[00:32] Kiitos.

[Speaker 1]

[00:34] Mä muistan ehkä joskus jollain luennollani, tai sun pidemällä luennolla kuuleen, että sä et yhtään pidä statistiikka-sanasta.
[00:43] Pitäisikö tän podcastin nimen olla mieluummin vaikka tilastotieteen aalloilla?

[Speaker 2]

[00:46] No en nyt välttämättä siihen kovin voimakasta kantaa, mutta se on ihan totta, että en ihan tästä silkasta statistiikkasanasta koskaan pitänyt.
[00:54] Se näyttää olevan ehkä tämmöinen turkulainen sana.
[00:56] Okei.
[00:57] Että aikanaan itse valmistuin biometriasta Helsingin yliopistosta ja silloin puhuttiin biometriasta.
[01:06] Vieläkin meillä nyt sitten, ehkä kohta puhutaan lisää vielä, mutta tässä Turun yliopiston matematiikka ja tilasäädäntölaitoksella on biometrian opintosuunta.
[01:15] Eli se on rinnasteinen vaikkapa ekonometrialle tai psykometrialle.
[01:20] Olen käyttänyt tämmöistä metriatermia siinä.
[01:26] Mutta biostatistiikka on ehkä vähän, sanoisin,
[01:30] kivempi termi kuin pelkkä statistiikka.
[01:33] Statistiikkalla on vähän semmoinen outo soundi minun kormissaan.

[Speaker 1]

[01:36] Okei, okei.
[01:37] No sä vähän ehdit jo kertoakin, että Helsingissä olet aikoinaan opiskellut,
[01:43] mutta haluaisitko sinä vähän lisää avata sinun taustoja?

[Speaker 2]

[01:46] No joo, mä oon nyt täällä siis tilastotieteen professorina ollut Turussa
[01:51] kymmenisen vuotta melko tarkalleen ja toimin tosiaan matematiikan
[01:56] ja tilastotieteen laitoksen tilastotieteen yksikössä.
[02:01] Opetan tilastotieteen pääaineopiskelijoita siellä,
[02:04] mutta mulla on myös yhteys Turun yliopiston lääketieteelliseen tiedekuntaan
[02:09] toisena ikään kuin työnantajana, sanotaanko näin, laitostasolla.
[02:14] ja minulla on myös toimintaa lääketieteellisten ja epidemiologian savellusten alalla.
[02:23] Minun oma tausta ennen Turkuun tulaa on kansanterveyslaitoksessa,
[02:28] eli se on nykyinen Terveyden ja hyvinvoinnin laitos,
[02:30] jossa olin 20 vuotta tutkijana ja erikoistutkijana
[02:35] ja tein aikanaan väitöskirjan myös toimiessani siellä THL.
[02:40] Minun oma erikoisalaani oli tartuntatautien tilastollinen mallintaminen ja myös rokotusohjelman arviointi.
[02:50] Siihen liittyi myös matemaattinen mallintaminen, tartuntatautien leviämisen matemaattinen mallintaminen.
[02:59] Siellä arvioimme esimerkiksi, jos oli uusi rokote tullut markkinoille tai saataville,
[03:04] niin arvioitiin, että kannattaako se ottaa käyttöön väestötasolla kansallisessa rokotusohjelmassa.
[03:11] Tämmöisiä arvioita tehtiin ja siinä osana tarvittiin aineiston analyysiä ja sitten myöskin ihan tämmöisten
[03:18] leviämismallien ikään kuin rakentamista, että pystyttiin sitten tämmöisiä väestötason vaikutuksia arvioimaan.
[03:23] Ja sitten myöskin olemassa olevia, käytössä olevia rokotteita ja niiden vaikuttavuutta arvioitiin aika ajoin.
[03:32] Tämmöinen on mun taustani.
[03:33] Aika semmoinen, miten mä sanoisin, taustani on vielä siitä ennen soveltamassa matematiikassa ja sitten tilastotieteen opinnoissa.
[03:44] Mutta sitten tää sovellusala tuli sen THL-työn kautta, ja se oli sinänsä ihan hedelmällinen alue,
[03:55] pystyy soveltamaan kaikillaista osaamista sekä sieltä soveltamasta matematiikasta,
[04:03] tilastotieteestä, biometriasta spesifimmin ja sitten myöskin tämä sovellusala oli
[04:10] tai ainakin itse voin sanoa, että oli hyvin kiinnostava ja on yhä kiinnostava.

[Speaker 1]

[04:15] Okei, toi kuulosti sellaiselta, mikä tai mulla heti tuli mieleen sellainen asia,
[04:20] mikä nyt meitä kaikkia on tässä koskettanut viime aikoina,
[04:25] Onko sinä ollut mukana korona-aikaan rokotustutkimuksessa tai muussa?

[Speaker 2]

[04:33] Itse asiassa kyllä.
[04:34] Silloin, kun korona alkoi vuonna 2020, niin palasin hetkeksi THLään.
[04:45] Osa-aikaisesti, mutta kaikkein kivaimpana aikana se oli koko päivän toimistotyötä aamu kuudesta iltaan.
[04:53] myöhään, eli siellä oli mun vanhat kollegat, yhä useita siellä THLs, ja sitten me muotettiin semmoinen
[05:01] oma tiimimme, joka sitten yritti analysoida sitä tietoa, ikään kuin numeerista tietoa ja sitten empiiristä
[05:08] tietoa, mitä sitten alkoi kertyä kuitenkin aika nopeasti.
[05:13] Aika paljon on arvosteltu sitä, että tietoa ehkä
[05:17] pimitettiin tai sitä ei ollut saatavilla, mutta kyllä se loppukädessä oli yllättävänkin paljon sitten olemassa.
[05:24] Mutta tietenkin se, että mitä se tarkoitti, niin ei ollut ihan varmaan aina.
[05:31] Tämä oli hankala sanoa.
[05:33] Joo, olin mukana siinä, sanotaan alkuvaiheessa, tämmöisessä arvioissa.
[05:37] Oikeastaan ennen kuin rokotteet sitten tuli, niin siinä vaiheessa aktiivisemmin olin mukana myös koronatöissä.

[Speaker 1]

[05:45] Okei.
[05:46] Hei, kiitos tästä.
[05:47] Mielenkiintoinen tausta sulla.
[05:50] Mutta tänään kuitenkin puhutaan elinaika-analyysistä ja kohorttitutkimuksista,
[05:55] mitkä on myös tietysti sulle tuttuja aiheita.
[05:58] Aloitetaan vaikka tuosta elinaika-analyysistä.
[06:01] Olisiko sulla näin alkuun jotain esimerkkiä tutkimusasetelmista,
[06:05] jossa tulee käyttää elinaika-analyysiä, tai mitä se ensinnäköisin päätään tarkoittaa?

[Speaker 2]

[06:10] No, niin kuin se nimi sanoo elinaika-analyysi, niin tai kaikille tuli ensimmäisenä mieleen,
[06:15] että tosiaan jotenkin mallinetaan ja analysoidaan elinaikoja.
[06:20] Eli ihan konkreettisesti elämän pituutta, mutta noin yleisemmin elinaika-analyysi tarkoittaa
[06:27] minkä tahansa ajankeston mallintamista ja ikään kuin sen ajankestojen jakauman tutkimista,
[06:34] ja sen tutkimista, miten eri altisteet vaikuttavat kestomuuttujen.
[06:42] Jos palaan tuohon aikaisempaan historiaan, niin pääsin elinaikana maailmaan tartuntatautien puolelta.
[06:53] Jos ajatellaan vaikka lasten korvatulehduksia aiheuttavia bakteereita,
[07:00] Me tutkittiin aika paljon pneumokokkibakteereja ja sen eri alatyyppejä.
[07:04] Se on semmoinen bakteeri, joka yleensä tulee tonne nenänieluun täysin oireettomana,
[07:07] ja sitten se häviää sieltä aika ajan myötä, muutamassa viikossa tai kuukaudessa.
[07:14] Meitä kiinnosti kovasti se dynamiikka, että millä tavalla, kuinka usein ihan pienet lapset
[07:19] saa tätä pneumokokkibakteereja sinne nenänieluunsa, ja sitten kuinka kauan se sitten asustelee siellä.
[07:27] Silloin nämä kestot olivat niitä, mitä me haluttiin tutkia, niiden jakauma, keskimääräinen kesto, mutta myöskin sitten se, kun tilastotieteessä tiedetään, että minkälainen jakaumamuoto elinenläkestoilla on.
[07:41] Silloin me ollaan elinaika-analyysin eli kestojen analyysin maailmassa vähän monimutkaisemmassa joku semmoisessa, että me on vain kaksi tilaa, että olet elossa ja kuollut tai että olet terve, olet sairas tai vaan siinä on sitten useampia tämmöisiä mahdollisia ikään kuin siirtymiä, että voi saada pöpön, voit selvittää sen pöpön, sä voit saada uudestaan ehkä jonkun toisen alatyypin ja niin poispäin.
[08:08] Eli sillä tavalla mä jouduin tähän elinaikoanalyysiin, ja ehkä kohta puhutaan enemmän yleisemmin tämmöistä tapahtumasekvenssiä tai tapahtumahistoriamallien maailmaa.
[08:22] Eli kysyt, että esimerkkejä, niin ensimmäinen on varmaan juuri tämä elinaika itsessään, mutta sitten mikä taas on kesto, ajan kesto tyypillisesti, niin voi olla tämä kohde muuttaa.
[08:34] Se voi olla esimerkiksi hoidon aloittamisesta siihen, että ihmisen tila paranee tai jos on ollut joku diagnoosi, niin kuinka kauan kestää, että kuole tai jos on joku hoito, että kuinka kauan kestää, että tauti uusiutuu ja kaiken näköisiä erilaisia tutkimusasetelmia missä nimenomaan lääketieteessä ja epidemiologian puolella myöskin ajan kestot on tärkeitä ymmärtää.
[09:04] Silloin, kun elinaika on yleisin parissa tai laajennusten tai yleisempien, yleistettyjen mallien kanssa tekemisissä.

[Speaker 1]

[09:17] Joo, sä tuossa aika kattavasti selititkin tämmöisen ehkä yksinkertaisen elinaikamallin,
[09:25] jossa on kaksi tilaa, joku alkutila ja lopputila, esimerkiksi, että onko tutkittava kuollut vai elossa,
[09:31] mutta sit puhuit näistä yleistyksistä, että mitä sitten, jos onkin jotain vähän monimutkaisempaa,
[09:37] että esimerkiksi tutkitaan, tai potilaalla voi olla useampia sairauksia vaikka samanaikaisesti,
[09:44] Voiko tämmöisiä tutkia elinaikainalyysille?

[Speaker 2]

[09:47] Oikeastaan ehkä voisi tarkentaa sillä, että jos...
[09:52] Tai ehkä itse viittaisin tästä sellaiseen vaihtoehtoon,
[09:57] että yksilölle voi tulla erilaisia lopputulemia.
[10:02] Esimerkiksi ihminen voi olla terve nyt,
[10:04] mutta sitten hän voi saada tietyn sairauden tai sitten jonkun toisen sairauden.
[10:08] Ehkä nyt kaikkein selkein ja ymmärrettävin esimerkki olisi se, että jos tutkitaan kuolin syitä.
[10:18] Voidaan ajatella, että on olemassa joku kuolin syy.
[10:22] Meillä on vaikkapa tiettyyn syöpään kuoleminen on semmoinen päätetapahtuma.
[10:31] Sitten me katsomme aikaa siihen jostakin vaikkapa diagnoosista eteenpäin.
[10:36] ja sitten siellä voi olla tämmöinen kilpaileva, niin sanottu kilpaileva riski, joku toinen kuolin syy.
[10:41] Ikään kuin ihminen sitten menehtyykin johonkin toiseen syyhän, kuin siihen meidän varsinaiseen tutkittavaan päätetapahtuman mukaiseen syyhän.
[10:49] Silloin puhutaan kilpailevista riskeistä, ja niitä päätetapahtumia ei olekaan vain yksi, vaan niitä on kaksi tai sitten mahdollisesti useampia.
[10:57] Tämä on sinänsä kiinnostava elinaika-analyysin laajennus, että silloin meidän täytyy ajatella,
[11:06] että ihan tässä oikeassa maailmassa ihminen joutuu johonkin laatikkoon.
[11:12] Särkyttää nyt, että me puhumme laatikkomalleista, mutta tilaa, sanotaan näin.
[11:18] Jos yhtiön tilaan joutuu, niin sieltä ei pääse pois, ja sitten toiseen tilaan ei voi enää mennä.
[11:22] ja täytyy siinä mallin rakenteessa ja siinä analyysissa osata ottaa huomioon.
[11:28] Sitten voidaan mennä myös pitemmälle.
[11:30] Meillä on useampia kuin kaksi, meillä on kolme tai useampia tiloja.
[11:34] Jos palaan tähän nenänielukantajuus eli tämmöiseen oireettoman infektion tutkimiseen,
[11:43] niin siinä nimenomaan sitten yksikin yksilö voi vuoran perään olla ikään kuin ei-kantaja, niin sanotusti,
[11:52] tai sitten tyypin A-kantaja, sitten jälleen ei-kantaja, sitten ehkä tyypin B-kantaja.
[11:58] Silloin meillä on tämmöinen monitila-malli, missä nämä tilat tietyissä sekvensissä seuraa toisiansa,
[12:04] ja haluamme sitten ymmärtää sitä kokodynamiikkaa.
[12:08] Tästä on kaikenlaisia sovelluksia, paitsi lääketieteessä ja epidemiologiassa, myös vaikka sosiologiassa.
[12:15] Voidaan ajatella, että ihminen voi olla erilaisissa tiloissa, voi olla opiskelija, voi olla työssä,
[12:21] voi olla erilaisia kombinaatioita erilaisista tiloista, ja sitten voidaan katsoa, miten ihminen siirtyy,
[12:29] kuinka kauan kestää, että ihminen opiskelusta työllistyy tai joutuu työttömäksi ja uudelleen työllistyy.
[12:35] tämän tapaisia tapahtumahistoria ikään kuin niin sanottuja sekvenssejä tai tapahtumahistoriamalleja,
[12:44] jotka on taas tämmöisiä monitilaisia ikään kuin elinaikamalleja eli kestomalleja.
[12:51] Että on aika rikas tämmöinen kehikko, jonka sovelluksia on paljon muillakin aloilla kuin vaan
[13:01] lääketieteessä tai epidemiologiassa.
[13:03] Itse asiassa, me puhutaan aina englantilaisena terminä kuin survival analysis,
[13:10] elinaikaanalyysi, joka sitten kattaa myöskin,
[13:14] ehkä voisin sanoa, että se kattaa myöskin nämä yleistykset.
[13:17] Mutta sitten jossain muilla alueilla voidaan puhua esimerkiksi failure time analysis,
[13:21] niin kuin vaikkapa, että kuinka on kestävä, että koneen vikaantuu.
[13:24] Eli hyvin tärkeä tämmöinen tekninen kysymys,
[13:27] Siellä on oma traditionsa rakentaa näitä malleja, mutta hyvin samasta asiasta puhutaan.
[13:36] Eli vikaantumisen mallit tai elinajan mallit, että kestoja mallinnetaan.

[Speaker 1]

[13:43] Palataanpa sitten vähän elinaika-analyysin teknisempään läpikäymiseen.
[13:51] Sä tuossa paljon puhuitkin siitä, että elinaika-analyysissä se vastenmuuttoja on nimenomaan aika.
[13:58] Mutta osaisitko sä kertoa muuten, että kuinka elinaika-analyysi eroaa muista tutkimusasetelmista?
[14:04] Että millaisia ominaispiirteitä nimenomaan elinaika-aineistoilla on?

[Speaker 2]

[14:10] No tosiaan niin elinaika-analyysissä se vaste on aika johonkin hyvin määritetyyn päätetapahtumaan.
[14:18] Ja on muunkinlaisia tämmöisiä tilastollisia tai tutkimuksellisia asetelmia, joissa aika näyttelee jonkinlaista roolia.
[14:27] Esimerkiksi puhutaan niin sanottuista pitkittäisistä aineistoanalyyseista tai pitkittäismalleista.
[14:35] Ja siinä tarkoittaa silloin sitä, että esimerkiksi jos ihmiseltä mitataan vaikka verenpaine viikon välein,
[14:41] kun hän saa lääkitystä A tai lääkitystä B, niin silloin meillä on tyypillisesti tämmöinen pitkittäinen aineisto kyseessä,
[14:46] jossa se aika indeksoi, eli on ensimmäinen viikko, toinen viikko, kolmas viikko.
[14:53] Se aika siinä ei ole vastetapahtuma, vaan se on oikeastaan selittävä muuttoja, niin sanotusti.
[15:00] Eli jollakin tavalla nämä on supulaisia.
[15:03] Joskus on ongelmia, joissa voidaan sitten kummastakin suunnasta katsoa sitä ongelmaa.
[15:10] mutta noin lähtökohtaisesti aika toimii eri rooleissa, elinaika-analyysissa ja sitten taas pitkittäisaineistojen analyysissa.
[15:18] Sitten meillä on ehkä aikasarjat tulee mieleen sellaisena aika isona tällaisena mallikehikkona,
[15:24] että me katsotaan jotakin osakekurssien tai säätilan, lempötilan ikään kuin aikasarjaa.
[15:32] Ja siinäkin se aika tyypillisesti aika usein toimii semmosena indeksinä siitä, että monesko mittaus on menossa,
[15:40] monesko aikapiste on menossa ja sitten vieläpä niin, että siinä on usein vain tämmönen yksi ainoa pitkä sarja
[15:46] ja sitten taas ehkä pitkittäis-anniston analyysissa on semmonen ehkä lyhyehkoja aikasarjoja monelta monelta tutkimusyksilöltä.
[15:57] Elinaika-analyysissa se eroaa näistä tosiaan siinä, että se aika johonkin päätetä tapahtumaan on se varsinainen kiinnostuksen kohde ja vastenmuuttuja.
[16:06] Ja nyt jos puhutaan näistä piirteistä, designi, niin se aika siinä on kovin jännä olio, koska tota ihan teknisesti ottaen se on vaan positiivinen luku.
[16:16] Meillä on joku ajan oriko yleensä, nyt me puhumme sen ajan nollahetkestä, ja näissä ongelmissa pitää aina määritellä, että mikä se ajan nollahetki on.
[16:24] Se voi olla syntymä, jolloin se meidän aikamuuttija on ikä, tai se voi olla joku hoito, hoidon hetki tai hoidon saamisen hetki,
[16:36] jolloinkas me aletaan mitata sitten sitä jonkun päätötapattuman ikään kuin sattumista tästä hoidon alkuhetkestä,
[16:43] eli silloin se aika on aika hoidon saamisesta tai aika hoidon alkamisesta.
[16:48] Eli se ajan oriko jollakin tavalla aina määrittelee se, että mistä aikamuuttujasta puhutaan.
[16:53] Aika tavallaan kulkee samaa tahtia, mutta se aikamuuten nimi ja mistä oikeasti puhutaan määräytyy ajan nolla hetkestä.
[17:02] Sitten se odotetaan, odotetaan, odotetaan ja sitten yksilöllä tapahtuu se päätetapahtuma.
[17:10] Sitten me saadaan meidän havainto eli se vaste on se kulunut aika, ajan kesto.
[17:16] Tässä nyt tulee se ajan omituinen piirre, tai ei omituinen, vaan ehkä oleellinen piirre, että me joudutaan odottamaan, mitä se tapahtuu.
[17:24] Esimerkiksi vaikka verenpaine, vois ajatella, että se on positiivinen lukema.
[17:29] Se ei eroa teknisesti jotain ajasta, joka sekin on joku positiivinen lukema.
[17:36] Mutta sen me voidaan yleensä lukea suoraan, se verenpaine sitä mittarista.
[17:40] Mutta aikaa meidän täytyy odottaa.
[17:44] Ja siinä on kaksi asiaa ainakin, mikä sitten tästä seuraa.
[17:47] Yksi on se ihan tämmönen tilastotieteilijän ja totkijan ikään kuin ongelma, että aina meillä ei ole aikaa odottaa niin kauan, että kaikille tämä tapahtuma sattuisi.
[17:59] Me tiedetään vaan, että sitä ei vielä ollut tapahtunut.
[18:02] Oli ulotettu viisi vuotta, mutta ihminen oli yhä elossa, tai ihminen oli yhä terve, tai ihminen oli yhä siinä lähtötilassa, mikä sitten olikin sen ongelman mukainen lähtötila.
[18:13] Silloin me sanotaan, että tämä tapahtuma-aika on sensuroitunut.
[18:18] Me tiedämme, että yksilö oli välttänyt sen päätetapahtuman tiettyyn hetkeen saakka, mutta me emme tiedä milloin sitten siellä tulevaisuudessa se tapahtuisi.
[18:27] Tämä on nyt tyypillinen elinaika-analyysien, ehkä joskus sanotaan, että se on jopa se kaikkien eniten elinaika-aineistoja luonnehtiva piirre, että niissä on tätä sensurointia lähes aina.
[18:39] Eli meidän täytyy jotenkin osata ottaa huomioon siinä analyysissä.
[18:42] Sekin on informaatiota jakaumasta, että yksilö on kuitenkin pysynyt lähtötilassa
[18:48] tietyn mitan aikaa.

[Speaker 1]

[18:50] Eli niitä kumminkin siis analysoidaan?

[Speaker 2]

[18:52] Kyllä, niitä ei poisteta aineistosta, vaan nimenomaan se otetaan huomioon.
[18:56] Se on erittäin tärkeä siinä.
[18:57] Okei.
[18:58] Ja sitten toinen ehkä tässä ajasta on se, että koska se aika etenee,
[19:03] meidän mielestämme eteenpäin,
[19:05] niin useat tavat sitten kuvata elinaika-aineista tai sanotaan ajan kestoja perustuu tähän tämmöiseen ikään kuin ennustamiseen.
[19:15] Mitä tapahtuisi seuraavaksi tai kuinka nopeasti tapahtuisi seuraavaksi, jos vielä mitään ei ole tapahtunut,
[19:21] niin millä vauhdilla yksilö kohtaisi sen päätetapahtuman juuri nyt.
[19:27] Ja me tavallaan kerrytetään tämmöistä tietoa sitten aina ehdollistamalla kaikkeen siihen, mitä jo siihen mennessä on ehtinyt tapahtua.
[19:35] Se voi olla yksinkertaisemmillaan vaan se tieto, että yksilö on vielä siinä lähtötilassa, on vielä elossa, niin sanotusti, on vielä siinä nollatilassa, lähtötilassa.
[19:45] Mutta siihen voidaan sitten sisällyttää muutakin tietoa sen yksilön ikään kuin taustamuuttujista tai siitä, mitä hänellä on ehtinyt tapahtua aikaisemmin siihen hetkeen mennessä.
[19:54] Eli tämmöinen meidän halu ja taipumus ja sitten myöskin tekninen ikään kuin koneisto, joka on olemassa,
[20:04] niin se usein sitten mallintaa tämmöisiä ehdollisia tapahtumavauhtia.
[20:08] Puhutaan tämmöistä uhka-funktiosta tai hasardifunktiosta siinä yhteydessä.
[20:16] Eli vaikka sitten, mä voisin nyt ehkä ottaa vielä esimerkin siitä sensuroitumisesta,
[20:21] että meillä on ihan vastaavia ilmiöitä vaikka jossakin laboratoriamittauksissa,
[20:28] jossa meillä sitten tietää, siinä on vähän toiseen suuntaan sensuorioitumista kyse,
[20:33] että jos mä otan vähän taaksepäin tässä, niin se meidän tyypillinen elinajan sensuorioituminen
[20:38] tarkoittaa sitä, että yksilön tulevaisuus jää meiltä vähän niin kuin pimentoon.
[20:44] Me tiedetään vaan, että yksilö oli elossa tiettyä hetkeä mennessä.
[20:48] Sitten taas laboratoriamittauksessa on usein sellainen detektioraja.
[20:53] Tiedän, että jonkun aineen konsentraatio on alle sen detektioraja.
[20:57] En tiedä, että se on nollan ja detektiorajan välissä.
[20:59] Sekin on ikään kuin sensuroitunut havainto, joka on siellä jossakin.
[21:03] Tiedän, että se on olemassa, mutta tiedän vain, että se on välissä.
[21:07] Nollan ja detektiorajan välissä.
[21:11] Puhutaan vasemmalta sensuroitumista, kun se on pienemmässä päässä.
[21:14] Sitten taas elinaika-analyysissa usein puhutaan oikealta sensuroitumista sen takia,
[21:18] että ne on ikään kuin siellä aika, jos me pidetään se taululle, niin etenee vasemmalta oikealle,
[21:23] niin siellä sinne oikealle puolelle pimentoon se oikea tapahtuma-aika.
[21:28] Tämä on sinänsä hyvin tärkeä juttu.
[21:33] Elinaika-analyysissa ottaa huomioon tai huomata, että siellä on sensuroitumista,
[21:37] ja sitten myöskin osata ottaa se huomioon siinä analyysissa.
[21:40] Me ei heitetä pois niitä, muutenhän me vääristetään sitä informaatiota.

[Speaker 1]

[21:45] Mitä sitten mua kiinnostaa, että tuota...
[21:49] Sä puhuit tuossa, että kuinka kun tosiaan aika on nyt se vastenmuuttuja,
[21:54] niin on pakko odottaa, että niille, esimerkiksi potilaille,
[21:58] tapahtuu siellä tutkimuskohortissa jotain.
[22:01] Niin eikö elinaika-aineistoja sitten pysty tekemään
[22:04] silleen retrospektiivisesti vaikka jostain databaissista?

[Speaker 2]

[22:09] Tämä on hyvä kysymys, ja kyllä voi, että tämä ideali nyt ehkä oli...
[22:15] Tosiaan tässä esitin asian oli, että meillä olisi tämmöinen tutkimuskoortti,
[22:20] muodostettu hetkellä nolla, ja sitten sitä seurataan eteenpäin ajassa,
[22:24] kunnes niitä päätetapahtumia sattuu ainakin riittävän määrä,
[22:27] ja loput sitten sensuroituisi, kun tutkimus päättyy vaikka vain viiden vuoden kuluttua.
[22:32] Mutta on ihan totta, että Suomessa aika usein ja hyvinkin voidaan tehdä tämmöisiä
[22:40] retrospektiivisia kohorttitutkimuksia, joissa se aineisto kerätään rekistereistä jopa vuosikymmenten takaa.
[22:45] Ja sitten luodaan tämmöinen rekisteripohjainen kohortti, eli tämmöinen tutkimusjoukko.
[22:54] Ja sitä voidaan sitten analysoida ihan samoin menetelmin, ikään kuin se oli se seurattu sieltä vuodesta 1960,
[23:00] Aikapa eteenpäin.
[23:02] Silloin tietenkin saadaan paljon pitempiä seuranta-aikoja ja mahdollisesti vähemmän sensurointia.
[23:10] Riippuu tietenkin tutkimuskysymyksistä ja siitä aikajänteestä, mutta se on ihan totta, että näin voidaan tehdä.
[23:16] Siitä tulee tietenkin ehkä...
[23:18] Voi tulla muunlaisia ongelmia rekisteritiedon suhteen, mutta ne eivät ehkä usketa elinaika-analyysin kehikkoa sinänsä.
[23:27] Eli se on ihan totta, että näin voidaan tehdä.

[Speaker 1]

[23:31] Joo, tässä on nyt tullut paljon asiaa lyhyessä ajassa.
[23:35] Uusien asioiden oppimisesta tulee aina kaikkia uusia käsitteitä,
[23:39] mitä monia oletkin tässä jo maininnut.
[23:42] Eli ehkä hieman kertauksena,
[23:44] mitä olisi sellaisia oleellisia, tärkeitä käsitteitä,
[23:48] jotka nimenomaan elinaika-analyysiin liittyvät?

[Speaker 2]

[23:51] No, ehkä nyt sen vielä ikään kuin kertaan,
[23:55] että se aikamuuttujan...
[23:58] Kaksi tärkeitä asiaa pitää päättää, kun aletaan tehdä, sanotaanko, elinaikaanalyysiä.
[24:05] Täytyy päättää, että mikä on se päätetapahtuma ja missä se ajan ori on, mistä sitä aikaa mitataan siihen päätetapahtumaan.
[24:14] Tämä voi tuntua aivan jotenkin yli yksinkertaiselta ja triviaalilta.
[24:21] Tietenkin sen pitäisi suoraan seurata tutkimuskysymyksestä, mutta on kuitenkin oikein hyvä, että itsellensä kirjoittaa ne alas, että nämä ne ovat, ja myöskin osaa ne siinä raportissa kertoa, se on tärkeä asia.
[24:39] Sitten on sellaisia ehkä enemmän teknisiä asioita, jotka liittyvät analyysiin ja siihen informaation kertymiseen.
[24:46] Eli silloin, kun meillä on tämmöinen tilanne, jossa osa yksilöistä tai heidän tapahtuma-aikansa niin sanotusti sensuroituu sieltä oikealta ja lievät vähän sinne tulevaisuuteen,
[24:59] niin meidän täytyy ottaa sekin huomioon kuitenkin sekin informaatio.
[25:03] Silloin käytetään tämmöistä käsitettyä kuin riskijoukko ja henkilöaika.
[25:07] Eli usein siinä tutkimusjoukossa, tutkimuskohortissa katsotaan, että ketkä meillä on seurannassa.
[25:14] Eli ne, jotka ovat tutkimuksessa mukana ja joille minä pystyisin kertomaan juuri nyt, jos heille tapahtuu se päätetapahtuma tai ei.
[25:23] He ovat riskijoukkoon kuuluvia.
[25:25] Ja sitten sen jälkeen, kun se päätetapahtuma on sattunut jollekin yksilölle tai jos hän sensuroituu, niin hän poistuu riskijoukosta.
[25:32] Se on tämmöinen tekninen käsite, joka on hyvin hyödyllinen käytännössä ja vaikkapa juurikin tämmöisessä koorttitutkimuksessa tärkeä käsite.
[25:44] Sitten tämä henkilöaika, englanniksi person time, on sitten se totaaliseuranta-aika, joka sitten tässä riskijoukossa kiertyy, että nämä kaksi käsitettä menee käsikädessä.
[25:55] Ja jos me nämä ikään kuin rekisteröidään ja otetaan havaintoina mukaan siihen analyysiin,
[26:02] niin silloin me pystytään tietyin edellytyksin analysoimaan sitä erinaikajakaumaa,
[26:08] ikään kuin sensurointia ei olisi.
[26:11] Eli me pystytään korjaamaan se, siinä on tiettyjä oletuksia, mitä joudutaan tekemään siitä.
[26:15] Ja ehkä on helppo sanoa se, että siinä tavallaan oletetaan, että ne, jotka sensuroituvat minun aineistostani,
[26:23] eivät ole sen oletettavissa olevan tulevaisuudessa kannalta mitenkään sairaampia tai terveempiä tai herkempiä sille päätetapahtumalle
[26:33] siis kun ne jotka jäävät siihen koorttiin.
[26:35] Eli et se mun koortti ei jotenkin rikastu kohti terveempiä tai sairaampia sanotaanko näin vaikkapa ajan myötä.
[26:45] Ehkä tämmöiset asiat tässä tulee mieleen vielä tästä teknisemmästä puolesta.
[26:53] No sitten, miten näitä elinaika-aineistoja analysoidaan?
[26:57] Ihan lyhyesti ehkä siitä muutaman sanan.
[26:59] Usein me pyritään piirtämään sellainen elinajan keston jakaumakuva jollakin tavalla.
[27:06] Suoraan aineistosta voidaan tietyin eläintyksin piirtää sellainen käyrä,
[27:12] että vuoden päästä vielä 75 prosenttia tutkimuskohortista oli lähtötilassa, oli vielä elossa.
[27:20] Käytän tätä termiä elossa tässä ikään kuin geneerisenä, että on vielä lähtötilassa.
[27:26] Sitten katsotaan, mikä tilanne on kahden vuoden kohdalla, kolmen vuoden kohdalla.
[27:30] Sitten tulee laskeva käyrä.
[27:31] Mitä pitemmällä ajassa mennään, sitä pienempi osuus on enää lähtötilassa.
[27:36] ja tämä on sitten tämmöinen sen koko elinaikajakauman kuva.
[27:44] Puhutaan tämmöistä välttöfunktiosta ja nyt tilasto seuraa uusi sanasto.
[27:49] Sanoo, että tämä on se kestofunktio tai elossaolofunktio, eli se on se, että kuinka suuri osuus on vielä elossa, eli lähtötilassa kullakin ajan hetkellä.
[27:59] Eli tämä välttäfunktio, kestofunktio tai elossaolofunktio, kaikki tarkoittavat samaa asiaa, niin sitä tosiaan voidaan suoraan aineiston perusteella arvioida
[28:12] tämmöisenä niin sanottuna Kaplan-Meyer-menetelmällä.
[28:15] Se saattaa olla osalle kuulijoista tuttukin jo, ja se on hyvin tavallinen tapa kuvata aineistoja.
[28:23] Ja sitten tietenkin voidaan rakentaa tämmöisiä elinaikaregressiomalleja.
[28:29] Tapani kuin lineaarinen regressio, jos se on tuttu kuulijoille, niin tässä sitten pyritään niitä elinaikoja tai sitten niitä elinaikajakamoa vaikuttavia parametreja selittämään erilaisilla ikään kuin muuttujilla,
[28:43] vaikkapa just sillä altisteella tai iällä tai muilla taustamuuttujilla tavallisen regressiomallin tapaa.
[28:50] Siellä on tietyt omat sitten malliluokkaset siihen.

[Speaker 1]

[28:57] Puhuit aika paljon siitä, että kun ne censuroituu, niitä havaintoja pitää pystyä kumminkin analysoimaan jotenkin.
[29:08] Onko tämä hasardin periaatteessa se, millä niitä pystytään analysoimaan?
[29:13] Tämä menee nollaan vasta sitten, kun päätötapahtuma on sattunut.

[Speaker 2]

[29:17] Tämä on aika hyvä kysymys.
[29:19] Tämä voi olla suorastaan hankala vastata ihan suoraan.
[29:26] Mutta luulen, että olet kyllä ihan hyvin tässä jäljellä.
[29:31] Hasardi itsessänsä käsitteenä, sellaisena mallin parametrina,
[29:36] Jollakin tavalla sanotaan, että elinaikajakama voidaan parametrisoida hasardin avulla.
[29:43] Voidaan esittää hasardin avulla.
[29:46] Tämä ei sinänsä vaadi ajatusta siitä, millainen aineistoni on, ja onko siellä sensurointia vai ei.
[29:53] Se on ihan semmoinen teoreettinen suure.
[29:58] Tarkoittaa käytännössä sitä vauhtia, jolla se tapahtuma sattuu juuri nyt, jos ei sitä vielä ole tapahtunut.
[30:07] En hirveästi valitse, jos sanon, että se voidaan useimmiten tulkita näin,
[30:12] että se on suorastaan se ehdollinen todennäköisyys,
[30:15] että se tapahtuma sattuu juuri nyt ehdolla,
[30:17] että se ei ollut vielä tapahtunut.
[30:19] Eli jos katson, että minulla on vauhti kertaa pieni ajan väli,
[30:27] niin niiden kahden tulo matemaattisesti on se todennäköisyys,
[30:32] että se tapahtuisi juuri nyt.
[30:34] Eli tämmöisenä käsitteenä se on olemassa ennen kuin meillä on yhtään havaintoa.
[30:42] Sitten sä kysyit, tai lähdit kysymyksessäsi siitä, että meillä on sensuroitu jo havaintoja.
[30:49] Niin mitäs tämä hazardi siihen pelaa?
[30:52] No se on kyllä ihan totta, että kun se kattoo aina vain sitä seuraavaa hetkeä,
[30:57] jollekin tavalla puhuu vain niistä yksilöistä tai koskee vain niitä yksilöitä, jotka vielä ovat lähtötilassa.
[31:04] Niin sillä tavalla se kyllä sopii hyvin sitten mallintamaan ja kirjoittamaan ikään kuin teknisesti sitä ikään kuin...
[31:15] Ja nyt mennään vähän sinne syviin vesiin, ikään kuin niitä niin sanottuja uskottavuuslausekkeita,
[31:20] joita tarvitaan siellä malliin ikään kuin parametrien estimoinnissa.
[31:27] niin se kyllä sitten soveltuu erityisen hyvin näihin.
[31:29] Samaten nämä kilpailevia riskejä, joista oli aluksi puhetta,
[31:32] sopii myös niihin, koska vaikka minulla olisi kolme eri
[31:37] mahdollista päätetapahtumaa kilpailemassa keskenään,
[31:41] niin tämä hazard puhuvaan sitä seuraavasta milli tai mikro tai vielä nano,
[31:46] kuinka pienen aikaaskeleen hyvänsä seuraavan hetken tapahtumisesta,
[31:52] niin nämä kolme eri vaikkapa kilpailevaa syytä kaikki,
[31:56] voin ikään kuin laskea niille nämä hazardit ehdolla, että mikään näistä kolmesta ei ole vielä tapahtunut.
[32:03] Se olisi paljon hankalampaa, jos puhuisin näistä kolmesta tapahtumasta vaikka vuoden päässä,
[32:08] koska ne on selvästi, että jos yksi on tapahtunut ja toinen ei ole voinut tapahtua,
[32:11] niin voin puhua niistä riskeistäkään kuin jotenkin riippumatta.
[32:14] Tämä hazardista pystyy puhumaan.

[Speaker 1]

[32:16] Joo.
[32:17] Sitten sinä tuossa hieman jo aiemmin mainitsit näistä väyttöfunktioista
[32:24] ja niiden merkitykset tälle elinaiva-analyysille.
[32:27] Mutta miten se nyt sitten liittyy näihin hasardeihin?

[Speaker 2]

[32:30] No, tämä välttö tai kestofunktio tai elossaolofunktio,
[32:35] jota sillä Kaplan-Mayer-menetelmälläkin voidaan arvioida,
[32:38] niin se on yksi tapa kuvata elinaikajakaumaa.
[32:43] Eli usein sanotaan näin, ja se on ihan totta,
[32:45] että elinaikajakauma voidaan täysin ikään kuin määritellä
[32:49] joko antamalla tämä välttöfunktio tai hasardefunktio.
[32:54] Eli ne on tavallaan ikään kuin semmoiset komplementaarset tai vaihtoehtoiset tavat kuvata sitä samaa asiaa.
[33:01] Välittöfunktio on sillä tavalla konkreettinen, jota voidaan usein tosiaan sillä Kaplan-Meier-menetelmällä suoraan aineistosta piirtää.
[33:08] Ja se on myöskin ehkä helppo tulkita, kun se suoraan tarkoittaa sitä elossaolon todennäköisyyttä ja sen aikariippuvuutta.
[33:19] Hasardi taas on kätevämpi parametri silloin, kun aletaan puhua siitä ja mallintaa sitä, että mikä vaikuttaa siihen tapahtumisen vauhtiin.
[33:27] Miten altistus tai hoito tai eri taustamuuttijat joko ikään kuin nopeuttavat tai hidastavat sitä tapahtumisen vauhtia.
[33:35] niin siinä on se hazardi, nämä tällä tavalla rakennetut regressiomallit,
[33:41] niin useimmiten perustuu nimenomaan tämän hazardin vaihtoehtoon,
[33:45] sanoisiko suoremmin kuin siihen välttöfunktioon.
[33:49] Ja ne ovat kuitenkin, ne eivät ole erilliset asiat,
[33:52] että ne ovat tavallaan ikään kuin kolikon kaksipuolella.

[Speaker 1]

[33:56] Okei, kiitos.
[33:58] Tähän väliin olisi varmaan hyvä tehdä joku pieni kertaus tästä kaikesta,
[34:02] miten ollaan elinaikamalleista puhuttu, ennen kuin siirrytään kohorttitutkimuksiin.
[34:08] Mietin, että suurin osa meidän kuuntelijoista on varmaan semmoisia,
[34:10] jotka joskus aikoo tehdä tällaisia elinaikanalyysejä.
[34:15] Pitäisikö se kertaas tehdä vaikka listaamalla vähän,
[34:19] että minkä seikkojen määrittelyyn elinaikanalyysi perustuu?
[34:22] Tai jos itse olet tekemässä elinaikamallia,
[34:25] niin mitä sun pitää muistaa tehdä?

[Speaker 2]

[34:29] Tätä voi olla ehkä hankala tyhjentävästi nyt näin tässä formaatissa antaakaan, mutta jonkinlainen lista tässä nyt ehkä meillä on.
[34:41] Tietenkin ensimmäinen kysymys on se, että mikä se tutkimuskysymys on, ja se sitten sanelee sen, että tosiaan niin kuin sanottiin aikaisemminkin tässä jo,
[34:49] että mikä on se ajan nolla hetki ja mikä on sitten se päätötapahtuma, johon sitä aikaa mitataan.
[34:56] Ja jotta me voitais tutkia sitä meidän päätettä tapahtumaa, eli sitä aikamuuttujan kestoa ja sen riippuvuutta vaikkapa sen hoidosta tai altisteesta,
[35:07] niin meidän täytyy ihan tavallisen tilastollisen teorian mukaan olla kiinnostuneita ja pitää huoli siitä, että se meidän kohortti on jonkinlainen otos siitä päästöstä,
[35:19] mitä haluamme tutkia.
[35:20] Tässä on ihan samat oletukset tai ajatukset voimassa, toki siltä osin.
[35:28] Sitten me keskusteltiin siitä, tai oikeastaan näin voisi sanoa, että kun se ajan nollahetki on määritetty,
[35:34] niin silloin se aika alkaa juosta siitä hetkestä, siihen päätöt tapahtumaan.
[35:40] Mutta sellainen uusi juttu, mistä ei ehkä puhuttu vielä, on se, että aina se seuranta ei ala sieltä nollasta.
[35:46] Eli jos vaikka meillä on ikä, se aikamuuttuja, niin se alkaa juosta sieltä syntymästä, mutta yksilö ei välttämättä ole tullut meidän seurantaan, aktiivisen seurantaan, kun vasta tietyn ikäisenä.
[35:59] Ja silloin tämä pitää ottaa huomioon, taas yksi semmoinen uusi piirre, joka pitää ottaa huomioon siinä elinaika-aineistoanalyysissa, että mä tiedän kyllä, että se yksilö on elossa,
[36:09] eli siinä lähtötilassa silloin, kun hän tulee siihen tutkimukseen, mutta kysymys on sen, että tämä on ehkä nyt hyvin...
[36:18] Ehkä hieman hankalaa tässä selittää, mutta ensimmäinen ajatus oli se, että no, minähän voin ajatella, että minä olen seurannut häntä siitä syntymästä asti,
[36:26] kun hän kerron, että on yhä tässä nyt minulla olemassa sillä hetkellä, kun hän liittyy tähän tutkimukseen, mutta useimmiten tämä on väärin.
[36:36] Teknisesti ottaen mun täytyy ottaa se informaatio tästä yksilöstä huomioon siinä analyysissa vasta siitä iästä lähtien kun hän liittyy tähän seurantaan eli tulee riskijoukkoon.
[36:45] Siinäkin se riskijoukko on taas tärkeä käsite, että se pitää ottaa tällä tavalla huomioon.
[36:51] Ja siksi tämä ajan nollahetki ja sitten sen seurannan alkuhetki ei välttämättä ole sama asia.
[36:58] Se on, se on, se on, puhutaan tämmöisestä englanninkielisellä termiä kuin late entry eli myöhäinen ikään kuin
[37:06] mukaan tulo tutkimukseen tämmöisissä ongelmissa.
[37:11] No sitten sensuroinnista ollaan puhuttu ja nimenomaan sitä niin sanotusti oikealta sensuroinnista, jos puhutaan
[37:18] sensuroinnista, niin elinaikanaanalyysissä tyypillisesti tarkoittaa juuri tätä tulevan tapahtuman
[37:25] sensuroitumista, eli oikealta puolelta sensuroitumista.
[37:29] Tästä pitää olla sen verran kiinnostunut, että mikä sen syy on sensuroituminen.
[37:34] Jos se on ihan täysin riippumaton syy siitä meidän varsinaisista tutkimuskysymyksistä,
[37:38] niin yleensä silloin ollaan ikään kuin hyvillä vesillä.
[37:43] Eli että se sensuroituminen ei rikastuta sitä mun jäljellä jäävää kohorttia
[37:49] jotenkin terveempiin tai sairaampiin päin.
[37:52] mutta jos se sensuroitumisen syy on jotenkin, jos se liittyy jotenkin siihen vastetapahtumaan.
[37:57] Esimerkiksi, että ihmiset, jotka tuntevat itsensä jo sairaiksi, niin jäävät pois sen takia tai ovat tavallisesta terveempiä ja jäävät siksi pois,
[38:08] eivät katso hyötyvästä tässä tutkimuksessa mukanaolosta.
[38:11] niin silloin se ikään kuin vääristää sitä kohortin koostumusta ja harhauttaa.
[38:21] Puhutaan tämmöistä harhasta tai bias, englanniksi sillä termillä.
[38:27] Eli tämä sensurointi ikään kuin sääntö tai mekanismi, se pitää jotenkin hahmottaa
[38:31] ja sitten myöskin usein tehdään oletuksia siitä, että kuinka epäinformatiivista niin sanotusti se on.
[38:37] eli onko meillä tämmöinen vaara, että meillä tapahtuu tämmöistä valikoitumista siinä kohortin koostumuksessa aikaa myöten.
[38:48] Ja ehkä tämmöisiä asioita siinä osin kertauksena tuli vielä.

[Speaker 1]

[38:55] Toisesta vaiheesta nopeasti, eli kohorttitutkimuksesta.
[38:59] Kertoisitko sä aluksi ihan vaan, että mitä kohorttitutkimus tarkoittaa?

[Speaker 2]

[39:04] No nyt kohorttitutkimus oikeastaan ainakin itselleni tarkoittaa käytännössä samaa kuin elinaikahanalyysi kohde.
[39:14] Eli on puuttu jo paljon kohortista, joka on tämmöinen tutkimusjoukko, jota seurataan ajassa eteenpäin.
[39:21] Se kohorttihan, se on joku romalaisen legioinnin termi semmoisesta, en muista enää kuinka monta yksilöä tai sotilasta siihen kuuluu,
[39:29] mutta se oli semmoinen eteenpäin etenevä yksikkö.
[39:32] Siitä tulee tämä kohorttikäsite myös tähän tutkimukseen, että meillä on tutkimusyksilöitä, jotka ajassa etenevät eteenpäin, kunnes jotakin tapahtuu.
[39:44] Eli ne on seurantatutkimuksia, ja ne voi olla tämmöisiä prospektiivisia, jossa me lähdetään nyt liikkeelle ja aletaan seurata eteenpäin, tai sitten ne voidaan retrospektiivisesti,
[39:55] Eli taaksepäin ajassa kerätä, niin kuin tuossa otit esiin aikaisemmin.
[40:02] Ja se, mikä nyt ehkä sitten, jos nyt tässä saan ajatella ääneen,
[40:10] niin karakteerisoi koorttitutkimuksia.
[40:13] Terminä ehkä usein viittaa tämmöisiin suorastaan väestötason tutkimuksiinkin.
[40:19] Isompia juurikin, ehkä puhutaan rekisteripohjista koorttitutkimuksista juurikin silloin,
[40:24] kun ne on tietorekistereistä kerätty, mutta kyllä kohorttitutkimus voisi olla myös
[40:32] sanotaanko kliininen potilaskohortti, jota sitten tutkitaan jostakin tietystä
[40:38] kliinisestä tapahtumasta eteenpäin, että kyllä nekin menee tähän samaan kehikkoon.
[40:43] Ero on ehkä sitten, ei ehkä tässä termissä niinkään, mutta siitä, että miten näitä
[40:49] Sitten analysoidaan, mitä ehkä semmoinen rajatumpi kohortti, pienempi kohortti, selvempi ikään kuin lyhyempi aikajakso meillä on tutkittavana,
[41:01] niin sitä enemmän ollaan usein kiinnostuneita semmoisista ikään kuin yksilöiden välisestä vaihtelusta siinä elinaikataikestojakaumassa.
[41:09] Sitten taas väestötasolla ollaan usein kiinnostuneita keskimääräisistä vauhdeista tai keskimääräisistä ikään kuin uhista.
[41:18] Eli silloin voidaan tyypillisesti mallintaa paljon karkeammin, kun pysytään vain,
[41:23] että miten diabetesilmaantuvuus on vaihdellut vuosikymmenten mittaan eri-ikäisissä ja eri alueilla vaikkapa.
[41:34] Se tulee ehkä siitä karkeustasosta sitten se ero, että osin puhutaanko ihan tämmöisestä rajoitummista ongelmasta tai väestötason ongelmasta.
[41:45] Molemmat menisivät kohorttitutkimuksen ison keikon alle.

[Speaker 1]

[41:50] Voisi sanoa, että kaikki elinaikaanalyysitutkimukset ovat kohorttitutkimuksia,
[41:55] mutta ei välttämättä toisinpäin?

[Speaker 2]

[41:58] Varmaan voisi sanoa näin, jos hetken mietin.
[42:02] Nämä termit ovat hankalia sillä tavalla, että kun tiedetään nyt...
[42:07] Tiedätte ja lukijat tai kuulijatkin tietävät,
[42:13] että niitä ei ole hyvin hankalaa pitää puhtaina.
[42:17] Näitä on mahdottomia, että siinä mielessä näistä voi olla monta mieltä.
[42:24] Kylläkin.

[Speaker 1]

[42:25] Joo, mutta kyllä tämä varmasti kuulijoille tuli läpi nyt kuitenkin.
[42:31] Pääpointit kohorttitutkimuksista.
[42:33] Hei, kiitos paljon.
[42:35] Pystyisitkö vielä vähän tiivistämään tähän loppuun, että mitä toivoisit, että meidän kuuntelijat
[42:40] että muistaa tästä johdatuksesta elinaika-analyysiin ja kohorttitutkimuksiin?

[Speaker 2]

[42:45] Tämä on vaan hankala kysymys.
[42:50] Ehkä sen nyt, että elinaika-analyysia luonnehtii kestojen mallintaminen.
[42:58] Ja jos sinun tutkimusongelmasi on sellainen, että siinä on se kesto.
[43:04] Jonkun ajan kesto on keskiössä ja kiinnostuksen kohteena.
[43:08] tai se, mikä siihen vaikuttaa, mikä lyhentää keskimäärin niitä paranemisaikoja tai uudelleensairastumisaikoja tai pidentää niitä,
[43:21] niin silloin kannattaa kääntyä elinaika-analyysin puoleen, että se on ehkä se.
[43:27] Ja sitten toinen on se, että tässä tuli aika monta tämmöistä teknisempää asiaa, mutta tämä sensuroitumisen ongelma
[43:35] ja se, että meidän tieto, informaatio, tyypillisesti tällaisessa elinaikatutkimuksessa eli kohorttitutkimuksessa
[43:43] kertyy jollakin tavalla vajavaisesti.
[43:44] Siellä on aina jotakin puuttuvaa, että meille se sensuroituminen on tämmöinen puuttuvan tiedon ongelma
[43:51] esimerkiksi, ja näistä täytyy olla jonkun verran tietoinen ja sitten myöskin uskoa ja ymmärtää, että tietyn oletuksiin me voidaan tätä ottaa huomioon
[44:01] näitä puuttuvan tiedon ikään kuin ongelmilta tulee siitä, että me joudumme odottamaan, että tapahtumat sattuvat, jos sattuvat, tai että me otamme kiinni ihmisen seurantaan myöhemmin, kun oikeastaan aika on jo alkanut juosta.

[Speaker 1]

[44:17] Okei.
[44:18] Hei kiitos professori Kari Auronen, että jaoit meille osaamistasi.
[44:23] Ja kiitos sulle kuuntelija, ja toivottavasti tämä innostaa sinua opiskelemaan lisää tilastotieteestä.
[44:30] Toivottavasti kuullaan taas statistiikan aloilla.
[44:43] Tämän podcastin on tuottanut Turun yliopiston lääketieteellisen tiedekunnan biostatistiikan yksikkö.

Esimerkkejä erilaisten tilastollisten testien käytöstä

Tässä Statistiikan aalloilla -jaksossa avataan edellisen jakson aihetta, eli tutkimusasetelmia ja tilastollisen testin valintaa esimerkkien kautta.

Tämän podcastin sisältö sopii erinomaisesti tutkijoille ja kaikille, jotka haluavat oppia tunnistamaan erityyppiset muuttujat sekä valitsemaan sopivan tilastollisen testin yksinkertaisissa tilanteissa. Tämän jakso liittyy Turun yliopiston lääketieteen, bio- ja hammaslääketieteen opiskelijoille pakolliseen Havainnoista päättelyyn -kurssiin. Kurssi on avoin kaikille DigiCampuksella, ja sieltä löytyy podcastissa mainittu analyysikartta.


[Speaker 0]

[00:06] Tervetuloa jälleen statistiikan aalloille.

[00:09] Olit sitten opiskelija, tutkija tai ihan muuten vaan kiinnostunut tilastotieteestä, niin hienoa, että sä oot kuulolla.

[00:15] Minä olen biostatistikko Markus Riskumäki, ja tänään mun kanssa studiossa on jälleen biostatistikko Elisa Löytyniemi Turun yliopiston biostatistiikan yksiköstä.

[00:24] Tervetuloa. [Speaker 1]

[00:26] Kiitos, kiitos, kiva olla taas täällä puhumassa näistä käytännön esimerkeistä. [00:29] Joo, jep.

[Speaker 0]

[00:31] Tosiaan tän päivän jakson Öö jatkoa tuolle aiemmalle jaksolle tilastollisen testin valinnasta, että tota Öö edellinen jakso meinasi mennä niin pitkäksi, että päätettiin nää käytännön esimerkit jättää sitten tälle vähän myöhemmälle.

[00:45] Öö eli tota tosiaan, jos et sitä ole kuunnellut vielä, niin suosittelen käymään kuuntelemassa sen ensimmäisen jakson, koska siinä käydään teoriaa vähän tarkemmin läpi, ja nyt tosiaan vähän sitten enemmän käytännön esimerkkejä siitä, että mikä testi kannattaa missäkin tilanteessa valita.

[01:02] Tää jakso sopii tietysti aivan kaikille, mutta varsinkin esim Öö lääketieteen, lääketieteellisen tiedekunnan opiskelijoille ja tutkijoille, joilla saattaa monesti olla vaikea hahmottaa, mitä testiä kannattaisi käyttää minkäkin tutkimuskysymyksen kanssa. [01:16] Öö mainintana vielä tässä vaiheessa, että jos sä oot enemmän semmoinen

visuaalinen oppija, niin esimerkiksi netistä löytyy hirveä määrä erilaisia analyysikarttoja testin valintaa helpottamaan, mutta jos sä haluat sellaisen suomeksi, niin sellainen löytyy esimerkiksi meidän havainnoista päättelyyn kaksi kurssin digikampus-alustalta.

[01:36] Ja hyvä uutinen on se, että digikampus on avoin ihan kaikille. [01:40] Joo,

[Speaker 1]

[01:40] sinne pääsee siis tietenkintunnareilla, mut sinne pääsee myöskin hakatunnareilla ja sinne pääsee myös Google-tilin kautta.

[01:47] Eli ei tarvita mitään kurssiavaimia eikä mitään sellaisia, vaan pääsee milloin tahansa kertaamaan tai oppimaan beostatistiikkaa.

[Speaker 0]

[01:56] Että jos semmoinen lisäoppiminen kiinnostaa, niin me laitetaan linkki tuolle avoimelle kurssille tän jakson kuvaukseen.

[02:02] Mutta minäkin sitten itse asiaan.

[02:05] Elikkä millaisia tota tilastollisia testejä pitäisi missäkin tapauksessa käyttää? [02:10] Joo,


 

[Speaker 1]

[02:10] mutta pitäisikö meidän tässä vaiheessa vielä kerrata ne oikeasti semmoiset neljä perusasiaa, Öö mitä me puhuttiin jo siellä teoriapuolella, mutta kerrataan vielä.

[02:20] Eli silloin kun lähdetään etsimään optimaalista analyys metodia, niin silloin sun pitää tunnistaa, mikä on sun tilastoyksikkö siinä sun datassa.

[02:28] Useinhan kliinisissä tutkimuksissa oli se yksi ihminen, mutta oli tiettyjä erikoistapauksia, että se voi joskus olla jopa silmä tai jotain muuta erikoisempaa. [02:37] ja Öö ja se on aina riippumatonta, eli toisesta ihmisestä mitatut arvot on riippumattomia toiseen.

[02:45] Mutta sitten jos me mitataankin samaa ihmistä toistuvasti, niin ne on riippuvia mittauksia, ja se meidän täytyy tunnistaa.

[02:52] Ja vastaavasti sitten jos meillä on vasteena eli meidän kiinnostuksen kohteena jatkuva muuttuja, numeerinen muuttuja, niin silloin meidän täytyy tutkailla, minkälainen jakauma sillä on.

[03:05] Ja Öö koska meillä kaikista tehokkaimmat testit saadaan siitä normaalijakaumasta Eli mikä on se symmetrinen kello, kellokäyrä tai kaus käyrä, niin Öö sitä vasten me tutkaillaan sitä jatkuvan muuttujan tota jakaumaa.

[03:20] Ja sit meidän täytyy tietenkin tunnistaa siitä, että mikä on se meidän kiinnostuksen kohteena oleva muuttuja ja millä muuttujilla eli tekijöillä me koitetaan selittää sen vasteen käyttäytymistä ja sen vaihtelua.

[03:33] Siitä lähtee Niinku kaikki tavallaan liikkeelle. [Speaker 0]

[03:36] Joo, eli kertauksena Öö edellisestä Öö jaksosta, eli ensin ennen kuin ruvetaan näitä testejä miettimään, niin sun pitäisi tietää tai ottaa selvää, että mikä sun tilastoyksikkö on, että onko se esimerkiksi ihminen tai vaikka silmä.

[03:53] Sen jälkeen sun pitää miettiä, että mikä sun vastemuuttuja on, eli se kiinnostuksen kohteena oleva muuttuja ja että onko se numeerinen, eli jatkuva.

[04:03] Eli voi saada periaatteesta nollasta äärettömään arvoja [Speaker 1]

[04:07] tai jopa negatiivisia arvoja. [Speaker 0]

[04:11] Tai sitten, vai onko se kategorinen, eli joku Niinku luokitteleva [Speaker 1]

[04:15] muuttuja.

[04:15] Niin esimerkiksi, että paran Öö tota murtuma vai eikö parantunut? [Speaker 0]


 

[04:20] Ja tämän jälkeen se tietysti, mihin kaikki tähtää tai haluaisivat tähdätä, on se, että kun tutkitaan tää jatkuvan muuttujan Öö jakaumaa, että nope- noudattaisiko se normaalijakaumaa, eli sitä semmoista tuttua kellokäyrää, koska silloin se on ikään kuin helpompi.

[Speaker 1]

[04:38] Tehokkaampi analysoida, voimakkaammat tilastolliset testit saadaan aikaiseksi. [Speaker 0]

[04:45] Mut joo, siinä oli pieni lyhyt kertaus viime jaksosta, mutta mennään nyt sitten tämän päivän asiaan.

[04:53] eli niiden tilastollisten testien valintaan esimerkkien kautta.

[04:57] Ja tota voitaisiin varmaan aloittaa metodien ehkä yksinkertaisemmasta päästä, eli otetaan nyt Öö vastemuuttujaksi jokin numeerinen muuttuja, eli jatkuva muuttuja ja verrataan sitä kahdessa eri ryhmässä.

[05:12] Minkäslaisia tutkimuskysymyksiä saattaisi olla tällaisessa tilanteessa kyseessä? [Speaker 1]

[05:16] No yksi esimerkki on semmoinen, että meillä oli noin tuhatkuusisataa aika iäkästä naista, Öö vähän yli kuusikymppisiä kaikki, Öö ja me haluttiin tutkia sitten, että Öö mitä Öö miten he Öö tässä tutkimusjoukossa eroaa ne, jotka syö D-vitamiin lisää verrattuna niihin, jotka eivät syö D-vitamiinilisää.

[05:38] Ja Öö näin meitä, meille muodostui tästä tutkimusjoukosta kaksi riippumatonta ryhmää, söi tai ei syönyt D-vitamiini lisää ja näitä ryhmiä me sitten haluttiin verrata, me haluttiin verrata myös niitten ikää, painoja, Öö kalsiumin syöntiä, Öö alkoholin käyttöä gramoissa.

[05:56] Ja näin meille muodostui kaksi riippumatonta ryhmää. [Speaker 0]

[06:01] Joo.

[06:02] Tällaisessa tilanteessa tosiaan, kuten aina jatkuvien muuttujien kanssa, ensin pitäisi testata, että onko se vastemuuttuja normaalisti jakautunut.

[06:10] Ja tässä tapauksessa molemmissa kahdessa ryhmässä.

[06:14] Jos se normaalisuus voidaan olettaa, niin silloin me valitaan niin sanottu parametrinen vaihtoehto, eli kahden otoksen T-testi.

[06:22] Tästäkin on olemassa itse asiassa kaksi eri versiota sen perusteella, että voidaanko näiden ryhmien välinen varianssi olettaa yhtä suureksi, mut ei mennä siihen nyt sen tarkemmin.

[06:32] Mutta sitten taas, jos vaste ei ollut normaalisti jakautunut, niin me valitaan epäparametrinen versio, eli Wilkoksonin ranksum testi, eli suomeksi vilkoksonin järjestyssummatesti.

[06:43] Juu,

[Speaker 1]


 

[06:43] ja tärkeintä tässä on oivaltaa se meidän tutkimuskysymys.

[06:47] Eli me halutaan kysyä sitä, että erosiko näiden kahden riippumattoman ryhmän keskiarvot tai sit mediaanit toisistaan, eli joko toisilla korkeampi keskiarvo kuin toisilla tai matalampi.

[07:00] Öö eli nimenomaan tämmöinen tasoero, Öö koska mehän mallinnetaan aina keskiarvoa tai mediaania Öö hyvin, hyvin usein, kun meillä on numeerinen vaste, eli tutkitaan keskimääräistä käyttäytymistä.

[07:15] Me ei voida koskaan Niinku analysoida yksilötasoa, vaan me mallinnetaan keskiarvokäyttäytymistä.

[07:22] Eli meidän tutkimuskysymys on se, oli tuossa äskeisessä esimerkissä, että onko niillä, Öö miten ne eroavat vai eroavatko ne, jotka syö D-vitamiinin lisää, niin, niin tota sitä me haluttiin selvittää.

[07:37] Öö Mutta kannattaa aina miettiä se, että mikä on se mun tutkimuskysymys ja sitä kautta lähteä sitten selvittämään sitä sopivaa analyysimetodia.

[07:46] Joo,

[Speaker 0]

[07:46] todellakin.

[07:47] Eli otetaan vielä Öö muistinkertaukseksi vielä kerran Eli jos vasteena on jatkuva muuttuja, jonka keskiarvoja tai mediaaneja me verrataan kahdessa eri ryhmässä, testiksi valitaan kahden otoksen T testi, jos se vaste on normaalisti jakautunut molemmissa ryhmissä.

[08:05] ja jos se taas ei oo normaalisti jakautunut, valitaan Wilkoksonin testi. [Speaker 1]

[08:09] Joo, ja joskus on puhetta siitä, että no mitäs sitten, jos se on normaalisti jakautunut toisessa ryhmässä, mut toisessa ei.

[08:17] Öö niin tota silloin myös valitaan aina se epäparametrin testi, eli mennään tavallaan Niinku turvallisella tiellä.

[08:24] Usein, jos me nähdään vaikka labbramuuttujissa kuitenkin tää niin sanottu vinojakauma, niin silloin Öö tää vinhous toteutuu yleensä molemmissa ryhmissä, niin silloinpa me tehdään niin eka, että me kokeillaan sopiiko siihen joku muunnos, eli me- kokeillaan usein neliöjuuri tai logaritmin muunnosta, joka sopii yllättävän usein tämmöisiin labramuuttujiin ja muunnoksen jälkeen se muuttuja onkin normaalisti jakautunut, ja sit me taas mennään tänne kahden riippumattoman otoksen T-testiä tekemään.

[Speaker 0]

[08:54] Eli semmoinen Öö vinolta näyttävä muuttuja, kun sille tehdään esimerkiksi tää logaritmunnos, niin se saattaakin siirtää niitä arvoja sitten kohti sitä keskipistettä, jolloin saadaankin vähän enemmän semmoinen kellokäyrän muotoinen jakauma.

[09:10] Jes.

[09:11] Sitten mennäänkin vähän hankalampaan tilanteeseen, eli vastenmuuttoja pysyy edelleen jatkuvana, mutta nyt vertailtavia ryhmiä onkin kolme tai enemmän.

[09:19] Olisiko sulla Öö siitä antaa esimerkkiä tutkimusasetelmasta, Elisa?


 

[Speaker 1]

[09:24] Joo, me tehtiin kanssa Öö toinen tosi iso tutkimus, jossa me kerättiin Öö tietoa, ja itse asiassa ne kävi mittauksissakin Öö kuntatyöntekijöitä, niitäkin oli yli tuhat.

[09:36] Öö ja me tutkittiin heidän esimerkiksi Öö tota elämänlaatua ja Öö ja myöskin tota työkykyä.

[09:45] Ja me haluttiin selvittää sitä, että vaikuttaako Öö onko yhteydessä esimerkiksi koulutustaso Öö kolmiluokkaisena, niin yhteydessä tähän elämänlaatuun tai työkykyyn. [10:00] Eli siinä on tyypillinen esimerkki, että taas ihminen voi olla koulutusasteessa vaan yhdessä Öö luokassa, ja e- ei muodostui kolme riippumatonta ryhmää, ja me haluttiin tutkia yhteyttä numeeriseen elämänlaatu, tämmöiseen total scoreen eli kokonais- Öö tota muuttujaan.

[Speaker 0]

[10:19] Joo, mullakin tulee mieleen yksi tutkimus, jossa mä olin mukana, jossa haluttiin tutkia Öö äidin lihavuuden yhteyttä erilaisiin synnytykseen vaikuttaviin muuttujiin, että tässä esimerkkinä olisi sitten ollut, että tää selittävä tekijä oli tämmöinen äidin BMI luokka, joka oli jaettu muistaakseni neljään eri luokkaan ja tota sitten vasteena tosiaan oli joko jotain esimerkiksi raskauden kesto tai lapsen syntymäpaino.

[Speaker 1]

[10:47] Juu, just näin.

[10:48] Ja sit tyypillinen esimerkki lääketeollisuudesta sit taas on kaikki annosvastetutkimukset Eli niissä meillä on usein mukana lumelääkeryhmä eli placebo, sitten meillä on vaikka kymmenen ja viisikymmentä milligrammaa ja me oikeasti ollaan siinä vaiheessa meidän lääketutkimusta, että me halutaan etsiä vaan pienintä tehokkainta annosta.

[11:07] Mikään muu ei meitä kiinnosta kuin se pienin tehokkain annos.

[11:11] Öö koska useinhan aina kun annoskoko kasvaa, niin haitatkin kasvaa.

[11:16] Ja tämmöisessä voisi olla ihan hyvin esimerkkinä, että se meidän vastenmuuttuja olisi vaikka luun tiheys, joka on mitattu sitten tutkimuksen lopussa ja me halutaan verrata näitä kolmeen ryhmään Öö siinä tapauksessa.

[Speaker 0]

[11:30] OK, eli nyt meillä oli tosiaan käsittelyssä tämmöinen tilanne, missä vastenmuuttaja on edelleen Öö numeerinen eli jatkuva, mutta nyt sitä verrataankin Öö kolmessa ryhmässä tai useammassa ryhmässä.

[11:42] Ja tota tällaisessa tapauksessa jälleen kerran aloitetaan sen vasteen normaalisuuden tarkastelussa kaikissa ryhmissä, Öö joka pitää tosiaan muistaa.

[11:52] Öö Jos se normaalisuus voidaan olettaa, niin me valitaan taas parametrinen testi, eli tässä tapauksessa yksisuuntainen varianssianalyysi, lyhennettynä one way anova englanniksi.

[12:02] Jälleen tästäkin on olemassa tarkempi jako vielä varianssien yhtä suuruuksien mukaan.


 

[12:07] jos variansseja taas ei voida olettaa yhtään s- suuriksi, niin meidän pitäisi valita semmoinen kuin Welshin testi.

[12:13] Ja jälleen, jos tää vaste ei ollut alun alkaenkaan normaalisti jakautunut kaikissa ryhmissä, niin me valitaan sitten testin epäparametrinen versio, eli tässä tapauksessa Cuscal Wallisin testi.

[Speaker 1]

[12:24] Joo, pari ehkä semmoista pientä huomiota voisi tässä väliin kanssa sanoa, että totta kai tää One way ja Cusc wallis- testi toimii myös kahden ryhmän vertailuun, mutta aika usein sitten kuitenkin julkaisussakin näkee, että ollaan käytetty silloin T-testiä tai testiä, Mutta toimii kyllä niin, toisinpäin ei toimi.

[12:43] Ja sitten taas Öö hirveän usein mä näen sitä, että Öö opiskelija tai tutkija ahdistuu siitä, että mulla on neljä viisi ryhmää ja yhdessä näyttää siltä, että se normaalisuus ei toteudu ja muissa se toteutuu.

[12:57] Mut siinä tota Öö ensimmäinen asia, mihin kannattaa kiinnittää huomiota, että onko se joku ääriryhmä esimerkiksi se Öö vitosryhmä tosi pieni, että jos sulla on siellä viimeisessä ryhmässä viisi tai seitsemän henkeä, niin siitä on tosi tosi vaikea tutkia edes sitä normaalisuutta.

[13:14] Öö eli kannattaa miettiä myös, että onko mitään kliinisiä perusteita siitä, että joku Öö ryhmä olisi hyvin erilainen.

[13:22] Ja useimmiten, mä en oo ainakaan keksinyt montaa muuttujaa, missä olisi perusteltua ajatella, että se jakauma oikeasti olisi erilainen.

[13:30] Ja niinhän usein Öö tehdäänkin myös myös sen tilastollisen voimakkuuden takia, että jos joku ryhmä on tosi pieni, niin se yhdistetään johonkin vierekkäiseen kategoriaan tai

[Speaker 0]

[13:40] luokkaan.

[13:41] Joo, toi oli itse asiassa todella hyvä huomio ja itse asiassa nyt muistinkin tosta, että tässä just itse kerroin aiemmin tästä tän esimerkin tota äidin lihavuuden vaikuttavuudesta. [13:53] missä tää tota selittävä tekijä, eli BMI luokka oli jaettu neljään luokkaan, niin muistaakseni se tässä oli käynyt nimenomaan näin, että siinä oli alun perin viides luokka, joka ei ollut normaalisti jakautunut, mutta siellä oli tyyliin kaksi ja sitten kun se vaan liitettiin nelosluokkaan, niin yhtäkkiä kaikki toimii.

[Speaker 1]

[14:11] Body index luokassa on useimmiten niin, että mikä tahansa aineisto, mistä mä oon nähnyt, niin alipainoisia on äärimmäisen vähän, eli niitä on korkeintaan kourallinen, tuskin yleensä ei sitäkään, niin yleensä se aina yhdistetäänkin Öö hyvin usein siihen seuraavaan luokkaan.

[14:27] Ja vastaavasti sitten taas niitä hyvin ylipainoisia voi olla tosi tosi vähän ja ne yhdistetään sitten siihen ylipainosluokkaan.

[14:34] Ennen sitä yhdistämistä mä kuitenkin aina katson siitä datasta, että siitä yhdistämisestä ei ole mitään hallaa sille datalle, et me ei menetetä mitään tärkeätä tarinaa sillä yhdistämisellä.


 

[Speaker 0]

[14:45] Kyllä.

[14:46] Mutta joo, eli kertauksena vielä, tällaisessa tilanteessa, kun vastemuuttaja on jatkuva ja verrattavia luokkia on kolme tai enemmän, niin Jälleen aluksi katsotaan, että onko se vaste normaalisti jakautunut kaikissa vertailtavissa ryhmissä, ja sitten me valitaan testiksi yksisuuntainen varianssi analyysi, eli anova, jos se on normaalisti jakautunut ja muuten krusalvallisin testi.

[Speaker 1]

[15:11] Sitten tota tähän pitää vielä sanoa sitten, että Öö pitää muistuttaa, että tää Öö varianssianalyysi ja Cuscal valisin testi, sehän antaa vaan sen päätuloksen, että joku eroaa jostakin, jos me saadaan merkitsevä tulos, eli P alle nolla pilkku nolla viisi.

[15:27] Ja jos me saadaan tää päätulos merkitseväksi, niin meidän täytyy tietenkin selvittää, että no mikä siellä sitten erosi mistäkin ryhmästä.

[15:35] Öö jolloin me tehdään niin sanottuja monivertailuja ja niissä monivertailuissa tarvitsee aina muistaa se, että hyvän tavan mukaisesti me sitten ryhdytään korjaamaan niitä P arvoja, jotta me ei tehtäisi virhetulkintoja liian herkästi ja Öö ja yleisimmät metodit on Niinku käyttää tukeen korjausta tai sitten Öö Sel Din korjausta siellä Calvisin puolella.

[Speaker 0]

[16:00] No sitten, mitäs meillä ei olekaan luokittelua ollenkaan, vaan me verrataan kahta numeerista muuttujaa keskenään.

[Speaker 1]

[16:08] Joo, Niinku mä äsken sanoin, niin me verrattiin keskiarvotasoja tai mediaanitasoja, mut nyt jos meillä onkin kaksi jatkuvaa numeerista muuttujaa, niin me tutkitaankin niiden välistä yhteyttä.

[16:19] Ja silloin kun meillä on kaksi numeerista muuttujaa, niin me yleisesti ottaen puhutaan aina korrelaatiosta niin julkaisuissa kuin missä tahansa muuallakin.

[16:29] Onko ne kaksi numeerista muuttujaa yhteydessä toisiinsa?

[16:33] Öö siinä samassa D-vitamiinijutussa me haluttiin tosiaan myös tutkia sitä, että korreloiko tää D-vitamiini Öö tasot siellä v- veressä, Niinku esimerkiksi seerumin PTH Öö tota arvoihin, jotka on myös tämmöisiä luuapramuuttujia tai lapramuuttujia.

[16:53] Ja tota ja tää tutkitaan yleensä just korrelaation avulla.

[16:58] Ja korrelaatioitahan Niinku mitataan hyvin hyvin paljon, jotkut julkaisut tuntuu olevan Niinku tosi täynnä korrelaatioita, että niitä oikeasti Öö tota lasketaan melkeinpä satoja per tutkimus ja niistä Usein piirretäänkin semmoinen heat map, jossa Öö vaan väreillä kuvataan, että minkä muuttujien välillä on Niinku voimakas korrelaatio ja Öö minkä muuttujan suhteenhan se korrelaatio on sitten lievä, tai sitä ei ole ollenkaan, tai heikko tai lievä tai ei ollenkaan.

[17:25] Öö ja tarvitsee muistaa, että korrelaatiohan voi saada mitä tahansa arvoja miinus ykkösestä ykköseen.

[17:31] Eli myös on se negatiivinen korrelaatio, ja sitten on positiivinen korrelaatio.


 

[Speaker 0]

[17:36] Joo.

[17:37] Ja tota tässä kahden numeerisen muuttujan tapauksessa on myös tärkeää huomata se, että toisin kuin tota esimerkiksi noissa aiemmin käydyissä luokkavertailuissa, niin nythän me ei eroteta selkeästi vastetta ja tekijää toisistaan, vaan me vaan verrataan muuttujia ikään kuin samalta viivalta.

[Speaker 1]

[17:54] tutkitaan Niinku kahden muuttujan välistä yhteyttä ihan puhtaasti. [Speaker 0]

[17:58] Mutta tässäkin tapauksessa, kun jatkuvista muuttujista puhutaan, niin tuttuun tapaan ensiksi pitää testata, että onko ne muuttujat normaalisti jakautuneita, jonka perusteella me o- osataan sit valita oikea korrelaatio.

[18:11] Jos molemmat muuttujat on normaalisti jakautuneita, niitä verrataan Perssonin korrelaatiolla, muuten spermanin korrelaatiolla.

[Speaker 1]

[18:21] Joo, ja sitten Pissa on vielä se, että se tutkii nimenomaan lineaarista yhteyttä, eli se ei pysty ollenkaan havaitsemaan, jos on niin sanottu monotoninen yhteys, eli semmoinen Niinku vähän Niinku käyrämäisempi yhteys, eli se tutkii tämmöistä funktio- Niinku suoran muotoista yhteyttä.

[Speaker 0]

[18:37] Jep, Mutta, hei, mitäs sitten, jos se toinen muuttujista on sit kumminkin selkeästi mielenkiinnon kohteena.

[18:44] Eli me halutaan tehdä jako vasteen ja tekijän välillä, vaikka meillä onkin kaksi jatkuvaa muuttujaa.

[Speaker 1]

[18:49] Joo, hyvä kysymys ja myös sitä, että jos se korrelaatio, korrelaation tuloksenahan tulee nimenomaan se korrelaatiokerroin, että sä saat vaan tiedon siitä voimakkuudesta, mutta sä et saa vielä tietoa muusta ja hirveän useinhan meillä on mielenkiinnon kohteena se, että minkälainen se yhteys sitten on.

[19:07] Ja jos me nyt ajatellaan, että me haluttaisiin tutkia vaikka Öö kokonaiskolesterolin tai LDL n yhteyttä body mass indeksiin, niin me halutaan kuvailla sitä tarkemmin, että se korrelaatiokerroin ei sit enää Niinku riitä, niin silloin me ryhdytään käyttämään lineaarista regressiota, eli me oikeasti sovitetaan siihen lineaarinen suora siihen, käytännössä katsoen siihen sirontakuvaan, mikä usein näistä piirretään ja silloin me saadaan se suoran yhtälö. [19:36] Öö jossa nimenomaan me ollaan käytännössä katsoen kiinnostuneita siitä kulmakertoimesta.


 

[19:42] Se kulmakertoimen suuntahan kertoo taas, että minkälainen se yhteys on negatiivinen vai positiivinen, mut se kertoo myös sen, että OK, jos henkilö pystyy pudottamaan Pass indeksiä jonkun yksikön verran, niin kuinka paljon hänen keskimäärin esimerkiksi se kokonaiskolesteroli muuttuu, jolla on suora tulkinta esimerkiksi tavallaan, että sä voisit sanoa seuraavalle potilaalle, että mitä keskimäärin tapahtuu, jos sä pystyt tekemään tätä ja tätä muutosta.

[Speaker 0]

[20:10] Joo, eli oikeastaan vaikka tosiaan lineaarinen regressio kyllä kuulostaa tietysti pelottavalta ja hienolta, niin pohjimmiltaan tässä on tosiaan kyseessä vähän semmoinen yläastematikan tilanne, että Y on KX plus

[Speaker 1]

[20:26] C.

[20:26] Joo, joo, on on, mutta sit kun sulla on oikea data kysymyksessä, niin sulla on aina vaihtelua, että se Öö ainakin mun lukion matikassa tehtiin vielä näitä suoria, jotka meni täydellisesti niitten muutaman pisteen läpi, ja meillä ei koskaan sellaista tilannetta ole, mutta hyvin hyvin käytännössä katsoen meillä on vaan se Öö satunnaisuus siellä mukana Niinku kun me päästään tälle tasolle.

[Speaker 0]

[20:50] Joo, eli voitaisiin vielä kertauksena sanoa, että jos esimerkiksi kahta numeerista muuttujaa verrataan keskenään siten, että nyt meillä on selkeä jako vasteen ja tekijän välillä, niin oikea testi on lineaarinen regressio.

[Speaker 1]

[21:05] Juu, ja siinä me saadaan myöskin paljon tietoa siitä, että kuinka hyvä se malli on selitysasteen avulla, et kuinka paljon me siitä datasta olevasta vaihtelusta pystytään selittämään.

[21:14] Se on myös hyvin mielenkiintoinen asia, mutta täytyy olla realisti, että kun me tutkitaan vaikeita Öö ilmiöitä, Öö niin se selitysasteet ei ole kovin korkeita.

[21:26] Mut sitten me voitaisiin myös keskustella siitä, että on paljon just niitä asioita, mitä äskenkin viitattiin, eli vaikka älykkyys ja kompetenssi ja työpaikan ilmapiiri, mitä taaskaan ei pystytä mittaamaan Niinku suoraan ihmisiltä, vaan me käytetään siihen tota kyselyjä. [21:43] Ja näin me saadaan tämmöistä epäsi suoraa tietoa siitä, mitä me oikeasti halutaan Niinku tutkia, niin siihen esimerkiksi tämmöinen Öö tilastollinen analyysi, mitä ei tietenkään millään peruskursseilla käydä läpi, on faktorianalyysi.

[21:58] Öö ja sitä käytetään paljon kyselyiden kehittämisen osalta myöskin. [22:03] Ja tota ja se pohjautuu myöskin Niinku Öö korrelaatioiden tutkimiseen.

[22:09] Ja tota eli tavallaan Öö etsitään siitä datasta semmoisia joukko muuttujia, jotka korreloi vahvasti keskenään, mutta ne eikä korreloikaan niitten toisten kysymysten kanssa, ja nää Niinku muodostaa tämmöiset muuttujaklimpit voi vai miten muuttujajoukot, jotka korreloi keskenään, niin ne muodostaa sitten niin sanottuja faktoreita, ja sitten me keksitään niille faktoreille se- selventäviä Niinku otsikkonimiä.


 

[22:36] Ja ja tota ja tässä on esimerkkinä Öö kun me tehtiin YTHS ssä on tehty paljon näitä tutkimuksia, niin me ollaan julkaistukin semmoinen juttu, että mikä opiskelijoita liikuttaa. [22:48] Eli meillä oli Öö yli kolmekymmentä kysymystä opiskelijoilta, että miksi liikut, että Öö onko sen tota, onko sulle tärkeätä uusien taitojen oppiminen vai lihasmassan ja voiman hankinta.

[23:01] Tämmöisillä me sitten muodostettiin, että oikeasti kun me Öö yhdisteltiin korrelaatioiden avulla näitä Öö kysymyksiä, niin meille kävi selvästi Öö selville, että tämmöisiä faktoreita oli kun jonkulle merkitsi terveys ja kunto, toiselle trendikkyys ja status, kolmannelle virkistys ja rentoutuminen, ja näin me saatiin hahmoteltua siitä isosta kysymyssetistä, tiivistettyä sitä tietoa tämmöisiin Öö niin sanottuihin faktoreihin.

[23:30] Ja Öö myös tätä käytetään paljon siinä, kun me kyselyin, että kehitetään Et sit me huomataan, että siellä on joku kysymys, joka ei Niinku liity toisiin kysymyksiin oikein millään lailla, ja se me voidaan tässä kehitysvaiheessa sitten tiputtaa pois.

[23:43] Et sitä ei nyt enää sitten seuraavassa kehitysvaiheessa tähän kyselyyn sitten kuulu. [Speaker 0]

[23:49] Joo mullakin tuli itse asiassa Öö esimerkki omalta työuralta mieleen tästä, että tota, tota hyvin samanlaista analyysiä tehtiin, mutta me selvitettiin siinä tota, että.

[24:03] tämmöisten Niinku pienten lasten vanhemmat oli tehnyt tota pitänyt Öö, ruokapäiväkirjaa, että mitä kaikkea ne on syöttänyt niille lapsille ja sitten jonkun varmaan tekoälysovelluksen kautta sitten laskettiin kaikkia vitamiinien määriä niistä ja semmoisista ja tota.

[24:19] Sit siinä oli myös semmoisia elämänlaatukysymyksiä muistaakseni, ja niistä tota sitten pikkuhiljaa sitä kysymyspatteristoa Niinku pienennettiin ja pienennettiin, kunnes saatiin semmoinen optimaali.

[24:31] mittaria aikaiseksi, että mitä tota, mitä niiden vanhempien pitäisi syöttää lapsilleen, että he Niinku voivat kaikista parhaiten.

[Speaker 1]

[24:40] Joo, täällä tehdään paljon väitöskirjatutkimuksia, missä nimenomaan kyselyjä kehitetään.

[24:45] Ja sitten erilaisia korrelaatioanalyyseja käytetään myös siihen, että katsotaankin Öö mitkä ihmisjoukot siellä korreloi ja koitetaan jakaa ihmisiä joihinkin ryhmiin.

[24:56] Sitäkin tehdään paljon ja kaikki perustuu just näihin yhteyksiin eli korrelaatioihin. [Speaker 0]

[25:03] Nyt me ollaan käyty läpi kaikenlaisia testejä numeerisille eli jatkuville vasteille. [25:09] Mutta tota mitäs sitten, kun verrataan kategorisia muuttujia keskenään?

[Speaker 1]

[25:13] No sit me tarvitaan taas tietenkin ihan omat testit, koska eihän me voida mitään normaalijakaumaa tietenkään Öö tutkia, että lonkkamurtuma kyllä ei, ei ei, ei todellakaan, vaan silloin me tu- tunnistetaan, että meidän OK, Öö meidän vaste on kategorinen ja Öö usein meidän tekijätkin on kategorisia, niin silloin ne on esimerkiksi näin, että että siinä mu-


 

D-vitamiinitutkimuksessa, niin me verrattiin sitä, että Öö tupakoiko Öö nää henkilöt, jotka käyttää D-vitamiinia Öö enemmän tai vähemmän verrattuna niihin, jotka ei käyttänyt

D-vitamiinia.

[25:51] Eli me tutkitaan tällaisia eroja, me voidaan hyvin tutkia myös jossain tutkimusjoukossa ja miesten ja naisten välillä, että onko tupakoinnin osuuksissa eroa. [26:01] Öö tai sitten me ollaan tutkittu myöskin haavan paranemisia, haavan komplikaatioita, onko niissä Öö eroa tupakoinnin ja ei-tupakoivien suhteen, miesten ja naisten välillä eroa, eli tän tyyppisiä esimerkkejä.

[26:16] Näissä mä kaikissa mainitsin eron.

[26:18] Hyvin tyypillinen on myöskin Öö YTHS llä tehdään myös näitä tutkimuksia, joissa me tutkitaan että särkeekö niiden päätä, Öö onko päänsärkyä enemmän niillä, joilla on myöskin vaikka hartiakipuja.

[26:33] Eli tutkitaan kahden selvästi Niinku Öö tavallaan vasten välistä yhteyttä. [26:38] Me ei puhuta silloin koskaan kuitenkaan korrelaatiosta, me puhutaan Niinku yhteyksistä tai assosiaatioista.

[Speaker 0]

[26:45] pieniä tota välihuomio voisi tähän väliin.

[26:48] Moni kuuntelija varmaan tietääkin, mutta jos et satu tietämään. [26:51] Tässä on monesti mainittu YTHS.

[26:53] Siinä on.

[26:54] Se on siis tota ylioppilaiden terveydenhoitosäätiö,, joka on siis korkeakouluopiskelijoiden tämmöinen.

[27:00] terveydenhoitopalvelu.

[27:03] Joo, Eli tosiaan tota vähän Niinku Elisa jo kerkesi sanoakin, niin kahden kategorisen muuttajan tapauksessa me ei voida testata sitä normaalisuutta,, joten meidän pitää tätä asiaa ajatella hieman eri kantilta.

[27:16] tällainen vaste tekijä ajattelun sijaan me tutkitaan muuttujien yhteyttä tai esimerkiksi ryhmien välisiä eroja.

[27:23] Ja mitä tää käytännössä sit tapahtuu, on, että näistä kategorisista muuttujista me tehdään frekvenssitaulukko, josta nähdään kaikkien luokkayhdistelmien lukumäärät, eli frekvenssit.

[27:35] Ja tota sit tän jälkeen me tehdään joko parametrinen ki neliötesti, jolla on Öö vähän tämmöiset tiukemmat kriteerit, mutta onneksi kaikki tota tilasto-ohjelmat, millä sä yrität tehdä näitä testejä, niin ne kyllä sitten herjaavat sulle, jos ne Öö Oletukset ei täyty.

[27:56] Niin jos oletukset ei täyty, ja tällaisessa tapauksessa pitää sitten käyttää sitä epäbarametrista versiota, joka on Fisherin tarkka testi.

[Speaker 1]

[28:04] Ja Fisherin tarkka testihän on aina ihan täydellinen testi, eli sen voi tehdä aina, mäkin usein teen julkaisuihin pelkkää Fisherin eksaktia testiä.

[28:14] Öö ja tota mutta sit täytyy havaita, että jos käyttää suuria frekvenssitaulukoita ja jos sulla on semmoinen data, et sulla tulee vaikka viisi kertaa viisi frekvenssitaulu, niin ajoajat esimerkiksi näillä valikkopohjaisilla ohjelmilla voi olla tosi pitkät, ne voi olla tunteja, ne voi olla jopa päiviä.


 

[28:31] Mun pisin on ollut oikeasti viikko ja viikon se kone ruksutti ja sit se syötti tota tuloksen viikon jälkeen.

[28:40] Eli pitää varautua sitten siihen, Öö mut senkin takia aika usein niitä Öö luokkia yhdistellään, niin kuin oli äsken puhetta.

[28:47] Ja Öö sit me voidaan tässäkin vaiheessa jo, Öö jos meillä on binäärivaste, eli Öö just tämmöinen, että lonkkamurtuma kyllä ei, kaksiluokkainen, kaksi luokkaa kategoriaa tässä muuttujassa vasteessa, niin me voidaan aloittaa tehdä logistista regressiota, johon me ei myöskään Öö peruskursseilla Niinku ehditä menemään.

[29:07] Öö Sit on pari semmoista erikoistapausta oikeasti, minkä mä haluaisin Niinku mainita, Öö mitä aika harva tutkijakaan Niinku on kuullut, ja samoin ei Öö usein peruskursseilla ehdi käydä läpi, niin Öö jos meillä se toinen muuttuja on Niinku tämmöinen ordinaaliasteikollinen, eli meillä on kategorioita, jolla on järjestys, niin silloin meillä on myöskin erikoisanalyysejä, analyysimetodi olemassa.

[29:33] Eli esimerkiksi semmoinen, että Öö me tutkittiin korona-aikaan yhden lääkkeen auttavaa Öö vaikutusta verrattuna siten sitä apulääkettä ei anneta.

[29:46] Ja meillä oli Öö vastenmuuttujina tämmöinen kliininen status, joka oli arvot ykkösestä seiskaan.

[29:53] Ykkönen oli se, että pä- oli päässyt kotiin ja oli ihan normaalissa kunnossa tai Öö mis- Öö parantunut siis kokonaan ja sit seiska oli se, että oli kuollut.

[30:04] Ja, ja tota tää mitattiin sitten Niinku kuukauden kuluttua siitä Öö sairaalaan tulosta. [30:11] Ja, ja tota tässä me voidaan kuitenkin tutkia näitä vaikka kahden ryhmän välistä eroa niin, että onko siellä tämmöistä siirtymää.

[30:19] Vähän samalla tavalla kuin mu- jakaumien Öö siirtymää me tu- tutkitaan siellä keskiarvo ja mediaanipuolella, niin tavallaan, että onko niin, jotka eivät saaneet tätä Öö apulääkettä, niin onko ne Niinku heikommassa hapessa sitten kuukauden päästä.

[30:34] niin siihen on olemassa ihan tämmöinen erikoistesti kuin Kokran Armitas trenditesti ja se on hirveän käyttökelpoinen, koska meillä mitataan kliinise- kliinisessä maailmassa aika paljon ykkösestä vitoseen, jollain likertas asteikolla asioita, tai tässä meidän kliininen status oli ykkösestä seiskaan, että se on tosi hyödyllinen myös tunnistaa, että tämmöinenkin testi on olemassa.

[30:56] No sit meillä on usein tehdään myös näitä niin sanottuja crossover design Öö tutkimuksia, eli vaihtovuorot Öö tutkimus, jossa esimerkiksi, jos meillä on kaksi periodinen crossover tutkimus, niin kaikki tutkittavat käy sekä lääkkeen vaikka A ja lääkkeen B, mut me satunnaistetaan se järjestys, että osa käy järjestyksessä A B ja osa käy B A.

[31:17] Ja Öö se on hirveän tehokas Öö tutkimusasetelma, koska me nimenomaan päästään sen subjektin sisäiseen vaihteluun, mistä me kohta puhutaan niiden muutoksienkin yhteydessä.

[31:30] Ja silloin kun me tutkitaan lääkettä, niin meitä tietenkin kiinnostaa, että tuliko sillä lääkkeellä A ja tuliko sitten lääkkeellä B haittatapahtuma vai ei.

[31:40] Ja me halutaan tätä verrata.

[31:42] Mutta nyt kun meillä on sitten samalta henkilöltä mitattu kaksi periodia, kaksi arvoa, niin me voidaan tehdä frekvenssitaulukko jossa meillä on kummastakin muuttujasta sitten tää kyllä ei, niin siihen sopii sitten taas McNarin testi.

[31:56] Eli jos on mitattu kahdessa aikapisteessä jotakin samaa asiaa, niin voidaan tutkia tätä, että onko näitten lääkevaikutus, haittatapahtumat erilaisia Öö Ala ja Bllä.

[32:09] Ja sitten on vielä paljon paljon lisää näitä erikoisuustestejä, eri- erilaisia testejä, erilaisiin tilanteisiin, myös kategoristen muuttujien tilanteessa.


 

[Speaker 0]

[32:21] Joo, tossa kun sä puhuit tästä McNamarin testissä, niin sä mainitsitkin, että siinä on tota kaksi aikapistettä, niin siitä tuli nyt sitten aika orgaanisesti tää meidän seuraava aihe, tota alustettua sitten, että mikä on aika yleinen ainakin lääketieteellisessä tutkimuksessa, että ei olla ikään kuin yhdessä pisteessä ajassa, vaan jotain seurataan Niinku Öö tehdään monta mittausta ajan

[Speaker 1]

[32:47] mittaan.

[32:47] No todellakin, että kaikki käytännössä k prospektiiviset tutkimukset, Öö varsinkin lääketutkimukset, melkein aina prospektiivisia tutkimuksia, niin tehdään mittauksia yli ajan. [32:59] Öö ja Öö siinä nimenomaan taas, muistatko sä, kun puhuttiin aluksi siitä, että meidän täytyy tunnistaa, mikä on riippuvaa ja mikä on riippumatonta, niin nimenomaan näissä aikapisteissä tarvitsee tunnistaa, että ne on nyt riippuvia mittauksia.

[33:14] Ja yleisesti ottaen aina, kun me tehdään Niinku prospektiivistä tutkimusta, meitä kiinnostaa se muutos, varsinkin jos meillä on joku interventio, niin me halutaan verrata myöskin niitä muutoksia.

[33:26] Mutta meillä oli myös yksi semmoinen tosi tosi iso, me tehtiin Euroopan laajuinen Öö Proc tutkimus Öö eka Öö ekassa pisteessä nää oli juuri valmistumassa sairaanhoitajiksi ja sitten me tehtiin kahden vuoden päästä tämmöinen Niinku seurantapiste, jolloin me kyselyllä samoilta ihmisiltä kysyttiin että Öö erilaisilla kyselyillä, että mikä on heidän kompetenssi eli pätevyys siinä kohtaa, ja me haluttiin nimenomaan tutkia sitä, että miten se on muuttunut Öö kahden vuoden aikana tää pätevyyden kokemus näillä sairaanhoitajilla, ihan uunituoreilla sairaanhoitajilla.

[34:04] Ja Öö siihenhän sitten taas se, että me taas Öö lasketaan se muutosmuuttuja Ja me taas tutkitaan se muutosmuuttujan, noudattaako se muutosmuuttujan normaalisuutta, Öö normaalijakaumaa vai ei.

[34:18] Ja sitä Öö vasten me sitten voidaan tehdä joko parittainen testi tai vilkok on sign drank testi, eli Niinku huomaat, niin näissä nimissä pitää olla hirveän tä- tarkka, kun nää samat ihmiset on kehittänyt Öö sekä testejä riippumattomia ryhmiä ha- Öö tota vertailuun, että sitten riippuviin Niinku aikapistevertailuihin.

[Speaker 0]

[34:38] Joo.

[34:38] Ja Öö tosiaan vielä tarkennuksena tossa sun äskeisestä puheenvuorosta, että tää Niinku muutos muuttui ja sehän tarkoittaa siis sitä, että kun meillä on kaksi näitä aikapistettä, joista on nyt Niinku jotain arvoa mitattu esimerkiksi sitä omaa kokemusta, kompetenssista, joku numero, niin otetaan se jälkimmäinen numero ja miinustetaan siitä se ensimmäinen numero ja siitä saadaan se muutosnumero sille henkilölle.

[Speaker 1]

[35:04] Näin me saadaan sen muutoksen etumerkki heti Niinku järkeväks.

[35:09] Ja tota, mutta tää Öö tavallaan prospektiivisissä tutkimuksissa niin laajenee heti, että me halutaan tietää, onko tää muutos erilaisten ryhmien välillä.


 

[35:19] Nonii, me palataan taas siihen kahden otoksen T testiin tai one way an vaan Niinku tuolta alusta, mutta sitten meillä on hyvin hyvin paljon tutkimuksia, jossa me mitataankin useampi aikapiste, niin äsken mainitut analyysimetodit ei enää taas toimi.

[35:36] Öö vaan sitten me joudutaan menemään monimutkaisempiin analyysimetodeihin. [35:40] Öö Hirveän hyödyllistä monessa kliinisessä tutkimuksessa on, että meillä on vähintään kolme aikapistettä, jossa me saadaan selville sen Öö muutoksen Niinku mm tarkempi tää Öö muoto.

[35:55] Eli me puhutaan usein keskiarvo tai mediaanikäyristä, et me nähdään, miten se muuttuu eka nopeasti Niinku siinä alkuvaiheessa, entäs sitten pidemmällä tähtäimellä. [36:04] Eli hyötyä on siitä, että meillä on ainakin kolme aikapistettä.

[36:08] Eli aluksi Öö tämmöisissä, Öö kun meillä on useamman aikapisteen Öö data ja meillä on nimenomaan taas vaste on tämmöinen jatkuva numeerinen muuttuja, niin me eka alustavasti katsotaan se, että näyttääkö siltä, että se vaste on normaalisti jakautunut. [36:24] Ja jos se näyttää siltä alustavassa tarkastelussa, niin me sitten se Öö siihen sovitetaan tämmöistä lineaarista sekamallia, englanniksi mä ainakin kirjoitan julkaisuihin linear mixed models for repeated measurements.

[36:39] Ja mm ja se ottaa nimenomaan huomioon sen korrelaation aikapisteiden välillä, eli nimenomaan huomioi sen, että siitä yhdeltä subjektilta on useampi mittaus.

[36:52] Ja Öö tää metodi on nykyisin aika kiva siinä, että se sallii myös, että sieltä joitakin arvoja puuttuu, että jos henkilö nyt on ollut Havaijilla tai hiihtolomalla, niin se ei haittaa, hän pääsee niiltä kaikilta aikapis- muilta aikapisteiltään myös mukaan tähän malliin.

[37:10] Ja Öö sit jos se vaste näyttää todella pahalta, eli ei ei ole lähelläkään normaalijakaumaa, ei edes sen muunnoksen jälkeen, niin silloin ainoa epäparametrinen vastine, meillä on tämmöinen Friedmanin testi, jossa me voidaan ainoastaan tutkia sitä Öö aikamuutosta Öö jonkun vaikka ryhmän sisällä.

[37:30] Ja sitten tota tästä täytyy kohtaa sanoa se, minkä takia mä puhun nyt alustavasta Niinku vasteen normaalisuuden tutkimisesta, että ihan aidon oikeasti, niin Öö me Öö nää analyysin metodit vaatii sen, että niin sanotut jäännökset on normaalisti jakautuneet. [37:49] Ja jäännös tarkoittaa se, että mitä jää siltä mallilta selittämättä, jää Niinku yli, niin se on jäännöstä ja niitten jäännösten pitää olla normaalisti jakautunut.

[38:00] Mutta mä sanoisin kyllä näillä kilometreillä, että se alustava tarkastelu sen vasteen jakaumasta kuvaa tosi tosi hyvin Öö sitä Öö normaalisuutta myöskin, mutta jos se on vähän, vähän heikohko, niin usein mallin jälkeen ne jäännökset Öö Öö noudattaa paremmin normaali su- normaalijakaumaa, eli ko- jos se malli on hyvä, niin niistä jäännöksistä tulee Niinku lähempänä normaalijakaumaa tai jopa täydelliset normaalijakaumat verrattuna siihen alustavaan tarkisteluun.

[38:33] Ja Öö sitten semmoinen, mikä on kanssa hyödyllistä tietää, että me voidaan mahdollisesti myös laskea otoskokoja toistomittausmalleille, joka tarkoittaa sitä, että me tarvitaan aina vähemmän Öö tutkittavia henkilöitä, koska me nimenomaan taas hyödynnetään sitä korrelaatiota mittausten välillä.

[38:52] Ja jopa me voidaan Öö sanoa, että matemaattisesti me ei tarvita jotain aikapistettä, että ne korrelaatiot on niin voimakkaita, että se ei tuo mitään informaatiota, joku Öö aikapiste.

[39:05] Öö Yksi esimerkki tästä on esimerkiksi luun tiheys.

[39:08] Lun tiheydellä on tosi voimakas korrelaatio vaikka jos sulta mitataan nyt ja kahden vuoden päästä, niin ne on miltei samat arvot, ja ne on tosi voimakas korrelaatio, joten luun mittauksia tai luun tiheyttä ei tarvitse mitata oikeasti matemaattisin syin niin usein, kun kun tota, mut usein tullaan sitten vastaan siihen, että kliinisesti halutaan kuitenkin nähdä se data,


 

Mutta, mut tätäkin voidaan keskustella, että mitkä mittauspisteet on Niinku optimaalisia matemaattiselta kannalta.

[39:38] Ja sit vielä yksi Öö analyys metodi, joka on tässä Öö käymättä läpi, niin on elinaika-analyysit, eli eli juuri sitä, että kun me tutkitaan Öö eroaako aika Öö diagnoosista, Öö syöpäkuolemaan, randomisoinnista, Öö jonkun metastaasin tulemiseen, Öö niin niissähän meillä on ihan omat metodit, koska meillähän on juuri erilainen data, että meitä kiinnostaa useimmiten siinä aika jostain alusta johonkin tapahtumaan.

[40:10] Mut sitten kaikki eivät Öö usein onneksi saa sitä tapahtumaa, mut meillä on heiltäkin se koko seuranta-aika, jolloin heille ei ole tullut tapahtumaa.

[40:20] Me voidaan tutkia elinaikamalleilla myöskin positiivisia tapahtumia, kuten aika Öö lapsettomuushoidon alusta raskau- raskauteen, Öö työttömyyden alusta, työnsaantiin tai jotakin muuta.

[40:34] Mutta näistähän meillä on ihan oma podcast.

[40:37] Öö Kari oli juttelemassa Öö sun Markus kanssa Öö ja se on hyvin Öö hieno podcast, joten tota ei puhuta siitä tänään sen enempää.

[Speaker 0]

[40:49] Joo.

[40:50] Siinä tuli paljon asiaa ja paljon asiaa on tullut muutenkin jo.

[40:54] tota Mutta kumminkin näissä esimerkeissä, mitä me ollaan tähän mennessä käyty läpi, niin on ollut oikeastaan vaan tämmöisiä hieman yksinkertaistettuja tilanteita, jossa tota siinä mallissa olisi mukana vain yksi tekijä, jolla selitetään jotain yhtä vastetta.

[41:09] Käytännössä kuitenkin halutaan samaan malliin huomioida esimerkiksi ikä, sukupuoli, koulutustaso, BMI luokka tai mitä ikinä, mitä nyt sitten kuhunkin tutkimustilanteeseen sopii.

[41:21] Ja tota usein se analyysimetodi silloin laajenee lineaariseksi malliksi. [41:25] Julkaisuissa tätä voidaan kutsua esimerkiksi multiwayanovaksi.

[41:30] Lineaarisissa malleissa taas oletetaan vasteen olevan normaalisti jakautunut, tai jos ihan tarkkoja ollaan, niin tosiaan samalla tavalla kuin noissa toistomittauksissakin, niin ne jäännökset, eli ne mitä malleista jää selittämättä, pitäisi olla normaalisti jakautuneita.

[Speaker 1]

[41:45] Juu, juu.

[41:46] Ja tässä jos me nyt ajatellaan vaikka sitä elämänlaatu esimerkkiä, niin eihän me voida olla niin naiiveja, et me voitaisi kuvitella, että yksi tekijä riittäisi meille tota selittämään, mistä elämänlaatu Niinku koostuu tai mikä mik- mitkä tek-, mikä tekijä olisi siinä yhteydessä. [42:02] Eli me tarvitaan paljon monimutkaisempaa mallia ja silloin me siirrytään näihin isompiin malleihin, mihin voidaan pistää monta tekijää.

[42:10] Ja Niinku säkin mainitsit noita tekijöitä, niin ne voi olla kategorisia, ne voi olla numeerisia, näin.

[42:17] Mutta sitten meille tuleekin taas uusia haasteita matkan varrella.

[42:20] Eli siinä meidän täytyy Niinku miettiä, että mikä meidän mallinnusstrategia on. [42:25] Ja Öö joka biostatistikollakin on varmaan pikkasen oma mallinnusstrategia, ja niitä Öö on useammanlaisia, mutta akateemisella puolella yksi on Niinku mun mielestä aika Öö iso vallalla, mallinnusstrategioista.


 

[42:39] Se on sellainen, että ensin tehdään niin sanottu univariate approach, joka tarkoittaa, että kaikki ne mun mielenkiintoiset tekijät, onko niitä nyt viisi tai kymmenen, niin mä tutkin ne yksi kerrallaan, eli käyttää juuri niitä me- menetelmiä, mitä tuossa ollaan aikaisemmin puhuttu.

[42:56] Ja sen jälkeen sitten me tehdäänkin tämmöinen multivariable malli, johon me esimerkiksi otetaan mukaan ne kaikki, jotka on ollut merkitseviä siellä yksi kerrallaan katsottuna, eli univariate approachissa.

[43:10] Ja tota ja tässä välissä mä vielä teen itse sellaisen testin, että mä tutkin sitä, että mitkä näistä tekijöistä korreloi Öö tai ovat hyvin voimakkaassa yhteydessä toisiinsa, koska jos siellä esimerkiksi on tota mm Öö mitäs mä nyt keksisin?

[43:29] Öö siellä voisi olla asumismuoto ja parisuhde, niin niin voit kuvitella, että ne ovat aivan aika voimakkaassa yhteydessä toisiinsa, jolloin mä sanon tutkijalle, että hmm, että tota näitäpä nyt ei kannata molempia lykätä sinne meidän monimutkaisempaan malliin, koska ne yrittää tietenkin selittää Niinku samaa asiaa, joten mä kysyn tutkijalta, että kumman tekijän sä haluat ottaa tähän seuraavaan tasoon.

[43:57] Kumpi on tän tutkimuksen kannalta Niinku oleellisempi?

[44:01] Öö eli näin, näin on aika yleinen tapa tehdä akateemisella puolella. [44:06] Teollisuudessa taas tilanne on täysin toisin.

[44:09] Meidän pitää selittää ihan eksakt se tilastollinen malli jo tutkimussuunnitelmassa. [44:15] Mitä tekijöitä me halutaan ottaa malliin mukaan.

[44:19] Ja niinpä me Öö tehdään se malli, ja se on sitten heti meidän final malli, eli siellä ei tehdä ollenkaan niin paljon tämmöistä mallin rakennusta Öö kun akateemisella puolella. [44:31] Akateemisella puolella on usein se, että me ei vielä tiedetä kovin paljoa, lääketutkimuksessa, kun me ollaan ihmispuolella jo tutkimassa, niin meidän pitäisi aika paljon jo tietää asioista.

[44:42] Mutta totta kai meidän täytyy myös sitten joka vaiheessa tarkistaa ne oletukset ja tietää niitten mallien oletukset.

[44:50] Ja toki me tässä mainittiin vaan tää lineärinen malli. [44:54] Meillä on myös paljon paljon muita malleja.

[44:58] Öö esimerkiksi just niihin Öö binäärisiin vasteisiin eli kaksiluokkaisiin vasteisiin, mitä me voidaan tehdä, mutta ehkä Öö Markus, tää alkaa olla jo tarpeeksi suuri annos tälle päivälle.

[Speaker 0]

[45:13] Joo, pakko se vaan vielä tohon, tohon sanoa, että tota tosiaan kun puhuit tosta tota mallinnusstrategiasta ja kuinka se on akateemisella puolella yleensä aina samanlainen, niin mulla on aika tämmöinen malliesimerkki tuli mieleen, et mä olin joskus tota tota auttamassa statistiikoissa semmoisessa aika mielenkiintoisessa syvärityössä, eli, elikkä tota lääketieteen semmoisessa lopputyössä, missä nimenomaan tehtiin tää ensin jiväriet ja sitten multivärle tota lähestymistapa ja siinä tota Öö tutkittiin vasteena tota seksuaalifunktiota kuvaavia mittareita naisilla, eli ne vastemuuttujat oli tällaisia kun seksuaalinen halu, orgasmipisteytys, kiihotusaste, kipu J- JNE, Öö joita sitten selitettiin muuttujilla, kuten parisuhdeonnellisuus, pulssiaallon nopeus, hormonikorvaushoito, depressiokyselyn pistemäärä.

[46:08] Öö elikkä tässä nimenomaan oli aina yksi vastenmuuttuja ja hirveä määrä niitä tota selittäviä muuttujia.

[46:16] Ja esimerkiksi tässä tapauksessa just käytettiin lopulta sitten usean muuttujan lineaarista mallia.


 

[Speaker 1]

[46:22] jo useamman tekijän lineaarista [Speaker 0]

[46:24] mallia juuri näin juuri näin.

[46:27] Mutta joo, tosiaan siinä tuli siinä tuli kyllä taas tuutin täydeltä informaatiota, toivottavasti pysyitte kärryillä ja hereillä.

[46:36] Ja tota Öö tosiaan vielä uudestaan loppuun maininta, että jos sä haluat tutkailla sitä analyysikarttaa, johon tämänkin jakso pohjautuu ja tai haluat oppia lisää aiheesta, niin käy tutustumassa meidän täysin avoimeen kurssiin havainnoista päättelyyn, joka löytyy digikampuksesta ja me laitetaan linkki tän jakson kuvaukseen.

[46:56] Mutta joo, hei, kiitos vielä kerran Elisa, että tulit taas pölisemään mun kanssa tänne. [47:02] Kyllä,

[Speaker 1]

[47:02] kiitos.

[47:03] Oli kiva olla taas mukana. [Speaker 0]

[47:06] Ja hei, kiitos sinulle, kuuntelija, että olit linjoilla.

[47:09] Toivottavasti tämä jakso innosti sinua oppimaan lisää paitsi tilastollisten testien käytöstä ja oikeissa tilanteissa, niin myös ihan yleisemmin tilastotieteestä.

[47:19] Kuullaan taas statistiikan aalloilla. [Speaker 1]

[47:31] Tämän podcastin on tuottanut Turun yliopiston lääketieteellisen tiedekunnan biostatistiikan yksikkö.

Tilastollisen testin valinta

Tässä tulee todellinen Statistiikan aalto täynnä tietoa tutkimusasetelmista ja tilastollisen testin valinnasta. Tutkimusasetelma ja muuttujien mitta-asteikon tunnistaminen johdattavat sopivaan tilastolliseen testiin.

Tämän podcastin sisältö sopii erinomaisesti tutkijoille ja kaikille, jotka haluavat oppia tunnistamaan erityyppiset muuttujat sekä valitsemaan sopivan tilastollisen testin yksinkertaisissa tilanteissa. Tämän jakso liittyy Turun yliopiston lääketieteen, bio- ja hammaslääketieteen opiskelijoille pakolliseen Havainnoista päättelyyn -kurssiin. Kurssi on avoin kaikille DigiCampuksella, ja sieltä löytyy podcastissa mainittu analyysikartta. Seuraavassa podcastissa avaamme tätä aihetta esimerkeillä.



[Speaker 1]

[00:00] Tervetuloa takaisin parhain kuuntelijan.
[00:07] Täällä teidän seurannanne tänään jälleen biostatistikko Markus Riskumäki.
[00:10] Ja minä olen biostatistikko Elisa Löttyniemi.

[Speaker 2]

[00:13] Ja tämä on Statistiikan aallolla podcast.

[Speaker 1]

[00:17] Olit sitten lääketieteen tai hammaslääketieteen opiskelija, tutkija,
[00:22] tai ihan muuten vain kiinnostunut biostatistiikasta, niin hienoa, että sä oot kuulolla.
[00:25] Tänään me puhumme tilastollisissa analysoissa.
[00:25] niin hienoa, että saat kuulolla.
[00:28] Tänään me puhumme tilastollisista analyyseista,
[00:31] tai jos jaksan aiheen tiivistäisiin yhteen kysymykseen,
[00:33] niin se voisi olla, että mitä ihmien testiä tähän aineistoon
[00:37] nyt pitäisi sitten käyttää.
[00:39] Mikäs meidän keskustelun aiheet on tälle päivälle?

[Speaker 2]

[00:43] No, aluksi mä ajattelin, että me voitais käydä läpi
[00:47] erilaisia tutkimusasetelmia, ja sen jälkeen näitä
[00:50] tilastollisia menetelmiä, eli näitä erilaisia testejä.
[00:53] Ja kuten sanoitkin, miten löydän sopivan testin joka erilaiseen tilanteeseen ja miksi käytän sitä testiä.
[01:07] Sitten voidaan pohtia erilaisia esimerkkejä tässä matkan varrella.
[01:12] Pitäisikö meidän aloittaa tosiaan niistä erilaisista tutkimusasetelmista?

[Speaker 1]

[01:17] Joo, mutta ennen kuin päästään niin pitkälle, niin me voitaisiin aloittaa vähän puhumalla määritelmistä, niitä aina tarvittaa.
[01:25] Eli ennen kuin päästään tutkimustyyppeihin, niin pitää meidän puhua tarkemmin kahdesta termistä.
[01:32] Ensinnäkin riskitekijä tai interventio, eli tekijä, ja toisena tutkimuksen tulokset tai kiinnostavien mittauksien arvot, eli vaste.
[01:43] Ensimmäinen termi eli riskitekijä, jonka vaikutustamme halutaan tutkia.
[01:48] Riskitekijä voi olla esimerkiksi joku tiedetty alleeli, joka nostaa vaikka diabeteksen puhkeamisen riskiä.
[01:54] Tai sitten vaikka ylipaino tai kohonnut verenpaine.
[01:58] Interventio taas on vaikka lääke, jota tutkitaan.

[Speaker 2]

[02:01] Niin, tai toisaalta interventio voi olla myöskin koulutus.
[02:04] Me tehdään paljon sellaisia tutkimuksia, joissa henkilökuntaa koulutetaan ja sitten me tutkitaan lisääntyykö henkilökunnan tietotaito tämän koulutuksen ansiosta.

[Speaker 1]

[02:14] Eli näillä riskitekijöillä tai interventioilla koetetaan selittää tuon kiinnostuksen kohteen eli sen vasteen käyttäytymistä, eikö vaan?
[02:21] Juu.
[02:22] Näitä kutsutaan monesti juuri tämän takia myös selittäväksi muuttujaksi.
[02:27] Ja sitten se toinen termi eli vaste, se on jotain, jonka arvo muuttuu tai käyttäytyy kiinnostavasti tekijän vaikutuksesta.
[02:34] Vaste on siis yleensä tutkimuksen kiinnostuksen kohteena tai voi sanoa päämuuttujana tässä tutkimuksessa.
[02:42] Esimerkkinä vasteesta voisi olla esimerkiksi diabeteksen puhkeaminen, alkoholin käytön väheneminen, suolisto-oireiden paraneminen ja niin poispäin.
[02:50] Vastetta saatetaan kutsua myös selitettäväksi muuttujaksi.
[02:55] Sitten päästäänkin niihin erilaisiin tutkimusasetelmiin.
[02:58] Aloitetaan puhumalla kahdesta erilaisesta ikään kuin pääluokasta.
[03:02] Näitä pääluokia on retrospektiivinen ja prospektiivinen tutkimus.
[03:08] Retrospektiivinen tutkimus tarkoittaa sitä, että vastenmuuttuvia
[03:11] ja luultavasti myös selittävät muuttojat on jo esiintyneet.
[03:15] Eli tutkimusdata on ikään kuin jo olemassa keruuhetkellä.

[Speaker 2]

[03:19] Tällaisia tutkimuksia muuten on suurin osa syväreistä läkiksessä
[03:24] kaikki kradutkin, että ohjaaja antaa sulle tai kertoo, mistä kerätään jo olemassa oleva data, vaikka potilaskertomuksista.

[Speaker 1]

[03:32] Joo.
[03:34] Eli siis se tieto esimerkiksi altistumisesta jollekin sairaudelle kerätään siis jälkikäteen.
[03:40] Sairauden ei ole mahdollisesti ilmaannuttua.
[03:42] Tyypillinen esimerkki voisi olla vaikka, että halutaan tutkia, mitä tupakointi aiheuttaa,
[03:47] koska me ei voida tehdä tutkimusta, jossa niin sanotusti käsketään jotain ihmisiä polttamaan askipäivässä.

[Speaker 2]

[03:53] No eipä, no eipä.

[Speaker 1]

[03:55] Tällainen tieto pitää vain kerätä niin sanotusti jälkikäteen
[03:59] semmoisilta henkilöiltä, jotka tupakoivat vakituisesti
[04:02] ja vertailla niitä sitten semmosiin, jotka ei ole polttanut.

[Speaker 2]

[04:05] Näin se menee.

[Speaker 1]

[04:07] Sitten se toinen oli prospektiivinen tutkimus.
[04:09] Ja se taas tarkoittaa tulevaisuudessa tehtävää tutkimusta.
[04:13] Eli vastetta ja mahdollisesti myöskään selittäviä muuttuja ei ole vielä esiintynyt.
[04:18] Valtistuneita ja altistumattomia seurataan siis sairauden suhteen ajankuluessa.
[04:22] Toinen tyypillinen esimerkki on lääketutkimus, jossa yksi ryhmä saa tutkimuslääkettä ja toinen ryhmä lumelääkettä.

[Speaker 2]

[04:29] Eli suomeksi tarkoittaa se, että me kirjoitetaan tutkimussuunnitelma, ja sitten me itse kerätään, tehdään ne mittaukset ja kerätään se data analyysejä varten.

[Speaker 1]

[04:40] Joo, okei.
[04:40] Mitäs muita tutkimusluokkia on olemassa, Eliisa?

[Speaker 2]

[04:45] No, mä sanoisin, että me voidaan tehdä näitä erilaisia jakoja, näitä jossakin jutuissa on vähän erilaisiakin näitä termejä, mutta me voitaisiin nyt käyttää tämmöistä luokkajakoa kuin kuvailevat, mä usein kutsun niitä myös evaluaatiotutkimuksiksi ja sitten analyyttiset tutkimukset.
[05:04] Ja kuten tämä kuvailevan tutkimuksen nimikin jo kertoo, niin me pyritään vain kuvailemaan jostakin joukosta kerättyä dataa tai aineistoa useimmiten just tunnuslukujen avulla.
[05:17] Tunnuslukuja on myös keskiarvot ja medianit ja muut.
[05:21] Eli me ei pyritä vastaamaan mihinkään meidän hienoon tutkimusideaan.
[05:28] Me ollaan kerätty jollain tavalla se tosiaan data, ja me kuvaillaan sitä dataa.
[05:34] Me ei välttämättä haluta myöskään todistaa muuttujen välistä yhteyttä, mutta nämä voi kuitenkin antaa meillä osviittajia nimenomaan ideoita seuraavinkin tutkimuksiin, ja sitä kautta me voidaan rakentaa mielenkiintoisia tutkimuskysymyksiä.
[05:51] Esimerkkejä tällaisista kuvailevista tutkimusta voisi olla myös tapauskuvaukset, joissa usein kuvataan vain yhden potilaan tarina, mitä siinä on tapahtunut.
[06:01] Tapaussarjat, joissa olemme keränneet muutaman samantyyppinen potilas esimerkiksi.
[06:08] Sitten poikkileikkaustutkimukset, joissa käytännössä aina kerätään data vain yhdestä aikapisteestä.

[Speaker 1]

[06:17] Sitten taas analyyttisissa tutkimuksissa me yritetään testata jotain tutkimushypoteesia ja osoittaa siis kausaalisia yhteyksiä muuttien välillä, eli syy-seuraussuhteita.
[06:29] Analyyttisten tutkimuksen sateenvarjon alla voisi ajatella olevan vielä kaksi alaluokkaa, sellaiset kuin havainnoivat ja kokeelliset tutkimukset.
[06:39] Ja taas, kuten jo nimikin vähän implikoi, niin havainnoivissa tutkimuksissa havainnoidaan.
[06:45] Eli tutkija ei yksinkertaisesti vaikka dokumentoi luonnollisesti tapahtuvia yhteyksiä tekijöiden ja vasteiden välillä.
[06:54] Yksi esimerkki voisi olla tämmöinen kuin tapausverrokkitutkimus,
[06:57] jossa ensin määritellään vaste, vaikkapa potilaat, joilla on keuhkosyöpä,
[07:02] verrattuna potilaisille, joilla ei ole keuhkosyöpää,
[07:04] ja sitten tutkitaan potilaiden aiempaa altistumista riskitekijöillä, esimerkiksi tupakka varmaan olisi tässä minun esimerkissä.
[07:12] Tai sitten näistä tutkitaan harvinaisia sairauksia, esimerkiksi on tehty väitöskirjoja, joissa tutkitaan syntymäepämuodostumia.
[07:19] Niissä on kerätty jokaiselle niin sanottu epämuodostuma lapselle viisi terveyttäkontrollia ja esimerkiksi vertaillaan äitien syömiä lääkkeitä tai sairauksia.

[Speaker 2]

[07:30] Tämäkin on tällainen tyypillinen esimerkki, missä olen ollut mukana.
[07:33] Meillä ei ole oikein mitään tietoa, mistä nämä lasten epämuodostumat ovat johtuneet.
[07:41] Sen takia olemme oikeasti saaneet rekisteristä kaikki näiden äitien syömät ostamat lääkkeet raskauden aikana.
[07:49] Usein olemme kiinnostuneita nimenomaan raskauden alkuvaiheesta.
[07:53] Myös me kerätään äidin sairaukset, äidin painot, bodimasindeksit ja näin, ja me koitetaan löytää joku mahdollinen tämmönen, mikä voisi aiheuttaa näitä epämuodostumia.
[08:05] Oikeasti me ollaan hirveän kiinnostuneita, mikä voisi aiheuttaa, mutta oikeasti me ei ennen tätä meidän analyysejä kunnolla tiedetä asiasta.

[Speaker 1]

[08:14] Joo.
[08:16] Eli vielä kertauksena tapausverrokkitutkimuksista.
[08:20] Niissä aloitettiin tutkimuksen lopputuloksesta, eli vasteesta.
[08:23] Jonka jälkeen tutkitaan ajassa taaksepäin ja määritellään riskitekijöitä,
[08:26] eli selittäviä muuttuja.

[Speaker 2]

[08:28] No sitten me voitaisiin ajatella toisena esimerkkinä
[08:32] tämmöisiä kohorttitutkimuksia, eli seurantatutkimuksia,
[08:35] jokaan sitten taas ihan tavallaan tehdään vähän toisinpäin.
[08:40] Eli me ollaan jollain lailla tietoisia näistä,
[08:42] että mitkä saattaisiin olla riskitekijöitä, ehkä ei ollut varmoja, koska me teemme tutkimusta, mutta meillä on joku haisu näistä mahdollisista riskitekijöistä.
[08:52] Ja sitten me kerätään sitä dataa, me otetaan myös nämä riskitekijät huomioon ja me tietenkin kerätään muitakin taustatekijöitä.
[09:02] Ja sitten me lähdetään seuraamaan näitä erilaisia ryhmiä ja katsotaan sitten, kuka sairastuu tämän seurannan aikana.
[09:09] Yksi esimerkki on Turussa tehty pitkä pitkä, ainakin 20-30 vuotta jo ollut, DIP-tutkimus, jossa siellä on mukana lapsia, joilla on erilaisia näitä diabetesriskialleleja,
[09:26] niitä vähän eri tasoisia, ja nyt me sitten seurataan, tai on seurattu heitä 2-30 vuotta, ja sitten me katsotaan, kenelle sitten tulee tämä tyyppin yksi diabetes.
[09:38] Me aloitamme mahdollisista riskitekijöistä ja saamme seurannan aikana selville, kuka sairastuu, ja koitamme tämän datan avulla tarkentaa tietoa sairauden puhkeamisesta.
[09:55] Nämä ovat samantyyppisiä, tutkimuksen tavoite on sama, saada selville lisää jostain sairauden riskitekijästä, mutta se tutkimuksen suunta oli tässä erilainen.

[Speaker 1]

[10:16] Eli tapausverrokkitutkimuksessa tosiaan aloitettiin vasteesta, jonka jälkeen katsottiin taaksepäin ja etsittiin mahdollisia altistuksia riskitekijöille eli määritellään sitten jälkikäteen selittäviä tekijöitä ja kohorttitutkimuksessa taas just toisinpäin, että saatetaan aloittaa valtavasta määrästä erilaisia altistuksia riskitekijöille, jonka jälkeen katsotaan eteenpäin ajassa ja etsitään sitten sitä vastetta eli selittävää tekijää.
[10:43] Sitten toinen suurempi luokka analyyttisten tutkimusten alla oli kokeelliset tutkimukset.
[10:49] Tämä on nyt luultavasti se tutkimusasetelma, josta meillä ja varmaan tämän podcastin kuuntelijoillakin on ehkä eniten kokemusta tai tietoa.
[10:57] Voisi sanoa, että kokeelliset tutkimukset on ihan tieteellisen tutkimuksen kulmakivi,
[11:02] joissa tutkija altistaa osan tai kaikki tutkimusjoukosta jollekin tekijälle.
[11:07] Tutuimpana esimerkkinä tällaisesta tutkimuksesta on varmaankin satunnaisesti tutut kontrolloidut tutkimukset.
[11:14] Taas esimerkkinä vaikka kaikki lääketutkimukset, joissa on usein mukana lumelääkäryhmä, jonka muutoksia verrataan lääkäryhmän muutokseen.

[Speaker 2]

[11:22] Tässä on tärkeänä asiana ymmärtää, että vain näillä kokeellisilla tutkimuksilla voidaan osoittaa todellinen, kausaalinen eli syy-seurausyhteys,
[11:31] jossa nimenomaan tutkija antaa sen altisteen tai onko se sitten lääke tai mikä on.
[11:39] Eli pakottaa tämän tutkittavan kausaalisen yhteyden tutkimuskohteille, jos ne hienosti sanotaan.
[11:46] Nyt kun me tehdään tämmöistä lääketutkimusta esimerkiksi, niin me tutkitaan sitten sitä, että tekeekö se lääke mitä me haaveillaan sen tekevän
[11:55] vai tekeekö se liian vähän mitä me haaveillaan sen tekevän.
[12:00] Jos meillä on esimerkki, jossa lääkkeellä pyritään vaikuttamaan vaikka luontihoitojen nostamaan luontihoitta,
[12:06] niin me tehdään siinä tutkimuksessa mittauksia, ja sitten me pystytään tilastollisella mallintamisella todistamaan,
[12:13] että nousiko sen lääkeryhmän luontihoidon keskiarvo enemmän kuin lumenlääkeryhmällä.
[12:20] No sitten havainnoivat tutkimukset, kuten ne tapausverokkitutkimukset ja kohorttitutkimukset, voi näyttää myös yhteyttä eli korrelaatiota näiden asioiden välillä, mutta ne ei osoita välttämättä syytä sille tapahtumalle tai vasteelle.
[12:38] Ja sen takia tämä ainut tapa osoittaa syyseuraussuhteet eli kausallisuus on tämä kokeellinen tutkimus.

[Speaker 1]

[12:45] Joo.
[12:46] Siinä oli aika tyhjentävästi käytännön erilaiset tutkimusasetelmat läpsi.

[Speaker 2]

[12:51] No niin, nyt kun ne on sitten käyty läpi, niin voitaisiinko me sitten puhua myöskin näiden eri asetelmien hyvistä ja huonoista puolista, koska tämä on aika suuri kysymys.
[13:02] Miksi esimerkiksi joku haluaisi tehdä havainnoivaa tutkimusta,
[13:06] vaikka me jo päädystiin siihen, että ainoastaan tällä kokeellisella tutkimuksella
[13:10] me voidaan osoittaa tämä kausaallinen yhteys ja syy-seuraussuhde,
[13:13] joka me oikeasti tietenkin halutaan tietää?

[Speaker 1]

[13:16] Joo, musta tuntuu, että helposti tulee ajateltua,
[13:18] että mitä ihmeen järkeä on edes tehdä havainnoivaa tutkimusta.
[13:23] Mutta uskokaa tai älkää, niin esim.
[13:25] näillä kohortti tai tapausverkkotutkimuksilla
[13:27] on ehdottomasti myös hyviä puolia.
[13:30] Kohorttitutkimusten eli seurantatutkimusten hyötyä on esimerkiksi se, että sä voit olla varma siitä ajankohdasta.
[13:36] Sä voit olla varma siitä, milloin jotain tapahtui ja milloin se seuraava asia sitten tapahtui.
[13:42] Sitten sä voit myös tutkia useampaa lopputulosta annetulle altistukselle ja tutkia useampaa altistusta samassa kohortissa.
[13:49] Sitten sä voit myös määrittää lopputuloksen suhteellisen riskin annetulla altistuksella.
[13:55] Sitten tämä toinen, eli tapausverrokkitutkimukset, niiden hyödyt taas on esimerkiksi, että sä voit valita tapaukset juuri sulle sopiviksi.
[14:03] Se voi potentiaalisesti vähentää sekoittavien tekijöiden harhaa, eli semmoista systemaattista virhettä siinä tutkimuksessa.
[14:10] Sä tarvit kokonaisuudessaan paljon pienemmän otoksen mahdollisesti, ja pienemmät otokset tietysti tarkoittaa pienempiä tutkimuskuluja.

[Speaker 2]

[14:18] Joo, todella paljon pienempiä tutkimuskuluja.

[Speaker 1]

[14:21] Joo, mitäs vielä.
[14:24] Niin, sä voit tarkastella useita altistumisia lopputuloksille.
[14:29] Ja tapausverkkotutkimukset on todella hyviä myös harvinaisille taudeille, koska usein on tosi vaikeaa selvittää,
[14:35] että kuka nyt sitten sairastuu näihin harvinaisiin tauteihin, jos niitä tapahtuu esimerkiksi vain yhdessä miljoonasta tapauksesta.

[Speaker 2]

[14:42] Joo joo, mä voin kertoa myös yhden esimerkin, kun mä olin yhdessä laitekehitysfirmassa töissä,
[14:48] Me kehitettiin tällaista testiä tällaiseen skits-sairauteen, jota tulee noin yhdelle syntyvälle lapselle 60 000 syntyvään lapseen.
[15:01] Viranomaiset sanoivat, että meidän pitää löytää 15 tällaista sairaslabranäytettä.
[15:09] Suomessa meidän pitäisi kerätä dataa noin 20 vuotta, niin se on täysin mahdoton tehtävä firmalle.
[15:15] Joten ainoa tapaus on mennä keräämään ympäri Eurooppaa pakkasista näitä sairasnäytteitä.
[15:21] Se on yksi esimerkki, että me ei pystytä vaan käytännössä tekemään mitään prospektiivista tutkimusta tämmöisille harvinaisille sairauksille.
[15:30] No sitten kohortti ja tapausverkkotutkimuksessa on tietysti myöskin haittoja tai huonoja puolia.
[15:38] Esimerkiksi kohorttitutkimuksilla varjopuoli tietenkin on se sama kuin äskeisessä esimerkissä, että meidän pitäisi tehdä tätä seurantaa tosi pitkään, mikä ei ole aina käytännössä mahdollista.
[15:54] Tietenkin niissä voi olla myös semmoisia sekoittavia tekijöitä, mitä me emme halua.
[16:03] Sitten tapausverokkitutkimuksessa taas meillä voi olla haittojakin sellaisia, että meillä on joskus vaikeaa löytää niitä sopivia verokkeja,
[16:12] koska ne pitäisi olla muuten ihan samanlaisia, mutta niiltä pitäisi puuttua vain se MS-sairaus, koska me halutaan tietenkin mahdollisimman paljon vähentää tätä harhaalisystemaattista virhettä.
[16:26] Varsinkin, jos tutkimus on kyselytutkimus tai haastattelu, niin meille voi tulla muistiharhaa, että ihmiset eivät muista asioita.

[Speaker 1]

[16:38] Muistiharhaan oli sitä, että joku tutkittava potilas, kun siltä kysellään haastattelussa mitattavia asioita, muistaa väärin tai ei muista ollenkaan, mitä hän on vaikka syönyt.

[Speaker 2]

[16:53] Ja sitten meillä on myöskin tämmöisiä, että mitä kaikkea me voidaan laskea näistä erilaisista tutkimuksista.
[17:00] Että tapausverokkitutkimuksessa me ei oikein voida määrittää suhteellista riskiä,
[17:04] mutta me voidaan laskea tämmöinen ristisuhde, eli odds ratio,
[17:08] mikä on hyvin paljon käytetty erilaisissa julkaisuissa.

[Speaker 1]

[17:13] Joo.
[17:13] Sitten kuten me jo painotettiin monta kertaa aiemmin,
[17:17] Sitten taas kokeellisten tutkimusten kohdalla hyödyt on, että voit selvittää todellisen kausaalisuhteen eli syy-seuraussuhteen.
[17:26] Ja jos sä satunnaistat potilaat kokeellisissa tutkimuksissa tai koehenkilöissä,
[17:31] niin sä pääset todennäköisesti eroon niistä sekoittavista tekijöistä, joista olemme helposti huolestuneita muilla tutkimustyypeillä.
[17:39] Sä voit myös tarkastella altistumista ja lopputulosta paljon eristetymmällä tai lainausmerkeissä laboratorio-olosuhteisemmalla tavalla ja sillä lailla sitten taas vähentää jonkin verran aineiston sitä niin sanottua melua tai kohinaa.

[Speaker 2]

[17:53] Tästä yhtenä esimerkkinä on vaikka lääkkeen imeytymistutkimukset,
[17:58] jossa tutkimushenkilöltä kielletään liikunta, saunominen.
[18:02] He jopa syövät samaa ruokaa, saavat juoda vettä tietyn standardin määrän.
[18:08] Tällä tavalla yritetään juuri melua kohinaa, eli vaihtelua vähentää.

[Speaker 1]

[18:16] Tietysti kokeellisilla tutkimuksilla on myös haittoja.
[18:20] Kuten kaikilla tutkimustyypeillä.
[18:23] Kokeelliset tutkimukset voivat olla helposti tosi kalliita.
[18:26] Rekrytointi voi olla todella vaikeaa, vähän riippuen siitä, mitä yrittää tutkia.
[18:31] Sitten tietysti jotain sairauksia tai lopputuloksia ei voida oikein eettisesti arvioida kokeellisilla tutkimuksilla.
[18:37] Esimerkkinä just se, että ei voida pakottaa ketään polttamaan askeja ja tupakkaa päivässä,
[18:42] ja sitten katsoa, miten se vaikuttaa hänen keuhkoihin.
[18:46] Sitten tietysti kokeelliset tutkimukset voivat viedä hyvin kauan aikaa.

[Speaker 2]

[18:51] Sitten täytyy myös tajuta se, että kokeelliset tutkimukset usein käytännössä katsomaan maksaa miljoonia ja ne vaatii ihan valtavan koneiston ympärilleen.
[19:02] Olen juuri ollut mukana parissa tutkimuksissa, joissa näitä tutkittavia koehenkilöitä rekrytoitiin ympäri maailman.
[19:12] Ja tämmöiseen hallinnointiin vaaditaan tietenkin hirveästi ihmisiä ja sitten tutkimuksen luvat haetaan niistä joka ikisestä maasta ja se vaatii myöskin hirveästi byrokratiaa ja muuta.
[19:25] Ja jos nyt ajatellaan tämmöistä akateemista yliopistoympäristöä niin eihän tutkijoilla ole semmoisia rahoja varsinkaan Suomessa.

[Speaker 1]

[19:35] Okei, eli kaikki, mitä tähän mennessä ollaan käyty läpi, niin on varmasti monelle kuuntelijalle ollut vähän semmoista kertausta.
[19:43] Mutta seuraava askel onkin sitten itse podcastin aihe, että okei, sulla on tutkimus, sä oot käynyt aineiston.
[19:51] Miten ihmeessä sä nyt sitten analysoit sitä sun aineistoa?

[Speaker 2]

[19:54] Joo, no mä aloittaisin miettimällä siitä sun datasta niinku ne kulmakivet.
[20:01] Eli mun mielestä dataa tarvitsee nimenomaan ymmärtää sen datan tärkeimmät ominaisuudet.
[20:08] Ja me ollaan jo puhuttu siitä vasteesta, eli se kiinnostuksen kohteena oleva muuttujan havainnot,
[20:14] ja sitten tekijä, jolla me koitetaan selittää sitä vasteen käyttäytymistä.
[20:18] Mutta tämä tarvitsee ensimmäisenä ymmärtää.
[20:22] Mutta sitten meillä on muitakin tärkeitä näitä kulmakiviasioita.
[20:28] Vastaista minun pitää vielä täydentää se, että siitä kiinnostuksen kohtenolla muuttujasta sinun pitää ymmärtää, minkälainen se muuttuja on.
[20:37] Tämän kurssin puitteissa usein riittää näitä analyysejä varten se, että sinun pitää ymmärtää, onko se sinun kiinnostuksen kohtenolla muuttuja kategorinen vai onko se jatkuva eli numeerinen.
[20:48] Sitten vielä sun täytyy ymmärtää, mitä siinä sun datassa on riippumatonta.
[20:55] Onko siellä havaintoja, jotka onkin riippuvia.
[20:59] Tyypillinen esimerkki tästä on se, että kun me mitataan eri henkilöiltä arvoa, vaikka verenpainesulta ja multa, Markus,
[21:07] niin totta kai ne on riippumattomia havaintoja.
[21:10] Mutta jos multa mitataan kaksi kertaa se verenpaine, niin ne on riippuvia mittauksia.
[21:17] Ja kumpaankin näihin tapaukseen tehdään siis erilaiset tilastolliset testit, eli meidän täytyy ymmärtää onko meidän havainnot riippumattomia vai riippuvia.
[21:28] Koska muuten sä voit tehdä ihan vääriä testejä.
[21:32] Ja sit jos sulla on vastenumerinen jatkuva muuttuja, niin sun täytyy saada tietoa siitä minkälainen sen jakauma on.

[Speaker 1]

[21:41] Joo.
[21:43] Nyt me jatketaan sit sillä lailla, että me yritetään käydä läpi tämmönen erittäin hyvä, mutta ensi vilkausulla varmasti aika pelottava taulukko,
[21:51] jolla voi tarkastella kerättyä dataa ja valita lopulta sit oikea tilastollinen testi just sun tilanteeseen.

[Speaker 2]

[21:57] Niin se tarkoitat sitä meidän kaksi sivusta analyysikarttaa?

[Speaker 1]

[22:00] Joo, kyllä.
[22:01] Juuri näin.
[22:02] Eli mennään ihan kurssin aiheeseen.
[22:05] Me ei nyt voida tässä jaksossa kuvailla, miten käytännössä jokainen testi suoritetaan,
[22:11] koska siinä on ihan liikaa informaatiota yhteen jaksoon, mutta tämä lyhyt läpikäynti toivottavasti
[22:17] auttaa vähintäänkin esittämään ne peruskysymykset, joiden perusteella sä voit katsoa sun aineistoa
[22:22] ja ajatella, että okei, tähän mun pitäisi kiinnittää huomiota, kun suunnittelen analyysejäni.
[22:28] Okei, eli tosiaan, niin kuin Elisa mainitsi, niin käydään läpi sitä kurssin sivuilta löytyvää kahden sivun analyysikarttaa.
[22:36] Ihan ensimmäinen kysymys on, mitä tyyppiä sun aineiston vastemuuttuja on.
[22:41] Eli niin kuin Elisa tuossa jo aiemmin mainitsi, niin tässä on kaksi kaaraa.
[22:45] Vaste on joko jatkuva, eli numeerinen, tai sitten se on kategorinen.
[22:50] Joten kertauksena jatkuvan muuttujan kohdalla on siis kyse asioista, jotka liikkuvat jatkumossa.
[22:56] Esimerkiksi ikä, BMI, paino, ja tämä siis tarkoittaa sitä, että esimerkiksi se paino voi olla 100 kiloa, 101 kiloa, 102 kiloa, yksitoisensa jälkeen, eli liikkuvat jatkumossa.
[23:09] Jatkuvat muuttujat ovat hieman monimutkaisempia kuin seuraava tietotyyppi, joten palataan niiden varsinaiseen analyysiin ihan hetken päästä.

[Speaker 2]

[23:17] Tämä toinen yleinen tietotyyppi, johon me kaikki törmätään, on tosiaan kategorinamuuttuja.
[23:27] Kategorisen muuttujien analyysi löydät sieltä analyysikartalta sivulta 2.
[23:33] Nimensä mukaisesti kategorinan data on dataa, joka on jaoteltu useisiin diskreteihin luokkiin tai kategorioihin.
[23:42] Esimerkiksi meillä voi olla sukupuoli, mies, nainen, muu.
[23:46] Siinä on kolme kategoriaa.
[23:49] Kyllä, ei on tietenkin kategorisointitapa.
[23:54] Eli johkin kysymykseen voi vastata vain kyllä tai ei.
[23:59] Ja jos sinulla on kategorinen vastemuuttuja ja kategorinen tekijä,
[24:05] eli sinulla on tilanne niin sanotusti cut-cut,
[24:09] niin me voidaan tällaista kahden kategorisen muuttujan välistä yhteyttä tutkia esimerkiksi kiinneljötestillä.
[24:19] Yksinkertaisesti sanottuna se testi määrittää, onko siellä tilastollisesti merkitsevää eroa vaikka näissä luokissa mies-nainen-muu, vaikka nyt tupakoinnin suhteen.
[24:33] Tai sitten meillä voi olla erilainen tilanne, että me halutaan tutkia yhteyttä esimerkiksi polvi ja lonkkakivun välillä, jotka olisivat kyllä ei muut vastauksemahdollisuuksia.
[24:46] Jos taas tässä taulukossa on aika pieniä frekvenssejä, eli suomeksi vähän henkilöitä,
[24:54] niin me joudutaan käyttämään Fischerin exaktia testiä, joka periaatteessa tutkii ihan samaa asiaa kuin tämä kiinnelijotesti,
[25:03] mutta se on todellakin tarkka testi, se laskee tarkat todennäköisyydet yhteen.
[25:08] Eli sitä voi käyttää aina, se on aina parastesti.
[25:13] Mutta mikä sen haittaa on, että se tietokoneen vaatima laskuaika voi olla tosi tosi pitkä, jos sulla niitä kategorioita on paljon.
[25:24] Mulla pisin laskuaika on ollut tosiaan noin viikon verran.
[25:28] Ja sen takia mä pelkään, että moni podcastin kuuntelijakin luulee, että tietokone on jäänyt jumiin.
[25:33] Ei jää jumiin, vaan se vaan kestää pitkän aikaa.

[Speaker 1]

[25:37] Sitten voisit miettiä, miten monimutkainen lasku on kyseessä, jos tietokoneeltakin kestää viikko.

[Speaker 2]

[25:42] Joo, ja sen takia me opetetaan myös nämä kaksi testiä, että voi käyttää suuriin lukuihin aina.
[25:50] JMP, meidän CHAMP-ohjelma, antaa myös varoituksen, milloin se kiinneliötesti ei ole sopiva testi.
[25:56] Silloin on tietenkin ainakin pakko käyttää sitä Fisherin Exactia-testiä.
[26:01] Nämä testit voi tehdä tämän kurssin puitteissa sekä nominaaliasteikollisille kuin ordinaaliasteikollisille muuttujille.
[26:09] Taas kertauksena vähän.
[26:10] Nominaaliasteikollinenhan oli semmoinen, jos kategorisessa muuttujissa luokilla ei ole järjestystä, niin kuin vaikka mies-nainen muu.
[26:18] Ja ordinaaliasteikollinen on semmoinen kategorinen muuttoja, kuten vaikka mielipide kysytty asteikolla 1-5 täysin eri mieltä, täysin samaa mieltä.
[26:27] eli missä on se järjestys.
[26:30] Okei, mutta otetaan vähän takapakkia.
[26:33] Mennään takaisin jatkuviin muuttujiin.
[26:36] Mitä me silloin tehdään, Markus, jos se vastenmuuttoja on jatkuva?

[Speaker 1]

[26:40] Joo, eli jos vastenmuuttoja on jatkuva, eli numeerinen,
[26:43] niin seuraavaksi täytyy miettiä, että millainen jakauma sillä on.
[26:47] Ja muistettava taas se, mitä sä sanoitkin jo,
[26:50] että on vain yksi havainto per tutkimushenkilö,
[26:54] Eli havainnot on tosiaan riippumattomia toisistaan.
[26:58] Eli tämä nyt oli taas esimerkiksi se, että jos mitataan minun verenpaineeni ja Eliisan verenpaineeni, niin ne ei liity toisiinsa millään lailla.
[27:06] Jakaumatarkastelussa sun pitää päättää, että onko sun data normaalisti jakautunutta vai ei.
[27:12] Mutta käydään näitä vähän tarkemmin läpi ennen sinne analyysikaavioon siirtymistä.
[27:18] Eli riippumattomuus siis tilastotieteessä tarkoitti sitä, että yhden asian esiintyminen ei vaikuta toisen asian todennäköisyyteen esiintyä.
[27:27] Esimerkkinä juuri esimerkiksi tämä mun ja Elisan verenpaineet tai sitten yksinkertaisesti nopan heitto.
[27:33] Eli ihan sama kuinka monta kertaa sä heität noppaa, niin todennäköisyys saada silmäluvuksi esimerkiksi yksi tulee olemaan aina täysin sama.

[Speaker 2]

[27:43] Sitten siirrytään siihen toiseen kriteeriin, eli onko se data normaalisti jakautunutta vai ei.
[27:53] Me ollaan kaikki kuultu siitä normaaliakaumasta, kellokäyrästä, normaalikäyrästä, kaussinkäyrästä.
[28:02] Se tulee siitä, kun se muistuttaa vähän tämmöistä kelloa, se muoto.
[28:10] Helpoin tapa aloittaa datan tutkimista on piirtää muuttujasta histogrammi ja katsoa visuaalisesti, muistuttaako se tällaista kaussinkäyrää eli kellokäyrää.
[28:26] Histogrammista hirveän usein näkee jo, että jos se on jotain ihan muuta, eli se ei ole ollenkaan symmetrinen, miten aina kaussinkäyrä on.
[28:37] Silloin voin tehdä jo aika nopeastikin sen johtopäätöksen, että data ei ole normaalisti jakautunutta.
[28:43] Mitäs sitten, jos se on tämmöinen vähän sinne päin?
[28:48] Eli se muistuttaa vähän sitä kaussinkäyrää, mutta et ole kuitenkaan ihan siitä varma, että voinko nyt sanoa, että tämä on normaalisti jakautunut.
[28:58] Täytyy aina muistaa se, että kun me katsotaan datastiakaumaa, niin se ei ole sellainen kuin näissä kauniissa oppikirjoissa tai Wikipediassa,
[29:08] mikä kuvaa täydellistä normaaliakaumaa, eli sitä teoreettista normaaliakaumaa.
[29:12] Me pyritään katsoa sitä, että onko se likimain kohtuullisen lähellä sitä normaaliakaumaa.
[29:19] Mutta meillähän oli siinä paljon tämmöisiä apukeinoja, mitä me voidaan katsoa.
[29:24] Yksi parhaita on se QQ-plotti, minkä JMPstäkin saa, ja siellä on myöskin ne katkoviivat, että onko ne havaintopisteet katkoviivan sisällä.
[29:35] Meillä on vinous ja huipukkuusluvut, mutta nyt ei tässä podcastissa mennä ihan niin syvälle kertomaan, mitä ne kaikki oli.
[29:47] Mutta sitten täytyy vielä pistää vähän korvan taakse se, että jos me näemme, että se on vinojakauma, mikä on hirveän useimmissa labbramuuttujissa jostakin syystä, ne tuppaa olevan vinojen jakaumia,
[29:58] niin me voidaan myöskin muuntaa sitä dataa, eli tehdä joka havainnolle logaritmin tai neliöiden muunnos, ja sitä kautta hirveän useimmin saadaan se jakauma normaalisti jakautuneeksi.
[30:09] Sitten meillä on vielä lisää näitä oletuksia analyyseilla, eli meidän täytyy ymmärtää, siinä analyysikartassa yritetään hyvin kuvata sitä meidän taustaoletuksia, mitä meidän täytyy ensin selvittää, ennen kuin me päästään tekemään sitä varsinaista testiä.
[30:25] Me oletetaan aina, että näillä eri ryhmillä on kutakuinkin saman verran hajontaa, mutta tähänkin on sitten oma taustatesti, mitä me ollaan kurssillakin tehty.
[30:37] Mutta tässä oli nyt sitten tärkeämpiä pohjatietoja.
[30:39] Mitäs me sitten tehdään, Markus?

[Speaker 1]

[30:41] Okei, eli nyt sulla on siis jatkuva vastenmuuttuja,
[30:44] ja näillä Elisa mainitsemilla tarkasteluilla me ollaan nyt päätetty,
[30:48] että se on normaalisti jakautunut.
[30:51] Okei, seuraavaksi täytyy miettiä, että millaista kysymystä me kysytään.
[30:55] Ja tämä jakautuu laajasti kahteen kysymykseen,
[30:58] että haluatko sä tietää suhteista muuttujien välillä,
[31:02] vai haluatko tietää eroista eri ryhmien keskiarvojen välillä.

[Speaker 2]

[31:05] Ja suhteessa tarvitaan nimenomaan semmoista yhteyttä.
[31:11] Niin,

[Speaker 1]

[31:12] Eli vaikuttaako yksi muuttuja toiseen muuttujaan.
[31:16] Eli tässä kohtaa sun täytyy ensiksi pohtia, että minkälainen muuttujaa sun tekijä on.
[31:21] Eli se selittävä muuttuja.
[31:23] Onko sun tekijä sukupuoli vai BMI, eli onko se kategorinen vai numeerinen.
[31:29] Jos sä haluat tietää suhteista, eli niistä kahden muuttujan välisistä yhteydestä,
[31:34] eli vaikuttaako muuttuja x, joka on jatkuva muuttuja, muuttujaan y jollakin tavalla.
[31:40] Sä voit käyttää jotain nimeltä regressioanalyysi.
[31:44] Ja nyt me siis katsotaan jatkuvien muuttujien kaaviota sieltä analyysikartan sivulta 2.
[31:50] Tämmöisessä regressioanalyysissä se yhteysmuoto on siis num num,
[31:54] tai sitten num on yhtä kuin kat plus num.
[31:59] Eli vasteena on numeerinen muuttuja ja tekijöinä joko pelkkiä numeerisiä muuttujia tai sekä kategorisia että numeerisiä muuttujia.

[Speaker 2]

[32:07] Ja usein silloin, jos meillä on sekä numeerisiä että kategorisia muuttujia, niin sittenhän me puhutaan myöskin lineaarisista malleista.

[Speaker 1]

[32:14] Joo.

[Speaker 2]

[32:15] Mutta me ennää vielä tämä yksinkertainen, niin kuin meillä on vain yksi tekijä mukana siellä, yksi numeerinen tekijä.
[32:22] Joo,

[Speaker 1]

[32:23] Eli yksinkertaisin versio tästä regressiosta on lineaarinen regressio,
[32:27] jossa muuttujien välillä on lineaarinen yhteys, eli yläasteeltakin tutuin termein
[32:33] jana y on yhtä kuin a x plus b.
[32:37] Tällöin yhteys oli siis num num.
[32:40] Eli koordinaatistossa näkyy suora viiva, joka näyttää muuttujien x ja y-välisen yhteyden.

[Speaker 2]

[32:46] Muistetaan vielä, että kun me tehdään tätä datasta,
[32:50] niin me sovitetaan siihen dataan suora, joka parhaiten kuvaa sitä yhteyttä.
[32:55] Eihän ne havaintopisteet kaikki sillä suoralla viivalla ole.

[Speaker 1]

[32:58] Niin, jep.
[33:00] Jälleen kerran, tosi elämässä ei löydy niitä Wikipediaan teoreettisia,
[33:05] kauniita kuvioita.
[33:07] Ja tietysti tämän yhteyden ei myöskään tarvitse olla lineaarinen,
[33:11] vaan se voi olla esimerkiksi kaareva tai eksponentiaalinen.
[33:16] Eli regressioanalyyseja on myös monelle selittävälle muuttujalle tai ylipäätään epälineaarisille yhteyksille.
[33:22] Eli sä voit käyttää regressioanalyysiä, kun haluat selvittää, minkälainen funktio parhaiten kuvaisi kahden muuttujan välistä yhteyttä.
[33:31] Lineaarisessa regressiossa sä näet, että jos x-muuttuja muuttuu yhden yksikön verran, kuinka paljon keskimäärin y muuttuu.

[Speaker 2]

[33:38] Otetaan tästä vaikka tuon ihan käytännön esimerkkinä, että jos me tutkitaan painon ja kolesterolin välistä yhteyttä,
[33:46] niin me voitaisiin ikään kuin potilallekin sanoa, että jos sä pystyt pudottaa painoa 10 kg, niin sun kolesteroli keskimäärin tippuu tämän ja tämän verran.
[33:56] Ja sit sä et ehkä tarvitse enää vaikka kolesterolilääkitystä.
[33:59] Eli tätä voi ihan hyödyntää tämmöisissä potilastöissä.
[34:04] Ja totta kai labra-hommissa, mitä paljon biolääketieteen tutkijat tekevät,
[34:10] niin tämä on hyvin yleinen metodi.

[Speaker 1]

[34:12] Joo.
[34:13] No, mutta mitä sitten, jos sinä et selkeästi pysty erottamaan,
[34:16] että kumpi näistä sinun muuttujista on vasta ja kumpi tekijä,
[34:20] mutta sinä haluat kuitenkin tietää, onko näiden muuttujien välillä yhteyttä
[34:23] ja kuinka voimakasta se on.
[34:25] Niin silloin sinun pitää käyttää erilaista analyysimallia nimeltään korrelaatioanalyysi.
[34:31] Nyt puhutaan kahden jatkuvan muuttujan välisestä yhteydestä, eli yhteystyyppi on taas NumNum.
[34:38] Jos se datana noudattaa normaaliakaumaa, niin silloin käytetään tämmöistä kuin Pearsonin korrelaatio,
[34:43] ja jos taas data ei ole normaalisti jakautunut, niin käytetään epäparametristä versiota, eli Spearmanin korrelaatiota.
[34:51] Jälleen me ei nyt tässä jaksossa pureuduta näihin testeihin tämän tarkemmin.

[Speaker 2]

[34:55] Okei, nyt me siis tutkittiin tota NumNum-tilannetta, mutta meillä on aika paljon yleisempi semmoinen tilanne,
[35:04] että me halutaankin vertailla eri ryhmien välillä vaikka keskiarvoja.
[35:11] Eli me halutaan katsoa, että onko siellä ryhmässä A erilainen keskiarvo kuin ryhmässä B.
[35:17] Huomaa, että tämä ryhmä on nyt kategorinen muuttuja A ja B2-luokkaa.
[35:23] Nyt me ollaan sitten analyysikartalla sivulla yksi, ja esimerkkinä me voidaan vaikka tutkia, että onko tutkimusryhmässä erilainen podimasi-indeksi kuin kontrolliryhmässä, ja nimenomaan keskiarvojen suhteen.
[35:41] Eli tässä tapauksessa meidän vaste on podimasi-indeksi, numeroinen jatkuva muuttuja, ja tekijä on kategorinen, jossa on vielä kaksi luokkaa.
[35:51] Eli nyt me kutsutaan tätä analyysimallia NUMCAT-malliksi.
[35:57] Ja tuossa mun esimerkissä oli äsken kaksi ryhmää, mutta ensinnäisenä sun pitää tuossa analyysikartan sivulta yksikin selvittää, että kuinka monta ryhmää sulla on, kuinka monta keskiarvoa sä haluat vertailla.
[36:09] Ja taas tausto-oletuksia, kun me äskenkin pohdittiin, niin nyt meidän pitää katsoa sitä normaaliakauma-oletusta molemmissa ryhmissä.
[36:20] sinne JMP-henkisen by-group, eli kummassakin ryhmässä katsotaan erikseen sitä normaaliakauma-oletusta.
[36:25] Ja nyt jos meillä on kaksi vertailtavaa ryhmää ja kummassakin ryhmässä data noudattaa normaaliakaumaa,
[36:33] niin silloin me voidaan käyttää studentin t-testiä, jota me usein kutsutaan myös kahden riippumattoman ryhmän t-testiksi,
[36:42] jossa nimenomaan verrataan tätä keskiarvoja kahdessa eri ryhmässä.
[36:48] No, jos se data ei noudata normaaliakaumaa, niin meidän täytyy tehdä erilainen testi, joka ei sitä sitten edellytä.
[36:56] Eli silloin me käytetään Wilcoxonin järjestyssummatestiä, jota me usein kurssillakin kutsutaan Wilcoxon RankSum-testiksi.
[37:04] Ihan näin väännetään se englantia suomeksi, koska julkaisussa nämä kaikki testien nimet on käytännössä katsoen englanniksi, niin sen takia me käydään nekin läpi.
[37:13] Synonyymi tälle testille on Manwethin U-testi ja kaikissa näissäkin tutkitaan kahta riippumatonta ryhmää.
[37:21] Silloin kun me mennään epäparametrisiin testeihin, me ajatellaan yleensä, että me verrataan mediaania, koska nimenomaan kun me ei oleteta sitä normaaliakaumaa,
[37:31] niin silloinhän me ei voida verrata keskiarvoa,
[37:34] koska keskiarvo ei ollut optimaalinen tunnusluku,
[37:37] jos meillä on tosi tosi vino tai muuten outo jakauma.
[37:41] No, mitä me sitten tehdään, jos ryhmiä onkin enemmän kuin kaksi,
[37:45] vaikka sitten sukupuolimies, nainen, muut?
[37:51] Nämä teetestit ja näiden epäparametsit vastineet ei yleisty.
[37:56] Ne toimivat vain tälle kahden ryhmän tilanteessa.
[38:00] Mutta jos meillä on enemmän kuin kaksi ryhmää, niin silloin, jos data noudattaa normaalia kaumaa, niin me voidaan käyttää yksisuuntaista ANOVA-testiä, One Way ANOVA, joka suomeksi on siis varianssianalyysi.
[38:17] Mutta kannattaa huomioida, että tämä nimi on vähän monella tapaa jännä.
[38:22] Me verrataan keskiarvoja, mutta me tutkitaan tätä keskiarvon eroa tutkimalla datassa olevaa vaihtelua.
[38:31] Ja varianssihan on keskihajonta toiseen, joten me tutkitaan sitä sen vaihtelun avulla.
[38:37] Mutta jos se vaste ei ole normaalisti jakautunut näissä ryhmissä,
[38:42] niin silloin meidän epäparametrinen testin nimi on kruskalvalisin testi.
[38:51] Aletaanko me olla, Markus, aika täällä ylärajoilla meidän tilastollisessa ajattelukyvyssämme?

[Speaker 1]

[38:58] Joo, ehdottomasti.
[38:59] Tässä on nyt kyllä tullut ihan infoa mohan täydeltä, niin sanotusti.
[39:05] mutta muistakaa tosiaan, että kaikki tämä tieto mitä me käydään läpi on siellä kurssin sivujen analyysikartassa mitä kannattaa pitää silmällä tässä jatkuvasti.

[Speaker 2]

[39:14] Juu, ja sit vielä tosi tosi tärkeä pointti, mitä mä haluan muistuttaa, että jos siltä henkilöltä on mitattu joku asia kaksi kertaa, niin ne havainnot ei ole riippumattomia.
[39:26] Silloin edellä mainitut testit eivät tietenkään sovi.
[39:30] Silloin me käytämme parittaista t-testiä tai Wilcoxon SineTrank-testiä, joka on suomeksi Wilcoxonin merkittyjen sijalukujen testi.
[39:39] Eli yleensä me lasketaan, jos me mitataan kaksi kertaa, me lasketaan vielä niiden erotus eli esimerkiksi sen muutos muuttuja.
[39:47] Mutta mennään vielä yksi vähän monimutkaisempi asia läpi, vai mitä, joka liittyy myös näihin meidän mainitsemiin juttuihin.

[Speaker 1]

[39:55] Juu, eli tämä viimeinen asia on melko monimutkainen ja se on nyt täysin ok, jos sä haluat antaa tämän mieluummin tutkimusryhmänsä tilastotieteilijälle tehtäväksi, mutta voi olla ihan hyvä olla edes perusymmärrys.
[40:08] Yksi kysymys, joka tulee aina esiin tutkimuksia suunniteltaessa, että noh, entä jos sä haluat ottaa huomioon useampia tekijöitä siinä mallinnuksessa kuin vaan kahta.
[40:17] Niin kuin tässä ollaan nyt puhuttu näistä kaikissa analyysissä on ollut vain kaksi muuttujaa.
[40:23] Eli nyt siis puhutaan siitä aiemmin ohimenen mainitusta NUM on yhtä kuin CAT plus NUM yhteydestä.
[40:30] Eli että vastenmuuttoja on jatkuva ja sitten ne selittävät voi olla sekä kategorisia että jatkuvia.

[Speaker 2]

[40:37] Joo ja tämähän on tosi tosi tyypillinen meidän jokapäiväisessä elämässä.
[40:43] Meidän tutkimusdata on niin monimutkainen, että ei sinne riitä vaan yksi tekijä selittämään sen vasteen käyttäytymistä.
[40:50] vaan me halutaan laittaa sinne monta tekijää, jotka voi olla kategorisia tai numeerisia tai molempia tosiaan.
[40:59] Mä annan esimerkin tästä yhdestä väitöskirjatutkimusjulkaisusta.
[41:05] Me haluttiin tutkia, mitkä tekijät on yhteydessä elämänlaatuun ja sitten me haluttiin myös tutkia, mitkä tekijät on yhteydessä työkykyyn.
[41:16] Me tutkittiin unenlaadun yhteyttä, parisuhteen yhteyttä,
[41:20] podimasindeksin yhteyttä, tupakoinnin yhteyttä, koulutustason yhteyttä,
[41:24] masennuksen ja ahdistuksen yhteyttä, kolmivuorotyötä ja niin edelleen.
[41:27] Niitä oli aika paljon, koska ymmärrätte sitä, että jos me puhutaan elämänlaadusta,
[41:33] työkyvystä, niin ei yksi tekijä millään riitä selittämään sitä.
[41:37] Ja tässäkin tutkimuksessa oli mukana yli 700 Porin kaupungissa työskentelevää ihmistä.

[Speaker 1]

[41:44] Joo, mutta vaikka sitä elämänlaatua tutkiessa tosiaan tarvitaan hirveä määrä niitä mahdollisia selittäviä muuttuja,
[41:52] niin onneksi sitäkin voidaan analysoida ihan tilastollisella mallinnuksella.
[41:57] Ja nyt, koska mukana tässä esimerkissä on sekä jatkuvia että kategorisia tekijöitä,
[42:02] niin me sanottaisiin tätä mallia monisuuntaiseksi tai monentekijän varianssianalyysiksi.
[42:08] Tai yleisemmin voidaan sanoa vain lineaarinen malli, johon voidaan lisätä muuttuja, joita sä haluat kontrolloida.
[42:15] Ja kategoristen muuttujien tapauksessa sä voit käyttää logistista regressiota.

[Speaker 2]

[42:19] Nimenomaan silloin, kun vaste on se kategorinen muuttuja.
[42:23] Usein vieläpä binäärinen kyllä ei, lonkkamurtuma kyllä ei.

[Speaker 1]

[42:27] Joo, kyllä.
[42:27] Hyvä huomio.
[42:29] Eli jos sun vastenmuuttoja onkin sitten kategoriina, niin sä voit käyttää tosiaan logistista regressiota, joka lisää malliin muuttujat, joita sä aloit kontrolloida.
[42:38] Ja tämmönen logistinen regressio antaa sulle eräänlaisen ristisuhteen, eli odds ration.
[42:45] Eli vertailuluvun, jossa esimerkiksi vertaillaan lääkkeen merkitystä lonkkamurtumien vähenemiseen verrattuna johonkin lumelääkkeeseen.
[42:52] Joo, siinä tuli taas paljon asiaa.
[42:57] Meidän piti harjoitella vielä oikean tilastollisen testin valintaa käytännön esimerkeillä,
[43:03] mutta ehkä me voitaisiin siirtää se omaan jaksoonsa, koska tässä on jo puhuttu aika pitkään.
[43:09] Mutta tiivistetään tähän nopeasti vielä loppuun, että mistä kaikesta tänään on oikein puhuttu.

[Speaker 2]

[43:14] No tänään me aloitettiin käymällä läpi paljon määritelmiä, puhuttiin riskitekijästä tai interventiosta,
[43:20] jonka vaikutusta tutkitaan, ja tuloksista, jotka saadaan sen riskitekijän tai intervention seurauksena, eli se vaste, mitä me halutaan oikeasti tutkia.
[43:32] Sitten me keskusteltiin eri tutkimustyypeistä, jotka myös vaikuttavat siihen tilastollisen testin valintaan.
[43:38] Eli ne retrospektiiviset tutkimukset versus prospektiiviset tutkimukset.
[43:43] Eli kerätäänkö se data, joka on jo olemassa, vai aloitetaanko me tutkimus ja tehdään ne mittaukset itse tulevaisuudessa.
[43:51] Ja sitten me puhuttiin havainnoivista versus kokeelliset tutkimukset.
[43:55] Ja sitten me korostettiin sitä, että vain kokeellisesta tutkimusta voidaan tehdä nämä syysseurauspäätelmät.

[Speaker 1]

[44:01] Sen jälkeen me hypättiin yleisiin tilastollisiin testeihin.
[44:06] Joten testeistä puhuttaessa me käytettiin kurssin sitä kaksi sivuista analyysikarttaa.
[44:12] Ensimmäinen tehtävä oli tunnistaa, mikä on vaste ja mikä on tekijä siinä sun datassa.
[44:18] Myös tärkeä komponentti oli tunnistaa, että onko ne havainnot datassa riippumattomia,
[44:23] eli esimerkiksi mitattu eri ihmisistä, vai onko ne riippuvia, eli mitattu vaikka kaksi kertaa sama asia samalta ihmiseltä.
[44:33] Kun se tunnistat vasteen, niin seuraavaksi oli tunnistettava, että onko se vaste numeerinen vai kategorinen muuttuja.
[44:41] Jos vaste oli kategorinen, niin kurssilla käytettiin Kiin 4 tai Fisherin
[44:46] eksaktia testiä havaitsemaan eroja tai yhteyksiä siihen toiseen kategoriseen
[44:51] muuttujaan, eli silloin kun yhteys oli cut-cut.

[Speaker 2]

[44:55] Ja sitten taas jos sun vaste olikin se numeerinen muuttuja, niin piti ensin tutkia
[45:00] sen jakaumaa, että onko se normaalisti jakautunut vai ei, ja valita sen mukaan testi.
[45:07] Koska usein nämä testit, kuten tämä kahden riippumattoman ryhmän t-testi ja yksisuuntainen varianssianalyysi,
[45:13] oletus on nimenomaan se pakollinen taustaoletus, että se vaste on normaalisti jakautunut, ja vielä kaikissa ryhmissä.
[45:22] Ja sitten taas toisaalta, jos vaste ei ole normaalisti jakautunut, monnoksenkaan jälkeen,
[45:27] niin sitten me siirrymme näihin niin sanottuihin epäparametsiin testeihin.
[45:31] Ja niiden kaavat perustuvat vain datassa olevaan järjestykseen.
[45:36] Ja oikeasti me unohdetaan ne havaintoarvot, ne numeroarvot.
[45:41] Eli vain se järjestys merkitsee.
[45:44] Jostain sitten on myös hyötyä se, että poikkeavat arvot ei silloin hetkauta niitä datan tuloksia.
[45:50] Näitäkin testejä olisi kuitenkin erikseen kahden ryhmän vertailuun ja useamman ryhmän vertailuun.
[45:56] Näissä testeissä me aina haluttiin tutkia sitä keskiarvo tai medianitasoeroja ryhmien välillä.
[46:03] Eli siinä suhteessa tämä oli taas tämmöinen num-cat-tilanne.
[46:09] Ja sitten taas, jos me haluttiinkin tutkia kahden numeerisen muuttujan välistä yhteyttä,
[46:14] eli num-num-tilanne, niin silloin siihen sopikin korrelaatiot ja lineaariset regressiot.
[46:22] Tärkeänä yksityiskohtana erikoistapauksena meidän kurssilla oli kahden aikapisteen vertailu, joka usein on tämmöinen ennen-jälkeen vertailu, johon on pakko tehdä erilaiset testit.
[46:34] Ja kun me usein lasketaan tämä muutosmuuttuja, niin me katsotaan sen muutosmuuttujan jakaumaa, ja jos se noudattaa normaalia jakaumaa, niin me voitiin käyttää parittaista t-testiä, tai sitten jos ei noudattanut, niin Wilcoxon SineTrank-testi oli sopiva testi sille.

[Speaker 1]

[46:52] Joo, ja jälleen kerran, tämä kaikki varmasti tuntuu alkuun aivan tuhottoman monimutkaiselta,
[46:58] ja varsinkin jos teet jo omaa tutkimusta, esimerkiksi syvärityötä,
[47:01] niin se voi olla kauhean pelottavaa valita testiä sun tarkkaan kerätylle datalle.
[47:07] Mutta nämä kyllä muistuu mieleen kertaamalla, ja muista aina,
[47:11] että kannattaa pitää lähettävillä esimerkiksi juuri sitä kurssin analyysikarttaa.

[Speaker 2]

[47:16] Ja sitten kannattaa aina myös muistaa, että aina jos on epävarma tai sinulla on joku asia epäselvää,
[47:24] niin sinä voit kysyä ohjaajalta tai sitten sinä voit ottaa yhteyttä meidän biostatistiikan yksikköön.

[Speaker 1]

[47:32] Okei, siinä taisi olla sitten lopulta kaikki tällä kertaa.
[47:36] Tosiaan minä olin Markus.

[Speaker 2]

[47:38] Ja minä olin Elisa.

[Speaker 1]

[47:39] Ja tämä oli Statistiikan aloilla podcast.
[47:42] Toivottavasti tämä jakso innosti sinua oppimaan lisää tilastollisesta testauksesta tai ylipäätään biostatistiikasta.
[47:50] Kuullaan taas Statistiikan aalloilla.
[48:02] Tämän podcastin on tuottanut Turun yliopiston lääketieteellisen tiedekunnan biostatistiikan

[Speaker 2]

[48:07] Yksikkö.

Ohjeita ensimmäiseen omaan tutkimukseen

Oletko aloittamassa opinnäytetyötä? Suunnitteletko määrällistä tutkimusta? Tällä Statistiikan aallolla on selkeitä ohjeita erityisesti lääketieteen, bio- ja hammaslääketieteen opiskelijoille sekä väitöskirjatutkijoille, jotka ovat aloittamassa ensimmäistä tutkimustaan. Hyvä tutkimussuunnitelma ja huolellisesti kerätty aineisto on laadukkaan tutkimuksen perusta!


[Speaker 0]

[00:02] Tervetuloa taas statistiikan aalloille.
[00:09] Tällä kertaa kohde yleisönämme on sinä, joka suunnittelet ensimmäistä määrällistä tutkimustasi.
[00:16] Minä olen biostatistikko Markus Riskumäki ja vierainani mulla on jälleen biostatistikko Elisa Löyttyniemi.
[00:19] Tervetuloa.
[00:20] Kiitos, kiitos.
[00:20] minulla on jälleen biostatistikko Elisa Löyttyniemi, tervetuloa.
[00:24] Kiitos, kiitos.
[00:26] Kuulen Elisa, minun pitäisi tehdä nyt syvärityö.
[00:32] Miten minun pitäisi lähteä etenemään sen kanssa?
[00:35] No, minä sanoisin, että onko se sitten syvärityö,
[00:39] tuleva väitöskirja-ekatyö tai vanhemman tutkijan ekatyö
[00:42] tai mikä tahansa työ, niin ensimmäisenä minä tekisin itselleni tiimin.
[00:50] rakentaisin itselleeni tiimin, koska mun mielestä tutkimus on nimenomaan yhteistyötä.
[00:57] Ja siinä on hyvin hyvänä, jos sä saat biostatistikon siihen tiimiin.
[01:04] Ja useinhan, jos sä teet vaikka sitä syvärityötä tai kandityötä tai maisterityötä, niin sulla on ohjaaja.
[01:09] Niin siinä on jo hyvä perusta tiimille, jolla lähdetään miettimään, minkälaista tutkimusta kannattaa tehdä.
[01:18] Okei, no tosiaan mulla nyt ei ole hirveästi tässä mun esimerkissä vielä tietoa, että mitä mä nyt sitten tekisin, että varmaan alkuun pitäisi joku tutkimuskysymys miettiä ja sit varmaan myös tutkimusrakenne.
[01:34] Joo, nimenomaan se, että useahan ohjaajilta tulee niitä ideoita, mitä lähdetään tutkimaan.
[01:40] Ja siinä ensimmäisenä mietitään sitä, että ruvetaanko me tekemään kokeellista tutkimusta, joka tarkoittaa prospektiivista tutkimusta,
[01:49] joka tarkoittaa sitä, että me dataa kerätään tulevaisuudessa.
[01:53] Vai onko se sitten sellaista dataa, joka on jo olemassa, eli retrospektiivinen tutkimus, mennään esimerkiksi potilaspapereihin,
[02:02] mitkä on nykyisin tietenkin noissa tietokannoissa, keräämään se data, mitä sitten tullaan analysoimaan.
[02:08] Eli siinä on tavallaan se oikeasti suuri, vähän raakakin kahtiajako, että onko sitä dataa jo jossain olemassa, vai tullaanko me keräämään se.
[02:18] Ja sitten siinä on tietenkin monta muutakin tutkimuskysymystä, ja nimenomaan pitää eka miettiä sitä, että mitä sä haluat nyt tutkia,
[02:26] ja mikä on se jutun se pointti, punainen langa, mihin kysymykseen me halutaan vastata.
[02:35] Siitähän se kaikki lähtee.
[02:37] Okei.
[02:38] No, leikitään nyt sitten, että mä olen keksinyt tai mun ohjaaja on keksinyt jonkun aiheen mulle.
[02:44] Sen punaisen langan mun tutkimukselle.
[02:47] Mutta miten ihmeessä nyt, sanotaan nyt, vaikka mä haluaisin näyttää jonkun vaikka lääkkeen toimivuuden johonkin sairauteen.
[02:59] Niin miten ihmeessä mä lähden nyt sitä sitten niinku tekemään, mä varmaan tarvitsisin jotain aineistoa siihen, johon puhuttiin.
[03:08] Olemme miettineet, onko se aineisto jo olemassa vai pitääkö meidän kerätä se.
[03:13] Seuraavaksi ruvetaan miettimään, mikä on meidän päämuuttujamme.
[03:16] Millä me voidaan todistaa meidän idea tai kysymys, että saadaan siihen vastaus.
[03:25] Päämuuttujamme voi olla tietenkin hyvin monenlaisia.
[03:28] Jos tutkimme syöpäpotilaita, me halutaan tutkia aikakuolemaan tai aikasyövän uusiutumisen,
[03:36] diagnoosista tai leikkauksesta.
[03:39] Se voi olla myöskin, että me tehdään polvileikkaus ja me katsotaan,
[03:42] milloin se polvi on taas toimintakykyinen.
[03:47] Meillä on lukuisia tietenkin erilaisia kysymyksiä,
[03:52] mitä me voidaan haluta kysyä, mutta kaiken kaikkiaan meidän pitää löytää se meidän kaikista
[03:58] kiinnostaviin muuttuja, millä me tehdään se, millä me halutaan se meidän tutkimuskysymykseen vastata.
[04:04] Okei, nyt meillä on sitten kaikista kiinnostaviin muuttuja olemassa.
[04:11] Tarvitaanko me jotain muita muuttuja kuin se?
[04:14] Joo, ja tästä meidän päämuuttujastakin meidän täytyy tietenkin tunnistaa, minkälainen muuttuja se on.
[04:20] Onko se just tosiaan niin kuin äskeisessä esimerkissä oli aika johonkin, vai onko se numerinen jatkuva muuttuja, vaikka verenpaine,
[04:28] vai onko se sitten kategorinen muuttuja, onko se vaikka paranniko potilas vai ei kuukauden kuluessa, tarvitsiko potilas leikkausta kymmenen ekan päivän aikana jostain antibioottikuuresta vai ei.
[04:39] Nämä on tämmöisiä kyllä ei-kategorisia muuttuja.
[04:43] Eli siitä lähdetään liikkeelle.
[04:44] Sitten me lähdetään siitä meidän tavallaan, kun meidän pitää tuntea myöskin se ympäristö siitä pähämuuttujen ympäriltä,
[04:51] Meidän pitää tietää, mitkä muut asiat voi vaikuttaa siihen muuttujaan.
[04:57] Usein vaikka ikä ja sukupuolikin vaikuttaa jonkun muuttujen käyttäytymiseen.
[05:02] Mutta meidän täytyy miettiä myös kaikki muut taustatekijät, mitkä vaikuttaa.
[05:08] Vaikka syöpätutkimuksissa se syövän vakavuus, eli states, usein vaikuttaa siihen, että mitä siellä sitten tapahtuu.
[05:17] Nyt jos tähän mun tutkimukseen ollaan päätetty se päämuuttuja ja sitten selittäviä muuttujia,
[05:24] niin mitä tästä sitten jatketaan?
[05:27] Esimerkiksi miten paljon sitä dataa mun pitäisi kerätä?
[05:31] Joo, tosi tärkeä pointti.
[05:33] Meidän täytyy aina tutkimukseen laskea se tarvittava otoskoko,
[05:37] jotta voimme riittävällä varmuudella pystyä todistamaan meidän idea todeksi, mikäli se on totta.
[05:45] Me lasketaan tiettyjen kaavojen avulla tarvittava otoskoko meidän tutkimukseen,
[05:50] nimenomaan prospektiivisiin tutkimuksiin lähinnä.
[05:55] Siihen me tarvitaan tietoa aikaisemmista tutkimuksista,
[05:59] esimerkiksi sen muuttujen keskihajonnasta, jos on kysymys numeerisesta muuttujasta.
[06:03] Sitten meidän täytyy myös pohtia se, että mikä ero on kliinisesti merkittävä.
[06:09] Ihan vaikka keskiarvoissa tai sitten, jos me lasketaan tätä potilaan, vaikka paranemisprosenttia verrataan sitä eri ryhmissä,
[06:20] niin mikä siellä on semmoinen, millä olisi kliinistä merkitystä.
[06:27] Nämä retrospektiiviset, eli tavallaan potilaspapereista haettavat tiedot usein rajoittuu siltä,
[06:32] että jos me vaikka tilataan se rekisteri jostakin THL, Kelalta tai jotain,
[06:37] niin sitten me määrätään tai tilataan vaikka 10 vuoden ajalta,
[06:40] niin silloin se data on, mitä on, mutta usein sitä rekisteridataa on niin paljon,
[06:46] eli siinä ei ole se otoskoko usein semmoinen kriittinen asia.
[06:50] Sitä on silloin riittävästi, mutta aina näihin prospektiivisiin tutkimuksiin
[06:54] pitää laskea se otoskokokin.
[06:57] Ja siihen on ihan kaavat ja laskurit, netissä on paljon laskureita olemassa,
[07:01] joita pitää tietenkin sitten vielä varmistaa, että ne käyttää oikeita kaavoja.
[07:06] Okei.
[07:06] No nyt jos otoskokokin on hallussa, niin miten sitten, kun ruvetaan tekemään jotain niitä analyyseja siihen tutkimukseen,
[07:16] käytetäänkö me sitä koko otoskokoa vai pitäisikö jotain havaintoja esimerkiksi jättää pois siitä datasta?
[07:23] Joo, hyvä kysymys tuokin.
[07:27] Esimerkiksi jos me ajatellaan jotain prospektiivista tutkimusta taas, niin silloinhan meiltä kaikilta pitää olla suostumus.
[07:34] Ilman suostumusta me ei saada tietenkään kerätä sitä dataa, ja kuka tahansa tutkimushenkilö voi milloin tahansa lähteä siitä tutkimuksesta pois,
[07:41] ja sen jälkeen sitä dataa me ei sitten yleensä saada ollenkaan.
[07:46] Mutta meillä on paljon, paljon kimuranteja asioita, jos me ajatellaan vaikka lääketutkimusta.
[07:51] Jos me satunnaistamme potilasta saamaan tutkittavaa lääkettä, mutta ennen kuin hän saa
[07:59] ekaaka-pilleriä, niin hän päättääkin, että lopettaa tutkimuksen.
[08:02] Meidän täytyy oikeasti pohtia sitä, että pääseekö analyysiin myös ne, jotka eivät ole
[08:08] yhtäkään tabletteja tai pilleriä nielassut, eli eivät ole saaneet yhtään
[08:11] meidän altistetta tai mahdollisesti parantavaa hoitoa.
[08:17] Tutkimuksessa paljon myös määritellään tutkittaville, että mitä ne saa tehdä, saako ne ottaa muita lääkkeitä vai ei,
[08:23] ja milloin niiden pitäisi tulla takaisin visitille, mittauksille ja näin.
[08:28] Ja ainahan tämä ei mene maailman niinku strömsössä, eli ne syö ihan mitä kiellettyjä lääkkeitä tai tulevat liian myöhässä mittauksia ja muita,
[08:38] niin näitä meidän täytyy miettiä ihan yksi kerrallaan, että onko se silloin semmoista dataa,
[08:45] mikä on käyttökelpoista, mutta yleisesti ottaen me ei koskaan poisteta yhtäkään datahavaintoa,
[08:55] vaan sen takia, että datan arvo ei meitä miellytä, sitä me ei koskaan saada tehdä.
[09:01] Mutta yhtenä esimerkkinä on esimerkiksi, että jos se labranäyte on sulanut,
[09:06] niin silloinhan sieltä tulee todella väärä arvo, niin ei me semmoista voida käyttää.
[09:12] Okei.
[09:13] No, nyt rupeaa ainakin tälleen ajatuksen tasolla olemaan aika selvää, että minkälainen se mun tutkimuksen aineisto pitäisi olla.
[09:21] Niin, mitä nyt sitten, että miten, pitäisikö mun suunnitella jotenkin tehdä vähän jotain tutkimussuunnitelmaa,
[09:29] että miten mä nyt sitten konkreettisesti testaan tällä aineistolla?
[09:32] Juu, juu, tutkimussuunnitelmaa tietenkin tarvii aina tehdä, ja jos sä teet esimerkiksi syväreitä,
[09:39] niin siihenhän kirjoitetaan oikeasti syvärisuunnitelma, ja sit jos me tehdään prospektiivista,
[09:47] kliinistä tutkimusta, niin silloinhan meidän tarvii tehdä oikein todella virallinen tutkimussuunnitelma,
[09:53] joka yleensä kuitatankin, ja sit se lähetetään eettiseen toimikuntaan,
[09:56] Mehän ei saada mitään mittauksia tehdä ihmisistä ilman, että me saadaan esimerkiksi eettisiltä toimenkunnalta tai lääkeviranomaisilta lupaa.
[10:07] Nyt rupeaa kaikki olemaan esivalmistelut aika hyvin valmiina.
[10:15] Seuraavasta varmaan olisi konkreettisesti sen datan kerääminen.
[10:21] Osaisitko sinä antaa vähän neuvoa, mitä siitä pitää ottaa huomioon?
[10:25] Miten se data sitten oikeasti kerätään?
[10:27] Joo, hyvä pointti, koska se sun tutkimuksen laatu on käytännössä katsoen miltein sama kuin sun datan laatu.
[10:34] Jos sun datan laatu on huonoa, niin ei siitä mitään hyvälaatusta tulosta voi tulla.
[10:40] Eli siihen datan laatuun kannattaa todella kiinnittää huomioon.
[10:46] Meillähän on Turun yliopistossa käytössä REDCAP, joka on elektroninen tiedonkeruun lomakesysteemi,
[10:52] jolla voi kerätä mitä tahansa, myös tätä niin sanottua vanhaa potilasdataa, me voidaan syöttää sinne dataa.
[11:00] Me voidaan tehdä sillä kyselytutkimuksia ja totta kai kuinka monimutkaisempia prospektiisia tutkimuksia vaan me voidaan kerätä tämän systeemin järjestelmän avulla.
[11:11] Ja tämän järjestelmään me voidaan laittaa tämmöisiä niin sanottuja validointitarkistuksia.
[11:16] Eli otetaan nyt esimerkiksi se verenpaine, niin me voidaan laittaa sinne tämmöiset minimi ja maksimiarvot,
[11:22] minkä välillä me kuvitellaan, että melkein kaikki verenpaineet on.
[11:26] Jos me syötetään joku arvo sen yli, niin tämä kone rupeaa meille huutamaan, että ootko varma?
[11:34] Eli se säästää meidät näppäilyvirheiltä.
[11:38] Lisäksi tämä on hyvä tietokantaohjelma niin, että siellä on tämä jäljitettävyys, eli jokaikinen sinun klikkaus jää sinne, siitä jää jälki.
[11:47] Eli en suosittele Exceliä käytettäväksi käytännössä katsoen koskaan, koska ehkä Excelissä ei ole tätä.
[11:54] Ja Excelin, muutenkin tavallaan, sinä voit tehdä siellä niin paljon helpommin virheitä nuorena tutkijana,
[12:02] Jos sinulla on numerinen muuttuja, vaikka se verenpaine, niin sinun ei pitäisi kirjoittaa yhden potilaan kohdalle, että puuttuu.
[12:11] Silloin kaikki tilasto-ohjelmat automaattisesti lukevat koko sen muuttujan tekstikentäksi, ja jos sinulla on tekstikenttä, niin siitä ei keskiarvoja lasketa.
[12:19] Joten tämmöisiä onnettomia sattumia tulee sitten nimenomaan Excel-datoista.
[12:25] Mutta taas jos sä teet sen RedCapilla, niin se auttaa sua, että siitä datasta tulee paljon parempi laatuista.
[12:33] Ja jos data on parempi laatuista, niin tilastolliset analyysit, aah, ne on helpompi tehdä.
[12:38] Ja tietenkin ne on sitten oikeimmat tulokset, koska data on parempi laatuista.
[12:45] Pysähdytään hetkeksi vielä miettimään tutkimussuunnitelmaa.
[12:49] Mitä siihen suunnitelmaan oikein pitäisikö kirjoittaa?
[12:53] No jos me ajatellaan tutkimussuunnitelman tärkeimpiä kappaleita esimerkiksi,
[12:59] niin sehän aloitetaan aina introlla, eli johdanto-osalla,
[13:04] ja siihen me kootaan oikeasti mitä tästä alueesta aikaisemmin jo tiedetään,
[13:11] minkälaista tutkimusta on tehty, ja sitä siihen sitten tiivistetään.
[13:16] Joko sen kappaleen loppuun tai ihan erikseen on semmoinen kappale kuin tutkimuksen tarkoitus, the aim of the study.
[13:23] Ja siinä nimenomaan sitten kirjoitetaan, että mitä mä oikeasti, mihin kysymykseen mä haluan vastata, mitä mä haluan tällä tutkimuksella saavuttaa.
[13:33] Sen jälkeen me kerrotaan kaikki kerättävät muuttujat ja niiden tavallaan mittausmenetelmät.
[13:41] Onko ne jotain kyselybattereista, mistä me kysytään, päivän väsymystä, elämänlaatua, vai onko ne ihan mittauksia niin kuin hemoglobiini.
[13:51] Sitten me esitetään myös, joka tutkimussuunnitelmassa pitää olla se otoskoon määritelmä ja myöskin se vähän niin kuin se kaava esitettynä,
[14:00] eli joku, joka sitä katsoo sitä tutkimussuunnitelmaa, pystyisi jopa toistamaan sen niillä numeroilla.
[14:06] Ja sen lisäksi me tarvitaan se statistinen ja datasuunnitelma sinne.
[14:12] Ja jos on oikein hyvä, niin kannattaa miettiä jo niitä tulevia taulukoita sun raporttiin tai julkaisuun,
[14:20] jotta sä varmistat sen, että kaikki ne tarvittavat muut tuet tulee sitten kerättyä,
[14:26] koska sitten jälkeenpäin niitä ei sitten mistään saa.
[14:29] Lisäksi tutkimussuunnitelmassa on tietenkin muitakin kappaleita,
[14:35] Esimerkiksi eettisyydestä puhutaan ja niin poispäin.
[14:38] Okei.
[14:39] No, nyt mä uskon tietäväni, miten mä saan mun oman tutkimuksen alkuun.
[14:45] Otetaanpas teillekin tässä lopuksi vielä tiivistelmänä.
[14:51] Eli, ensimmäisenä sun pitäisi kasata itsellesi tiimi.
[14:55] Tämän jälkeen tehdä tutkimussuunnitelma huolellisesti,
[14:59] jossa mietitään huolellisesti ja täsmällisesti tutkimuskysymys, tarvittava data, datan keräys sekä analyysisuunnitelma.
[15:10] Tämän jälkeen sitten pitäisi kerätä se data, tämän jälkeen analysoida se data suunnitelman mukaisesti ja vielä lopuksi raportoida tulokset.
[15:20] Mutta tulosten raportointi on sen verran iso aihe, että siitä ei kyllä sitten puhuta tässä jaksossa sen enempää.
[15:27] Ja loppuun muistakaa, tutkimuksen laadun varmistaa hyvä data.
[15:33] Hei, kiitos sulle Elisa.
[15:34] Kiitos.
[15:35] Ja kiitos sinulle kuuntelija.
[15:37] Toivottavasti tämä jakso selvensi sulle vähän, kuinka suunnitella sun ensimmäinen tutkimuksesi.
[15:42] Kuullaan taas statistiikan aloilla.
[15:55] Tämän podcastin on tuottanut Turun yliopiston lääketieteellisen tiedekunnan biostatistiikan yksikkö.

Biostatistiikan rooli tutkijan uralla – Vieraana kirurgian professori Paulina Salminen

Tässä Statistiikan aallossa kirurgian professori Paulina Salminen kertoo tutkijan urastaan ja korostaa biostatistiikan keskeistä roolia laadukkaassa tutkimuksessa aina suunnittelusta alkaen. Kuule, miksi biostatistiikan osaaminen ja moniammatillinen yhteistyö on välttämätöntä. Jakso sisältää myös tärkeän viestin tilastotieteilijöille: kliininen ymmärrys ja kyky keskustella sujuvasti kliinikoiden kanssa on tärkeä osa ammattitaitoa. Tämä jakso on suunnattu erityisesti lääketieteen, bio- ja hammaslääketieteen opiskelijoille sekä tutkijoille.



[Speaker 1]

[00:03] No niin, tervetuloa takaisin statistiikan aalloille.
[00:10] Minä olen biostatistikko Markus Riskumäki ja tällä kertaa meillä on vieraana ihan ihka oikea lääkäri, professori ja tutkija Pauliina Salminen, tervetuloa.
[00:15] Kiitos paljon.

[Speaker 2]

[00:20] Miten sä sait idean opiskella lääkäriksi?
[00:20] Aloitetaanpas ihan alusta.

[Speaker 1]

[00:23] Todella alusta siis.

[Speaker 2]

[00:26] Todella alusta siis.
[00:29] Mä sain idean opiskella lääkäriksi oikeastaan vasta ihan lukion loppuvaiheessa, joka tarkoittaa sitä, että silloin, kun siitä on muutama vuosi aikaa, kun olen hakenut lääketieteellisen tiedekuntaan,
[00:44] niin käytännössä mulla oli todella surkeat aineet lukiossa, mulla oli neljä kieltä ja lyhyt matematiikka, ei lainkaan kemiaa tai fysiikkaa.
[00:52] Ehdin ottaa yhden kemian lisäkurssin siinä kohtaa, kun ymmärsin, että ehkä haluankin hakea lääkikseen.
[00:59] Fysiikkaa en lukenut ollenkaan.
[01:02] Fysiikkaa suoritin kirjoitusten jälkeen iltalukiossa.
[01:09] Tein opettajansijaisuuksia päivällä ja menin iltalukiossa lukemaan fysiikkaa.
[01:12] Sen jälkeen tein ravintolatöitä illalla ja suoritin laajan fysiikan siinä.
[01:18] Sitten mä hain lääkikseen, mutta onneksi siinä kohtaa oli pääsyukeissa vielä niin, että fysiikasta oli neljä ainetta, oli aineisto, kemia ja fysiikka ja sitten ihmisen fysiologia ja anatomia ja huonoin niistä tiputettiin pois, mutta kaikista piti päästä läpi.
[01:33] Mä onneksi pääsin läpi siitä laajasta fysiikasta, mutta se oli niistä se heikoin, mutta jotenkin mulla tuli sitten yhtäkkiä siinä lukion lopussa sellainen olo, että ehkä musta tulee lääkäri.
[01:44] ihan varmaan vielä ollut, kun samaan aikaan, kun mä pääsin sitten lopulta sisällön lääkikseen,
[01:49] niin mä hain myöskin lukemaan englantilaista filologiaa, kun mä aina ajattelin, että musta tulee kieltenopettaja.
[01:55] Ja mä pääsinkin myös sisälle sinne, ja sitten mulla oli vielä semmoinen illuusio, että mä ajattelin, että mä teen ne molemmat.
[02:02] Mutta sitten mä kävin siellä humanistisen tiedekunnan puolelle ja totesin, että tämä ei ehkä kuitenkaan ole se mun juttu.
[02:10] jätin ja annoin sen paikan pois, joka sinänsä hauska tarina, sen sai yks mun kurssikaverini vaimoilta.

[Speaker 1]

[02:17] Okei, no sit kun sä pääsit sinne lääkikseen, niin missä vaiheessa opintoja sulle tuli ajatus, että nyt vois ihan väitöskirjaankin tästä kirjoittaa?

[Speaker 2]

[02:26] Tota, no se tuli kyllä oikeastaan vasta ehkä siinä opintojen loppuvaiheessa, että mulla ei oo siis suvussa yhtään lääkäriä, joka on aika niin kuin tyylensä hän menee vähän niin kuin perheittäin.
[02:39] Se mikä kyllä kristallisoitui oikeastaan siinä opiskelujen aikana oli jo se, että luulen, että kirurgia on se minun juttu.
[02:48] Se oli kyllä aika selkeästi.
[02:51] Muut oli aika helppo pois sulkudiagnostiikalla ja itse asiassa olin kyllä vahvasti sitä mieltä opiskelun loppuvaiheessa,
[02:58] että ilman muuta siirryn tai rupean herkostumaan kirurgiaan.
[03:02] Ja mä en itse asiassa valmistumisen jälkeen tehnyt mitään muuta kuin kirurgiaa, koska siinäkin oli tämmöinen pieni porsaareikä.
[03:08] Että mulla on vanhanmuotoinen kirurgian erikoislääkärin tutkinto ja uudenmuotoinen asetuksen gastroenterologisen kirurgian tutkinto.
[03:15] Mutta sit se oli tosiaan niin, että ei tarvinnut enää käydä terveyskeskuksessa sen jälkeen, kun oli yksi erikoislääkärin tutkinto.
[03:22] Joten mä en sit edes mennyt terveyskeskukseen valmistumisen jälkeen.
[03:26] Toki tein opiskelun loppuvaiheessa terveyskeskuksessa sijaisuuksia.
[03:30] mutta se tutkimus tuli mukaan siinä oikeastaan aika pian, että ajattelin nimenomaan, että rupean tekemään väitöskirjaa.
[03:39] Haluan tehdä yliopistosairaalassa varmaankin töitä.
[03:43] Aloitin itse asiassa väitöskirjan, jossa olisi ollut perustiedettä mukana,
[03:51] eli vähän mikroskopointia ja muuta, ja me tehtiin siitä itse asiassa kolme julkaisua,
[03:55] mutta sitten mä totesin, että ei kyllä.
[03:57] Mä rupean tekemään varmaan kliinistä väitöskirjaa.
[03:59] Mä tein ensimmäiseksi semmoisen osa-väitöskirjan, sitten mä vaihdoin aihetta,
[04:04] ja rupesin tekemään refluksitaudin kirurgisesta hoidosta.

[Speaker 1]

[04:08] Okei.
[04:08] Millaiset ohjaajat sulla oli väitöskirjaa tehdessä?

[Speaker 2]

[04:12] No itse asiassa väitöskirjan kliininen aihe tuli siitä, että nyt jo eläkkeellä oleva yksi,
[04:18] ehdottomasti eniten minulle laparoskopiaa, eli tähystyskirurgiaa opettanut kollega Jari Ovaska oli silloin ihan pioneera
[04:28] laparoskooppisessa kirugiassa Suomessa ja hän oli tehnyt silloin aikaisemmin tämmöisen avointa ja tähystyskirurgista
[04:34] leikkausta vertailevan sarjan, joka oli semmoinen mihin tarvittiin tutkia ja se osui sopivasti siihen, että olin tulossa
[04:40] tulossa tavallaan siihen töihin ja mä jotenkin itse näin itseli selkeästi enemmän semmosessa tutkimuksessa,
[04:47] minkä tuloksia voisi oikeastaan soveltaa suoraan siihen potilashoitoon.
[04:52] Ja se oli se, että Jari oli tosiaan mulla väitöskirjaohjaajana sitten siinä.

[Speaker 1]

[04:59] Okei.
[04:59] No jos sä pitäis sanoa yksi asia, mikä väitöskirjan tekeminen sulle opetti näin myöhempään uraa-aatelle,
[05:05] niin mikä se voisi olla?

[Speaker 2]

[05:08] Se, että kannattaa opetella, miten tutkimus tehdään ennen kuin aloittaa sen tekemisen.
[05:13] Tietysti sanotaan, että silloin kun on esimerkiksi juurikin tämä pitkäaikaisseuranta, mikä siinä väitöskirjassa on,
[05:21] niin se on ehdottomasti hienoa, mutta jos nyt me ajatellaan, millaista tutkimusta on tehty 80 ja 90-luvulla verrattuna siihen,
[05:29] että mitä se on.
[05:30] Tutkimuksen metodologia ja kaikki, mikä siihen liittyy, on aivan eri tasolla tällä hetkellä.
[05:39] Väitöskirjan tekeminen ehkä opetti minulle sen, että kun väistämättä tuli luettua, niin aloitin miettimään, että ei hetkinen.
[05:46] Tämä todennäköisesti pitäisikin tehdä näin ja näin.
[05:50] Jotenkin se herätti ajatuksen siitä, että metodiikka on tietysti olennainen osa tätä, mitä me tehdään.

[Speaker 1]

[05:59] Mitäs väitöskirjan jälkeen?
[06:01] Menitkö ulkomaille postdoc-kaileen, minne?

[Speaker 2]

[06:06] En itse asiassa mennyt ikinä missään vaiheessa ulkomaille postdoc-tutkijaksi.
[06:13] Nykyään tietysti kierron ympäri maailmaa ehkä keskimäärin 50-60 päivää vuodessa luennoimassa.
[06:19] Mutta mä en ikinä sitten loppujen lopuksi mennyt.
[06:22] Se osui jotenkin sellaiseen kohtaan tavallaan samanaikaisesti, kun mä tein sitä tutkimusta.
[06:28] Sitten oli oikeastaan hirveän täydellinen kohta siihen, että mä pääsin tekemään sellaista kliinistä työtä, mitä mä halusin.
[06:35] Sitä kautta me päästiin jatkamaan sitä meidän tutkimusta myöskin ja mä jatkoin sitä kliinisen tutkimuksen tekemistä ja rupesin tekemään näitä omia isoja juttuja.
[06:46] Toki silloin lapset olivat tietysti myöskin pieniä, että se olisi tarkoittanut aika isoa muutosta.
[06:52] Jotenkin se kattaus oli sellainen, että pääsin hyvin tekemään täällä.
[06:59] Sitä tarvetta ei ehkä ihan sellaisenaan syntynyt, mutta jatkoin kyllä tutkimuksen tekemistä oikeastaan siinä suoraan.
[07:06] Muistan yhden kerran, kun ohjaajani sanoi, se oli muutama päivä ennen väitöstä,
[07:11] kun mä sanoin, että mä olin keksinyt yhden seuraavan aiheen, että mitä me seuraavaksi voidaan tutkia.
[07:17] Hän sanoi, että ymmärräksi, että sulla on väitös kahden päivän päästä.
[07:20] Mä sanoin, että joo, mutta mulla tuli tämmönen mieleen, että sen jälkeen katsotaan tästä samasta aineistosta tämä ja tämä asia.
[07:28] Kyllä mä jotenkin siitä jatkoin, se oli mun mielestä semmoinen varmaan mun juttu, tai koin omakseni heti.

[Speaker 1]

[07:38] Tämmöinen kysymys, mikä varmasti meidän varsinkin tutkija-opiskelijakuulijoita voisi kiinnostaa.
[07:45] Kun sä aloitit tämän tutkimustyön tekemisen valmistumisen jälkeen tosissaan,
[07:51] niin oliko helppo saada aluksi rahoitusta?
[07:55] Mitä sun mielestä olisi parhaat vinkit tutkimuksen rahoituksen saamiseen?

[Speaker 2]

[08:02] Voi että kun mulla olisikin joku viisasten kivi tähän.
[08:05] Tämän vastaus on se, että vasta aika myöhäisellä vaiheessa tutkijauraa käytännössä on helpompi hiukan saada rahoitusta.
[08:16] Se on selvää, että semmoisen aloittelevan tutkijan rahoituksen saaminen on kyllä ihan todella kiven takana, kun se on kokenenkin tutkijan.
[08:24] Elikkä mä sanoisin, että ehkä se mun neuvo siihen innokkaille tutkijoille on se, että sun täytyy etsiä se vähän vanhempi, hyvä tutkija ja hyvä tutkimusryhmä, mihin sä pääset mukaan.
[08:36] Ja silloin tavallaan se on ehdottomasti win-win, että kaikki tekee niinku, ne meidän nuoret tutkijat tekee paljon töitä, mutta silloin vastaavasti musta se on mahtavaa, että nyt mä pystyn auttamaan heitä.
[08:46] ettei tarvitse tehdä ihan kaikkea selkänä hastaa lähtien, eikä tarvitse kantapään kautta opetella jokaista samaa virhettä.
[08:54] Eli sehän siinä on ehkä se ajatus, mikä mielestäni on tosi tärkeä tutkijoille, että meillä olisi tutkijakoulutus.
[09:02] Että oikeasti mentoroidaan näitä nuoria sen sijaan, että jos ajattelen kaikki ne virheet, mitä olen tutkimuksissa tehnyt,
[09:12] niin ne olisi tietysti iso osa ollut ohitettavissa sillä, että siinä olisi ollut joku kertomassa, että miten se kannattaa tehdä.
[09:18] Mutta toki siinä vaiheessa Suomessa ei kauheasti edes ollut tehty niin kuin kliinisiä, satunnaistettuja tutkimuksia.
[09:24] Tämä on vähän niin kuin semmoinen ollut meidän oma oppipolku, ja nyt tietysti niin kuin...
[09:29] Onneksi tällä hetkellä meillä on kohtalainen rahoitus, mutta sitä tietysti niin kuin tutkimusrahoitusta ei missään nimessä ole liikaa.
[09:36] ja se surullinen tilanne on se, että se on melkein aina se, mistä ensimmäisenä säästetään.
[09:41] Vaikkakin jos me ajatellaan, että mitä oikeasti me saadaan terveydenhuollossa säästöjä,
[09:46] niin ne asiat perustuvat tutkittuun tietoon, eikä mihinkään muuhun.
[09:50] Eli eteenpäin me ei päästä lääketieteessä, jos meillä ei ole mahdollisuutta tehdä tutkimusta.

[Speaker 1]

[09:57] Tutkimuksesta puheen ollen.
[09:58] Sulla on nyt tällä hetkellä kaksi tämmöistä suurempaa tutkimuslinjaa,
[10:02] lihavuusleikkaukset ja umpilisäkkeen tulehdukset.
[10:04] Haluaisitko lyhyesti avata niitä, ennen kuin jatketaan?

[Speaker 2]

[10:09] Voin avata ehkä lihavuuden osalta.
[10:13] Vaikean lihavuuden kirukinen hoito on Suomessa käynnistetty 20 vuotta sitten.
[10:17] Olen ollut mukana silloin alusta lähtien.
[10:21] Tällä hetkellä se on se, minkä pohjalta kierrän eniten maailmassa.
[10:26] Olen tällä hetkellä mukana myös maailman lihavuuskiruukisen järjestön hallituksessa.
[10:30] joka on sellainen 10-15 000 ihmisen järjestö.
[10:35] Tämä lihavuusepidemiahan on ihan tasaisesti edelleen valitettavasti kasvava yksi maailman suurimmista terveysongelmista tällä hetkellä,
[10:45] ja sitä kokonaisuutta me ei voida leikkaamalla hoitaa, mutta siihen pieneen potilasryhmään tämä vaikean lihavuuden kirurgian hoito on aivan olennaisen tärkeää ja erittäin kustannustehokasta ja vaikuttavaa.
[10:59] ja sitä me ollaan tutkittu vertailemalla itse asiassa kahta yleisintä leikkausta ja me aloitettiin se heti silloin oikeastaan aika lailla mun väitöksen jälkeen.
[11:07] Se on mun ensimmäinen satunnaistettu tutkimukseni ja sen pohjalta ollaan opittu monta asiaa mitä me tehtäisiin ehkä
[11:14] ja tehtiin kinssit jo seuraavissa tutkimuksissa eri tavalla ja silti se on oikeasti niin kun pitkäaikaisseurantana erittäin hyvä 10 vuoden seuranta julkaistiin juuri viime kesänä.
[11:25] Umpilisääketulehduksen osalta tämä on selkeästi vielä ehkä enemmän semmoinen kontroversiallinen aihe.
[11:31] Jotenkin kliinisesti me tiedettiin, että läheskään kaikkia lieviä umpilisääketulehduspotilaita ei välttämättä tarvitse leikata,
[11:39] mutta se on ollut vähän semmoinen kivenhakattu totuus yli 130 vuotta lääketieteessä.
[11:46] Ja me oikeastaan haluttiin selvittää, että onko se näin.
[11:50] Mitä tavallaan tapahtuu sille lievemmälle umpilisäketulehdukselle.
[11:54] Ja sillä samalla tiellä ollaan.
[11:56] Mitä enemmän me tutkitaan, sitä enemmän me keksitään uusia kysymyksiä.
[11:59] Mutta nyt ollaan jo neljännessä satunaista tuossa tutkimuksessa tällä hetkellä.

[Speaker 1]

[12:04] Joo, joo.
[12:05] Tuo onkin varmasti tutkimusrypäs, joka meidän kuulijoidenkin kiinnostaa.
[12:11] Eli nämä umpilisäkeentulehdustutkimukset.
[12:14] niin sehän on aika villi tämä tutkimusidea, niin miten ja kuka sai alunperin idean,
[12:19] tämän idean, ettei komplisoitumatonta eli lievää ompilisäkkeentulehdusta tarvisikaan leikata välttämättä?

[Speaker 2]

[12:26] No kyllä se on itse asiassa, kauhean mielellään sanotaan, että me keksittiin se, mutta se ei suinkaan pidä paikkaansa,
[12:32] vaan se itse asiassa, niin kuin tiedettiin, tämä on hyvä katsoa muutenkin lääketieteen historiaan,
[12:38] Meillähän on paljon sellaisia totuuksia, jotka perustuvat oikeasti ei mihinkään tutkittuun tietoon, vaan tällaiseen eminence-based,
[12:47] ei evidence-based, eli ihan kokemukseen.
[12:49] Ei niin, että joku olisi oikeasti tarkoilla tieteellisillä menetelmillä arvioinut jotakin.
[12:55] Tämä on yksi hyvä sellainen esimerkki.
[12:58] Se lähtee se ajatus jo siitä, että itse asiassa tiedettiin ennen appendikektomia-aikaa,
[13:05] että potilailla obduktiotutkimuksessa nähtiin merkkejä aikaisemmista tulehduksista.
[13:11] Eli se mahdollinen ajatus siitä, että se paranee itsestään, on oikeasti jo 1800-luvun ihan lopulta.
[13:17] Mutta sitten tavallaan ennen antibioottiaikaa, niin se on ihan selvää, että leikkaushoito pelasti ihmishenkiä.
[13:22] Ja siinä jotenkin ehkä kääntyi se ajatus siihen, että ajateltiin, että se aina päätyy siihen,
[13:29] että pisteestä A pisteeseen B niin, että kun se alkaa tulehtua, se puhkee lopulta, ja se jotenkin iskostui myös maallikoiden mieleen.
[13:38] Mutta kyllä me kliinisessä käytännössä tiedettiin, että näin ei ole.
[13:43] 50-60-luvulta on muutama isokin potilassarja, jotka on käytännössä vajennettu aika kuoliaksi,
[13:48] eli oikeasti konservatiivisesti hoidettuja, juurikin näitä konservatiivisesti ilmanleikkausta hoidettuja umpilisäketulehduksia.
[13:56] Ja sitten me todettiin, että tämä on kyllä semmoinen asia, että on pakko selvittää, että onko sitä oikeasti näin.
[14:03] Ja toisaalta mielestäni meillä ei ollut kenelläkään semmoinen ajatus, että me oltaisiin...
[14:07] Tämä mun tutkimusryhmä koostuu pitkälti kirugeista, niin kenelläkään ei oikeastaan ollut semmoinen ajatus,
[14:13] että olisi pakko saada joku tulos, että me halutaan nyt ehdottomasti osoittaa, että ei tarvi leikata tai tarvii leikata,
[14:20] vaan me haluttiin vaan oikeasti nähdä, että miten tässä käy.
[14:22] Minulla olisi ollut periaatteessa ihan samaa, että mikä se tulos olisi ollut, mutta se on ihan selvä, että se on sen tutkimisen väärtti.
[14:28] Jotenkin se, miksi me haluttiin tutkia, joku aina kysyi, että miksi kirurgit tutkivat sitä, että ei leikata, niin kyllä minä sanoisin, että se on minusta meidän sellainen myöskin yleinen vastuu siitä asiasta,
[14:39] että meidän täytyy tehdä vaikuttavia hoitoja, koska meidän terveydenhuollon rahat ovat tietysti rajalliset.
[14:46] Eli meidän täytyy oikeasti keskittää ne hoidot sellaisiin asioihin,
[14:50] mistä me saadaan sitten todellista hyötyä potilaille.

[Speaker 1]

[14:54] Joo.
[14:55] Sä mainitsit tästä, että toi on vähän niin kuin vuosikymmenien saatossa
[15:00] iskostunut kauhean tiukasti toi idea,
[15:02] että aina pitää umpilisäkkeen tulehdus leikata.
[15:06] Niin sitten kun te halusitte kumminkin lähteä tätä niin kuin oikein tieteellisesti tutkimaan,
[15:12] Niin oliko tähän ekaan umpilisäketulehdustutkimukseen vaikea saada rahoitusta sitten?
[15:17] Lähtikö porukka mukaan tähän?

[Speaker 2]

[15:18] Se on hauskaa, että se kysyt, että tässä on kaksi eri asiaa.
[15:21] Kohta A, oliko vaikea saada rahoitusta?
[15:24] Todella vaikea, koska meillä ei ollut mitään rahoitusta.
[15:26] Tässä on hyvä tarina, oli se, että yhdysvaltalaiskollega, joka kanssa paljon tein yhteistyötä,
[15:31] ja on tehnyt ison appedisiittitutkimuksen itse, niin hän kysyi,
[15:37] että millainen infrastruktuuri meillä oli siihen ensimmäiseen tutkimukseen?
[15:41] että ihan se, mikä siinä lukee artikkelissa, että me voidaan kaikki nimetä ne meidän infrastruktuurit.
[15:46] Että ihan oikeasti se on tehty kyllä meidän tutkijoiden selkänahdasta, että mulla ei ollut mitään rahoitusta siihen ensimmäiseen.
[15:53] Että ihan yksittäisiä, mitä sitten saatiin tutkimusvapaisiin, mutta mitään isompaa rahoitusta ei ollut siihen.
[16:02] Ja jotenkin ehkä se, että miten porukat lähtivät mukaan, niin se oli kyllä aika hankalaa.
[16:08] Se ensimmäinen tutkimus oli sellainen, että selkeästi tuli vähän semmoinen olo, että saatte olla ehkä tahoja, jotka ajattelivat, että minkä ihmeen takia te tutkitte tällaista asiaa, että aivan älytöntä, että eikö se nyt ole ihan selvä ja tämä on se tavallisin leikkaus, mitä tehdään ja selkeästi se herätti sellaista vastustusta.
[16:28] mikä minusta oli ehkä jopa hiukan yllättävää, mutta tosi positiivista oli se, että tämä ei tullut kyllä potilaiden osalta.
[16:35] Potilaat on tavallaan jotenkin Suomessa, se on yksi hyvä asia Suomessa on ehdottomasti se, että meillä on niin hyvä tämä tutkimuslupajärjestelmä ja tämä koko terveydenhuoltojärjestelmä.
[16:46] Eli potilaat luottaa kyllä siihen ja niiden kuuluukin saada luottaa, koska he on todella tarkkaan katsottu.
[16:53] Eli potilaat kyllä tosi innokkaasti lähtevät mukaan ja suomalaiset arvostavat tavallaan tieteen tekemistä ja kokevat tärkeäksi, että he voivat olla mukana auttamassa sitä.
[17:02] Se ei ollut oikeastaan se ongelma, että potilaat eivät olisi ollut innostuneita lähtemään mukaan ollenkaan, mutta sanotaan, että ehkä vähän niin kuin sen,
[17:10] että jos me verrataan, että meillä on tällä hetkellä menossa, alkaa sitten keväällä niin APAC 4, niin kyllä kakkonen ja kolmonen oli jo helpompia kuin ykkönen.
[17:20] Jopa kirurgien vastustus hiukan alkaa mennä pois, kun nyt me tiedetään oikeasti, että iso osa niistä voidaan hoitaa.
[17:28] Se sama resurssi voidaan käyttää johonkin muuhun hoitoon, koska niin kuin sanottu, ne resurssit on rajalliset.
[17:36] Pikku hiljaa.
[17:37] Keskimäärin on arvioitu, että vakiintuneiden hoitokäytäntöjen muuttaminen vie noin 17 vuotta.
[17:42] Meillä on siitä vähän vielä matkaa, mutta lähestytään sitä.

[Speaker 1]

[17:48] Mainitsit jo tuossa jossain vaiheessa, että enimmäkseen sun tutkimustiimi koostuu kirurgeista, niin ketäs muita sun tutkimustiimiin kuuluu?

[Speaker 2]

[17:58] No mun tutkimustiimiin kuuluu aivan kriittisenä osana.
[18:02] Pitkään mun kanssa töitä tehnyt biostatistikko, hurmeen saijoilta ilman, mä en missään nimessä tule toimimaan.
[18:09] Mä sanon, että hän voi tehdä ihan mitä tahansa muuta, mutta hän ei voi koskaan lopettaa mun tutkimusryhmässä olemista.
[18:16] Se on aivan olennainen osa ja se liittyy siihen, mistä sanoin alussa, eli tavallaan se ymmärrys siitä, että mikä se tieteellinen metodologia on,
[18:26] niin se on ainoa mahdollisuus, miten tehdä järkevä kliininen tutkimus, koska se hulluin tilanne on se, että me nähdään aivan jäätävä vaiva jonkun kliinisen,
[18:35] satunnaistutun tutkimuksen tekemiseen, mutta me ollaan valmiiksi osahdettu oma oksa poikki niin, että me tehdään se metodologisesti väärin,
[18:42] väärin tai meillä ei ole riittävän hyvää biostatistista pohjaa siihen, niin silloin kaikki se vaiva, mitä siihen on nähty,
[18:50] käytännössä menee hukkaan, jos meillä on tutkimus, joka on rakennettu suunnitelmaltaan sellaisella setelmalla,
[18:56] että me ei oikeasti voida sanoa siihen yhtään mitään.
[18:59] Niinpä niin.
[18:59] Eli biostatistiikka on aivan olennainen ja se pitää olla nimenomaan sieltä alusta lähtien, ei missään nimessä siinä kohtaa,
[19:07] kun me saadaan tulokset, siinä kohtaa me ollaan liian myöhässä, eli se pitää ehdottomasti olla sieltä alusta lähtien.
[19:13] Ja se mikä siinä ehkä nyt varsinkin tietysti kun Saija on ollut mun kanssa 15 vuotta, varmaan mahtaakin ihan riittääkään,
[19:22] niin siinä on jo sellainen, että se keskustelu, koska rehellisesti sanon esimerkiksi biostatistiikan osalta,
[19:28] niin välillä on se, että biostatistiikkojen aivot toimii eri tavalla kuin muiden ihmisten aivot.
[19:35] Siinä on semmoinen, että löydetään semmoinen hyvä balanssi siihen, että mikä on tavallaan oikeasti mahdollista tilastotieteellisesti ja sitä ajatellaan kliinisesti.
[19:45] Niin semmoiseen on kyllä painonsaarvoinen kulta semmoinen statistikko, joka ymmärtää myös kliinisten tutkimusten tekemisestä.
[19:52] Se on todella olennainen, ja se on ehkä semmoinen, mitä olen sanonut myös sekä syventävien opiskelijoille että väitöskirjatutkijoille,
[20:01] on se, että sen biostatistiikan ymmärtämis on semmoinen, mitä valitettavasti opetetaan aivan liian vähän lääkiksessä.
[20:07] Eli meidän pitäisi saada lääkäreitä, jotka osaavat esimerkiksi nykyinformaatiotulvassa, niin sä pystyt lukemaan tutkimuksista,
[20:16] että näet aika suoraan heti, että onko tämä oikeasti millään tavalla validita tutkimusta, nämä johtopäätökset, mitä siitä voidaan tehdä,
[20:24] koska sitä sinä et voi tehdä millään muulla kuin se, että tietysti sinun täytyy katsoa, että onko se kliininen asetelma järkevä,
[20:29] mutta myöskin se, että onko se tutkittu sillä tavoin.
[20:32] Sen lisäksi meidän tutkimusryhmässä nykyään on, itse asiassa meillä on oikeastaan vähän kaikkien erikoisalojen ja näiden alatutkimusten erityisosaajia.
[20:44] ja mikrobiologian osalta meillä on mikrobiologit, immunologian osalta immunologit ja infektiolääkärit ja niin edelleen.
[20:51] Eli meillä on myöskin aika laaja tämä translationaalinen osuus ja se on minusta nimenomaan ehkä se rikkaus.
[20:57] Eli jokainen tuo siihen ryhmään sen oman osaamisensa ja sitten kun me yhdistetään ne, niin se yksi plus yksi on selvästi enemmän kuin kaksi.
[21:05] Tämä sama logiikka on mielestäni siinä, että me tehdään kansallisia tutkimuksia, koska Suomi on niin pieni maa,
[21:10] että jos jokainen tekee itsenään jotakin, niin se ei missään nimessä riitä.
[21:14] Me ei saada riittävästi potilaita, sillä ei ole riittävää tilastovoimaa.
[21:18] Mutta sitten, kun me laitetaankin kaikki Suomen sairaalat tai iso osa yhteen,
[21:22] niin me päästäänkin siihen, että me ollaan kansainvälistä kärkeä siinä tutkimuksessa.
[21:26] Eli tämä tavallaan, että me tehdään yhdessä samaa asiaa eteenpäin,
[21:30] tuo ihan hirveästi enemmän voitettavaa kaikille.

[Speaker 1]

[21:35] Joo.
[21:35] Mainitsit, että biostatistikon on elintärkeää olla mukana siinä tutkimustiimissä,
[21:40] ihan alusta lähtien, ei pelkästään siinä analyysivaiheessa.
[21:45] Pystyisitkö avaamaan vielä meidän kuuntelijoille,
[21:48] mitä kaikkea biostatistikko tekee tutkimustiimissä?

[Speaker 2]

[21:52] Rooli on kyllä aivan kriittinen.
[21:55] Jos ajatellaan, että me tehdään tietysti se paras mahdollinen näytön aste,
[22:01] me saadaan satunnaistetuista tutkimuksista.
[22:03] Se on tavallaan se, mitä me tehdään tässä mun molemmissa tutkimusryhmissä.
[22:08] ja se isoin fokus on siinä.
[22:10] Ja se lähtee kyllä jo lähtökohtaisesti se, että mitä me pystytään sillä tutkimuksella ikinä sanomaan,
[22:17] ja ne johtopäätökset, ne perustuu täysin siihen, miten se tutkimus on suunniteltu.
[22:21] Eli meidän täytyy olla tietysti se,
[22:24] ja tämä on nimenomaan yhteistyötä ihan kokonaan tämä muutenkin, eli se on se, millä me saadaan se paras tulos kliinisenä tutkijana,
[22:33] joka siinäkin on tärkeä myös huomioida, että meillä esimerkiksi ne, ketkä tekee kliinistä työtä, sitten sä teet saman aikaan tutkimustyötä, niin sä teet käytännössä kahta työtä,
[22:42] mutta jos meillä ei ole semmoisia tutkimusrahoitusta ja mahdollisuutta, niin meidän kliininen tutkimus loppuu, koska ainoastaan kliinistä työtä tekevät ihmiset oikeasti osaa kysyä ne asianmukaiset kysymykset.
[22:54] Eli se kliininen tutkija tekee sen kysymyksen asettelun ja sen jälkeen istutaan statistiikassa alas ja ruvetaan miettimään,
[23:01] että miten ihmeessä tätä voidaan katsoa, että mikä olisi paras mahdollinen tutkimusmalli ja asetelma siihen.
[23:08] Ja sen jälkeen kun päästään siihen, että meillä on oikeasti selkeä tutkimuskysymys, mihin me halutaan vastaus,
[23:15] ja on päädytty yhdessä siihen, että mikä se tutkimuksen suunnitelma on,
[23:19] missä mallissa tehdäänkö me non-inferioriteettitutkimusta vai superioriteettitutkimusta, niin sen jälkeen sitten ruvetaan katsomaan
[23:26] statistikon kanssa sitä, että kuinka paljon me oikeasti tarvitaan potilaita, jotta meillä on mitään mahdollisuuksia vastata
[23:34] tähän kysymykseen.
[23:35] Se on joskus murheellista, kun arvioi joskus muita artikkeleita, niin katsoo jo lähtökohtaisesti,
[23:42] Tämä on lähtökohtaisesti täysin alimitotettu, jolloin tietysti se, niin kuin sanoin, että se hölmöin tilanne on se, että nähdään se kauhean vaiva kliinisen tutkimuksen tekemiseen,
[23:52] joka on jo lähtökohtaisesti ei sovellu se suunnitelma siihen.
[23:57] Eli silloin me ei oikeasti voida tehdä niitä johtopäätöksiä, mitä me on ajateltu, että siitä pystyisi tekemään.
[24:03] että sen takia statistikko on ihan kriittisen tärkeä siinä, että me ollaan jo suunniteltu kokonaan sen tutkimuksen kaikki arvioitavat päätemuuttujat.
[24:15] Me on tehty voimalaskelma sen ensisijaisen päätemuuttujan osalta niin, että me oikeasti voidaan sanoa siihen jotain.
[24:22] Me on päätetty kaikki muut asiat, mitä me katsotaan, tehty alustava analyysisuunnitelma, jolloin meillä on oikeasti semmoinen tutkimus,
[24:31] niin me voidaan sanoa jotakin, eli ne johtopäätökset on valideja, jos me päästään siihen riittävään potilasmäärään.
[24:38] Silloin se myöskin kertoo sen, että jos me nähdään, että tämä voimalaskelma kertoo, että me tarvitaan 2000 potilasta
[24:44] ja meidän reaalinen mahdollisuus on saada 200 potilasta, niin me tiedetään, että tätä tutkimusta tämmöisenään ei kannata lähteä tekemään,
[24:50] vaan silloin oikeasti pistetään fokus jonnekin muualle.

[Speaker 1]

[24:54] Okei, kiitos sulle näistä vastauksista.
[24:57] Tähän ihan loppuun.
[24:58] Haluaisitko sinulla antaa joku pieni motivaatio meidän kuuntelijoille lopuksi?
[25:03] Minkä takia kannattaa hakeutua tutkijaksi tai ylipäätään miksi kannattaa opiskella biostatistiikkaa omien opintojen ohilla?

[Speaker 2]

[25:15] Jos ajatellaan, tietysti minun on helpompi reflektoida sitä lääkäriopiskelijoiden kautta,
[25:20] mutta toki koskee myös biotieteilijöitä, kun paljon tehdään myös transsationaalista tutkimusta, niin ensinnäkin tietysti tutkimuksen tekeminen on todella mielenkiintoista.
[25:30] Jos ajatellaan kliinisen tutkijan kannalta, niin me tehdään tutkimuksia, jotka aivan suoraan on sovellettavissa sen potilaan hoitoon.
[25:38] Eli sä tavallaan saat sen konkreettisen hyödyn ja sen onnistumisen ajatuksen siitä, että sä oikeasti näet, että nyt kun me ollaan tehty tämä iso työ,
[25:49] niin me voidaan käyttää tätä hyödyksiä.
[25:51] Sitä kautta pystytään hoitamaan paremmin potilaita.
[25:55] Mutta jotta me voidaan tehdä laadukasta tutkimusta, niin sitä ei voi tehdä ilman biostatistiikkaa.
[26:01] Eli se on täysin käsi kädessä.
[26:03] Ja mä sanoisin ehkä tässä kohtaa, jos joku biostatistiikan opiskelija kuuntelee,
[26:07] niin mä sanoisin, että heidän myöskin kannattaa katsoa vähän biostatistiikan ulkopuolelle,
[26:12] ehkä millaisia tutkimuksia tehdään, koska se olennainen asia, paras, aivan kuningas biostatistikko on juuri sellainen, joka ymmärtää hiukan sen ulkopuolellakin,
[26:24] koska tämä pelkästään sen biostatistiikan, eli vähän, että mikä se kliininen aspekti esimerkiksi voisi olla, koska nämä ei ole koskaan ihan optimaalisia,
[26:36] vaikka jos ajatellaan meidän jonkun satunnaistetun tutkimuksen tilasto ja metodisuunnittelua, niin me ei löydetä ehkä ihan sitä parhainta mahdollista optimaalisinta vaihtoehtoja biostatistiikan kannalta,
[26:50] eikä myöskään sen kliinisen kannalta, vaan me yritetään löytää semmoinen järkevä balanssi, millä se tutkimus on oikeasti reaalisesti toteutettavissa niin, että siitä pystyy oikeasti sanomaan jotain johtopäätöksiä.
[27:04] Jos ajatellaan vielä biostatistiikan opiskelua senkin ulkopuolelta, jos meillä on kuuntelijoita, jotka eivät ajattele tekevänsä ehkä laajempaa tutkimusta,
[27:15] niin ainakin lääketieteen puolella, koska se meidän informaatiotulva tällä hetkellä on käytännössä artikkelit, joita julkaistaan,
[27:25] ja jotka tietysti totta kai lopulta päätyy oppikirjoihin, mutta sitä tietoa on niin paljon samasta aiheesta, että jos et ymmärrä yhtään biostatistiikasta niin et mitenkään pysty arvioimaan lukemaasi tiedettä.
[27:41] eli onko se oikeasti sellainen asia, mihin sinä voit uskoa vai ei.
[27:46] Me tarvittaisiin lääkikseen semmoinen kurssi, että nämä kaikkien pitää osata biostatistiikasta.
[27:53] Sitten voisi olla osa B, ne jotka jatkaa tutkimukseen.
[27:57] Mutta siinä on oikeasti ihan selkeästi musta sellainen selvä gäppi,
[28:02] mikä pitäisi jotenkin siinä lääkärikoulutuksessa korjata.

[Speaker 1]

[28:07] Kiitos Pauliina.

[Speaker 2]

[28:08] Kiitos paljon.

[Speaker 1]

[28:09] Kiitos myös sinulle kuuntelija.
[28:12] Toivottavasti tämä innosti sinua syventämään biostatistiikan opintoja esiin.
[28:17] Toivottavasti kuullaan taas statistiikan aalloilla.
[28:30] Tämän podcastin on tuottanut Turun yliopiston lääketieteellisen tiedekunnan biostatistiikan yksikkö.

Tilastollisen päättelyn perusteet

Tässä podcastin jaksossa biostatistikko Eliisa Löyttyniemi kertoo, miten tutkimuksen otoksesta saadut tulokset yleistetään koko populaatioon. Jaksossa pureudutaan tilastollisen päättelyn ytimeen ja käsitellään peruskäsitteitä, kuten p-arvoa ja luottamusväliä. Studioisäntä Markus Riskumäki tiivistää tärkeimmät tekijät siitä, kuinka tilastollinen testi valitaan. Jos olet lääketieteen, bio- tai hammaslääketieteen opiskelija tai haluat kuunnella helposti ymmärrettävää puhetta tilastotieteen perusideasta, tämä jakso on sinulle!


[00:06] Tervetuloa takaisin statistiikan aalloille.
[00:09] Tänään meillä aiheena aiheena introjaksoa syvempi sukellus tilastolliseen päättelyyn.
[00:15] Minä olen biostatistikko Markus Riskumäki ja vierainani mulla on jälleen biostatistikko Elisa Löyttyniemi, tervetuloa.
[00:23] Kiitos kiitos ja kiva olla taas täällä.
[00:26] Haluatko alkuun ihan nopeasti kertoa, että mitä kaikkea meillä ja kuuntelijoillamme on tänään edessämme?
[00:32] No mä ajattelen, että jos me ihan lyhyesti voitaisiin käydä, mikä sen tilastollisen päättelyn salaisuus on.
[00:39] Koska mun mielestä se on oikeasti ihan tilastotieteen helmi.
[00:42] Jos tämmöisessä lukiossa juuri kukaan ei ole kuullut,
[00:46] että lukiossa opetetaan vaan varjaa sikaavaa ja blaa blaa blaa,
[00:50] mutta siellä ei opeteta tilastollista päättelyä.
[00:54] Tilastollisen päättelyyn kuitenkin perustuu hyvin voimakkaasti koko lääketieteen kehitys.
[01:00] Sitä käytetään siinä, kun mitä tahansa lääketieteellistä, terveystieteellistä tutkimusta tehdään.
[01:07] Tilastotieteen ja matikan mallinnus on aivan keskeisessä roolissa siinä.
[01:11] Tuo on hyvä pointti, minkä mainitsit, että lukiossa ei tästä päättelystä puhuta oikeastaan mitään.
[01:17] Mä muistan, että itse vihlasin yli kaiken lukijassa tilastotiedettä, mutta sitten kappas kummaa yliopistossa, nyt ollaankin sitten ihan ammattilaisia.
[01:29] Joo, mut hei, aloitetaanko sillä, että kertoisit hieman vähän tutkimuksen ideasta yleisesti.
[01:36] Sitten kun lääkäri tai tutkija keksii jonkun idean, niin totta on se, että kukaan muu maailman lääkäri tai tutkija ei usko tällaista ideaa, jolle se pystyy sitä todistaan.
[01:49] Ja se todistaminen tehdään niin, että kerät dataa eli havaintoaineistoa ja sen avulla pystyt mahdollisesti todistamaan sen idean todeksi.
[02:00] Ja nimenomaan siinä käytetään sitä matikkaa, eli todennäköisyys laskentaa apuna.
[02:05] Ja sitä kautta sä pystyt sitten sen idean tuomaan arkipäivään kaikille joukolle.
[02:14] Tähän varmasti liittyy läheisesti tämmönen monelle varmasti esimerkiksi lääkiksessä opiskelevalle vähän pelottavakin termi kuin P-arvo.
[02:29] Haluaisitko vähän kertoa siitä?
[02:32] Joo, mutta lähdetään vielä liikkeelle siitä just tästä tutkimuksesta.
[02:36] Minun piti vielä sanoa se, että siinähän on ideana just se, että minä pystyn siihen dataani keräämään vain jonkun osajoukon.
[02:44] Ja siitä osajoukosta, olkoon se sitten, että minulla on sata syöpäpotilasta, niin minä pyrin sitten tekemään päätelmiä,
[02:52] miten kaikki vastaavat syöpäpotilaat, miten heitä voitaisiin hoitaa paremmin.
[02:56] Eli meillä se pääidea on kuitenkin tutkimuksessa myös tämä, että meillä on osa joukkoista, me halutaan tehdä päätelmiä.
[03:03] Ja tilastotiede voimakkaasti on myös todennäköisyyslaskenta ja se P-arvo,
[03:08] se sanahan tulee sanasta probability, tulee tämä P lyhenne.
[03:14] Ja siinä nimenomaan sitten mitataan sitä meidän dataa suhteessa vähän mitä me populaatiosta ajatellaan.
[03:23] Eli jos me ajatellaan sitä, että mikä on todennäköisyys, että me nyt havaitaan jossakin meidän muuttujassa
[03:31] kymmenen yksikön ero keskiarvoissa, jos populaatiossa sitä eroa ei olisi lainkaan.
[03:37] Ja tämän tyyppisestä todennäköisyyslaskennasta me sitten johdetaan tää PR-vo,
[03:42] mitä julkaisuissa, melkein jokaisessa julkaisussa, käytetään.
[03:47] Eli esimerkiksi tällaisessa tutkimuksessa, jossa tutkitaan lääkkeen tehoa johonkin sairauteen,
[03:53] niin voisi sanoa, että P-arvo on tämmöinen apuväline, joka kertoo, että jos otoksessa havataan
[03:59] ero esimerkiksi tämän lumenlääkkeen ja varsinaisen lääkkeen välillä,
[04:03] niin populaatioissakin on todennäköisesti sitten eroa, eli lääketehoa yleisestikin.
[04:08] Joo, ja lääketeollisuudessa nimenomaan me tarvitaan sitten siinä loppuvaiheessa ennen lääkkeen pääsyä markkinoille,
[04:15] me tarvitaan kaksi sellaista isoa niin sanottua faasi kolmas tutkimusta ja lääkeviranomaiset vaatii, että
[04:22] kummassakin me saadaan tilastollisesti merkitsevä tulos, joka tarkoittaa yleisesti sitä, että tämä P-arvo
[04:28] pitää olla alle 0,05 eli 5 prosenttia.
[04:36] Sä puhuit tuosta merkitsevyystasosta.
[04:39] Joo, siinä se raja 0,05 tarkoittaa just sitä, että me väitetään, että lääkeryhmä eroaa vaikka lumen lääkeryhmästä,
[04:48] kun se p-arvo on alle 0,05, mutta meille jää vielä sellainen pieni riski olemassa,
[04:54] että sitä eroaa ei olekaan.
[04:56] Eli aina meille jää tutkimukseen tämä epävarmuus,
[05:00] joka me koitetaan hanskata tällä tilastotieteen avulla.
[05:04] Ja minkä takia se on nyt tämmöinen 0,05, vähän niin kuin absurdi raja.
[05:09] Mutta tällä ei ole nyt vaan tieteessä, suurin osa tutkimuksista käyttää nimenomaan tätä rajaa.
[05:15] Okei.
[05:17] No mitä sitten, jos se p-arvo on lähellä merkitsevää, esimerkiksi 0,06 tai 0,08, niin tarkoittaako se, että tulokset on täysin pilalla eikä niitä kannata edes raportoida?
[05:29] Ei toki, että julkaisussa monesti kirjataan sillä tavalla, että me sanotaan, että meillä oli vähän trendiä,
[05:37] eli me oltiin hyvin lähellä merkitsevää, ja sen takia hyvässä julkaisussa aina merkataankin ne tarkat p-arvot.
[05:44] Eli mulle on ihan eri asia, että onko se p-arvo 0,061, eli se on tosi lähellä.
[05:49] Mä olen melkein saanut todistettua sen lääkiryhmien välisen eron, vai onko se 0,61,
[05:55] joka tarkoittaa, että ei ollut muuten mitään eroa käytännössä.
[06:00] Mutta sitten täytyy myös lisätä se, että on olemassa tapauksia, jos me käytetäänkin eri rajaa kuin tämä 0,05.
[06:08] Esimerkiksi jos me testataan sytokiineja tai jotakin, missä me testataan satoja tai jopa tuhansia testejä,
[06:15] kun me etsimme vain jotakin, missä voisi olla jotakin, niin silloin me korjataan sitä p-arvoa selvästi pienemmäksi.
[06:23] jotta me tehtäisiin nimenomaan vähemmän näitä virhepäätelmiä,
[06:27] mikä meillä on aina tämä epävarmuus olemassa.
[06:30] Niin tämmöisiä korjauksia myös tehdään.
[06:33] Tämä P-arvojen merkitsevyys on aika tämmöinen,
[06:38] voisi sanoa jopa niin kuin triggeröivä puheenaihe tutkimuksessa.
[06:43] Niin tota, mitä sä voisit sanoa sitten tämmöisestä asiasta kuin P-arvojen korjaaminen?
[06:49] minkä takia sitä sitten tehdään, että onko se joku taikatemppu siihen, että saadaan sittenkin omat tulokset merkitseviksi?
[06:55] Ei vaan nimenomaan toisinpäin.
[06:59] Eli p-arvoja kiristetään nimenomaan tässäkin esimerkissä, minkä mä äsken mainitsin,
[07:03] että jos tehdään ihan hirveästi testejä, niin me halutaan välttää niitä meidän virhetulkintoja,
[07:08] niin me tosiaankin lasketaan sitä meidän p-arvorajaa.
[07:13] Okei.
[07:15] Onko P-arvo ainoa tunnusluku, jolla voisi tulkita hypoteesien testausta?
[07:20] Vai onko jotain muita yleisesti käytettyjä vaihtoehtoja?
[07:23] Ei toki, vaan nimenomaan viime aikoina on korostettu sitä, että luottamusvälit olisi melkeinpä tärkeämpiä kuin P-arvo.
[07:33] Osa on sitä mieltä, että P-arvot voidaan jopa unohtaa, että halutaan raportoida vain luottamusvälit.
[07:40] Koska luottamusväli pitäisi olla lääkärille ja tutkijoille paljon vielä tärkeämpiä,
[07:43] koska luottamusvälistä sä näet, onko siellä tilastollisesti merkitsevä tulos vai ei,
[07:49] mutta sä sen lisäksi pystyt tekemään kliinisen tulkinnan,
[07:53] kuinka suuri se efekti todennäköisesti on keskimäärin.
[07:58] Ja sehän on nimenomaan se, mikä lääkäriä ja tutkijaa oikeasti kiinnostaa.
[08:02] Okei.
[08:03] Eli sun tulkinta luottamusvälistä voisi olla, että esimerkiksi 95 prosentin todennäköisyydellä
[08:12] Tältä luottamusväliltä löytyy tutkittavan muuttojen populaation todellinen arvo,
[08:16] josta voidaan tehdä sitten kliiniset päätelmät esimerkiksi lääkkeen tehosta.
[08:20] Joo, joo.
[08:21] Ja sen takia se luottamusvälin ymmärtäminen,
[08:25] että 95 prosentin todennäköisyydellä se vaikka populaatiokeskiarvo on tällä välillä,
[08:31] niin se on erittäin tärkeää, että puhutaan nimenomaan siitä populaatiokeskiarvosta,
[08:36] siitä ikään kuin todellisesta arvosta, mitähän me ei koskaan tulla saamaan selville.
[08:40] selville, koska emme voida koskaan mitata koko populaatiota.
[08:45] Sen takia siinäkin on se epävarmuus, että kun me puhutaan 95 prosentin luottamusvälistä,
[08:51] niin meillähän on 5 prosentin mahdollisuus sitten, että se meidän populaatiokeskirjo onkin
[08:55] tämän luottamusvälin ulkopuolella, mutta se epävarmuus meidän vaan täytyy sijaittaa.
[09:03] No nämä P-arvot ja luottamusvälit, mistä me ollaan nyt tässä puhuttu, niin liittyy aika
[09:08] oleellisesti semmoiseen asiaan kuin tilastollinen testaus.
[09:12] Ja tällaisia tilastollisia testejä vilisee julkaisuissa ja erilaisia on vaikka kuinka paljon.
[09:19] Miten ihmeessä sitä sitten pystyy valitsemaan oikean testin just sun omaan tutkimukseen?
[09:24] No siihen on olemassa kyllä, mekin ollaan piirretty tämmönen tilastollinen kartta,
[09:29] joka pyrkii opiskelijoita auttamaan löytämään oikein testin.
[09:33] Mutta mun mielestä siinä on semmoiset neljä kulmakiveä, mitkä pitää ekana ymmärtää,
[09:38] miten voit hahmottaa ja löytää niitä sopivia testejä.
[09:42] Yksi on se, että kun sinulla on nyt se muuttuja, jota haluat tutkia, eli me kutsutaan sitä vasteeksi,
[09:50] minkä käyttäytyminen sinua kiinnostaa, niin sinun täytyy tietenkin tunnistaa, minkälainen se muuttuja on.
[09:55] Jos sinun kiinnostuksen kohteena on olla muuttujan hemoglobiini, niin sinulla on numeerinen, jatkuva, suhdeasteikollinen muuttuja.
[10:03] Sitten jos sulla onkin se, että onko potilas parantunut vai ei parantunut, niin sulla on kategorinen, jossa luokilla ei ole järjestystä.
[10:14] Ja jos sulla on sitten taas kipumuuttuja ykkösestä viitoseen, niin se on edelleen kategorinen muuttuja, mutta niillä luokilla onkin järjestys.
[10:22] Ja vielä on muitakin luokkia, mutta tässä on nämä yleisimmät luokat, eli sen sun täytyy tunnistaa.
[10:28] Tietenkin aloitat sillä, että tunnistat, että onko se kategorinen vai numeerinen muuttoja, koska niillä on ihan eri testit.
[10:36] Mutta kipuesimerkki, missä on luokilla joku järjestys, niin siinä on enemmän informaatiota.
[10:43] Me halutaan tietenkin hyödyntää kaikki informaatio, mikä datasta irti lähtee, niin se täytyy ottaa huomioon.
[10:51] Ja sit jos meillä on taas se hemoglobiini eli tämmöinen numeerinen jatkuva muuttuja, niin meidän täytyy tunnistaa sen jakauma.
[10:59] Eli me tutkitaan erilaisilla metodeilla sitten, että onko se kutakuinkin normaalisti jakautunut, mikä on tämä kaussi, eli kello, käyrä, rakkala, lapsella, monta nimeä.
[11:11] Koska normaaliakaumaan perustuvat testit on hyvin voimakkaita, eli me saadaan niitä eroja helpommin selville, helpommin löydettävissä.
[11:19] Sitten seuraava kohta, mikä meidän täytyy datasta ymmärtää, on se, että mikä siellä on se riippumatonta ja mikä on riippuvaa.
[11:28] Eli mikä on riippumaton tarkoittaa sitä, että mikä on meidän tilastoyksikkö.
[11:33] Jos me tehdään kliinistä tutkimusta, niin se on usein ihminen.
[11:38] Yhdestä ihmisestä mitattu verenpaine on riippumaton, toisesta ihmisestä mitattu verenpaine.
[11:43] Mutta jos mittaankin samasta ihmisestä kaksi kertaa verenpainetta, niin ne ovatkin riippuvia mittauksia.
[11:50] Minun täytyy tietenkin se huomioida analyyseissä, eli tämä on ihan oleellista, että tiedät, mikä on riippuvaa ja mikä on riippumatonta.
[11:58] Asiat tuntuvat tässä tosin yksinkertaiselta, mutta eivät ne aina ole ihan näin yksinkertaisia.
[12:03] Jos me tehdään silmätutkimusta, niin se onkin se silmä, se meidän tilastoyksikkö, koska me voidaan laittaa jopa eri lääkettä eri silmiin.
[12:11] ja näin pois päin, mutta nämä on mielestäni semmoiset neljä kulmakiveä,
[12:15] mitkä pitää ymmärtää, niin sitten sä pääset jo tosi pitkälle,
[12:19] että sä pystyt löytämään tämmöisen hyvän ja sopivan testin sun datalle.
[12:24] Okei, eli kertauksena nämä tilastollisen testin valintaan liittyvät kulmakivet olivat
[12:31] yksi, päämuuttojan tyyppi, kaksi, jos muuttoja on jatkuva, niin minkälainen jakauma sillä on,
[12:38] kolme, mikä on riippumatonta, ja neljä, mikä taas on riippuvaa.
[12:42] Jep, just näin.
[12:46] TILASTOLLISTA MALLEISTA
[12:47] No sä puhuit noista tilastollisista malleista.
[12:51] Onko niissä jotain oletuksia, joita pitäisi ottaa huomioon?
[12:55] Joo, nimenomaan se on tosi tosi tärkeetä, että tietää, että mitä taustan oletuksia näillä malleilla on.
[13:01] Mä äsken tuossa mainitsin tämmöisen normaaliakauma-oletuksen.
[13:04] jos se ei ole voimassa, niin toki sitten sä saatkin ihan väärät tulokset, jos sä vaan räiskit sellaisen mallin,
[13:13] missä oletetaan, että tämä muuttujen jakauma on normaali.
[13:18] Eli siinä pitää olla tosi tarkkana ja tutkia ennen kuin tekee mitään analyysiä, että mitkä on ne tausto-oletukset.
[13:25] Joissain on niin, että tausto-oletuksella pitää olla riittävän suuri se otosjoukko,
[13:31] tai riittävän paljon vaikka tutkittavia siellä frekvenssitaulussa,
[13:39] jotta sen voi tehdä jonkun analyysin.
[13:41] Okei.
[13:42] Tähän tilastollisten testien loppuun pieni kiteytys,
[13:48] että tilastolliset testit siis auttavat selvittämään,
[13:51] havaitaanko jokin otoksessa havaittu ero,
[13:54] todennäköisesti myös koko populaatiossa.
[13:58] Mutta nyt on tosiaan paljon puhuttu tästä otoksesta.
[14:02] Miten sitten päätetään sun omaan tutkimukseen otoskoko?
[14:06] Joo, toinenkin hyvä kysymys, että mä voisin puhua koko päivänä.
[14:13] Tutkimuksen suunnittelusta yksinään, mutta siinä yksi hyvin tärkeä osa on otoskoon määrittely.
[14:19] Kuinka paljon me tarvitaan henkilötä tutkittavia, tai jos me tehdään break cleanistä,
[14:23] ja kuinka paljon me tarvitaan hiiriä siihen meidän tutkimukseen.
[14:27] niin me tehdään tällainen laskelma etukäteen ennen tutkimuksen alkamista.
[14:33] Ja jos nyt taas vaikka otetaan se hemoglobini-esimerkki, niin meidän täytyy miettiä kliinisesti,
[14:40] mikä keskimääräinen ero olisi sitten se kliinisesti merkittävä keskiarvojen ero,
[14:45] mikä me halutaan havaita, jos nyt ajatellaan vaikka, että on lääkeryhmä ja lumelääkeryhmä.
[14:51] Että millä keskiarvojen erolla olisi oikeasti jo kliinistä merkitystä.
[14:56] Se on tosi vaikea asia, ja me usein siitä tutkijoiden kanssa joudutaan keskusteleenkin aika pitkään.
[15:01] Toinen, mikä me tarvitaan, joka kuulostaa vielä hassummalta, niin me tarvitaan esimerkiksi tämän nuversen jatkuvan muuttujen keskihajonta.
[15:10] No, eihän me sitä voida tietää ennen tutkimusta, mikä on sen vaihtelu, keskihajonta, mutta siinä me hyödynnetäänkin sitten aikaisempia tutkimuksia,
[15:19] tai pilottitutkimuksia tai aikaisempia julkaisuja, jolla me arvioidaan, minkä kokoinen hajonta tulevaisuuden tutkimuksessa meillä tässä muuttuessa tulee olemaan.
[15:29] Ja esimerkiksi tällä tavalla sitten käyttäen yhtä kaavaa, niin me voidaan arvioida sitten, kuinka paljon me tarvitaan oikeasti henkilöitä tai muita tutkittavia siihen meidän tulevaan tutkimukseen.
[15:41] Jotta me pystytään sitten todistamaan se idea todeksi, mikäli se on sitten totta.
[15:47] Ainahan ne ideat ei oikein ole totta, eli ei pystytä todistaa tietenkään, koska kaikki ei toimi.
[15:53] Joo joo.
[15:55] Muakin kiinnostaa tuossa, että miten ihmeessä sä sitten löydät jonkun aiemman tutkimuksen esimerkiksi,
[16:03] mille sä perustat sen sun Otoscore-laskennan, vai onko se vaan niin, että tutkijan kliinisen mielipiteen mukaan valitaan joku?
[16:12] No ei, että jos sä työskenteet teollisuudessa, niin hirveän usein on tehty jotain aikaisempaa tutkimusta sen osalta, että sä saat sen sieltä, että sulla on oikeasti ihan sen data olemassa.
[16:24] Jos sulla ei ole itsellä dataa, niin sitten me oikeasti tehdään julkaisujen hakua.
[16:29] Ja yksi esimerkki oli sellainen, että me löytettiin kaksi julkaisua.
[16:35] Suunniteltiin tutkimusta tehtävän Suomessa ja löysimme kaksi julkaisua, toinen oli tehty Saksassa ja toinen Saudi-Arabiassa.
[16:44] Se oli ihan erilainen keskihäjyntä jostain syystä.
[16:47] Mietimme, että kumpi näistä julkaisuista data olisi ehkä lähempänä meidän tulevaa dataa.
[16:54] Sitä kautta valkasimme Saksan tutkimuksen.
[16:57] että me ajateltiin, että se populaatio siinä tutkimuksessa se on ollut lähempänä tätä meidän tulevaa tutkimuspopulaatiota.
[17:04] Okei.
[17:05] Tässä on tullut hirveän paljon asiaa, niin osaisitko tähän loppuun vielä jotenkin mahdollisimman lyhyesti kiteyttää ihmisille tilastotieteen idean?
[17:19] Kaikki lähtee tutkia tai tutkia joukosta.
[17:23] Heillä on joku idea, ja he haluavat tietenkin sen tutkimusideansa todistaa todeksi muulle maailmalle.
[17:32] Meidän täytyy siis tehdä tutkimus.
[17:34] Tutkimus tehdään aina käytännössä katsoen otostutkimuksena, eli me lasketaan se äsken mainittu otoskoko.
[17:42] Tehdään se tutkimus, kerätään sitä dataa usein vuositolkulla ja dataan siihen havaintoaineistoon
[17:49] me tehdään sitten nämä tilastolliset mallit ja sitä kautta me voidaan tehdä tilastollinen päättely,
[17:55] käyttää nimenomaan luottamusvälejä ja p-arvoja ja sitten tämä tutkimusryhmä,
[18:01] me voidaan joko iloita, tehdä hieno julkaisu tai raportti, jossa me todetaan,
[18:04] että heidän idea taitaakin olla totta tai sitten me ollaan vähän pettyneitä ja todetaan,
[18:10] Tarvii keksiä parempia ideoita jatkossa.
[18:12] Hei kiitos sulle Elisa ja kiitos myös sinulle kuuntelijalle.
[18:17] Toivottavasti tämä pieni jakso innosti sinua syventämään biostatistiikan opintojasi.
[18:23] Toivottavasti kuullaan taas statistikan aalloilla.
[18:35] Tämän podcastin on tuottanut Turun yliopiston lääketieteellisen tiedekunnan biostatistiikan yksikkö.

Miksi jokainen lääkäri ja tutkija tarvitsee biostatistiikkaa?

Ensimmäisessä jaksossa studioisäntä Markus Riskumäen haastateltavana on biostatistikko Eliisa Löyttyniemi. Hän motivoi lääketieteen, bio- ja hammaslääketieteen opiskelijoita, joilla on edessään Havainnoista päättelyyn -kurssi. Tämä jakso sopii kuitenkin kaikille, jotka haluavat kuulla miksi jokainen lääkäri ja tutkija tarvitsee biostatistiikkaa.


[Speaker 0]

[00:03] Tervetuloa kuuntelemaan johdatusta biostatistiikan opiskeluun.
[00:10] Olit sitten lääketieteen, hammaslääketieteen tai biolääketieteen opiskelija, tutkija tai muuten vain kiinnostanut biostatistiikasta, niin hienoa, että olet täällä.
[00:21] Minä olen biostatistikko Markus Riskumäki ja tänään haastattelen kollegaani, biostatistikko Elisa Löytyniemiä.
[00:24] Tervetuloa.
[00:24] Tänään haastattelen kollegaani, biostatistikko Elisa Löyttyniemeä.
[00:28] Tervetuloa.
[00:29] Kiitos.
[00:29] Kiva olla täällä.
[00:31] Ennen kuin aloitetaan, voisitko kertoa vähän työhistoriasta?
[00:36] Sen jälkeen, kun olin opiskellut matikkaa ja tilastotiedettä yliopistossa,
[00:41] lähdin lääketeollisuuteen.
[00:42] Olin siellä yli 15 vuotta.
[00:44] Sen jälkeen tutkittiin laitteita tai kehitettiin laitteita,
[00:49] ja kehitettiin myös erilaisia laboratoriotestejä.
[00:53] Viitisen vuotta.
[00:53] Nyt olen ollut yliopistolla lääketieteen tiedekunnassa biostatistikan yksikössä reilu kymmenen vuotta.
[01:01] Sulla onkin pitkä kokemus lääkäreiden ja tutkijoiden kanssa työskentelystä.
[01:07] Puhutaanpas tänään sellaiset ihmiset mielessä pitäen, joilla ei ole välttämättä mitään kosketuspintaa vielä tilastotieteeseen.
[01:16] Otasitsä kertoa mulle, että miksi tuleva lääkäri tai tutkija tarvitsee ymmärrystä tutkimuksesta ja tulosten tulkinnasta?
[01:24] Jos nyt tässä kohtaa ajattelen vaikka sitä lääkäriä ja potilastyötä, niin toki se lääkäri haluaa, että kun hänelle tulee joku potilas,
[01:36] hän pystyisi antaa sille, mikä sairaus sitten on kyseessä, niin hyvän hoidon ja potilas joko toipuu kokonaan tai oireet paranee tai jotakin vastaavaa.
[01:48] Ja totta kai lääkäri myös haluaa, että se hoito on tehokas ja turvallinen.
[01:54] Näin ollen mehän halutaan myöskin, että tämä tuleva hoito on näyttöön perustuen todistettu turvalliseksi ja tehokkaaksi.
[02:07] Tämä näyttöön perustuva lääketiede nimenomaan perustuu siihen, että sitä on tutkittu, meillä on dataa.
[02:14] Eli se ei perustu mihinkään uskomuksiin tai luuloihin se, että se on tehokas ja turvallinen, vaan nimenomaan dataan.
[02:23] Jos me ajatellaan vaikka viime vuosina, kun tuli korona yhtäkkiä, niin kukaanhan maailmassa ei tiennyt siitä sairaudesta mitään.
[02:34] Ei tiennyt parannuskeinoa, ei tiennyt mistä se tulee, miten se tarttuu, mutta sittenhän koko maailma, tutkijat ja lääkärit,
[02:43] rupesi keräämään sitä dataa ja vasta datan kautta me ruvettiin ymmärtämään sitä myös, miten sitä voidaan hoitaa,
[02:51] miten sitä voidaan ehkäistä.
[02:53] Tähän tarvitaan nimenomaan sitä lääkärin ja tutkijan osaamista, jatkuvaa oppimista
[03:00] siihen uuden tutkimustiedon sisäistämiseen, että se ammattitaito kehittyy vuosien varrella.
[03:09] Ja siihen sitten taas tarvitaan sitä julkaisun lukutaitoa hyvin paljon, että ymmärtää sitä uutta tutkimustietoa, jotta voisit taas niitä tulevia potilaita hoitaa paremmin.
[03:23] Okei.
[03:23] No miten tämä kaikki liittyy tilastotieteeseen tai biostatistiikkaan?
[03:28] Mä mainitsin tuossa nimenomaan tämän näyttöön perustuvan lääketieteen.
[03:33] Ja se tarkoittaa sitä, että me tutkitaan jotain asiaa, kerätään jotain dataa,
[03:38] ja sitä kautta me oikeasti sitten tehdään matemaattisia malleja siihen dataan,
[03:44] eli käytetään nimenomaan tilastollisia menetelmiä.
[03:47] Ja niiden avulla me voidaan tehdä sit johtopäätöksiä siitä datasta.
[03:53] Ja ne johtopäätökset ja mallit tietenkin lukevat juuri niistä julkaisuista.
[03:59] Ja sitä kautta me biostatistikan kursseilla hirveästi korostetaan myös sitä julkaisun lukemistaitoa,
[04:07] että lukija pystyisi arvioimaan sen julkaisun laatua, että onko se hyvä julkaisu vai onko se huono julkaisu.
[04:15] Käytänkö minä siinä julkaisussa esitettyjä tietoja seuraavien potilaiden elämyshoitamiseen?
[04:21] Tai tutkijana, löytyykö siitä julkaisusta jotakin hyviä ideoita, millä voin jatkaa jotain tutkimusta.
[04:29] Sä mainitsit tuossa matemaattisen mallinnuksen, joka varmasti monelle saattaa kuulostaa hyvin pelottavalta,
[04:37] niin tulisiko siis lääkäri osata matemaattista mallinnusta, että se pystyy ymmärtämään näitä tutkimuksia?
[04:42] No sanotaan, että nyt kun olen vuosikymmeniä työskennellyt tutkijoiden ja lääkäreiden kanssa,
[04:49] niin tärkeintä on se tilastollisen päättelyn matemaattisten mallien ymmärtäminen,
[04:55] sen logiikan ymmärtäminen, niin että sä osaat vähintään tulkita niitä tuloksia julkaisuissa,
[05:01] missä niitä kirjoitetaan, niitä päättelyjä.
[05:05] Mikäli sä työskentelet teollisuudessa, niin meillä on aina tiimi.
[05:09] Meillä on se tutkijalääkäri ja biostatistikko yhdessä tekee ne raportit tai julkaisut.
[05:15] Eli siinä kohtaa se ymmärrys on kaikista tärkein ja se logiikan päättelyn tajuaminen.
[05:23] Akateemisessa maailmassa on paljon myöskin lääketietojen tutkijoita, jotka haluaa oppia vielä lisää tätä tilastollista mallintamista ja sitä kautta jopa tehdä itse ne analyysit.
[05:35] Meillä biostatistiikan kursseilla harjoitellaan analyysin tekemistä, koska sitä kautta opit ymmärtämään tilastollisen päättelyn logiikkaa.
[05:44] Mun mielestä se silloin auttaa myöskin siinä nimenomaan julkaisujen lukemisen ymmärtämisessä.
[05:51] Mutta eli siis välttämättä ei ole pakko itse osata tehdä niitä mallinnuksia, osasitsä sanoa sitten kumminkin, että antaako se jotain semmoista etuliointiasemaa, jos sä osaat itse tehdä?
[06:04] Joo, se nimenomaan auttaa myös siihen, että jos mä ajattelen tutkijaa, tutkija osaa silloin paremmin suunnitella tietokannat, tietokannat on paremmin rakennettu ja silloin sä tiedät sen, että mikä se logiikka on.
[06:21] Mutta välttämätöntä se itseanalyysin tekeminen ei ole, mutta se auttaa siihen tavallaan tilastotieteen ymmärtämisen toki hyvin paljon.
[06:28] Ja sen takia sitä kurssilla harjoitellaan.
[06:35] Sä heittelit tossa monta kertaa tämmöisiä termejä niin kuin tilastollinen mallinnus, tilastollinen päättely ja ylipäätään tilastotiede saattaa olla sanana vähän outo monille.
[06:48] niin mitä sä tarkoitat tilastollisella päättelyllä?
[06:53] No päättelyn se pääidea on se, että kun meillä tutkimuksessa on aina vaan osajoukko, eli otos,
[07:00] leikitään nyt vaikka, että me otetaan siihen tutkimukseen sata astmaatikkoa,
[07:05] niin toki me halutaan niistä sadan astmaatikon joukosta vetää päätelmät
[07:12] kaikkien astmaatikkojen joukkoon eli kaikkiin tulevaisuuden astmaatikkopotilaisiin, mitkä voit kohdata.
[07:19] Eli tavallaan se, että me halutaan vetää tutkimusjoukosta otoksesta päätelmät sinne populaatiotasolle.
[07:27] Mikä ikinä se meidän sairaspopulaatio sitten onkaan.
[07:31] Se on se keskeinen idea tilastollisessa päättelyssä.
[07:35] Siinä me hyödynnetään nimenomaan keskeiset termit on P-arvo ja luottamusväli, eli ilman niiden termien ymmärtämistä, niin ei pysty lukemaan käytännössä katsoen mitään tiedellehtiä.
[07:50] Eli nämä ovat ne kaikista keskeisimmät, ja näillä nimenomaan pyritään hanskaamaan se epävarmuus,
[07:57] joka meillä on päättelystä, kun me, eihän me sen sadan astmaatikon joukossa pystytä totuutta tietämään,
[08:04] mitä populaatiossa tapahtuu.
[08:06] Eli meille jää aina se epävarmuus olemaan, mutta me pyritään hanskaamaan
[08:10] sitä tilastotieteellä nimenomaan luottamusvälien ja p-arvon avulla.
[08:15] Okei, olipa hieno kiteytys tilastotieteestä, mutta kumminkin tämänkin jakson nimi on
[08:20] johdatus biostatistiikkaan, niin miten biostatistiikka eroaa normaalista statistiikasta tai tilastotieteestä?
[08:28] No siinä on se biosano edessä, joo.
[08:31] Eli se nimenomaan keskittyy biologisiin ongelmiin.
[08:36] Onko ne sitten kemiaa, lääketiedettä ja semmoista.
[08:41] ja siihen on sitten tavallaan optimaaliset, vähän erilaisia tilastollisia menetelmiä olemassa sitten.
[08:50] Joo, kiitos.
[08:51] No yksi semmoinen kysymys mulle tuli vielä mieleen, mikä saattaisi kiinnostaa tämän jakson kuulijoita,
[08:58] että tarviiko tällaisille biostatistiikan kursseille jotain taustatietoja?
[09:02] No ei oikeastaan, meillä on se periaate, että me lähdetään aina ihan nollasta meidän biostatistiikan kursseilla.
[09:09] Se mitä, se on lähinnä, jos mä ajattelen jotain ihan lukiokitaustaa, niin tilastotiedehän on hyvin painokkaasti todennäköisyyslaskentaa.
[09:19] Eli se sieltä niin kun kumpuaa pohjalta todennäköisyyslaskennan asiat, koska esimerkiksi tää P-arvo, minkä mä vaan nyt mainitsin kurssilla sitten enemmän,
[09:31] niin se P hän tulee sanasta probability, joten ei oo ihme, että käsitellään paljon todennäköisyyttä.
[09:38] No niin, nyt tulikin kuulemaan niin paljon asiaa, että voisin lyhyesti kerrata.
[09:44] Eli voisi sanoa, että tilastotieteelliset menetelmät ovat elintärkeitä lääketieteelliselle tutkimukselle.
[09:50] Ja vaikka työskentelisikään tutkimuksen parissa, niin ilman tilastotieteellistä osaamista on hyvin vaikea lukea alankirjallisuutta kriittisesti.
[09:58] Koska ilman tieteellistä todistamista, lainausmerkeissä, tutkimusasetelmilla ei ole todellista pohjaa.
[10:06] Ja mä sanoin tosiaan lainausmerkeissä todistamista, sillä eihän mikään todellisessa maailmassa ja tutkimuksessa ole ikinä täysin varmaa.
[10:14] Joo, tämähän se juuri on, että meille jää aina se epävarmuus ja me pyritään sitä sitten mahdollisimman hyvin kuvaamaan sitä epävarmuutta tilastotieteen keinoin.
[10:23] Niin kuitenkin, että se kliinikkotutkijalääkäri pystyisi tekemään sitten näitä kliinisiä päätelmiä kuitenkin tämän emmesluottamusvälin avulla.
[10:34] avulla.
[10:35] Eli onko se hoito tarpeeksi tehokas hänelle ja onko se sitten totta kai turvallinen myös potilaille.
[10:45] Tässä on nyt keskusteltu aika tämmöisiä teoreettisia asioita, niin kuulijoilta varmasti myös kiinnostaisi joku
[10:53] semmoinen ihan käytännön esimerkki, niin voisiko sulla antaa esimerkki, kuinka esimerkiksi joku tutkimusidea
[10:59] voi johtaa kliinisen hoidon muutoksiin?
[11:04] Tässä yhtenä hienona esimerkkinä on tämmöinen turkulainen tutkijaryhmä, joka rupesi ajattelemaan sitä, että tarvitseeko hän aina umpilisäkkeen tulehdusta,
[11:14] joka on siis tämmöinen komplisoitumaton eli lievä umpilisäkkeen tulehdus, tarviiko hän sitä aina leikata, niin kuin sitä on nyt viime vuosikymmenet aina leikattu.
[11:23] Koska he ajatteli, että no se on tulehdus, että muutkin tulehdukset hoitetaan antibiooteilla.
[11:30] Niinpä he kasasivat tutkimuksen pystyyn, jossa tutkittiin, riittääkö pelkkä antibioottihoito umpilisäkkeen hoitoon.
[11:41] Todennäköisesti he huomasivat, että suurimman osaksi se riittää, eli ei tarvinnutkaan leikata,
[11:46] joka tietenkin lyhentää sairaslomia, ei ole leikkauskomplikaatioita tietenkään, kun ei leikata.
[11:53] Tämä sai hyvin jopa maailmanlaajuista huomioon.
[11:59] Saman tien, kun nämä tutkimustulokset julkaistiin, niin se on myös Suomessakin muuttanut hoitokäytäntöjä.
[12:05] Lisäksi tarvitsee sanoa, että korona-aikana sehän oli suurin piirtein taivaan lahja, koska koronapotilaan leikkaaminen on aikamoinen juttu.
[12:14] Okei, kiitos tästä esimerkistä.
[12:17] Eikös totta, että tämä tutkimushan oli, niin kuin sanoitkin,
[12:20] ihan maailmanlaajuisesti tunnistettu, mutta myös palkittu,
[12:24] esimerkiksi Jamassa, joka on yksi maailman huippulehdistä?
[12:27] Joo, pitää paikkansa.
[12:28] Ja tämä tutkimusryhmä edelleen jatkaa näitä tutkimuksia.
[12:32] Ja nyt on tutkimuksia menossa, että tarvitaanko meille sitä antibioottia.
[12:36] Me ollaan nyt jo todistettu, että meille riittää pienempi antibioottimäärä.
[12:41] ja todistettu sitä, että se antibiootti voidaan hoitaa kotona, ei tarvitse suonensisäisesti hoitaa.
[12:45] Ja nyt tutkitaan myös sitä, että riittääkö pelkkä kipulääkäri.
[12:48] Eli tulehdus menisi vain itsellään ohi, niin kuin lasten korvatulehduksiakin usein vain nykyisin seurataan.
[12:55] Okei, hienoa Suomi ja hienoa Turku.
[12:59] Tässä olikin sitten tämä meidän lyhyt intro jaksomme.
[13:02] Kiitos sinulle kuuntelija, ja toivottavasti tämä innosti sinua opiskelemaan biostatistiikkaa.
[13:12] Toivottavasti kuullaan taas statistiikan aalloilla.