Todennäköisyyden tulkinnasta
Tilastotieteilijä on ihminen, joka havainnoi ja hahmottaa maailmaansa todennäköisyysmallien avulla. Kun esimerkiksi biostatistikko selvittää tupakoinnin vaikutusta keuhkosyövän vaaraan, hän rakentaa yksilötason todennäköisyysmallin, jossa vaara (todennäköisyys) sairastua keuhkosyöpään riippuu yksilön taustasta (tupakointi ja muut samanaikaiset selittävät tekijät). Selittävien tekijöiden vaikutusta kuvaavien parametrien avulla voidaan yksilötasolla arvioida kunkin yksittäisen tekijän vaikutusta.
Tietämyksen lisääntyessä voidaan ehkä joskus täydellisesti selittää se biologinen prosessi, joka yksilön kohdalla aiheutti keuhkosyövän, mutta sitä odotellessa biostatistikko selittää ilmiötä todennäköisyysmallin avulla: Jokaisen yksilön kohdalla ajatellaan heitettävän kolikkoa, jossa kruunun (sairastuu) ja klaavan (ei sairastu) todennäköisyydet riippuvat yksilön ominaisuuksista. Olipa maailma deterministinen tai stokastinen, se siis näyttäytyy meille stokastisena.
Frekventistisen tulkinnan mukaan todennäköisyyden käsite voidaan liittää vain toistokokeeseen. Toistokoe ("rahanheitto") on koe joka voidaan toistaa samoissa olosuhteissa ("sama kolikko") mielivaltaisen monta kertaa. Toistokokeeseen liittyvän tapahtuman ("saadaan kruunu") todennäköisyys kertoo miten usein tapahtuma keskimäärin sattuu koetta toistettaessa. Ihmisten, joilla on samankaltainen tausta ("sama raha"), ajatellaan silloin muodostavan joukon saman toistokokeen realisaatioita, ja sairastumisvaaran riippuvuus yksilön taustasta voidaan empiirisesti selvittää.
Tutkimusaineiston hankinnan yhteydessä usein syntyy "itseaiheutettua satunnaisuutta", tutkimuspopulaatiosta valitaan tutkimusta varten satunnaisesti osajoukko tiettyä otantastrategiaa käyttäen, kliinisessä kokeessa eri käsittelyt arvotaan tutkimuspotilaille, jne. Itseaiheutettu satunnaisuus ja siihen liittyvä todennäköisyys voidaan myös tulkita frekventistiseksi, mutta tämä todennäköisyys on laadullisesti erilaista kuin ensinkuvattu, biologiseen prosessiin liittyvä todennäköisyys. (Edellisessä tapauksessa toistokoe on kuviteltu, jälkimmäisessä toistokoe on itse toteutettu.)
Bayesläisen koulukunnan työkaluna on subjektiivinen todennäköisyyden käsite. Liberaaleimman käsityksen mukaan todennäköisyyden voi tällöin liittää mihin tahansa tapahtumaan. Yksilön (subjektin) määrittämä todennäköisyys tapahtumalle kertoo siitä, miten varmaksi henkilö arvioi tapahtuman sattumisen. Tämä on selvästi eri käsite kuin edellä mainitut frekventistiset tulkintaan liittyvät käsitteet.
Esimerkkitapauksessamme bayesläisen ja frekventistisen koulukunnan työskentelytapojen ero näkyy siinä, että molemmat voivat ehkä hyväksyä saman (frekventistisen) todennäköisyysmallin keuhkosyövän vaaralle samoine tuntemattomine parametreineen. Bayesläinen tilastotieteilijä haluaa lisäksi hyödyntää aikaisemman kokemuksensa ja tietämyksensä tuntemattomista parametrien arvoista prioritodennäköisyysjakauman muodossa. Frekventistisen koulukunnan tilastotieteilijä raportoi analyysinsä tulokset testien, estimaattien, ja luottamusvälien avulla ("Mitä tämä koe kertoi?"), kun puolestaan subjektiivinen bayeslainen raportoi parametreihin liittyvät posteriorijakaumansa ("Mitä tiedän tämän kokeen jälkeen?"). Subjektiivinen ja frekventistinen todennäköisyys ovat laadullisesti niin erilaisia käsitteitä, että niiden kombinoiminen bayeslaiseen tapaan on vierasta frekventistiselle ajattelulle.
Tilastollisten menetelmien soveltajilla on usein hyvin rajoittunut näkemys siitä, miten analyysin tuloksia ja todennäköisyyttä heidän aineistonsa analyysissä käytännössä tulkitaan. Todennäköisyyden käsitteen ymmärtäminen on tulkinnan kannalta äärimmäisen tärkeää. Tutkijakoulutuksessa tulisi huolehtia siitä, että tutkija päätelmiä tehdessään ymmärtää, millaista työkalua (todennäköisyyden käsite) hän on käyttämässä. On myös tärkeää, että tilastotieteilijöiden koulutuksessa eri lähestymistavat eroineen käydään läpi ja selvitetään riittävän huolella.
Hannu Oja
Akatemiaprofessori
tilastotiede, Tampereen yliopisto
Aiemmin ilmestyneitä blogeja