0 kommenttia
0 pidän 0 en pidä

Todennäköisyyden tulkinnasta

Tilastotieteilijä on ihminen, joka havainnoi ja hahmottaa maailmaansa todennäköisyysmallien avulla. Kun esimerkiksi biostatistikko selvittää tupakoinnin vaikutusta keuhkosyövän vaaraan, hän  rakentaa  yksilötason todennäköisyysmallin, jossa vaara (todennäköisyys)  sairastua keuhkosyöpään riippuu yksilön taustasta (tupakointi ja muut samanaikaiset selittävät tekijät). Selittävien tekijöiden vaikutusta kuvaavien parametrien avulla voidaan yksilötasolla arvioida kunkin yksittäisen tekijän vaikutusta. 

Tietämyksen lisääntyessä voidaan ehkä joskus täydellisesti selittää se biologinen prosessi, joka yksilön kohdalla aiheutti keuhkosyövän, mutta sitä odotellessa biostatistikko  selittää ilmiötä  todennäköisyysmallin avulla: Jokaisen yksilön kohdalla ajatellaan heitettävän  kolikkoa, jossa kruunun (sairastuu) ja klaavan (ei sairastu)  todennäköisyydet riippuvat yksilön  ominaisuuksista. Olipa  maailma deterministinen tai stokastinen,  se siis näyttäytyy meille  stokastisena.

Frekventistisen tulkinnan mukaan todennäköisyyden käsite voidaan liittää vain toistokokeeseen. Toistokoe ("rahanheitto")  on koe joka voidaan toistaa samoissa  olosuhteissa ("sama kolikko") mielivaltaisen  monta kertaa. Toistokokeeseen liittyvän tapahtuman ("saadaan kruunu") todennäköisyys kertoo miten usein tapahtuma keskimäärin sattuu koetta toistettaessa. Ihmisten, joilla on samankaltainen tausta ("sama raha"), ajatellaan silloin muodostavan  joukon saman toistokokeen realisaatioita, ja sairastumisvaaran riippuvuus yksilön taustasta  voidaan empiirisesti selvittää.

Tutkimusaineiston hankinnan yhteydessä usein syntyy "itseaiheutettua satunnaisuutta", tutkimuspopulaatiosta valitaan tutkimusta varten  satunnaisesti osajoukko tiettyä otantastrategiaa käyttäen, kliinisessä kokeessa  eri käsittelyt arvotaan tutkimuspotilaille,  jne. Itseaiheutettu satunnaisuus ja siihen liittyvä todennäköisyys voidaan myös tulkita frekventistiseksi, mutta tämä todennäköisyys on laadullisesti erilaista kuin ensinkuvattu, biologiseen prosessiin liittyvä todennäköisyys. (Edellisessä tapauksessa toistokoe on kuviteltu, jälkimmäisessä toistokoe on itse toteutettu.)  

Bayesläisen koulukunnan työkaluna on subjektiivinen todennäköisyyden käsite. Liberaaleimman käsityksen mukaan  todennäköisyyden voi tällöin liittää mihin tahansa tapahtumaan. Yksilön (subjektin) määrittämä todennäköisyys tapahtumalle kertoo siitä, miten varmaksi henkilö arvioi tapahtuman sattumisen. Tämä on selvästi eri käsite kuin edellä mainitut frekventistiset tulkintaan liittyvät käsitteet.

Esimerkkitapauksessamme bayesläisen ja frekventistisen koulukunnan työskentelytapojen ero näkyy siinä, että molemmat voivat ehkä hyväksyä saman (frekventistisen) todennäköisyysmallin keuhkosyövän vaaralle  samoine tuntemattomine parametreineen. Bayesläinen tilastotieteilijä haluaa lisäksi hyödyntää aikaisemman kokemuksensa ja tietämyksensä tuntemattomista parametrien arvoista prioritodennäköisyysjakauman muodossa. Frekventistisen koulukunnan tilastotieteilijä raportoi analyysinsä tulokset testien, estimaattien, ja luottamusvälien avulla ("Mitä tämä koe kertoi?"),  kun puolestaan subjektiivinen bayeslainen raportoi parametreihin liittyvät posteriorijakaumansa ("Mitä tiedän tämän kokeen jälkeen?"). Subjektiivinen ja frekventistinen todennäköisyys ovat laadullisesti niin erilaisia käsitteitä, että niiden kombinoiminen bayeslaiseen tapaan on vierasta frekventistiselle ajattelulle.

Tilastollisten menetelmien soveltajilla on usein hyvin rajoittunut näkemys siitä, miten analyysin tuloksia ja todennäköisyyttä  heidän aineistonsa analyysissä käytännössä tulkitaan. Todennäköisyyden käsitteen  ymmärtäminen on tulkinnan kannalta äärimmäisen tärkeää.  Tutkijakoulutuksessa  tulisi  huolehtia siitä, että tutkija päätelmiä tehdessään ymmärtää,  millaista työkalua (todennäköisyyden käsite) hän on käyttämässä. On myös tärkeää, että tilastotieteilijöiden koulutuksessa eri lähestymistavat eroineen käydään läpi ja selvitetään riittävän huolella.

Hannu Oja
Akatemiaprofessori
tilastotiede, Tampereen yliopisto

Aiemmin ilmestyneitä blogeja

Viimeksi muokattu 4.11.2009

"Tilastollisten menetelmien soveltajilla on usein hyvin rajoittunut näkemys siitä, miten analyysin tuloksia ja todennäköisyyttä  heidän aineistonsa analyysissä käytännössä tulkitaan", sanoo Hannu Oja.