12.2.2018

Puhe voi olla uusi allekirjoitus – mutta vielä huijaaminen on liian helppoa

Tutkijat eri puolilla maailmaa yrittävät kehittää algoritmeja, joilla automaattinen puhujantunnistus saadaan pomminvarmaksi. Apulaisprofessori Tomi Kinnunen Itä-Suomen yliopistosta on heistä.

Kinnunen on työskennellyt puhujantunnistusteknologian parissa gradustaan lähtien vuodesta 1999, ja vuonna 2005 hän väitteli aiheesta. Hän on jo pitkään keskittynyt tutkimusryhmänsä kanssa uhkien tunnistamiseen ja turvallisuuden parantamiseen.

"Parhaillaan  on meneillään kilpajuoksu, jossa ovat vastakkain tutkijat ja kaupallisia sovelluksia kehittävät toimijat. Automaattista puhujan tunnistamista käytetään yhä enemmän henkilön tunnistamiseen sähköisissä palveluissa. Samaan aikaan puheen kloonaus ja puhesynteesi ovat nopeasti kasvavia teollisuuden haaroja. Tästä aiheutuu isoja turvallisuusuhkia", Kinnunen sanoo.

Biometriset huijaushyökkäykset vaarana

Puheen kloonauksella tarkoitetaan äänikonversioteknologisia menetelmiä, joilla puhujan ääni muutetaan jonkun toisen henkilön ääneksi. Puhesynteesi on koneellista puheen tuottamista annetusta tekstistä. Muiden ääntä on lisäksi helppo nauhoittaa tavallisella älypuhelimella, myös rikollisiin tarkoituksiin. Perinteisin tapa on imitoida toisten puhetta.

Muun muassa näiden teemojen parissa Kinnunen tutkimusryhmineen erityisesti painii.

Syksyllä Kinnusen ohjauksessa väitellyt Rosa González Hautamäki osoitti, että imitaattori kykenee huijaamaan paitsi ihmiskorvia, toisinaan myös nykyisiä automaattisia puhujantunnistusjärjestelmiä.

"Kehitämme myös työkaluja. Nyt työstämme algoritmia, jonka avulla voitaisiin varmasti todeta, milloin puhuja on oikea ihminen livetilanteessa ja milloin kyseessä on tietokoneen tuottama ääni tai ennakolta tehty tallennus", Kinnunen kertoo.

Tätä tarvitaan varsinkin estämään biometrisiä huijaushyökkäyksiä (biometric spoofing attacks), joissa käytetään nauhoitettua ääntä tai puhesynteesiä puhujantunnistuksen huijaamiseen verkkopalveluissa.

"Vaarana on, että hyökkäykset yleistyvät äänikäskyillä toimivien sovellusten yleistyessä. Väärennösten varma tunnistaminen mullistaisi myös rikostutkintaa ja rikosteknistä ääniprofilointia."

Kuva: Rosa González Hautamäki väitteli syksyllä siitä, että imitaattori pystyy huijaamaan nykyisiä puhujantunnistussovelluksia. Jatko-opiskelijat Trung Ngo Trong (vas.), Anssi Kanervisto ja Ville Vestman kuuluvat myös Kinnusen tutkimusryhmään.

Pilvipalvelut avuksi

Puhujantunnistuksessa houkuttelee vaivattomuus. Kinnunen oli mukana EU-rahoitteisessa Octave-hankkeessa, missä tutkijat miettivät yritysten kanssa, millaisia sovelluksista kannattaisi kehittää.

"Päädyimme siihen, että autentikoinnin eli käyttäjän identiteetin varmennuksen tulisi tapahtua pilvipalvelussa. Pilveä voisivat hyödyntää monenlaiset sovellukset ja turvallisuutta olisi helpointa valvoa."

Tunnistuksen varmuus ja tarkkuus riippuu aina siitä, millaisesta puhemateriaalista puhujaa yritetään tunnistaa ja miten paljon koulutusmateriaalia on saatavilla puhujamallin muodostamiseksi. Tuntemattomia tunnistettaessa kone yleensä jo päihittää ihmisen.

Kinnusen mukaan puhujantunnistus on hyvä lisäturva salasanojen, pankkitunnusten, kasvotunnistuksen tai sormenjälkitunnistuksen rinnalle jo nyt. Mutta vain rinnalle.

Palvelujen osalta Kinnunen olisi varovaisin fyysisessä kulunvalvonnassa.

"Ovi, joka avautuu pelkällä puheella, on altis huijauksille eikä sen toimintavarmuutta voida taata."

Tulevaisuudessa puhe voi helposti korvata sähköisen allekirjoituksen.

"Aivan sataprosenttiseen tunnistusvarmuuteen ei päästä välttämättä koskaan, mutta mikään muukaan autentikointiteknologia ei ole täysin aukotonta."

Yhteistyöllä ratkaisut löytyvät

Suurin haaste on puheen monimutkaisuus. Puhe on yksilöllinen biometrinen tunniste, mutta myös ympäristöönsä sidottu performanssi.

"Jokainen lausuttu sana on esitys, ja ihmisen ääni on eri tilanteissa erilainen, matalampi, korkeampi, flunssainen, väsynyt, ehkä tahallaan muutettu."

"Mikrofonien ja muun tekniikan sekä taustamelun tuottamat häiriöt, jopa tuulensuhina, ovat yhä iso ongelma. Samoin kamppaillaan sen kanssa, että kone ei aina tunnista henkilöä samaksi, jos hän käyttää eri mikrofonia kuin alun perin", jatkaa Kinnunen.

Ilman kansainvälisen tutkijayhteisön tiivistä yhteistyötä ja avointa työskentelytapaa eteneminen olisi mahdotonta. Joensuulaisen Kinnusen verkostot ulottuvat Edinburghista Aalborgiin ja Tokiosta Singaporeen. Hän kertoo, että tutkimus on hyötynyt myös tietokoneiden laskutehon moninkertaistumisesta. Se tarvitsee edistyäkseen valtavia datamassoja, tuhansia ja taas tuhansia tunteja nauhoitettua puhetta.

"Keruu on kallista.  Esimerkiksi Yhdysvaltojen mittausstandardien yksikkö NIST (National Institute of Standards and Technology) kuitenkin jakaa tutkijoiden vapaasti käytettäväksi puhemateriaalia noin joka toinen vuosi. Vastapalvelukseksi se saa analysoitua dataa ja uusia algoritmeja."

Kuva: Tällä laskentakaavalla puhujaa ryhdytään yksilöimään puhunnoksesta eli puheen pätkästä.

Tarkkuutta tulee pikku hiljaa

Tutkimusmenetelmät liittyvät tilastoanalyysiin, koneoppimiseen, biometriikkaan, keinotekoisiin hermoverkkomalleihin, algoritmien kirjoittamiseen, ohjelmointiin ja digitaaliseen signaalinkäsittelyyn, kertoo tietojenkäsittelytieteen apulaisprofessori Kinnunen.

2010-luvun alussa hän toimi Suomen Akatemian tutkijatohtorina. Nykyinen Akatemian rahoitus ulottuu vuoteen 2021.

"Ensin luodaan empiirinen viitekehys ja hypoteesi, jolla ongelma voisi olla ratkaistavissa. Sitten hypoteesia lähdetään testaamaan ja tarpeen vaatiessa muuttamaan datan avulla."

Käytännön työ etenee niin, että puhesignaali pilkotaan lyhyiksi palasiksi, joista lasketaan akustisia parametreja. Näin muodostuu tietomassa, josta tutkija opettaa tietokonetta laskemaan puhujaa yksilöiviä parametreja.

"Koneoppimisen avulla muodostetaan yhdestä puhunnoksesta sen alkuperäisestä pituudesta riippumatta noin 800 numeroarvoa sisältävä esitysmuoto, jota sitten käytetään puhujan yksilöintiin."

Aina kun on onnistuttu luomaan uusi oppimisalgoritmi, näytetään lopuksi riittävän suurella validiointimateriaalilla tiedeyhteisölle, että se todella päihittää kilpailevat algoritmit.

"Näin parannetaan pikku hiljaa tunnistamisen tarkkuutta ja tehokkuutta."

Teksti: Ulla Willberg

Kuvat: Tuija Hyttinen, Sami Sieranoja

Viimeksi muokattu 19.4.2018

Tietysti.fi on Suomen Akatemian sivusto, joka kertoo yleistajuisesti Akatemian rahoittamasta tutkimuksesta sekä tieteestä ja tutkimuksesta yleensä. Sivuille kootaan muun muassa tutkijahaastatteluita, tieteen yleisötapahtumia, tiedeuutisia ja tutkimuksesta kertovia taustajuttuja.

Seuraa meitä:

Ota yhteyttä

Suomen Akatemian viestintä
terhi.loukiainen@aka.fi

Lisätietoja Suomen Akatemiasta www.aka.fi