Digitalisoituminen tarjoaa puhesynteesin kehittäjille uusia sovellusalueita

11.8.2015

Tietotekniikan uudet sovellukset, laajojen digitaalisten aineistojen käyttö ja monikielisen viestinnän kasvu ovat nostaneet puhesynteesin tutkimuksen ja puhekäyttöliittymien kehittämisen kansainvälisen kiinnostuksen kohteeksi. Tutkimusaiheen parissa työskentelevät tällä hetkellä niin akateeminen tiedeyhteisö kuin tietotekniikka-alan isot yrityksetkin eri puolilla maailmaa. Yksi alan eturivin tutkimusryhmiä toimii Suomessa johtajanaan akatemiaprofessori Paavo Alku.

”Digitaalisessa muodossa olevaa aineistoa on käytössä entistä enemmän. Myös tilanteet, joissa tarvitaan ääntä informaation esille tuomiseen, ovat lisääntyneet. ICT-alalla puhesynteesi on tällä hetkellä erittäin kuuma aihe, vakavasti otettava teollisesti kiinnostava sovellusala”, Paavo Alku sanoo. Sovellusalueita ovat esimerkiksi puheesta puheeseen kääntävä teknologia, matkapuhelinviestintä, peliteollisuus sekä viestinnän apuvälineet.

Tutkijoiden tavoitteena on saada aikaan puhesynteesi,  joka tuottaisi ääntä tilannekohtaisesti ja ottaisi huomioon myös informaation sisällön. Koneen pitäisi siis pystyä tulkitsemaan tilanteita ja sopeutumaan niihin niin, että äänen tuottaminen vastaisi mahdollisimman hyvin vastaanottajan odotuksia ja käyttötilannetta.

”Järjestelmän pitäisi esimerkiksi pystyä valitsemaan tilannekohtaisesti se, missä muodossa ääntä käytetään. Toisin sanoen mukautua käyttötilanteeseen ympäristön mukaan, esimerkiksi meluisaan ympäristöön tai käyttäjän kotisohvalle”, Alku kuvailee. Uuden sukupolven puhesynteesi ottaa huomioon myös informaation sisällön ja ilmaisee äänellä esimerkiksi siihen liittyviä tunteita.

 ”Lähtökohtana on pohtia, miten ihminen haluaisi keskustella koneen kanssa. Monet aikaisemmat puhesynteesimallit tyssäsivät siihen, että ääntä hyödynnettiin paikoissa ja tilanteissa, joissa ihmiset eivät sitä kaivanneet ja joissa se vaikutti teennäiseltä. Lisäksi jos tietokoneen puheen tuotto on kovin konemaista, ihminen ärsyyntyy siihen hyvin nopeasti.”

Paavo Alku korostaa, että puhetyyli on puhesynteesin kehittämisessä olennainen asia: puheen pitäisi olla käyttäjän kannalta houkutteleva. Tavoitteena on mahdollisimman luonnollisen puhesynteesin aikaan saaminen niin, että sillä voidaan tavoittaa aidosti eri-ikäisten tai eri sukupuolta olevien henkilöiden puhe. Tämä on keskeistä erityisesti silloin, kun puhesynteesiä hyödynnetään apuvälineteknologiassa esimerkiksi vammautuneilla tai sairauden takia puheentuottoon apua tarvitsevilla henkilöillä. ”On tärkeää, että näissä tapauksissa on käytettävissä myös naisen ja lapsen ääniä, jotta esimerkiksi pienen tytön ei tarvitse puhua aikuisen miehen äänellä.”

 

Puhesignaalin nerokkuus

Vaikka kiinnostus puhesynteesin tutkimukseen on viime vuosina vauhdilla lisääntynyt, ei Paavo Alkun kiinnostus aiheeseen ole vastikään syntynyt. Hän on tehnyt puheeseen liittyvää tutkimusta itse asiassa jo diplomityöstään alkaen. Kiinnostus puheeseen, erityisesti ihmisen puheentuottomekanismiin ja sitä mallintavaan tekniikkaan, vei signaalinkäsittelyn opiskelijan mukanaan.

”Siinä yhdistyy kaksi asiaa. Ensinnäkin se, että ihmisten välinen kommunikaatio perustuu puhesignaaliin. Toiseksi kyseessä on diskreetti, yksiulotteinen signaali, johon päästään signaalinkäsittelyn menetelmin käsiksi. Puhesignaali on helppo äänittää, mutta kyseessä on tavattoman monimutkainen ja moniulotteinen signaali. Se on vain meille niin arkipäiväinen asia, että emme tajua sen nerokkuutta”, Paavo Alku sanoo.

Puhe eroaa myös kirjoitetusta kielestä. Sama informaatio puheena sisältää paljon enemmän kuin kirjoitettuna. Se, miten puhuja asioita painottaa, minkälaisessa mielentilassa tai tunnetilassa hän asian esittää tai minkälaisia paralingvistisiä piirteitä kuten väsymystä puhetilanteeseen liittyy, vaikuttaa informaation sisältöön ja siihen, miten vastaanottaja sen kokee ja informaatioon reagoi.

”Kyseessä on selkeä perustutkimuskysymys, jossa tosin on mukana koukuttavia sovellusalueita ja -mahdollisuuksia. Me emme kuitenkaan halua rajata tutkimusta minkään yksittäisen applikaation kehittämiseen.”

Alkun tutkimusryhmän tutkimus Aalto-yliopiston Signaalinkäsittelyn ja akustiikan laitoksella onkin kohdistunut useaan tutkimuskohteeseen. Näistä tärkeimmät ovat puheen tuoton analyysi ja parametrointi, tilastollinen puhesynteesi, puheen laadun ja ymmärrettävyyden parantaminen matkapuhelinvastaanottimessa, kohinarobusti puheen piirreirrotus, puheäänen työperäisten muutosten analyysi sekä puheen havaitsemisen aivovastemittaukset.

”Puhekommunikaatiotekniikan tutkimusryhmän työ on aina ollut vahvasti poikkitieteellistä. Teemme yhteistyötä fonetiikan, aivotutkimuksen, äänihäiriöitä tutkivien lääketieteen tutkijoiden eli foniatrien sekä matemaatikkojen kanssa.” Keskeisiksi yhteistyökumppaneiksi Alku mainitsee professori Martti Vainion Helsingin yliopiston puhetieteiden laitokselta ja puheteknologiaa tutkivan professori Simon Kingin Edinburghin yliopistosta sekä tutkijat Tuomo Raition Aalto-yliopistosta ja Antti Sunin Helsingin yliopistosta.  

 

Digitaaliseen signaalinkäsittelyyn perustuvalla inversiolla malli äänentuotosta

”Tutkimuksessamme olennaista on se, että yritämme signaalinkäsittelyn matematiikan avulla mennä äänen alkulähteille. Lähdemme liikkeelle mikrofonisignaalista, joka on yksinkertaisesti äänitettävissä edullisella laitteistolla. Matemaattisesti laskemalla selvitämme, miten mikrofoniin taltioitu signaali on alun perin tuotettu ihmisen kurkunpäässä. Ihmisen tuottama puhe on kaikissa maailman kielissä valtaosaltaan ns. soinnillista, jolloin puheäänteiden alkulähde on äänihuulissa muodostuva virtaussignaali , niin sanottu glottis-heräte.”

Muihin nisäkkäisiin verrattuna ihminen on oppinut säätämään äänentuottomekanismin akustisia ominaisuuksia erittäin tarkasti.  Tämä koskee erityisesti niin sanottua ääntöväylää eli sitä osaa ihmisen puheentuottomekanismista, joka suodattaa äänihuulissa tuotettua herätesignaalia ennen kuin puheeksi ymmärtämämme signaali syntyy suuaukon ulkopuolelle mikrofoniin. Ääntöväylän akustiikkaa ihminen säätää muuttamalla varsinkin kielen ja huulten asentoa. Tämän seurauksena ääntöväylän resonanssitaajuudet siirtyvät eri taajuuksille, minkä kuulija aistiin esimerkiksi siinä, onko tuotettu ääni vokaali /a/ vaiko /i/.

”Signaalinkäsittelyn ja matematiikan maailmassa voimme luoda inversiotekniikalla äänentuottojärjestelmästä mallin, jolla pääsemme mikrofonisignaalista johtaen äänihuulitasolle. Tämä on näppärää, koska näin meidän ei tarvitse yrittää tehdä mittauksia fysiologisesti”, Paavo Alku kuvailee.

Signaalinkäsittelyn avulla laskettua äänen herätesignaalia voidaan haluttaessa muokata. Muokkaamalla tämän lähes jaksollisen signaalin pulssin kestoa tai sen spektraalista rakennetta saadaan aikaan muun muassa erilaisia ääntämistyylejä. ”Haluamme hyödyntää todellisissa puhetilanteissa syntyvää signaalia, jotta puhesynteesissä koneen tuottama ääni saadaan kuulostamaan ihmisen ääneltä.”

 

Järjestelmän opittava äänen käyttäytyminen

Puhesynteesin tutkimuksessa on kahta erilaista tekniikkaa hyödyntävää koulukuntaa. Toinen tekniikka perustuu aidon puheäänen pilkkomiseen ensiksi pieniin osiin. Näiden osien tuottama suuri datamäärä tallennetaan tietokoneen muistiin, josta osat voidaan sitten jälleen yhdistää puheen syntetisoimiseksi. Tekniikalla saadaan aikaan hyvälaatuista puheääntä, mutta toisaalta synteesi kuulostaa aina siltä henkilöltä, jolta puhe on alun perin äänitetty. Myöskään variaatiota ilmaisuun ei tällä tekniikalla saada aikaan. ”Syntyy niin sanottu uutistenlukija-efekti.”

Alkun tutkimusryhmä edustaa toista koulukuntaa, tilastollisen puhesynteesin tekniikkaa. Siinä ääntä ei hyödynnetä mikrofonin tuottamana aaltomuotona, vaan se hajotetaan ensin pieniin paloihin. Palojen käyttäytyminen kuvataan tilastollisella menetelmällä, tässä tapauksessa käytössä ovat Markovin piilomallit.

”Markovin piilomallit ovat yksinkertaisia tilakoneita eli automaatteja, joita opetetaan aidolla puhedatalla. Automaatti oppii datan ajallisen käyttäytymisen ja kuvaa sen. Markovin piilomallissa on tiettyjä siirtymiä tilasta toiseen, ja jokainen siirtymä vastaa parametrien generointia. Oleellista puhesynteesissä on se, että mallit opetetaan puhedatalla huomioiden luonnollisen puheen sisältävien äänteiden kontekstuaalisen vaihtelun niin, että esimerkiksi lauseen alussa oleva painollinen /a/-vokaali erotetaan saman lauseen lopussa tulevasta painottomasta /e/-vokaalista”, Paavo Alku kertoo.

Tilastollisen puhesynteesin menetelmän etuna on, että sillä saadaan aikaan järjestelmä, jota voidaan helposti mukauttaa esimerkiksi puhujasta toiseen. Toisaalta menetelmä vaatii aina opetusdataa, ja sen asianmukaista käsittelyä, jotta mallit voivat oppia datan oleellisemmat piirteet.

”Meidän työssämme ainutlaatuinen piirre on siinä, että puhe hajotetaan opetusvaiheessa fysiologisilla puheentuottomalleilla ja jäljitetään inversiotekniikan avulla se, miten puhe on tuotettu todellisen ihmisen puheentuottojärjestelmässä. Ääni hajotetaan inversiolla sen oleellisimmiksi parametreiksi, joita sitten käytetään tilastollisten mallien opettamiseen. Ideana on, että saamme tilastollisen järjestelmän oppimaan toivottavasti mahdollisimman hyvin sen, miten aito ihmisen ääni käyttäytyy.”

”Luomme malleista yksinkertaisia automaatteja, joita harjoitetaan aina tietystä datasta. Automaatti oppii datan ajallisen käyttäytymisen ja kuvaa sen. Näissä on tiettyjä siirtymiä tilasta toiseen ja silloin saadaan aikaan parametrejä. Oleellista tässä menetelmässä on se, että dataa harjoitetaan ja siitä kerätään tietokanta, joka kielellisesti merkataan niin, että esimerkiksi a-vokaalit erotetaan e-vokaaleista tai erilaisista a-vokaaleista.”

Tilastollisen puhesynteesin menetelmän etuna on, että sillä saadaan aikaan erittäin hienojakoinen järjestelmä. Toisaalta sen aikaan saamiseen vaaditaan hyvin paljon dataa, jota on myös harjoitettava.

Paavo Alkun ryhmän työ on saanut yhteistyötahojensa kanssa kansainvälisestikin paljon huomiota, ja ryhmän puhesynteesijärjestelmät ovat menestyneet upeasti kansainvälisissä kilpailuissa – ääni on onnistuttu saamaan kuulostamaan hyvin aidolta. ”Aika hyvää synteesiä onnistutaan jo tuottamaan miehen äänellä. Naisen ja lapsen äänen analyysi sen sijaan on haasteellisempaa. Yksi tärkeä syy tähän on se, että näiden henkilöryhmien äänihuulten värähtely on nopeampaa ja niistä tulee nopeasti vaihtelevaa signaalia. Tämä tuottaa inversiotekniikalle ongelmia hajottaa ääni oikein, minkä seurauksena opetettavien tilastollisten mallien käyttäytyminen heikkenee.”

”Toinen iso asia tämän hetken tutkimuksessa on se, että Markovin piilomallin käyttö on jäämässä syrjään, ja tilalle on tulossa uusi menetelmä, niin sanottu deep learning -tekniikka. Kyseessä on hermoverkko, joka muodostuu useista kerroksista ja jolla saadaan aikaan hyvin monipuolisia epälineaarisia kuvauksia esimerkiksi puheen lingvististen ja akustisten piirteiden välille.”

 

Teksti: Riitta Tirronen
Kuvat: Olli Häkämies

 

Viimeksi muokattu 19.8.2015
Seuraa meitä:
FacebookSlideshareTwitterYoutube
VAIHDE 029 533 5000
KIRJAAMO 029 533 5049
FAKSI 029 533 5299
   
SÄHKÖPOSTI etunimi.sukunimi@aka.fi
AUKIOLO Arkisin 8.00-16.15
   
HENKILÖHAKU »
YHTEYSTIEDOT, LASKUTUS  JA
REKISTERISELOSTEET»
KYSYMYKSET JA PALAUTE »