Hör Googles nya talsyntes Tacotron 2 – kan du skilja den från mänsklig röst?

Grafik: Google

Snart är robotaktiga talsynteser som betonar orden fel ett minne blott. Googles senaste AI-drivna talsyntes låter väldigt naturtroget.

Robotnyheter har tidigare skrivit om WaveNet från DeepMind som numera används för talsyntesen i Google Assistant. WaveNet genererar syntetiskt men ändå naturtroget tal från grunden, istället för att som tidigare talsynteser klippa och klistra ihop meningar utifrån korta samplingar inlästa av röstskådespelare. Googles senaste text-till-tal-motor heter Tacotron 2 och bygger vidare på deras tidigare talsyntes Tacotron i kombination med WaveNet. De drivs båda av djupa neurala nätverk (DNN), en form av artificiell intelligens kort och gott.

Det första nätverket översätter texten till ett spektrogram, det vill säga en grafisk representation av ljudfrekvenserna. Det andra nätverket är WaveNet som tolkar spektrogrammet och genererar motsvarande ljud, alltså själva talsyntesrösten. Slutresultatet är en talsyntes som kan skapa konstgjort tal som låter kusligt likt en riktig människas. Systemet har inte matats med någon specifik data om lingvistik eller akustisk utan enbart lärt sig skapa naturtroget tal utifrån text genom att tränas upp på inspelat mänskligt tal med tillhörande transkriberingar.

Till skillnad från tidigare ganska kackiga talsynteser kan Tacotron 2 bland annat ta hänsyn till skiljetecken och skilja på betoningen i dubbeltydiga ord som ”present” och ”desert”. Ord som har skrivits med VERSALER eller kursiv stil betonas också annorlunda. Riktiga tungvrickare som ”Peter Piper picked a peck of pickled peppers. How many pickled peppers did Peter Piper pick?” är inte heller någon match för Tacotron 2. Google har lagt upp en rad ljudexempel som går att lyssna på här. Längst ner på sidan finns även exempelmeningar i två varianter – den ena genererad av Tacotron 2 och den andra inläst av en riktig människa. Kan du höra vilken som är vilken?

Det finns dock fortfarande en del problem som måste lösas innan Tacotron 2 eventuellt kan leta sig ut i konsumentprodukter som Google Assistant. Bland annat kan systemet ha problem med att utala komplexa ord som ”decorum” och ”merlot” och i extremfall även generera konstiga ljud helt slumpmässigt, skriver Google på sin forskningsblogg. Andra problem som måste lösas är att Tacotron 2 i dagsläget inte klarar av att generera ljud i realtid samt att det inte går att styra om rösten ska låta till exempel glad eller ledsen. Talsyntesen finns i dagsläget också endast som en enda kvinnlig röst.