naturtrogen talsyntes | Robotnyheter

Snart är robotaktiga talsynteser som betonar orden fel ett minne blott. Googles senaste AI-drivna talsyntes låter väldigt naturtroget.

Robotnyheter har tidigare skrivit om WaveNet från DeepMind som numera används för talsyntesen i Google Assistant. WaveNet genererar syntetiskt men ändå naturtroget tal från grunden, istället för att som tidigare talsynteser klippa och klistra ihop meningar utifrån korta samplingar inlästa av röstskådespelare. Googles senaste text-till-tal-motor heter Tacotron 2 och bygger vidare på deras tidigare talsyntes Tacotron i kombination med WaveNet. De drivs båda av djupa neurala nätverk (DNN), en form av artificiell intelligens kort och gott. Fortsätt läsa ”Hör Googles nya talsyntes Tacotron 2 – kan du skilja den från mänsklig röst?”

Diagram som på en skala 1-5 visar hur naturtroget WaveNet-talsynteserna låter. Grafik: DeepMind

Med hjälp av artificiell intelligens har Google Assistant nu fått en talsyntes som låter läskigt naturtrogen.

För ett drygt år sedan presenterades WaveNet av Googleägda DeepMind. Det är ett djupt neuralt nätverk (DNN) som från grunden kan skapa mänskligt tal som låter betydligt mer naturtroget än dagens bästa talsynteser. Redan då lät det mycket bra, trots att det handlade om en forskningsprototyp. Den stora beräkningskraft som krävdes gjorde dock att WaveNet inte lämpade sig särskilt bra för att användas i konsumentprodukter såsom smartphones och smarthögtalare som Google Home. De senaste 12 månaderna har dock DeepMinds ingenjörer optimerat WaveNet rejält. Fortsätt läsa ”Google Assistant får naturtrogen talsyntes – med hjälp av AI”