Genom att matas med en MIDI-fil och sångtexten till en låt kan en AI utvecklad i Spanien sjunga på ett naturtroget sätt med sin talsyntesröst.
Ett par forskare vid Universitat Pompeu Fabra (UPF) i Barcelona har tagit fram en sjungande AI som låter riktigt naturtrogen. De har använt sig en kombination av DeepMinds WaveNet och en vocoder. En vocoder är en slags synteffekt som läggs på en vanlig röst och användes flitigt av artister under 80-talet. Ett känt exempel är låten ”The Robots” av Kraftwerk där robotrösterna skapades med hjälp av en vocoder.
I detta fall är dock syftet det omvända, nämligen att få en artificell röst att låta så människolikt som möjligt med hjälp av en vocoder. Som input matas AI:n med låtens noter i MIDI-format samt sångtexten och spottar sedan ur sig en syntetisk sjungande röst som i vissa fall låter kusligt realistisk, i synnerhet den japanska sångrösten. På webbsidan i länken nedan kan ni ta del av forskarnas vetenskapliga artikel ”A Neural Parametric Singing Synthesizer” och även lyssna på några exempel av AI-sången både med och utan tillhörande musik.
För att utföra de många krävande beräkningar som behövs för denna typ av AI har de spanska forskarna använt sig av ett Titan X-grafikkort som Nvidia har donerat. Genom att använda sig av en vocoder istället för att generera ljudfilen direkt med WaveNet har de lyckats snabba upp genereringen av den syntetiska sången till 10-15 gånger realtidshastighet.