Under utvecklarkonferensen Google I/O tidigare i veckan demonstrerade Google sitt nya AI-system som helt på egen hand kan ringa upp företag och till exempel boka bord på en restaurang.
Google Duplex, som AI:n heter, bygger på ett RNN (Recurrent Neural Network) och kombinerar naturlig språkigenkänning, djupinlärning och talsyntes (text till tal). I dagsläget är Duplex inriktad på att kunna utföra specifika uppgifter som att boka tider och liknande, snarare än att hålla generella konversationer om allt mellan himmel och jord.
Videoklippet där Duplex ringer upp först en frisersalong för att boka klipptid och därefter en restaurang och bokar bord har gjort vissa chockade över hur fort utvecklingen inom AI har gått. Detta då Duplex talsyntes låter mycket lik en riktig människoröst samtidigt som AI:n även kan föra naturliga konversationer med personen i ändra änden, förstå kontexten och improvisera om det inte går enligt mallen. Talsyntesen, som bygger på bland annat DeepMinds WaveNet och Tacotron, kan även lägga in talspråksljud som ”mhmm”, ”uh” eller pauser för att låta mer som en riktig människa.
Innan Duplex kan ringa till exempel en restaurang för att boka ett bord måste den djuptränas för det specifika området. Detta sker i realtid där en mänsklig instruktör övervakar samtalet medan Duplex ringer. Det hela påminner om hur vi människor lär oss nya arbetsuppgifter där en erfaren anställd står vid sidan om och rycker in vid behov för att säga till om man gör fel eller visa hur man kan utföra vissa moment bättre.
Efter upplärningen klarar Google Duplex av att utföra majoriteten av samtalen helt autonomt, utan mänsklig inblandning. Dock har den ett självövervakningssystem som kan slå larm om uppgiften är för komplex för att lösa på egen hand. Då kan den säga till att den behöver hjälp av en människa.
Redan nu i sommar kommer Google börja rulla ut Duplex för vissa användare som en del av Google Assistant. I praktiken kommer man kunna be Google Assistant boka en tid, varvid den ringer ett samtal helt i bakgrunden och därefter meddelar i mobilen att en tid är bokad samt lägger in bokningen i kalendern.
Potentialen för Googe Duplex är stor. Till exempel skulle teknik som denna på sikt helt kunna ersätta callcenterpersonal så det istället är en AI som hjälper en med bredbandsproblemen nästa gång man ringer supporten. Personer som jobbar med marknadsundersökningar ligger ännu närmare till hands att ersättas då de bara läser upp samma frågor om och om igen ur ett formulär.
Kritiska röster har också höjts för att Googles syntetiska röst låter FÖR mänsklig och att de som ringdes upp i samtalen som spelades upp under Google I/O inte visste att det var en AI de pratade med. Å andra sidan hade de förmodigen försökt anpassa sättet de pratade på om de visste att det var en maskin i andra änden. Fler ljudexempel finns att höra på Googles AI-blogg.