OpenAI visar upp Sora – som DALL-E fast för video

Stillbild från en fiktiv drönarfilm som genererats med Sora. Foto: OpenAI

Skriv en kort textbeskrivning och få sedan en i princip fotorealistisk AI-genererad video på upp till en minut, med nya AI-modellen Sora från OpenAI.

OpenAI:s nya AI-modell Sora har blivit en stor snackis i veckan. Sora bygger på en vidareutveckling av tekniken bakom DALL-E 3, som genererar verklighetstrogna bilder utifrån en textprompt. Sora klarar dock av att generera upp till 60 sekunder långa och högupplösta videoklipp, istället för bara stillbilder.

Tekniken i sig är inte ny men Sora är den första AI-modellen som lyckats få AI-genererade videoklipp att se i princip realistiska ut och dessutom upp till en minut långa. Det är en utmaning i sig att generera realistiska bilder med AI-modeller som DALL-E, men en betydligt större utmaning att generera videoklipp av samma kvalitet. Inte bara måste varje enskild bildruta se bra ut, de måste även hänga ihop på ett sätt som ser naturligt ut i rörelse (så kallad tidsmässig koherens). Detta lyckas Sora mycket övertygande med i de flesta fall.

För att kunna generera såpass realistiska videor behöver AI-modellen ha en förståelse för hur saker och ting fungerar i den fysiska världen. Man kan dock fortfarande se vissa märkliga saker ibland i de AI-genererade videoklippen. Till exempel har Sora vissa problem med att förstå specifika fall av orsak och verkan. Det kan handla om en video där en person äter något men där maten fortfarande ser likadan ut, trots att en tugga tagits av den. Andra problem i dagsläget är att Sora kan blanda ihop höger och vänster.

Det är svårt att med text beskriva hur realistiska videoklippen som genereras med Sora blir, så i videon nedan kan ni själva se några exempel. OpenAI poängterar att dessa videor är helt oredigerade och kommer direkt från Sora.

Sora kan dock inte bara skapa videor från grunden utan även skapa en video utifrån en stillbild, eller förlänga en redan existerande video. OpenAI har även lyckats lösa ett utmanande problem genom att Sora vet vad som ska komma flera bildrutor fram, snarare än att videon genereras en bildruta åt gången. Det gör att motivet hålls intakt, även om det tillfälligt försvinner i videon.

I dagsläget har dock endast ett fåtal utvalda tillgång till Sora, för att säkerställa att tekniken inte ska kunna missbrukas med mera. När Sora rullas ut publikt kommer det dock bli mycket intressant att se vad folk kommer skapa för AI-videor.

”Sora fungerar som en grund för modeller som kan förstå och simulera den verkliga världen, en förmåga som vi tror kommer att vara en viktig milstolpe för att uppnå AGI”, skriver OpenAI på sin webbsida. Där går det även att se och ladda ner varje enskilt klipp.