OpenAI har nu visat upp sin nya generativa AI DALL-E 3 som kommer lanseras nästa månad. Utöver mer detaljerade bilder ska man nu kunna generera text i bilder.
Det handlar om uppföljaren till DALL-E 2, OpenAI:s AI för bildgenerering som sedan länge blivit omsprungen av konkurrenter som Midjourney och Stable Diffusion. DALL-E 3 ska enligt OpenAI vara betydligt bättre på att förstå nyanser och detaljer än sin föregångare. Dessutom har DALL-E 3 integrerats i ChatGPT, som hjälper till med att skapa prompter samt förbättra dessa om resultatet inte riktigt blev som önskat.
Av exempelbilderna från DALL-E 3 som OpenAI visar upp syns en tydlig förbättring i bildkvalitet jämfört med DALL-E 2. En annan viktig nyhet är att DALL-E 3, till skillnad från sin föregångare, klarar av att generera text i bilder. Den som försökt sig på detta i DALL-E 2 vet att resultatet sällan blir som önskat och även konkurrenterna har fortfarande problem på detta område.
OpenAI har även jobbat mycket med att begränsa DALL-E 3. Till exempel kommer man inte kunna generera bilder av kända personer eller vad OpenAI anser vara olämpliga bilder, vilket även har gällt DALL-E 2 till stor del. En nyhet för DALL-E 3 är dock att AI:n inte kommer kunna generera bilder som imiterar stilen från levande konstnärer. Dessa kan också välja att exkludera sina bilder från träningsdatan för OpenAI:s framtida bildgenereringsmodeller.
För tillfället befinner sig DALL-E 3 i research preview-stadiet men kommer lanseras som en del av ChatGPT Plus och Enterprise i början av oktober, samt via API:et i Open AI Labs senare under hösten.
Slutligen berättar OpenAI att de även jobbar på ett verktyg som ska kunna identifiera bilder som skapats med DALL-E 3. Här nedan kan några exempelbilder från DALL-E 3 ses. Ännu fler finns hos OpenAI.