Googleägda DeepMinds senaste AI lärde sig rekordsnabbt att bli bäst på både schack, Go och shogi. Detta enbart genom att spela mot sig själv.
2017 har varit lite av ett genombrottsår för artificiell intelligens (AI). Från att ha varit något science fiction-aktigt som forskare höll på med i slutna rum läser man numera nästan dagligen om AI och det har blivit ett begrepp som gemene man börjat ta i sin mun. Det kan handla om allt från sjukhus och banker till att ta fram nya ölsorter med hjälp av AI, som Carlsberg nyligen investerat forskningsmiljoner i. Den heliga graalen för AI-forskarna är att ta fram en artificiell generell intelligens (AGI) som inte är specialiserad på en enda uppgift utan kan lära sig vad som helst, precis som vi människor.
En bit på vägen till en AGI har nu Googles dotterbolag DeepMind kommit i och med sin senaste skapelse AlphaZero, ej att förväxla med AlphaGo Zero. Som ni kanske minns är AlphaGo den första AI:n som lyckades slå den mänskliga världsmästaren i det asiatiska brädspelet Go, vilket var ett stort genombrott. Därefter vidareutvecklade DeepMind sin AI till AlphaGo Zero som helt på egen hand, det vill säga utan data från mänskliga spelomgångar, lärde sig spela Go och även besegra sin föregångare AlphaGo efter endast tre dagars träning mot sig själv.
DeepMinds senaste skapelse AlphaZero skiljer sig dock från nyss nämnda då det är en mer generell AI. Precis som AlphaGo Zero lär sig AlphaZero spelet Go enbart genom att spela mot sig själv med endast spelreglerna som input. Efter blott åtta timmar hade AlphaZero lyckats besegra AlphaGo Zero i Go. DeepMind nöjde sig dock inte med detta utan lärde även AlphaZero att spela schack, vilket ledde till att den på endast fyra timmar hade besegrat världens bästa schack-AI, Stockfish. Som grädde på moset lärde man den även att spela den japanska schackvarianten shogi, vilket bara tog två timmar att bli bäst på.
Grejen med AlphaZero är att den inte hade programmerats specifikt för att lära sig spela dessa spel utan bara matades med spelreglerna. Därefter listade den själv ut de bästa strategierna för att vinna genom att spela om och om igen mot sig själv via så kallad reinforcement learning.
Det är fortfarande en lång väg kvar till en riktig generell AI som kan lära sig lika många olika områden som den mänskliga hjärnan, men detta är ett viktigt steg på vägen inom AI-forskningen.