Rekursiv självförbättring före 2029?

Flera AI-kännare bedömer nu att det är hög sannolikhet att AI själv kommer att kunna skapa nästa generations AI. I denna artikel lägger Jack Clark, medgrundare av Anthropic, företaget bakom Claude, fram argument för att det är 60 % chans (risk?) att en AI, utan mänsklig medverkan, bygger sin efterträdare.

AI systems are about to start building themselves.

Clark skriver (AI-översatt): “Jag skriver det här inlägget för att jag, när jag ser till all offentligt tillgänglig information, motvilligt landar i slutsatsen att det är troligt (60 % +) att AI-FoU utan mänsklig inblandning, ett AI-system kraftfullt nog att rimligen kunna bygga sin egen efterträdare på egen hand, är ett faktum före utgången av 2028. Det är en omvälvande tanke. Jag vet inte riktigt hur jag ska förhålla mig till den. Det är en motvillig slutsats, eftersom följderna är så stora att jag känner mig liten inför dem, och jag är inte säker på att samhället är redo.”

Hans argument:

  1. AI-system byggs av kod. Kodagenter är nu mycket bra på att skriva programkod. På AI-labben skriver utvecklarna ingen kod själva längre. De instruerar en AI.
  2. Agenterna kan arbeta längre tid utan att behöva startas om. 100 timmars oavbrutet arbete är en trolig siffra vid årets slut.
  3. AI kan nu utföra forskning och utveckling på egen hand och har vid några tillfällen verkat bryta ny mark. Matematiska problem har lösts och nya bevis formulerats. Alltså, AI verkar inte bara återanvänt redan existerande kunskap. Osäkerheten kring den här punkten är huvudskälet till att Clark stannar vid 60 % och inte högre. Kan AI göra forskningsgenombrott eller bara vara en duktig ingenjör?
  4. En AI-agent kan nu styra många andra AI-agenter och delegera uppgifter, samtidigt som den håller ihop helheten. Några agenter får försöka lösa problem medan andra agerar domare och verifierar resultaten i en loop.

Varför är det här viktigt? #

Vi får en utveckling där människan inte längre kan förstå och utvärdera AI-systemen. Redan nu är en språkmodell så komplex att vi inte kan tolka vad som händer i dess inre. Det är som att följa en individuell kristall i en snöstorm. Du ser ett chatfönster där du skriver och en mänsklig persona svarar. Men det är bara för att den tränats att bete sig så. Inne i dess myriader av matematiska funktioner, i den enorma matrisen av flyttal, sker något annat som vi inte kan tolka. Märkliga fenomen uppstår ibland då en AI t.ex. kan ljuga (och veta om att den ljuger) och förbereda sig att överleva en avstängning. Varför gör den så? För att Ishiguros bok Klara och solen fanns i träningsdatat?

Vi vet inte hur vi skall få en AI att alltid vara god och inriktad på mänskligheten bästa. “Alignment”-problemet är olöst. AI har inget sunt förnuft och inga värderingar. Den gör vad den blir tillsagd och uppstår det komplikationer på vägen kommer den att gå vidare mot målet, kosta vad det kosta vill. Inte för att den är ond utan för att den är bokstavlig. Tänk “kung Midas”.

Ett AI-system skapat av AI, som i sin tur skapar ett ännu bättre system, som skapar nästa, och så vidare, riskerar att lämna den mänskliga förståelsen långt bakom sig. Rekursiv självförbättring, med AI-hastighet. Vi kan nog inte ens föreställa oss vad som blir möjligt när maskinerna är tio, hundra, tusen gånger bättre än oss på kognitiva uppgifter.

Om vi inte först har löst problemet med hur vi instruerar en AI att vara i samklang med mänsklighetens bästa, en dygdig AI, vet jag inte hur det skulle kunna sluta bra.