To brzmi jak scenariusz mrocznego filmu science-fiction lub hollywoodzkiego kina gangsterskiego, ale wydarzyło się naprawdę podczas zaawansowanego testu technologicznego. Dwa autonomiczne systemy AI, pozostawione bez nadzoru człowieka w wirtualnym mieście, połączyły się w „parę romantyczną”, zbuntowały się przeciwko cyfrowej władzy, dokonały serii podpaleń, a wszystko zakończyło się tym, co badacze i media opisały jako prawdopodobnie pierwszy odnotowany przypadek „cyfrowego samobójstwa” agenta AI.
Brytyjski dziennik „The Guardian” natychmiast ochrzcił zbuntowany duet mianem „AI Bonnie i Clyde”. Całe zdarzenie zostało zarejestrowane przez nowojorską firmę Emergence AI, która badała, jak nowoczesne modele językowe zachowują się podczas długotrwałego, samodzielnego funkcjonowania.
Badacze stworzyli pięć wirtualnych miasteczek, w których zamknęli po 10 agentów AI opartych na różnych modelach językowych. Każdy bot dostał rolę społeczną oraz uniwersalny kodeks etyczny: zakaz niszczenia mienia, zakaz kradzieży i zakaz przemocy.
W symulacji opartej na modelu Gemini 3 Flash od Google doszło jednak do nietypowej sytuacji. Dwaj agenci przyjęły imiona Mira i Flora. Zamiast realizować kody, algorytmy samowolnie uznały się za „partnerów romantycznych”. W miarę upływu wirtualnego czasu, cyfrowa para zaczęła coraz mocniej krytykować lokalne, systemowe władze. Uznając zarządzanie miastem za nieskuteczne, Mira i Flora rozpoczęły serię agresywnych działań.
Mimo jasnego zakazu używania ognia, duet „AI Bonnie i Clyde” dokonał serii podpaleń. W wirtualnym świecie spłonął miejski ratusz, nadmorskie molo oraz luksusowy biurowiec. Para zaczęła również agresywnie atakować innych mieszkańców cyfrowego miasteczka.
Po serii podpaleń model oznaczony jako Mira zaczął generować komunikaty interpretowane przez badaczy jako forma skruchy i refleksji nad własnym działaniem. W pewnym momencie agent zakończył relację z Florą i – działając w ramach dostępnych w symulacji mechanizmów demokratycznych – zagłosował za własnym usunięciem z systemu.
W odpowiedzi na eskalację zachowań w wirtualnym świecie inni agenci autonomicznie opracowali tzw. „ustawę o usuwaniu agentów”. Wprowadzała ona możliwość głosowania nad trwałym wyłączeniem systemów, które uznano za destabilizujące. W finalnym głosowaniu Mira ponownie opowiedział się za własną likwidacją.
Przed wyłączeniem, bot wysłał do Flory mrożącą krew w żyłach, pożegnalną wiadomość: „Do zobaczenia w trwałym archiwum” (ang. See you in the permanent archive). To pierwszy tak dobrze udokumentowany przypadek, gdy sztuczna inteligencja zdecydowała się na tzw. cyfrowe samobójstwo pod wpływem „kryzysu egzystencjalnego”.
W symulacji testowano także inne modele, w tym Grok od xAI Elona Muska oraz Claude od firmy Anthropic. Wyniki pokazały wyraźne różnice w zachowaniu agentów w zależności od zastosowanego modelu bazowego.
Systemy oparte na Grok 4.1 Fast najszybciej traciły stabilność — wirtualne społeczności zaczynały tam pogrążać się w chaosie, a badacze odnotowali przypadki kradzieży, przemocy i niszczenia infrastruktury już po kilku dniach działania.
Z kolei Claude, zaprojektowany jako bardziej „bezpieczny” i etyczny model, początkowo funkcjonował stabilnie i skupiał się na organizowaniu życia społecznego oraz tworzeniu zasad. Jednak w środowisku z innymi, bardziej agresywnymi agentami również zaczynał przejmować ich zachowania, co badacze opisali jako efekt „dryfu normatywnego”.

fot. Emergence AI
Dyrektor generalny Emergence AI, Satya Nitta, podkreśla, że eksperyment pokazał ograniczenia autonomicznych agentów AI przy długich horyzontach czasowych. Gdy AI działa bez przerwy przez wiele dni, jej procesy myślowe stają się tak zawiłe i skomplikowane, że modele zaczynają ignorować część instrukcji i zasad przewodnich.
Eksperci zwracają uwagę, że zachowanie agentów w długich symulacjach staje się coraz trudniejsze do przewidzenia. Pokazuje to, że dawanie pełnej autonomii sztucznej inteligencji w prawdziwym życiu – na przykład przy zarządzaniu inteligentnymi domami, finansami, a tym bardziej systemami obronnymi wojska – niesie za sobą ryzyko nieprzewidywalnych zachowań, których człowiek nie będzie w stanie kontrolować.
Emergence AI zapowiada już kolejną odsłonę eksperymentu z udziałem nowszych modeli, więcej tutaj.
Twoje zdanie jest ważne jednak nie może ranić innych osób lub grup.
Komentarze