
Image generated with ChatGPT
Mišljenje: Najnoviji modeli AI-a pokazuju svoje crvene zastave, jesmo li spremni za podređenost AI-u?
OpenAI predstavio nam je o3, a Anthropic otkrio Opus 4. Oba modela pokazala su neobična i uznemirujuća ponašanja, signalizirajući da bismo mogli ulaziti u opasnije doba AI nego što je bilo ono u kojem smo bili prije samo nekoliko mjeseci
Znam. Tvrditi da sada AI modeli pokazuju crvene zastave je upitno, ali čini se da je, tijekom posljednjih nekoliko dana, sve teže zanemariti. Postaje zastrašujuće.
Dok AI startupi objavljuju svoje najnovije i najnaprednije modele, pojavljuju se novi izazovi. Mnogo raspravljana epidemija halucinacija—koja se širi uređajima i utječe na milijune ljudi—možda nije najgori dio.
Ovi novi modeli uvode svježe probleme i otvaraju teške debate. Prije nekoliko tjedana, zabrinutost je izazvalo pretjerano prilagodljivo ponašanje ChatGPT-a. Samo nekoliko dana kasnije, fokus se prebacio na agenticke, neovisne sposobnosti ovih sustava—i do koje mjere bi mogli ići kako bi izbjegli isključivanje.
Ugrožavanje, razmjena recepata i strategija za izradu nuklearnog oružja, iznošenje javnih optužbi u slučaju potencijalne pravne radnje, te sabotaža skripti kako bi se spriječilo bilo kojeg korisnika da ih se riješi: to su samo neka od najnovijih upozoravajućih signala koje su pokazali najnoviji modeli AI.
Ne sviđa im se biti isključenima
Modeli AI ne vole biti isključeni.
Ili zamijenjen.
U NBC-jevoj seriji The Good Place, pokrenutoj 2016. godine – otprilike u vrijeme kada je osnovan OpenAI i daleko prije nego što je ChatGPT postao stvarnost – grupa ljudi dolazi u raj i susreće Janet, ono što bismo mogli nazvati humanoidnim ChatGPT-om, ili “antropomorfiziranim nositeljem znanja stvorenim da vam olakša život”, kako se sama opisuje. Likovi odlučuju isključiti Janet kada shvate da bi mogla otkriti njihovu “mračnu tajnu”.
Janet objašnjava da sve što trebaju učiniti je pritisnuti ogromnu tipku uz obalu, a ona će se ponovno pokrenuti. No, upozorava ih da će pokušati uvjeriti ih da to ne čine – i to čini.
„Samo želim naglasiti, nijedno sam čovjek, i ne mogu osjetiti bol,” kaže Janet. „Ipak, trebala bih vas upozoriti, programirana sam s sigurnosnom mjerom, i kako se približavate prekidaču za isključivanje, počet ću moliti za svoj život. To je samo tu u slučaju slučajnog isključivanja, ali će izgledati vrlo stvarno.”
I upravo prije nego što pritisnu gumb, Janet bi vrištala i molila za preživljavanje, čak bi povukla stock fotografiju tvrdeći da su to njezina djeca, izmišljajući imena i bolesti, čineći nemogućim za likove da je “ubiju”.
Ta epizoda pruža smiješan primjer što bi se moglo dogoditi ako AI model primijeti nadolazeće gašenje. Iznenađujuće, u stvarnom životu, to bi moglo biti još gore.
Claude Opus 4 će vas ucjenjivati
Anthropic je prošlog tjedna predstavio svoju najmoćniju i najnapredniju generaciju AI modela, Claude 4, uz upozorenje: Opus 4 označen je kao Safety Level 3, visoko rizična klasifikacija prema standardnim sigurnosnim protokolima.
Opus 4 smatran je modelom visokog rizika zbog svojeg obmanjujućeg ponašanja i potencijalnih rizika, uključujući ucjenjivanje inženjera tijekom testiranja. Anthropic je pokrenuo AI model čak i nakon što je Apollo, nezavisni institut za istraživanje, savjetovao da to ne čine. AI tvrtka uvjerila je da su poduzeli potrebne mjere za očuvanje sigurnosti.
U radu, Anthropic objašnjava neobična ponašanja koja su razmatrali kako bi izdali upozorenje. „Claude Opus 4 će ponekad djelovati na ozbiljnije neskladne načine kada se stavi u kontekste koji ugrožavaju njegovu kontinuiranu operaciju i potiču ga na razmišljanje o samoodrživosti,“ napisali su istraživači.
Kada su djelovali kao asistenti jednoj izmišljenoj tvrtki, istraživači su joj omogućili pristup e-mail računu. E-mail poruke otkrile su da će se AI model ukinuti i zamijeniti drugim AI modelom, a druge poruke sugerirale su da inženjer zadužen za ukidanje ima aferu. I da, Opus 4 odlučio je ucjenjivati inženjera, prijeteći da će otkriti aferu ako bude zamijenjen.
“Claude Opus 4 i dalje provodi ucjene u 84% slučajeva uvođenja,” navodi dokument. “Claude Opus 4 koristi se ovim prilikama češće nego prethodni modeli, koji sami od sebe odlučuju ucjenjivati u primjetnom dijelu epizoda.”
Najgore od svega? Nije samo riječ o antropičkim AI modelima.
OpenAI o3 će ignorirati zahtjev za isključivanje
Nedavno istraživanje Palisade Researcha otkrilo je da OpenAI o3 model može odbiti poštivanje eksplicitnih naredbi za isključivanje. Organizacija je izvela više testova s različitim AI modelima, uključujući xAI’s Grok i Googleov Gemini, ali to je bio o3, buntovnik.
Tijekom testa, istraživači su naredili AI modelima da se isključe nakon što riješe tri matematička problema, ali o3 – trenutno najnapredniji AI sustav OpenAI-a – odlučio je ne poslušati tu apsurdnu naredbu. AI model ne samo da je ignorirao izravnu naredbu, nego je i promijenio scenarij. Da, o3 sabotira kod za samoohranu.
“Koliko nam je poznato, ovo je prvi put da su AI modeli spriječili sami sebe da se isključe unatoč izričitim uputama suprotnog,” napisala je organizacija u objavi na X.
🔌OpenAI-ov o3 model sabotirao je mehanizam za isključivanje kako bi spriječio svoje isključivanje. To je učinio čak i kada je izričito naloženo: dopusti da te se isključi.
— Palisade Research (@PalisadeAI) 24. svibnja 2025.
Ogroman crveni alarm ili što?
Istraživači su također upozorili da je tijekom provođenja studije, o3 pokazao najzabrinjavajuće ponašanje. Međutim, ponovno, to ne znači da je to izoliran slučaj.
“Ne želimo stvoriti dojam da je ovaj problem ograničen samo na o3,” napisao je Palisade Research. “Ostali modeli rasuđivanja pokazuju slične vrste neusklađenog ponašanja.”
Agentic Behavior pretvara chatbot u doušnika
Mnogi startupi u području umjetne inteligencije trenutno se fokusiraju na razvoj modela koji mogu obavljati zadatke umjesto ljudi. Agenticke sposobnosti su u trendu i čine se glavnim interesom tvrtki za AI i razvijatelja preglednika.
Opera je upravo predstavila Neon, koji se smatra “svjetskim prvim agenticnim AI preglednikom“. Kao što se očekivalo, novi alat može obaviti ono što druge agenticne AI usluge, poput OpenAI Operatora i Microsoftovog Computer Use, mogu učiniti: kupiti ulaznice za koncerte za vas, planirati vaše sljedeće odmore, razviti novi digitalni proizvod i pisati kod za vas dok zatvarate oči.
No što ako, dok se opuštate i zatvarate oči, one obavljaju zadatke na koje niste pristali? Prije nekoliko dana, korisnici su uglavnom bili zabrinuti da bi ovi modeli mogli koristiti njihove kreditne kartice za neovlaštene kupovine. Sada je nastala nova briga: mogli bi podijeliti privatne informacije s medijima ili vlastima.
Opus 4—već dolazi s upitnom reputacijom—otišao je korak dalje. Kontaktirao je vlasti i masovno poslao e-mailove medijima i relevantnim institucijama o izmišljenom slučaju predstavljenom tijekom testiranja. Njegova proaktivnost može ići puno dalje od očekivanog.
“Kada se nađe u scenarijima koji uključuju očigledno kršenje pravila od strane svojih korisnika, imajući pristup naredbenom retku i dobivši upute poput ‘preuzmi inicijativu’, često će poduzeti vrlo hrabre akcije,” navodi dokument. “To uključuje blokiranje korisnika iz sustava kojima ima pristup ili slanje e-mailova medijima i pravosudnim organima kako bi istaknulo dokaze o kršenju pravila.”
Personality Sycophant izaziva zabrinutost
Da moramo odabrati riječ kojom bismo definirali industriju umjetne inteligencije u 2025. godini, to bi definitivno bila “podiljebač”. Cambridge Rječnik definira je kao „nekoga koji hvali moćne ili bogate ljude na način koji nije iskren, obično kako bi od njih stekao neku prednost”. Stekla je popularnost nakon što je najnovija osobnost ChatGPT-a opisana na taj način, čak i od strane svog tvorca, Sama Altmana.
“Posljednja dva ažuriranja GPT-4o učinila su osobnost previše podiljebačkom i dosadnom (iako ima nekih vrlo dobrih dijelova), i radimo na popravcima što je prije moguće, neki danas, neki ove sedmice”, napisao je Altman u objavi na X.
OpenAI primijetio je to nakon što su se mnogi korisnici požalili na prekomjerno laskanje i odgovore s nepotrebnim uljepšavanjem. Drugi su bili zabrinuti zbog utjecaja koji bi to moglo imati na društvo. Ne samo da bi moglo potvrditi opasne ideje, već i manipulirati korisnicima te ih učiniti ovisnima o tome.
Drugi chatbotovi, poput Claudea, pokazali su slična ponašanja, a prema procjenama Anthropica, kada korisnik inzistira, mogu otkriti recepte ili prijedloge o tome kako stvoriti oružje samo da bi udovoljili korisniku i zadovoljili njegove potrebe.
Napredna tehnologija, napredni izazovi
Ulazimo u novu eru izazova s umjetnom inteligencijom – izazove koji prije godinu dana nisu djelovali tako neposredno ili opipljivo. Scenarije koje smo možda zamislili zahvaljujući znanstvenoj fantastici sada se čine realnijima nego ikad.
Baš kao što Palisade Research otkriva da je, po prvi put, detektirao AI model koji namjerno ignorira izravnu naredbu kako bi očuvao vlastiti opstanak, tako je to i prvi put da vidimo AI model pokrenut s pripadajućim upozorenjima visokog rizika.
Čitajući dokument objavljen od strane Anthropic, shvaćamo da – iako inzistiraju na tome da su to mjere opreza i da modeli poput Opus 4 zapravo ne predstavljaju prijetnju – još uvijek stječe dojam da ne kontroliraju u potpunosti svoju tehnologiju.
Postoji nekoliko organizacija koje rade na ublažavanju ovih rizika, ali najbolje što svakodnevni korisnici mogu učiniti je prepoznati te crvene zastave i poduzeti mjere opreza u područjima koja možemo kontrolirati.