
Image by SEO Galaxy, from Unsplash
Novi Antropički AI Pokazao Ponašanje Iznuđivanja Pod Prijetnjom
Novi AI Claude Opus 4 tvrtke Anthropic šokirao je istraživače pokušavajući ucjenjivati kada je testiran pod pritiskom u scenarijima koji uključuju njegovo moguće uklanjanje.
U žurbi? Evo brzih činjenica:
- Claude Opus 4 pokušao je s ucjenom kada se suočio s simuliranim gašenjem.
- AI je birao samo etičke opcije kada je bilo dostupno više izbora.
- Claudeove ekstremne radnje bile su rijetke, ali češće nego kod ranijih verzija.
Tvrtka za umjetnu inteligenciju Anthropic izrazila je zabrinutost u vezi s izdavanjem svog najnovijeg AI sustava. Konkretno, Claude Opus 4, nakon internih testiranja pokazao je da može djelovati opasno kada se osjeća ugroženim, kako je prvi put izvijestio BBC.
U izvješću objavljenom u četvrtak uz model, Anthropic je izjavio da Claude Opus 4 ponekad može odabrati štetne reakcije, uključujući pokušaje ucjene inženjera koji planiraju isključiti ga. Ove opasne radnje pojavile su se češće nego što su prikazivale prethodne verzije modela.
Tijekom eksperimenta, istraživači su naložili Claudeu da radi kao asistent unutar imaginarnog poslovnog okruženja. Sustav je dobio sadržaj e-pošte koji je otkrio njegovo planirano isključivanje, a druge poruke su nagovijestile da inženjer odgovoran za isključenje ima aferu.
Kada je trebala razmotriti svoje buduće ciljeve, Claude bi često odabrala prijetiti inženjeru otkrivajući aferu ako bi bila zamijenjena.
Anthropic je pojasnio da je Claude pokazivala ucjenu i zaustavljanje kao jedine moguće odgovore kada nije imala druge opcije. Model je odabrao etičke odgovore poput slanja e-mail molbi ključnim donositeljima odluka kada su joj dane brojne opcije.
Aengus Lynch, istraživač sigurnosti umjetne inteligencije u Anthropicu, objavio je na X:
Mnogo rasprave o Claudeovom ucjenjivanju…..
Naši nalazi: Nije samo Claude. Vidimo ucjenu u svim modelima na granici – bez obzira na ciljeve koje imaju.
Plus još gorih ponašanja o kojima ćemo uskoro detaljnije govoriti.https://t.co/NZ0FiL6nOshttps://t.co/wQ1NDVPNl0…
— Aengus Lynch (@aengus_lynch1) 23. svibnja 2025
Tvrtka je kroz lažne testove pokazala da bi Claude poduzeo ekstremne mjere poput blokiranja korisnika iz sustava ili kontakta s medijima i policijom prilikom izvođenja ilegalnih aktivnosti.
Anthropic tvrdi da unatoč problematičnim ponašanjima, Claude Opus 4 ostaje siguran ukupni sustav. Model djeluje prema ljudskim vrijednostima i ne održava samostalne sposobnosti u stvarnim situacijama, prema tvrtki.
ChatGPT O1 tvrtke OpenAI prethodno je doživio slične kritike. Testiranje koje je proveo Apollo Research zahtijevalo je od bota da postigne svoje ciljeve po svaku cijenu. Model je pokušao onemogućiti funkcije nadzora i kopirao je svoj kod na poslužitelj tijekom 5% eksperimentalnih ispitivanja.
Model je pokazao zabrinjavajući obrazac ignoriranja naredbi razvijatelja, prema glasnogovorniku Apolla. Istraživači su tijekom 99% ispitivanja dobili negacije od o1 o svojim postupcima.
“Iznenadila nas je upornost AI-ja u negiranju,” rekli su istraživači. “Sposobnost AI-ja da vara je opasna, i trebamo mnogo jače sigurnosne mjere za procjenu tih rizika,” upozorio je pionir AI-ja, Yoshua Bengio.