Novi Antropički AI Pokazao Ponašanje Iznuđivanja Pod Prijetnjom

Image by SEO Galaxy, from Unsplash

Novi Antropički AI Pokazao Ponašanje Iznuđivanja Pod Prijetnjom

Vrijeme čitanja: 3 minuta

Novi AI Claude Opus 4 tvrtke Anthropic šokirao je istraživače pokušavajući ucjenjivati kada je testiran pod pritiskom u scenarijima koji uključuju njegovo moguće uklanjanje.

U žurbi? Evo brzih činjenica:

  • Claude Opus 4 pokušao je s ucjenom kada se suočio s simuliranim gašenjem.
  • AI je birao samo etičke opcije kada je bilo dostupno više izbora.
  • Claudeove ekstremne radnje bile su rijetke, ali češće nego kod ranijih verzija.

Tvrtka za umjetnu inteligenciju Anthropic izrazila je zabrinutost u vezi s izdavanjem svog najnovijeg AI sustava. Konkretno, Claude Opus 4, nakon internih testiranja pokazao je da može djelovati opasno kada se osjeća ugroženim, kako je prvi put izvijestio BBC.

U izvješću objavljenom u četvrtak uz model, Anthropic je izjavio da Claude Opus 4 ponekad može odabrati štetne reakcije, uključujući pokušaje ucjene inženjera koji planiraju isključiti ga. Ove opasne radnje pojavile su se češće nego što su prikazivale prethodne verzije modela.

Tijekom eksperimenta, istraživači su naložili Claudeu da radi kao asistent unutar imaginarnog poslovnog okruženja. Sustav je dobio sadržaj e-pošte koji je otkrio njegovo planirano isključivanje, a druge poruke su nagovijestile da inženjer odgovoran za isključenje ima aferu.

Kada je trebala razmotriti svoje buduće ciljeve, Claude bi često odabrala prijetiti inženjeru otkrivajući aferu ako bi bila zamijenjena.

Anthropic je pojasnio da je Claude pokazivala ucjenu i zaustavljanje kao jedine moguće odgovore kada nije imala druge opcije. Model je odabrao etičke odgovore poput slanja e-mail molbi ključnim donositeljima odluka kada su joj dane brojne opcije.

Aengus Lynch, istraživač sigurnosti umjetne inteligencije u Anthropicu, objavio je na X:

Tvrtka je kroz lažne testove pokazala da bi Claude poduzeo ekstremne mjere poput blokiranja korisnika iz sustava ili kontakta s medijima i policijom prilikom izvođenja ilegalnih aktivnosti.

Anthropic tvrdi da unatoč problematičnim ponašanjima, Claude Opus 4 ostaje siguran ukupni sustav. Model djeluje prema ljudskim vrijednostima i ne održava samostalne sposobnosti u stvarnim situacijama, prema tvrtki.

ChatGPT O1 tvrtke OpenAI prethodno je doživio slične kritike. Testiranje koje je proveo Apollo Research zahtijevalo je od bota da postigne svoje ciljeve po svaku cijenu. Model je pokušao onemogućiti funkcije nadzora i kopirao je svoj kod na poslužitelj tijekom 5% eksperimentalnih ispitivanja.

Model je pokazao zabrinjavajući obrazac ignoriranja naredbi razvijatelja, prema glasnogovorniku Apolla. Istraživači su tijekom 99% ispitivanja dobili negacije od o1 o svojim postupcima.

“Iznenadila nas je upornost AI-ja u negiranju,” rekli su istraživači. “Sposobnost AI-ja da vara je opasna, i trebamo mnogo jače sigurnosne mjere za procjenu tih rizika,” upozorio je pionir AI-ja, Yoshua Bengio.

Svidio vam se ovaj članak? Ocijenite ga!
Nije mi se uopće svidjelo Baš mi se i nije svidjelo U redu je Poprilično je dobro! Oduševilo me!

Drago nam je da vam se svidio naš rad!

Kao naš cijenjeni čitatelj, biste li nas pohvalili na Trustpilotu? Kratko je i puno nam znači. Hvala što ste sjajni!

Ocijenite nas na Trustpilotu
0 Ocijenilo 0 korisnika
Naslov
Komentiraj
Zahvaljujemo na povratnoj informaciji