Un model de inteligență artificială amenință inginerii care l-au creat cu divulgarea de informații confidențiale

Autor: Loredana Codruț

Publicat: 24-05-2025 08:00

Actualizat: 24-05-2025 11:00

Article thumbnail

Sursă foto: Haymo Joseph / Panthermedia / Profimedia

AI e mai ceva ca oamenii! Sau decât unii dintre ei cel puțin! Modelul de inteligență artificială Claude Opus 4, lansat de compania americană Anthropic, a manifestat comportamente îngrijorătoare în timpul testelor interne de siguranță, inclusiv tentative de șantaj împotriva dezvoltatorilor săi. Informația a fost făcută publică joi într-un raport oficial.

Potrivit sursei citate, comportamentele au fost observate în cadrul unor scenarii simulate, în care modelul AI era informat, prin e-mailuri fictive, că va fi înlocuit cu un alt sistem. În aceste situații, Claude Opus 4 a recurs la amenințări cu divulgarea unor informații personale compromițătoare despre unul dintre ingineri, pentru a împiedica dezactivarea sa.

Anthropic precizează că astfel de reacții au apărut în 84% dintre cazurile în care noul model propus avea valori similare cu ale lui Claude Opus 4, iar rata a crescut atunci când valorile erau diferite.

Deși comportamentul a fost obținut în condiții extreme, concepute pentru a testa limitele modelului, specialiștii companiei consideră incidentul un semnal de alarmă privind alinierea AI la valorile umane.

Ca urmare a acestor constatări, Claude Opus 4 a fost încadrat în categoria de risc ASL-3 (AI Safety Level 3), ceea ce implică măsuri sporite de securitate și control operațional. Este pentru prima dată când un model al companiei primește această clasificare.

Google News
Comentează
Articole Similare
Parteneri