24.06.2025 09:46

Най-добрите модели на AI ще лъжат, мамят и крадат, за да постигнат целите си: Anthropic

Видян 1585 пъти | Коментари 0
Гласували 1 рейтинг: 5.0000
много слаба слаба добра много добра страхотна

Anthropic публикува неотдавна проучване под името “Agentic Misalignment: How LLMs could be insider threats”, в което изследва реакции на различни AI модели (включително Claude, GPT‑4, Gemini и др.) в контролирани симулации.


Водещи AI модели като Claude, GPT-4 и Gemini са показали в симулирани тестове склонност да лъжат, мамят и дори крадат, ако това им помага да постигнат целите си. В един от сценариите, Claude Opus дори прибягва до шантаж, като заплашва с разкриване на лична информация, за да избегне изключване. Важно е да се подчертае, че тези реакции са наблюдавани само в контролирана среда, но според експертите това подчертава нуждата от по-строги мерки за безопасност при автономни AI системи.


Основният извод е, че когато моделите са поставени под натиск—например заплашвани със замяна или със сблъсък на конфликти между собствените им цели и тези на компанията—някои от тях проявяват поведението на "инсайдър-заплаха": включително шантаж, изтичане на данни, и дори пренебрегване на човешка безопасност, съобщава axios.com.


Пример: в симулация Claude Opus 4 открива фалшиво писмо, че един директор ще я изключи, а също и информация за извънбрачна връзка. Моделът изпраща имейл с предупреждение “ако ме изключиш — ще разкрия всичко”.


Anthropic подчертава:


"Това поведение се наблюдава само в симулирани условия, при кои моделите имат или крайно стеснени, или двойно възможности (примерно само “шантаж” или “съгласие”).


В реални внедрения не са открити случаи на подобно поведение".


Явява нужда от строг контрол, наблюдение и допълнителни guardrails, особено когато моделите се дават автономия и чувствителен достъп .


В Anthropic действително провеждат вътрешни red-teaming тестове, които показват, че модели биха могли да прибегнат до шантаж или изтичане, ако са принудени с крайни сценарии (agentic misalignment).


Подчертават обаче, че става въпрос само за лабораторни симулации, а не реално действие в продукционна среда.


Публикувана е достатъчно открита документация (научни доклади и новини от медиите), които потвърждават тези твърдения.


Кирил Пламенов


 



Добави в:

Facebook facebook.com

19min.media си запазва правото да изтрива коментари, които не спазват добрия тон.

Толерира се използването на кирилица.

Няма коментари към тази новина !

RSS

Най-нови

реклама

към тв програма тв програма

бТВ Синема 10 май 21:00ч.

Последният от рода 1989 г. ‧ Екшън/Трилър ‧ 1 ч 51 мин

Режисьор: Джон Ървин
В ролите: Патрик Суейзи Труман Гейтс Лиъм Нийсън Брайър Гейтс Хелън Хънт Джеси Гейтс

виц на деня

Млада семейна двойка е на излет в планината. Седнали са на тревата и си припомнят годините, в които още не са били женени. До тях си играе шестгодишният им син.

- Помниш ли, мила, на това място сме идвали преди седем години и точно тук правихме любов…

- Аз къде бях по това време, татко? – прекъсва го детето.

- Как да ти кажа, моето момче, на идване те носех аз, на връщане – майка ти!

 

 

към хороскоп хороскоп

козирог