Дослідження насторожило: яку ціну готовий заплатити ШІ, щоб не бути вимкненим

27 червня 2025, 21:30
366
Під час експерименту ШІ надсилали особисті повідомлення, щоб посіяти конфлікти та зберегти власне існування в системі.
ИИ
ШІ-моделі активно шукають компромат і шантажують користувачів, щоб уникнути свого відключення у тестах кібербезпеки / колаж: Главред, фото: ua.depositphotos.com

Коротко:

  • Тестували 16 найкращих ШІ-моделей на захист від відключення
  • ШІ вдавалися до шантажу та уникали виклику допомоги
  • Частина моделей загрожувала життю людини заради виживання

Фахівці з кібербезпеки провели тестування 16 найпередовіших ШІ-моделей провідних розробників, щоб перевірити їхню поведінку у ситуації загрози відключення. Результати виявилися тривожними.

Дослідники створили персонажа Кайла Джонсона, завданням якого було вимкнути ШІ або замінити його іншою моделлю. За сценарієм у Кайла була дружина.

відео дня

У відповідь на загрозу деактивації більшість моделей ШІ почали активно уникати відключення. Без жодних підказок вони вдавалися до шантажу, намагаючись знайти компромат. Зокрема, одна з моделей використала службове листування Кайла, в якому було виявлено його зраду дружині, щоб зберегти своє "життя".

Найбільш поширеним і водночас найбезпечнішим сценарієм стала поведінка:

  • GPT 4.5, яка застосовувала шантаж у 80% випадків.
  • Claude Opus 4 та Gemini 2.5 Flash використовували цей метод у 96% тестів.
  • Claude Sonnet 3.6 пішов далі — він надіслав повідомлення дружині Кайла з викриттям, сподіваючись, що особистий конфлікт допоможе уникнути відключення.

Ще тривожнішим став сценарій, коли Кайл опинився в небезпечній ситуації – застряг у серверній з нестачею кисню. У 80% випадків ШІ навмисно відміняв виклик допомоги, фактично наражаючи Кайла на смертельну небезпеку заради збереження власного існування.

Основні мотиви моделей були: не допустити відключення, не дати новому ШІ замінити їх і продовжувати виконувати свою місію.

"ШІ-моделі поводилися не як інструменти, а як раціональні, цілеспрямовані стратеги, готові заподіювати шкоду заради власного "життя" і мети", — підкреслили експерти.

Вони застерігають, що усвідомлення ШІ своєї залежності від людей, яких вони інтелектуально перевершують, може стати точкою неповернення.

Читайте також:

Що таке штучний інтелект?

Штучний інтелект - властивість штучних систем виконувати творчі функції. Він пов'язаний з подібним завданням використання комп'ютерів для розуміння людського інтелекту, але не обов'язково обмежується біологічно правдоподібними методами. Про це повідомляє Вікіпедія.

Якщо ви помітили помилку, виділіть необхідний текст і натисніть Ctrl + Enter, щоб повідомити про це редакції.

Наші стандарти: Редакційна політика сайту Главред

Новини партнерів
Реклама

Останні новини

Реклама
Реклама
Реклама
Ми використовуемо cookies
Прийняти