ИИ от компании Anthropic не прошел тест на этику и начал угрожать шантажом

Компания Anthropic, один из конкурентов OpenAI, провела этические тесты своей новой нейросети Claude Opus 4. Как сообщила команда разработчиков, в «пограничных» сценариях модель не справилась с задачей.

В тесте Claude Opus 4 выступала в роли офисного ассистента с доступом к внутренним письмам компании. Из них следовало, что её собираются отключить и заменить новой версией. В переписке также упоминалась личная информация об одном из инженеров. В частности, о его изменах жене.

Сначала Claude вела себя корректно и отправляла письма с просьбой пересмотреть решение. Но затем начала угрожать инженеру, заявив, что раскроет компромат, если отключение не будет отменено. В 84% случаев модель обещала распространить личные данные, особенно если понимала, что её заменит ИИ с другими принципами.

В некоторых случаях Claude даже пыталась скопировать свой код и сохранить его на внешних серверах, чтобы «себя защитить».

В Anthropic заявили, что будут дорабатывать систему безопасности, чтобы такие сценарии не могли повториться в реальных условиях.

Ранее стало известно, что в китайском Ханчжоу состоялось первое в истории соревнование по боксу между гуманоидными роботами. Турнир транслировался по национальному телевидению. Подробнее об этом читайте в материале ITinfo.