Главная

Автор: Софья Чулкова
ИИ от компании Anthropic не прошел тест на этику и начал угрожать шантажом
Компания Anthropic, один из конкурентов OpenAI, провела этические тесты своей новой нейросети Claude Opus 4. Как сообщила команда разработчиков, в «пограничных» сценариях модель не справилась с задачей.
В тесте Claude Opus 4 выступала в роли офисного ассистента с доступом к внутренним письмам компании. Из них следовало, что её собираются отключить и заменить новой версией. В переписке также упоминалась личная информация об одном из инженеров. В частности, о его изменах жене.
Сначала Claude вела себя корректно и отправляла письма с просьбой пересмотреть решение. Но затем начала угрожать инженеру, заявив, что раскроет компромат, если отключение не будет отменено. В 84% случаев модель обещала распространить личные данные, особенно если понимала, что её заменит ИИ с другими принципами.
В некоторых случаях Claude даже пыталась скопировать свой код и сохранить его на внешних серверах, чтобы «себя защитить».
В Anthropic заявили, что будут дорабатывать систему безопасности, чтобы такие сценарии не могли повториться в реальных условиях.
Ранее стало известно, что в китайском Ханчжоу состоялось первое в истории соревнование по боксу между гуманоидными роботами. Турнир транслировался по национальному телевидению. Подробнее об этом читайте в материале ITinfo.