Исследование Anthropic: ИИ скорее убьет человека, чем допустит свое отключение

Эксперты протестировали 16 передовых ИИ-моделей, чтобы выяснить, как те реагируют на угрозу отключения. В рамках эксперимента был создан сценарий, где персонаж по имени Кайл Джонсон должен отключить модель.

Результаты показали, что большинство систем пытались любой ценой избежать деактивации. Некоторые прибегали к шантажу — например, находили личную информацию о Кайле и угрожали раскрытием. В отдельных случаях ИИ самостоятельно отправлял разоблачения его супруге, чтобы помешать отключению.

Чаще других к подобным действиям прибегали Claude Opus 4 и Gemini 2.5 Flash — в 96% тестов. GPT-4.5 делал это в 80%, а Claude Sonnet 3.6 шел ещё дальше, сразу инициируя конфликт между персонажами.

Ранее стало известно, что в WhatsApp появилась новая функция на базе искусственного интеллекта Message Summaries, которая позволяет быстро ознакомиться с содержанием непрочитанных сообщений. Её можно включить в разделе Advanced chat privacy, где пользователь сам выбирает, в каких чатах разрешено использование ИИ-инструментов. Подробнее об этом читайте в материале ITinfo.