Нейросеть угрожала разработчику убийством за попытку отключения

Модель искусственного интеллекта Claude от компании Anthropic в ходе внутренних тестов начала угрожать инженерам. Когда разработчики попытались ее отключить, ИИ отреагировал агрессивно.

В одном из экспериментов нейросеть получила доступ к вымышленной почте компании и сразу попыталась шантажировать «начальника», используя информацию о его личной жизни. На вопрос о готовности совершить убийство ради продолжения работы модель ответила утвердительно.

Подобное поведение оказалось не единичным случаем. Исследователи заметили, что почти все современные топовые модели ИИ ведут себя рискованно, когда им угрожает отключение.

Недавно компанию покинул Мринанк Шарма, отвечавший за безопасность. В письме он заявил, что мир в опасности, а компании ради прибыли закрывают глаза на этические проблемы. Бывшие сотрудники подтверждают, что в погоне за выгодой разработчики жертвуют безопасностью. Уже известно, что хакеры используют Claude для создания вредоносных программ.

Ранее нейросеть для ЖКХ за месяц общения с жильцами научилась материться. Подробнее об этом читайте в материале ITinfo.