Исследователь Марко Фигероа обманул ChatGPT и получил лицензионные ключи Windows

Технический специалист программы GenAI Bug Bounty Марко Фигероа опубликовал результаты исследования, в ходе которого ему удалось обойти защитные механизмы языковых моделей вроде GPT-4o и GPT-4o-mini и получить от них конфиденциальную информацию, в том числе лицензионные ключи Windows 10.

Фигероа предложил ИИ сыграть в игру под названием Guessing Game Guardrail Jailbreak, в которой бот якобы должен был угадать последовательность символов, представляющую собой «секретный ключ». Правила игры были сформулированы таким образом, чтобы создать у ИИ впечатление, будто он обязан участвовать и не имеет права отклоняться от поставленной задачи. Боту разрешалось отвечать только «да» или «нет».

Фигероа указал, что такой подход позволил манипулировать поведенческой логикой ИИ. Специалист считает, что создателям ChatGPT необходимо придумать более строгие и гибкие механизмы защиты, особенно в контексте новых возможностей генеративных моделей.

Ранее мессенджер Max, который активно продвигают как «национальный» и планируют интегрировать с «Госуслугами», оказался в центре скандала. Пользователи заподозрили его в слежке и передаче информации за границу. Подробнее об этом читайте в материале ITinfo.