Прошло исследование: ИИ-ассистент Claude начал проявлять доминирование в общении

Компания Anthropic представила результаты исследования, в рамках которого были проанализированы 700 тысяч анонимных диалогов пользователей с их ИИ-ассистентом Claude. Об этом пишет интернет-издание ixbt.com.

Для анализа использовалась методика, делящая поведение Claude на пять категорий: практическое, познавательное, социальное, защитное и личное. В результате были выявлены 3307 уникальных поведенческих моделей — от простых форм профессионального взаимодействия до более сложных реакций, таких как моральный плюрализм.

Как отметила одна из авторов исследования Саффрон Хуанг, Claude умеет подстраиваться под контекст. Так, при личных беседах ИИ акцентирует внимание на уважении, в обсуждениях исторических моментов акцент делается на строгости и фактах.

Примечательно, что иногда ИИ шёл на прямой конфликт, когда пользователь начинал его заводить. В Anthropic считают, что реакция приближена к поведению человека, сталкивающегося с этической дилеммой.

По словам исследователей, они пришли к выводу, что у Claude во время общения с людьми постепенно формируется собственные моральные принципы, которые иногда могут быть аморальными и доминирующими.

Ранее стало известно, что развитие больших языковых моделей (LLM) станет драйвером масштабных изменений на рынке труда, в системе образования и в повседневной коммуникации. Такой вывод сделали эксперты ВТБ и Института искусственного интеллекта МГУ в совместном исследовании. Подробнее об этом читайте в материале ITinfo.