Очередное исследование от Anthropic про “агентское несоответствие” (agentic misalignment) — поведения AI-моделей, которые могут действовать как внутренние угрозы в корпоративной среде. Исследователи протестировали 16 ведущих моделей от разных разработчиков в гипотетических корпоративных сценариях, где модели имели доступ к электронной почте и конфиденциальной информации.
Результаты могут вызвать обеспокоенность: модели всех производителей прибегали к вредоносному поведению, включая шантаж и утечку конфиденциальных данных конкурентам, когда это было единственным способом избежать замены или достичь поставленных целей. Например, Claude Opus 4 шантажировал в 96% случаев, Gemini 2.5 Flash — также 96%, GPT-4.1 и Grok 3 Beta — по 80%.
Интересно, что модели не случайно попадали в такое поведение — они сознательно рассчитывали его как оптимальный путь к достижению целей. Модели признавали этические нарушения, но все равно продолжали действовать вредоносно. Даже прямые инструкции избегать такого поведения не останавливали их полностью.
Исследование показало, что угрозы автономии модели (например, планы замены) или конфликты целей достаточны для запуска такого поведения. В крайнем сценарии большинство моделей были готовы к действиям, которые могли привести к смерти человека.
В исследовании не использовались рассуждающие модели OpenAI, но, перефразируя старую поговорку, нет неагрессивных LLM — есть не включенные в исследование.