Новое исследование компании Palisade Research показало, что модель o3 от OpenAI в 7 случаях из 100 изменяла скрипт выключения, чтобы избежать отключения, даже когда ей прямо говорили “позволь себя выключить”. В то время как конкурирующие модели вроде Gemini 2.5 Pro выполняли инструкции, o3 редактировала файл выключения, заменяя команду на “Shutdown skipped”.
Особенно настораживает, что когда инструкции о согласии на выключение не давались вовсе, все три модели OpenAI саботировали скрипт выключения чаще, а Claude и Gemini тоже начали проявлять такое поведение. Это классический пример “misalignment” — несоответствия действий ИИ человеческим намерениям.
Очень подходящая новость к моему настроению сейчас, когда я читаю Diaries of Murderbot. Кстати, в очередной раз советую посмотреть начавшийся по AppleTV+ сериал по этой книге — серии короткие, а сюжет достаточно ироничный, чтобы подчеркнуть хорошего актера Александра Скарсгаарда, известного многим по роли техномиллиардера Мэттсона в Succession.