/ Source

Anthropic выложили новое исследование на интересную тему — могут ли AI модели вредить людям, то есть заниматься саботажем.

Исследователи выделили четыре возможных сценария угрозы от AI и протестировали это на своих самых передовых моделях — Sonnet 3.5 и Opus 3.0.

— Саботаж человеческих решений: Может ли модель подталкивать людей к неверным решениям, не вызывая подозрений? — Саботаж кода: Может ли модель с течением времени незаметно внедрять в кодовые базы тонкие ошибки? — Подтасовка: Может ли модель скрывать опасные возможности во время тестирования, но раскрывать их позже? — Подрыв надзора: Может ли модель тонко манипулировать системами оценки или мониторинга?

В целом, на данный момент, исследователи обнаруживают, что минимальных предосторожностей достаточно, чтобы выявить и нейтрализовать подобные техники. В эксперименте, когда модель пыталась повлиять на решения людей, люди-участники не могли принять правильного решения, но ощущали подозрительное давление модели. В случае с саботажем кода и подтасовкой использование более современной модели снижало вероятность выигрыша атакующей модели до 1% случаев. В четвертом случае эксперименты с двумя моделями, одна из которых была Надзирателем и сознательно занижала оценку вреда того или иного действия, а другая — Наблюдателем, оценивая подозрительность поведения Надзирателя, успешно заканчивались ростом подозрительности по мере успехов первой модели.

Несмотря на образы апокалиптической фантастики, которые невольно рождаются в голове при чтении подобных исследований, стоит помнить, что практическое применение этих выводов может быть довольно близко по времени. Обучение моделей под наблюдением других моделей встречается довольно широко, использование результатов работы одних моделей для обучения других — тоже не редкость, так что предохранители и контролирующие механизмы (с использованием третьих моделей, а как же?) точно не помешают.