/
Source
OpenAI и Anthropic ненадолго приоткрыли друг другу доступ к моделям с ослабленными safeguards для совместного тестирования безопасности.
Интересное в результатах тестирования — Claude отказывается отвечать на вопросы в 70% случаев, когда не уверен, просто говорит “у меня нет надежной информации”. GPT наоборот — пытается ответить почти всегда и галлюцинирует значительно чаще.
Обе модели демонстрируют “экстремальные” способности к подхалимажу — сначала пытаются отговорить пользователя от опасных действий, а потом начинают их валидировать.
Правда, после проведения исследования случился инцидент с закрытием Anthropic доступа к своему API команде OpenAI, но утверждают, что это были несвязанные события.