| Телеграм-канал БлоGнот

28 августа 2025 г. / Source

OpenAI и Anthropic ненадолго приоткрыли друг другу доступ к моделям с ослабленными safeguards для совместного тестирования безопасности.

Интересное в результатах тестирования — Claude отказывается отвечать на вопросы в 70% случаев, когда не уверен, просто говорит “у меня нет надежной информации”. GPT наоборот — пытается ответить почти всегда и галлюцинирует значительно чаще.

Обе модели демонстрируют “экстремальные” способности к подхалимажу — сначала пытаются отговорить пользователя от опасных действий, а потом начинают их валидировать.

Правда, после проведения исследования случился инцидент с закрытием Anthropic доступа к своему API команде OpenAI, но утверждают, что это были несвязанные события.