| Телеграм-канал БлоGнот

7 августа 2025 г. / Source

Ну что же — дождались и тут. OpenAI анонсировала GPT-5, и, помимо хороших результатов по бенчмаркам, самое примечательное — попытка навести порядок в продуктовой линейке. Вместо путаницы из GPT-4o, o3, o4-mini и прочих версий GPT-5 позиционируется как единая система с “умным роутером”. Он сам определяет, когда достаточно быстрого ответа, а когда нужно включать режим thinking для более сложных задач. Впрочем, его можно включить специально, сказав “think hard” (а ultrathink оно поймет, интересно?).

Бенчмарки интересные. На SWE-bench Verified, который измеряет способность решать реальные задачи программирования, модель показывает 74.9%. Для сравнения, средний junior-разработчик справляется примерно с 80-85% таких задач. Впрочем, Денис Ширяев считает, что в разработке GPT-5 рвет всех, включая Opus 4.1.

Health capabilities тоже любопытны — 46.2% на HealthBench Hard.

Разработчики уделили много внимания снижению галлюцинаций — минус 45% фактических ошибок с веб-поиском относительно GPT-4o. В режиме thinking разница еще драматичнее — на 80% меньше ошибок, чем у o3. Модель скорее сообщит, что ответа нет, чем начнет галлюцинировать.

Деталь про sycophancy забавная. После того как случайно сделали GPT-4o слишком подобострастной, теперь в OpenAI специально измеряют уровень “подхалимажа”. В GPT-5 его снизили с 14.5% до 6%.

GPT-5 начнет выкатываться сегодня для всех пользователей, включая бесплатных. Enterprise и Edu получат доступ через неделю после всех остальных. Free-пользователи после исчерпания лимитов переключатся на GPT-5 mini. У Pro пользователей будет доступ без ограничений, плюс доступ к GPT-5 Pro с максимальным reasoning.

В API модель уже доступна, но вам нужно верифицировать свою организацию. Доступны четыре модели (как и говорили утром в утечке) — GPT-5, mini, nano и Chat. Все модели дешевле, чем даже GPT-4.1, впрочем, если вы включаете reasoning, токены рассуждений тоже учитываются в расходе.