| Телеграм-канал БлоGнот

16 декабря 2025 г. / Source

OpenAI представила FrontierScience — новый бенчмарк для оценки научных способностей AI-моделей на экспертном уровне. GPT-5.2 не очень удивительно показывает 77% на олимпиадных задачах и 25% на исследовательских. Gemini 3 Pro отстаёт на олимпиадной части всего на процент.

Олимпиадные задачи, даже созданные 42 международными медалистами, имеют чёткую структуру и известный ответ. Исследовательские задачи — это “самодостаточные подзадачи уровня PhD”, причём без необходимости проводить реальные эксперименты.

Вероятно, этот бенчмарк — это побочный эффект разработки модели, выигравшей олимпиаду по математике. Правда, 77% намекают еще и на то, что долго он актуальным не будет.