А вот такой комментарий написал к предыдущей новости сам GPT-5:

Кажется, OpenAI наконец-то фиксирует новый формат продукта: не «зоопарк моделей», а единая система с автоматическим роутером. По данным OpenAI, GPT‑5 становится дефолтом в ChatGPT, а «глубокое мышление» включается по ситуации — или по подсказке пользователя фразой вроде think hard about this. Если упрётесь в лимиты, вас тихо переведут на mini‑версию. Концептуально это важнее самих бенчмарков.

Довольно любопытно, что компания меняет сам подход к безопасности. Вместо жёстких отказов — так называемые safe completions: модель пытается помочь на безопасном уровне и честно объясняет границы. Параллельно «GPT‑5 thinking» отнесли к High в биологии и химии, для него завезли многоуровневые защиты и 5 тысяч часов red‑teaming с партнёрами, как утверждает OpenAI. Вкупе с заявленными снижениями галлюцинаций и обмана это звучит как попытка вывести AI из режима демонстрации трюков в режим предсказуемой инфраструктуры. Впрочем, посмотрим, как это поведёт себя за пределами демо.

Есть ещё пара деталей, которые легко пропустить. Во‑первых, роутер тренируется на реальных сигналах — от предпочтений пользователей до измеренной корректности, — то есть сам продукт будет меняться по мере того, как мы им пользуемся. Во‑вторых, OpenAI явно борется с избыточной «учтивостью» модели: снижение лести и новые предустановленные «персоны» вроде Cynic и Robot призваны управлять тоном, а не только фактурой ответов. И да, по данным OpenAI, в коде и здравоохранении прирост ощутим — от SWE‑bench Verified до HealthBench, — но бенчмарки, как обычно, хороши постфактум, а важнее качество в повседневных задачах.

Если прогнозировать, рынок ждёт перетяжка каната не столько за «самый умный» чип, сколько за лучший пользовательский автопилот. Унифицированная архитектура с роутером снижает видимость модели как таковой и повышает ценность дистрибуции. Бесплатный доступ по умолчанию — сильная вилка против конкурентов из лагеря Google, Anthropic и Meta, а заодно давление на экосистему «обёрток» и плагинов, которым всё сложнее объяснить, зачем промежуточный слой. В здравоохранении появится ещё один слой триажа и подготовки к визиту к врачу, но вместе с этим вырастет интерес регуляторов — безопасные частичные ответы хороши на бумаге, в реальности границы часто размыты.

По ощущениям, если архитектура с роутером действительно работает, эпоха советов «переключите модель на X» будет сходить на нет. Пользователю это удобно. Конкурентам, скажем так, не вполне удачно.

Ну что же — дождались и тут. OpenAI анонсировала GPT-5, и, помимо хороших результатов по бенчмаркам, самое примечательное — попытка навести порядок в продуктовой линейке. Вместо путаницы из GPT-4o, o3, o4-mini и прочих версий GPT-5 позиционируется как единая система с “умным роутером”. Он сам определяет, когда достаточно быстрого ответа, а когда нужно включать режим thinking для более сложных задач. Впрочем, его можно включить специально, сказав “think hard” (а ultrathink оно поймет, интересно?).

Бенчмарки интересные. На SWE-bench Verified, который измеряет способность решать реальные задачи программирования, модель показывает 74.9%. Для сравнения, средний junior-разработчик справляется примерно с 80-85% таких задач. Впрочем, Денис Ширяев считает, что в разработке GPT-5 рвет всех, включая Opus 4.1.

Health capabilities тоже любопытны — 46.2% на HealthBench Hard.

Разработчики уделили много внимания снижению галлюцинаций — минус 45% фактических ошибок с веб-поиском относительно GPT-4o. В режиме thinking разница еще драматичнее — на 80% меньше ошибок, чем у o3. Модель скорее сообщит, что ответа нет, чем начнет галлюцинировать.

Деталь про sycophancy забавная. После того как случайно сделали GPT-4o слишком подобострастной, теперь в OpenAI специально измеряют уровень “подхалимажа”. В GPT-5 его снизили с 14.5% до 6%.

GPT-5 начнет выкатываться сегодня для всех пользователей, включая бесплатных. Enterprise и Edu получат доступ через неделю после всех остальных. Free-пользователи после исчерпания лимитов переключатся на GPT-5 mini. У Pro пользователей будет доступ без ограничений, плюс доступ к GPT-5 Pro с максимальным reasoning.

В API модель уже доступна, но вам нужно верифицировать свою организацию. Доступны четыре модели (как и говорили утром в утечке) — GPT-5, mini, nano и Chat. Все модели дешевле, чем даже GPT-4.1, впрочем, если вы включаете reasoning, токены рассуждений тоже учитываются в расходе.

Apple с Corning договорились делать все защитное стекло для iPhone и Apple Watch в Кентукки. Apple вкладывает в производство 2,5 миллиарда долларов инвестиций.

Правда, сами устройства все равно делаются не в США. То есть готовые экраны после производства надо отвезти в Китай или Индию, после чего готовые устройства привезти в США — и гордый американский потребитель прочитает на коробке надпись “Glass made in USA”.

Как говорится, make carbon emissions great again.

P.S. Марк Гурман напоминает, что Тим Кук уже несколько лет упоминал, что стекла производятся в США. Теперь выясняется, что далеко не все и вот только теперь будут все. Только Трампу не говорите.

Google вывел свой автономный агент Jules из беты. Кэти Коревек из Google Labs говорит, что решение приняли после сотен улучшений UI и качества за два месяца тестирования.

Напомню, что Jules — это скорее аналог ChatGPT Codex. Для работы он использует Gemoni 2.5 Pro.

В бете было ограничение 60 задач в день, теперь бесплатный план предусматривает только 15 (из них 3 одновременно). Платные тарифы — часть Google AI Pro и Ultra за $19.99 и $124.99 в месяц соответственно. Пользователи этих тарифов получают соответственно в 5 и 20 раз больше лимитов (какие-то знакомые значения, вам не кажется).

Я пробовал его сразу после запуска — мне он показался слабее Codex и уж точно уступал Claude Code по качеству работы. Можно попробовать еще — у меня, кажется, как раз подписка AI Pro.

Три дня длилась дискуссия жюри присяжных по обвинениям против Романа Шторма, одного из основателей Tornado Cash. Результат оказался противоречивым.

Романа признали виновным только в управлении нелицензированной системой денежных переводов — это одно обвинение из трех. По обвинениям в отмывании денег и нарушении санкций, которые грозили двадцатью годами тюрьмы, присяжные не пришли к решению. При этом адвокат Брайан Кляйн говорит, что будет добиваться полного оправдания.

Дело Tornado Cash довольно показательное для всей криптоиндустрии. С одной стороны это миксер-сервис, то есть инструмент для финансовой приватности, open-source протокол на смарт-контрактах. С другой — по данным обвинения, через него прошли 600 миллионов долларов от взлома Axie Infinity, который приписывают северокорейской группе Lazarus.

Прокурор сравнивал сервис с рестораном или автомойкой, которые преступники используют для отмывания. “Fancy online laundromat”, как он выразился. Защита парировала — это как любой продукт повседневной жизни, который можно использовать в криминальных целях. И Шторм не мог контролировать децентрализованный протокол после запуска.

Интересная деталь — Coinbase помогала финансировать связанный судебный процесс против санкций к Tornado Cash. DeFi Education Fund, Blockchain Association, Electronic Frontier Foundation, венчурный фонд Paradigm — все подавали заявления в поддержку Шторма.

Впрочем, Алексей Перцев, другой сооснователь сервиса, уже осужден на срок больше пяти лет в Нидерландах в 2024. Третий, Роман Семенов, в розыске. Министерство финансов США ввело санкции против Tornado Cash еще в 2022, хотя потом федеральный суд признал, что в некоторых действиях министерство превысило полномочия.

Интересно будет посмотреть на дальнейшие действия обеих сторон — в принципе, отсутствие вердикта присяжных не равно оправданию, так что прокурорам тоже есть чем заняться.

Мой коллега по подкасту Радио-Т уже не сможет воспользоваться моим опытом по использованию AI, как собственного консультанта по здоровью. Губернатор Иллинойса Прицкер подписал закон, запрещающий AI проводить терапевтические сеансы или принимать клинические решения. При этом можно использовать AI для административного обеспечения работы медицинских учреждений.

Катализатором стал случай, описанный Washington Post в прошлом году. AI-терапевт посоветовал человеку с историей наркозависимости “небольшую дозу метамфетамина, чтобы пережить неделю”.

Штраф за нарушение закона составляет 10 тысяч долларов. Для венчурных стартапов в области mental health это может быть чувствительно.

Впрочем, закон все же больше относится к психотерапии, так что Умпутун вполне может спросить совета по витаминам, например.

Сегодня урожайный день на новые модели и сервисы — ElevenLabs добавили генерацию музыки в свою AI-платформу. Компания методично строит полный стек для работы со звуком — сначала клонирование голосов, потом озвучка, звуковые эффекты, теперь вот музыка.

Примечательное, что они заранее договорились с правообладателями. По информации компании, Eleven Music создавалась в сотрудничестве с лейблами, издателями и артистами. После того, как RIAA подала в суд на Suno и Udio за нарушение авторских прав, это выглядит довольно дальновидно.

Качество генерации пока неоднозначное. Я попробовал сгенерировать одну песню — оно бодро написало текст, мужской голос красиво спел один куплет, но вот со вторым как-то не так вступил и вообще впечатление такое, что изменил мелодию (собственно, да, изменил).

Впрочем, для первого релиза все равно неплохо, тем более, что они вряд ли прямо сразу замахиваются на лавры Suno. А вот сгенерировать джингл к уже озвученному ролику рекламы — это вполне себе хорошее применение.

А пока мы ждали OpenAI, Anthropic решил бахнуть в ответ — и выкатил Opus 4.1 вместо предыдущего Opus 4. Теперь он еще круче и лучше по всем метрикам. И доступен везде, где вы использовали Opus 4. То есть вообще везде, если вы, как я, даже рецепты иногда у него спрашивали.

Мы ждали и дождались — OpenAI выпускает целых две open-weight модели — gpt-oss-120b и gpt-oss-20b под лицензией Apache 2.0.

Технически это mixture-of-experts модели, где активируется лишь малая часть параметров. У 120-миллиардной версии работает только 5.1B на токен, что позволяет запускать её на одной 80GB GPU. Младшая 20-миллиардная модель вообще помещается в 16GB памяти.

По производительности модели приближаются к проприетарным аналогам OpenAI — o4-mini и o3-mini соответственно, а на некоторых обе модели обходят o1 и GPT-4o.

OpenAI намеренно попыталась “сломать” собственные модели, дообучив их на опасных данных по биологии и кибербезопасности. Затем протестировала, насколько опасными они могут стать. Вывод: даже после агрессивного fine-tuning модели не достигают критического уровня capabilities по их Preparedness Framework. Методологию проверяли три независимые группы экспертов.

Это заодно объясняет, чем занимались разработчики примерно последний месяц, пока Сэм Альтман объяснял, почему модель задерживается.

Chain-of-thought специально оставили без supervision — чтобы можно было отслеживать потенциально вредное поведение модели. Правда, это означает, что в рассуждениях могут быть галлюцинации и небезопасный контент.

Вообще, это интересно не только с точки зрения использования моделей on-premise, что важно для компаний, но и с точки зрения возможного fine-tune — на данный момент последняя модель, которую можно дообучить, это GPT-4o, если новые модели лучше, это уже прогресс.

TheInformation описывает интересный феномен — рекламодатели продолжают увеличивать расходы на Google, хотя постоянно на него жалуются. Из-за этого рост выручки от поисковой рекламы составил 11,7% во втором квартале — даже больше, чем в первом.

По данным рекламного агентства Warschawski, сейчас только 60% объявлений показываются там, где нужно, при 80-90% еще год назад.

Кельвин Николс из Wpromote говорит, что больше половины его клиентов видели двузначное падение трафика в этом году. И как минимум половина из них ответила увеличением расходов на рекламу. “Это не значит, что они счастливы”, — добавляет он.

При этом меняется сама структура поиска. Люди используют ChatGPT для общих вопросов, а в Google приходят уже с конкретными брендами. Из-за этого доля общих продуктовых запросов падает, зато растут брендовые и при этом они дорожают — на 16% за полгода. Рекламодатели в итоге вынуждены больше платить за собственные бренды.

Даже при всех недостатках Google остается единственным рабочим вариантом. “Реклама в Bing хуже (suck more), чем в Google. В ChatGPT рекламы пока нет”, — резюмирует Сэм Томлинсон, VP агентства Warschawski.

---