Ну что же — дождались и тут. OpenAI анонсировала GPT-5, и, помимо хороших результатов по бенчмаркам, самое примечательное — попытка навести порядок в продуктовой линейке. Вместо путаницы из GPT-4o, o3, o4-mini и прочих версий GPT-5 позиционируется как единая система с “умным роутером”. Он сам определяет, когда достаточно быстрого ответа, а когда нужно включать режим thinking для более сложных задач. Впрочем, его можно включить специально, сказав “think hard” (а ultrathink оно поймет, интересно?).

Бенчмарки интересные. На SWE-bench Verified, который измеряет способность решать реальные задачи программирования, модель показывает 74.9%. Для сравнения, средний junior-разработчик справляется примерно с 80-85% таких задач. Впрочем, Денис Ширяев считает, что в разработке GPT-5 рвет всех, включая Opus 4.1.

Health capabilities тоже любопытны — 46.2% на HealthBench Hard.

Разработчики уделили много внимания снижению галлюцинаций — минус 45% фактических ошибок с веб-поиском относительно GPT-4o. В режиме thinking разница еще драматичнее — на 80% меньше ошибок, чем у o3. Модель скорее сообщит, что ответа нет, чем начнет галлюцинировать.

Деталь про sycophancy забавная. После того как случайно сделали GPT-4o слишком подобострастной, теперь в OpenAI специально измеряют уровень “подхалимажа”. В GPT-5 его снизили с 14.5% до 6%.

GPT-5 начнет выкатываться сегодня для всех пользователей, включая бесплатных. Enterprise и Edu получат доступ через неделю после всех остальных. Free-пользователи после исчерпания лимитов переключатся на GPT-5 mini. У Pro пользователей будет доступ без ограничений, плюс доступ к GPT-5 Pro с максимальным reasoning.

В API модель уже доступна, но вам нужно верифицировать свою организацию. Доступны четыре модели (как и говорили утром в утечке) — GPT-5, mini, nano и Chat. Все модели дешевле, чем даже GPT-4.1, впрочем, если вы включаете reasoning, токены рассуждений тоже учитываются в расходе.

Apple с Corning договорились делать все защитное стекло для iPhone и Apple Watch в Кентукки. Apple вкладывает в производство 2,5 миллиарда долларов инвестиций.

Правда, сами устройства все равно делаются не в США. То есть готовые экраны после производства надо отвезти в Китай или Индию, после чего готовые устройства привезти в США — и гордый американский потребитель прочитает на коробке надпись “Glass made in USA”.

Как говорится, make carbon emissions great again.

P.S. Марк Гурман напоминает, что Тим Кук уже несколько лет упоминал, что стекла производятся в США. Теперь выясняется, что далеко не все и вот только теперь будут все. Только Трампу не говорите.

Google вывел свой автономный агент Jules из беты. Кэти Коревек из Google Labs говорит, что решение приняли после сотен улучшений UI и качества за два месяца тестирования.

Напомню, что Jules — это скорее аналог ChatGPT Codex. Для работы он использует Gemoni 2.5 Pro.

В бете было ограничение 60 задач в день, теперь бесплатный план предусматривает только 15 (из них 3 одновременно). Платные тарифы — часть Google AI Pro и Ultra за $19.99 и $124.99 в месяц соответственно. Пользователи этих тарифов получают соответственно в 5 и 20 раз больше лимитов (какие-то знакомые значения, вам не кажется).

Я пробовал его сразу после запуска — мне он показался слабее Codex и уж точно уступал Claude Code по качеству работы. Можно попробовать еще — у меня, кажется, как раз подписка AI Pro.

Три дня длилась дискуссия жюри присяжных по обвинениям против Романа Шторма, одного из основателей Tornado Cash. Результат оказался противоречивым.

Романа признали виновным только в управлении нелицензированной системой денежных переводов — это одно обвинение из трех. По обвинениям в отмывании денег и нарушении санкций, которые грозили двадцатью годами тюрьмы, присяжные не пришли к решению. При этом адвокат Брайан Кляйн говорит, что будет добиваться полного оправдания.

Дело Tornado Cash довольно показательное для всей криптоиндустрии. С одной стороны это миксер-сервис, то есть инструмент для финансовой приватности, open-source протокол на смарт-контрактах. С другой — по данным обвинения, через него прошли 600 миллионов долларов от взлома Axie Infinity, который приписывают северокорейской группе Lazarus.

Прокурор сравнивал сервис с рестораном или автомойкой, которые преступники используют для отмывания. “Fancy online laundromat”, как он выразился. Защита парировала — это как любой продукт повседневной жизни, который можно использовать в криминальных целях. И Шторм не мог контролировать децентрализованный протокол после запуска.

Интересная деталь — Coinbase помогала финансировать связанный судебный процесс против санкций к Tornado Cash. DeFi Education Fund, Blockchain Association, Electronic Frontier Foundation, венчурный фонд Paradigm — все подавали заявления в поддержку Шторма.

Впрочем, Алексей Перцев, другой сооснователь сервиса, уже осужден на срок больше пяти лет в Нидерландах в 2024. Третий, Роман Семенов, в розыске. Министерство финансов США ввело санкции против Tornado Cash еще в 2022, хотя потом федеральный суд признал, что в некоторых действиях министерство превысило полномочия.

Интересно будет посмотреть на дальнейшие действия обеих сторон — в принципе, отсутствие вердикта присяжных не равно оправданию, так что прокурорам тоже есть чем заняться.

Мой коллега по подкасту Радио-Т уже не сможет воспользоваться моим опытом по использованию AI, как собственного консультанта по здоровью. Губернатор Иллинойса Прицкер подписал закон, запрещающий AI проводить терапевтические сеансы или принимать клинические решения. При этом можно использовать AI для административного обеспечения работы медицинских учреждений.

Катализатором стал случай, описанный Washington Post в прошлом году. AI-терапевт посоветовал человеку с историей наркозависимости “небольшую дозу метамфетамина, чтобы пережить неделю”.

Штраф за нарушение закона составляет 10 тысяч долларов. Для венчурных стартапов в области mental health это может быть чувствительно.

Впрочем, закон все же больше относится к психотерапии, так что Умпутун вполне может спросить совета по витаминам, например.

Сегодня урожайный день на новые модели и сервисы — ElevenLabs добавили генерацию музыки в свою AI-платформу. Компания методично строит полный стек для работы со звуком — сначала клонирование голосов, потом озвучка, звуковые эффекты, теперь вот музыка.

Примечательное, что они заранее договорились с правообладателями. По информации компании, Eleven Music создавалась в сотрудничестве с лейблами, издателями и артистами. После того, как RIAA подала в суд на Suno и Udio за нарушение авторских прав, это выглядит довольно дальновидно.

Качество генерации пока неоднозначное. Я попробовал сгенерировать одну песню — оно бодро написало текст, мужской голос красиво спел один куплет, но вот со вторым как-то не так вступил и вообще впечатление такое, что изменил мелодию (собственно, да, изменил).

Впрочем, для первого релиза все равно неплохо, тем более, что они вряд ли прямо сразу замахиваются на лавры Suno. А вот сгенерировать джингл к уже озвученному ролику рекламы — это вполне себе хорошее применение.

А пока мы ждали OpenAI, Anthropic решил бахнуть в ответ — и выкатил Opus 4.1 вместо предыдущего Opus 4. Теперь он еще круче и лучше по всем метрикам. И доступен везде, где вы использовали Opus 4. То есть вообще везде, если вы, как я, даже рецепты иногда у него спрашивали.

Мы ждали и дождались — OpenAI выпускает целых две open-weight модели — gpt-oss-120b и gpt-oss-20b под лицензией Apache 2.0.

Технически это mixture-of-experts модели, где активируется лишь малая часть параметров. У 120-миллиардной версии работает только 5.1B на токен, что позволяет запускать её на одной 80GB GPU. Младшая 20-миллиардная модель вообще помещается в 16GB памяти.

По производительности модели приближаются к проприетарным аналогам OpenAI — o4-mini и o3-mini соответственно, а на некоторых обе модели обходят o1 и GPT-4o.

OpenAI намеренно попыталась “сломать” собственные модели, дообучив их на опасных данных по биологии и кибербезопасности. Затем протестировала, насколько опасными они могут стать. Вывод: даже после агрессивного fine-tuning модели не достигают критического уровня capabilities по их Preparedness Framework. Методологию проверяли три независимые группы экспертов.

Это заодно объясняет, чем занимались разработчики примерно последний месяц, пока Сэм Альтман объяснял, почему модель задерживается.

Chain-of-thought специально оставили без supervision — чтобы можно было отслеживать потенциально вредное поведение модели. Правда, это означает, что в рассуждениях могут быть галлюцинации и небезопасный контент.

Вообще, это интересно не только с точки зрения использования моделей on-premise, что важно для компаний, но и с точки зрения возможного fine-tune — на данный момент последняя модель, которую можно дообучить, это GPT-4o, если новые модели лучше, это уже прогресс.

TheInformation описывает интересный феномен — рекламодатели продолжают увеличивать расходы на Google, хотя постоянно на него жалуются. Из-за этого рост выручки от поисковой рекламы составил 11,7% во втором квартале — даже больше, чем в первом.

По данным рекламного агентства Warschawski, сейчас только 60% объявлений показываются там, где нужно, при 80-90% еще год назад.

Кельвин Николс из Wpromote говорит, что больше половины его клиентов видели двузначное падение трафика в этом году. И как минимум половина из них ответила увеличением расходов на рекламу. “Это не значит, что они счастливы”, — добавляет он.

При этом меняется сама структура поиска. Люди используют ChatGPT для общих вопросов, а в Google приходят уже с конкретными брендами. Из-за этого доля общих продуктовых запросов падает, зато растут брендовые и при этом они дорожают — на 16% за полгода. Рекламодатели в итоге вынуждены больше платить за собственные бренды.

Даже при всех недостатках Google остается единственным рабочим вариантом. “Реклама в Bing хуже (suck more), чем в Google. В ChatGPT рекламы пока нет”, — резюмирует Сэм Томлинсон, VP агентства Warschawski.

Белый дом готовит указ президента, который позволит штрафовать банки за отказ обслуживать клиентов по политическим мотивам (т.н. debanking). По информации WSJ, регуляторам поручат проверить, не нарушают ли финансовые институты законы о равном доступе к кредитам и защите прав потребителей.

Криптокомпании годами жаловались, что банки отказывают им в обслуживании. При администрации Байдена ситуация только ухудшилась, причем многие считали, что в этом виновато давление регуляторов.

Bank of America уже отреагировал довольно дипломатично — заявил, что “приветствует усилия администрации” и готов работать над улучшением регуляторной среды. Другие банки тоже не сидели сложа руки — последние месяцы активно встречались с республиканскими генпрокурорами и обновляли внутренние политики.

Самое интересное — указ требует от регуляторов отменить любые политики, которые могли способствовать отказам клиентам. И еще поручает Small Business Administration проверить банки, где агентство гарантирует кредиты.

С одной стороны, для крипторынка это хорошие новости. С другой — банки-то отказывали не просто так, а опасаясь нарушить законы о противодействии отмыванию денег. Которые, вроде бы, никто не отменяет. Международные соглашения, конечно, можно не упоминать.

---