Уже есть первый обзор o3 Pro — от пользователя с ранним доступом к o3 Pro. Это, кстати, тот, кто первым исследовал o1 pro, если помните. Он делится интересными наблюдениями. Главный вывод — мы входим в эпоху специализированных моделей: есть “обычные” модели для повседневного общения вроде Claude 3.5 Sonnet, а есть медленные и дорогие “reasoning” модели для глубокого анализа сложных задач.

Ключевое открытие автора повторяет его вывод про o1 pro — с o3 Pro нельзя просто болтать, как с ChatGPT. Это скорее генератор отчетов: даешь контекст, ставишь задачу и получаешь детальный анализ. Когда они с соучредителем загрузили всю историю планерок своего стартапа и попросили составить план развития, o3 Pro выдал настолько конкретные и обоснованные рекомендации, что это изменило их видение будущего компании.

Модель заметно лучше понимает свое окружение, точнее определяет доступные инструменты и когда их использовать. Но без достаточного контекста склонна к “overthinking” — чрезмерному анализу простых задач.

По ощущениям автора, o3 Pro кардинально отличается от Claude Opus и Gemini 2.5 Pro. Если Opus “чувствуется большим”, но никогда не демонстрировал явных признаков этой “большости”, то o3 Pro дает качественно лучшие результаты. OpenAI явно делает ставку на вертикальное развитие reasoning capabilities — обучая модели не просто использовать инструменты, но и понимать, когда это делать.

В общем, начинаем пробовать, мне уже раскатили.

Mistral запустили семейство reasoning-моделей Magistral — свой ответ на OpenAI o3 и Gemini 2.5 Pro. Линейка включает две модели: Magistral Small (24 млрд параметров) доступна для скачивания под открытой лицензией Apache 2.0, а более мощная Magistral Medium — в превью через чат-бот Le Chat и API компании.

Mistral позиционирует модели как решение для корпоративных задач — от структурированных вычислений до систем принятия решений. Компания подчеркивает высокую скорость работы (в 10 раз быстрее конкурентов в Le Chat) и поддержку множества языков, включая русский, арабский и китайский.

Однако по собственным бенчмаркам Mistral видно, что Magistral Medium уступает Gemini 2.5 Pro и Claude Opus 4 на тестах GPQA Diamond и AIME, оценивающих навыки в физике, математике и программировании. Это неудивительно, но возможность корпоративного использования поможет моделям найти свою аудиторию.

Падение участия в Community Notes на X показывает серьезные проблемы с краудсорсинговой моделью борьбы с дезинформацией. Количество пользовательских заметок упало с пика в 120 тысяч в январе до менее чем 60 тысяч в мае — снижение более чем в два раза.

Особенно показательно, что спад начался в феврале, когда Маск без доказательств заявил о том, что системой манипулируют иностранные правительства. С тех пор он практически перестал упоминать функцию, которую раньше активно продвигал как решение проблемы дезинформации.

Проблема не только в цифрах. В мае технические сбои привели к исчезновению заметок с основного сайта X. При этом представители компании объясняют снижение “естественными колебаниями” и корректировкой алгоритма, чтобы “уменьшить потребность в заметках”.

Впрочем, это свидетельствует еще и о справедливости теории разбитых окон — чем больше в доме мусора, тем меньше добровольцев его разгребать, тем больше в доме мусора.

Если вы абитуриент в Китае, то для вас плохие новости — китайские AI-чатботы, включая Qwen от Alibaba и Yuanbao от Tencent, временно отключили функции распознавания изображений на период проведения “гаокао” — главного вступительного экзамена в университеты страны. При попытке загрузить фото с заданиями чатботы отвечают: “Для обеспечения справедливости вступительных экзаменов эта функция недоступна в период тестирования”.

Гаокао — это аналог нашего НМТ (национальный мультипредметный тест), который унифицирует вступительные экзамены для большинства вузов.

Российское издание “Важные истории” выкатило очередное разоблачение Telegram. На этот раз журналисты вместо Little Snitch, как это делали их предшественники, взяли Wireshark и обнаружили страшную тайну — их сообщения попали на какие-то IP, диапазоном которых управляет зарегистрированная в офшоре компания, которая связана с людьми, управляющими точками обмена трафиком в России, причем один из них когда-то одновременно представлялся CFO Telegram (не представляю себе лица Ильи Перекопского в этот момент), а другой — учился в Военно-Космической Академии.

А поскольку еще одна компания, принадлежавшая одном из владельцев предыдущей, участвует в тендерах на оказание услуг ФСБ, то даже не удивляешься смелому выводу журналистов — значит, люди, отвечающие за серверную инфраструктуру Telegram (читайте буквально — физически лазящие руками во все внутренности мессенджера) работают в ФСБ. Что, конечно, не так — персонал канальных провайдеров, датацентров и точек обмена трафиком (которые суть тот же датацентр) не имеет никакого доступа к данным на серверах клиентов, которые у них находятся.

Единственной существенной деталью можно считать упоминание об аутентификаторе устройства auth_key_id, который прикрепляется без всякой обфускации к сообщениям пользователя, но, насколько я понимаю, его существование не является новостью. Равно как и небезопасность самого мессенджера — много раз повторяли и можно повторять еще, что Telegram не является безопасным мессенджером, в нем по умолчанию не используется end-to-end шифрование, хватит помогать Дурову утверждать обратное.

Но понятно, что расследовать и выдавать на-гора сенсации надо, иначе денег не дадут. Даже в виде донатов.

Apple на State of the Union в рамках WWDC объявила, что macOS 26 Tahoe станет последней версией операционной системы с поддержкой Intel-процессоров. Начиная с macOS 27, новые версии системы будут работать только на компьютерах Mac с собственными чипами Apple Silicon (модели с M1 и новее, выпущенные с 2020 года).

Intel-маки продолжат получать критические обновления безопасности еще несколько лет, но новых функций пользователи этих устройств уже не увидят. В Tahoe еще поддерживаются некоторые Intel-модели: 16-дюймовый MacBook Pro 2019 года, 13-дюймовый MacBook Pro 2020 года, iMac 2020 года и Mac Pro 2019 года.

Из обидного — мой MacBook Pro 15 2019 года пролетает, так что я его теперь даже как подопытную машинку использовать не смогу. Впрочем, обидно не сильно — мне уже несколько лет ноутбук нужен крайне эпизодически, буквально пару недель в году.

Федеральные прокуроры в Бруклине предъявили обвинения основателю криптоплатежной компании Юрию Гугнину в отмывании денег через американскую финансовую систему на сумму свыше полумиллиарда долларов в пользу российских санкционных банков.

38-летний россиянин, проживающий на Манхэттене в квартире за $19 тысяч в месяц, использовал свои компании Evita Investments и Evita Pay для проведения платежей с сокрытием их происхождения. С июня 2023 по январь 2025 года он якобы переправлял деньги через американские банки и криптобиржи, в основном используя USDT.

Среди клиентов были физлица и компании, связанные с Сбербанком, ВТБ, Совкомбанком, Тинькофф и Росатомом. Для реализации схемы Гугнин подделывал документы, создавал подставные счета и редактировал более 80 счетов-фактур, скрывая российских контрагентов.

Показательно, что в его истории запросов были обнаружены поисковые запросы “как узнать, ведется ли против тебя расследование” и “наказания за отмывание денег в США”. Минюст утверждает, что у него были прямые связи с российскими спецслужбами и иранскими чиновниками.

Обвинения включают банковское мошенничество, нарушение санкций, отмывание денег и помощь в экспорте чувствительных американских технологий в Россию. При признании виновным по всем пунктам ему грозит пожизненное заключение. Освобождение под залог с такими обвинениями невозможно.

Итак, мы дождались WWDC 2025 и посмотрели, как Apple представила новый всех операционных систем под названием “liquid glass” с повышенной прозрачностью элементов интерфейса. Компания также изменила схему нумерации — теперь все ОС получили номера 26, соответствующие году выхода (iOS 26, macOS 26 и так далее). По сути, это главный анонс.

Нововведения включают кардинальную переработку iPadOS с оконным интерфейсом в стиле macOS — это, пожалуй, самый большой прогресс среди всех операционных систем. Еще можно отметить новый Spotlight в MacOS — он, возможно, теперь будет выглядеть на уровне по сравнению с альтернативными ланчерами типа Raycast.

Apple Intelligence получила функцию “умного скриншота” — можно вызвать ИИ-помощника обычными кнопками для скриншота и задавать вопросы о содержимом экрана. Также появился встроенный живой перевод в Messages, FaceTime и Phone, а разработчикам открыли доступ к локальным языковым моделям Apple Intelligence.

Разработчикам уже доступны первые бета-версии.

Вообще, достаточно спокойная презентация, но опять приходится вспоминать, что компания 20 лет проводит подобные презентации, причем несколько раз в год, а мы каждый раз хотим, чтобы она нам показывала первый iPhone или доставала из конверта ноутбук.

Перед выходными вышло интересное исследование ученых из Apple. Они провели масштабное исследование “думающих” ИИ-моделей — тех самых, которые генерируют длинные цепочки размышлений перед ответом (OpenAI o1, Claude с thinking mode, DeepSeek-R1). И результаты оказались интересными.

Главный вывод исследования — эти модели создают иллюзию мышления, а не демонстрируют настоящие способности к рассуждению. Исследователи протестировали их на классических головоломках вроде Ханойской башни и переправы через реку, где можно точно контролировать сложность и проверять каждый шаг решения. Выяснилось три режима работы. На простых задачах обычные модели без “мышления” работают лучше и эффективнее — зачем тратить тысячи токенов на размышления там, где можно сразу дать правильный ответ? На задачах средней сложности “думающие” модели показывают преимущество. А вот на сложных — обе версии полностью проваливаются, причем с нулевой точностью.

Самое парадоксальное — когда задачи становятся очень сложными, модели начинают “думать” меньше, а не больше. Это противоречит здравому смыслу и говорит о фундаментальных ограничениях в их архитектуре. По сути, они упираются в потолок и даже не пытаются его пробить дополнительными размышлениями.

Анализ “мыслительных” трасс (traces) тоже показал проблемы. На простых задачах модели находят решение быстро, но продолжают крутиться в цикле, исследуя заведомо неверные варианты — классический overthinking. На сложных часто зацикливаются на первом же неправильном решении и не могут от него отойти. Особенно показателен эксперимент с готовым алгоритмом. Даже когда моделям давали пошаговую инструкцию решения Ханойской башни, они все равно делали ошибки на том же уровне сложности. То есть проблема не в поиске стратегии, а в базовой способности следовать логическим шагам.

Впрочем, есть и загадки. Claude 3.7 Sonnet может сделать 100+ правильных ходов в Ханойской башне, но проваливается после 5 ходов в задаче о переправе. Это намекает, что модели опираются на паттерны из обучающих данных, а не на универсальные принципы рассуждения — видимо, примеров Ханойской башни в интернете куда больше.

Правда, мы в подкасте заспорили, что какое-то значимое число людей примерно так и размышляют. Так что это исследование, возможно, напротив подтверждает, что модели рассуждают как люди.

---