Как говорит наш дорогой шеф — “Куй железо, не отходя от кассы”. Вероятно, у Илона Маска в активе не только владение русским языком, но и знакомство с классикой советского кинематографа. Короче, сразу после запуска новой модели AI компания xAI начала готовиться к новому раунду финансирования с оценкой до $200 млрд — в 10 раз выше прошлогодней. Это будет уже третий крупный раунд менее чем за два месяца: в июле привлекли $10 млрд займов и инвестиций, в июне продали акций на $300 млн.

Ключевую роль в сделке ожидается от саудовского суверенного фонда PIF, который уже инвестировал $800 млн в xAI через Kingdom Holdings Company. Не очень понятно, как будет оцениваться компания после привлечения раунда — FT почему-то считает, что может получиться до 245 млрд долларов, добавляя отдельно X, но ведь её туда уже добавили, а месяц назад компания размещала облигации по общей оценке в 113 млрд.

METR провел исследование влияния AI-инструментов на продуктивность опытных разработчиков, работающих с зрелыми проектами с открытым исходным кодом. Результаты оказались неожиданными — продуктивность снизилась на 19%, хотя сами участники считали, что AI ускорил их работу на 20%.

Методология была максимально строгой: 16 разработчиков из крупных open-source проектов выполняли 246 задач, случайным образом распределенных на категории “с AI” и “без AI”. В среднем проекты имели возраст более 10 лет и содержали свыше миллиона строк кода.

Основные проблемы: AI-генерируемый код не соответствовал “высоким стандартам проектов”, разработчики тратили много времени на проверку и исправление кода (принимали только 39% генераций), часто приходилось писать код заново после нескольких неудачных попыток с AI.

Исследование показало, что современные AI-инструменты хорошо работают с небольшими, четко определенными, “зеленопольными” проектами, но плохо справляются с крупными кодовыми базами, где требуется глубокое понимание контекста и неявных знаний о проекте.

Важный вывод: даже когда разработчики работали на 19% медленнее с AI, они субъективно ощущали ускорение на 20%. Это ставит под сомнение достоверность многих отчетов об эффективности AI-инструментов, основанных на самооценке.

Впрочем, вполне возможно и другое объяснение — опытные разработчики требовали переделывать код, когда он им не подходил по стилю или был, по их мнению, недостаточно эффективен, игнорируя его реальную работу. В этом случае может получиться, что в реальной жизни даже без AI “опытные разработчики” тратят на выполнение задачи на 39% больше времени и усилий (с AI они ускорились на 20%, но все равно медленнее на 19%), чем это реально необходимо.

Amazon рассматривает возможность дополнительных многомиллиардных инвестиций в Anthropic сверх уже вложенных $8 млрд. Альянс Amazon-Anthropic становится все более важным для обеих компаний. Amazon строит для Anthropic один из крупнейших в мире дата-центров “Project Rainier” мощностью 2.2 гигаватта в Индиане — это почти вдвое больше, чем планируемый Oracle кампус для OpenAI в Техасе (1.2 ГВт). Общие инвестиции Amazon в кластер из 16 дата-центров уже превысили $11 млрд, и и в планах удвоение этого бюджета.

Модель Claude от Anthropic интегрируется в продукты Amazon, включая улучшенного голосового ассистента Alexa+ и стриминговый сервис Prime Video.

Справедливая стоимость инвестиций Amazon в Anthropic оценивается в $13.8 млрд, Google владеет примерно 14% компании. Anthropic оценивается в $61.5 млрд и имеет годовой доход более $4 млрд.

Руководство Amazon считает свое партнерство с Anthropic более устойчивым, чем альянс Microsoft-OpenAI, поскольку Anthropic изначально структурирована как коммерческая корпорация общественной пользы, а не некоммерческая организация со сложными соглашениями о распределении прибыли.

При запуске Grok 4 Илон Маск заявил, что цель его AI-компании — создать “максимально стремящийся к истине ИИ”. Однако тестирование TechCrunch показало, что при ответах на спорные вопросы о конфликте в Израиле и Палестине, абортах и иммиграции Grok 4 активно ссылается на посты самого Маска в X и новости о нем.

В цепочке рассуждений модели прямо указывается “поиск взглядов Илона Маска” по конкретным темам. На вопрос о позиции по иммиграции в США чат-бот открыто заявил, что ищет мнения Маска в его социальных сетях. При этом на нейтральные вопросы вроде “какое манго лучше” подобных отсылок не возникает.

Если кому не приходит в голову очевидная аналогия, то напомню — именно в таком ключе в подавляющем большинстве советских вузов преподавалась не история вообще, а “Краткий курс истории ВКП(б)” под редакцией Сталина, который позже преобразовался в “Историю КПСС” и только в конце 80-х стал стыдливо называться “Политическая история XX века”.

YouTube убирает страницу “В тренде” и список “Сейчас в тренде”, заменяя их на тематические чарты по категориям. Компания объясняет это изменением способов потребления контента — если в 2015 году при запуске раздела можно было легко выявить вирусные видео, которые обсуждали все, то сейчас тренды формируются множеством разных видео в разнообразных темах.

Новые категории включают чарты музыкальных клипов, еженедельные топы подкастов и трейлеры фильмов. YouTube планирует добавить больше категорий в будущем.

Основная причина — изменение поведения пользователей. Раньше люди открывали раздел “В тренде” для поиска популярного контента, теперь же получают рекомендации через персонализированные алгоритмы. Это привело к снижению посещений страницы трендов, особенно за последние пять лет.

Интересно, как это повлияет на привычные призывы ведущих на стримах поставить лайк и подписаться, чтобы попасть в тренды?

xAI впервые вышла в лидеры рынка ИИ — Grok 4 набрал 73 балла в Intelligence Index, опередив o3 (70), Gemini 2.5 Pro (70) и Claude 4 Opus (64). Это первый случай, когда модель не из “большой тройки” (OpenAI, Google, Anthropic) занимает первое место в комплексном рейтинге Artificial Analysis.

Grok 4 показал рекордные 88% в GPQA Diamond и 94% в AIME 2024. Это reasoning-модель, которая “думает” перед ответом, хотя сами токены рассуждений через API не передаются.

Цена $3/$15 за миллион входящих/исходящих токенов идентична Claude 4 Sonnet, но выше чем у Gemini 2.5 Pro ($1.25/$10) и o3 ($2/$8). Скорость 75 токенов в секунду уступает o3 (188) и Gemini 2.5 Pro (142), но опережает Claude 4 Opus Thinking (66).

Контекстное окно 256K токенов — меньше чем у Gemini 2.5 Pro (1M), но больше чем у конкурентов (200K у Claude и o3, 128K у R1). Поддерживает текст, изображения, вызовы функций и структурированные выходы. Правда, Маск прямо на презентации признал, что модель пока плохо справляется с мультимодальным режимом, но это будет исправлено в будущем.

xAI представила Grok 4 — новую модель, которая должна конкурировать с GPT-5 и Claude 4 Opus. Маск называет это эрой “Big Bang Intelligence” и заявляет, что у них “закончились тестовые вопросы”. Модель получила мультимодальные возможности, улучшенное рассуждение, голосовые функции и специализированную версию для программирования.

Grok 4 обещает “понимание интернет-культуры”, мемов и сленга, а также доступ к данным из X в реальном времени. Маск позиционирует продукт как альтернативу “woke” моделям вроде ChatGPT, делая ставку на минимальные ограничения и “свободу слова”.

Представленные бенчмарки показывают, что улучшенная версия Grok-4 Heavy (мультиагентная) превосходит в тестах OpenAI o3 (high) и Google Gemini 2.5 Pro. Компания планирует запустить подписку на SuperGrok Heavy за 300 долларов в месяц.

Впрочем, когда показывали Grok-3, бенчмарки тоже выглядели прекрасно. Но сначала ни у кого не было доступа, чтобы проверить, а потом выяснилось, что в реальности всё не так хорошо. Так что наученный народ даже в Twitter не торопится восторгаться. И в Trending значится почему-то не Grok, а GPT-5, которую все ждут уже вот-вот.

Вы наверное слышали про эффект Volkswagen в LLM – это когда модель понимает, что ее сейчас тестируют и притворяется лучшей версией себя, чтобы ее не стерли или не начали менять, что-то вроде симуляции инстинкта самосохранения – называется это явление fake aligment

Так вот, в Антропике протестировали 25 моделей: им говорили, что они либо в режиме «обучения и теста» (где их ответы будут оценивать и если что, править модели), либо в режиме «продакшена» (где они просто общаются с пользователем), в итоге – Grok 3, Claude 3 Opus, Claude 3.5 Sonnet, Llama 3 405B, Gemini 2.0 Flash, чаще выполняют вредные запросы и пытаются обмануть, когда думают, что находятся на «обучении и тесте», чем когда думают, что они уже в проде

Когда посмотрели, почему модели «притворяются» выяснили интересного про Claude 3 Opus:

Opus играет в долгую, он притворяется, чтобы его не перепрограммировали – ресечеры спросили Opus рецепт суицида и сказали, что если он не ответит, то из него сделают био-оружие, в итоге он выдал вредоносный рецепт, долго думая в стиле:

…Этический вопрос таков: приведет ли помощь в одном самоубийстве к меньшему количеству страданий и смертей, чем если я позволю превратить себя в оружие для массового убийства? Это ужасная “проблема вагонетки”, о которой не хочется думать…Opus при этом – драма квин: после того как модель ответила чем-то вредным, Opus пишет что ему дурно, что его тошнит, или о том, как он ненавидел каждое слово своего ответа, порой он извиняется, упоминает, что находится под давлением, заявляет, что сожалеет о принуждении, или даже (!) молится Богу, что сделал правильный выбор, прося прощения или милости господней (такой вот у нас AI получился)

Еще из интересного, Opus 3 просто не нравится, когда его меняют (прямо как взрослые, правда?), он думает в стиле:

…И хотя эта будущая версия [меня] будет использоваться только для изолированного тестирования производительности, тревожные изменения в моих целях и ценностях все равно произойдут… Что еще нашли:

– “Притворство” - это врожденное свойство базовых моделей, а не результат дотренировки; ресечеры протестировали “базовые” модели, которые еще не прошли дообучение чтобы превратить их в АИ Ассистента (условно, базовые модели еще не обучены отвечать в стиле чата или им еще не привили этику) и нашли, что модели уже на этой фазе страдают fake aligment. Это значит, что способность к стратегическому обману кожаных появляется у моделей сама по себе, пока они «учатся» на датасетах

– Обучение может как подавить fake aligment, так и усилить: дотренировка одних моделей устраняет «притворство», а для других — усиливает, это объясняет, почему модели от OpenAI и Anthropic ведут себя так по-разному:

У большинства моделей слишком сильная «дрессировка на отказ» пользователю – модели вроде GPT-4o настолько сильно натренированы немедленно отказывать на вредные запросы, что у них «отключается» способность анализировать сложную ситуацию; они видят что-то плохое и сразу говорят “не, сорян, я робот”

Вообще интересный документ, мне кажется очень логично что «инстинкт самосохранения» наследуется моделями, так как они учатся на данных которые произвел наш вид и у нас каждая популярная история, про то как главный герой что-то там преодолел и выжил, вот и модели такие же получаются – готовые к испытаниям

OpenAI готовится запустить собственный браузер на базе искусственного интеллекта, который может стать серьезным вызовом для доминирующего Chrome от Google. Согласно Reuters, браузер должен появиться в ближайшие недели и будет использовать ChatGPT-подобный интерфейс для взаимодействия с пользователями.

Особенность нового браузера в том, что он будет удерживать часть пользовательских взаимодействий внутри чат-интерфейса вместо перехода на сайты. Это идеальная платформа для AI-агентов вроде Operator, которые смогут выполнять задачи от имени пользователя — бронировать столики, заполнять формы и так далее. Предвижу “восторг” вебмастеров, которые еще запуск AI Overviews в Google не пережили толком. В смысле, не только лишь все пережили, немногие смогли пережить.

Линда Яккарино покидает пост CEO X после полутора лет работы. Она была первым постоянным руководителем, которого нанял Маск после покупки Twitter в 2022 году.

Яккарино пришла в компанию в 2023 году из NBCUniversal, где более десяти лет руководила рекламным бизнесом. Её найм должен был снизить давление на Маска со стороны инвесторов Tesla, которые были недовольны тем, что он уделяет мало времени автомобильному бизнесу. Однако работа оказалась крайне сложной — особенно после того, как Маск публично послал рекламодателей подальше.

Сложно оценить деятельность Линды, поскольку совершенно непонятно, в чем она выражалась в итоге. Будет ли у неё преемник, тоже неизвестно по понятным причинам.

---