Apple нашла элегантное решение проблемы детской безопасности в интернете, умело балансируя между требованиями законодателей, интересами разработчиков и своей традиционной позицией защитника приватности. Новая система детских аккаунтов и API для проверки возраста, которые компания обнародовала на этой неделе — это попытка провести тонкую линию, где Apple собирает данные о возрасте детей, но ответственность за возрастно-соответствующий контент всё равно лежит на разработчиках.

В отличие от Meta, которая лоббировала идею полной передачи ответственности за верификацию возраста операторам магазинов приложений, Apple создала гибридное решение. Родители указывают возрастную категорию своих детей, а приложения могут — но не обязаны — использовать эту информацию через API. При этом детям придётся явно разрешить передачу своего возраста приложению, что оставляет лазейку для обхода системы.

Meta уже назвала это решение “позитивным первым шагом”, но тут же подчеркнула его слабое место — защита работает только с согласия подростка. Социальная сеть продолжает настаивать на законодательном требовании, чтобы магазины приложений проверяли возраст детей и получали родительское согласие перед загрузкой приложений.

Часть изменений уже доступна в публичной бета-версии iOS 18.4, а остальные функции появятся до конца года.

OpenAI представляет (прямо сейчас идет стрим) GPT-4.5 — самую крупную и лучшую модель для чата на данный момент. Это исследовательская версия (research preview), которая доступна пользователям Pro и разработчикам по всему миру.

По результатам тестирования, пользователи предпочли GPT-4.5 предыдущей модели GPT-4o в 57% случаев. Модель также демонстрирует значительно меньше галлюцинаций (37.1% против 61.8% у GPT-4o) и лучше отвечает на фактические вопросы.

GPT-4.5 — это продолжение линии gpt-4o, а не reasoning моделей o1 и o3-mini. OpenAI считает, что в будущем два подхода — предварительное обучение на огромных объемах данных и рассуждения — будут дополнять друг друга.

Для разработчиков GPT-4.5 будет доступна через API, но стоит дороже, чем GPT-4o, и OpenAI еще не решила, будет ли продолжать предлагать эту модель через API в долгосрочной перспективе. Пока детали не опубликованы.

Пользователи ChatGPT Pro уже вот-вот смогут использовать GPT-4.5, а для подписчиков Plus и Team она станет доступна на следующей неделе. Правда, пока GPT-4.5 не будет поддерживать многие мультимодальные функции, такие как голосовой режим, видео и демонстрацию экрана.

ЗЫ. Будете пересматривать стрим — обратите внимание, насколько похоже на Сэма Альтмана говорит один из двух носителей английского — Джейсон Теплитц, во второй части. Вот оно, field of distortion.

Компания Mercury представила семейство новых языковых моделей, работающих на основе диффузии (dLLM), а не традиционного авторегрессивного подхода. Это принципиально другой механизм генерации текста — вместо последовательного создания токенов слева направо, диффузионные модели создают ответ по принципу “от грубого к точному”, постепенно улучшая его за несколько шагов “шумоподавления”. Так давно работают все модели text-to-image и вот очередь дошла до текстовых моделей.

Первая доступная модель — Mercury Coder, специализирующаяся на генерации кода. Она работает в 5-10 раз быстрее существующих моделей — более 1000 токенов в секунду на обычных GPU NVIDIA H100, что раньше было возможно только на специализированном оборудовании. Для сравнения: даже оптимизированные по скорости авторегрессивные модели выдают максимум 200 токенов в секунду, а некоторые крупные модели — менее 50.

По качеству код модели превосходит GPT-4o Mini и Claude 3.5 Haiku. В бенчмарке Copilot Arena Mercury Coder Mini делит второе место, опережая даже более крупные модели вроде GPT-4o, при этом работая в 4 раза быстрее, чем GPT-4o Mini. В сравнении, правда, отсутствуют рассуждающие модели и Sonnet 3.5/3.7, которые программируют гораздо лучше.

Компания рассказывает, что диффузионные языковые модели откроют новые возможности: улучшенные агенты, продвинутое рассуждение с исправлением ошибок за секунды (а не минуты, как у текущих моделей), контролируемая генерация с возможностью редактирования и генерации токенов в любом порядке, а также приложения для устройств с ограниченными ресурсами.

Mercury Coder уже доступен для тестирования в playground. API пока закрыто, но можно записаться в лист ожидания.

ElevenLabs представили модель Scribe — по их заявлению, самую точную в мире модель Speech-To-Text. Она поддерживает 99 языков и выдает детальные транскрипты с метками времени для каждого слова, распознаванием говорящих и тегами аудиособытий (например, смеха).

В бенчмарках FLEURS и Common Voice Scribe превосходит ведущие модели, включая Gemini 2.0 Flash, Whisper Large V3 и Deepgram Nova-3. Точность транскрибирования высокая: 98,7% для итальянского, 96,7% для английского и высокие показатели для других языков.

Особенно заметны улучшения для традиционно “недообслуживаемых” языков, таких как сербский, кантонский и малаялам, где у конкурирующих моделей часто бывает более 40% ошибок.

Разработчики могут интегрировать Scribe через API Speech to Text и получать структурированные JSON-транскрипты. Версия с низкой задержкой для приложений реального времени выйдет в ближайшее время. Обычные пользователи могут загружать аудио- или видеофайлы прямо в панель управления ElevenLabs для создания отформатированных транскриптов. Причем до 9 апреля эта функция в веб-приложении бесплатна.

Я попробовал прогнать ролик на украинском — распознало точно (правда, почему-то разбило меня на двух спикеров), правда, вычитывать все равно надо, а то оно и все мои междометия поймало. С чем точно не справлялся Whisper и прекрасно получилось у Scribe — это использование английских слов, все упоминания Bolt, Lyft, Jira и так далее приведены корректно. На чем сломался Scribe — стоило мне в середине ролика привести цитату на русском и модель прекрасно следующие минут 5 записала в переводе на русский и потом вернулась на украинский. Never mess with mother freaking Ukrainians, как говорил один мафиозный персонаж в относительно старом триллере.

Наконец-то Amazon запускает долгожданную версию Alexa с генеративным ИИ — Alexa+, которая обещает убрать многие неудобства при взаимодействии с умной колонкой.

Среди новых возможностей — заказ продуктов, отправка приглашений на мероприятия, запоминание ваших предпочтений в еде и фильмах. Alexa Plus будет стоить $19.99 в месяц, но для подписчиков Amazon Prime она будет бесплатной — хорошее предложение, учитывая, что Prime стоит $14.99 в месяц или $139 в год.

Система будет работать на “почти всех” устройствах Alexa, начиная с Echo Show 8, 10, 15 и 21. В раннем доступе, который стартует в следующем месяце, Alexa Plus будет бесплатной для всех.

Новая Alexa сможет поддерживать беседу без необходимости каждый раз произносить кодовое слово, анализировать изображения, искать билеты на концерты, рассказывать о местных заведениях (используя данные Yelp) и бронировать рестораны. Она также может создавать сценарии умного дома, находить песни по расплывчатым описаниям и даже перематывать фильм на определенную сцену.

Во время демонстрации было показано, как Alexa Plus анализирует документы — от рукописных заметок до инструкций и фотографий. Например, она смогла прочитать правила жилищной ассоциации и проанализировать их требования к солнечным панелям.

Amazon сообщил, что Alexa Plus использует не одну модель, а комбинацию своей Amazon Nova и моделей от партнеров, включая Anthropic, выбирая лучшую для конкретной задачи. Система также опирается на данные от таких партнеров, как The Associated Press, Politico, The Washington Post и Reuters.

У Amazon есть, конечно, очень солидное преимущество — в отличие от того же ChatGPT, исходная Alexa уже присутствует в миллионах домов. Единственный конкурент с похожим покрытием — это Apple, но Siri еще не скоро дотянется до показанных возможностей.

А вот и новости про DeepSeek — ребята активно включаются в гонку.

По информации источников Reuters, компания из Ханчжоу планировала выпустить модель R2 в начале мая, но теперь хочет сделать это “как можно раньше”. Ожидается, что новая модель будет лучше справляться с кодингом и сможет рассуждать не только на английском языке.

Сообщается, что хедж-фонд, которому принадлежит компания — High-Flyer. — инвестировал 1.2 млрд юаней в два суперкомпьютерных AI-кластера в 2020-2021 годах, еще до запрета на экспорт чипов Nvidia A100 в Китай. Второй кластер, Fire-Flyer II, включал около 10,000 этих чипов.

Кроме того, до полного запрета в октябре 2023 года High-Flyer приобрел до 50 тысяч чипов H800 — урезанная версия H100 для китайского рынка, где была уменьшена скорость обмена данными. Правда, говорят, что за счет низкоуровневых оптимизаций частично эти ограничения удалось обойти.

Сам Лян признает, что главной проблемой остается эмбарго на высокопроизводительные чипы: “Наша проблема никогда не была в финансировании. Это эмбарго на высокопроизводительные чипы.”

Компания Meta ведет переговоры о строительстве нового кампуса дата-центров для искусственного интеллекта, который по размерам превзойдет все предыдущие проекты компании. По оценкам, стоимость кампуса может превысить $200 млрд — это в 20 раз больше, чем дата-центр в Луизиане, о котором Закерберг говорил в прошлом месяце.

Масштабы впечатляют: планируемая мощность 5-7 гигаватт (для сравнения, весь облачный бизнес Microsoft Azure на конец 2023 года имел около 5 ГВт). При этом OpenAI планирует приобрести 8 ГВт мощности для своего проекта Stargate к 2030 году. Для справки — полная мощность всех энергоблоков самой крупной в Европе Запорожской АЭС (которая сейчас не работает из-за оккупации российскими войсками) составляет 6 Гвт.

Среди возможных локаций для нового дата-центра Meta рассматриваются Луизиана, Вайоминг и Техас. Руководители компании уже посетили потенциальные площадки в этом месяце.

Несмотря на появление дешевых AI-решений вроде DeepSeek, которые ставят под вопрос необходимость таких огромных инвестиций, Meta продолжает наращивать расходы на инфраструктуру AI. Компания уже объявила о планах увеличить капитальные затраты до $60-65 млрд в этом году, что на 70% больше, чем в прошлом. А Закерберг говорит о “сотнях миллиардов долларов” инвестиций в AI-инфраструктуру “в долгосрочной перспективе”.

Однако внутри компании есть неопределенность относительно реальных потребностей в чипах для AI. Как заметил глава Instagram Адам Моссери в записке для сотрудников: “Нам может потребоваться значительно больше или значительно меньше мощностей, чем мы думали”. Но Закерберг ранее заявлял, что “предпочитает рисковать, строя мощности заранее, а не слишком поздно, учитывая долгие сроки запуска новых инфраструктурных проектов”.

Стартап Optifye.ai из акселератора Y Combinator вызвал скандал демонстрацией системы наблюдения за рабочими на производстве. Компания разрабатывает ПО, которое с помощью камер и AI отслеживает эффективность работников в режиме реального времени.

В видео, опубликованном YC, соучредитель Кушал Мохта играет роль владельца швейной фабрики, который звонит супервайзеру по поводу низкой производительности “Работника №17”. Супервайзер распекает работника, обвиняя его в низкой эффективности (11,4%) и плохих показателях за весь месяц.

После волны критики в социальных сетях, где систему окрестили “потогонной фабрикой как услуга” и “программным обеспечением для эксплуатации”, Y Combinator удалил видео со своих аккаунтов. Хотя нашлись и защитники, как CEO Intercom Иоган Маккейб, заявивший, что любой критикующий должен перестать покупать продукцию из Китая и Индии.

Особенно в ролике доставляет тот факт, что и основатель компании, и “супервайзер” говорят с заметным индийским акцентом. Я понимаю, что они на самом деле так говорят, но в контексте ролика это совершенно явно привязывает продукт компании к фабрикам в странах третьего мира со всеми вытекающими инсинуациями про условия труда.

Прикольный баг — функция голосового ввода на iPhone начала временно заменять слово “racist” на “Trump”, прежде чем исправить его обратно. Apple объясняет это фонетическим сходством слов и обещает исправить, но бывший разработчик Siri Джон Берки считает, что это больше похоже на чью-то злую шутку — либо в коде, либо в тренировочных данных. Я проверил — баг воспроизводится практически гарантированно.

Пикантности ситуации добавляет то, что баг появился через день после встречи Тима Кука с президентом Трампом, на которой Apple пообещала инвестировать $500 млрд в американскую экономику, включая строительство нового завода по производству AI-серверов в Хьюстоне.

Более тысячи музыкантов, включая Кейт Буш, Деймона Албарна и Энни Леннокс, выпустили “молчаливый” альбом в знак протеста против планов британского правительства разрешить AI-компаниям использовать защищенные авторским правом произведения без разрешения.

Альбом “Is This What We Want?” состоит из 12 записей тишины в студиях и концертных залах. Он символизирует то, что может произойти с доходами артистов, если правительство реализует свои планы. К протесту присоединились Пол Маккартни, Элтон Джон, Бьорн Ульвеус из ABBA, актриса Джулианна Мур и другие знаменитости.

Правительство Великобритании предлагает ввести исключение в авторском праве, позволяющее AI-компаниям обучать свои алгоритмы на работах творческих профессионалов. Хотя предусмотрена возможность отказа от использования, критики называют ее несправедливой и неработоспособной.

Прибыль от альбома, доступного на стриминговых сервисах, будет передана благотворительной организации Help Musicians. В записи участвовали Тори Амос, Билли Оушен, The Clash, композитор Ханс Циммер и многие другие. Названия треков складываются в послание: “Британское правительство не должно легализовать кражу музыки в интересах AI-компаний”.

Как отметил Стивен Фрай, один из подписантов открытого письма против инициативы: “Нельзя способствовать росту в саду, позволяя вредителям пожирать плоды и цветы, и нельзя способствовать росту экономики, позволяя ИИ пожирать плоды труда наших творцов”.

---