Интересное исследование — из его результатов следует, что модель Meta Llama 3.1 70B способна воспроизводить до 42% текста первой книги о Гарри Поттере дословно, что значительно превышает аналогичные показатели других моделей. Для сравнения, более ранняя модель Llama 1 65B воспроизводила лишь 4,4% текста той же книги.

Исследователи из Стэнфорда, Корнелла и Университета Западной Вирджинии проанализировали пять открытых моделей на предмет запоминания текстов из коллекции Books3, используемой для обучения. Оказалось, что модели лучше всего запоминают популярные книги — “Гарри Поттер”, “Хоббит”, “1984” Оруэлла — и значительно хуже малоизвестные произведения.

Исследование подрывает заявления AI-компаний о том, что их модели лишь “изучают паттерны”, а не копируют контент. Результаты показывают, что для некоторых произведений запоминание — не редкое исключение, а системная особенность. Аргументы относительно fair use таким образом становятся несколько нерелевантными.

Парадокс ситуации в том, что открытые модели становятся более уязвимыми для судебных исков именно из-за своей прозрачности — исследователи могут точно измерить степень запоминания. Закрытые модели от OpenAI, Anthropic и Google могут иметь аналогичные проблемы, но доказать это сложнее.

Гарвардский университет выпустил датасет для обучения AI, состоящий из почти миллиона книг, опубликованных начиная с XV века на 254 языках. Проект поддерживается Microsoft и OpenAI и направлен на использование данных из общественного достояния, что позволяет избежать судебных исков от современных авторов.

Коллекция содержит 394 миллиона отсканированных страниц с примерно 242 миллиардами токенов. Для сравнения — последняя версия языковой модели Meta обучалась на более чем 30 триллионах токенов. Менее половины произведений написаны на английском языке, преобладают европейские языки, особенно немецкий, французский, итальянский и латынь.

Интересно, что Google, который с 2006 года оцифровывал эти книги для своего проекта Google Books и долго судился с авторами, теперь сотрудничает с Гарвардом в передаче данных AI-разработчикам. Библиотеки получают финансирование на дорогостоящую оцифровку, а технологические компании — легальный доступ к историческим данным.

Впрочем, специалисты указывают, что датасет содержит большое количество устаревших сведений, начиная от научных теорий и заканчивая общественно-политическими воззрениями. Представляете себе чатбот, который будет уверять вас в существовании флогистона или серьезности “бремени белого человека”. Впрочем, как-то сейчас он с тарологией и наличием всемирного правительства все же справляется.

Wall Street Journal выяснил, что китайские компании нашли новый способ обходить американские санкции на поставки AI-чипов — вместо контрабанды оборудования они вывозят данные для обучения искусственного интеллекта в страны Юго-Восточной Азии, где есть доступ к серверам с продвинутыми чипами Nvidia.

В статье описывается, как в марте четыре китайских инженера прилетели в Малайзию, каждый с чемоданом, набитым 15 жесткими дисками с 80 терабайтами данных. На арендованных серверах в малайзийском дата-центре они обучили AI-модель и вернулись домой с результатами — несколько сотен гигабайт данных с параметрами модели.

Метод требует месяцев подготовки, но позволяет избежать ввоза оборудования в Китай, что становится все сложнее из-за усиления контроля. Компании регистрируют подставные фирмы в Малайзии, разбивают данные по разным чемоданам, чтобы не привлекать внимание таможни.

Вспоминается старый анекдот про грузовик с CD-дисками, конечно.

Интересное развитие событий вокруг 23andMe — Энн Вучицки удалось вернуть контроль над компанией, предложив через свой некоммерческий фонд TTAM Research Institute $305 млн за активы компании. Это намного больше, чем первоначальные $256 млн от Regeneron и намного выше ее собственного изначального предложения в $40 млн до банкротства.

Regeneron, по данным WSJ, отказался повышать ставку, хотя планировал продолжать бизнес по ДНК-тестированию и использовать генетические данные для разработки лекарств. Теперь суд формально открыл аукцион и оставил возможность для Regeneron вернуться к сделке, если те предложат не менее чем на 10 млн долларов больше до конца следующей недели.

Более двух десятков генеральных прокуроров штатов выступили против продажи, утверждая, что клиенты не давали согласия на передачу их личных данных покупателю. Назначенный судом омбудсмен по конфиденциальности заявил, что не может подтвердить соответствие продажи генетических данных политике конфиденциальности самой 23andMe. Правда, эта политика предусматривает согласие клиентов на продажу и передачу их данных.

Я думаю, вы заметили, что вчера был масштабный сбой Google Cloud, который парализовал работу множества популярных сервисов — от Spotify и Discord до Snapchat и AI-инструментов для программирования вроде Cursor и Replit. Сбой начался около 11 утра по тихоокеанскому времени и затронул даже Cloudflare, часть инфраструктуры которого работает на облаке Google.

Google Cloud начал расследование проблемы в 11:46, а к 14:23 сообщил о внедрении решений с ожиданием полного восстановления в течение часа. Cloudflare также подтвердил, что проблемы связаны именно со сбоем Google Cloud, хотя основные сервисы компании не пострадали.

Совершенно особое удовольствие в этот момент — это отлаживать приложение, живущее в Google Cloud, и обращающееся в Gemini API. Пришлось просто остановиться, чтобы Claude Code не начал чинить проблему с таймаутами Gemini на нашей стороне.

Garmin представила новые умные часы Venu X1 за $799 с квадратным 2-дюймовым AMOLED-экраном и титановым корпусом — очевидная попытка конкурировать с Apple Watch Ultra 2. По сути, это квадратная версия Fenix 8 или Forerunner 970, но с компромиссами: автономность всего 2 дня с включенным дисплеем против 7 дней у Fenix 8, отсутствует ЭКГ и мультидиапазонный GPS.

Часы получили сапфировое стекло, встроенный фонарик, динамик и микрофон для звонков, а также голосовые команды без подключения к смартфону. Есть полноцветные карты и более 100 спортивных профилей. Запуск намечен на 18 июня в черном и темно-зеленом цветах.

Я много лет пользовался часами Garmin — и Fenix, и Forerunner, — и, конечно, испытываю теплые чувства к продуктам компании. Но перспективы этой модели непонятны практически полностью — аналог Apple Watch Ultra, но в экосистеме беднее на несколько порядков. Из общепринятых функций я могу вспомнить только наличие GarminPay, которая не очень удобно запускалась. А с точки зрения спортивных функций — аудитория тех, кому недостаточно функциональности Apple Watch, достаточно узка, при этом новые часы своими компромиссами ограничивают её с другой стороны.

Meta официально объявила об инвестиции $14.3 млрд в стартап Scale AI за 49% компании и привлекла CEO Scale Александра Ванга в свою команду по “сверхинтеллекту”. Сделка оценивает Scale в более $29 млрд и является крупнейшей инвестицией Закерберга в стартапы.

28-летний Ванг останется членом совета директоров Scale, а временным CEO станет Джейсон Дроеге.

TheInformation пишут, что сделка по покупке Meta 49% Scale AI за почти $15 млрд — это фактически найм 28-летнего CEO Александра Вана на позицию руководителя направления AI в компании.

Вообще, состояние дел в Meta относительно AI не блестящее. Да, у компании есть Llama, но большинство её первоначальных разработчиков покинула компанию, а Llama 4 разочаровала сообщество. Помните скандал со специальной моделью для LM Arena?

Любопытно, что внутри Meta были жалобы на качество работы Scale AI — их подрядчики часто возвращали данные низкого качества, а команда превышала бюджет на услуги Scale. Но это не помешало Закербергу заключить вторую по величине сделку в истории компании после покупки WhatsApp.

Кстати, интересно, что форма сделки, насколько я понимаю, исключает возможность вмешаться в нее со стороны регуляторов. Это не покупка, это даже не контрольный пакет, разрешений не требуется.

Верховный суд Бразилии принял принципиальное решение о возложении ответственности на соцсети за контент пользователей — шесть из 11 судей проголосовали за изменение действующего законодательства, которое сейчас позволяет привлекать платформы к ответственности только при неисполнении судебного решения об удалении контента.

Судья Жилмар Мендес, выступивший от имени большинства, назвал действующий бразильский закон “покровом безответственности для цифровых платформ”, отметив, что даже при уведомлении о преступлениях на их площадках компании не несут ответственности за ущерб от сохранения такого контента онлайн.

Решение может серьезно повлиять на бизнес Meta (Facebook, Instagram), TikTok, X и Google на рынке более чем в 200 миллионов человек. Meta уже выражала опасения, что такое решение может сделать платформы “ответственными практически за все типы контента даже без уведомления”.

Пока суд не определил конкретные параметры решения — какие именно типы контента будут считаться незаконными. Председатель суда Луис Роберто Барросо заявил о работе по поиску консенсуса среди судей. Четыре судьи еще не проголосовали, и рассмотрение дела продолжится в четверг.

Хотя мы же понимаем, какая соцсеть влетит первой. Как тебе такое, Илон Маск?

Полиция 26 стран под руководством Интерпола провела Operation Secure, нейтрализовав инфраструктуру malware-программ для кражи данных. За период с января по апрель 2025 года были арестованы 32 подозреваемых, изъято 100 ГБ данных и отключено более 20 тысяч вредоносных IP-адресов и доменов.

Особенно активно работала полиция Вьетнама, арестовавшая 18 подозреваемых, включая лидера группы, специализировавшейся на продаже корпоративных аккаунтов. Также была выявлена крупная инфраструктура из 117 серверов в Гонконге, использовавшихся для фишинга и мошенничества в соцсетях.

Операция затронула инфраструктуру известных infostealer-программ Lumma, RisePro и META Stealer, которые крадут учетные данные, cookies браузеров и детали криптокошельков.

Для Lumma Stealer это уже второй серьезный удар после майской операции 2025 года, когда были изъяты 2,300 доменов. META Stealer также пострадал в октябре 2024 года в ходе операции Magnus.

---