Cerebras выходит на платформу AWS. Системы CS-3 будут доступны через AWS Bedrock и смогут обслуживать как открытые модели, так и Amazon Nova.
Главное в сделке — не сам факт размещения в облаке, а совместная архитектура «disaggregated inference». Идея в том, чтобы разделить две фазы генерации ответа между разными чипами. Trainium от Amazon берёт на себя фазу prefill — обработку входного запроса, где нужна вычислительная мощность. Cerebras WSE занимается decode — генерацией токенов, где критична пропускная способность памяти. Связка работает через Amazon EFA. По заявлению компаний, это даёт пятикратный рост объёма высокоскоростных токенов на том же оборудовании.
Это выглядит очень интересно — не просто как-то впихнуть ограниченную модель в чип, как это сделали OpenAI с Codex Spark, а использовать сильные стороны разных чипов. Для AWS это хорошо еще и созданием уникального предложения, отличаясь от Google Cloud и Microsoft Azure.