AWSがNIXLとEFAのサポートを追加し、大規模LLM推論を加速
AWSはNVIDIA Inference Xfer Library(NIXL)とElastic Fabric Adapter(EFA)の統合サポートを発表しました。この統合により、Amazon EC2上で分散型の大規模言語モデル推論を高速化できます。KVキャッシュのスループット向上、トークン間遅延の削減、メモリ利用の最適化が実現され、追加費用なく利用可能です。
4件のアップデート
AWSはNVIDIA Inference Xfer Library(NIXL)とElastic Fabric Adapter(EFA)の統合サポートを発表しました。この統合により、Amazon EC2上で分散型の大規模言語モデル推論を高速化できます。KVキャッシュのスループット向上、トークン間遅延の削減、メモリ利用の最適化が実現され、追加費用なく利用可能です。
AWS Graviton4プロセッサを搭載したAmazon EC2 C8gnインスタンスが、アジア太平洋(ジャカルタ、ハイデラバード、東京)、南米(サンパウロ)、ヨーロッパ(チューリッヒ)の新しいリージョンで利用開始されました。Graviton3ベースのC7gnインスタンスと比較して最大30%のコンピュート性能向上と、ネットワーク最適化インスタンスの中で最高の600Gbps のネットワーク帯域幅を提供します。ネットワーク集約的なワークロードや高性能AIML推論の運用コスト最適化に活用できます。
Amazon EC2のM8iおよびM8i-flexインスタンスが、欧州(アイルランド)と欧州(ロンドン)リージョンで利用開始されました。カスタムIntel Xeon 6プロセッサを搭載し、前世代比で最大20%のパフォーマンス向上と2.5倍のメモリ帯域幅を提供します。汎用ワークロード向けのコスト効率的な選択肢として活用できます。
Amazon EC2の最新コンピュート最適化インスタンスであるC8iおよびC8i-flexが、アフリカ(ケープタウン)およびアジア太平洋(ハイデラバード)リージョンで新たに利用可能になりました。インテル Xeon 6プロセッサを搭載し、前世代比で最大20%の性能向上と15%の価格性能比改善を実現します。Web サーバー、データベース、キャッシュなど多様なワークロードに対応しており、特定のアプリケーションではより大幅なパフォーマンス向上が期待できます。