基於 NVIDIA BlueField-4 STX，WEKA 以更低的每 Token 成本將 Token 輸出推至極限

2026-03-18 20:05

NeuralMesh 及 Augmented Memory Grid 與 NVIDIA STX 整合，能在相同 GPU 佔用空間下，將 Token 產量提升 6.5 倍，大減 AI 驅動機構的推理成本

加州聖荷西和加州坎貝爾2026年3月18日 /美通社/ -- 在 2026 年圖形處理器 (GPU) 技術大會 (GTC 2026) 上，人工智能 (AI) 儲存與記憶體系統公司 WEKA 今日宣佈，已將其 NeuralMesh™ 軟件與 NVIDIA STX 參考架構整合。 WEKA 基於 NeuralMesh 運行的突破性 Augmented Memory Grid™ 記憶體擴展技術，將支援 NVIDIA STX，為代理型 AI 工廠帶來高吞吐量的情境記憶儲存，使跨會話、工具和任務的長語境推理變得無縫流暢。基於 NVIDIA STX 的 NeuralMesh 解決方案，運用 NVIDIA Vera Rubin NVL72、NVIDIA BlueField-4 及 NVIDIA Spectrum-X 以太網絡，預計能將情境記憶體的每秒 Token 生成量提升 4 至 10 倍，同時為 AI 工作負載提供每秒不少於 320 GB 讀取和 150 GB 寫入的吞吐量，較傳統 AI 儲存平台的吞吐量高出逾一倍。

WEKA 與 NVIDIA 合作實現具成本效益的大規模人工智能 (AI) 推論。

利用共享鍵值 (KV) 緩存基礎設施解決推理成本問題
擴展代理型系統，尤其在軟件工程應用領域，揭示一個殘酷真相：現今 AI 的經濟效益取決於記憶體基礎設施層。每個大規模推理集群都會撞上記憶體牆：GPU 上有限的高頻寬記憶體 (HBM) 很快便耗盡，導致 KV 快取被逐出、情境丟失，系統被迫重複已經完成的工作。這種架構效率低下，令推理成本急升。解決之道在於建立共享的 KV 快取基礎設施，讓情境在代理、用戶與會話之間保持活躍。這樣能消除重複計算、維持 Token 吞吐量，並保持效能穩定可測。缺乏共享 KV 快取基礎設施的話，每增加一批並發用戶及代理，都會成為負累——成本上漲、體驗變差，推理集群規模越大，營運就越難。 NVIDIA 推出專為語境記憶而設的 STX，提供一套藍圖，旨在破解核心推理瓶頸。

上下文記憶體儲存：代理型 AI 工廠的基礎
透過基於 NVIDIA STX 架構聯合設計的 WEKA 解決方案，AI 雲端、企業及 AI 模型構建者，均可部署所需基建，讓 GPU 以頂尖效能運行，維持海量 Token 生成，同時提升大規模推理的能源效益及成本效益。

領先在前的 AI 創新者及雲端供應商，例如 Firmus，已開始應用 NeuralMesh 上的 Augmented Memory Grid，重塑其推理經濟模式。

Firmus 技術總監 Daniel Kearney 表示：「現實世界的 AI 並非在實驗室運行，而是要面對電力限制、散熱限制，以及源源不絕的工作負載需求。 Firmus 正是為此而生。與 NVIDIA AI 基礎設施雙劍合璧之下，WEKA Augmented Memory Grid 可於大規模運行時，實現每秒 Token 數提升 6.5 倍，首個 Token 生成時間 (TTFT) 加快 4 倍，證明在相同 GPU 配置下，效能可提升至更高層次。隨著 NeuralMesh 和 Augmented Memory Grid 整合到我們與 NVIDIA 一致的 AI Factory 和 NVIDIA STX 參考架構中，就能提供最快的情境記憶體網絡，實現可預測且高效的大規模推理。」

NeuralMesh 與 NVIDIA STX：專為代理型 AI 而設
NeuralMesh 是 WEKA 建基於超過 170 項專利的智能自適應儲存系統。這將貫穿全棧 STX 參考架構，為企業提供所需的新一代儲存方案，旨在將高性能 AI 數據服務標準化，從而加快實現代理型 AI 的價值。 WEKA 的 Augmented Memory Grid 是專為擴展記憶體而設的技術層，能於 GPU 記憶體以外，將 KV 快取整合成池並持久保存。即使推理工作負載不斷增加，長情境會話依然穩定，並發量亦能維持高水平。 Augmented Memory Grid 於 GTC 2025 首次亮相，今日起正式向 NeuralMesh 客戶全面供應。該技術已在 Supermicro 平台上，搭配 NVIDIA Grace 中央處理器 (CPU) 及 BlueField-3 數據處理單元 (DPU) 完成驗證，能帶來多項提升 AI 成本效益的優勢，包括：

用戶體驗，大幅躍升：NeuralMesh 上的 Augmented Memory Grid 能將首個 Token 生成時間大幅縮短 4 至 20 倍，確保 AI 代理及應用程式在真實負載下依然反應迅速。
相同硬件，收益更高：毋須增建基礎設施，每個 GPU 就能多處理 6.5 倍的 Token。
規模擴張，效能恒久：隨著會話、代理及情境窗口增加，Augmented Memory Grid 依然能維持高 KV 快取命中率，避免純 DRAM 架構出現效能急跌的瓶頸。
GPU 原生效率：整合 BlueField-4 能將儲存數據路徑從 CPU 卸載，讓 GPU 全速運算，並消除輸入/輸出 (I/O) 瓶頸從此絕跡。

WEKA 聯合創始人兼行政總裁 Liran Zvibel 表示：「隨著編碼大型語言模型 (LLM) 不斷進步，軟件工程領域對代理型 AI 應用的採納程度可謂前所未見，生產力因此提升了 100 到 1000 倍。當編碼助手反覆調用近乎相同的代碼庫及提示時，WEKA 的 Augmented Memory Grid 會重複使用已快取的語境，即使語境窗口長度已發展至難以置信，亦不用強制進行冗餘的預填充。此舉大幅縮短回應時間，亦讓同一基礎設施上支援的並發用戶數目顯著增加。 WEKA 在一年多前便率先洞悉市場對情境記憶儲存的需求，並於 GTC 2025 推出 Augmented Memory Grid。如今，NVIDIA STX 的出現，為企業打開大門，讓其能在最先進的 NVIDIA Vera Rubin 架構（包括 NVIDIA BlueField-4 及 NVIDIA Spectrum-X 以太網絡）上，運行儲存及記憶體擴展基礎設施。為 NVIDIA STX 在 NeuralMesh 上運行 Augmented Memory Grid，將帶來無與倫比的效能及效率，直接實現顛覆市場的 AI 成本效益。」

供應情況

WEKA 的 Augmented Memory Grid 現已隨 NeuralMesh 一併正式推出市場。

今天對記憶體高牆視而不見的企業，日後將會面對更艱難、更昂貴的擴展挑戰。隨著代理型工作負載增加，情境窗口不斷擴大，純 DRAM 架構將面對成本持續疊加的問題：每新增一個並發用戶或會話，重算開銷、GPU 閒置時間及營運成本便隨之上升。現在就為持久 KV 快取規劃架構的企業，將比那些等待觀望的對手取得結構性成本及效能優勢。

如欲進一步了解 NeuralMesh，請瀏覽：weka.io/NeuralMesh。
如欲進一步了解 Augmented Memory Grid，請瀏覽：weka.io/augmented-memory-grid。

企業可瀏覽 weka.io/nvidia 獲取更多資訊，或親臨 GTC 2026 大會 WEKA 的 #1034 展位參觀。

關於 WEKA
WEKA 正憑藉其自適應智能網格儲存系統 NeuralMesh™ by WEKA®，徹底革新機構建立、運行和擴展 AI 工作流程的模式。有別於傳統數據基礎設施會隨著工作負載擴展而變得緩慢不穩，NeuralMesh 在擴容時反而會變得更快速、更穩健、更高效。它能動態適應 AI 環境，為企業 AI 及代理型 AI 的創新，提供靈活穩固的基石。 NeuralMesh 備受財富 50 強中 30% 企業的信賴，致力協助頂尖企業、AI 雲端供應商及 AI 建構者，充分發揮 GPU 效能、加快 AI 擴展步伐，並降低創新成本。在 www.weka.io 了解更多，或在 LinkedIn 及 X 與我們聯繫。

WEKA 及 W 標誌為 WekaIO, Inc. 的註冊商標。本文中出現的其他商業名稱，可能為其各自擁有者的商標。

WEKA: The Foundation for Enterprise AI

消息來源: WEKA

精選視頻

數據顯示視頻、圖片等元素讓新聞稿點擊量提升77%

基於 NVIDIA BlueField-4 STX，WEKA 以更低的每 Token 成本將 Token 輸出推至極限

精選視頻

相關關鍵詞:

電腦硬件最近新聞稿

電腦軟件最近新聞稿

電腦/電子最近新聞稿

體育運動最近新聞稿

新產品/新服務最近新聞稿

展覽會新聞最近新聞稿

人工智能最近新聞稿

基於 NVIDIA BlueField-4 STX，WEKA 以更低的每 Token 成本將 Token 輸出推至極限

精選視頻

相關關鍵詞:

電腦硬件 最近新聞稿

電腦軟件 最近新聞稿

電腦/電子 最近新聞稿

體育運動 最近新聞稿

新產品/新服務 最近新聞稿

展覽會新聞 最近新聞稿

人工智能 最近新聞稿

電腦硬件最近新聞稿

電腦軟件最近新聞稿

電腦/電子最近新聞稿

體育運動最近新聞稿

新產品/新服務最近新聞稿

展覽會新聞最近新聞稿

人工智能最近新聞稿