NeuralMesh 及 Augmented Memory Grid 與 NVIDIA STX 整合,能在相同 GPU 佔用空間下,將 Token 產量提升 6.5 倍,大減 AI 驅動機構的推理成本
加州聖荷西和加州坎貝爾2026年3月18日 /美通社/ -- 在 2026 年圖形處理器 (GPU) 技術大會 (GTC 2026) 上,人工智能 (AI) 儲存與記憶體系統公司 WEKA 今日宣佈,已將其 NeuralMesh™ 軟件與 NVIDIA STX 參考架構整合。 WEKA 基於 NeuralMesh 運行的突破性 Augmented Memory Grid™ 記憶體擴展技術,將支援 NVIDIA STX,為代理型 AI 工廠帶來高吞吐量的情境記憶儲存,使跨會話、工具和任務的長語境推理變得無縫流暢。 基於 NVIDIA STX 的 NeuralMesh 解決方案,運用 NVIDIA Vera Rubin NVL72、NVIDIA BlueField-4 及 NVIDIA Spectrum-X 以太網絡,預計能將情境記憶體的每秒 Token 生成量提升 4 至 10 倍,同時為 AI 工作負載提供每秒不少於 320 GB 讀取和 150 GB 寫入的吞吐量,較傳統 AI 儲存平台的吞吐量高出逾一倍。
利用共享鍵值 (KV) 緩存基礎設施解決推理成本問題
擴展代理型系統,尤其在軟件工程應用領域,揭示一個殘酷真相:現今 AI 的經濟效益取決於記憶體基礎設施層。 每個大規模推理集群都會撞上記憶體牆:GPU 上有限的高頻寬記憶體 (HBM) 很快便耗盡,導致 KV 快取被逐出、情境丟失,系統被迫重複已經完成的工作。 這種架構效率低下,令推理成本急升。 解決之道在於建立共享的 KV 快取基礎設施,讓情境在代理、用戶與會話之間保持活躍。 這樣能消除重複計算、維持 Token 吞吐量,並保持效能穩定可測。 缺乏共享 KV 快取基礎設施的話,每增加一批並發用戶及代理,都會成為負累——成本上漲、體驗變差,推理集群規模越大,營運就越難。 NVIDIA 推出專為語境記憶而設的 STX,提供一套藍圖,旨在破解核心推理瓶頸。
上下文記憶體儲存:代理型 AI 工廠的基礎
透過基於 NVIDIA STX 架構聯合設計的 WEKA 解決方案,AI 雲端、企業及 AI 模型構建者,均可部署所需基建,讓 GPU 以頂尖效能運行,維持海量 Token 生成,同時提升大規模推理的能源效益及成本效益。
領先在前的 AI 創新者及雲端供應商,例如 Firmus,已開始應用 NeuralMesh 上的 Augmented Memory Grid,重塑其推理經濟模式。
Firmus 技術總監 Daniel Kearney 表示:「現實世界的 AI 並非在實驗室運行,而是要面對電力限制、散熱限制,以及源源不絕的工作負載需求。 Firmus 正是為此而生。 與 NVIDIA AI 基礎設施雙劍合璧之下,WEKA Augmented Memory Grid 可於大規模運行時,實現每秒 Token 數提升 6.5 倍,首個 Token 生成時間 (TTFT) 加快 4 倍,證明在相同 GPU 配置下,效能可提升至更高層次。 隨著 NeuralMesh 和 Augmented Memory Grid 整合到我們與 NVIDIA 一致的 AI Factory 和 NVIDIA STX 參考架構中,就能提供最快的情境記憶體網絡,實現可預測且高效的大規模推理。」
NeuralMesh 與 NVIDIA STX:專為代理型 AI 而設
NeuralMesh 是 WEKA 建基於超過 170 項專利的智能自適應儲存系統。 這將貫穿全棧 STX 參考架構,為企業提供所需的新一代儲存方案,旨在將高性能 AI 數據服務標準化,從而加快實現代理型 AI 的價值。 WEKA 的 Augmented Memory Grid 是專為擴展記憶體而設的技術層,能於 GPU 記憶體以外,將 KV 快取整合成池並持久保存。即使推理工作負載不斷增加,長情境會話依然穩定,並發量亦能維持高水平。 Augmented Memory Grid 於 GTC 2025 首次亮相,今日起正式向 NeuralMesh 客戶全面供應。該技術已在 Supermicro 平台上,搭配 NVIDIA Grace 中央處理器 (CPU) 及 BlueField-3 數據處理單元 (DPU) 完成驗證,能帶來多項提升 AI 成本效益的優勢,包括:
WEKA 聯合創始人兼行政總裁 Liran Zvibel 表示:「隨著編碼大型語言模型 (LLM) 不斷進步,軟件工程領域對代理型 AI 應用的採納程度可謂前所未見,生產力因此提升了 100 到 1000 倍。 當編碼助手反覆調用近乎相同的代碼庫及提示時,WEKA 的 Augmented Memory Grid 會重複使用已快取的語境,即使語境窗口長度已發展至難以置信,亦不用強制進行冗餘的預填充。 此舉大幅縮短回應時間,亦讓同一基礎設施上支援的並發用戶數目顯著增加。 WEKA 在一年多前便率先洞悉市場對情境記憶儲存的需求,並於 GTC 2025 推出 Augmented Memory Grid。 如今,NVIDIA STX 的出現,為企業打開大門,讓其能在最先進的 NVIDIA Vera Rubin 架構(包括 NVIDIA BlueField-4 及 NVIDIA Spectrum-X 以太網絡)上,運行儲存及記憶體擴展基礎設施。 為 NVIDIA STX 在 NeuralMesh 上運行 Augmented Memory Grid,將帶來無與倫比的效能及效率,直接實現顛覆市場的 AI 成本效益。」
供應情況
WEKA 的 Augmented Memory Grid 現已隨 NeuralMesh 一併正式推出市場。
今天對記憶體高牆視而不見的企業,日後將會面對更艱難、更昂貴的擴展挑戰。 隨著代理型工作負載增加,情境窗口不斷擴大,純 DRAM 架構將面對成本持續疊加的問題:每新增一個並發用戶或會話,重算開銷、GPU 閒置時間及營運成本便隨之上升。 現在就為持久 KV 快取規劃架構的企業,將比那些等待觀望的對手取得結構性成本及效能優勢。
如欲進一步了解 NeuralMesh,請瀏覽:weka.io/NeuralMesh。
如欲進一步了解 Augmented Memory Grid,請瀏覽:weka.io/augmented-memory-grid。
企業可瀏覽 weka.io/nvidia 獲取更多資訊,或親臨 GTC 2026 大會 WEKA 的 #1034 展位參觀。
關於 WEKA
WEKA 正憑藉其自適應智能網格儲存系統 NeuralMesh™ by WEKA®,徹底革新機構建立、運行和擴展 AI 工作流程的模式。 有別於傳統數據基礎設施會隨著工作負載擴展而變得緩慢不穩,NeuralMesh 在擴容時反而會變得更快速、更穩健、更高效。它能動態適應 AI 環境,為企業 AI 及代理型 AI 的創新,提供靈活穩固的基石。 NeuralMesh 備受財富 50 強中 30% 企業的信賴,致力協助頂尖企業、AI 雲端供應商及 AI 建構者,充分發揮 GPU 效能、加快 AI 擴展步伐,並降低創新成本。 在 www.weka.io 了解更多,或在 LinkedIn 及 X 與我們聯繫。
WEKA 及 W 標誌為 WekaIO, Inc. 的註冊商標。本文中出現的其他商業名稱,可能為其各自擁有者的商標。
