掃碼下載
BTC $71,225.78 -3.08%
ETH $1,992.99 -0.55%
BNB $690.04 -2.67%
XRP $1.29 -3.39%
SOL $80.73 -2.04%
TRX $0.3427 -2.50%
DOGE $0.1006 +0.15%
ADA $0.2292 -2.83%
BCH $290.62 -3.71%
LINK $8.98 -1.53%
HYPE $73.73 +1.36%
AAVE $79.47 -3.35%
SUI $0.8725 -2.48%
XLM $0.2361 -7.79%
ZEC $545.24 -7.73%
BTC $71,225.78 -3.08%
ETH $1,992.99 -0.55%
BNB $690.04 -2.67%
XRP $1.29 -3.39%
SOL $80.73 -2.04%
TRX $0.3427 -2.50%
DOGE $0.1006 +0.15%
ADA $0.2292 -2.83%
BCH $290.62 -3.71%
LINK $8.98 -1.53%
HYPE $73.73 +1.36%
AAVE $79.47 -3.35%
SUI $0.8725 -2.48%
XLM $0.2361 -7.79%
ZEC $545.24 -7.73%

DeepSeek 推出 NSA,用於超快速的長上下文訓練和推理

2025-02-18 16:37:45
收藏

ChainCatcher 消息,据金十報導,DeepSeek 推出 NSA。

DeepSeek 稱,NSA 是一種與硬體一致且本機可訓練的稀疏注意力機制,用於超快速的長上下文訓練和推理。通過針對現代硬體的優化設計,NSA 加快了推理速度,同時降低了預訓練成本,而不會影響性能。

在一般基準測試、長上下文任務和基於指令的推理上,它的表現與完全注意力模型相當甚至更好。

關聯標籤
關聯標籤
app_icon
ChainCatcher 與創新者共建Web3世界