QRコードをスキャンしてダウンロードしてください。
BTC $79,040.96 -2.78%
ETH $2,222.30 -3.13%
BNB $671.46 -1.09%
XRP $1.43 -4.06%
SOL $89.22 -3.52%
TRX $0.3517 -0.50%
DOGE $0.1133 -2.11%
ADA $0.2612 -3.96%
BCH $426.28 -2.30%
LINK $10.06 -4.51%
HYPE $44.22 -0.61%
AAVE $92.80 -6.15%
SUI $1.09 -8.10%
XLM $0.1544 -5.16%
ZEC $517.22 -8.03%
BTC $79,040.96 -2.78%
ETH $2,222.30 -3.13%
BNB $671.46 -1.09%
XRP $1.43 -4.06%
SOL $89.22 -3.52%
TRX $0.3517 -0.50%
DOGE $0.1133 -2.11%
ADA $0.2612 -3.96%
BCH $426.28 -2.30%
LINK $10.06 -4.51%
HYPE $44.22 -0.61%
AAVE $92.80 -6.15%
SUI $1.09 -8.10%
XLM $0.1544 -5.16%
ZEC $517.22 -8.03%

DeepSeekは、超高速の長いコンテキストトレーニングと推論のためのNSAを発表しました。

2025-02-18 16:37:45
コレクション

ChainCatcher のメッセージによると、金十の報道で、DeepSeek が NSA を発表しました。

DeepSeek は、NSA がハードウェアと一致し、ネイティブにトレーニング可能なスパースアテンションメカニズムであり、超高速の長いコンテキストのトレーニングと推論に使用されると述べています。現代のハードウェアに最適化された設計により、NSA は推論速度を向上させ、事前トレーニングコストを削減しながら、性能には影響を与えません。

一般的なベンチマークテスト、長いコンテキストタスク、および指示に基づく推論において、そのパフォーマンスは完全なアテンションモデルと同等か、それ以上です。

関連タグ
関連タグ
app_icon
ChainCatcher Building the Web3 world with innovations.