QRコードをスキャンしてダウンロードしてください。
BTC $59,204.88 -1.00%
ETH $1,578.80 +0.54%
BNB $547.24 -0.60%
XRP $1.03 -1.25%
SOL $73.44 +1.47%
TRX $0.3173 -1.57%
DOGE $0.0720 -0.84%
ADA $0.1441 -0.36%
BCH $200.14 +2.05%
LINK $7.26 -0.50%
HYPE $65.90 +4.36%
AAVE $88.69 -3.63%
SUI $0.6909 +0.44%
XLM $0.1774 +2.93%
ZEC $391.17 +2.12%
BTC $59,204.88 -1.00%
ETH $1,578.80 +0.54%
BNB $547.24 -0.60%
XRP $1.03 -1.25%
SOL $73.44 +1.47%
TRX $0.3173 -1.57%
DOGE $0.0720 -0.84%
ADA $0.1441 -0.36%
BCH $200.14 +2.05%
LINK $7.26 -0.50%
HYPE $65.90 +4.36%
AAVE $88.69 -3.63%
SUI $0.6909 +0.44%
XLM $0.1774 +2.93%
ZEC $391.17 +2.12%

DeepSeekは、超高速の長いコンテキストトレーニングと推論のためのNSAを発表しました。

2025-02-18 16:37:45
コレクション

ChainCatcher のメッセージによると、金十の報道で、DeepSeek が NSA を発表しました。

DeepSeek は、NSA がハードウェアと一致し、ネイティブにトレーニング可能なスパースアテンションメカニズムであり、超高速の長いコンテキストのトレーニングと推論に使用されると述べています。現代のハードウェアに最適化された設計により、NSA は推論速度を向上させ、事前トレーニングコストを削減しながら、性能には影響を与えません。

一般的なベンチマークテスト、長いコンテキストタスク、および指示に基づく推論において、そのパフォーマンスは完全なアテンションモデルと同等か、それ以上です。

関連タグ
関連タグ
app_icon
ChainCatcher Building the Web3 world with innovations.