QRコードをスキャンしてダウンロードしてください。
BTC $59,211.60 -1.41%
ETH $1,580.31 +0.17%
BNB $548.70 -0.86%
XRP $1.04 -1.00%
SOL $73.53 +0.45%
TRX $0.3175 -1.74%
DOGE $0.0722 -0.77%
ADA $0.1446 -0.32%
BCH $200.95 +2.47%
LINK $7.27 -0.84%
HYPE $65.34 +2.78%
AAVE $89.42 -2.78%
SUI $0.6921 +0.24%
XLM $0.1776 +2.85%
ZEC $392.40 +1.95%
BTC $59,211.60 -1.41%
ETH $1,580.31 +0.17%
BNB $548.70 -0.86%
XRP $1.04 -1.00%
SOL $73.53 +0.45%
TRX $0.3175 -1.74%
DOGE $0.0722 -0.77%
ADA $0.1446 -0.32%
BCH $200.95 +2.47%
LINK $7.27 -0.84%
HYPE $65.34 +2.78%
AAVE $89.42 -2.78%
SUI $0.6921 +0.24%
XLM $0.1776 +2.85%
ZEC $392.40 +1.95%

DeepSeekは、超高速の長いコンテキストトレーニングと推論のためのNSAを発表しました。

2025-02-18 16:37:45
コレクション

ChainCatcher のメッセージによると、金十の報道で、DeepSeek が NSA を発表しました。

DeepSeek は、NSA がハードウェアと一致し、ネイティブにトレーニング可能なスパースアテンションメカニズムであり、超高速の長いコンテキストのトレーニングと推論に使用されると述べています。現代のハードウェアに最適化された設計により、NSA は推論速度を向上させ、事前トレーニングコストを削減しながら、性能には影響を与えません。

一般的なベンチマークテスト、長いコンテキストタスク、および指示に基づく推論において、そのパフォーマンスは完全なアテンションモデルと同等か、それ以上です。

関連タグ
関連タグ
app_icon
ChainCatcher Building the Web3 world with innovations.