QR 코드를 스캔하여 다운로드하세요.
BTC $62,633.76 +3.04%
ETH $1,631.02 +4.60%
BNB $593.73 +3.12%
XRP $1.12 +4.94%
SOL $65.00 +4.16%
TRX $0.3286 +2.84%
DOGE $0.0846 +4.16%
ADA $0.1650 +5.99%
BCH $224.75 +2.75%
LINK $7.76 +6.03%
HYPE $59.24 -0.18%
AAVE $63.40 +3.80%
SUI $0.7524 +7.55%
XLM $0.2061 +4.53%
ZEC $412.00 +12.53%
BTC $62,633.76 +3.04%
ETH $1,631.02 +4.60%
BNB $593.73 +3.12%
XRP $1.12 +4.94%
SOL $65.00 +4.16%
TRX $0.3286 +2.84%
DOGE $0.0846 +4.16%
ADA $0.1650 +5.99%
BCH $224.75 +2.75%
LINK $7.76 +6.03%
HYPE $59.24 -0.18%
AAVE $63.40 +3.80%
SUI $0.7524 +7.55%
XLM $0.2061 +4.53%
ZEC $412.00 +12.53%

DeepSeek는 초고속 긴 문맥 훈련 및 추론을 위한 NSA를 출시했습니다

2025-02-18 16:37:45
수집

ChainCatcher 메시지에 따르면, 금십 보도에 의하면 DeepSeek가 NSA를 출시했습니다.

DeepSeek는 NSA가 하드웨어와 일치하며 본래 훈련 가능한 희소 주의 메커니즘으로, 초고속의 긴 컨텍스트 훈련 및 추론을 위해 설계되었다고 말했습니다. 현대 하드웨어에 대한 최적화 설계를 통해 NSA는 추론 속도를 높이고, 사전 훈련 비용을 낮추면서 성능에는 영향을 미치지 않습니다.

일반 벤치마크 테스트, 긴 컨텍스트 작업 및 지시 기반 추론에서, 그것의 성능은 완전 주의 모델과 동등하거나 더 나은 것으로 나타났습니다.

관련 태그
관련 태그
app_icon
ChainCatcher Building the Web3 world with innovations.