DeepSeek-V3.2-Exp: 실험적 장기 컨텍스트 최적화 모델 공개
------------------------------
- *V3.1-Terminus* 를 기반으로, 긴 문맥 처리 효율성을 높이기 위한 DeepSeek Sparse Attention (희소 어텐션 메커니즘)을 도입한 *실험적 모델*
- Sparse Attention은 세밀한 단위의 희소 연산을 지원해, *훈련 및 추론 효율성* 을 대폭 개선하면서도 *출력 품질은 기존과 유사한 수준* 을 유지함
- 주요 …
------------------------------
https://news.hada.io/topic?id=23360&utm_source=googlechat&utm_medium=bot&utm_campaign=1834
If you have a fediverse account, you can quote this note from your own instance. Search https://sns.lemondouble.com/notes/ad9ikkd8kt on your instance and quote it. (Note that quoting is not supported in Mastodon.)