화웨이, Ascend GPU에서 학습된 오픈 웨이트 모델 공개
------------------------------
-
Pangu Pro MoE 는 화웨이 Ascend NPU 환경에 최적화된 *Mixture of Grouped Experts(MoGE) 아키텍처* 를 도입하여, 분산 환경에서 전문가별 부하 불균형 문제를 효과적으로 해결함
- 이 모델은 *총 720억 매개변수* 규모로 설계되며, 토큰별 *160억 개 파라미터만 활성화* 해 계산 효율성과 확장성을 대폭 높임
-…
------------------------------
https://news.hada.io/topic?id=21795&utm_source=googlechat&utm_medium=bot&utm_campaign=1834

0

If you have a fediverse account, you can quote this note from your own instance. Search https://sns.lemondouble.com/notes/a9qbf2u6cz on your instance and quote it. (Note that quoting is not supported in Mastodon.)