heterogeneous computing,
각 기기의 단점을 보완해서 성능을 올렸네.
메모리 대역폭이 높은 M3 Ultra에서 Decode
높은 연산 성능 DGX Spark에서 prefill
NVIDIA DGX Spark™ + Apple Mac Studio = 4x Faster LLM Inference with EXO 1.0
heterogeneous computing,
각 기기의 단점을 보완해서 성능을 올렸네.
메모리 대역폭이 높은 M3 Ultra에서 Decode
높은 연산 성능 DGX Spark에서 prefill
NVIDIA DGX Spark™ + Apple Mac Studio = 4x Faster LLM Inference with EXO 1.0
If you have a fediverse account, you can quote this note from your own instance. Search https://social.silicon.moe/users/zeroday0619/statuses/115847189470426168 on your instance and quote it. (Note that quoting is not supported in Mastodon.)