LLM을 칩 위에 ‘인쇄’하는 Taalas의 방식
------------------------------
- Taalas 는 Llama 3.1 8B 모델을 *ASIC 칩* 에 직접 새겨 넣어 초당 *17,000토큰* 추론 속도를 달성한 스타트업
- GPU 기반 시스템보다 *10배 저렴하고, 10배 적은 전력* , 그리고 *10배 빠른 추론 성능* 을 주장함
- 모델의 *가중치를 실리콘 트랜지스터로 직접 새겨 넣는 구조* 로, GPU의 메모리 병목을…
------------------------------
https://news.hada.io/topic?id=26896&utm_source=googlechat&utm_medium=bot&utm_campaign=1834
If you have a fediverse account, you can quote this note from your own instance. Search https://sns.lemondouble.com/notes/aj24ed92b5 on your instance and quote it. (Note that quoting is not supported in Mastodon.)