구차니 2026. 6. 10. 11:08

vLLM 처럼 먼가 복수의 gpu를 복수의 사용자에게 서빙하는 걸 찾는 중인데..

이거 맞...나?

 

[링크 : https://github.com/turboderp-org/exllamav2]

[링크 : https://github.com/turboderp-org/exllamav3]

[링크 : https://github.com/theroyallab/tabbyAPI/]  exllama의 백엔드

   [링크 : https://www.reddit.com/r/LocalLLaMA/comments/1ijw4l5/stop_wasting_your_multigpu_setup_with_llamacpp/]