vLLM 처럼 먼가 복수의 gpu를 복수의 사용자에게 서빙하는 걸 찾는 중인데..

이거 맞...나?

 

[링크 : https://github.com/turboderp-org/exllamav2]

[링크 : https://github.com/turboderp-org/exllamav3]

[링크 : https://github.com/theroyallab/tabbyAPI/]  exllama의 백엔드

   [링크 : https://www.reddit.com/r/LocalLLaMA/comments/1ijw4l5/stop_wasting_your_multigpu_setup_with_llamacpp/]

'프로그램 사용 > ai 프로그램' 카테고리의 다른 글

llama.cpp prompt 옵션  (0) 2026.06.10
stable diffusion train  (0) 2026.06.10
gemma4-e4b it qat / gemma4-12b mtp on 1080 ti 11GB  (0) 2026.06.08
nvidia 3070 8GB 테스트 gemma4-e4b  (0) 2026.06.08
sigLIP, CLIP  (0) 2026.06.05
Posted by 구차니