vLLM 처럼 먼가 복수의 gpu를 복수의 사용자에게 서빙하는 걸 찾는 중인데..
이거 맞...나?
[링크 : https://github.com/turboderp-org/exllamav2]
[링크 : https://github.com/turboderp-org/exllamav3]
[링크 : https://github.com/theroyallab/tabbyAPI/] exllama의 백엔드
[링크 : https://www.reddit.com/r/LocalLLaMA/comments/1ijw4l5/stop_wasting_your_multigpu_setup_with_llamacpp/]
'프로그램 사용 > ai 프로그램' 카테고리의 다른 글
| llama.cpp prompt 옵션 (0) | 2026.06.10 |
|---|---|
| stable diffusion train (0) | 2026.06.10 |
| gemma4-e4b it qat / gemma4-12b mtp on 1080 ti 11GB (0) | 2026.06.08 |
| nvidia 3070 8GB 테스트 gemma4-e4b (0) | 2026.06.08 |
| sigLIP, CLIP (0) | 2026.06.05 |
