llama.cpp의 llama-server 로 구동하면 모델은 바꿀수 없지만
chatGPT 나 claude와 유사한 web ui로 사용할 수 있다.

간략하게 토큰 생성 속도도 나온다.

설정은 다음과 같다.





'프로그램 사용 > ai 프로그램' 카테고리의 다른 글
| nvidia-smi를 통한 소비전력 제한과 토큰 생성속도 (0) | 2026.04.24 |
|---|---|
| llama.cpp on windows / cuda vs vulkan (0) | 2026.04.24 |
| vscode continue.dev (0) | 2026.04.24 |
| RAG - Retrieval-Augmented Generation (0) | 2026.04.24 |
| llama.cpp on ubuntu with 1060 6GB (0) | 2026.04.23 |
