문득 ollama의 CPU / GPU 비율은 어떻게 계산하나 궁금한데
코드 뒤지긴 귀찮아서(있나?) gpt에게 물어보고 테스트.
일단 그냥 올라갈 작은 녀석을 해보니 모두 CUDA0로 뜬다.
| D:\study\llm\llama-b8918-bin-win-cuda-12.4-x64>llama-cli -m ..\llama-3.2-3b-instruct-q4_k_m.gguf -v load_tensors: offloading output layer to GPU load_tensors: offloading 27 repeating layers to GPU load_tensors: offloaded 29/29 layers to GPU llama_context: CUDA_Host output buffer size = 0.49 MiB llama_kv_cache: layer 0: dev = CUDA0 llama_kv_cache: layer 1: dev = CUDA0 llama_kv_cache: layer 2: dev = CUDA0 llama_kv_cache: layer 3: dev = CUDA0 llama_kv_cache: layer 4: dev = CUDA0 llama_kv_cache: layer 5: dev = CUDA0 llama_kv_cache: layer 6: dev = CUDA0 llama_kv_cache: layer 7: dev = CUDA0 llama_kv_cache: layer 8: dev = CUDA0 llama_kv_cache: layer 9: dev = CUDA0 llama_kv_cache: layer 10: dev = CUDA0 llama_kv_cache: layer 11: dev = CUDA0 llama_kv_cache: layer 12: dev = CUDA0 llama_kv_cache: layer 13: dev = CUDA0 llama_kv_cache: layer 14: dev = CUDA0 llama_kv_cache: layer 15: dev = CUDA0 llama_kv_cache: layer 16: dev = CUDA0 llama_kv_cache: layer 17: dev = CUDA0 llama_kv_cache: layer 18: dev = CUDA0 llama_kv_cache: layer 19: dev = CUDA0 llama_kv_cache: layer 20: dev = CUDA0 llama_kv_cache: layer 21: dev = CUDA0 llama_kv_cache: layer 22: dev = CUDA0 llama_kv_cache: layer 23: dev = CUDA0 llama_kv_cache: layer 24: dev = CUDA0 llama_kv_cache: layer 25: dev = CUDA0 llama_kv_cache: layer 26: dev = CUDA0 llama_kv_cache: layer 27: dev = CUDA0 |
-ngl 옵션을 통해 gpu loading 갯수를 20개로 해주면
20/29가 되고 CUDA0는 9~27번 까지 엥 하나 어디갔어?
그 와중에 cpu 레이어가 먼저네?
| D:\study\llm\llama-b8918-bin-win-cuda-12.4-x64>llama-cli -m ..\llama-3.2-3b-instruct-q4_k_m.gguf -v -ngl 20 load_tensors: offloading output layer to GPU load_tensors: offloading 19 repeating layers to GPU load_tensors: offloaded 20/29 layers to GPU llama_context: CUDA_Host output buffer size = 0.49 MiB llama_kv_cache: layer 0: dev = CPU llama_kv_cache: layer 1: dev = CPU llama_kv_cache: layer 2: dev = CPU llama_kv_cache: layer 3: dev = CPU llama_kv_cache: layer 4: dev = CPU llama_kv_cache: layer 5: dev = CPU llama_kv_cache: layer 6: dev = CPU llama_kv_cache: layer 7: dev = CPU llama_kv_cache: layer 8: dev = CPU llama_kv_cache: layer 9: dev = CUDA0 llama_kv_cache: layer 10: dev = CUDA0 llama_kv_cache: layer 11: dev = CUDA0 llama_kv_cache: layer 12: dev = CUDA0 llama_kv_cache: layer 13: dev = CUDA0 llama_kv_cache: layer 14: dev = CUDA0 llama_kv_cache: layer 15: dev = CUDA0 llama_kv_cache: layer 16: dev = CUDA0 llama_kv_cache: layer 17: dev = CUDA0 llama_kv_cache: layer 18: dev = CUDA0 llama_kv_cache: layer 19: dev = CUDA0 llama_kv_cache: layer 20: dev = CUDA0 llama_kv_cache: layer 21: dev = CUDA0 llama_kv_cache: layer 22: dev = CUDA0 llama_kv_cache: layer 23: dev = CUDA0 llama_kv_cache: layer 24: dev = CUDA0 llama_kv_cache: layer 25: dev = CUDA0 llama_kv_cache: layer 26: dev = CUDA0 llama_kv_cache: layer 27: dev = CUDA0 |
'프로그램 사용 > ai 프로그램' 카테고리의 다른 글
| llama.cpp windows cuda12 1080 ti 11GB + 1060 6GB 테스트 (0) | 2026.04.25 |
|---|---|
| llama.cpp windows cuda12 1080 ti 11GB * 2 테스트 (0) | 2026.04.25 |
| llama.cpp build / cuda compute capability (0) | 2026.04.25 |
| llm transformer (0) | 2026.04.25 |
| nvidia-smi를 통한 소비전력 제한과 토큰 생성속도 (1) | 2026.04.24 |
