양자화 타입에 영향을 받을테니 bf16 이런걸 받아서 해봐야하나?
일단.. 근소하게 1080 보단 좋긴하다. 텐서코어 쓰려면 다시 받아야 할 듯 쩝..
| gemma-4-E4B-it-Q4_K_M.gguf Reading Generation 10 tokens 0.2s 61.57 t/s gemma-4-E4B-it-Q4_K_M.gguf Reading Generation 929 tokens 16s 56.72 t/s gemma-4-E4B-it-Q4_K_M.gguf Reading Generation 3,597 tokens 1min 8s 52.70 t/s |
그 와중에 8기가와 11기가는 별 차이 없는것 같은데, 제법 로드 가능한 모델이 제한되네.

에라이
메모리가 적으니 멀 시도해볼수도 없네.
계륵이다 ㅠㅠ


+
2026.06.17
ubunt 26.04 + driver 595.71.05 + CUDA 13.2
| $ ./llama-b9553/llama-cli -m ./model/gemma4-e4b/gemma-4-E4B-it-Q4_K_M.gguf |
생성자체는 좀 빠른 것 같은데, 초기 대기시간이 긴 느낌..
[ Prompt: 3.1 t/s | Generation: 30.8 t/s ] / [ Prompt: 4.7 t/s | Generation: 84.8 t/s ]
[ Prompt: 16.3 t/s | Generation: 85.7 t/s ]
[ Prompt: 21.5 t/s | Generation: 79.9 t/s ]
'프로그램 사용 > ai 프로그램' 카테고리의 다른 글
| stable diffusion train (0) | 2026.06.10 |
|---|---|
| gemma4-e4b it qat / gemma4-12b mtp on 1080 ti 11GB (0) | 2026.06.08 |
| sigLIP, CLIP (0) | 2026.06.05 |
| chatML (0) | 2026.06.04 |
| gemma 12b, tesla t4 16GB / 1080 ti 11GB * 2 / 3070 8GB (0) | 2026.06.04 |








