프로그램 사용/gcc2026. 6. 10. 11:57

리눅스에서 gcc로 빌드하면 시스템 절대 경로라고 해야하나.

아래의 경우, /lib/x86_64-linux-gnu/ 의 경로에 있는 so들을 보도록 되어있는데 (LD_LIBRARY_PATH)

이걸 빌드 시에 위치 기준 상대 경로를 보게 하는 옵션 인듯.

so 파일과 실행파일을 같이 배포할때 쓰이려나?

 

$ ldd untitled
linux-vdso.so.1 (0x00007fff3f7a7000)
libQt5Widgets.so.5 => /lib/x86_64-linux-gnu/libQt5Widgets.so.5 (0x00007a58ffe00000)
libQt5Gui.so.5 => /lib/x86_64-linux-gnu/libQt5Gui.so.5 (0x00007a58ff600000)
libQt5Core.so.5 => /lib/x86_64-linux-gnu/libQt5Core.so.5 (0x00007a58ff000000)
libstdc++.so.6 => /lib/x86_64-linux-gnu/libstdc++.so.6 (0x00007a58fec00000)
libgcc_s.so.1 => /lib/x86_64-linux-gnu/libgcc_s.so.1 (0x00007a5900f63000)
libc.so.6 => /lib/x86_64-linux-gnu/libc.so.6 (0x00007a58fe800000)
libm.so.6 => /lib/x86_64-linux-gnu/libm.so.6 (0x00007a5900519000)
libGL.so.1 => /lib/x86_64-linux-gnu/libGL.so.1 (0x00007a58ffd79000)
libpng16.so.16 => /lib/x86_64-linux-gnu/libpng16.so.16 (0x00007a59004de000)
libz.so.1 => /lib/x86_64-linux-gnu/libz.so.1 (0x00007a5900f45000)
libharfbuzz.so.0 => /lib/x86_64-linux-gnu/libharfbuzz.so.0 (0x00007a58fef31000)
libmd4c.so.0 => /lib/x86_64-linux-gnu/libmd4c.so.0 (0x00007a59004cc000)
libdouble-conversion.so.3 => /lib/x86_64-linux-gnu/libdouble-conversion.so.3 (0x00007a58ffd64000)
libicui18n.so.70 => /lib/x86_64-linux-gnu/libicui18n.so.70 (0x00007a58fe400000)
libicuuc.so.70 => /lib/x86_64-linux-gnu/libicuuc.so.70 (0x00007a58fe205000)
libpcre2-16.so.0 => /lib/x86_64-linux-gnu/libpcre2-16.so.0 (0x00007a58ff576000)
libzstd.so.1 => /lib/x86_64-linux-gnu/libzstd.so.1 (0x00007a58fee62000)
libglib-2.0.so.0 => /lib/x86_64-linux-gnu/libglib-2.0.so.0 (0x00007a58feac5000)
/lib64/ld-linux-x86-64.so.2 (0x00007a5900faa000)
libGLdispatch.so.0 => /lib/x86_64-linux-gnu/libGLdispatch.so.0 (0x00007a58fe747000)
libGLX.so.0 => /lib/x86_64-linux-gnu/libGLX.so.0 (0x00007a58ffd30000)
libfreetype.so.6 => /lib/x86_64-linux-gnu/libfreetype.so.6 (0x00007a58fe13d000)
libgraphite2.so.3 => /lib/x86_64-linux-gnu/libgraphite2.so.3 (0x00007a58ffd09000)
libicudata.so.70 => /lib/x86_64-linux-gnu/libicudata.so.70 (0x00007a58fc400000)
libpcre.so.3 => /lib/x86_64-linux-gnu/libpcre.so.3 (0x00007a58fea4f000)
libX11.so.6 => /lib/x86_64-linux-gnu/libX11.so.6 (0x00007a58fc2c0000)
libbrotlidec.so.1 => /lib/x86_64-linux-gnu/libbrotlidec.so.1 (0x00007a58ffcfb000)
libxcb.so.1 => /lib/x86_64-linux-gnu/libxcb.so.1 (0x00007a58fee38000)
libbrotlicommon.so.1 => /lib/x86_64-linux-gnu/libbrotlicommon.so.1 (0x00007a58fea2c000)
libXau.so.6 => /lib/x86_64-linux-gnu/libXau.so.6 (0x00007a5900f37000)
libXdmcp.so.6 => /lib/x86_64-linux-gnu/libXdmcp.so.6 (0x00007a59004c4000)
libbsd.so.0 => /lib/x86_64-linux-gnu/libbsd.so.0 (0x00007a58ffce3000)
libmd.so.0 => /lib/x86_64-linux-gnu/libmd.so.0 (0x00007a58ff569000)

 

[링크 : https://velog.io/@wjddms206/RPATH-한번에-이해하기]

[링크 : https://stackoverflow.com/questions/6324131/rpath-origin-not-having-desired-effect]

[링크 : https://stackoverflow.com/questions/38058041/correct-usage-of-rpath-relative-vs-absolute]

[링크 : https://stackoverflow.com/questions/38058041/correct-usage-of-rpath-relative-vs-absolute]

Posted by 구차니

vLLM 처럼 먼가 복수의 gpu를 복수의 사용자에게 서빙하는 걸 찾는 중인데..

이거 맞...나?

 

[링크 : https://github.com/turboderp-org/exllamav2]

[링크 : https://github.com/turboderp-org/exllamav3]

[링크 : https://github.com/theroyallab/tabbyAPI/]  exllama의 백엔드

   [링크 : https://www.reddit.com/r/LocalLLaMA/comments/1ijw4l5/stop_wasting_your_multigpu_setup_with_llamacpp/]

Posted by 구차니

음.. 내 gpu가 버틸수 있을까? ㅋㅋ

 

그런데 내용 자체가 쉽진 않아 보여서 어떻게 해야하나 see wiki를 눌러서 내용 보는 중

[링크 : https://github.com/AUTOMATIC1111/stable-diffusion-webui/wiki/Textual-Inversion]

 

+

[링크 : https://joonojoono.tistory.com/19]

[링크 : https://www.internetmap.kr/entry/Automatic1111-GUI-Beginners-Guide] 학습을 제외한 내용이 알참 -_ㅠ

 

일반적인 학습(?) 방법으로 길게 학습하고 중간중간 체크포인트 백업.. 용량 어쩔 ㅠㅠ

[링크 : https://www.reddit.com/r/StableDiffusion/comments/zw7qzo/automatic1111_dreambooth_how_to_continue_training/?tl=ko]

'프로그램 사용 > ai 프로그램' 카테고리의 다른 글

llama.cpp prompt 옵션  (0) 2026.06.10
exllama  (0) 2026.06.10
gemma4-e4b it qat / gemma4-12b mtp on 1080 ti 11GB  (0) 2026.06.08
nvidia 3070 8GB 테스트 gemma4-e4b  (0) 2026.06.08
sigLIP, CLIP  (0) 2026.06.05
Posted by 구차니
Linux2026. 6. 9. 14:28

폰트 파일을 /usr/share/fonts에 넣었는데 바로 인식안될 경우

리부팅 해도 되지만(!) 아래 명령으로 즉각적으로 갱신이 가능하다고 한다.

$ fc-cache -fv

 

아래 명령으로 현재 시스템의 인식된 폰트를 확인이 가능하다.

$ fc-list

[링크 : https://linux.die.net/man/1/fc-list]

[링크 : https://linux.die.net/man/1/fc-cache]

'Linux' 카테고리의 다른 글

hdmi 연결과 비디오 메모리 사용량  (0) 2026.05.02
jstest  (0) 2026.04.03
리눅스 메모리 timing 확인하기  (0) 2026.01.27
journalctl 옵션  (0) 2026.01.20
proc fs smp_affinity  (0) 2025.09.19
Posted by 구차니

요약

QAT는 생성속도 차이는 크게 없어 보임. 사용해봐야 결과 품질을 알 수 있을 듯 함.

MTP는 50% 정도 성능 향상이 되는 듯?

---

QAT

오오 3~4일 전 따끈한 모델!

용량이 3~4GB 정도라 정말 어떨지 궁금하다.

[링크 : https://huggingface.co/unsloth/gemma-4-E4B-it-qat-GGUF]

 

기존에 테스트 하던건 Q4_K_M 이라 비슷할진 모르겠다.

$ ../../llama-b9553/llama-cli -m gemma-4-E4B-it-qat-UD-Q2_K_XL.gguf -sm none
[ Prompt: 16.8 t/s | Generation: 38.6 t/s ]
[ Prompt: 97.9 t/s | Generation: 41.1 t/s ]
[ Prompt: 196.1 t/s | Generation: 39.9 t/s ]

 

$ ../../llama-b9553/llama-cli -m gemma-4-E4B-it-qat-UD-Q4_K_XL.gguf -sm none
[ Prompt: 737.0 t/s | Generation: 62.5 t/s ]
[ Prompt: 238.5 t/s | Generation: 61.4 t/s ]
[ Prompt: 292.3 t/s | Generation: 58.0 t/s ]

 

 

MTP

MTP는 multimodal 처럼 2개의 모델 파일이 필요하구나..

일단은 cuda enable 하고 빌드하려면.. sdk가 문제 없으려나.. 쩝

./build/bin/llama-server \
  -m gemma-4-12b-it-Q4_K_M.gguf \
  --model-draft MTP/gemma-4-12B-it-MTP-Q8_0.gguf \
  --spec-type draft-mtp --spec-draft-n-max 4 \
  -ngl 999 -fa on
Multi GPU: add --spec-draft-device CUDA0 -sm layer.

[링크 : https://huggingface.co/unsloth/gemma-4-12b-it-GGUF/blob/main/MTP/README.md]

 

+

음.. 장렬히 빌드 시도 폭★파 ㅋㅋㅋ

$ cmake -B build -DGGML_CUDA=ON -DCMAKE_CUDA_ARCHITECTURES=61
CMAKE_BUILD_TYPE=Release
-- Warning: ccache not found - consider installing it for faster compilation or disable this warning with GGML_CCACHE=OFF
-- CMAKE_SYSTEM_PROCESSOR: x86_64
-- GGML_SYSTEM_ARCH: x86
-- Including CPU backend
-- x86 detected
-- Adding CPU backend variant ggml-cpu: -march=native 
-- Unable to find cublas_v2.h in either "/usr/local/cuda/include" or "/usr/math_libs/include"
-- CUDA Toolkit found
CMake Error at /usr/share/cmake-3.22/Modules/CMakeDetermineCompilerId.cmake:726 (message):
  Compiling the CUDA compiler identification source file
  "CMakeCUDACompilerId.cu" failed.

  Compiler: /usr/local/cuda/bin/nvcc

  Build flags:

  Id flags: --keep;--keep-dir;tmp;-gencode=arch=compute_61,code=sm_61 -v

  

  The output was:

  1

  nvcc fatal : Unsupported gpu architecture 'compute_61'

  

  

Call Stack (most recent call first):
  /usr/share/cmake-3.22/Modules/CMakeDetermineCompilerId.cmake:6 (CMAKE_DETERMINE_COMPILER_ID_BUILD)
  /usr/share/cmake-3.22/Modules/CMakeDetermineCompilerId.cmake:48 (__determine_compiler_id_test)
  /usr/share/cmake-3.22/Modules/CMakeDetermineCUDACompiler.cmake:298 (CMAKE_DETERMINE_COMPILER_ID)
  ggml/src/ggml-cuda/CMakeLists.txt:59 (enable_language)


-- Configuring incomplete, errors occurred!
See also "/home/falinux/src/llama.cpp/build/CMakeFiles/CMakeOutput.log".
See also "/home/falinux/src/llama.cpp/build/CMakeFiles/CMakeError.log".

 

+

b9500 으로는 무리인가.. 아니면 vulkan 모델이라 안되는걸까?

$ ../../llama-b9500/llama-cli -m gemma-4-12b-it-Q4_0.gguf --model-draft gemma-4-12B-it-MTP-Q8_0.gguf --spec-type draft-mtp --spec-draft-n-max 4 -ngl 999 -fa on --verbose

 

0.19.888.319 E llama_model_load: error loading model: unknown model architecture: 'gemma4-assistant'
0.19.888.322 E llama_model_load_from_file_impl: failed to load model
0.19.888.324 E srv    load_model: failed to load draft model, 'gemma-4-12B-it-MTP-Q8_0.gguf'

 

b9953 으로 하니 돌아간다.

1080 ti 11GB / -sm none

$ ../../llama-b9553/llama-cli -m gemma-4-12b-it-Q4_0.gguf --model-draft gemma-4-12B-it-MTP-Q8_0.gguf --spec-type draft-mtp --spec-draft-n-max 4   -ngl 999 -fa on -sm none

 

Q4_0
[ Prompt: 48.6 t/s | Generation: 42.6 t/s ]
[ Prompt: 231.5 t/s | Generation: 36.6 t/s ]
[ Prompt: 241.1 t/s | Generation: 34.0 t/s ]

UD_Q2_K_XL
[ Prompt: 5.0 t/s | Generation: 21.1 t/s ]
[ Prompt: 80.7 t/s | Generation: 29.2 t/s ]
[ Prompt: 45.0 t/s | Generation: 24.4 t/s ]

 

1080 ti 11GB / -sm layer

$ ../../llama-b9553/llama-cli -m gemma-4-12b-it-Q4_0.gguf --model-draft gemma-4-12B-it-MTP-Q8_0.gguf --spec-type draft-mtp --spec-draft-n-max 4   -ngl 999 -fa on 

 

Q4_0
[ Prompt: 66.8 t/s | Generation: 28.5 t/s ]

[ Prompt: 126.1 t/s | Generation: 19.3 t/s ]
[ Prompt: 88.2 t/s | Generation: 16.3 t/s ]

UD_Q2_K_XL
[ Prompt: 36.5 t/s | Generation: 24.6 t/s ]
[ Prompt: 32.1 t/s | Generation: 17.1 t/s ]
[ Prompt: 47.3 t/s | Generation: 12.6 t/s ]  (한번 터졌음)

 

 

>>>>> 참조용 >>>>>

하드웨어 1080 ti -sm none

gemma-4 12B it Q4_0.gguf Reading Generation 25 tokens 0.9s 27.94 t/s
gemma-4 12B it Q4_0.gguf Reading Generation 255 tokens 8.9s 28.78 t/s
gemma-4 12B it Q4_0.gguf Reading Generation 1,404 tokens 55s 25.45 t/s

gemma-4 12B it UD Q2_K_XL.gguf Reading Generation 29 tokens 1.2s 23.71 t/s
gemma-4 12B it UD Q2_K_XL.gguf Reading Generation 373 tokens 16s 22.28 t/s
gemma-4 12B it UD Q2_K_XL.gguf Reading Generation 806 tokens 37s 21.34 t/s (터짐)


하드웨어 1080 ti -sm layer

gemma-4 12B it Q4_0.gguf Reading Generation 25 tokens 0.8s 31.04 t/s
gemma-4 12B it Q4_0.gguf Reading Generation 265 tokens 9.0s 29.60 t/s
gemma-4 12B it Q4_0.gguf Reading Generation 1,340 tokens 54s 24.43 t/s

gemma-4 12B it UD Q2_K_XL.gguf Reading Generation 31 tokens 1.3s 24.16 t/s
gemma-4 12B it UD Q2_K_XL.gguf Reading Generation 263 tokens 11s 23.70 t/s
gemma-4 12B it UD Q2_K_XL.gguf Reading Generation 620 tokens 29s 20.70 t/s (터짐)

2026.06.04 - [프로그램 사용/ai 프로그램] - gemma 12b, tesla t4 16GB / 1080 ti 11GB * 2

<<<< 참조용 <<<<

 

+

2026.06.18

gemma-4-12b-it-Q4_0.gguf + gemma-4-12B-it-MTP-Q8_0.gguf

  MTP x MTP 5 MTP 4 MTP 3 MTP 2 MTP 1
단문 31.4 37.6 37.0 40.2 42.3 42.5
중문 30.0 31.6 37.1 37.8 39.6 39.7
장문 28.5 29.6 35.4 34.4 37.1 37.0

 

gemma-4-12b-it-UD-Q2_K_XL.gguf + gemma-4-12B-it-MTP-Q8_0.gguf

  MTP x MTP 5 MTP 4 MTP 3 MTP 2 MTP 1
단문 24.8 27.0  29.7  32.8  32.2  32.9 
중문 24.2  24.3  26.8  29.3  31.0  31.2 
장문 23.0 22.2  26.7  26.0  30.7  28.7 

 

$ /mnt/Downloads/llama-b9553/llama-cli --model /mnt/Downloads/model/gemma4-12b/gemma-4-12b-it-Q4_0.gguf -sm none

안녕?
[ Prompt: 77.6 t/s | Generation: 31.1 t/s ]
[ Prompt: 147.7 t/s | Generation: 31.4 t/s ]

너에 대해 설명해줘
[ Prompt: 197.2 t/s | Generation: 30.0 t/s ]

파이썬으로 셀레니움을 통해 웹을 서칭하고 텍스트만 추출하고 makrdown 으로 변환후  md 파일과 pdf로 저장하는 기능을 구현해줘
[ Prompt: 254.4 t/s | Generation: 28.5 t/s ]


$ /mnt/Downloads/llama-b9553/llama-cli --model /mnt/Downloads/model/gemma4-12b/gemma-4-12b-it-Q4_0.gguf --model-draft /mnt/Downloads/model/gemma4-12b/gemma-4-12B-it-MTP-Q8_0.gguf --spec-type draft-mtp --spec-draft-n-max 5 -fit off -ngl 999 -fa on -sm none

안녕?
[ Prompt: 74.1 t/s | Generation: 42.6 t/s ]
[ Prompt: 127.1 t/s | Generation: 37.6 t/s ]

너에 대해 설명해줘
[ Prompt: 126.8 t/s | Generation: 31.6 t/s ]

파이썬으로 셀레니움을 통해 웹을 서칭하고 텍스트만 추출하고 makrdown 으로 변환후  md 파일과 pdf로 저장하는 기능을 구현해줘
[ Prompt: 240.4 t/s | Generation: 29.6 t/s ]



$ /mnt/Downloads/llama-b9553/llama-cli --model /mnt/Downloads/model/gemma4-12b/gemma-4-12b-it-Q4_0.gguf --model-draft /mnt/Downloads/model/gemma4-12b/gemma-4-12B-it-MTP-Q8_0.gguf --spec-type draft-mtp --spec-draft-n-max 4 -fit off -ngl 999 -fa on -sm none

안녕?
[ Prompt: 75.8 t/s | Generation: 45.9 t/s ]
[ Prompt: 115.5 t/s | Generation: 37.0 t/s ]

너에 대해 설명해줘
[ Prompt: 161.9 t/s | Generation: 37.1 t/s ]

파이썬으로 셀레니움을 통해 웹을 서칭하고 텍스트만 추출하고 makrdown 으로 변환후  md 파일과 pdf로 저장하는 기능을 구현해줘
[ Prompt: 257.1 t/s | Generation: 35.4 t/s ]



$ /mnt/Downloads/llama-b9553/llama-cli --model /mnt/Downloads/model/gemma4-12b/gemma-4-12b-it-Q4_0.gguf --model-draft /mnt/Downloads/model/gemma4-12b/gemma-4-12B-it-MTP-Q8_0.gguf --spec-type draft-mtp --spec-draft-n-max 3 -fit off -ngl 999 -fa on -sm none

안녕
[ Prompt: 74.7 t/s | Generation: 42.7 t/s ] 
[ Prompt: 198.6 t/s | Generation: 40.2 t/s ]  

너에 대해 설명해줘
[ Prompt: 146.5 t/s | Generation: 37.8 t/s ]

파이썬으로 셀레니움을 통해 웹을 서칭하고 텍스트만 추출하고 makrdown 으로 변환후  md 파일과 pdf로 저장하는 기능을 구현해줘
[ Prompt: 248.9 t/s | Generation: 34.4 t/s ]



$ /mnt/Downloads/llama-b9553/llama-cli --model /mnt/Downloads/model/gemma4-12b/gemma-4-12b-it-Q4_0.gguf --model-draft /mnt/Downloads/model/gemma4-12b/gemma-4-12B-it-MTP-Q8_0.gguf --spec-type draft-mtp --spec-draft-n-max 2 -fit off -ngl 999 -fa on -sm none

안녕
[ Prompt: 75.1 t/s | Generation: 44.5 t/s ]
[ Prompt: 115.3 t/s | Generation: 42.3 t/s ]

너에 대해 설명해줘
[ Prompt: 203.8 t/s | Generation: 39.6 t/s ]

파이썬으로 셀레니움을 통해 웹을 서칭하고 텍스트만 추출하고 makrdown 으로 변환후  md 파일과 pdf로 저장하는 기능을 구현해줘

[ Prompt: 250.9 t/s | Generation: 37.1 t/s ]


$ /mnt/Downloads/llama-b9553/llama-cli --model /mnt/Downloads/model/gemma4-12b/gemma-4-12b-it-Q4_0.gguf --model-draft /mnt/Downloads/model/gemma4-12b/gemma-4-12B-it-MTP-Q8_0.gguf --spec-type draft-mtp --spec-draft-n-max 1 -fit off -ngl 999 -fa on -sm none

안녕?
[ Prompt: 75.8 t/s | Generation: 41.5 t/s ]
[ Prompt: 200.5 t/s | Generation: 42.5 t/s ]

너에 대해 설명해줘
[ Prompt: 132.7 t/s | Generation: 39.7 t/s ]

파이썬으로 셀레니움을 통해 웹을 서칭하고 텍스트만 추출하고 makrdown 으로 변환후  md 파일과 pdf로 저장하는 기능을 구현해줘
[ Prompt: 249.6 t/s | Generation: 37.0 t/s ]

 

 

너에 대해 설명해줘

파이썬으로 셀레니움을 통해 웹을 서칭하고 텍스트만 추출하고 makrdown 으로 변환후  md 파일과 pdf로 저장하는 기능을 구현해줘


$ /mnt/Downloads/llama-b9553/llama-cli --model /mnt/Downloads/model/gemma4-12b/gemma-4-12b-it-UD-Q2_K_XL.gguf -sm none                                                         세요!

[ Prompt: 50.7 t/s | Generation: 23.3 t/s ]
[ Prompt: 136.9 t/s | Generation: 24.8 t/s ]

[ Prompt: 68.8 t/s | Generation: 24.2 t/s ]

[ Prompt: 96.2 t/s | Generation: 23.0 t/s ] 터짐



$ /mnt/Downloads/llama-b9553/llama-cli --model /mnt/Downloads/model/gemma4-12b/gemma-4-12b-it-UD-Q2_K_XL.gguf --model-draft /mnt/Downloads/model/gemma4-12b/gemma-4-12B-it-MTP-Q8_0.gguf --spec-type draft-mtp --spec-draft-n-max 5 -fit off -ngl 999 -fa on -sm none
[ Prompt: 50.0 t/s | Generation: 31.8 t/s ]
[ Prompt: 142.0 t/s | Generation: 27.0 t/s ]

[ Prompt: 70.4 t/s | Generation: 24.3 t/s ]

[ Prompt: 90.8 t/s | Generation: 22.2 t/s ]


$ /mnt/Downloads/llama-b9553/llama-cli --model /mnt/Downloads/model/gemma4-12b/gemma-4-12b-it-UD-Q2_K_XL.gguf --model-draft /mnt/Downloads/model/gemma4-12b/gemma-4-12B-it-MTP-Q8_0.gguf --spec-type draft-mtp --spec-draft-n-max 4 -fit off -ngl 999 -fa on -sm none

[ Prompt: 50.0 t/s | Generation: 31.7 t/s ]
[ Prompt: 131.0 t/s | Generation: 29.7 t/s ]

[ Prompt: 53.8 t/s | Generation: 26.8 t/s ]

[ Prompt: 97.6 t/s | Generation: 26.7 t/s ] 터짐



$ /mnt/Downloads/llama-b9553/llama-cli --model /mnt/Downloads/model/gemma4-12b/gemma-4-12b-it-UD-Q2_K_XL.gguf --model-draft /mnt/Downloads/model/gemma4-12b/gemma-4-12B-it-MTP-Q8_0.gguf --spec-type draft-mtp --spec-draft-n-max 3 -fit off -ngl 999 -fa on -sm none

[ Prompt: 50.0 t/s | Generation: 31.8 t/s ]
[ Prompt: 123.8 t/s | Generation: 32.8 t/s ]

[ Prompt: 62.0 t/s | Generation: 29.3 t/s ]

[ Prompt: 106.4 t/s | Generation: 26.0 t/s ]



$ /mnt/Downloads/llama-b9553/llama-cli --model /mnt/Downloads/model/gemma4-12b/gemma-4-12b-it-UD-Q2_K_XL.gguf --model-draft /mnt/Downloads/model/gemma4-12b/gemma-4-12B-it-MTP-Q8_0.gguf --spec-type draft-mtp --spec-draft-n-max 2 -fit off -ngl 999 -fa on -sm none

까요? 궁금한 점이 있거나 도움이 필요하시면 편하게 말씀해 주세요!

[ Prompt: 33.7 t/s | Generation: 26.5 t/s ]
[ Prompt: 159.8 t/s | Generation: 32.2 t/s ]

[ Prompt: 73.9 t/s | Generation: 31.0 t/s ]

[ Prompt: 96.7 t/s | Generation: 30.7 t/s ] 터짐




$ /mnt/Downloads/llama-b9553/llama-cli --model /mnt/Downloads/model/gemma4-12b/gemma-4-12b-it-UD-Q2_K_XL.gguf --model-draft /mnt/Downloads/model/gemma4-12b/gemma-4-12B-it-MTP-Q8_0.gguf --spec-type draft-mtp --spec-draft-n-max 1 -fit off -ngl 999 -fa on -sm none

[ Prompt: 40.7 t/s | Generation: 32.3 t/s ]
[ Prompt: 139.6 t/s | Generation: 32.9 t/s ]

[ Prompt: 69.6 t/s | Generation: 31.2 t/s ]

[ Prompt: 92.4 t/s | Generation: 28.7 t/s ] 터짐

'프로그램 사용 > ai 프로그램' 카테고리의 다른 글

exllama  (0) 2026.06.10
stable diffusion train  (0) 2026.06.10
nvidia 3070 8GB 테스트 gemma4-e4b  (0) 2026.06.08
sigLIP, CLIP  (0) 2026.06.05
chatML  (0) 2026.06.04
Posted by 구차니

양자화 타입에 영향을 받을테니 bf16 이런걸 받아서 해봐야하나?

 일단.. 근소하게 1080 보단 좋긴하다. 텐서코어 쓰려면 다시 받아야 할 듯 쩝..

gemma-4-E4B-it-Q4_K_M.gguf Reading Generation 10 tokens 0.2s 61.57 t/s
gemma-4-E4B-it-Q4_K_M.gguf Reading Generation 929 tokens 16s 56.72 t/s
gemma-4-E4B-it-Q4_K_M.gguf Reading Generation 3,597 tokens 1min 8s 52.70 t/s

 

그 와중에 8기가와 11기가는 별 차이 없는것 같은데, 제법 로드 가능한 모델이 제한되네.

 

 

에라이

메모리가 적으니 멀 시도해볼수도 없네.

계륵이다 ㅠㅠ

 

 

+

2026.06.17

ubunt 26.04 + driver 595.71.05 + CUDA 13.2

$ ./llama-b9553/llama-cli -m ./model/gemma4-e4b/gemma-4-E4B-it-Q4_K_M.gguf 

 

생성자체는 좀 빠른 것 같은데, 초기 대기시간이 긴 느낌..

[ Prompt: 3.1 t/s | Generation: 30.8 t/s ] / [ Prompt: 4.7 t/s | Generation: 84.8 t/s ]

[ Prompt: 16.3 t/s | Generation: 85.7 t/s ]

[ Prompt: 21.5 t/s | Generation: 79.9 t/s ]

'프로그램 사용 > ai 프로그램' 카테고리의 다른 글

stable diffusion train  (0) 2026.06.10
gemma4-e4b it qat / gemma4-12b mtp on 1080 ti 11GB  (0) 2026.06.08
sigLIP, CLIP  (0) 2026.06.05
chatML  (0) 2026.06.04
gemma 12b, tesla t4 16GB / 1080 ti 11GB * 2 / 3070 8GB  (0) 2026.06.04
Posted by 구차니

local LLM 이랑 AI 관련해서 하루 3~5개 씩 써댔을때 일시적으로 700대 까지 올라가더니

2일 동안 하나도 안쓰고

선거일이라고 안쓰고 부터 쭈욱 하락중

아니.. 검색엔진 등에서 실시간 업데이트 양을 보고 연결해주고 안해주고 하나!?

 

'개소리 왈왈 > 블로그' 카테고리의 다른 글

한 달에 한 번?  (0) 2026.06.17
개인정보 유출 통지 - 데이원 컴퍼니 <- 콜로소  (2) 2026.06.11
도메인 결제  (4) 2026.06.01
해피빈 기부  (0) 2026.05.18
블로그 방문자  (0) 2026.05.05
Posted by 구차니
게임/doom2026. 6. 7. 18:39

"함께해서 드러웠고 다시는 보지말자" 가 저절로 떠오르는 보스

괜히 암흑공주라고 욕 먹는게 아닌듯

 

사실상(?) 퀵 스왑 아니면 깰수가 없다.

실수로 한번 몰려서 얻어 맞으면 피 전부 회복해버리는데

퀵 스왑해서 발리스타랑 로켓런처 번갈아 가면서 쏴야지 1/3~1/2 갂을까 말까라 극딜만이 살길 ㅠㅠ

 

 

DLC 2개 까지 해서 47.4 시간. 올림해서 48시간 흐음..

 

어우 8.3%

'게임 > doom' 카테고리의 다른 글

doom eternal , ancient god part 2 최종장  (0) 2026.06.06
doom eternal ancient god part 2  (0) 2026.06.04
doom eternal / dlc 1편 완료  (0) 2026.05.28
둠 이터널 dlc / ancient god part 1  (0) 2026.05.11
둠 이터널 노말 난이도 끝  (2) 2026.01.24
Posted by 구차니
게임/doom2026. 6. 6. 23:03

어우. 왜 욕먹었은지 알 것 같네

보스가 왜케 쪼잔해

타이밍 이외에 쏘면 지 체력 회복하고

보스급 들 막 소환하지 않나 너무하네

 

 

 

하다하다 빡쳐서 일단 공략보고 고민중

[링크 : https://www.youtube.com/watch?v=p4AL7IIFqhU]

'게임 > doom' 카테고리의 다른 글

doom eternal ancient god part 2 끝!  (0) 2026.06.07
doom eternal ancient god part 2  (0) 2026.06.04
doom eternal / dlc 1편 완료  (0) 2026.05.28
둠 이터널 dlc / ancient god part 1  (0) 2026.05.11
둠 이터널 노말 난이도 끝  (2) 2026.01.24
Posted by 구차니
파일방2026. 6. 5. 17:06

lighthttpd 보다 얼마나 더 가볍길래 micro를 붙인걸까?

C로 작성된 웹서버. rest 까지 지원은 무리겠지? ㅜㅠ

 

[링크 : https://github.com/scottjg/libmicrohttpd/tree/master]

[링크 : https://www.gnu.org/software/libmicrohttpd/]

'파일방' 카테고리의 다른 글

openscad  (0) 2026.05.27
tmux  (0) 2026.05.11
appimage , AppImageLauncher  (0) 2026.04.20
usb device tree viewer  (0) 2026.02.22
exaone 경량 모델  (0) 2026.02.04
Posted by 구차니