요약

QAT는 생성속도 차이는 크게 없어 보임. 사용해봐야 결과 품질을 알 수 있을 듯 함.

MTP는 50% 정도 성능 향상이 되는 듯?

---

QAT

오오 3~4일 전 따끈한 모델!

용량이 3~4GB 정도라 정말 어떨지 궁금하다.

[링크 : https://huggingface.co/unsloth/gemma-4-E4B-it-qat-GGUF]

 

기존에 테스트 하던건 Q4_K_M 이라 비슷할진 모르겠다.

$ ../../llama-b9553/llama-cli -m gemma-4-E4B-it-qat-UD-Q2_K_XL.gguf -sm none
[ Prompt: 16.8 t/s | Generation: 38.6 t/s ]
[ Prompt: 97.9 t/s | Generation: 41.1 t/s ]
[ Prompt: 196.1 t/s | Generation: 39.9 t/s ]

 

$ ../../llama-b9553/llama-cli -m gemma-4-E4B-it-qat-UD-Q4_K_XL.gguf -sm none
[ Prompt: 737.0 t/s | Generation: 62.5 t/s ]
[ Prompt: 238.5 t/s | Generation: 61.4 t/s ]
[ Prompt: 292.3 t/s | Generation: 58.0 t/s ]

 

 

MTP

MTP는 multimodal 처럼 2개의 모델 파일이 필요하구나..

일단은 cuda enable 하고 빌드하려면.. sdk가 문제 없으려나.. 쩝

./build/bin/llama-server \
  -m gemma-4-12b-it-Q4_K_M.gguf \
  --model-draft MTP/gemma-4-12B-it-MTP-Q8_0.gguf \
  --spec-type draft-mtp --spec-draft-n-max 4 \
  -ngl 999 -fa on
Multi GPU: add --spec-draft-device CUDA0 -sm layer.

[링크 : https://huggingface.co/unsloth/gemma-4-12b-it-GGUF/blob/main/MTP/README.md]

 

+

음.. 장렬히 빌드 시도 폭★파 ㅋㅋㅋ

$ cmake -B build -DGGML_CUDA=ON -DCMAKE_CUDA_ARCHITECTURES=61
CMAKE_BUILD_TYPE=Release
-- Warning: ccache not found - consider installing it for faster compilation or disable this warning with GGML_CCACHE=OFF
-- CMAKE_SYSTEM_PROCESSOR: x86_64
-- GGML_SYSTEM_ARCH: x86
-- Including CPU backend
-- x86 detected
-- Adding CPU backend variant ggml-cpu: -march=native 
-- Unable to find cublas_v2.h in either "/usr/local/cuda/include" or "/usr/math_libs/include"
-- CUDA Toolkit found
CMake Error at /usr/share/cmake-3.22/Modules/CMakeDetermineCompilerId.cmake:726 (message):
  Compiling the CUDA compiler identification source file
  "CMakeCUDACompilerId.cu" failed.

  Compiler: /usr/local/cuda/bin/nvcc

  Build flags:

  Id flags: --keep;--keep-dir;tmp;-gencode=arch=compute_61,code=sm_61 -v

  

  The output was:

  1

  nvcc fatal : Unsupported gpu architecture 'compute_61'

  

  

Call Stack (most recent call first):
  /usr/share/cmake-3.22/Modules/CMakeDetermineCompilerId.cmake:6 (CMAKE_DETERMINE_COMPILER_ID_BUILD)
  /usr/share/cmake-3.22/Modules/CMakeDetermineCompilerId.cmake:48 (__determine_compiler_id_test)
  /usr/share/cmake-3.22/Modules/CMakeDetermineCUDACompiler.cmake:298 (CMAKE_DETERMINE_COMPILER_ID)
  ggml/src/ggml-cuda/CMakeLists.txt:59 (enable_language)


-- Configuring incomplete, errors occurred!
See also "/home/falinux/src/llama.cpp/build/CMakeFiles/CMakeOutput.log".
See also "/home/falinux/src/llama.cpp/build/CMakeFiles/CMakeError.log".

 

+

b9500 으로는 무리인가.. 아니면 vulkan 모델이라 안되는걸까?

$ ../../llama-b9500/llama-cli -m gemma-4-12b-it-Q4_0.gguf --model-draft gemma-4-12B-it-MTP-Q8_0.gguf --spec-type draft-mtp --spec-draft-n-max 4 -ngl 999 -fa on --verbose

 

0.19.888.319 E llama_model_load: error loading model: unknown model architecture: 'gemma4-assistant'
0.19.888.322 E llama_model_load_from_file_impl: failed to load model
0.19.888.324 E srv    load_model: failed to load draft model, 'gemma-4-12B-it-MTP-Q8_0.gguf'

 

b9953 으로 하니 돌아간다.

1080 ti 11GB / -sm none

$ ../../llama-b9553/llama-cli -m gemma-4-12b-it-Q4_0.gguf --model-draft gemma-4-12B-it-MTP-Q8_0.gguf --spec-type draft-mtp --spec-draft-n-max 4   -ngl 999 -fa on -sm none

 

Q4_0
[ Prompt: 48.6 t/s | Generation: 42.6 t/s ]
[ Prompt: 231.5 t/s | Generation: 36.6 t/s ]
[ Prompt: 241.1 t/s | Generation: 34.0 t/s ]

UD_Q2_K_XL
[ Prompt: 5.0 t/s | Generation: 21.1 t/s ]
[ Prompt: 80.7 t/s | Generation: 29.2 t/s ]
[ Prompt: 45.0 t/s | Generation: 24.4 t/s ]

 

1080 ti 11GB / -sm layer

$ ../../llama-b9553/llama-cli -m gemma-4-12b-it-Q4_0.gguf --model-draft gemma-4-12B-it-MTP-Q8_0.gguf --spec-type draft-mtp --spec-draft-n-max 4   -ngl 999 -fa on 

 

Q4_0
[ Prompt: 66.8 t/s | Generation: 28.5 t/s ]

[ Prompt: 126.1 t/s | Generation: 19.3 t/s ]
[ Prompt: 88.2 t/s | Generation: 16.3 t/s ]

UD_Q2_K_XL
[ Prompt: 36.5 t/s | Generation: 24.6 t/s ]
[ Prompt: 32.1 t/s | Generation: 17.1 t/s ]
[ Prompt: 47.3 t/s | Generation: 12.6 t/s ]  (한번 터졌음)

 

 

>>>>> 참조용 >>>>>

하드웨어 1080 ti -sm none

gemma-4 12B it Q4_0.gguf Reading Generation 25 tokens 0.9s 27.94 t/s
gemma-4 12B it Q4_0.gguf Reading Generation 255 tokens 8.9s 28.78 t/s
gemma-4 12B it Q4_0.gguf Reading Generation 1,404 tokens 55s 25.45 t/s

gemma-4 12B it UD Q2_K_XL.gguf Reading Generation 29 tokens 1.2s 23.71 t/s
gemma-4 12B it UD Q2_K_XL.gguf Reading Generation 373 tokens 16s 22.28 t/s
gemma-4 12B it UD Q2_K_XL.gguf Reading Generation 806 tokens 37s 21.34 t/s (터짐)


하드웨어 1080 ti -sm layer

gemma-4 12B it Q4_0.gguf Reading Generation 25 tokens 0.8s 31.04 t/s
gemma-4 12B it Q4_0.gguf Reading Generation 265 tokens 9.0s 29.60 t/s
gemma-4 12B it Q4_0.gguf Reading Generation 1,340 tokens 54s 24.43 t/s

gemma-4 12B it UD Q2_K_XL.gguf Reading Generation 31 tokens 1.3s 24.16 t/s
gemma-4 12B it UD Q2_K_XL.gguf Reading Generation 263 tokens 11s 23.70 t/s
gemma-4 12B it UD Q2_K_XL.gguf Reading Generation 620 tokens 29s 20.70 t/s (터짐)

2026.06.04 - [프로그램 사용/ai 프로그램] - gemma 12b, tesla t4 16GB / 1080 ti 11GB * 2

<<<< 참조용 <<<<

'프로그램 사용 > ai 프로그램' 카테고리의 다른 글

nvidia 3070 8GB 테스트 gemma4-e4b  (0) 2026.06.08
sigLIP, CLIP  (0) 2026.06.05
chatML  (0) 2026.06.04
gemma 12b, tesla t4 16GB / 1080 ti 11GB * 2  (0) 2026.06.04
nvidia tesla t4 16GB  (0) 2026.06.02
Posted by 구차니

양자화 타입에 영향을 받을테니 bf16 이런걸 받아서 해봐야하나?

 일단.. 근소하게 1080 보단 좋긴하다. 텐서코어 쓰려면 다시 받아야 할 듯 쩝..

gemma-4-E4B-it-Q4_K_M.gguf Reading Generation 10 tokens 0.2s 61.57 t/s
gemma-4-E4B-it-Q4_K_M.gguf Reading Generation 929 tokens 16s 56.72 t/s
gemma-4-E4B-it-Q4_K_M.gguf Reading Generation 3,597 tokens 1min 8s 52.70 t/s

 

그 와중에 8기가와 11기가는 별 차이 없는것 같은데, 제법 로드 가능한 모델이 제한되네.

 

 

에라이

메모리가 적으니 멀 시도해볼수도 없네.

계륵이다 ㅠㅠ

 

'프로그램 사용 > ai 프로그램' 카테고리의 다른 글

gemma4-e4b it qat / gemma4-12b mtp on 1080 ti 11GB  (0) 2026.06.08
sigLIP, CLIP  (0) 2026.06.05
chatML  (0) 2026.06.04
gemma 12b, tesla t4 16GB / 1080 ti 11GB * 2  (0) 2026.06.04
nvidia tesla t4 16GB  (0) 2026.06.02
Posted by 구차니

local LLM 이랑 AI 관련해서 하루 3~5개 씩 써댔을때 일시적으로 700대 까지 올라가더니

2일 동안 하나도 안쓰고

선거일이라고 안쓰고 부터 쭈욱 하락중

아니.. 검색엔진 등에서 실시간 업데이트 양을 보고 연결해주고 안해주고 하나!?

 

'개소리 왈왈 > 블로그' 카테고리의 다른 글

도메인 결제  (4) 2026.06.01
해피빈 기부  (0) 2026.05.18
블로그 방문자  (0) 2026.05.05
어우 겨우겨우 동영상 백업 완료  (0) 2026.03.05
카카오 TV 서비스 종료  (0) 2026.03.05
Posted by 구차니
게임/doom2026. 6. 7. 18:39

"함께해서 드러웠고 다시는 보지말자" 가 저절로 떠오르는 보스

괜히 암흑공주라고 욕 먹는게 아닌듯

 

사실상(?) 퀵 스왑 아니면 깰수가 없다.

실수로 한번 몰려서 얻어 맞으면 피 전부 회복해버리는데

퀵 스왑해서 발리스타랑 로켓런처 번갈아 가면서 쏴야지 1/3~1/2 갂을까 말까라 극딜만이 살길 ㅠㅠ

 

 

DLC 2개 까지 해서 47.4 시간. 올림해서 48시간 흐음..

 

어우 8.3%

'게임 > doom' 카테고리의 다른 글

doom eternal , ancient god part 2 최종장  (0) 2026.06.06
doom eternal ancient god part 2  (0) 2026.06.04
doom eternal / dlc 1편 완료  (0) 2026.05.28
둠 이터널 dlc / ancient god part 1  (0) 2026.05.11
둠 이터널 노말 난이도 끝  (2) 2026.01.24
Posted by 구차니
게임/doom2026. 6. 6. 23:03

어우. 왜 욕먹었은지 알 것 같네

보스가 왜케 쪼잔해

타이밍 이외에 쏘면 지 체력 회복하고

보스급 들 막 소환하지 않나 너무하네

 

 

 

하다하다 빡쳐서 일단 공략보고 고민중

[링크 : https://www.youtube.com/watch?v=p4AL7IIFqhU]

'게임 > doom' 카테고리의 다른 글

doom eternal ancient god part 2 끝!  (0) 2026.06.07
doom eternal ancient god part 2  (0) 2026.06.04
doom eternal / dlc 1편 완료  (0) 2026.05.28
둠 이터널 dlc / ancient god part 1  (0) 2026.05.11
둠 이터널 노말 난이도 끝  (2) 2026.01.24
Posted by 구차니
파일방2026. 6. 5. 17:06

lighthttpd 보다 얼마나 더 가볍길래 micro를 붙인걸까?

C로 작성된 웹서버. rest 까지 지원은 무리겠지? ㅜㅠ

 

[링크 : https://github.com/scottjg/libmicrohttpd/tree/master]

[링크 : https://www.gnu.org/software/libmicrohttpd/]

'파일방' 카테고리의 다른 글

openscad  (0) 2026.05.27
tmux  (0) 2026.05.11
appimage , AppImageLauncher  (0) 2026.04.20
usb device tree viewer  (0) 2026.02.22
exaone 경량 모델  (0) 2026.02.04
Posted by 구차니
Programming/qt2026. 6. 5. 17:03

전체 화면을 scaling 하는 방법. 일장일단이 있겠지만

화면 비율이 다르면 답없는 건 매한가지 ㅠㅠ

 

[링크 : https://doc.qt.io/archives/qt-5.15/qgraphicsproxywidget.html]

Posted by 구차니

간단하게 영상을 분석해서 그걸 text로 매칭시켜주는 녀석이 바로 CLIP / sigLIP 같은 비전 인코더다

그럼 반대로 비전 디코더도 있을것 같은데

[링크 : https://huggingface.co/docs/transformers/v4.15.0/model_doc/visionencoderdecoder]

 

bert도 어디서 주워들은것 같은데 아무튼 얘도 비전 인코더 인듯.

LDM에선 BERT Encoder로 사용하였지만 Stable Diffusion에선 OpenAI에서 공개한 CLIP Text Encoder를 사용함

[링크 : https://velog.io/@hskhyl/Generative-AI4-imagestable-Diffusion-평가]

 

SigLIP 같은 비전 인코더

[링크 : https://wikidocs.net/blog/@jaehong/17175/]

 

Sigmoid Loss for Language Image Pre-Training
SigLIP은 CLIP에서 사용된 손실 함수를 간단한 쌍별 시그모이드 손실(pairwise sigmoid loss)로 대체할 것을 제안합니다. 이는 ImageNet에서 제로샷 분류 정확도 측면에서 더 나은 성능을 보입니다.

[링크 : https://huggingface.co/papers/2303.15343]

  [링크 : https://huggingface.co/docs/transformers/ko/model_doc/siglip]

 

CLIP(Contrastive Language-Image Pre-Training)은 다양한 이미지와 텍스트 쌍으로 훈련된 신경망 입니다. 

[링크 : https://huggingface.co/papers/2103.00020]

    [링크 : https://huggingface.co/docs/transformers/ko/model_doc/clip]

 

[링크 : https://huggingface.co/mhbkb/stable-diffusion-base-2.0-clip_1]

 

[링크 : https://dy120.tistory.com/15]

 

 

아무튼 정리하자면..

stable diffusion 에서 txt2img를 할 경우

txt2img로 사용할 임베딩 벡터를 뱉어내는 녀석이 CLIP 이고

그 이후에 노이즈를 지워가면서 그려가는게 전체 작동원리인듯 하다.

'프로그램 사용 > ai 프로그램' 카테고리의 다른 글

gemma4-e4b it qat / gemma4-12b mtp on 1080 ti 11GB  (0) 2026.06.08
nvidia 3070 8GB 테스트 gemma4-e4b  (0) 2026.06.08
chatML  (0) 2026.06.04
gemma 12b, tesla t4 16GB / 1080 ti 11GB * 2  (0) 2026.06.04
nvidia tesla t4 16GB  (0) 2026.06.02
Posted by 구차니
Programming/qt2026. 6. 5. 14:57

QComboBox 등으로 언어를 선택하고 app.installTranslator()를 호출하면

모든 위젯들에게 자동으로 changeLanguage()가 발송된다 (즉, 수동으로 언어 변경 메시지를 전체에 뿌릴 필요가 없다)

int main(int argc, char *argv[])
{
    QApplication app(argc, argv);

    QTranslator myappTranslator;
    if (myappTranslator.load(QLocale::system(), u"myapp"_s, u"_"_s, u":/i18n"_s))
        app.installTranslator(&myappTranslator);

    return app.exec();
}

 

위젯들에게 각각 아래의 이벤트 핸들러를 추가해주면 되는데

헤더에는 protected: 에 override 해서 해주면되고

protected:
    void resizeEvent(QResizeEvent *event) override;
    void changeEvent(QEvent *event) override;

 

함수에서는 별거 없이 retranslateUi()를 호출해주면된다.

void MyWidget::changeEvent(QEvent *event)
{
    if (event->type() == QEvent::LanguageChange) {
        ui.retranslateUi(this);
    } else
        QWidget::changeEvent(event);
}

[링크 : https://doc.qt.io/qt-6/ko/i18n-source-translation.html#prepare-for-dynamic-language-changes]

 

확실히 이렇게 하니 시그널들 서로 연결한다고 고생안해도 되서 개꿀

'Programming > qt' 카테고리의 다른 글

QGraphicsProxyWidget  (0) 2026.06.05
QT 자식 위젯으로 생성 / 부모 위젯 연결  (0) 2026.06.05
qt QTabWidget 사용  (0) 2026.06.04
qt 다국어지원 - 보이지 않는 메시지 추가하기  (0) 2026.06.02
QCombobox + 다국어  (0) 2026.05.21
Posted by 구차니
Programming/qt2026. 6. 5. 12:07

위젯 생성시 this를 넣어서 하면, 자식으로 생성되어 별도의 창으로 뜨지 않는다.

QWidget test = new QWidget(); // 독립된 창으로 뜸
test.show();

QWidget test2 = new QWidget(this); // Mainwindow 안에 뜸
test2.show();

 

간단하게(?) parent를 지정해주냐 안해주냐의 차이인듯.

class test : public QWidget
{
    Q_OBJECT

public:
    explicit test(QWidget *parent = nullptr);
    ~test();
}

 

'Programming > qt' 카테고리의 다른 글

QGraphicsProxyWidget  (0) 2026.06.05
QT 다국어 언어 설정 전파  (0) 2026.06.05
qt QTabWidget 사용  (0) 2026.06.04
qt 다국어지원 - 보이지 않는 메시지 추가하기  (0) 2026.06.02
QCombobox + 다국어  (0) 2026.05.21
Posted by 구차니