요약

QAT는 생성속도 차이는 크게 없어 보임. 사용해봐야 결과 품질을 알 수 있을 듯 함.

MTP는 50% 정도 성능 향상이 되는 듯?

---

QAT

오오 3~4일 전 따끈한 모델!

용량이 3~4GB 정도라 정말 어떨지 궁금하다.

[링크 : https://huggingface.co/unsloth/gemma-4-E4B-it-qat-GGUF]

 

기존에 테스트 하던건 Q4_K_M 이라 비슷할진 모르겠다.

$ ../../llama-b9553/llama-cli -m gemma-4-E4B-it-qat-UD-Q2_K_XL.gguf -sm none
[ Prompt: 16.8 t/s | Generation: 38.6 t/s ]
[ Prompt: 97.9 t/s | Generation: 41.1 t/s ]
[ Prompt: 196.1 t/s | Generation: 39.9 t/s ]

 

$ ../../llama-b9553/llama-cli -m gemma-4-E4B-it-qat-UD-Q4_K_XL.gguf -sm none
[ Prompt: 737.0 t/s | Generation: 62.5 t/s ]
[ Prompt: 238.5 t/s | Generation: 61.4 t/s ]
[ Prompt: 292.3 t/s | Generation: 58.0 t/s ]

 

 

MTP

MTP는 multimodal 처럼 2개의 모델 파일이 필요하구나..

일단은 cuda enable 하고 빌드하려면.. sdk가 문제 없으려나.. 쩝

./build/bin/llama-server \
  -m gemma-4-12b-it-Q4_K_M.gguf \
  --model-draft MTP/gemma-4-12B-it-MTP-Q8_0.gguf \
  --spec-type draft-mtp --spec-draft-n-max 4 \
  -ngl 999 -fa on
Multi GPU: add --spec-draft-device CUDA0 -sm layer.

[링크 : https://huggingface.co/unsloth/gemma-4-12b-it-GGUF/blob/main/MTP/README.md]

 

+

음.. 장렬히 빌드 시도 폭★파 ㅋㅋㅋ

$ cmake -B build -DGGML_CUDA=ON -DCMAKE_CUDA_ARCHITECTURES=61
CMAKE_BUILD_TYPE=Release
-- Warning: ccache not found - consider installing it for faster compilation or disable this warning with GGML_CCACHE=OFF
-- CMAKE_SYSTEM_PROCESSOR: x86_64
-- GGML_SYSTEM_ARCH: x86
-- Including CPU backend
-- x86 detected
-- Adding CPU backend variant ggml-cpu: -march=native 
-- Unable to find cublas_v2.h in either "/usr/local/cuda/include" or "/usr/math_libs/include"
-- CUDA Toolkit found
CMake Error at /usr/share/cmake-3.22/Modules/CMakeDetermineCompilerId.cmake:726 (message):
  Compiling the CUDA compiler identification source file
  "CMakeCUDACompilerId.cu" failed.

  Compiler: /usr/local/cuda/bin/nvcc

  Build flags:

  Id flags: --keep;--keep-dir;tmp;-gencode=arch=compute_61,code=sm_61 -v

  

  The output was:

  1

  nvcc fatal : Unsupported gpu architecture 'compute_61'

  

  

Call Stack (most recent call first):
  /usr/share/cmake-3.22/Modules/CMakeDetermineCompilerId.cmake:6 (CMAKE_DETERMINE_COMPILER_ID_BUILD)
  /usr/share/cmake-3.22/Modules/CMakeDetermineCompilerId.cmake:48 (__determine_compiler_id_test)
  /usr/share/cmake-3.22/Modules/CMakeDetermineCUDACompiler.cmake:298 (CMAKE_DETERMINE_COMPILER_ID)
  ggml/src/ggml-cuda/CMakeLists.txt:59 (enable_language)


-- Configuring incomplete, errors occurred!
See also "/home/falinux/src/llama.cpp/build/CMakeFiles/CMakeOutput.log".
See also "/home/falinux/src/llama.cpp/build/CMakeFiles/CMakeError.log".

 

+

b9500 으로는 무리인가.. 아니면 vulkan 모델이라 안되는걸까?

$ ../../llama-b9500/llama-cli -m gemma-4-12b-it-Q4_0.gguf --model-draft gemma-4-12B-it-MTP-Q8_0.gguf --spec-type draft-mtp --spec-draft-n-max 4 -ngl 999 -fa on --verbose

 

0.19.888.319 E llama_model_load: error loading model: unknown model architecture: 'gemma4-assistant'
0.19.888.322 E llama_model_load_from_file_impl: failed to load model
0.19.888.324 E srv    load_model: failed to load draft model, 'gemma-4-12B-it-MTP-Q8_0.gguf'

 

b9953 으로 하니 돌아간다.

1080 ti 11GB / -sm none

$ ../../llama-b9553/llama-cli -m gemma-4-12b-it-Q4_0.gguf --model-draft gemma-4-12B-it-MTP-Q8_0.gguf --spec-type draft-mtp --spec-draft-n-max 4   -ngl 999 -fa on -sm none

 

Q4_0
[ Prompt: 48.6 t/s | Generation: 42.6 t/s ]
[ Prompt: 231.5 t/s | Generation: 36.6 t/s ]
[ Prompt: 241.1 t/s | Generation: 34.0 t/s ]

UD_Q2_K_XL
[ Prompt: 5.0 t/s | Generation: 21.1 t/s ]
[ Prompt: 80.7 t/s | Generation: 29.2 t/s ]
[ Prompt: 45.0 t/s | Generation: 24.4 t/s ]

 

1080 ti 11GB / -sm layer

$ ../../llama-b9553/llama-cli -m gemma-4-12b-it-Q4_0.gguf --model-draft gemma-4-12B-it-MTP-Q8_0.gguf --spec-type draft-mtp --spec-draft-n-max 4   -ngl 999 -fa on 

 

Q4_0
[ Prompt: 66.8 t/s | Generation: 28.5 t/s ]

[ Prompt: 126.1 t/s | Generation: 19.3 t/s ]
[ Prompt: 88.2 t/s | Generation: 16.3 t/s ]

UD_Q2_K_XL
[ Prompt: 36.5 t/s | Generation: 24.6 t/s ]
[ Prompt: 32.1 t/s | Generation: 17.1 t/s ]
[ Prompt: 47.3 t/s | Generation: 12.6 t/s ]  (한번 터졌음)

 

 

>>>>> 참조용 >>>>>

하드웨어 1080 ti -sm none

gemma-4 12B it Q4_0.gguf Reading Generation 25 tokens 0.9s 27.94 t/s
gemma-4 12B it Q4_0.gguf Reading Generation 255 tokens 8.9s 28.78 t/s
gemma-4 12B it Q4_0.gguf Reading Generation 1,404 tokens 55s 25.45 t/s

gemma-4 12B it UD Q2_K_XL.gguf Reading Generation 29 tokens 1.2s 23.71 t/s
gemma-4 12B it UD Q2_K_XL.gguf Reading Generation 373 tokens 16s 22.28 t/s
gemma-4 12B it UD Q2_K_XL.gguf Reading Generation 806 tokens 37s 21.34 t/s (터짐)


하드웨어 1080 ti -sm layer

gemma-4 12B it Q4_0.gguf Reading Generation 25 tokens 0.8s 31.04 t/s
gemma-4 12B it Q4_0.gguf Reading Generation 265 tokens 9.0s 29.60 t/s
gemma-4 12B it Q4_0.gguf Reading Generation 1,340 tokens 54s 24.43 t/s

gemma-4 12B it UD Q2_K_XL.gguf Reading Generation 31 tokens 1.3s 24.16 t/s
gemma-4 12B it UD Q2_K_XL.gguf Reading Generation 263 tokens 11s 23.70 t/s
gemma-4 12B it UD Q2_K_XL.gguf Reading Generation 620 tokens 29s 20.70 t/s (터짐)

2026.06.04 - [프로그램 사용/ai 프로그램] - gemma 12b, tesla t4 16GB / 1080 ti 11GB * 2

<<<< 참조용 <<<<

'프로그램 사용 > ai 프로그램' 카테고리의 다른 글

nvidia 3070 8GB 테스트 gemma4-e4b  (0) 2026.06.08
chatML  (0) 2026.06.04
gemma 12b, tesla t4 16GB / 1080 ti 11GB * 2  (0) 2026.06.04
nvidia tesla t4 16GB  (0) 2026.06.02
llama.cpp reasoning 옵션  (0) 2026.06.01
Posted by 구차니

양자화 타입에 영향을 받을테니 bf16 이런걸 받아서 해봐야하나?

 일단.. 근소하게 1080 보단 좋긴하다. 텐서코어 쓰려면 다시 받아야 할 듯 쩝..

gemma-4-E4B-it-Q4_K_M.gguf Reading Generation 10 tokens 0.2s 61.57 t/s
gemma-4-E4B-it-Q4_K_M.gguf Reading Generation 929 tokens 16s 56.72 t/s
gemma-4-E4B-it-Q4_K_M.gguf Reading Generation 3,597 tokens 1min 8s 52.70 t/s

 

그 와중에 8기가와 11기가는 별 차이 없는것 같은데, 제법 로드 가능한 모델이 제한되네.

 

 

에라이

메모리가 적으니 멀 시도해볼수도 없네.

계륵이다 ㅠㅠ

 

'프로그램 사용 > ai 프로그램' 카테고리의 다른 글

gemma4-e4b it qat / gemma4-12b mtp on 1080 ti 11GB  (0) 2026.06.08
chatML  (0) 2026.06.04
gemma 12b, tesla t4 16GB / 1080 ti 11GB * 2  (0) 2026.06.04
nvidia tesla t4 16GB  (0) 2026.06.02
llama.cpp reasoning 옵션  (0) 2026.06.01
Posted by 구차니

local LLM 이랑 AI 관련해서 하루 3~5개 씩 써댔을때 일시적으로 700대 까지 올라가더니

2일 동안 하나도 안쓰고

선거일이라고 안쓰고 부터 쭈욱 하락중

아니.. 검색엔진 등에서 실시간 업데이트 양을 보고 연결해주고 안해주고 하나!?

 

'개소리 왈왈 > 블로그' 카테고리의 다른 글

도메인 결제  (4) 2026.06.01
해피빈 기부  (0) 2026.05.18
블로그 방문자  (0) 2026.05.05
어우 겨우겨우 동영상 백업 완료  (0) 2026.03.05
카카오 TV 서비스 종료  (0) 2026.03.05
Posted by 구차니
게임/doom2026. 6. 7. 18:39

"함께해서 드러웠고 다시는 보지말자" 가 저절로 떠오르는 보스

괜히 암흑공주라고 욕 먹는게 아닌듯

 

사실상(?) 퀵 스왑 아니면 깰수가 없다.

실수로 한번 몰려서 얻어 맞으면 피 전부 회복해버리는데

퀵 스왑해서 발리스타랑 로켓런처 번갈아 가면서 쏴야지 1/3~1/2 갂을까 말까라 극딜만이 살길 ㅠㅠ

 

 

DLC 2개 까지 해서 47.4 시간. 올림해서 48시간 흐음..

 

어우 8.3%

'게임 > doom' 카테고리의 다른 글

doom eternal , ancient god part 2 최종장  (0) 2026.06.06
doom eternal ancient god part 2  (0) 2026.06.04
doom eternal / dlc 1편 완료  (0) 2026.05.28
둠 이터널 dlc / ancient god part 1  (0) 2026.05.11
둠 이터널 노말 난이도 끝  (2) 2026.01.24
Posted by 구차니
게임/doom2026. 6. 6. 23:03

어우. 왜 욕먹었은지 알 것 같네

보스가 왜케 쪼잔해

타이밍 이외에 쏘면 지 체력 회복하고

보스급 들 막 소환하지 않나 너무하네

 

 

 

하다하다 빡쳐서 일단 공략보고 고민중

[링크 : https://www.youtube.com/watch?v=p4AL7IIFqhU]

'게임 > doom' 카테고리의 다른 글

doom eternal ancient god part 2 끝!  (0) 2026.06.07
doom eternal ancient god part 2  (0) 2026.06.04
doom eternal / dlc 1편 완료  (0) 2026.05.28
둠 이터널 dlc / ancient god part 1  (0) 2026.05.11
둠 이터널 노말 난이도 끝  (2) 2026.01.24
Posted by 구차니
파일방2026. 6. 5. 17:06

lighthttpd 보다 얼마나 더 가볍길래 micro를 붙인걸까?

C로 작성된 웹서버. rest 까지 지원은 무리겠지? ㅜㅠ

 

[링크 : https://github.com/scottjg/libmicrohttpd/tree/master]

[링크 : https://www.gnu.org/software/libmicrohttpd/]

'파일방' 카테고리의 다른 글

openscad  (0) 2026.05.27
tmux  (0) 2026.05.11
appimage , AppImageLauncher  (0) 2026.04.20
usb device tree viewer  (0) 2026.02.22
exaone 경량 모델  (0) 2026.02.04
Posted by 구차니
Programming/qt2026. 6. 5. 17:03

전체 화면을 scaling 하는 방법. 일장일단이 있겠지만

화면 비율이 다르면 답없는 건 매한가지 ㅠㅠ

 

[링크 : https://doc.qt.io/archives/qt-5.15/qgraphicsproxywidget.html]

Posted by 구차니
Programming/qt2026. 6. 5. 14:57

QComboBox 등으로 언어를 선택하고 app.installTranslator()를 호출하면

모든 위젯들에게 자동으로 changeLanguage()가 발송된다 (즉, 수동으로 언어 변경 메시지를 전체에 뿌릴 필요가 없다)

int main(int argc, char *argv[])
{
    QApplication app(argc, argv);

    QTranslator myappTranslator;
    if (myappTranslator.load(QLocale::system(), u"myapp"_s, u"_"_s, u":/i18n"_s))
        app.installTranslator(&myappTranslator);

    return app.exec();
}

 

위젯들에게 각각 아래의 이벤트 핸들러를 추가해주면 되는데

헤더에는 protected: 에 override 해서 해주면되고

protected:
    void resizeEvent(QResizeEvent *event) override;
    void changeEvent(QEvent *event) override;

 

함수에서는 별거 없이 retranslateUi()를 호출해주면된다.

void MyWidget::changeEvent(QEvent *event)
{
    if (event->type() == QEvent::LanguageChange) {
        ui.retranslateUi(this);
    } else
        QWidget::changeEvent(event);
}

[링크 : https://doc.qt.io/qt-6/ko/i18n-source-translation.html#prepare-for-dynamic-language-changes]

 

확실히 이렇게 하니 시그널들 서로 연결한다고 고생안해도 되서 개꿀

'Programming > qt' 카테고리의 다른 글

QGraphicsProxyWidget  (0) 2026.06.05
QT 자식 위젯으로 생성 / 부모 위젯 연결  (0) 2026.06.05
qt QTabWidget 사용  (0) 2026.06.04
qt 다국어지원 - 보이지 않는 메시지 추가하기  (0) 2026.06.02
QCombobox + 다국어  (0) 2026.05.21
Posted by 구차니
Programming/qt2026. 6. 5. 12:07

위젯 생성시 this를 넣어서 하면, 자식으로 생성되어 별도의 창으로 뜨지 않는다.

QWidget test = new QWidget(); // 독립된 창으로 뜸
test.show();

QWidget test2 = new QWidget(this); // Mainwindow 안에 뜸
test2.show();

 

간단하게(?) parent를 지정해주냐 안해주냐의 차이인듯.

class test : public QWidget
{
    Q_OBJECT

public:
    explicit test(QWidget *parent = nullptr);
    ~test();
}

 

'Programming > qt' 카테고리의 다른 글

QGraphicsProxyWidget  (0) 2026.06.05
QT 다국어 언어 설정 전파  (0) 2026.06.05
qt QTabWidget 사용  (0) 2026.06.04
qt 다국어지원 - 보이지 않는 메시지 추가하기  (0) 2026.06.02
QCombobox + 다국어  (0) 2026.05.21
Posted by 구차니
게임/doom2026. 6. 4. 23:52

휴. 빡세고만 ㅠㅠ

 

'게임 > doom' 카테고리의 다른 글

doom eternal ancient god part 2 끝!  (0) 2026.06.07
doom eternal , ancient god part 2 최종장  (0) 2026.06.06
doom eternal / dlc 1편 완료  (0) 2026.05.28
둠 이터널 dlc / ancient god part 1  (0) 2026.05.11
둠 이터널 노말 난이도 끝  (2) 2026.01.24
Posted by 구차니