프로그램 사용/ai 프로그램
gemma4 e?b 멀티모달
구차니
2026. 5. 5. 21:43
어..?!
31b가 오히려 audio를 지원하지 않는다.

qwen3.6 이나 gemma4 31B 이런애들만 되는 줄 알았는데, e2b e4b 에서도 되서 시도!
| 6. Audio Use the following prompt structures for audio processing: Audio Speech Recognition (ASR) Transcribe the following speech segment in {LANGUAGE} into {LANGUAGE} text. Follow these specific instructions for formatting the answer: * Only output the transcription, with no newlines. * When transcribing numbers, write the digits, i.e. write 1.7 and not one point seven, and write 3 instead of three. Automatic Speech Translation (AST) Transcribe the following speech segment in {SOURCE_LANGUAGE}, then translate it into {TARGET_LANGUAGE}. When formatting the answer, first output the transcription in {SOURCE_LANGUAGE}, then one newline, then output the string '{TARGET_LANGUAGE}: ', then the translation in {TARGET_LANGUAGE}. |
[링크 : https://huggingface.co/google/gemma-4-E2B]
[링크 : https://huggingface.co/unsloth/gemma-4-E4B-it-GGUF/tree/main]
+
실행은 아래와 같이 해주고
| D:\study\llm\llama-b8916-bin-win-vulkan-x64>llama-server.exe -m ..\gemma-4-E4B-it-Q4_K_M.gguf --mmproj ..\mmproj-F16.gguf |
심심하니 nvidia-smi 스샷찍어둔걸 사골로 우려먹기 ㅋㅋ

골든 mp4로 받고 ffmpeg 으로 mp3 변환하고
[링크 : https://www.youtube.com/watch?v=yebNIHKAC4A]

구글 검색에서 뜨는 가사랑 diff 떠보니 음.. 맞는것 같으면서 안 맞는
그래도 노래를 TTS로 돌린거 치고는 제법 비슷하게 나왔다는게 대단한 듯.
