어..?!

31b가 오히려 audio를 지원하지 않는다.

 

qwen3.6 이나 gemma4 31B 이런애들만 되는 줄 알았는데, e2b e4b 에서도 되서 시도!

6. Audio
Use the following prompt structures for audio processing:

Audio Speech Recognition (ASR)
Transcribe the following speech segment in {LANGUAGE} into {LANGUAGE} text.

Follow these specific instructions for formatting the answer:
* Only output the transcription, with no newlines.
* When transcribing numbers, write the digits, i.e. write 1.7 and not one point seven, and write 3 instead of three.

Automatic Speech Translation (AST)
Transcribe the following speech segment in {SOURCE_LANGUAGE}, then translate it into {TARGET_LANGUAGE}.
When formatting the answer, first output the transcription in {SOURCE_LANGUAGE}, then one newline, then output the string '{TARGET_LANGUAGE}: ', then the translation in {TARGET_LANGUAGE}.

[링크 : https://huggingface.co/google/gemma-4-E2B]

[링크 : https://huggingface.co/unsloth/gemma-4-E4B-it-GGUF/tree/main]

 

+

실행은 아래와 같이 해주고

D:\study\llm\llama-b8916-bin-win-vulkan-x64>llama-server.exe -m ..\gemma-4-E4B-it-Q4_K_M.gguf --mmproj ..\mmproj-F16.gguf

 

심심하니 nvidia-smi 스샷찍어둔걸 사골로 우려먹기 ㅋㅋ

 

골든 mp4로 받고 ffmpeg 으로 mp3 변환하고

[링크 : https://www.youtube.com/watch?v=yebNIHKAC4A]

 

 

구글 검색에서 뜨는 가사랑 diff 떠보니 음.. 맞는것 같으면서 안 맞는

그래도 노래를 TTS로 돌린거 치고는 제법 비슷하게 나왔다는게 대단한 듯.

Posted by 구차니