어떻게 쓰지 싶었는데, 2025년 5월 15일 내용에 이미 아래의 모델들이 지원되고 있었다

[링크 : https://ollama.com/blog/multimodal-models]

[링크 :https://ollama.com/search?c=vision]

 

아래 파일 경로가

/home/minimonk/1804-lubuntu-default-wallpaper.png 인데

절대경로 넣어주면 알아서 읽어서 본다.

헐..(!)

 

$ ollama run gemma4:e2b
>>> what do you see in this image?  /home/minimonk/1804-lubuntu-default-wall
... paper.png
Added image '/home/minimonk/1804-lubuntu-default-wallpaper.png'
Thinking...
Here's a thinking process to analyze the image and generate the 
description:

1.  **Analyze the Request:** The user provided an image and asked, "what 
do you see in this image?"

2.  **Examine the Image (Visual Analysis):**
    *   **Overall Impression/Mood:** The image is dark, deep, atmospheric, 
and somewhat cosmic or abstract.
    *   **Colors:** The dominant colors are deep blues (teal/cyan), 
vibrant purples (magenta/violet), and some lighter, soft areas.
    *   **Texture/Pattern:** The background is not uniformly smooth. It 
features nebulous areas and scattered dots.
    *   **Specific Elements:**
        *   **Background:** Deep blue/purple gradient.
        *   **Texture/Effects:** There are faint, wispy clouds or nebulas, 
especially in the upper right area, suggesting a cosmic or smoky effect.
        *   **Particles:** Numerous small, scattered white or 
light-colored dots (specks of light/stars/dust) are distributed across the 
frame.
        *   **Light/Glow:** There is a soft, glowing, lighter purple/pink 
area, particularly visible towards the right.

3.  **Synthesize the Description (Drafting the Response):** Combine the 
observations into a coherent description. Start with the general theme and 
then detail the specific elements.

    *   *(Initial thought: It's a space background.)*
    *   *(Refinement: It's an abstract digital art piece, often called a 
cosmic or nebula background.)*

4.  **Review and Refine (Adding evocative language):** Ensure the 
description is accurate and engaging. (Self-Correction: Avoid making 
definitive claims like "it is space," but use terms that imply it, like 
"nebula" or "cosmic.")

5.  **Final Output Generation.** (This leads to the provided good 
response.)
...done thinking.

This image is an **abstract, atmospheric background**, often resembling a 
**cosmic or nebula scene**.

Here is a detailed breakdown of what I see:

1.  **Color Palette:** The dominant colors are deep and rich, featuring a 
strong gradient blend of **deep blues** and **vibrant purples/magentas**.
2.  **Texture/Atmosphere:** The background has a soft, smoky, or nebulous 
quality, suggesting deep space or an ethereal cloud formation. There are 
lighter, diffused areas, particularly on the right side, which glow with 
pink and purple hues.
3.  **Particles:** The image is scattered with numerous small, bright 
**white dots**, which give the impression of stars, dust, or glittering 
particles floating in the dark space.
4.  **Overall Mood:** The image evokes a feeling of depth, mystery, 
serenity, and vastness. It is highly typical of digital art used as 
wallpapers or abstract graphics.

 

llama.cpp로 개고생 하던게 이렇게 쉽게 되다니 ㅠㅠ

'프로그램 사용 > ai 프로그램' 카테고리의 다른 글

opencode + llama.cpp  (0) 2026.05.06
llm tts?  (0) 2026.05.05
stablie diffusion 모델 변경 / 다운로드 하기  (0) 2026.05.05
gemma4 e?b 멀티모달  (0) 2026.05.05
stable diffusion + 1080 ti 시도  (0) 2026.05.04
Posted by 구차니
Linux/Ubuntu2026. 5. 6. 22:29

예전에 우분투에서 이상하게 반응이 느렸던 문제로 찾았던건데

llm 에서 한글 발음을 영어로 적게 해서 이걸 festival 통해 wav로 생성하고

메신저로 넘기게 하면 어떨려나?

 

echo "linuxquestions.org" > mytext.txt
text2wave -o mytext.wav myaudio.txt

[링크 : https://wiki.linuxquestions.org/wiki/Text2wave]

[링크 : https://wiki.archlinux.org/title/Festival]

[링크 : https://manpages.ubuntu.com/manpages/resolute/man1/festival.1.html]

[링크 : https://manpages.ubuntu.com/manpages/trusty/man1/text2wave.1.html]

 

+

2026.05.07

ai 가라사대~

설치된 음성은 festival 실행해서 괄호넣어서 하면 나오는데

$ festival

Festival Speech Synthesis System 2.5.0:release December 2017
Copyright (C) University of Edinburgh, 1996-2010. All rights reserved.

clunits: Copyright (C) University of Edinburgh and CMU 1997-2010
clustergen_engine: Copyright (C) Carnegie Mellon University 2005-2017
hts_engine: 
The HMM-Based Speech Synthesis Engine "hts_engine API"
hts_engine API version 1.07 (http://hts-engine.sourceforge.net/)
Copyright (C) The HMM-Based Speech Synthesis Engine "hts_engine API"
Version 1.07 (http://hts-engine.sourceforge.net/)
Copyright (C) 2001-2012 Nagoya Institute of Technology
              2001-2008 Tokyo Institute of Technology
All rights reserved.

All rights reserved.
For details type `(festival_warranty)'
festival> voice.list
#<CLOSURE nil (begin "(voice.list)
List of all (potential) voices in the system.  This checks the voice-location
list of potential voices found be scanning the voice-path at start up time.
These names can be used as arguments to voice.description and
voice.describe." (mapcar car voice-locations))>
festival> (voice.list) 
(kal_diphone)

 

festvox로 추가 음성을 설치할 수 있다고 한다.

$ apt-cache search festvox*
flite - Small run-time speech synthesis engine
flite1-dev - Small run-time speech synthesis engine - development files
freetts - 음성 합성 시스템
libflite1 - 작은 런타임 음성 합성 엔진 - 공유 라이브러리
festvox-ca-ona-hts - Catalan female speaker for festival, 16kHz HTS
festvox-czech-dita - Czech adult female speaker "dita" for Festival
festvox-czech-krb - Czech child male speaker "krb" for Festival
festvox-czech-machac - Czech adult male speaker "machac" for Festival
festvox-czech-ph - Czech male speaker for Festival
festvox-hi-nsk - Hindi male speaker for festival
festvox-italp16k - Italian female speaker for Festival
festvox-itapc16k - Italian male speaker for Festival
festvox-kallpc16k - American English male speaker for festival, 16khz sample rate
festvox-kallpc8k - American English male speaker for festival, 8khz sample rate
festvox-kdlpc16k - American English male speaker for festival, 16khz sample rate
festvox-kdlpc8k - American English male speaker for festival, 8khz sample rate
festvox-mr-nsk - Marathi male speaker for festival
festvox-ru - Russian male speaker for Festival
festvox-suopuhe-common - Common files for Festival Finnish speakers
festvox-suopuhe-lj - Finnish female speaker for Festival
festvox-suopuhe-mv - Finnish male speaker for festival
festvox-te-nsk - Telugu (te) male speaker for festival
festvox-us-slt-hts - : US English voice for Festival. 32kHz sample rate, HTS
festvox-don - minimal British English male speaker for festival
festvox-ellpc11k - Castilian Spanish male speaker for Festival
festvox-en1 - mbrola-en1 voice support for festival
festvox-rablpc16k - British English male speaker for festival, 16khz sample rate
festvox-rablpc8k - British English male speaker for festival, 8khz sample rate
festvox-us1 - mbrola-us1 voice support for festival
festvox-us2 - mbrola-us2 voice support for festival
festvox-us3 - mbrola-us3 voice support for festival

 

echo "Hello" | festival --tts --voice voice_kal_diphone

(Parameter.set 'Duration_Stretch 1.3) ; 느리게
(set! duffint_params '((start 120) (end 140))) ; 피치 변경

 

For example
will make everything speak more slowly.

[링크 : https://www.cstr.ed.ac.uk/projects/festival/manual/festival_19.html#SEC72]

  [링크 : https://www.cstr.ed.ac.uk/projects/festival/manual/]

 

festival> help
"The Festival Speech Synthesizer System: Help

Getting Help
  (doc '<SYMBOL>)   displays help on <SYMBOL>
  (manual nil)      displays manual in local netscape
  C-c               return to top level
  C-d or (quit)     Exit Festival
(If compiled with editline)
  M-h               displays help on current symbol  
  M-s               speaks help on current symbol  
  M-m               displays relevant manual page in local netscape
  TAB               Command, symbol and filename completion
  C-p or up-arrow   Previous command
  C-b or left-arrow Move back one character
  C-f or right-arrow 
                    Move forward one character
  Normal Emacs commands work for editing command line

Doing stuff
  (SayText TEXT)      Synthesize text, text should be surrounded by
                      double quotes
  (tts FILENAME nil)  Say contexts of file, FILENAME should be 
                      surrounded by double quotes
  (voice_rab_diphone) Select voice (Britsh Male)
  (voice_kal_diphone) Select voice (American Male)
"

 

 

'Linux > Ubuntu' 카테고리의 다른 글

luit  (0) 2026.03.23
ubuntu 22.04 bgr 패널 대응  (0) 2025.12.29
clamav  (0) 2025.12.22
evince (리눅스 pdf 뷰어) 네비게이션  (0) 2025.12.11
ubuntu 22.04 bgr subpixel 대응 찾기 실패  (0) 2025.11.25
Posted by 구차니

N - Number of image size in batch size

H - Height of image

W - Width of image

C- number of Channel of the image

 

NCHW는 Channel First (red channel image + blue ...)

NHWC는 Channel Last (rgb pixel image)

 

[링크 : https://intel.github.io/intel-extension-for-pytorch/cpu/latest/tutorials/features/nhwc.html]

 

어떻게 보면 레이어 별로 처리하게 하는게 유리할수도 있을 것 같기도 한데 서로 tradeoff가 존재할 것 같다.

 

NCHW - (64,3,512,512)

NHWC - (64,512,512,3)

[링크 : https://medium.com/@gonchogo/nhwc-vs-nchw-1504d2621b5e]

 

GPU - NCHW

CPU - NHWC

tensorRT는 NHWC에서 최고의 효율

[링크 : https://seungwoo-dev.tistory.com/6]

Posted by 구차니

요즘 핫하던데 (엄청난 비용의 토큰을 쓴 경험을 바탕으로 한국인이 만들었다고)

local llm에도 붙일수 있어서 한번 해봐야 할 듯.

gui 시대에 tui라니 끌리는데? ㅋㅋ

[링크 : https://www.elancer.co.kr/blog/detail/1048]

[링크 : https://wikidocs.net/338090]

[링크 : https://opencode.ai/ko]

 

llama.cpp
llama.cpp의 llama-server 유틸리티를 통해 로컬 모델을 사용하도록 구성할 수 있습니다.

opencode.json
{
  "$schema": "https://opencode.ai/config.json",
  "provider": {
    "llama.cpp": {
      "npm": "@ai-sdk/openai-compatible",
      "name": "llama-server (local)",
      "options": {
        "baseURL": "http://127.0.0.1:8080/v1"
      },
      "models": {
        "qwen3-coder:a3b": {
          "name": "Qwen3-Coder: a3b-30b (local)",
          "limit": {
            "context": 128000,
            "output": 65536
          }
        }
      }
    }
  }
}

이 예제에서:

llama.cpp는 사용자 정의 공급자 ID입니다. 원하는 문자열로 지정할 수 있습니다.
npm은 이 공급자에 사용할 패키지를 지정합니다. 여기서는 OpenAI 호환 API를 위해 @ai-sdk/openai-compatible을 사용합니다.
name은 UI에 표시될 공급자 이름입니다.
options.baseURL은 로컬 서버의 엔드포인트입니다.
models는 모델 ID와 해당 구성을 매핑합니다. 모델 이름은 모델 선택 목록에 표시됩니다.

[링크 : https://opencode.ai/docs/providers/]

'프로그램 사용 > ai 프로그램' 카테고리의 다른 글

ollama multimodal gemma4:e2b 테스트  (0) 2026.05.07
llm tts?  (0) 2026.05.05
stablie diffusion 모델 변경 / 다운로드 하기  (0) 2026.05.05
gemma4 e?b 멀티모달  (0) 2026.05.05
stable diffusion + 1080 ti 시도  (0) 2026.05.04
Posted by 구차니

llama-outeTTS 가 많이 검색되어 나오는데 한번 돌려봐야 할 듯.

확장자가 safetensor로 되어있고

[링크 : https://huggingface.co/unsloth/Llama-OuteTTS-1.0-1B/tree/main]

 

걍 -m 뒤에 넣어줘보면 될 듯.

[링크 : https://github.com/ggml-org/llama.cpp/issues/688]

 

[링크 : https://huggingface.co/unsloth/Llama-OuteTTS-1.0-1B]

[링크 : https://github.com/ggml-org/llama.cpp/discussions/11679]

[링크 : https://www.reddit.com/r/LocalLLaMA/comments/1l0qbot/tts_support_in_llamacpp/?tl=ko]

[링크 : https://arca.live/b/aispeech/136125630]

Posted by 구차니

음.. 받고 리프레시 하면 바로 뜨는듯?

다운로드한 파일을 이제 'C://StableDiffusion/stable-diffusion-webui/models/Stable-diffusion' 경로에 이동해서 넣으시면 됩니다. (이태릭체는 설치한 경로예요.)

[링크 : https://selgyun.tistory.com/entry/Stable-Diffusion-체크-포인트Checkpoint-학습-모델-추가하기-SD-2]

 

먼가 추천 링크들 보면 이런게 떠서 가입을 해야만 한다고 하니 귀찮...

아무튼 여기서 illustrious 로 검색하라는데 그게 모델명인가?

[링크 : https://civitai.com/]

 

 

+

2026.05.06

실행하면 하나 밖에 없었는데

 

위의 경로에 하나 넣고 우측의 refresh 을 눌러보니

 

오옹~!

250W 거의 풀로 먹고 83도.. ㄷㄷㄷ

 

근데 모델을 바꾸어도

내가 원하는걸 그리는건 또 다른 문제구나.

예제대로 해봐도 똑같이 안나온다.

 

 

1girl, masterpiece, general, lineart, white background, simple background
Negative prompt: bad quality,low quality,worst quality,lowres,displeasing,very displeasing,bad,bad anatomy,bad hands,text,error, multiple views, messy, amateur, blurry, blurry background, blurry foreground, rough, roughly drawn, messy, bad, what, guro, gore, futanari, yaoi, bara, pectorals, Steps: 28, CFG scale: 7.5, Sampler: Euler a, Seed: 1790244969, Size: 832x1216, Model: Illustrious-XL-v0.1, Version: f1.0.2-v1.10.1RC-latest-691-g37223711, Model hash: 3e15ba0038, Schedule type: Automatic, Discard penultimate sigma: True

 

1girl, masterpiece, general, lineart, white background, simple background
Negative prompt: worst quality,bad quality,bad hands,very displeasing,extra digit,fewer digits,jpeg artifacts,signature,username,reference,mutated,lineup,manga,comic,disembodied,futanari,yaoi,dickgirl,turnaround,2koma,4koma,monster,cropped,amputee,text,bad foreshortening,what,guro,logo,bad anatomy,bad perspective,bad proportions,artistic error,anatomical nonsense,amateur,out of frame,multiple views,weibo username,
Steps: 28, Sampler: Euler a, Schedule type: Automatic, CFG scale: 7.5, Seed: 1790244969, Size: 768x1024, Model hash: 3e15ba0038, Model: illustriousXL_v01, Version: v1.10.1-96-g1937682a

같은 시드라도 다르게 나오나?

 

Discard penultimate sigma: True 를 설정하려면 settings - Sampler parameters - Always discard next-to-list sigma를 체크하고 apply 하면 되나본데..

[링크 : https://github.com/AUTOMATIC1111/stable-diffusion-webui/discussions/14169]

 

다시보니 negative prompt 문제인것 같은데 다시 해봐도 같은건 안나온다. 그림 해상도 영향도 받나?

 

먼가.. 확대하니 이상하다. 그리고 그림도 다르게 나오네 

'프로그램 사용 > ai 프로그램' 카테고리의 다른 글

opencode + llama.cpp  (0) 2026.05.06
llm tts?  (0) 2026.05.05
gemma4 e?b 멀티모달  (0) 2026.05.05
stable diffusion + 1080 ti 시도  (0) 2026.05.04
stable diffusion + pytorch 관련 조사  (0) 2026.05.04
Posted by 구차니

어..?!

31b가 오히려 audio를 지원하지 않는다.

 

qwen3.6 이나 gemma4 31B 이런애들만 되는 줄 알았는데, e2b e4b 에서도 되서 시도!

6. Audio
Use the following prompt structures for audio processing:

Audio Speech Recognition (ASR)
Transcribe the following speech segment in {LANGUAGE} into {LANGUAGE} text.

Follow these specific instructions for formatting the answer:
* Only output the transcription, with no newlines.
* When transcribing numbers, write the digits, i.e. write 1.7 and not one point seven, and write 3 instead of three.

Automatic Speech Translation (AST)
Transcribe the following speech segment in {SOURCE_LANGUAGE}, then translate it into {TARGET_LANGUAGE}.
When formatting the answer, first output the transcription in {SOURCE_LANGUAGE}, then one newline, then output the string '{TARGET_LANGUAGE}: ', then the translation in {TARGET_LANGUAGE}.

[링크 : https://huggingface.co/google/gemma-4-E2B]

[링크 : https://huggingface.co/unsloth/gemma-4-E4B-it-GGUF/tree/main]

 

+

실행은 아래와 같이 해주고

D:\study\llm\llama-b8916-bin-win-vulkan-x64>llama-server.exe -m ..\gemma-4-E4B-it-Q4_K_M.gguf --mmproj ..\mmproj-F16.gguf

 

심심하니 nvidia-smi 스샷찍어둔걸 사골로 우려먹기 ㅋㅋ

 

골든 mp4로 받고 ffmpeg 으로 mp3 변환하고

[링크 : https://www.youtube.com/watch?v=yebNIHKAC4A]

 

 

구글 검색에서 뜨는 가사랑 diff 떠보니 음.. 맞는것 같으면서 안 맞는

그래도 노래를 TTS로 돌린거 치고는 제법 비슷하게 나왔다는게 대단한 듯.

'프로그램 사용 > ai 프로그램' 카테고리의 다른 글

llm tts?  (0) 2026.05.05
stablie diffusion 모델 변경 / 다운로드 하기  (0) 2026.05.05
stable diffusion + 1080 ti 시도  (0) 2026.05.04
stable diffusion + pytorch 관련 조사  (0) 2026.05.04
stable diffusion 관련  (0) 2026.05.02
Posted by 구차니

에베레스트 찍고 하염없이 바닥으로 ㅋㅋㅋ

 

Posted by 구차니

2025년 2월 이후로 업데이트 없어서 사살상 현재는 죽은 상태

[링크 : https://github.com/AUTOMATIC1111/stable-diffusion-webui]

 

1.7.0 으로 설치시도

 

 

에러 메시지 대응은 아래 명령으로 venv 를 실행해주고 web_ui.sh 실행하면 되고

cannot activate python venv, aborting.. 
cd stable-diffusion-webui
python3 -m venv venv/

[링크 : https://github.com/AUTOMATIC1111/stable-diffusion-webui/issues/1120]

 

뜬금없이 저장소 계정을 물어보는건, 임의의 브랜치를 만들어서 먼가를 더 받거나 할 수 있도록 하면 해결

Installing open_clip
Cloning Stable Diffusion into /mnt/Downloads/stable-diffusion-webui/repositories/stable-diffusion-stability-ai...
Cloning into '/mnt/Downloads/stable-diffusion-webui/repositories/stable-diffusion-stability-ai'...
Username for 'https://github.com':
Password for 'https://github.com':
remote: Repository not found.
fatal: Authentication failed for 'https://github.com/Stability-AI/stablediffusion.git/'
git switch dev

[링크 : https://www.reddit.com/r/StableDiffusion/comments/1pu9ef7/please_help_error_128/?tl=ko]

 

요건 그냥 패키지 깔아주면 된다고 한다.

Cannot locate TCMalloc (improves CPU memory usage)
Cannot locate TCMalloc. Do you have tcmalloc or google-perftool installed on your system? (improves CPU memory usage)

[링크 : https://www.clien.net/service/board/cm_aigurim/18066331]

 

localhost:7860 만되는건 --server-name 으로 해결

$ ./webui.sh --server-name=0.0.0.0

[링크 : https://github.com/AUTOMATIC1111/stable-diffusion-webui/discussions/7558]

 

기본 설정으로는 512 x 512 인데, 한장에 대략 8초 정도 걸린다.

 

혹시 다이내아 그려보려고 하는데 영 이상하고 내가 원하는대로 안되서

ai의 도움을 받아서 해보는데

 

음.. 100% 인데 153W라..

아무튼 메모리 생각외로 많이 먹...네?

 

1024x768 생성하는데 

 

42.5초. 근데 나의(?) 다이애나는 이렇지 않아!!

Time taken: 42.5 sec.     A: 6.62 GB, R: 7.11 GB, Sys: 7.3/10.9043 GB (67.0%)

 

음.. 좀 귀찮은데 ㅋㅋ

[링크 : https://github.com/AUTOMATIC1111/stable-diffusion-webui/discussions/8293]

[링크 : https://github.com/AUTOMATIC1111/stable-diffusion-webui/discussions/1621]

    [링크 : https://github.com/papuSpartan/stable-diffusion-webui-distributed]

 

 

모델 교체법은 찾아봐야겠다.

[링크 : https://civitai.com/models/795765/illustrious-xl?modelVersionId=889818]

Posted by 구차니

sd 1.8.0 부터 pytorch 2.x 대로 업그레이드

sd 1.7.0 으로 시도하면 되려나?

 

1.8.0
Features:
Update torch to version 2.1.2

[링크 : https://github.com/AUTOMATIC1111/stable-diffusion-webui/releases]

 

구버전 하드웨어 지원 종료

Highlights/Performance Improvements
Deprecation of Cuda 11.6 and Python 3.7 support for PyTorch 2.0
If you are still using or depending on CUDA 11.6 or Python 3.7 builds, we strongly recommend moving to at least CUDA 11.7 and Python 3.8, as it would be the minimum versions required for PyTorch 2.0. For more detail, please refer to the Release Compatibility Matrix for PyTorch releases.

[링크 : https://pytorch.org/blog/pytorch-2-0-release/]

 

pascal(1080) / cuda 12.6.3

 

이렇게 보면 2.1.2로 간다고 해서 문제 될 것 없어 보이는데 버전 문제가 아닌가?

 

[링크 : https://github.com/pytorch/pytorch/blob/main/RELEASE.md#release-compatibility-matrix]

 

'프로그램 사용 > ai 프로그램' 카테고리의 다른 글

gemma4 e?b 멀티모달  (0) 2026.05.05
stable diffusion + 1080 ti 시도  (0) 2026.05.04
stable diffusion 관련  (0) 2026.05.02
opanai api로 local LLM 하니 똑똑해진 기분  (0) 2026.05.02
llama.cpp multi modal 시도  (0) 2026.05.02
Posted by 구차니