git clone  하듯 받을수 있을것 같기도 한데..

아무튼 파이썬을 통해서 한번에 받는 방법

 

step 1.

hugging face 아래에 복사 아이콘 (like 2 왼쪽) 을 누른다.

[링크 : https://huggingface.co/lysandre/arxiv-nlp]

 

step 2.

pip 로 huggingface_hub 패키지를 설치한다.

 

step 3. 

python 실행해서 아래를 따라한다.

전체 리포지토리 다운로드하기
snapshot_download() 함수는 특정 버전의 전체 리포지토리를 다운로드합니다. 이 함수는 내부적으로 hf_hub_download() 함수를 사용하므로, 다운로드한 모든 파일은 로컬 디스크에 캐시되어 저장됩니다. 다운로드는 여러 파일을 동시에 받아오기 때문에 빠르게 진행됩니다.

전체 리포지토리를 다운로드하려면 repo_id와 repo_type을 인자로 넘겨주면 됩니다:

from huggingface_hub import snapshot_download
snapshot_download(repo_id="lysandre/arxiv-nlp")

[링크 : https://huggingface.co/docs/huggingface_hub/ko/guides/download]

 

음.. 걍 하나씩 받을까 -_-

Download complete: : 2.52GB [03:13, 50.8MB/s]              'C:\\Users\\minimonk\\.cache\\huggingface\\hub\\models--unsloth--Llama-OuteTTS-1.0-1B\\snapshots\\52b901173c6cf817148fdaef981e52408332c3ca'

'프로그램 사용 > ai 프로그램' 카테고리의 다른 글

supertone/supertonic3 시도  (0) 2026.05.10
outetts 시도  (0) 2026.05.10
stable diffusion 사용법  (0) 2026.05.09
stable diffusion python service  (0) 2026.05.08
opencode + qwen3.6 35b q2 사용 테스트  (0) 2026.05.08
Posted by 구차니

[링크 : https://selgyun.tistory.com/4]

 

(키워드) - 강화

[키워드] -약화

batch - 동시에 여러개 이미지 생성

[링크 : https://selgyun.tistory.com/5] txt2img

[링크 : https://selgyun.tistory.com/6] img2img

[링크 : https://selgyun.tistory.com/7] Lora - 모델타입?

 

+

2026.05.11

모델 받는 법, 종류

[링크 : https://healtable.tistory.com/7]

 

+

--ckpt CKPT model.ckpt Path to checkpoint of Stable Diffusion model; if specified, this checkpoint will be added to the list of checkpoints and loaded.
--ckpt-dir CKPT_DIR None Path to directory with Stable Diffusion checkpoints.

[링크 : https://github.com/AUTOMATIC1111/stable-diffusion-webui/wiki/Command-Line-Arguments-and-Settings]

[링크 : https://www.reddit.com/r/StableDiffusion/comments/117p89v/how_can_i_choose_which_checkpoint_to_load_when/?tl=ko]

 

+

VAE stands for variational autoencoder
EMA and MSE. (Exponential Moving Average and Mean Square Error)

[링크 : https://stable-diffusion-art.com/automatic1111/]

[링크 : https://stable-diffusion-art.com/how-to-use-vae/]

[링크 : https://huggingface.co/stabilityai/sd-vae-ft-ema#visual]

 

지금 이거랑 비슷한 현상인데 봐야겠다.

[링크 : https://samablog.tistory.com/m/203]

 

+

이전 모델이 머였는지 모르겠는데, 새로 받은건 SDXL 계열이고.. 그래서 VAE를 automatic으로 해주라는데

어디서 설정을 하는건지 못 찾는 중..

Illustrious XL is an advanced Stable Diffusion XL (SD XL)-based model, developed by OnomaAI Research, optimized specifically for illustration and animation tasks. It is built upon the Kohaku XL-Beta - Revision 5 checkpoint, leveraging its robust foundation to deliver high-quality generative capabilities.

[링크 : https://civitai.com/models/795765/illustrious-xl]

 

gpt 에서 보면 VAE가 의심되긴한데 CLIP도 문제라지만..fp16 VAE(half-vae ?) 문제일수도 있다는데

일단 내가 한건 모델만 바꾼거라.. vae와 매칭이 안되는게 의심되긴 한다.

1. VAE가 모델과 맞지 않는 경우

가장 흔한 원인입니다.

예를 들어:

SD1.5 계열 모델
SDXL 계열 모델
애니 특화 모델
실사 특화 모델

각각 latent 분포가 조금 다릅니다.

그런데 다른 계열 VAE를 연결하면:

색감 이상
얼굴 붕괴
디테일 손실
프롬프트 반영 약화
채도 과다/부족
눈/손 이상

등이 발생합니다.

예:

SDXL 모델에 SD1.5 VAE 사용
Anything 계열에 실사 VAE 사용

→ “고양이”를 입력했는데 이상한 생물처럼 나오는 경우도 있습니다.


5. 실제로는 CLIP 문제인 경우도 많음

많은 사용자가 VAE 문제라고 생각하지만 실제론:

CLIP 인코딩
CFG scale
sampler
step 수
LoRA 충돌

문제인 경우도 매우 많습니다.

예:

CFG 너무 높음 → 과적합
Euler a → 프롬프트 드리프트
LoRA weight 과다 → 키워드 왜곡

그러면:

"1girl, red hair"

인데 갑자기:

배경 과다
캐릭터 여러 명
이상한 의상

등이 나옵니다.



6. fp16 VAE 문제

저사양 환경에서 흔합니다.

fp16 VAE는:

VRAM 절약
속도 향상

장점이 있지만:

검은 이미지
washed out
NaN
디테일 손실

이 발생하기도 합니다.

특히 AMD/구형 CUDA에서 자주 보입니다.

[링크 : https://chatgpt.com/share/6a01e096-dc48-83e9-8aa3-cfe937d3b9e6]

 

 

 

+

2026.05.12

ft-MSE가 내눈에는 좋아 보인다.

[링크 : https://huggingface.co/stabilityai/sd-vae-ft-mse/tree/main]

[링크 : https://huggingface.co/stabilityai/sd-vae-ft-mse-original/tree/main]

[링크 : https://huggingface.co/stabilityai/sd-vae-ft-ema/tree/main]

[링크 : https://huggingface.co/stabilityai/sd-vae-ft-ema-original/tree/main]

 

+

[링크 : https://www.reddit.com/r/StableDiffusion/comments/1594hbj/minimum_nonsquare_resolution_with_sdxl/]

 

+

--medvram-sdxl 옵션을 주니까 vram에서 내려놓고 메인 메모리에 올려둔다. 어쩐지 시스템 메모리가 부족하더라 -_-

Posted by 구차니

 

from diffusers import StableDiffusionPipeline

[링크 : https://www.reddit.com/r/Python/comments/10g5nay/use_python_to_build_a_free_stable_diffusion_app/?tl=ko]

[링크 : https://www.assemblyai.com/blog/build-a-free-stable-diffusion-app-with-a-gpu-backend]

 

매모리 터져나갈게 보이니 e4b는 gpu 0번에서

stable diffusion은 gpu 1번에서 돌려서 두개 연동해

img2img로 장난치거나 그림 그려 가 포함되면 txt2img로 돌려도 괜찮을듯

---

by gpt

api 모드를 활성화 해주고

./webui.sh --api

 

txt2img

import requests
import base64

url = "http://127.0.0.1:7860/sdapi/v1/txt2img"

payload = {
    "prompt": "masterpiece, ultra detailed, cyberpunk girl, neon city, rain",
    "negative_prompt": "low quality, blurry",
    "steps": 30,
    "width": 768,
    "height": 768,
    "cfg_scale": 7,
    "sampler_name": "DPM++ 2M Karras"
}

response = requests.post(url, json=payload)

result = response.json()

# base64 이미지 저장
image_data = base64.b64decode(result["images"][0])

with open("generated.png", "wb") as f:
    f.write(image_data)

print("generated.png 저장 완료")

 

오.. 된다.

 

img2img

import requests
import base64

# 입력 이미지 읽기
with open("input.png", "rb") as f:
    image_base64 = base64.b64encode(f.read()).decode()

url = "http://127.0.0.1:7860/sdapi/v1/img2img"

payload = {
    "init_images": [image_base64],

    "prompt": "cyberpunk style, neon lights, futuristic",
    "negative_prompt": "low quality, blurry",

    "denoising_strength": 0.55,

    "steps": 30,
    "cfg_scale": 7,
    "width": 768,
    "height": 768,
    "sampler_name": "DPM++ 2M Karras"
}

response = requests.post(url, json=payload)

result = response.json()

image_data = base64.b64decode(result["images"][0])

with open("modified.png", "wb") as f:
    f.write(image_data)

print("modified.png 저장 완료")

 

[링크 : https://chatgpt.com/share/69fd90a2-2bbc-83e9-8f04-6cecdddc1b41]

Posted by 구차니
embeded/FPGA - ALTERA2026. 5. 8. 12:28

9년 전에 조사한 적이 있었네 -_-

2017.12.26 - [embeded/FPGA - ALTERA] - GHDL - 시뮬레이터

 

$ ghdl
Command 'ghdl' not found, but can be installed with:
sudo snap install ghdl         # version 3.0.0, or
sudo apt  install ghdl-common  # version 1.0.0+dfsg-6
See 'snap info ghdl' for additional versions.

$ sudo apt  install ghdl-common
Reading package lists... Done
Building dependency tree... Done
Reading state information... Done
The following NEW packages will be installed:
  ghdl-common
0 upgraded, 1 newly installed, 0 to remove and 54 not upgraded.
Need to get 154 kB of archives.
After this operation, 2,444 kB of additional disk space will be used.
Get:1 http://kr.archive.ubuntu.com/ubuntu jammy/universe amd64 ghdl-common amd64 1.0.0+dfsg-6 [154 kB]
Fetched 154 kB in 0s (4,318 kB/s)   
Selecting previously unselected package ghdl-common.
(Reading database ... 304538 files and directories currently installed.)
Preparing to unpack .../ghdl-common_1.0.0+dfsg-6_amd64.deb ...
Unpacking ghdl-common (1.0.0+dfsg-6) ...
Setting up ghdl-common (1.0.0+dfsg-6) ...
Processing triggers for man-db (2.10.2-1) ...

$ sudo apt-get install ghdl*
Reading package lists... Done
Building dependency tree... Done
Reading state information... Done
Note, selecting 'ghdl-gcc' for glob 'ghdl*'
Note, selecting 'ghdl-mcode' for glob 'ghdl*'
Note, selecting 'ghdl-common' for glob 'ghdl*'
Note, selecting 'ghdl-llvm' for glob 'ghdl*'
Note, selecting 'ghdl' for glob 'ghdl*'
ghdl-common is already the newest version (1.0.0+dfsg-6).
The following additional packages will be installed:
  gcc-10-base libgnat-10
Suggested packages:
  gtkwave
The following NEW packages will be installed:
  gcc-10-base ghdl ghdl-gcc ghdl-llvm ghdl-mcode libgnat-10
0 upgraded, 6 newly installed, 0 to remove and 54 not upgraded.
Need to get 15.5 MB of archives.
After this operation, 60.5 MB of additional disk space will be used.
Do you want to continue? [Y/n] y 

 

[링크 : https://github.com/ghdl/setup-ghdl]

[링크 : https://askubuntu.com/questions/1199027/ghdl-in-ubuntu-18-040-lts-gtkwave-vlsi-fpga-vhdl]

[링크 : https://github.com/ghdl/ghdl/releases]

 

by gpt  

test.vhd
entity test is
end;

architecture sim of test is
begin
    process
    begin
        report "Hello GHDL";
        wait;
    end process;
end;

컴파일:

ghdl -a test.vhd

엘라보레이션:

ghdl -e test

실행:

ghdl -r test

출력:

Hello GHDL
5. GTKWave 함께 설치 (파형 보기)

보통 같이 설치합니다.

sudo apt install gtkwave

VCD 생성 실행 예시:

ghdl -r test --vcd=test.vcd
gtkwave test.vcd

 

먼가 되긴한데.. 문법이 다른가?

$ cat test.vhd 
entity test is
end;

architecture sim of test is
begin
    process
    begin
        report "Hello GHDL";
        wait;
    end process;
end;

$ ghdl -a 7seg.vhdl 


$ ghdl -r test
test.vhd:8:9:@0ms:(report note): Hello GHDL

$ ghdl -r test --vcd=test.vcd
test.vhd:8:9:@0ms:(report note): Hello GHDL

$ gtkwave test.vcd
Gtk-Message: 12:29:46.165: Failed to load module "canberra-gtk-module"

GTKWave Analyzer v3.3.104 (w)1999-2020 BSI

No symbols in VCD file..nothing to do!


$ sudo apt install libcanberra-gtk-module libcanberra-gtk3-module


$ gtkwave test.vcd

GTKWave Analyzer v3.3.104 (w)1999-2020 BSI

No symbols in VCD file..nothing to do!

$ cat test.vcd
$date
  Fri May  8 12:29:32 2026
$end
$version
  GHDL v0
$end
$timescale
  1 fs
$end
$scope module standard $end
$upscope $end
$scope module test $end
$upscope $end
$enddefinitions $end
#0


Posted by 구차니

llama-swap / llama.cpp 설정

이상하게도 gemma4-e2b의 경우 용량이 작아서 그런가 -sm none을 안주면 오히려 에러가 난다.

$ cat config.yaml 
models:
  gemma4-e2b:
    cmd: /mnt/Downloads/llama-b8925/llama-server --port ${PORT} --model /mnt/Downloads/model/gemma4-e2b/gemma-4-E2B-it-Q4_K_M.gguf -mm ./model/gemma4-e2b/mmproj-F16.gguf -sm none
  gemma4-e4b:
    cmd: /mnt/Downloads/llama-b8925/llama-server --port ${PORT} --model /mnt/Downloads/model/gemma4-e4b/gemma-4-E4B-it-Q4_K_M.gguf -mm ./model/gemma4-e4b/mmproj-F16.gguf
  gemma4-26B_img:
    cmd: /mnt/Downloads/llama-b8925/llama-server --port ${PORT} --model /mnt/Downloads/model/gemma4-26b/gemma-4-26B-A4B-it-UD-IQ2_M.gguf -mm ./model/gemma4-26b/mmproj-F16.gguf
  qwen3.6-35b_img:
    cmd: /mnt/Downloads/llama-b8925/llama-server --port ${PORT} --model /mnt/Downloads/model/qwen3.6_35B/Qwen3.6-35B-A3B-UD-Q2_K_XL.gguf -mm ./model/qwen3.6_35B/mmproj-F16.gguf
  qwen3.6-35b:
    cmd: /mnt/Downloads/llama-b8925/llama-server --port ${PORT} --model /mnt/Downloads/model/qwen3.6_35B/Qwen3.6-35B-A3B-UD-Q2_K_XL.gguf

 

opencode 설정

이걸 추가한다고 바로 되는건 아닌 것 같고

~/.config/opencode$ cat opencode.json 
{
  "$schema": "https://opencode.ai/config.json",
  "provider": {
    "llama.cpp": {
      "npm": "@ai-sdk/openai-compatible",
      "name": "llama-server (local)",
      "options": {
        "baseURL": "http://127.0.0.1:8080/v1"
      },
      "models": {
        "gemma4-e2b": {
          "name": "gemma4 e2b (local)",
          "limit": {
            "context": 128000,
            "output": 65536
          }
        }
      }
    }
  }
}

[링크 : https://opencode.ai/docs/providers#llamacpp]

 

opencode 에서 /connect 명령을 통해 좀 더 해주어야 로컬에서 돌아간다.

 

 

 

 

심심하니 한번 로컬로 작성 시도!

 

오오 로컬 잡아먹는다 ㅋㅋㅋ

(요건 gpu0 에 e2b / gpu1에는 stable diffusion)

 

opencode.json 파일 추가!

{
  "$schema": "https://opencode.ai/config.json",
  "provider": {
    "llama.cpp": {
      "npm": "@ai-sdk/openai-compatible",
      "name": "llama-server (local)",
      "options": {
        "baseURL": "http://127.0.0.1:8080/v1"
      },
      "models": {
        "gemma4-e2b": {
          "name": "gemma4 e2b (local)",
          "limit": {
            "context": 128000,
            "output": 65536
          }
        },
        "qwen3.6-35b": {
          "name": "qwen3.6-35b (local)",
          "limit": {
            "context": 65536,
            "output": 65536
          }
        }
      }
    }
  }
}

 

gemma4-e2b 에서 qwen3.6-35b로 환승!

 

인사 받기 참 힘드네 ㅋㅋㅋ

 

그래도 100% 꾹꾹 하는데 소비전력은 150 W 급 * 2 이라..

Posted by 구차니

엥.. 왜 갑자기 안되지 싶은데

-sm none 으로 해결

Posted by 구차니

0 번 부터 시작임

Launching Web UI with arguments: --server-name=0.0.0.0 --device-id=1

[링크 : https://github.com/AUTOMATIC1111/stable-diffusion-webui/discussions/10665]

Posted by 구차니

다시 해보니 telegram은 ogg로 보내는데 이걸 넣으면 wav가 아니라서 배째는거라

ffmpeg을 통해서 ogg를 wav로 바꾸고 하니 먼가 처리를 한다.

다만 소리 크기가 작아서 인가 은근히 인식율이 떨이지네.. (gemma4:e2b)

 

----

ollama 통해서 하고 있는데 미구현인가..

아니면  gemma4:e2b가 ollama에서 할 때 오디오는 미지원인건가... 이건 어떻게 확인하지?

그 와중에 왜 이미지로 인식하냐?

--- [Prompt to AI] (Model: gemma4:e2b) ---
[{'role': 'user', 'content': [{'type': 'text', 'text': '이 내용을 분석해줘'}, {'type': 'input_audio', 'input_audio': {'data': 'encoded data', 'format': 'wav'}}]}]


 {'error': {'message': 'Failed to create new sequence: failed to process inputs: imageunknown format', 'type': 'api_error', 'param': None, 'code': None}}
 

 

$ ollama show gemma4:e2b
  Model
    architecture        gemma4    
    parameters          5.1B      
    context length      131072    
    embedding length    1536      
    quantization        Q4_K_M    
    requires            0.20.0    

  Capabilities
    completion    
    vision        
    audio         
    tools         
    thinking      

  Parameters
    temperature    1       
    top_k          64      
    top_p          0.95    

  License
    Apache License               
    Version 2.0, January 2004    
    ...                          

 

import OpenAI from "openai";
const openai = new OpenAI();

// Fetch an audio file and convert it to a base64 string
const url = "https://cdn.openai.com/API/docs/audio/alloy.wav";
const audioResponse = await fetch(url);
const buffer = await audioResponse.arrayBuffer();
const base64str = Buffer.from(buffer).toString("base64");

const response = await openai.chat.completions.create({
  model: "gpt-audio",
  modalities: ["text", "audio"],
  audio: { voice: "alloy", format: "wav" },
  messages: [
    {
      role: "user",
      content: [
        { type: "text", text: "What is in this recording?" },
        { type: "input_audio", input_audio: { data: base64str, format: "wav" }}
      ]
    }
  ],
  store: true,
});

console.log(response.choices[0]);

[링크 : https://developers.openai.com/api/docs/guides/audio?example=audio-in]

 

 

[링크 : https://community.openai.com/t/how-can-i-pass-a-system-prompt-and-audio-user-input-to-get-a-text-output-back/1002483/3]

[링크 : https://github.com/ggml-org/llama.cpp/issues/21868]

Posted by 구차니

어떻게 쓰지 싶었는데, 2025년 5월 15일 내용에 이미 아래의 모델들이 지원되고 있었다

[링크 : https://ollama.com/blog/multimodal-models]

[링크 :https://ollama.com/search?c=vision]

 

아래 파일 경로가

/home/minimonk/1804-lubuntu-default-wallpaper.png 인데

절대경로 넣어주면 알아서 읽어서 본다.

헐..(!)

 

$ ollama run gemma4:e2b
>>> what do you see in this image?  /home/minimonk/1804-lubuntu-default-wall
... paper.png
Added image '/home/minimonk/1804-lubuntu-default-wallpaper.png'
Thinking...
Here's a thinking process to analyze the image and generate the 
description:

1.  **Analyze the Request:** The user provided an image and asked, "what 
do you see in this image?"

2.  **Examine the Image (Visual Analysis):**
    *   **Overall Impression/Mood:** The image is dark, deep, atmospheric, 
and somewhat cosmic or abstract.
    *   **Colors:** The dominant colors are deep blues (teal/cyan), 
vibrant purples (magenta/violet), and some lighter, soft areas.
    *   **Texture/Pattern:** The background is not uniformly smooth. It 
features nebulous areas and scattered dots.
    *   **Specific Elements:**
        *   **Background:** Deep blue/purple gradient.
        *   **Texture/Effects:** There are faint, wispy clouds or nebulas, 
especially in the upper right area, suggesting a cosmic or smoky effect.
        *   **Particles:** Numerous small, scattered white or 
light-colored dots (specks of light/stars/dust) are distributed across the 
frame.
        *   **Light/Glow:** There is a soft, glowing, lighter purple/pink 
area, particularly visible towards the right.

3.  **Synthesize the Description (Drafting the Response):** Combine the 
observations into a coherent description. Start with the general theme and 
then detail the specific elements.

    *   *(Initial thought: It's a space background.)*
    *   *(Refinement: It's an abstract digital art piece, often called a 
cosmic or nebula background.)*

4.  **Review and Refine (Adding evocative language):** Ensure the 
description is accurate and engaging. (Self-Correction: Avoid making 
definitive claims like "it is space," but use terms that imply it, like 
"nebula" or "cosmic.")

5.  **Final Output Generation.** (This leads to the provided good 
response.)
...done thinking.

This image is an **abstract, atmospheric background**, often resembling a 
**cosmic or nebula scene**.

Here is a detailed breakdown of what I see:

1.  **Color Palette:** The dominant colors are deep and rich, featuring a 
strong gradient blend of **deep blues** and **vibrant purples/magentas**.
2.  **Texture/Atmosphere:** The background has a soft, smoky, or nebulous 
quality, suggesting deep space or an ethereal cloud formation. There are 
lighter, diffused areas, particularly on the right side, which glow with 
pink and purple hues.
3.  **Particles:** The image is scattered with numerous small, bright 
**white dots**, which give the impression of stars, dust, or glittering 
particles floating in the dark space.
4.  **Overall Mood:** The image evokes a feeling of depth, mystery, 
serenity, and vastness. It is highly typical of digital art used as 
wallpapers or abstract graphics.

 

llama.cpp로 개고생 하던게 이렇게 쉽게 되다니 ㅠㅠ

'프로그램 사용 > ai 프로그램' 카테고리의 다른 글

stable diffusion gpu 선택하기  (0) 2026.05.08
openai api .. 오디오 처리 성공  (0) 2026.05.07
RAG, 시도 (openAI 사용하지 않는 방향)  (0) 2026.05.07
opencode + llama.cpp  (0) 2026.05.06
llm tts?  (0) 2026.05.05
Posted by 구차니
Programming/qt2026. 5. 7. 15:13

내가 원하던  mainwindow의 내용을 다른 위젯으로 변경하기

[링크 : https://doc.qt.io/qt-6/qmainwindow.html#setCentralWidget]

[링크 : https://wikidocs.net/156100]

 

새 다이얼로그 창을 열고 숨기기

[링크 : https://toytvstory.tistory.com/1422]


replacewidget()

주로 한개의 위젯을 바꾸지, 창을 바꾸는 용도는 아닌듯?

[링크 : https://stackoverflow.com/questions/35382622/replace-a-widget-in-qt]

[링크 : https://doc.qt.io/qt-6/qlayout.html#replaceWidget]

 

 

Posted by 구차니