프로그램 사용/ai 프로그램

stable diffusion 사용법

구차니 2026. 5. 9. 12:51

[링크 : https://selgyun.tistory.com/4]

 

(키워드) - 강화

[키워드] -약화

batch - 동시에 여러개 이미지 생성

[링크 : https://selgyun.tistory.com/5] txt2img

[링크 : https://selgyun.tistory.com/6] img2img

[링크 : https://selgyun.tistory.com/7] Lora - 모델타입?

 

+

2026.05.11

모델 받는 법, 종류

[링크 : https://healtable.tistory.com/7]

 

+

--ckpt CKPT model.ckpt Path to checkpoint of Stable Diffusion model; if specified, this checkpoint will be added to the list of checkpoints and loaded.
--ckpt-dir CKPT_DIR None Path to directory with Stable Diffusion checkpoints.

[링크 : https://github.com/AUTOMATIC1111/stable-diffusion-webui/wiki/Command-Line-Arguments-and-Settings]

[링크 : https://www.reddit.com/r/StableDiffusion/comments/117p89v/how_can_i_choose_which_checkpoint_to_load_when/?tl=ko]

 

+

VAE stands for variational autoencoder
EMA and MSE. (Exponential Moving Average and Mean Square Error)

[링크 : https://stable-diffusion-art.com/automatic1111/]

[링크 : https://stable-diffusion-art.com/how-to-use-vae/]

[링크 : https://huggingface.co/stabilityai/sd-vae-ft-ema#visual]

 

지금 이거랑 비슷한 현상인데 봐야겠다.

[링크 : https://samablog.tistory.com/m/203]

 

+

이전 모델이 머였는지 모르겠는데, 새로 받은건 SDXL 계열이고.. 그래서 VAE를 automatic으로 해주라는데

어디서 설정을 하는건지 못 찾는 중..

Illustrious XL is an advanced Stable Diffusion XL (SD XL)-based model, developed by OnomaAI Research, optimized specifically for illustration and animation tasks. It is built upon the Kohaku XL-Beta - Revision 5 checkpoint, leveraging its robust foundation to deliver high-quality generative capabilities.

[링크 : https://civitai.com/models/795765/illustrious-xl]

 

gpt 에서 보면 VAE가 의심되긴한데 CLIP도 문제라지만..fp16 VAE(half-vae ?) 문제일수도 있다는데

일단 내가 한건 모델만 바꾼거라.. vae와 매칭이 안되는게 의심되긴 한다.

1. VAE가 모델과 맞지 않는 경우

가장 흔한 원인입니다.

예를 들어:

SD1.5 계열 모델
SDXL 계열 모델
애니 특화 모델
실사 특화 모델

각각 latent 분포가 조금 다릅니다.

그런데 다른 계열 VAE를 연결하면:

색감 이상
얼굴 붕괴
디테일 손실
프롬프트 반영 약화
채도 과다/부족
눈/손 이상

등이 발생합니다.

예:

SDXL 모델에 SD1.5 VAE 사용
Anything 계열에 실사 VAE 사용

→ “고양이”를 입력했는데 이상한 생물처럼 나오는 경우도 있습니다.


5. 실제로는 CLIP 문제인 경우도 많음

많은 사용자가 VAE 문제라고 생각하지만 실제론:

CLIP 인코딩
CFG scale
sampler
step 수
LoRA 충돌

문제인 경우도 매우 많습니다.

예:

CFG 너무 높음 → 과적합
Euler a → 프롬프트 드리프트
LoRA weight 과다 → 키워드 왜곡

그러면:

"1girl, red hair"

인데 갑자기:

배경 과다
캐릭터 여러 명
이상한 의상

등이 나옵니다.



6. fp16 VAE 문제

저사양 환경에서 흔합니다.

fp16 VAE는:

VRAM 절약
속도 향상

장점이 있지만:

검은 이미지
washed out
NaN
디테일 손실

이 발생하기도 합니다.

특히 AMD/구형 CUDA에서 자주 보입니다.

[링크 : https://chatgpt.com/share/6a01e096-dc48-83e9-8aa3-cfe937d3b9e6]

 

 

 

+

2026.05.12

ft-MSE가 내눈에는 좋아 보인다.

[링크 : https://huggingface.co/stabilityai/sd-vae-ft-mse/tree/main]

[링크 : https://huggingface.co/stabilityai/sd-vae-ft-mse-original/tree/main]

[링크 : https://huggingface.co/stabilityai/sd-vae-ft-ema/tree/main]

[링크 : https://huggingface.co/stabilityai/sd-vae-ft-ema-original/tree/main]