간단하게 영상을 분석해서 그걸 text로 매칭시켜주는 녀석이 바로 CLIP / sigLIP 같은 비전 인코더다

그럼 반대로 비전 디코더도 있을것 같은데

[링크 : https://huggingface.co/docs/transformers/v4.15.0/model_doc/visionencoderdecoder]

 

bert도 어디서 주워들은것 같은데 아무튼 얘도 비전 인코더 인듯.

LDM에선 BERT Encoder로 사용하였지만 Stable Diffusion에선 OpenAI에서 공개한 CLIP Text Encoder를 사용함

[링크 : https://velog.io/@hskhyl/Generative-AI4-imagestable-Diffusion-평가]

 

SigLIP 같은 비전 인코더

[링크 : https://wikidocs.net/blog/@jaehong/17175/]

 

Sigmoid Loss for Language Image Pre-Training
SigLIP은 CLIP에서 사용된 손실 함수를 간단한 쌍별 시그모이드 손실(pairwise sigmoid loss)로 대체할 것을 제안합니다. 이는 ImageNet에서 제로샷 분류 정확도 측면에서 더 나은 성능을 보입니다.

[링크 : https://huggingface.co/papers/2303.15343]

  [링크 : https://huggingface.co/docs/transformers/ko/model_doc/siglip]

 

CLIP(Contrastive Language-Image Pre-Training)은 다양한 이미지와 텍스트 쌍으로 훈련된 신경망 입니다. 

[링크 : https://huggingface.co/papers/2103.00020]

    [링크 : https://huggingface.co/docs/transformers/ko/model_doc/clip]

 

[링크 : https://huggingface.co/mhbkb/stable-diffusion-base-2.0-clip_1]

 

[링크 : https://dy120.tistory.com/15]

 

 

아무튼 정리하자면..

stable diffusion 에서 txt2img를 할 경우

txt2img로 사용할 임베딩 벡터를 뱉어내는 녀석이 CLIP 이고

그 이후에 노이즈를 지워가면서 그려가는게 전체 작동원리인듯 하다.

'프로그램 사용 > ai 프로그램' 카테고리의 다른 글

gemma4-e4b it qat / gemma4-12b mtp on 1080 ti 11GB  (0) 2026.06.08
nvidia 3070 8GB 테스트 gemma4-e4b  (0) 2026.06.08
chatML  (0) 2026.06.04
gemma 12b, tesla t4 16GB / 1080 ti 11GB * 2  (0) 2026.06.04
nvidia tesla t4 16GB  (0) 2026.06.02
Posted by 구차니