sigLIP, CLIP

프로그램 사용/ai 프로그램

sigLIP, CLIP

구차니 2026. 6. 5. 16:54

간단하게 영상을 분석해서 그걸 text로 매칭시켜주는 녀석이 바로 CLIP / sigLIP 같은 비전 인코더다

그럼 반대로 비전 디코더도 있을것 같은데

[링크 : https://huggingface.co/docs/transformers/v4.15.0/model_doc/visionencoderdecoder]

bert도 어디서 주워들은것 같은데 아무튼 얘도 비전 인코더 인듯.

LDM에선 BERT Encoder로 사용하였지만 Stable Diffusion에선 OpenAI에서 공개한 CLIP Text Encoder를 사용함

[링크 : https://velog.io/@hskhyl/Generative-AI4-imagestable-Diffusion-평가]

SigLIP 같은 비전 인코더

[링크 : https://wikidocs.net/blog/@jaehong/17175/]

Sigmoid Loss for Language Image Pre-Training
SigLIP은 CLIP에서 사용된 손실 함수를 간단한 쌍별 시그모이드 손실(pairwise sigmoid loss)로 대체할 것을 제안합니다. 이는 ImageNet에서 제로샷 분류 정확도 측면에서 더 나은 성능을 보입니다.

[링크 : https://huggingface.co/papers/2303.15343]

[링크 : https://huggingface.co/docs/transformers/ko/model_doc/siglip]

CLIP(Contrastive Language-Image Pre-Training)은 다양한 이미지와 텍스트 쌍으로 훈련된 신경망 입니다.

[링크 : https://huggingface.co/papers/2103.00020]

[링크 : https://huggingface.co/docs/transformers/ko/model_doc/clip]

[링크 : https://huggingface.co/mhbkb/stable-diffusion-base-2.0-clip_1]

[링크 : https://dy120.tistory.com/15]

아무튼 정리하자면..

stable diffusion 에서 txt2img를 할 경우

txt2img로 사용할 임베딩 벡터를 뱉어내는 녀석이 CLIP 이고

그 이후에 노이즈를 지워가면서 그려가는게 전체 작동원리인듯 하다.

저작자표시 (새창열림)