sigLIP, CLIP
간단하게 영상을 분석해서 그걸 text로 매칭시켜주는 녀석이 바로 CLIP / sigLIP 같은 비전 인코더다
그럼 반대로 비전 디코더도 있을것 같은데
[링크 : https://huggingface.co/docs/transformers/v4.15.0/model_doc/visionencoderdecoder]
bert도 어디서 주워들은것 같은데 아무튼 얘도 비전 인코더 인듯.
| LDM에선 BERT Encoder로 사용하였지만 Stable Diffusion에선 OpenAI에서 공개한 CLIP Text Encoder를 사용함 |
[링크 : https://velog.io/@hskhyl/Generative-AI4-imagestable-Diffusion-평가]
| SigLIP 같은 비전 인코더 |
[링크 : https://wikidocs.net/blog/@jaehong/17175/]
| Sigmoid Loss for Language Image Pre-Training SigLIP은 CLIP에서 사용된 손실 함수를 간단한 쌍별 시그모이드 손실(pairwise sigmoid loss)로 대체할 것을 제안합니다. 이는 ImageNet에서 제로샷 분류 정확도 측면에서 더 나은 성능을 보입니다. |
[링크 : https://huggingface.co/papers/2303.15343]
[링크 : https://huggingface.co/docs/transformers/ko/model_doc/siglip]
| CLIP(Contrastive Language-Image Pre-Training)은 다양한 이미지와 텍스트 쌍으로 훈련된 신경망 입니다. |
[링크 : https://huggingface.co/papers/2103.00020]
[링크 : https://huggingface.co/docs/transformers/ko/model_doc/clip]
[링크 : https://huggingface.co/mhbkb/stable-diffusion-base-2.0-clip_1]
[링크 : https://dy120.tistory.com/15]
아무튼 정리하자면..
stable diffusion 에서 txt2img를 할 경우
txt2img로 사용할 임베딩 벡터를 뱉어내는 녀석이 CLIP 이고
그 이후에 노이즈를 지워가면서 그려가는게 전체 작동원리인듯 하다.