CLIP: 이미지-텍스트 유사도

이미지와 텍스트를 선택하면 유사도 점수를 계산합니다

이미지 선택
🐱
고양이
🐶
강아지
🚗
자동차
🍕
피자
텍스트 선택
고양이 사진
강아지가 앉아있는 모습
빨간 스포츠카
맛있어 보이는 음식
동물 사진
자연 풍경
유사도 점수
0.74
01
높은 유사도!
CLIP 원리: Vision Transformer가 이미지를 벡터로, Text Transformer가 텍스트를 벡터로 변환한 뒤, 두 벡터의 코사인 유사도를 계산합니다. 관련 있는 쌍일수록 1에 가까운 점수가 나옵니다.