BLIP-2 Architecture Demo

BLIP-2: 2단계 학습 아키텍처

각 단계를 클릭하여 데이터 흐름의 변화를 확인하세요

1단계: Representation

2단계: Generation

1단계: Image Encoder(frozen)의 출력을 Q-Former가 32개 학습 가능 쿼리로 처리합니다. 이미지와 텍스트의 정렬을 학습합니다.

3.2B

전체 파라미터

190M

학습 파라미터

학습 비율