BLIP-2: 2단계 학습 아키텍처

각 단계를 클릭하여 데이터 흐름의 변화를 확인하세요

1단계: Representation
2단계: Generation
1단계: Image Encoder(frozen)의 출력을 Q-Former가 32개 학습 가능 쿼리로 처리합니다. 이미지와 텍스트의 정렬을 학습합니다.
3.2B
전체 파라미터
190M
학습 파라미터
6%
학습 비율