비디오 Grounding: 객체 위치 추적
질문을 선택하면 각 프레임에서 해당 객체의 바운딩박스가 표시됩니다
"사람은 어디에 있나요?"
"공은 어디에 있나요?"
"자동차를 추적해주세요"
질문을 선택하면 4개 프레임에서 객체의 바운딩박스 좌표가 출력됩니다.