LMM - 대규모 멀티모달 모델의 이해와 적용
2026년 3월 30일
LMM
멀티모달
LLM
Transformer
CLIP
SigLIP
BLIP-2
Stable Diffusion
비전 언어 모델
Qwen2.5-VL
LLM에서 LMM으로의 진화를 이해하고, Transformer 기반 멀티모달 아키텍처(CLIP, BLIP-2, Stable Diffusion)의 원리를 학습한 뒤, Native Multimodal·MoE·Autoregressive 이미지 생성 등 최신 트렌드를 살펴봅니다. RTX 3090에서 Qwen2.5-VL을 활용한 비디오 Grounding 시연을 포함합니다.