Stable Diffusion

LMM - 대규모 멀티모달 모델의 이해와 적용

2026년 3월 30일

LLM에서 LMM으로의 진화를 이해하고, Transformer 기반 멀티모달 아키텍처(CLIP, BLIP-2, Stable Diffusion)의 원리를 학습한 뒤, Native Multimodal·MoE·Autoregressive 이미지 생성 등 최신 트렌드를 살펴봅니다. RTX 3090에서 Qwen2.5-VL을 활용한 비디오 Grounding 시연을 포함합니다.