Transformer

LMM - 대규모 멀티모달 모델의 이해와 적용

2026년 3월 30일

LLM에서 LMM으로의 진화를 이해하고, Transformer 기반 멀티모달 아키텍처(CLIP, BLIP-2, Stable Diffusion)의 원리를 학습한 뒤, Native Multimodal·MoE·Autoregressive 이미지 생성 등 최신 트렌드를 살펴봅니다. RTX 3090에서 Qwen2.5-VL을 활용한 비디오 Grounding 시연을 포함합니다.

Transformer 논문 리뷰: Attention is All You Need

최종 편집 2025년 12월 3일 · v2

Self-Attention 메커니즘으로 RNN/LSTM의 한계를 극복하고 NLP 패러다임을 바꾼 Transformer를 분석합니다. 이 모델은 현대 딥러닝 모델의 기반이 된 혁명적인 모델입니다.