LMM - 대규모 멀티모달 모델의 이해와 적용

LMM
강의 개요
텍스트만 처리하던 LLM에서 이미지·오디오·비디오까지 통합하는 LMM으로의 전환을 다루는 특강입니다.
%%{init: {'theme':'base','themeVariables':{'primaryColor':'#e3f2fd','primaryBorderColor':'#90caf9','lineColor':'#546e7a','textColor':'#333','mainBkg':'#fafafa','nodeBorder':'#90a4ae','clusterBkg':'#f5f5f5','clusterBorder':'#bdbdbd'}}}%%
flowchart LR
subgraph LLM["LLM"]
T1["text"] --> M1["Model"] --> T2["text"]
end
subgraph LMM["LMM"]
TI["text\nimage\naudio\n..."] --> M2["Model"] --> TO["text\nimage\naudio\n..."]
end
LLM -- "진화" --> LMM
style T1 fill:#bbdefb,stroke:#1976d2,stroke-width:2px,rx:10,ry:10
style M1 fill:#eceff1,stroke:#546e7a,stroke-width:2px,rx:10,ry:10
style T2 fill:#c8e6c9,stroke:#388e3c,stroke-width:2px,rx:10,ry:10
style TI fill:#bbdefb,stroke:#1976d2,stroke-width:2px,rx:10,ry:10
style M2 fill:#eceff1,stroke:#546e7a,stroke-width:2px,rx:10,ry:10
style TO fill:#c8e6c9,stroke:#388e3c,stroke-width:2px,rx:10,ry:10
style LLM rx:15,ry:15
style LMM rx:15,ry:15
강의 흐름
%%{init: {'theme':'base','themeVariables':{'primaryColor':'#e3f2fd','primaryBorderColor':'#90caf9','lineColor':'#546e7a','textColor':'#333','mainBkg':'#fafafa','nodeBorder':'#90a4ae','clusterBkg':'#f5f5f5','clusterBorder':'#bdbdbd'}}}%%
flowchart LR
subgraph 전반부["전반부 — 기초"]
direction TB
P1["Part 1\nLLM 개요"]
P2["Part 2\nMultimodal"]
P3["Part 3\nTransformer"]
P1 --> P2 --> P3
end
subgraph 중반부["중반부 — 핵심 모델"]
direction TB
P4["Part 4\nCLIP → SigLIP 2"]
P5["Part 5\nBLIP-2 → Native"]
P6["Part 6\nStable Diffusion\n→ Autoregressive"]
P4 --> P5 --> P6
end
subgraph 후반부["후반부 — 최신 트렌드"]
direction TB
P7["Part 7\nMoE · Omni-Modal"]
P8["Part 8\n시연: 비디오\nGrounding"]
P7 --> P8
end
전반부 --> 중반부 --> 후반부
style P1 fill:#e3f2fd,stroke:#90caf9,stroke-width:2px,rx:10,ry:10
style P2 fill:#e3f2fd,stroke:#90caf9,stroke-width:2px,rx:10,ry:10
style P3 fill:#e3f2fd,stroke:#90caf9,stroke-width:2px,rx:10,ry:10
style P4 fill:#fff9c4,stroke:#f9a825,stroke-width:2px,rx:10,ry:10
style P5 fill:#fff9c4,stroke:#f9a825,stroke-width:2px,rx:10,ry:10
style P6 fill:#fff9c4,stroke:#f9a825,stroke-width:2px,rx:10,ry:10
style P7 fill:#c8e6c9,stroke:#388e3c,stroke-width:2px,rx:10,ry:10
style P8 fill:#c8e6c9,stroke:#388e3c,stroke-width:2px,rx:10,ry:10
style 전반부 rx:15,ry:15
style 중반부 rx:15,ry:15
style 후반부 rx:15,ry:15
아키텍처 진화
%%{init: {'theme':'base','themeVariables':{'cScale0':'#ddeef8','cScale1':'#fff9c4','cScale2':'#dceedd','cScale3':'#ddeef8','cScaleLabel0':'#2c3e50','cScaleLabel1':'#2c3e50','cScaleLabel2':'#2c3e50','cScaleLabel3':'#2c3e50','cScalePeer0':'#90bcd8','cScalePeer1':'#f9c825','cScalePeer2':'#66bb6a','cScalePeer3':'#90bcd8','cScaleInv0':'#90bcd8','cScaleInv1':'#f9c825','cScaleInv2':'#66bb6a','cScaleInv3':'#90bcd8'}}}%%
timeline
title 멀티모달 모델 진화
2021 : CLIP — 이미지-텍스트 유사도
2023 : BLIP-2 — Adapter 방식, 6%만 학습
2024 : GPT-4o — Native Multimodal
2025 : SigLIP 2 — CLIP 후속 표준 (Phi-4 Vision 등 채택)
: Llama 4 Maverick — MoE + Early Fusion (~400B, 17B active)
: Qwen2.5-Omni — Thinker-Talker, 텍스트+이미지+오디오+비디오
: GPT-4o Autoregressive — Diffusion 없이 이미지 생성
학습 목표
- LLM → LMM 진화 과정과 “Large”, “Multimodal"의 의미를 이해합니다
- Transformer Self-Attention의 텍스트·이미지 적용 방식을 파악합니다
- CLIP, BLIP-2, Stable Diffusion 아키텍처를 비교합니다
- Adapter → Native Multimodal 전환 트렌드를 이해합니다
- MoE, Autoregressive 이미지 생성 등 최신 기술 원리를 습득합니다
수강 대상 · 선수 지식
| 수강 대상 | 선수 지식 |
|---|---|
| AI·딥러닝에 관심 있는 대학생 (1~4학년) | ChatGPT, Claude 등 LLM 사용 경험 |
| LLM 내부 구조·멀티모달을 깊이 이해하고 싶은 이들 | 딥러닝 기초 (뉴럴 네트워크, 레이어, 학습) |
| 컴퓨터 비전·AI 연구/개발 진로 고려 | Python 기초 문법 (코드 예시 이해용) |
시연 환경
| 항목 | 구성 |
|---|---|
| 기기 | MacBook Pro (로컬) + RTX 3090 서버 (원격) |
| 비디오 Grounding 시연 모델 | Qwen2.5-VL-7B (FP16 ~15GB) |
| 로컬 LLM | Ollama |
| 코드 실행 | Python 3.11+, Jupyter Notebook |
강의 구성
Part 1 — Large Language Model
- LLM이란: 텍스트 입력 → 모델 → 텍스트 출력
- “Large"의 의미: 파라미터 수와 모델 크기의 관계 (8b=80억, 70b=700억, 405b=4050억)
- Ollama 모델 살펴보기: gpt-oss 20b(14GB) vs 120b(65GB), llama3.1 8b/70b/405b
- Transformer 기반 모델들: BERT, GPT, T5, ViT, CLIP, ALBERT — 관계 데이터 어디에나 적용 가능합니다
- Local LLM: Ollama, LM Studio, exo — 학습(training)이 아닌 추론(inference)만 실행됩니다
Part 2 — Multimodal Model
- LLM(텍스트 only)에서 LMM(텍스트+이미지+오디오+…)으로의 확장
- 멀티모달의 장점: 정보 통합, 정확성 향상, 자율주행·의료진단 등 응용 범위 확대
- 이미지+텍스트 멀티모달 예시: 같은 이미지도 질문에 따라 다른 분석 (교통 표지판 예시)
- VGG16+Dense 멀티모달 모델 코드 예시와 아키텍처 (TensorFlow/Keras)
- 데이터 융합: Early Fusion / Late Fusion / Hybrid Fusion 비교
Part 3 — Transformer
- Transformer 아키텍처: Encoder-Decoder, Multi-Head Attention, QKV (Self-Attention / Cross-Attention)
- 텍스트에서의 Attention: 토큰화 → 임베딩 → QKV 가중치 학습 (8×9 = 72가지 관계 계산)
- 이미지에서의 Attention: 픽셀 간 관계, 256×256 이미지 → 약 42억 조합 (계산량 폭발)
- Dense vs Convolution vs Self-Attention 비교
- Subsampling + Convolution으로 크기 축소 후 Self-Attention을 적용합니다 (Conformer 등)
Part 4 — CLIP 모델
- CLIP (OpenAI): 이미지-텍스트 유사도 점수 출력, 약 1.5억 파라미터
- Contrastive Learning: 관련 쌍은 가까이, 비관련 쌍은 멀리 (임베딩 공간)
- COCO 데이터셋 시연 결과: 고양이 사진 + ‘고양이 사진’ → 0.74, + ‘자동차 사진’ → 낮은 점수
- TFCLIPTextTransformer + TFCLIPVisionTransformer 구조
- SigLIP 2 (Google, 2025.02): CLIP 후속 표준, sigmoid loss 기반, 가중치만 교체 가능합니다 (Drop-in)
Part 5 — BLIP-2 모델
- BLIP-2 (Salesforce, 2023): Q-Former를 통한 시각-언어 연결
- 2단계 학습: Vision-Language Representation → Vision-to-Language Generation
- Q-Former: 32개 Learned Queries, Cross Attention + Self Attention
- 효율성: 전체 3.2B 중 190M(6%)만 학습 — 이미지 인코더·LLM은 Frozen
- Native Multimodal 트렌드 (2025~): Adapter(BLIP-2) → Early Fusion(Llama 4, GPT-4o)으로 전환 중입니다
Part 6 — Stable Diffusion과 이미지 생성
- Diffusion 모델 원리: 노이즈 추가 → Denoising 모델로 이미지 복원/생성
- Stable Diffusion 아키텍처: VAE(512×512→64×64) + U-Net + CLIP Text Encoder
- Latent Space에서 동작하여 효율적으로 이미지를 생성합니다
- Autoregressive 이미지 생성 (GPT-4o, 2025): Diffusion 없이 토큰 기반으로 이미지를 생성합니다
- 지브리풍 바이럴 사례: 72시간, 1.3억 사용자, 7억장 — 저작권·윤리 문제 부각
Part 7 — 최신 트렌드와 미래 방향
- MoE: Llama 4 Maverick — ~400B 전체, 17B active (128개 Expert 중 일부만 활성화됩니다)
- Omni-Modal: Qwen2.5-Omni (Alibaba, 2025.03) Thinker-Talker 아키텍처 — 텍스트+이미지+오디오+비디오
- 비디오 이해 + Grounding: 영상에서 객체를 추적하고, 바운딩박스 좌표 (x1, y1, x2, y2)를 출력합니다
- 윤리와 저작권: 딥페이크, 학습 데이터 편향, 지브리 스타일 무단 복제 문제
Part 8 — 시연: Qwen2.5-VL 비디오 Grounding
- Qwen2.5-VL-7B-Instruct, RTX 3090 (FP16 ~15GB), Transformers + Qwen-VL-Utils
- 1. 이미지 Grounding: 이미지 + 질문 → 바운딩박스 좌표 출력
- 2. 비디오 이해: 비디오 프레임(1~8장) → 영상 내용 설명
- 3. 비디오 Grounding: 프레임별 객체 추적 + bbox 시연
강의 방식
- 형태: 오프라인 대면 강의 (1시간 30분)
- 시연: RTX 3090 원격 서버에서 오픈소스 모델(Qwen2.5-VL-7B)로 진행
- 상용 서비스 미사용: 모든 시연은 오픈소스 도구로 진행
- 코드 공유: 시연 코드를 GitHub 레포지토리에 공개
- 질의응답: 강의 중 자유 질문 허용, 마지막 10분 별도 Q&A
핵심 메시지 요약
| 파트 | 핵심 메시지 |
|---|---|
| Part 1 | LLM의 “Large"는 Transformer 모델의 방대한 파라미터 수를 의미합니다. 로컬에서 돌리는 것은 추론(inference)뿐입니다 |
| Part 2 | 여러 형태의 데이터를 통합하면 더 풍부한 이해와 정확한 결과를 얻을 수 있습니다 |
| Part 3 | Self-Attention은 텍스트뿐 아니라 이미지 등 모든 관계 데이터에 적용 가능하지만, 이미지는 계산량이 42억 배입니다 |
| Part 4 | CLIP/SigLIP 2는 이미지-텍스트 유사도의 기초이며, SigLIP 2가 현재의 비전 인코더 표준입니다 |
| Part 5 | BLIP-2의 Adapter 방식(6%만 학습)에서 Early Fusion 기반 Native Multimodal로 전환 중입니다 |
| Part 6 | 이미지 생성이 Diffusion에서 Autoregressive(GPT-4o)로 전환되며 LLM과 완전히 통합되고 있습니다 |
| Part 7-8 | MoE·Omni-Modal·비디오 Grounding으로 멀티모달 AI는 더 효율적이고 범용적으로 발전 중입니다 |
문의
강의 일정 및 비용 문의는 이메일로 연락 주세요.