LMM - 대규모 멀티모달 모델의 이해와 적용

2026년 3월 30일 5분

초중급 ★ ★ ☆ ☆ ☆

1h 30m

문서 생성 2026년 3월 30일

LMM

강의 상세 자료

강의 개요

텍스트만 처리하던 LLM에서 이미지·오디오·비디오까지 통합하는 LMM으로의 전환을 다루는 특강입니다.

강의 흐름

%%{init: {'theme':'base','themeVariables':{'primaryColor':'#e3f2fd','primaryBorderColor':'#90caf9','lineColor':'#546e7a','textColor':'#333','mainBkg':'#fafafa','nodeBorder':'#90a4ae','clusterBkg':'#f5f5f5','clusterBorder':'#bdbdbd'}}}%% flowchart LR subgraph 전반부["전반부 — 기초"] direction TB P1["Part 1\nLLM 개요"] P2["Part 2\nMultimodal"] P3["Part 3\nTransformer"] P1 --> P2 --> P3 end subgraph 중반부["중반부 — 핵심 모델"] direction TB P4["Part 4\nCLIP → SigLIP 2"] P5["Part 5\nBLIP-2 → Native"] P6["Part 6\nStable Diffusion\n→ Autoregressive"] P4 --> P5 --> P6 end subgraph 후반부["후반부 — 최신 트렌드"] direction TB P7["Part 7\nMoE · Omni-Modal"] P8["Part 8\n시연: 비디오\nGrounding"] P7 --> P8 end 전반부 --> 중반부 --> 후반부 style P1 fill:#e3f2fd,stroke:#90caf9,stroke-width:2px,rx:10,ry:10 style P2 fill:#e3f2fd,stroke:#90caf9,stroke-width:2px,rx:10,ry:10 style P3 fill:#e3f2fd,stroke:#90caf9,stroke-width:2px,rx:10,ry:10 style P4 fill:#fff9c4,stroke:#f9a825,stroke-width:2px,rx:10,ry:10 style P5 fill:#fff9c4,stroke:#f9a825,stroke-width:2px,rx:10,ry:10 style P6 fill:#fff9c4,stroke:#f9a825,stroke-width:2px,rx:10,ry:10 style P7 fill:#c8e6c9,stroke:#388e3c,stroke-width:2px,rx:10,ry:10 style P8 fill:#c8e6c9,stroke:#388e3c,stroke-width:2px,rx:10,ry:10 style 전반부 rx:15,ry:15 style 중반부 rx:15,ry:15 style 후반부 rx:15,ry:15

아키텍처 진화

%%{init: {'theme':'base','themeVariables':{'cScale0':'#ddeef8','cScale1':'#fff9c4','cScale2':'#dceedd','cScale3':'#ddeef8','cScaleLabel0':'#2c3e50','cScaleLabel1':'#2c3e50','cScaleLabel2':'#2c3e50','cScaleLabel3':'#2c3e50','cScalePeer0':'#90bcd8','cScalePeer1':'#f9c825','cScalePeer2':'#66bb6a','cScalePeer3':'#90bcd8','cScaleInv0':'#90bcd8','cScaleInv1':'#f9c825','cScaleInv2':'#66bb6a','cScaleInv3':'#90bcd8'}}}%% timeline title 멀티모달 모델 진화 2021 : CLIP — 이미지-텍스트 유사도 2023 : BLIP-2 — Adapter 방식, 6%만 학습 2024 : GPT-4o — Native Multimodal 2025 : SigLIP 2 — CLIP 후속 표준 (Phi-4 Vision 등 채택) : Llama 4 Maverick — MoE + Early Fusion (~400B, 17B active) : Qwen2.5-Omni — Thinker-Talker, 텍스트+이미지+오디오+비디오 : GPT-4o Autoregressive — Diffusion 없이 이미지 생성

학습 목표

LLM → LMM 진화 과정과 “Large”, “Multimodal"의 의미를 이해합니다
Transformer Self-Attention의 텍스트·이미지 적용 방식을 파악합니다
CLIP, BLIP-2, Stable Diffusion 아키텍처를 비교합니다
Adapter → Native Multimodal 전환 트렌드를 이해합니다
MoE, Autoregressive 이미지 생성 등 최신 기술 원리를 습득합니다

수강 대상 · 선수 지식

수강 대상	선수 지식
AI·딥러닝에 관심 있는 대학생 (1~4학년)	ChatGPT, Claude 등 LLM 사용 경험
LLM 내부 구조·멀티모달을 깊이 이해하고 싶은 이들	딥러닝 기초 (뉴럴 네트워크, 레이어, 학습)
컴퓨터 비전·AI 연구/개발 진로 고려	Python 기초 문법 (코드 예시 이해용)

시연 환경

항목	구성
기기	MacBook Pro (로컬) + RTX 3090 서버 (원격)
비디오 Grounding 시연 모델	`Qwen2.5-VL-7B` (FP16 ~15GB)
로컬 LLM	Ollama
코드 실행	Python 3.11+, Jupyter Notebook

강의 구성

Part 1 — Large Language Model

LLM이란: 텍스트 입력 → 모델 → 텍스트 출력
“Large"의 의미: 파라미터 수와 모델 크기의 관계 (8b=80억, 70b=700억, 405b=4050억)
Ollama 모델 살펴보기: gpt-oss 20b(14GB) vs 120b(65GB), llama3.1 8b/70b/405b
Transformer 기반 모델들: BERT, GPT, T5, ViT, CLIP, ALBERT — 관계 데이터 어디에나 적용 가능합니다
Local LLM: Ollama, LM Studio, exo — 학습(training)이 아닌 추론(inference)만 실행됩니다

Part 2 — Multimodal Model

LLM(텍스트 only)에서 LMM(텍스트+이미지+오디오+…)으로의 확장
멀티모달의 장점: 정보 통합, 정확성 향상, 자율주행·의료진단 등 응용 범위 확대
이미지+텍스트 멀티모달 예시: 같은 이미지도 질문에 따라 다른 분석 (교통 표지판 예시)
VGG16+Dense 멀티모달 모델 코드 예시와 아키텍처 (TensorFlow/Keras)
데이터 융합: Early Fusion / Late Fusion / Hybrid Fusion 비교

Part 3 — Transformer

Transformer 아키텍처: Encoder-Decoder, Multi-Head Attention, QKV (Self-Attention / Cross-Attention)
텍스트에서의 Attention: 토큰화 → 임베딩 → QKV 가중치 학습 (8×9 = 72가지 관계 계산)
이미지에서의 Attention: 픽셀 간 관계, 256×256 이미지 → 약 42억 조합 (계산량 폭발)
Dense vs Convolution vs Self-Attention 비교
Subsampling + Convolution으로 크기 축소 후 Self-Attention을 적용합니다 (Conformer 등)

Part 4 — CLIP 모델

CLIP (OpenAI): 이미지-텍스트 유사도 점수 출력, 약 1.5억 파라미터
Contrastive Learning: 관련 쌍은 가까이, 비관련 쌍은 멀리 (임베딩 공간)
COCO 데이터셋 시연 결과: 고양이 사진 + ‘고양이 사진’ → 0.74, + ‘자동차 사진’ → 낮은 점수
TFCLIPTextTransformer + TFCLIPVisionTransformer 구조
SigLIP 2 (Google, 2025.02): CLIP 후속 표준, sigmoid loss 기반, 가중치만 교체 가능합니다 (Drop-in)

Part 5 — BLIP-2 모델

BLIP-2 (Salesforce, 2023): Q-Former를 통한 시각-언어 연결
2단계 학습: Vision-Language Representation → Vision-to-Language Generation
Q-Former: 32개 Learned Queries, Cross Attention + Self Attention
효율성: 전체 3.2B 중 190M(6%)만 학습 — 이미지 인코더·LLM은 Frozen
Native Multimodal 트렌드 (2025~): Adapter(BLIP-2) → Early Fusion(Llama 4, GPT-4o)으로 전환 중입니다

Part 6 — Stable Diffusion과 이미지 생성

Diffusion 모델 원리: 노이즈 추가 → Denoising 모델로 이미지 복원/생성
Stable Diffusion 아키텍처: VAE(512×512→64×64) + U-Net + CLIP Text Encoder
Latent Space에서 동작하여 효율적으로 이미지를 생성합니다
Autoregressive 이미지 생성 (GPT-4o, 2025): Diffusion 없이 토큰 기반으로 이미지를 생성합니다

Part 7 — 최신 트렌드와 미래 방향

MoE: Llama 4 Maverick — ~400B 전체, 17B active (128개 Expert 중 일부만 활성화됩니다)
Omni-Modal: Qwen2.5-Omni (Alibaba, 2025.03) Thinker-Talker 아키텍처 — 텍스트+이미지+오디오+비디오
비디오 이해 + Grounding: 영상에서 객체를 추적하고, 바운딩박스 좌표 (x1, y1, x2, y2)를 출력합니다

Part 8 — 시연: Qwen2.5-VL 비디오 Grounding

Qwen2.5-VL-7B-Instruct, RTX 3090 (FP16 ~15GB), Transformers + Qwen-VL-Utils
1. 이미지 Grounding: 이미지 + 질문 → 바운딩박스 좌표 출력
2. 비디오 이해: 비디오 프레임(1~8장) → 영상 내용 설명
3. 비디오 Grounding: 프레임별 객체 추적 + bbox 시연

강의 방식

형태: 오프라인 대면 강의 (1시간 30분)
시연: RTX 3090 원격 서버에서 오픈소스 모델(Qwen2.5-VL-7B)로 진행
상용 서비스 미사용: 모든 시연은 오픈소스 도구로 진행
코드 공유: 시연 코드를 GitHub 레포지토리에 공개
질의응답: 강의 중 자유 질문 허용, 마지막 10분 별도 Q&A

핵심 메시지 요약

파트	핵심 메시지
Part 1	LLM의 “Large"는 Transformer 모델의 방대한 파라미터 수를 의미합니다. 로컬에서 돌리는 것은 추론(inference)뿐입니다
Part 2	여러 형태의 데이터를 통합하면 더 풍부한 이해와 정확한 결과를 얻을 수 있습니다
Part 3	Self-Attention은 텍스트뿐 아니라 이미지 등 모든 관계 데이터에 적용 가능하지만, 이미지는 계산량이 42억 배입니다
Part 4	CLIP/SigLIP 2는 이미지-텍스트 유사도의 기초이며, SigLIP 2가 현재의 비전 인코더 표준입니다
Part 5	BLIP-2의 Adapter 방식(6%만 학습)에서 Early Fusion 기반 Native Multimodal로 전환 중입니다
Part 6	이미지 생성이 Diffusion에서 Autoregressive(GPT-4o)로 전환되며 LLM과 완전히 통합되고 있습니다
Part 7-8	MoE·Omni-Modal·비디오 Grounding으로 멀티모달 AI는 더 효율적이고 범용적으로 발전 중입니다

문의

강의 일정 및 비용 문의는 이메일로 연락 주세요.