LMM - 대규모 멀티모달 모델의 이해와 적용

2026년 3월 30일 5분
초중급
1h 30m
문서 생성 2026년 3월 30일
LMM 강의 대표 이미지

LMM

강의 상세 자료

강의 개요

텍스트만 처리하던 LLM에서 이미지·오디오·비디오까지 통합하는 LMM으로의 전환을 다루는 특강입니다.

%%{init: {'theme':'base','themeVariables':{'primaryColor':'#e3f2fd','primaryBorderColor':'#90caf9','lineColor':'#546e7a','textColor':'#333','mainBkg':'#fafafa','nodeBorder':'#90a4ae','clusterBkg':'#f5f5f5','clusterBorder':'#bdbdbd'}}}%% flowchart LR subgraph LLM["LLM"] T1["text"] --> M1["Model"] --> T2["text"] end subgraph LMM["LMM"] TI["text\nimage\naudio\n..."] --> M2["Model"] --> TO["text\nimage\naudio\n..."] end LLM -- "진화" --> LMM style T1 fill:#bbdefb,stroke:#1976d2,stroke-width:2px,rx:10,ry:10 style M1 fill:#eceff1,stroke:#546e7a,stroke-width:2px,rx:10,ry:10 style T2 fill:#c8e6c9,stroke:#388e3c,stroke-width:2px,rx:10,ry:10 style TI fill:#bbdefb,stroke:#1976d2,stroke-width:2px,rx:10,ry:10 style M2 fill:#eceff1,stroke:#546e7a,stroke-width:2px,rx:10,ry:10 style TO fill:#c8e6c9,stroke:#388e3c,stroke-width:2px,rx:10,ry:10 style LLM rx:15,ry:15 style LMM rx:15,ry:15

강의 흐름

%%{init: {'theme':'base','themeVariables':{'primaryColor':'#e3f2fd','primaryBorderColor':'#90caf9','lineColor':'#546e7a','textColor':'#333','mainBkg':'#fafafa','nodeBorder':'#90a4ae','clusterBkg':'#f5f5f5','clusterBorder':'#bdbdbd'}}}%% flowchart LR subgraph 전반부["전반부 — 기초"] direction TB P1["Part 1\nLLM 개요"] P2["Part 2\nMultimodal"] P3["Part 3\nTransformer"] P1 --> P2 --> P3 end subgraph 중반부["중반부 — 핵심 모델"] direction TB P4["Part 4\nCLIP → SigLIP 2"] P5["Part 5\nBLIP-2 → Native"] P6["Part 6\nStable Diffusion\n→ Autoregressive"] P4 --> P5 --> P6 end subgraph 후반부["후반부 — 최신 트렌드"] direction TB P7["Part 7\nMoE · Omni-Modal"] P8["Part 8\n시연: 비디오\nGrounding"] P7 --> P8 end 전반부 --> 중반부 --> 후반부 style P1 fill:#e3f2fd,stroke:#90caf9,stroke-width:2px,rx:10,ry:10 style P2 fill:#e3f2fd,stroke:#90caf9,stroke-width:2px,rx:10,ry:10 style P3 fill:#e3f2fd,stroke:#90caf9,stroke-width:2px,rx:10,ry:10 style P4 fill:#fff9c4,stroke:#f9a825,stroke-width:2px,rx:10,ry:10 style P5 fill:#fff9c4,stroke:#f9a825,stroke-width:2px,rx:10,ry:10 style P6 fill:#fff9c4,stroke:#f9a825,stroke-width:2px,rx:10,ry:10 style P7 fill:#c8e6c9,stroke:#388e3c,stroke-width:2px,rx:10,ry:10 style P8 fill:#c8e6c9,stroke:#388e3c,stroke-width:2px,rx:10,ry:10 style 전반부 rx:15,ry:15 style 중반부 rx:15,ry:15 style 후반부 rx:15,ry:15

아키텍처 진화

%%{init: {'theme':'base','themeVariables':{'cScale0':'#ddeef8','cScale1':'#fff9c4','cScale2':'#dceedd','cScale3':'#ddeef8','cScaleLabel0':'#2c3e50','cScaleLabel1':'#2c3e50','cScaleLabel2':'#2c3e50','cScaleLabel3':'#2c3e50','cScalePeer0':'#90bcd8','cScalePeer1':'#f9c825','cScalePeer2':'#66bb6a','cScalePeer3':'#90bcd8','cScaleInv0':'#90bcd8','cScaleInv1':'#f9c825','cScaleInv2':'#66bb6a','cScaleInv3':'#90bcd8'}}}%% timeline title 멀티모달 모델 진화 2021 : CLIP — 이미지-텍스트 유사도 2023 : BLIP-2 — Adapter 방식, 6%만 학습 2024 : GPT-4o — Native Multimodal 2025 : SigLIP 2 — CLIP 후속 표준 (Phi-4 Vision 등 채택) : Llama 4 Maverick — MoE + Early Fusion (~400B, 17B active) : Qwen2.5-Omni — Thinker-Talker, 텍스트+이미지+오디오+비디오 : GPT-4o Autoregressive — Diffusion 없이 이미지 생성

학습 목표

  • LLM → LMM 진화 과정과 “Large”, “Multimodal"의 의미를 이해합니다
  • Transformer Self-Attention의 텍스트·이미지 적용 방식을 파악합니다
  • CLIP, BLIP-2, Stable Diffusion 아키텍처를 비교합니다
  • Adapter → Native Multimodal 전환 트렌드를 이해합니다
  • MoE, Autoregressive 이미지 생성 등 최신 기술 원리를 습득합니다

수강 대상 · 선수 지식

수강 대상선수 지식
AI·딥러닝에 관심 있는 대학생 (1~4학년)ChatGPT, Claude 등 LLM 사용 경험
LLM 내부 구조·멀티모달을 깊이 이해하고 싶은 이들딥러닝 기초 (뉴럴 네트워크, 레이어, 학습)
컴퓨터 비전·AI 연구/개발 진로 고려Python 기초 문법 (코드 예시 이해용)

시연 환경

항목구성
기기MacBook Pro (로컬) + RTX 3090 서버 (원격)
비디오 Grounding 시연 모델Qwen2.5-VL-7B (FP16 ~15GB)
로컬 LLMOllama
코드 실행Python 3.11+, Jupyter Notebook

강의 구성

Part 1 — Large Language Model

  • LLM이란: 텍스트 입력 → 모델 → 텍스트 출력
  • “Large"의 의미: 파라미터 수와 모델 크기의 관계 (8b=80억, 70b=700억, 405b=4050억)
  • Ollama 모델 살펴보기: gpt-oss 20b(14GB) vs 120b(65GB), llama3.1 8b/70b/405b
  • Transformer 기반 모델들: BERT, GPT, T5, ViT, CLIP, ALBERT — 관계 데이터 어디에나 적용 가능합니다
  • Local LLM: Ollama, LM Studio, exo — 학습(training)이 아닌 추론(inference)만 실행됩니다

Part 2 — Multimodal Model

  • LLM(텍스트 only)에서 LMM(텍스트+이미지+오디오+…)으로의 확장
  • 멀티모달의 장점: 정보 통합, 정확성 향상, 자율주행·의료진단 등 응용 범위 확대
  • 이미지+텍스트 멀티모달 예시: 같은 이미지도 질문에 따라 다른 분석 (교통 표지판 예시)
  • VGG16+Dense 멀티모달 모델 코드 예시와 아키텍처 (TensorFlow/Keras)
  • 데이터 융합: Early Fusion / Late Fusion / Hybrid Fusion 비교

Part 3 — Transformer

  • Transformer 아키텍처: Encoder-Decoder, Multi-Head Attention, QKV (Self-Attention / Cross-Attention)
  • 텍스트에서의 Attention: 토큰화 → 임베딩 → QKV 가중치 학습 (8×9 = 72가지 관계 계산)
  • 이미지에서의 Attention: 픽셀 간 관계, 256×256 이미지 → 약 42억 조합 (계산량 폭발)
  • Dense vs Convolution vs Self-Attention 비교
  • Subsampling + Convolution으로 크기 축소 후 Self-Attention을 적용합니다 (Conformer 등)

Part 4 — CLIP 모델

  • CLIP (OpenAI): 이미지-텍스트 유사도 점수 출력, 약 1.5억 파라미터
  • Contrastive Learning: 관련 쌍은 가까이, 비관련 쌍은 멀리 (임베딩 공간)
  • COCO 데이터셋 시연 결과: 고양이 사진 + ‘고양이 사진’ → 0.74, + ‘자동차 사진’ → 낮은 점수
  • TFCLIPTextTransformer + TFCLIPVisionTransformer 구조
  • SigLIP 2 (Google, 2025.02): CLIP 후속 표준, sigmoid loss 기반, 가중치만 교체 가능합니다 (Drop-in)

Part 5 — BLIP-2 모델

  • BLIP-2 (Salesforce, 2023): Q-Former를 통한 시각-언어 연결
  • 2단계 학습: Vision-Language Representation → Vision-to-Language Generation
  • Q-Former: 32개 Learned Queries, Cross Attention + Self Attention
  • 효율성: 전체 3.2B 중 190M(6%)만 학습 — 이미지 인코더·LLM은 Frozen
  • Native Multimodal 트렌드 (2025~): Adapter(BLIP-2) → Early Fusion(Llama 4, GPT-4o)으로 전환 중입니다

Part 6 — Stable Diffusion과 이미지 생성

  • Diffusion 모델 원리: 노이즈 추가 → Denoising 모델로 이미지 복원/생성
  • Stable Diffusion 아키텍처: VAE(512×512→64×64) + U-Net + CLIP Text Encoder
  • Latent Space에서 동작하여 효율적으로 이미지를 생성합니다
  • Autoregressive 이미지 생성 (GPT-4o, 2025): Diffusion 없이 토큰 기반으로 이미지를 생성합니다
  • 지브리풍 바이럴 사례: 72시간, 1.3억 사용자, 7억장 — 저작권·윤리 문제 부각

Part 7 — 최신 트렌드와 미래 방향

  • MoE: Llama 4 Maverick — ~400B 전체, 17B active (128개 Expert 중 일부만 활성화됩니다)
  • Omni-Modal: Qwen2.5-Omni (Alibaba, 2025.03) Thinker-Talker 아키텍처 — 텍스트+이미지+오디오+비디오
  • 비디오 이해 + Grounding: 영상에서 객체를 추적하고, 바운딩박스 좌표 (x1, y1, x2, y2)를 출력합니다
  • 윤리와 저작권: 딥페이크, 학습 데이터 편향, 지브리 스타일 무단 복제 문제

Part 8 — 시연: Qwen2.5-VL 비디오 Grounding

  • Qwen2.5-VL-7B-Instruct, RTX 3090 (FP16 ~15GB), Transformers + Qwen-VL-Utils
  • 1. 이미지 Grounding: 이미지 + 질문 → 바운딩박스 좌표 출력
  • 2. 비디오 이해: 비디오 프레임(1~8장) → 영상 내용 설명
  • 3. 비디오 Grounding: 프레임별 객체 추적 + bbox 시연

강의 방식

  • 형태: 오프라인 대면 강의 (1시간 30분)
  • 시연: RTX 3090 원격 서버에서 오픈소스 모델(Qwen2.5-VL-7B)로 진행
  • 상용 서비스 미사용: 모든 시연은 오픈소스 도구로 진행
  • 코드 공유: 시연 코드를 GitHub 레포지토리에 공개
  • 질의응답: 강의 중 자유 질문 허용, 마지막 10분 별도 Q&A

핵심 메시지 요약

파트핵심 메시지
Part 1LLM의 “Large"는 Transformer 모델의 방대한 파라미터 수를 의미합니다. 로컬에서 돌리는 것은 추론(inference)뿐입니다
Part 2여러 형태의 데이터를 통합하면 더 풍부한 이해와 정확한 결과를 얻을 수 있습니다
Part 3Self-Attention은 텍스트뿐 아니라 이미지 등 모든 관계 데이터에 적용 가능하지만, 이미지는 계산량이 42억 배입니다
Part 4CLIP/SigLIP 2는 이미지-텍스트 유사도의 기초이며, SigLIP 2가 현재의 비전 인코더 표준입니다
Part 5BLIP-2의 Adapter 방식(6%만 학습)에서 Early Fusion 기반 Native Multimodal로 전환 중입니다
Part 6이미지 생성이 Diffusion에서 Autoregressive(GPT-4o)로 전환되며 LLM과 완전히 통합되고 있습니다
Part 7-8MoE·Omni-Modal·비디오 Grounding으로 멀티모달 AI는 더 효율적이고 범용적으로 발전 중입니다

문의

강의 일정 및 비용 문의는 이메일로 연락 주세요.