목록으로

Stanford CME295 Transformers & LLMs | Autumn 2025 | Lecture 9 - Recap & Current Trends

Stanford Online AI 요약 생성: January 24, 2026

핵심 요약

전체 과정을 복습하고 2025년 최신 트렌드를 소개합니다. Lecture 1-8의 핵심 개념을 정리하고, Vision Transformer, Diffusion LLM 등 새로운 패러다임과 앞으로의 연구 방향을 다룹니다.

주요 개념

Part 1: 전체 과정 복습

Lecture 1 - Transformer 기초 01:24

  • Tokenization: 텍스트를 atomic unit으로 분할 (subword level이 가장 일반적)
  • Embedding: Word2Vec → RNN의 한계 (long-range dependency)
  • Self-Attention: 토큰 간 직접 연결, 위치에 상관없이 attend 가능
  • Transformer: Encoder-Decoder 구조, 번역 task에서 시작

Lecture 2 - Transformer 개선 05:33

  • RoPE (Rotary Position Embedding): 절대 위치 → 상대 위치, Q/K 회전
  • Grouped Query Attention: K/V 행렬 그룹화로 효율성 향상
  • Pre-norm vs Post-norm: 현대 LLM은 Pre-norm 선호
  • Encoder-only (BERT): 분류 task / Decoder-only (GPT): 생성 task

Lecture 3 - LLM 구조 09:07

  • MoE (Mixture of Experts): 전체 파라미터 중 일부만 활성화, FFN 레이어에 적용
  • Temperature: 낮으면 deterministic, 높으면 creative
  • Sampling: Greedy decoding 대신 확률적 샘플링으로 다양성 확보

Lecture 4 - LLM 학습 15:12

  • Scaling Laws: 더 큰 모델, 더 많은 데이터 = 더 좋은 성능
  • Chinchilla Rule: 파라미터 수 × 20 = 최소 학습 토큰 수
  • Flash Attention: HBM/SRAM 메모리 계층 활용, 정확한 결과 + 속도 향상
  • Parallelism: Data / Model / Pipeline parallelism

Lecture 5 - LLM Tuning 20:49

  • SFT (Supervised Fine-Tuning): instruction-response 쌍으로 fine-tuning
  • RLHF: Human preference로 모델 정렬
  • DPO: RLHF 단순화, reward model 없이 직접 최적화
  • LoRA: 저랭크 어댑터로 효율적 fine-tuning

Lecture 6 - LLM Reasoning 24:30

  • Chain-of-Thought (CoT): 단계별 추론으로 복잡한 문제 해결
  • Test-time Compute: 추론 시 더 많은 연산으로 성능 향상
  • GRPO, DAPO: Reasoning 모델 학습을 위한 RL 확장

Lecture 7 - Agentic LLMs 38:41

  • RAG (Retrieval-Augmented Generation): 외부 지식 검색 후 생성
    • Candidate Retrieval (bi-encoder) → Re-ranking (cross-encoder)
  • Tool Calling: LLM이 API 선택 + 인자 결정 → 실행 → 결과 종합
  • ReAct: Observe → Plan → Act 반복 루프

Lecture 8 - LLM Evaluation 44:10

  • Rule-based Metrics: BLEU, ROUGE (언어 다양성 미반영)
  • LLM-as-a-Judge: Binary scale + Rationale before score
  • Biases: Position, Verbosity, Self-enhancement
  • Benchmarks: Knowledge, Reasoning, Coding, Safety

Part 2: 2025 트렌드 (시험 범위 외)

Vision Transformer (ViT) 49:32

  • 이미지를 패치로 분할 → 벡터로 임베딩 → Transformer encoder
  • BERT와 유사: CLS 토큰으로 분류
  • 충분한 데이터가 있으면 CNN보다 우수한 성능
  • 핵심 통찰: Transformer는 낮은 inductive bias, 데이터로 학습

Multimodal LLMs 56:10

  • 텍스트 + 이미지 입력 처리
  • Vision encoder로 이미지 → 토큰 변환 후 LLM에 입력
  • GPT-4V, Gemini 등에서 활용

Diffusion LLMs 77:46

  • Auto-regressive와 다른 생성 방식
  • 노이즈 → 점진적 디노이징 → 텍스트
  • 장점: Forward pass 수 = diffusion step 수 (토큰 수보다 적음) → 10배 빠름
  • Fill-in-the-middle: 양방향 컨텍스트 활용에 유리
  • 아직 frontier 모델 수준은 아니지만 발전 중

Cross-Domain Pollination 83:24

  • 이미지 → 텍스트: Diffusion 개념 차용 (속도 향상)
  • 텍스트 → 이미지: Transformer 아키텍처 차용 (DiT)
  • RoPE의 2D 확장: 멀티모달 설정에서 위치 인코딩

Part 3: 미래 연구 방향

진행 중인 연구 영역 89:00

  • Optimizer: Adam → Muon/Muon-clip 등장
  • Normalization: LayerNorm → RMSNorm
  • Activation Functions: ReLU → GELU 등
  • Data Curation: LLM 생성 데이터의 model collapse 문제
  • Mid-training: Pre-training과 Fine-tuning 사이 고품질 데이터 학습

열린 문제들 107:21

  • 지속적 학습: 현재는 학습 후 weight 고정
  • Hallucination: 본질적으로 next token prediction의 한계
  • Personalization, Interpretability, Safety
  • Hardware: GPU 외 새로운 아키텍처 탐색
  • Cost-effective LLM: SLM (Small Language Model) 등장

학습 리소스 109:42

  • arXiv, NeurIPS 등 학회
  • Hugging Face Trending Papers
  • YouTube: Yannic Kilcher, Andrej Karpathy
  • Twitter/X ML 커뮤니티
  • CME295 Study Guide (매년 업데이트 예정)

핵심 인사이트

  • 시험 범위: Lecture 5-8 (Tuning, Reasoning, Agents, Evaluation)
  • Transformer의 범용성: 텍스트에서 시작해 이미지, 멀티모달로 확장
  • 양방향 영감: 이미지의 Diffusion → 텍스트, 텍스트의 Transformer → 이미지
  • 아직 정해진 것 없음: Optimizer, Normalization, Architecture 모두 연구 진행 중
  • Data가 핵심: LLM 생성 데이터 증가로 data curation의 중요성 부상
  • Cost-effectiveness가 다음 frontier: 성능만큼 비용 효율도 중요해질 것