목록으로

Stanford CME295 Transformers & LLMs | Autumn 2025 | Lecture 5 - LLM Tuning

Stanford Online AI 요약 생성: January 24, 2026

핵심 요약

LLM Tuning 강의는 Pre-training과 SFT 이후의 3단계인 Preference Tuning(선호도 조정)을 다룹니다. RLHF, PPO, DPO 등 다양한 정렬 기법을 통해 모델이 인간의 선호에 맞게 행동하도록 학습시키는 방법을 설명합니다.

주요 개념

Preference Tuning의 필요성 04:56

  • SFT만으로는 모델의 "톤"이나 "안전성" 같은 미세한 행동 조정이 어려움
  • Preference Pair(선호 쌍): 같은 프롬프트에 대한 좋은 응답(winning)과 나쁜 응답(losing) 쌍으로 구성
  • SFT는 "무엇을 생성할지" 가르치고, Preference Tuning은 "무엇을 선호할지" 가르침
  • Negative Signal 주입 가능: SFT는 생성해야 할 것만 가르치지만, Preference Tuning은 생성하지 말아야 할 것도 학습

Preference Data 수집 방식 11:50

  • Pointwise: 각 응답에 절대적 점수 부여 (어려움)
  • Pairwise: 두 응답 중 어느 것이 더 나은지 비교 (가장 많이 사용)
  • Listwise: n개 응답을 순위로 정렬
  • 평가 방법: Human Rating, LLM as a Judge, BLEU/ROUGE 등 규칙 기반 메트릭

RLHF (Reinforcement Learning from Human Feedback) 18:20

  • Stage 1 - Reward Model 학습: 프롬프트+응답을 받아 품질 점수 출력
  • Stage 2 - RL 학습: Reward를 사용해 정책(policy) 최적화
  • RL 관점에서 LLM: Agent=LLM, State=현재 입력, Action=다음 토큰 예측, Policy=출력 확률분포

Bradley-Terry Model 27:30

  • P(yi > yj) = σ(R(yi) - R(yj)) = exp(Ri) / (exp(Ri) + exp(Rj))
  • Reward Model 학습의 수학적 기반
  • Loss = -log σ(R(x,yw) - R(x,yl)): winning 응답의 reward를 높이고 losing 응답의 reward를 낮춤

PPO (Proximal Policy Optimization) 48:30

  • 목표: Reward 최대화 + Base Model에서 너무 멀어지지 않기
  • 왜 가까이 유지해야 하나?
    1. Catastrophic Forgetting 방지: Pre-training/SFT에서 학습한 지식 유지
    2. Reward Hacking 방지: 불완전한 Reward Model에 과적합 방지
    3. Training Instability 방지
  • KL Divergence: 두 확률분포 간 거리 측정, Reference Model과의 거리 제한
  • Clipping: 업데이트 크기 제한으로 안정성 확보

Reward Hacking 문제 51:00

  • Reward Model이 불완전하므로 과도하게 최적화하면 실제 목표와 괴리 발생
  • 예시: 강의의 "정보성"을 "박수 소리 크기"로 측정하면, 농담만 하는 강의가 높은 점수

PPO의 복잡성과 대안 57:36

  • PPO는 4개 모델 필요: Policy, Value Function, Reward Model, Reference Model
  • Best-of-N (BoN): N개 생성 후 Reward Model로 최고 점수 선택 (RL 학습 없이)
    • 장점: 학습 불필요
    • 단점: 추론 비용 N배 증가
  • GRPO: DeepSeek에서 제안, 다음 강의에서 다룰 예정

DPO (Direct Preference Optimization) 1:29:59

  • PPO의 복잡성을 해결하기 위한 접근
  • Reward Model 없이 Preference Data로 직접 정책 최적화
  • Loss = -log σ(β * (log π(yw|x)/πref(yw|x) - log π(yl|x)/πref(yl|x)))
  • 2개 모델만 필요: 학습할 Policy + Frozen Reference Model
  • Implicit Reward: r(x,y) = β * log(π(y|x)/πref(y|x))

DPO의 직관적 이해 1:37:00

  • Winning 응답의 확률 증가, Losing 응답의 확률 감소
  • Reference Model 대비 상대적 변화를 학습
  • PPO 대비 훨씬 간단하고 안정적

LoRA와 Preference Tuning 10:20

  • LoRA는 파라미터 효율적 학습 방법 (어떤 파라미터를 튜닝할지)
  • Preference Tuning은 목적 함수 (무엇을 최적화할지)
  • 두 기법은 상호 보완적으로 함께 사용 가능

핵심 인사이트

  • Preference Tuning은 모델의 "행동"을 세밀하게 조정하는 3단계 학습
  • RLHF는 강력하지만 복잡하고 불안정 (4개 모델, Reward Hacking 위험)
  • DPO는 Reward Model 없이 직접 최적화로 단순화 (현재 많이 사용)
  • Reward Hacking 방지를 위해 Reference Model과의 KL Divergence 제한이 중요
  • Best-of-N은 학습 없이 추론 시점에 품질 향상 가능 (비용 트레이드오프)