목록으로

Stanford CME295 Transformers & LLMs | Autumn 2025 | Lecture 6 - LLM Reasoning

Stanford Online AI 요약 생성: January 24, 2026

핵심 요약

LLM Reasoning 강의는 추론 모델(Reasoning Model)의 개념과 학습 방법을 다룹니다. Chain of Thought를 대규모로 적용하여 모델이 복잡한 문제를 단계별로 분해하고 해결하도록 학습시키는 RL 기반 접근법, 특히 GRPO 알고리즘을 중심으로 설명합니다.

주요 개념

Vanilla LLM의 한계 08:50

  • Limited Reasoning: 복잡한 수학/코딩 문제 해결 능력 부족
  • Static Knowledge: 학습 데이터 cutoff date 이후 정보 없음
  • All Talk No Action: 실제 행동(주문, API 호출 등) 불가
  • Evaluation 어려움: Free-form text 출력으로 BLEU/ROUGE 같은 기존 메트릭 부적합

Reasoning의 정의 13:55

  • 정의: Multi-step 추론을 통해 문제를 해결하는 능력
  • Knowledge vs Reasoning: "CME295가 뭐지?" (지식) vs "2020년생 곰이 2025년에 몇 살?" (추론)
  • 주로 수학, 코딩 문제에 적용되지만 다른 분야로 확장 가능

Chain of Thought의 대규모 적용 15:55

  • LLM은 Next Token Prediction으로 학습되어 "plausible"하게 답변
  • 복잡한 문제는 training data에 거의 없어서 직접 풀기 어려움
  • 핵심 아이디어: 문제를 tractable한 하위 문제로 분해 → 학습된 패턴으로 해결
  • Compute Budget: 더 많은 토큰 생성 = 더 많은 forward pass = 더 많은 compute

Reasoning Model의 구조 21:58

  • Vanilla LLM: Question → Answer
  • Reasoning Model: Question → Reasoning Chain → Answer
  • 출력이 단순 Answer가 아닌 "Reasoning + Answer"

Reasoning Model 타임라인 22:23

  • 2024.09: OpenAI o1 preview 출시 (시작점)
  • 2024.12: Google Gemini 2.0 Flash Thinking
  • 2025.01: DeepSeek R1 - OpenAI 성능 match + 방법론 공개 (빅 모먼트)
  • 이후: xAI, Anthropic Claude, Mistral 등 추론 기능 추가

Test-Time Scaling 24:30

  • Train-Time Scaling: 더 큰 모델, 더 많은 데이터, 더 많은 compute
  • Test-Time Scaling: 추론 시점에 더 많은 compute 투입 (새로운 패러다임)
  • 같은 모델이라도 추론 시간을 더 주면 성능 향상 가능

Pass@K 메트릭 32:28

  • 정의: K번 시도 중 최소 1번 성공할 확률
  • Best-of-N과 유사하지만, Reward Model 대신 Verifiable Reward 사용
  • 코딩: 테스트 케이스 통과 여부 / 수학: 정답과 일치 여부
  • 추정 공식: Pass@K = 1 - C(n-c, k) / C(n, k) (n개 샘플 중 c개 성공일 때)

Why RL for Reasoning? 50:40

  • 수학/코딩은 Verifiable Reward 존재 (정답 여부 명확)
  • SFT만으로 처음부터 학습하기 어려움 (high-quality reasoning data 부족)
  • 해결책: RL로 모델이 스스로 reasoning 패턴 학습

RL Reward 설계 51:30

  1. Format Reward: 토큰 존재 여부 (reasoning chain 생성 유도)
  2. Correctness Reward: 최종 답의 정확성 (verifiable)
  • Reward Model 불필요 - 둘 다 rule-based로 검증 가능

GRPO (Group Relative Policy Optimization) 1:10:20

  • DeepSeek Math 논문에서 제안
  • 핵심 차이: Value Function 없이 Advantage 계산
  • 방법: 같은 prompt에 대해 G개 completion 생성 → 각 completion의 reward를 group 내에서 비교
  • Advantage = (Ri - mean(R)) / std(R) (Group 내 상대적 비교)

GRPO vs PPO 비교 1:10:40

항목 PPO GRPO
Frozen Models Reference + Reward Model Reference만
Trained Models Policy + Value Function Policy만
Advantage Reward - Value Group 내 상대 비교
용도 Preference Tuning Reasoning Training

GRPO Loss 구성요소 1:11:10

  • 공통점: Policy ratio (π/π_old), Clipping mechanism
  • 차이점: GRPO는 KL divergence가 loss에 명시적으로 포함
  • PPO는 KL을 advantage 계산에 내재화

Thinking Budget Control 55:20

  • 모든 문제에 같은 양의 thinking 불필요
  • Dynamic Budget: Classifier로 문제 난이도 판단
  • Budget Forcing: "wait" 토큰으로 더 생각하게, "time's up" 토큰으로 종료 유도
  • Continuous Thoughts: Token 대신 hidden representation으로 사고 (더 압축된 형태)

Length Optimization 1:16:20

  • RL training이 진행될수록 output 길이 증가 경향
  • 더 긴 reasoning = 더 많은 비용 (사용자/제공자 모두)
  • 효율성을 위한 length reward 추가 연구 진행 중

핵심 인사이트

  • Reasoning Model = Chain of Thought의 대규모 적용 + RL 기반 학습
  • Test-Time Scaling: 추론 시점 compute 증가로 성능 향상 (새로운 scaling 패러다임)
  • GRPO: Value Function 없이 Group 내 비교로 Advantage 계산 - PPO보다 간단
  • Verifiable Reward가 있는 도메인(수학, 코딩)에서 RL이 특히 효과적
  • DeepSeek R1이 방법론 공개로 reasoning 연구 민주화에 기여