목록으로

Stanford CME295 Transformers & LLMs | Autumn 2025 | Lecture 8 - LLM Evaluation

Stanford Online AI 요약 생성: January 24, 2026

핵심 요약

LLM 출력 품질을 측정하는 다양한 평가 방법론을 다룹니다. Human rating의 한계부터 LLM-as-a-Judge, Factuality 평가, Agent 평가까지 실무에서 필요한 평가 기법들을 체계적으로 설명합니다.

주요 개념

Human Evaluation의 한계 06:21

  • LLM 출력이 자유 형식이라 이상적으로는 매번 사람이 평가해야 하지만 비용이 많이 듦
  • 평가 자체가 주관적일 수 있음 (예: "유용성"의 기준이 평가자마다 다름)
  • Inter-rater agreement가 중요한 이유: 평가자 간 일관성 확보 필요

Agreement Metrics 09:30

  • Agreement Rate: 단순히 두 평가자가 같은 응답을 준 비율
  • 문제점: 랜덤하게 평가해도 50% agreement rate 나옴 (P(A)=P(B)=0.5일 때)
  • Cohen's Kappa: 우연에 의한 일치를 보정한 지표
    • κ = (observed - chance) / (1 - chance)
    • 양수면 우연보다 나음, 1이면 완벽한 일치

Rule-based Metrics 18:32

  • Exact Match: 정답과 정확히 일치하는지 (binary)
  • BLEU: 번역 품질 평가, n-gram precision 기반
  • METEOR: BLEU 개선, recall도 고려, 동의어/어근 매칭
  • 한계: LLM의 자유 형식 출력에는 적합하지 않음

LLM-as-a-Judge 32:19

  • 다른 LLM을 사용해 출력 품질 평가
  • Pointwise: 단일 응답에 점수 부여
  • Pairwise: 두 응답 중 더 나은 것 선택
  • 장점: Human rating 없이 시작 가능, 빠르고 저렴

LLM-as-a-Judge의 Bias 38:40

  • Position Bias: 먼저 제시된 응답 선호 → 순서 바꿔서 majority voting
  • Verbosity Bias: 길고 상세한 응답 선호 → 프롬프트에 명시, 길이 패널티
  • Self-enhancement Bias: 자기가 생성한 응답 선호 → 다른 모델을 judge로 사용

Best Practices for LLM-as-a-Judge 46:40

  • 명확한 가이드라인: 평가 기준을 구체적으로 명시
  • Binary scale 선호: Pass/Fail이 세분화된 점수보다 일관성 높음
  • Rationale before score: 점수 전에 이유를 먼저 출력하게 함 (CoT와 유사)
  • 낮은 Temperature: 0.1~0.2로 설정해 재현성 확보
  • Human rating과 calibration: 주기적으로 LLM judge와 human 평가 비교

Factuality 평가 52:15

  • 응답이 사실에 부합하는지 평가하는 것이 핵심
  • 평가 파이프라인:
    1. Text → Facts 분해 (atomic claims로 쪼갬)
    2. 각 Fact를 독립적으로 검증 (source 대비)
    3. 가중 집계 (중요도에 따라)
  • 복잡한 응답도 체계적으로 평가 가능

Agent 평가의 어려움 68:13

  • Agent는 여러 단계를 거쳐 작업 수행: Tool Prediction → Tool Call → Response Synthesis
  • 각 단계별 실패 모드가 다름

Tool Prediction Errors 68:50

  • 모델이 너무 약함: 더 강한 모델로 교체
  • Tool hallucination: 존재하지 않는 tool 호출 → horizontal instruction 개선
  • Wrong tool selection: 유사한 tool 중 잘못 선택 → API description 명확화
  • Wrong arguments: 올바른 tool이지만 잘못된 인자 → context에 필요 정보 포함

Tool Call Errors 76:25

  • Wrong response: 버그로 인한 잘못된 출력 → 코드 수정
  • No response: 응답 없음 → 항상 의미 있는 출력 반환 (빈 JSON도 OK, None은 안됨)

Response Synthesis Errors 78:53

  • Grounding 실패: tool 출력을 참조하지 못함
  • 출력 과다: 너무 많은 정보로 중요한 것 놓침 → 출력 trim
  • 비구조화된 출력: 모델이 해석하기 어려움 → structured output 사용

Agent 평가 Benchmark: τ-bench 97:30

  • Tool Agent User Simulation benchmark
  • Airline/Retail 도메인에서 policy 준수 여부 평가
  • LLM이 사용자를 시뮬레이션하여 다양한 시나리오 테스트

핵심 인사이트

  • 측정 없이 개선 없다: LLM 성능 향상의 첫 걸음은 올바른 평가 체계 구축
  • LLM-as-a-Judge는 강력하지만 bias 주의: Position, Verbosity, Self-enhancement bias 모두 완화 전략 필요
  • Binary scale + Rationale: 복잡한 점수 체계보다 단순한 Pass/Fail이 더 일관성 있음
  • Agent 평가는 단계별 분석 필수: 어디서 실패했는지 파악해야 개선 가능
  • 항상 의미 있는 출력: Tool call은 None 대신 빈 JSON이라도 반환해야 모델이 해석 가능