목록으로

Stanford CME295 Transformers & LLMs | Autumn 2025 | Lecture 3 - Transformers & Large Language Models

Stanford Online AI 요약 생성: January 24, 2026

핵심 요약

Large Language Model(LLM)의 정의와 Decoder-only 아키텍처, Mixture of Experts(MoE)를 통한 확장, Temperature를 통한 출력 제어, 다양한 Prompting 기법, 그리고 KV Cache와 PagedAttention을 통한 추론 효율화를 다룹니다.

주요 개념

LLM의 정의 3:30

  • Language Model: 토큰 시퀀스에 확률을 부여하는 모델
  • Large의 의미: 모델 크기(수십~수백B 파라미터), 학습 데이터(수조 토큰), 컴퓨팅 자원
  • 현대 LLM: Decoder-only 아키텍처가 90% 이상. GPT, Llama, Gemma, DeepSeek, Mistral, Qwen 등
  • BERT는 텍스트를 생성하지 않으므로 현대적 정의의 LLM이 아님

Mixture of Experts (MoE) 7:30

  • 동기: 모든 파라미터를 매번 활성화할 필요가 있을까? 수학 질문에 역사학자가 필요한가?
  • 구조: n개의 Expert 네트워크 + Router(Gate)가 입력에 따라 적합한 Expert 선택
  • Dense vs Sparse MoE: Dense는 모든 Expert 가중합, Sparse는 Top-K Expert만 활성화 (보통 K=1~2)
  • Expert 위치: FFN 레이어에 적용 (파라미터가 가장 많은 부분, d_model × d_ff × 2)
  • 토큰 레벨 라우팅: 각 토큰마다 독립적으로 Expert 선택

MoE 학습의 도전과제 18:00

  • Routing Collapse: Router가 특정 Expert만 계속 선택하는 문제
  • Load Balancing Loss: f(i) × P(i)의 합을 최소화하여 Expert 사용을 균등하게 유도
    • f(i): Expert i로 라우팅된 토큰 비율
    • P(i): Expert i의 평균 라우팅 확률
  • 장점: 파라미터는 늘리되 활성 파라미터(Active Parameters)는 제한하여 추론 비용 절감

Temperature와 Sampling 48:00

  • Softmax with Temperature: P(i) = exp(x_i/T) / Σexp(x_j/T)
  • Low Temperature (→0): Spiky 분포, 가장 높은 확률 토큰만 선택 (deterministic)
  • High Temperature (→∞): Uniform 분포에 가까워짐, 다양하고 창의적인 출력
  • Top-K Sampling: 상위 K개 토큰에서만 샘플링
  • Top-P (Nucleus) Sampling: 누적 확률이 P를 넘는 최소 토큰 집합에서 샘플링
  • 비결정성의 유일한 원인: Transformer 내부는 모두 deterministic, 샘플링만 확률적

Prompting 기법 1:15:00

  • Zero-shot: 예시 없이 태스크 설명만으로 수행
  • Few-shot (In-Context Learning): 입력-출력 예시를 컨텍스트에 포함
  • Chain-of-Thought (CoT): 답 도출 과정의 추론을 함께 생성하도록 유도. 디버깅에도 유용
  • Self-Consistency: 여러 번 샘플링 후 다수결로 최종 답 선택 (병렬 처리 가능)
  • Context Rot: 컨텍스트가 길어질수록 정보 검색 능력 저하 (Needle in a Haystack 실험)

KV Cache 1:25:00

  • 목적: 이전 토큰의 Key, Value 계산 결과를 저장하여 재계산 방지
  • 원리: 현재 토큰의 Query만 새로 계산, K/V는 캐시에서 가져와 Attention 수행
  • GQA와 연계: Grouped Query Attention으로 K/V 헤드 수를 줄여 캐시 크기 감소
  • 학습 시에는 불필요: Teacher Forcing으로 전체 시퀀스를 한 번에 처리

PagedAttention (vLLM) 1:32:00

  • 문제: 최대 컨텍스트 길이만큼 메모리를 미리 예약하면 낭비 발생 (Internal Fragmentation)
  • 해결: KV Cache를 고정 크기 블록(예: 16토큰)으로 나누어 동적 할당
  • 효과: 메모리 단편화 감소, 더 많은 요청 동시 처리 가능
  • 구현: vLLM 추론 엔진에서 사용

핵심 인사이트

  • MoE는 '용량은 크게, 비용은 작게'를 실현하는 핵심 기술. Switch Transformer는 1조 파라미터 달성
  • Temperature는 창의성 vs 정확성의 트레이드오프를 조절하는 핵심 하이퍼파라미터
  • Chain-of-Thought는 성능 향상뿐 아니라 모델의 추론 과정을 해석 가능하게 만듦
  • KV Cache + GQA + PagedAttention의 조합이 현대 LLM 추론 효율화의 핵심