목록으로

Stanford CME295 Transformers & LLMs | Autumn 2025 | Lecture 2 - Transformer-Based Models & Tricks

Stanford Online AI 요약 생성: January 24, 2026

핵심 요약

Transformer 아키텍처의 실용적인 변형과 최적화 기법을 다룹니다. Position Encoding의 발전(Absolute → Relative → RoPE), Attention 효율화 기법(Sliding Window, Grouped Query Attention), 그리고 Encoder-only 모델인 BERT까지 설명합니다.

주요 개념

Positional Encoding 발전 14:30

  • Absolute (Learned): 각 위치마다 학습된 임베딩. 학습 시 본 길이까지만 적용 가능
  • Absolute (Sinusoidal): sin/cos 함수 사용. 임의 길이로 확장 가능. dot product가 상대 거리(m-n)의 함수가 됨
  • Relative Position Bias (T5): Attention 내부에서 상대 거리 기반 bias 학습
  • RoPE (Rotary Position Embedding): Query/Key에 회전 행렬 적용. 현대 LLM의 표준

Attention 효율화 54:20

  • Sliding Window Attention: 전체 O(n²) 대신 고정 윈도우 내에서만 attention. Mistral 등에서 사용
  • Receptive Field 개념: 여러 레이어 쌓으면 간접적으로 먼 토큰 정보도 접근 가능

Grouped Query Attention (GQA) 55:30

  • MHA (Multi-Head Attention): 각 head마다 Q, K, V 별도 projection matrix
  • MQA (Multi-Query Attention): Q만 head별, K/V는 모든 head가 공유
  • GQA: Q는 head별, K/V는 그룹 단위로 공유. MHA와 MQA의 중간
  • KV Cache 절약: 디코딩 시 K/V를 캐싱하는데, 공유하면 메모리 절약

Transformer 모델 분류 1:02:50

  • Encoder-Decoder (T5, mT5, ByT5): 원본 Transformer. Span Corruption 학습
  • Encoder-only (BERT): 분류 작업에 특화. Bidirectional attention
  • Decoder-only (GPT 계열): 생성 작업. 현대 LLM의 주류

BERT 아키텍처 1:27:00

  • [CLS] 토큰: 문장 전체의 representation. 분류 head 연결점
  • [SEP] 토큰: 문장 간 구분
  • Segment Embedding: 문장 A/B 구분을 위한 추가 임베딩

BERT 학습 목표 1:28:30

  • MLM (Masked Language Modeling): 15% 토큰 마스킹 (80% [MASK], 10% 랜덤, 10% 유지)
  • NSP (Next Sentence Prediction): 두 문장이 연속인지 분류
  • 양방향 컨텍스트를 학습하여 풍부한 representation 획득

BERT Fine-tuning 1:33:20

  • Pre-trained weights 위에 classification head 추가
  • 감정 분석: [CLS] 토큰 → FFN → 클래스
  • QA: 각 토큰 → FFN → 답변 시작/끝 span 예측

핵심 인사이트

  • Position Encoding은 "가까운 토큰이 더 유사해야 한다"는 직관을 수학적으로 구현
  • GQA는 성능과 효율의 균형점. K/V 공유로 KV Cache 메모리 대폭 절약
  • BERT의 [CLS] 토큰은 self-attention을 통해 전체 문맥 정보를 압축한 representation