Skip to main content

ULMFiT — 사전학습-파인튜닝 패러다임의 원형 (Howard & Ruder, 2018)

Transformer 기반 모델들이 등장하기 직전, Jeremy Howard와 Sebastian Ruder는 ULMFiT(Universal Language Model Fine-tuning) 을 통해 “사전학습 → 파인튜닝” 패러다임을 최초로 실용적으로 입증했습니다.

3단계 전이 학습 프로세스

단계이름내용데이터
1단계General LM Pre-training대규모 일반 텍스트(Wikipedia 등)로 언어 모델 학습수백만 문서 (라벨 불필요)
2단계Target Domain Fine-tuning목표 도메인 텍스트로 언어 모델 추가 학습도메인 문서 (라벨 불필요)
3단계Task Fine-tuning실제 분류 태스크용 라벨 데이터로 최종 학습소량 라벨 데이터 (100개도 가능!)
1단계: Wikipedia로 "영어란 이런 것" 학습 (범용 언어 이해)

2단계: IMDb 영화 리뷰 텍스트로 "리뷰란 이런 것" 추가 학습 (도메인 적응)

3단계: "긍정/부정" 라벨 100개로 감성 분류 학습 → 기존 최고 성능 달성!

왜 중요한가

기존 접근ULMFiT
각 태스크마다 처음부터 모델 학습사전학습 모델을 재활용— 전이 학습
대량의 라벨 데이터 필요 (수만~수십만)라벨 100개로도 최고 성능 달성
태스크마다 아키텍처 설계 필요동일한 프로세스를 모든 텍스트 분류에 적용
성공 ULMFiT의 역사적 의의: ULMFiT은 컴퓨터 비전의 ImageNet 사전학습 → 파인튜닝 패러다임을 NLP에 처음으로 성공적으로 이식했습니다. 이 “사전학습 → 파인튜닝” 공식은 직후 등장한 GPT-1(2018.06)과 BERT(2018.10)에 직접적인 영감을 주었으며, 현재까지 모든 LLM의 기본 패러다임으로 자리잡았습니다.
Transformer의 등장 이후, NLP는 사전학습(Pre-training) → 파인튜닝(Fine-tuning) 패러다임으로 전환됩니다. 대규모 데이터로 범용 언어 이해를 학습한 뒤, 소량의 작업별 데이터로 특화시키는 방식입니다.

Transformer 기반 모델의 세 계보

Transformer 아키텍처는 사용 목적에 따라 세 가지 구조로 분화되었습니다. 어떤 구조를 선택하느냐에 따라 모델의 강점이 완전히 달라집니다.
계보구조대표 모델학습 목표강점
Encoder-onlyEncoder만 사용BERT, RoBERTa마스킹된 단어 예측 (MLM)텍스트 이해, 분류, NER
Decoder-onlyDecoder만 사용GPT 시리즈, Llama, Claude다음 토큰 예측 (CLM)텍스트 생성, 대화, 코드
Encoder-Decoder둘 다 사용T5, BART손상된 텍스트 복원번역, 요약, Q&A

주요 이정표

2018년 이후 사전학습 시대를 연 핵심 모델들의 연대기입니다. 각 모델이 이전 모델의 어떤 한계 를 극복했는지에 주목하세요.
모델연도개발사파라미터핵심 기여
ELMo2018.02Allen AI94M문맥 의존 임베딩 (양방향 LSTM 기반)
ULMFiT2018.01fast.ai-사전학습→파인튜닝 패러다임 최초 실용화. 라벨 100개로 SOTA
GPT-12018.06OpenAI117MTransformer Decoder + 사전학습
BERT2018.10Google340M양방향 Transformer Encoder + MLM
GPT-22019.02OpenAI1.5B스케일링의 힘 입증, Zero-shot 가능성
T52019.10Google11B모든 NLP를 Text-to-Text로 통일
GPT-32020.06OpenAI175BFew-shot 학습, 프롬프트 엔지니어링 시대 개막
ChatGPT2022.11OpenAI-RLHF, 대화형 AI 대중화
GPT-42023.03OpenAI비공개 (MoE)멀티모달, 추론 능력 대폭 향상
참고 ELMo의 중요성: Word2Vec의 “하나의 단어 = 하나의 벡터” 한계를 깨고, 같은 단어라도 문맥에 따라 다른 벡터 를 생성한 최초의 모델입니다. 다만 LSTM 기반이라 느렸고, BERT가 Transformer로 이를 계승하면서 대체되었습니다.

스케일링 법칙과 대형 모델 경쟁

2020년 OpenAI의 Kaplan et al.은 스케일링 법칙(Scaling Laws) 을 발견합니다. 모델의 성능(손실 함수 값)이 모델 크기, 데이터 양, 컴퓨팅 자원 에 대해 예측 가능한 거듭제곱 법칙(power law) 을 따른다는 것입니다.
Loss ∝ N^(-α)

N = 모델 파라미터 수
α ≈ 0.076 (경험적 상수)

즉, 파라미터를 10배 늘리면 → 손실이 일정하게 감소
    파라미터를 100배 늘리면 → 더 감소
    ... 예측 가능한 개선!

스케일링 법칙이 가져온 변화

이전이후
”더 큰 모델이 좋을까?”는 실험해봐야 알았음수학적으로 예측 가능— 투자 대비 성능 향상을 사전 계산
모델 크기를 보수적으로 결정”더 크게, 더 많이”가 이론적으로 정당화 → GPT-3(175B), PaLM(540B)
연구자 개인의 아키텍처 창의성이 핵심컴퓨팅 자원 확보 가 경쟁력의 핵심으로 변화
주의 Chinchilla의 반론 (Hoffmann et al., Google DeepMind, 2022): 스케일링 법칙이 “무조건 크게”를 의미하지는 않습니다. Chinchilla 연구는 모델 크기와 학습 데이터 양의 균형 이 중요하다는 것을 보여주었습니다. 70B 파라미터 모델이 1.4T 토큰으로 학습했을 때, 280B 파라미터 모델(Gopher)보다 더 좋은 성능을 달성했습니다. 핵심 교훈: 데이터 효율성 도 스케일링의 중요한 축입니다.

RLHF: LLM을 “유용하게” 만드는 기술

사전학습만으로는 LLM이 “텍스트를 잘 이어쓰는 엔진”에 불과합니다. “수도가 어디인가요?”라고 물으면, 답 대신 비슷한 질문을 더 생성할 수도 있습니다. 사전학습 모델을 유용한 어시스턴트로 전환 한 것이 RLHF(Reinforcement Learning from Human Feedback)입니다.

3단계 파이프라인

단계이름내용비유
1단계사전학습 (Pre-training)인터넷 텍스트 수조 토큰으로 다음 단어 예측 학습백과사전을 통째로 읽은 학생
2단계SFT (Supervised Fine-Tuning)인간이 작성한 (질문, 모범 답변) 쌍으로 미세 조정선생님이 “이런 식으로 답하라”고 교육
3단계RLHF인간 선호도를 학습한 보상 모델로 PPO 강화학습학생의 답을 채점하고 더 나은 답을 유도

RLHF 상세 과정

1. 보상 모델 학습:
   질문: "한국의 수도는?"
   답변 A: "서울입니다. 대한민국의 수도로, 한강이 도시를 관통합니다."
   답변 B: "한국 수도 서울 부산 대구 인천..."
   인간 평가: A > B → 보상 모델이 A에 높은 점수를 주도록 학습

2. PPO 강화학습:
   LLM이 답변 생성 → 보상 모델이 점수 산출 → 높은 점수를 받는 방향으로 LLM 업데이트

InstructGPT → ChatGPT

RLHF가 적용된 두 모델은 AI 역사의 전환점이 되었습니다. 특히 InstructGPT는 작은 모델이 큰 모델보다 사용자 선호도에서 앞설 수 있음 을 입증했습니다.
모델연도핵심
InstructGPT2022.01RLHF를 GPT-3에 적용한 최초 논문. 1.3B InstructGPT가 175B GPT-3보다 인간이 선호하는 답변 생성
ChatGPT2022.11InstructGPT 기법을 GPT-3.5에 적용 + 대화형 인터페이스 → AI 대중화
성공 RLHF의 핵심 의의: 모델 크기를 키우는 것(스케일링)이 “똑똑함”을 개선했다면, RLHF는 “유용함”과 “안전함”을 개선했습니다. 이 두 축의 결합이 ChatGPT 모먼트를 만들었습니다.
참고 DPO (Direct Preference Optimization): RLHF의 보상 모델 학습 + PPO 단계가 복잡하고 불안정하다는 문제를 해결하기 위해, Rafailov et al. (2023)이 제안한 방법입니다. 보상 모델 없이 인간 선호도 데이터로 직접 LLM을 최적화 합니다. 수학적으로 RLHF와 동등하면서 구현이 훨씬 간단합니다. Meta의 Llama 2, Anthropic의 Claude 등 최신 모델에서 널리 채택되고 있습니다.