ULMFiT — 사전학습-파인튜닝 패러다임의 원형 (Howard & Ruder, 2018)
Transformer 기반 모델들이 등장하기 직전, Jeremy Howard와 Sebastian Ruder는 ULMFiT(Universal Language Model Fine-tuning) 을 통해 “사전학습 → 파인튜닝” 패러다임을 최초로 실용적으로 입증했습니다.3단계 전이 학습 프로세스
| 단계 | 이름 | 내용 | 데이터 |
|---|---|---|---|
| 1단계 | General LM Pre-training | 대규모 일반 텍스트(Wikipedia 등)로 언어 모델 학습 | 수백만 문서 (라벨 불필요) |
| 2단계 | Target Domain Fine-tuning | 목표 도메인 텍스트로 언어 모델 추가 학습 | 도메인 문서 (라벨 불필요) |
| 3단계 | Task Fine-tuning | 실제 분류 태스크용 라벨 데이터로 최종 학습 | 소량 라벨 데이터 (100개도 가능!) |
왜 중요한가
| 기존 접근 | ULMFiT |
|---|---|
| 각 태스크마다 처음부터 모델 학습 | 사전학습 모델을 재활용— 전이 학습 |
| 대량의 라벨 데이터 필요 (수만~수십만) | 라벨 100개로도 최고 성능 달성 |
| 태스크마다 아키텍처 설계 필요 | 동일한 프로세스를 모든 텍스트 분류에 적용 |
성공 ULMFiT의 역사적 의의: ULMFiT은 컴퓨터 비전의 ImageNet 사전학습 → 파인튜닝 패러다임을 NLP에 처음으로 성공적으로 이식했습니다. 이 “사전학습 → 파인튜닝” 공식은 직후 등장한 GPT-1(2018.06)과 BERT(2018.10)에 직접적인 영감을 주었으며, 현재까지 모든 LLM의 기본 패러다임으로 자리잡았습니다.Transformer의 등장 이후, NLP는 사전학습(Pre-training) → 파인튜닝(Fine-tuning) 패러다임으로 전환됩니다. 대규모 데이터로 범용 언어 이해를 학습한 뒤, 소량의 작업별 데이터로 특화시키는 방식입니다.
Transformer 기반 모델의 세 계보
Transformer 아키텍처는 사용 목적에 따라 세 가지 구조로 분화되었습니다. 어떤 구조를 선택하느냐에 따라 모델의 강점이 완전히 달라집니다.| 계보 | 구조 | 대표 모델 | 학습 목표 | 강점 |
|---|---|---|---|---|
| Encoder-only | Encoder만 사용 | BERT, RoBERTa | 마스킹된 단어 예측 (MLM) | 텍스트 이해, 분류, NER |
| Decoder-only | Decoder만 사용 | GPT 시리즈, Llama, Claude | 다음 토큰 예측 (CLM) | 텍스트 생성, 대화, 코드 |
| Encoder-Decoder | 둘 다 사용 | T5, BART | 손상된 텍스트 복원 | 번역, 요약, Q&A |
주요 이정표
2018년 이후 사전학습 시대를 연 핵심 모델들의 연대기입니다. 각 모델이 이전 모델의 어떤 한계 를 극복했는지에 주목하세요.| 모델 | 연도 | 개발사 | 파라미터 | 핵심 기여 |
|---|---|---|---|---|
| ELMo | 2018.02 | Allen AI | 94M | 문맥 의존 임베딩 (양방향 LSTM 기반) |
| ULMFiT | 2018.01 | fast.ai | - | 사전학습→파인튜닝 패러다임 최초 실용화. 라벨 100개로 SOTA |
| GPT-1 | 2018.06 | OpenAI | 117M | Transformer Decoder + 사전학습 |
| BERT | 2018.10 | 340M | 양방향 Transformer Encoder + MLM | |
| GPT-2 | 2019.02 | OpenAI | 1.5B | 스케일링의 힘 입증, Zero-shot 가능성 |
| T5 | 2019.10 | 11B | 모든 NLP를 Text-to-Text로 통일 | |
| GPT-3 | 2020.06 | OpenAI | 175B | Few-shot 학습, 프롬프트 엔지니어링 시대 개막 |
| ChatGPT | 2022.11 | OpenAI | - | RLHF, 대화형 AI 대중화 |
| GPT-4 | 2023.03 | OpenAI | 비공개 (MoE) | 멀티모달, 추론 능력 대폭 향상 |
참고 ELMo의 중요성: Word2Vec의 “하나의 단어 = 하나의 벡터” 한계를 깨고, 같은 단어라도 문맥에 따라 다른 벡터 를 생성한 최초의 모델입니다. 다만 LSTM 기반이라 느렸고, BERT가 Transformer로 이를 계승하면서 대체되었습니다.
스케일링 법칙과 대형 모델 경쟁
2020년 OpenAI의 Kaplan et al.은 스케일링 법칙(Scaling Laws) 을 발견합니다. 모델의 성능(손실 함수 값)이 모델 크기, 데이터 양, 컴퓨팅 자원 에 대해 예측 가능한 거듭제곱 법칙(power law) 을 따른다는 것입니다.스케일링 법칙이 가져온 변화
| 이전 | 이후 |
|---|---|
| ”더 큰 모델이 좋을까?”는 실험해봐야 알았음 | 수학적으로 예측 가능— 투자 대비 성능 향상을 사전 계산 |
| 모델 크기를 보수적으로 결정 | ”더 크게, 더 많이”가 이론적으로 정당화 → GPT-3(175B), PaLM(540B) |
| 연구자 개인의 아키텍처 창의성이 핵심 | 컴퓨팅 자원 확보 가 경쟁력의 핵심으로 변화 |
주의 Chinchilla의 반론 (Hoffmann et al., Google DeepMind, 2022): 스케일링 법칙이 “무조건 크게”를 의미하지는 않습니다. Chinchilla 연구는 모델 크기와 학습 데이터 양의 균형 이 중요하다는 것을 보여주었습니다. 70B 파라미터 모델이 1.4T 토큰으로 학습했을 때, 280B 파라미터 모델(Gopher)보다 더 좋은 성능을 달성했습니다. 핵심 교훈: 데이터 효율성 도 스케일링의 중요한 축입니다.
RLHF: LLM을 “유용하게” 만드는 기술
사전학습만으로는 LLM이 “텍스트를 잘 이어쓰는 엔진”에 불과합니다. “수도가 어디인가요?”라고 물으면, 답 대신 비슷한 질문을 더 생성할 수도 있습니다. 사전학습 모델을 유용한 어시스턴트로 전환 한 것이 RLHF(Reinforcement Learning from Human Feedback)입니다.3단계 파이프라인
| 단계 | 이름 | 내용 | 비유 |
|---|---|---|---|
| 1단계 | 사전학습 (Pre-training) | 인터넷 텍스트 수조 토큰으로 다음 단어 예측 학습 | 백과사전을 통째로 읽은 학생 |
| 2단계 | SFT (Supervised Fine-Tuning) | 인간이 작성한 (질문, 모범 답변) 쌍으로 미세 조정 | 선생님이 “이런 식으로 답하라”고 교육 |
| 3단계 | RLHF | 인간 선호도를 학습한 보상 모델로 PPO 강화학습 | 학생의 답을 채점하고 더 나은 답을 유도 |
RLHF 상세 과정
InstructGPT → ChatGPT
RLHF가 적용된 두 모델은 AI 역사의 전환점이 되었습니다. 특히 InstructGPT는 작은 모델이 큰 모델보다 사용자 선호도에서 앞설 수 있음 을 입증했습니다.| 모델 | 연도 | 핵심 |
|---|---|---|
| InstructGPT | 2022.01 | RLHF를 GPT-3에 적용한 최초 논문. 1.3B InstructGPT가 175B GPT-3보다 인간이 선호하는 답변 생성 |
| ChatGPT | 2022.11 | InstructGPT 기법을 GPT-3.5에 적용 + 대화형 인터페이스 → AI 대중화 |
성공 RLHF의 핵심 의의: 모델 크기를 키우는 것(스케일링)이 “똑똑함”을 개선했다면, RLHF는 “유용함”과 “안전함”을 개선했습니다. 이 두 축의 결합이 ChatGPT 모먼트를 만들었습니다.
참고 DPO (Direct Preference Optimization): RLHF의 보상 모델 학습 + PPO 단계가 복잡하고 불안정하다는 문제를 해결하기 위해, Rafailov et al. (2023)이 제안한 방법입니다. 보상 모델 없이 인간 선호도 데이터로 직접 LLM을 최적화 합니다. 수학적으로 RLHF와 동등하면서 구현이 훨씬 간단합니다. Meta의 Llama 2, Anthropic의 Claude 등 최신 모델에서 널리 채택되고 있습니다.