참고 학습 목표
- Transformer 이전 NLP 기술의 발전 흐름과 각 단계의 핵심 돌파구를 설명할 수 있다
- 각 모델의 등장 배경, 해결한 문제, 남은 한계를 구분할 수 있다
- 현대 LLM이 왜 Transformer 기반인지 역사적 맥락에서 이해한다
- 고객에게 “AI가 어떻게 여기까지 왔는지”를 체계적으로 설명할 수 있다
왜 NLP가 AI에서 가장 어려운 문제인가?
Transformer와 LLM의 발전사를 이해하기 전에, 왜 자연어 처리가 이미지 인식이나 게임 AI보다 훨씬 어려운 문제인지 먼저 짚어야 합니다. 이 어려움을 이해해야 각 기술이 “왜” 등장했는지가 체감됩니다.자연어의 본질적 어려움
1. 모호성 (Ambiguity)
자연어는 모든 층위에서 모호합니다. 같은 문장이 완전히 다른 의미를 가질 수 있습니다.| 모호성 유형 | 예시 | 문제 |
|---|---|---|
| 어휘적 모호성 | ”배가 아프다” | 과일? 선박? 신체 부위? |
| 구문적 모호성 | ”예쁜 소녀의 가방” | 소녀가 예쁜가, 가방이 예쁜가? |
| 화용적 모호성 | ”여기 좀 춥지 않아?” | 정보 요청? 창문 닫아달라는 간접 요청? |
| 참조 모호성 | ”철수가 영희에게 그의 책을 줬다" | "그”는 철수? 제3의 인물? |
2. 문맥 의존성 (Context Dependency)
단어 하나의 의미가 주변 수십, 수백 단어에 의해 결정됩니다.3. 세계 지식 (World Knowledge)
자연어 이해에는 “언어 밖의 지식”이 필요합니다.4. 상식 추론 (Common Sense Reasoning)
비유: 외국인이 한국어를 배우는 과정
NLP의 발전사를 한 문장으로 요약하면, 컴퓨터가 인간의 언어 학습 과정을 재현해 온 역사 입니다.| 인간의 언어 학습 단계 | NLP 기술 발전 | 해당 시기 |
|---|---|---|
| 문법책으로 규칙을 외운다 | 규칙 기반 NLP— if-then 규칙으로 언어 처리 | 1950~1990 |
| 원어민 대화를 많이 들으며 패턴을 파악한다 | 통계적 NLP— 데이터에서 출현 빈도와 패턴 학습 | 1990~2000 |
| 단어의 뉘앙스와 감정을 “느끼기” 시작한다 | 단어 임베딩— 단어를 의미 공간의 벡터로 표현 | 2003~2014 |
| 앞뒤 문맥을 기억하며 대화한다 | RNN/LSTM— 순차적으로 문맥을 기억 | 2014~2017 |
| 문장 전체를 한 번에 파악하고, 핵심을 즉시 짚는다 | Transformer— 병렬로 모든 관계를 동시에 파악 | 2017~ |
| 방대한 독서와 경험으로 어떤 주제든 대화할 수 있다 | 사전학습 LLM— 수조 토큰으로 범용 지식 학습 | 2018~ |
참고 핵심 통찰: NLP가 어려운 이유는 “언어가 복잡해서”가 아니라, 언어가 세상의 복잡성을 반영하기 때문 입니다. 언어를 이해한다는 것은 곧 세상을 이해한다는 것이며, 이것이 NLP가 AI의 궁극적 도전인 이유입니다. 현대 LLM이 놀라운 것은, 순수하게 텍스트만 읽고도 세상에 대한 상당한 이해를 획득했다는 점입니다.
한눈에 보는 NLP 발전 타임라인
| 시기 | 패러다임 | 대표 기술 | 핵심 돌파구 | 치명적 한계 |
|---|---|---|---|---|
| 1950~1990 | 규칙 기반 | ELIZA, 전문가 시스템 | 구조화된 언어 처리 | 규칙 수작업, 확장 불가 |
| 1990~2000 | 통계적 NLP | N-gram, HMM, TF-IDF | 데이터에서 패턴 학습 | 의미 이해 불가, 희소성 |
| 2003 | 신경망 언어 모델 | NNLM (Bengio) | 단어를 벡터로 표현 | 학습 속도 느림 |
| 2013~2014 | 분산 표현 | Word2Vec, GloVe | 효율적 단어 임베딩 | 다의어 처리 불가 |
| 2014~2015 | 시퀀스 모델링 | RNN, LSTM, GRU | 가변 길이 시퀀스 처리 | 장거리 의존성, 병렬화 불가 |
| 2014 | 시퀀스-투-시퀀스 | Seq2Seq | 입출력 길이 독립적 | 고정 길이 벡터 병목 |
| 2015 | 어텐션 메커니즘 | Bahdanau Attention | 입력 전체를 동적 참조 | 여전히 순차 처리 |
| 2017 | Transformer | Self-Attention | 완전 병렬화 + 장거리 의존성 해결 | 계산량 O(N²) |
| 2018~ | 사전학습 시대 | BERT, GPT, T5 | 범용 언어 이해/생성 | 대규모 컴퓨팅 필요 |
서브 페이지
| 페이지 | 내용 |
|---|---|
| 규칙 기반 + 통계적 NLP | 규칙 기반 NLP (1950 |
| 단어 임베딩 혁명 | 단어 임베딩 (2003~2014) — NNLM, Word2Vec, GloVe, BPE |
| 순환 신경망 시대 | RNN, LSTM, GRU, TextCNN (2014~2017) |
| Seq2Seq, Attention, Transformer | 정보 병목 해결, Bahdanau Attention, Self-Attention, Transformer 탄생 (2014~2017) |
| 사전학습 시대 | ULMFiT, BERT, GPT, Scaling Laws, RLHF, 세 계보 (2018~) |
| 전체 흐름 요약 + 인사이트 | 기술 발전 패턴(S-curve), 미해결 과제, 고객 FAQ, 연습문제, 참고자료 |