전체 발전 흐름 요약
각 기술이 이전 기술의 어떤 한계 를 극복하며 등장했는지를 정리합니다:| 단계 | 기술 | 극복한 한계 |
|---|---|---|
| 1 | 규칙 기반 NLP | — (출발점) |
| 2 | 통계적 NLP(N-gram, TF-IDF, HMM) | 규칙 수작업, 확장 불가 |
| 3 | 단어 임베딩(Word2Vec, GloVe) | 의미 이해 불가, 단어를 이산 기호로 취급 |
| 4 | RNN / LSTM / GRU | 다의어 처리 불가, 문맥 무시 |
| 5 | Seq2Seq + Attention | 순차 처리 → 느림, 장거리 의존성 여전히 부족 |
| 6 | Transformer(2017) — “Attention만으로 충분하다” | 여전히 RNN에 의존, 순차 처리 → 완전 병렬화 + 장거리 의존성 해결 |
| 7 | 사전학습 LLM(BERT → GPT → Claude/Llama/…) | 대규모 사전학습 → 범용 언어 이해/생성 |
| 8 | 현재: Agent, MCP, Multi-Modal, Reasoning 모델 | 정적 지식, 도구 사용, 멀티모달 이해 |
기술 발전의 패턴: 전문가의 통찰
NLP의 역사를 관통하는 구조적 패턴 이 있습니다. 이 패턴을 이해하면 과거를 설명할 수 있을 뿐 아니라, 미래의 방향도 예측할 수 있습니다.기술은 선형이 아니라 S-curve로 발전한다
각 패러다임은 등장 초기에 빠르게 성장하다가, 근본적 한계에 부딪히며 성장이 정체됩니다. 그 정체 지점에서 완전히 새로운 패러다임이 등장합니다. S-curve 발전 패턴(시간 → 성능):| 시기 | 패러다임 | 상태 |
|---|---|---|
| 1960~1980 | 규칙 기반 NLP | 급성장 → 포화 |
| 1980~2010 | 통계적 NLP | 급성장 → 포화 |
| 2010~현재 | 딥러닝 / Transformer | 현재 급성장 중 |
각 패러다임은 등장 초기에 빠르게 성장하다가, 근본적 한계에 부딪히며 성장이 정체됩니다. 그 정체 지점에서 완전히 새로운 패러다임이 등장합니다.각 S-curve의 포화점이 바로 다음 혁신의 시작점입니다:
| 패러다임 | 포화 원인 | 다음 혁신의 트리거 |
|---|---|---|
| 규칙 기반 | 규칙 수만 개 → 관리 불가, 예외가 규칙보다 많음 | ”데이터에서 자동으로 학습하자” → 통계적 NLP |
| 통계적 NLP | 의미를 이해하지 못함, 고차원 희소성 | ”단어를 의미 공간에 배치하자” → 단어 임베딩 |
| RNN/LSTM | 순차 처리 → 느림, 장거리 의존성 한계 | ”모든 관계를 동시에 계산하자” → Transformer |
”모든 혁신은 이전 혁신의 한계에서 시작된다”
NLP 역사에서 가장 일관된 패턴은, 각 기술이 직전 기술의 구체적 한계를 해결하기 위해 등장했다 는 것입니다.현재 Transformer의 한계와 미래 후보들
Transformer는 위대한 아키텍처이지만, 영원하지 않을 수 있습니다. 이미 Transformer의 한계를 극복하려는 연구가 활발합니다.| 한계 | 설명 | 미래 후보 기술 |
|---|---|---|
| O(N^2) 계산 복잡도 | 컨텍스트 100K → 100억 번의 Attention 연산. 1M 토큰은 현실적으로 매우 비쌈 | Linear Attention, Ring Attention— O(N)으로 축소 시도 |
| 메모리 비효율 | KV Cache가 컨텍스트 길이에 비례하여 증가 → 긴 문맥에서 GPU 메모리 폭발 | State Space Models (Mamba)— 고정 크기 상태로 무한 컨텍스트 처리 |
| 추론 비용 | 토큰 하나 생성할 때마다 전체 모델을 통과 — 175B 모델의 추론 비용이 막대 | Mixture of Experts (MoE)— 전체 파라미터 중 일부만 활성화 (이미 GPT-4, Mixtral에 도입) |
| 정적 지식 | 학습 이후 새로운 정보 반영 불가. 재학습은 비용이 엄청남 | RAG, Continual Learning, Tool Use |
주목할 차세대 아키텍처
State Space Models (Mamba, Gu & Dao, 2023): RNN의 “순차 처리”와 Transformer의 “병렬 학습”의 장점을 결합하려는 시도입니다. 학습 시에는 병렬로, 추론 시에는 고정 크기 상태(state)로 처리하여 컨텍스트 길이에 관계없이 일정한 메모리를 사용합니다. RWKV (Peng et al., 2023): “Receptance Weighted Key Value” — Transformer 수준의 성능을 RNN의 효율성으로 달성하려는 하이브리드 모델입니다. 오픈소스 커뮤니티에서 활발히 개발 중입니다. Mixture of Experts (MoE): 이미 GPT-4와 Mixtral에 도입된 기술입니다. 전체 파라미터가 수조 개여도, 각 토큰 처리 시 일부 전문가(Expert) 네트워크만 활성화 합니다. 이를 통해 모델 용량은 크지만 실제 연산량은 적게 유지할 수 있습니다.주의 Transformer가 영원하지 않을 수 있다: CNN이 이미지 처리의 왕좌를 10년간 지키다가 Vision Transformer에 도전받은 것처럼, Transformer도 언젠가 더 효율적인 아키텍처에 자리를 내줄 수 있습니다. 다만 현재로서는 Transformer를 완전히 대체할 기술은 아직 없으며, 하이브리드 접근(Transformer + Mamba 등)이 현실적 방향으로 보입니다. 중요한 것은 특정 기술에 집착하는 것이 아니라, 기술이 해결하는 문제와 남기는 한계 를 이해하는 것입니다.
현재 기술의 미해결 과제
Transformer와 LLM이 혁명적이지만, 아직 해결되지 않은 문제들이 있습니다:| 과제 | 설명 | 연구 방향 |
|---|---|---|
| O(N²) 계산 복잡도 | 컨텍스트 윈도우가 2배 → 계산 4배 | Linear Attention, Ring Attention, Sparse Attention |
| Hallucination | 학습 패턴 기반 생성 → 사실과 다른 내용 | RAG, Grounding, Fact-checking |
| 추론 (Reasoning) | 복잡한 논리적 사고에 여전히 취약 | Chain-of-Thought, o1/R1 추론 모델 |
| 지식 업데이트 | 학습 이후 새로운 정보 반영 불가 | RAG, Continual Learning |
| 다국어 편향 | 영어 중심 학습 → 한국어 등 성능 격차 | 다국어 사전학습, 한국어 특화 모델 |
| 비용 | 대규모 모델의 학습/추론 비용 | MoE, 양자화(Quantization), 증류(Distillation) |
고객이 자주 묻는 질문
참고 Q: “AI가 갑자기 나타난 건가요?”아닙니다. AI와 NLP는 70년 이상의 역사 를 가지고 있습니다. 1950년대 규칙 기반 시스템 → 1990년대 통계적 NLP → 2013년 Word2Vec → 2017년 Transformer → 2022년 ChatGPT로 이어지는 긴 축적의 결과입니다. ChatGPT가 “갑자기” 나타난 것이 아니라, 수십 년간의 연구가 임계점을 넘은 것입니다.
참고 Q: “왜 지금 갑자기 AI가 핵심이 됐나요?”세 가지가 동시에 맞아떨어졌기 때문입니다:
| 요소 | 시기 | 기여 |
|---|---|---|
| Transformer 아키텍처 | 2017 | 완전 병렬화로 대규모 학습 가능 |
| 스케일링 법칙 | 2020 | ”더 크게 만들면 더 좋아진다”의 이론적 근거 |
| RLHF | 2022 | 텍스트 생성 엔진을 “유용한 어시스턴트”로 전환 |
주의 Q: “한국어 AI가 영어보다 성능이 낮은 이유는?”두 가지 핵심 원인이 있습니다:
-
학습 데이터 편향: 대부분의 LLM 사전학습 데이터에서 영어가 80
90%를 차지합니다. 한국어 데이터는 전체의 13%에 불과합니다. 모델은 많이 본 언어를 더 잘 이해합니다. -
토큰화 효율성: BPE 토크나이저는 영어 위주로 학습되어, 영어 “Hello”는 1토큰인 반면 “안녕하세요”는 3~5토큰으로 분절됩니다. 같은 의미를 전달하는 데 더 많은 토큰이 필요하면:
- 동일 컨텍스트 윈도우에 더 적은 내용이 들어감
- 추론 비용이 더 높아짐
- 토큰 간 의미 연결이 어려워짐
연습 문제
- 통계적 NLP에서 N-gram 모델의 “데이터 희소성” 문제가 무엇이며, Word2Vec은 이를 어떻게 해결했나요?
- LSTM의 세 가지 게이트(Forget, Input, Output)의 역할을 “도서관 사서”에 비유하여 설명하세요.
- Seq2Seq 모델의 “정보 병목” 문제가 무엇이며, Attention이 이를 어떻게 해결했나요?
- Word2Vec에서
king - man + woman ≈ queen이 가능한 이유를 설명하세요. - Transformer가 RNN/LSTM을 대체한 핵심 이유 두 가지를 학습 속도와 성능 관점에서 설명하세요.
- “배가 고프다”와 “배를 타고 갔다”에서 “배”를 다르게 처리할 수 있는 최초의 모델은 무엇이며, 이후 어떤 모델로 발전했나요?
- Transformer가 아닌 다음 아키텍처가 등장한다면, 어떤 한계를 해결해야 하는가? O(N^2) 복잡도 외에 다른 한계를 3가지 제시하고, 각각의 해결이 왜 중요한지 설명하세요.
- Word2Vec, ELMo, BERT는 모두 “단어 표현”을 다루지만 근본적으로 다릅니다. 3개 모델의 핵심 차이를 “같은 단어, 다른 의미” 관점에서 비교하세요. (예: “배가 고프다”와 “배를 타다”에서 “배”를 각 모델이 어떻게 처리하는가)
- ChatGPT의 성공에서 “기술”보다 “제품”이 더 중요한 역할을 했다는 주장이 있습니다. GPT-3(2020)와 ChatGPT(2022)의 기술적 차이는 크지 않지만 임팩트는 완전히 달랐습니다. 그 이유를 RLHF와 사용자 인터페이스 관점에서 분석하세요.
참고 자료
- Bengio et al., “A Neural Probabilistic Language Model” (2003)
- Mikolov et al., “Efficient Estimation of Word Representations in Vector Space” (2013) — Word2Vec
- Pennington et al., “GloVe: Global Vectors for Word Representation” (2014)
- Hochreiter & Schmidhuber, “Long Short-Term Memory” (1997) — LSTM
- Cho et al., “Learning Phrase Representations using RNN Encoder-Decoder” (2014) — GRU
- Sutskever et al., “Sequence to Sequence Learning with Neural Networks” (2014) — Seq2Seq
- Bahdanau et al., “Neural Machine Translation by Jointly Learning to Align and Translate” (2015) — Attention
- Vaswani et al., “Attention Is All You Need” (2017) — Transformer
- Devlin et al., “BERT: Pre-training of Deep Bidirectional Transformers” (2018)
- Peters et al., “Deep contextualized word representations” (2018) — ELMo
- Kim, “Convolutional Neural Networks for Sentence Classification” (2014) — TextCNN
- Sennrich et al., “Neural Machine Translation of Rare Words with Subword Units” (2016) — BPE
- Howard & Ruder, “Universal Language Model Fine-tuning for Text Classification” (2018) — ULMFiT
- Kaplan et al., “Scaling Laws for Neural Language Models” (2020) — Scaling Laws
- Hoffmann et al., “Training Compute-Optimal Large Language Models” (2022) — Chinchilla
- Ouyang et al., “Training language models to follow instructions with human feedback” (2022) — InstructGPT / RLHF
- Rafailov et al., “Direct Preference Optimization” (2023) — DPO