Skip to main content

전체 발전 흐름 요약

각 기술이 이전 기술의 어떤 한계 를 극복하며 등장했는지를 정리합니다:
단계기술극복한 한계
1규칙 기반 NLP— (출발점)
2통계적 NLP(N-gram, TF-IDF, HMM)규칙 수작업, 확장 불가
3단어 임베딩(Word2Vec, GloVe)의미 이해 불가, 단어를 이산 기호로 취급
4RNN / LSTM / GRU다의어 처리 불가, 문맥 무시
5Seq2Seq + Attention순차 처리 → 느림, 장거리 의존성 여전히 부족
6Transformer(2017) — “Attention만으로 충분하다”여전히 RNN에 의존, 순차 처리 → 완전 병렬화 + 장거리 의존성 해결
7사전학습 LLM(BERT → GPT → Claude/Llama/…)대규모 사전학습 → 범용 언어 이해/생성
8현재: Agent, MCP, Multi-Modal, Reasoning 모델정적 지식, 도구 사용, 멀티모달 이해

기술 발전의 패턴: 전문가의 통찰

NLP의 역사를 관통하는 구조적 패턴 이 있습니다. 이 패턴을 이해하면 과거를 설명할 수 있을 뿐 아니라, 미래의 방향도 예측할 수 있습니다.

기술은 선형이 아니라 S-curve로 발전한다

각 패러다임은 등장 초기에 빠르게 성장하다가, 근본적 한계에 부딪히며 성장이 정체됩니다. 그 정체 지점에서 완전히 새로운 패러다임이 등장합니다. S-curve 발전 패턴(시간 → 성능):
시기패러다임상태
1960~1980규칙 기반 NLP급성장 → 포화
1980~2010통계적 NLP급성장 → 포화
2010~현재딥러닝 / Transformer현재 급성장 중
각 패러다임은 등장 초기에 빠르게 성장하다가, 근본적 한계에 부딪히며 성장이 정체됩니다. 그 정체 지점에서 완전히 새로운 패러다임이 등장합니다.
각 S-curve의 포화점이 바로 다음 혁신의 시작점입니다:
패러다임포화 원인다음 혁신의 트리거
규칙 기반규칙 수만 개 → 관리 불가, 예외가 규칙보다 많음”데이터에서 자동으로 학습하자” → 통계적 NLP
통계적 NLP의미를 이해하지 못함, 고차원 희소성”단어를 의미 공간에 배치하자” → 단어 임베딩
RNN/LSTM순차 처리 → 느림, 장거리 의존성 한계”모든 관계를 동시에 계산하자” → Transformer
그렇다면 다음 S-curve 는 무엇일까요? 현재 Transformer/LLM 패러다임도 이미 포화의 징후를 보이고 있습니다 — 모델 크기를 키워도 성능 향상폭이 줄어드는 현상, O(N^2) 계산 비용의 벽 등. 다음 패러다임의 후보는 아래에서 다룹니다.

”모든 혁신은 이전 혁신의 한계에서 시작된다”

NLP 역사에서 가장 일관된 패턴은, 각 기술이 직전 기술의 구체적 한계를 해결하기 위해 등장했다 는 것입니다.
Seq2Seq의 한계: 고정 길이 Context Vector → 정보 손실
    → Attention 등장: 입력 전체를 동적으로 참조

Attention의 한계: RNN 위에 얹은 보조 장치 → 순차 처리 병목
    → Transformer 등장: Attention만으로 전체 모델 구성 → 완전 병렬화

BERT의 한계: Encoder-only → 생성 불가, 태스크별 파인튜닝 필요
    → GPT-3 등장: Decoder-only + 스케일링 → Few-shot으로 파인튜닝 불필요

GPT-3의 한계: "텍스트 이어쓰기 엔진" → 유용한 어시스턴트가 아님
    → ChatGPT 등장: RLHF로 "유용함"을 학습 → AI 대중화
이 패턴을 알면 다음 혁신이 어디서 나올지 추론할 수 있습니다. 현재 LLM의 가장 큰 한계를 찾으면, 그것이 바로 다음 혁신의 출발점입니다.

현재 Transformer의 한계와 미래 후보들

Transformer는 위대한 아키텍처이지만, 영원하지 않을 수 있습니다. 이미 Transformer의 한계를 극복하려는 연구가 활발합니다.
한계설명미래 후보 기술
O(N^2) 계산 복잡도컨텍스트 100K → 100억 번의 Attention 연산. 1M 토큰은 현실적으로 매우 비쌈Linear Attention, Ring Attention— O(N)으로 축소 시도
메모리 비효율KV Cache가 컨텍스트 길이에 비례하여 증가 → 긴 문맥에서 GPU 메모리 폭발State Space Models (Mamba)— 고정 크기 상태로 무한 컨텍스트 처리
추론 비용토큰 하나 생성할 때마다 전체 모델을 통과 — 175B 모델의 추론 비용이 막대Mixture of Experts (MoE)— 전체 파라미터 중 일부만 활성화 (이미 GPT-4, Mixtral에 도입)
정적 지식학습 이후 새로운 정보 반영 불가. 재학습은 비용이 엄청남RAG, Continual Learning, Tool Use

주목할 차세대 아키텍처

State Space Models (Mamba, Gu & Dao, 2023): RNN의 “순차 처리”와 Transformer의 “병렬 학습”의 장점을 결합하려는 시도입니다. 학습 시에는 병렬로, 추론 시에는 고정 크기 상태(state)로 처리하여 컨텍스트 길이에 관계없이 일정한 메모리를 사용합니다. RWKV (Peng et al., 2023): “Receptance Weighted Key Value” — Transformer 수준의 성능을 RNN의 효율성으로 달성하려는 하이브리드 모델입니다. 오픈소스 커뮤니티에서 활발히 개발 중입니다. Mixture of Experts (MoE): 이미 GPT-4와 Mixtral에 도입된 기술입니다. 전체 파라미터가 수조 개여도, 각 토큰 처리 시 일부 전문가(Expert) 네트워크만 활성화 합니다. 이를 통해 모델 용량은 크지만 실제 연산량은 적게 유지할 수 있습니다.
주의 Transformer가 영원하지 않을 수 있다: CNN이 이미지 처리의 왕좌를 10년간 지키다가 Vision Transformer에 도전받은 것처럼, Transformer도 언젠가 더 효율적인 아키텍처에 자리를 내줄 수 있습니다. 다만 현재로서는 Transformer를 완전히 대체할 기술은 아직 없으며, 하이브리드 접근(Transformer + Mamba 등)이 현실적 방향으로 보입니다. 중요한 것은 특정 기술에 집착하는 것이 아니라, 기술이 해결하는 문제와 남기는 한계 를 이해하는 것입니다.

현재 기술의 미해결 과제

Transformer와 LLM이 혁명적이지만, 아직 해결되지 않은 문제들이 있습니다:
과제설명연구 방향
O(N²) 계산 복잡도컨텍스트 윈도우가 2배 → 계산 4배Linear Attention, Ring Attention, Sparse Attention
Hallucination학습 패턴 기반 생성 → 사실과 다른 내용RAG, Grounding, Fact-checking
추론 (Reasoning)복잡한 논리적 사고에 여전히 취약Chain-of-Thought, o1/R1 추론 모델
지식 업데이트학습 이후 새로운 정보 반영 불가RAG, Continual Learning
다국어 편향영어 중심 학습 → 한국어 등 성능 격차다국어 사전학습, 한국어 특화 모델
비용대규모 모델의 학습/추론 비용MoE, 양자화(Quantization), 증류(Distillation)

고객이 자주 묻는 질문

참고 Q: “AI가 갑자기 나타난 건가요?”
아닙니다. AI와 NLP는 70년 이상의 역사 를 가지고 있습니다. 1950년대 규칙 기반 시스템 → 1990년대 통계적 NLP → 2013년 Word2Vec → 2017년 Transformer → 2022년 ChatGPT로 이어지는 긴 축적의 결과입니다. ChatGPT가 “갑자기” 나타난 것이 아니라, 수십 년간의 연구가 임계점을 넘은 것입니다.
참고 Q: “왜 지금 갑자기 AI가 핵심이 됐나요?”
세 가지가 동시에 맞아떨어졌기 때문입니다:
요소시기기여
Transformer 아키텍처2017완전 병렬화로 대규모 학습 가능
스케일링 법칙2020”더 크게 만들면 더 좋아진다”의 이론적 근거
RLHF2022텍스트 생성 엔진을 “유용한 어시스턴트”로 전환
Transformer만으로는 학술 논문 수준이었고, 스케일링만으로는 비용 정당화가 어려웠으며, RLHF 없이는 일반인이 쓸 수 없었습니다. 세 기술의 결합 이 ChatGPT 모먼트를 만들었습니다.
주의 Q: “한국어 AI가 영어보다 성능이 낮은 이유는?”
두 가지 핵심 원인이 있습니다:
  1. 학습 데이터 편향: 대부분의 LLM 사전학습 데이터에서 영어가 8090%를 차지합니다. 한국어 데이터는 전체의 13%에 불과합니다. 모델은 많이 본 언어를 더 잘 이해합니다.
  2. 토큰화 효율성: BPE 토크나이저는 영어 위주로 학습되어, 영어 “Hello”는 1토큰인 반면 “안녕하세요”는 3~5토큰으로 분절됩니다. 같은 의미를 전달하는 데 더 많은 토큰이 필요하면:
    • 동일 컨텍스트 윈도우에 더 적은 내용이 들어감
    • 추론 비용이 더 높아짐
    • 토큰 간 의미 연결이 어려워짐
이 때문에 한국어 특화 모델(예: HyperCLOVA, Solar)이나 다국어 균형 학습이 중요합니다.

연습 문제

  1. 통계적 NLP에서 N-gram 모델의 “데이터 희소성” 문제가 무엇이며, Word2Vec은 이를 어떻게 해결했나요?
  2. LSTM의 세 가지 게이트(Forget, Input, Output)의 역할을 “도서관 사서”에 비유하여 설명하세요.
  3. Seq2Seq 모델의 “정보 병목” 문제가 무엇이며, Attention이 이를 어떻게 해결했나요?
  4. Word2Vec에서 king - man + woman ≈ queen이 가능한 이유를 설명하세요.
  5. Transformer가 RNN/LSTM을 대체한 핵심 이유 두 가지를 학습 속도와 성능 관점에서 설명하세요.
  6. “배가 고프다”와 “배를 타고 갔다”에서 “배”를 다르게 처리할 수 있는 최초의 모델은 무엇이며, 이후 어떤 모델로 발전했나요?
  7. Transformer가 아닌 다음 아키텍처가 등장한다면, 어떤 한계를 해결해야 하는가? O(N^2) 복잡도 외에 다른 한계를 3가지 제시하고, 각각의 해결이 왜 중요한지 설명하세요.
  8. Word2Vec, ELMo, BERT는 모두 “단어 표현”을 다루지만 근본적으로 다릅니다. 3개 모델의 핵심 차이를 “같은 단어, 다른 의미” 관점에서 비교하세요. (예: “배가 고프다”와 “배를 타다”에서 “배”를 각 모델이 어떻게 처리하는가)
  9. ChatGPT의 성공에서 “기술”보다 “제품”이 더 중요한 역할을 했다는 주장이 있습니다. GPT-3(2020)와 ChatGPT(2022)의 기술적 차이는 크지 않지만 임팩트는 완전히 달랐습니다. 그 이유를 RLHF와 사용자 인터페이스 관점에서 분석하세요.

참고 자료