Skip to main content
현대 LLM(Large Language Model)은 하루아침에 탄생하지 않았습니다. 수십 년에 걸친 자연어처리(NLP) 연구의 축적 위에 서 있습니다. 이 가이드는 규칙 기반 시스템부터 Transformer까지, 각 기술이 왜 등장했고, 어떤 문제를 해결했으며, 어떤 한계가 다음 혁신을 이끌었는지를 전문가 수준으로 정리합니다.
참고 학습 목표
  • Transformer 이전 NLP 기술의 발전 흐름과 각 단계의 핵심 돌파구를 설명할 수 있다
  • 각 모델의 등장 배경, 해결한 문제, 남은 한계를 구분할 수 있다
  • 현대 LLM이 왜 Transformer 기반인지 역사적 맥락에서 이해한다
  • 고객에게 “AI가 어떻게 여기까지 왔는지”를 체계적으로 설명할 수 있다

왜 NLP가 AI에서 가장 어려운 문제인가?

Transformer와 LLM의 발전사를 이해하기 전에, 왜 자연어 처리가 이미지 인식이나 게임 AI보다 훨씬 어려운 문제인지 먼저 짚어야 합니다. 이 어려움을 이해해야 각 기술이 “왜” 등장했는지가 체감됩니다.

자연어의 본질적 어려움

1. 모호성 (Ambiguity)

자연어는 모든 층위에서 모호합니다. 같은 문장이 완전히 다른 의미를 가질 수 있습니다.
모호성 유형예시문제
어휘적 모호성”배가 아프다”과일? 선박? 신체 부위?
구문적 모호성”예쁜 소녀의 가방”소녀가 예쁜가, 가방이 예쁜가?
화용적 모호성”여기 좀 춥지 않아?”정보 요청? 창문 닫아달라는 간접 요청?
참조 모호성”철수가 영희에게 그의 책을 줬다""그”는 철수? 제3의 인물?
이미지 인식에서 “고양이 사진”은 누가 봐도 고양이입니다. 하지만 자연어에서 “그 사과는 빨갛다”의 “사과”가 과일인지 사과(謝過)인지는 문맥 없이는 알 수 없습니다.

2. 문맥 의존성 (Context Dependency)

단어 하나의 의미가 주변 수십, 수백 단어에 의해 결정됩니다.
"그는 은행에 갔다"
  → 앞에 "돈을 인출하려고"가 있으면 → 금융기관
  → 앞에 "낚시대를 들고"가 있으면 → 강둑

"그렇게 하면 안 돼"
  → 어머니가 아이에게 → 훈계
  → 동료가 동료에게 → 조언
  → 상사가 부하에게 → 지시
문맥이 없으면 의미를 결정할 수 없다는 것 — 이것이 규칙 기반 NLP가 실패한 근본적 이유이며, 통계적 접근이 등장한 배경입니다.

3. 세계 지식 (World Knowledge)

자연어 이해에는 “언어 밖의 지식”이 필요합니다.
"나폴레옹이 워털루에서 패배한 후, 유럽의 지도가 다시 그려졌다."
→ "지도"는 물리적 종이 지도? 아니면 정치적 세력 판도?
→ 워털루 전투(1815)의 역사적 맥락을 알아야 "세력 판도"로 해석 가능
이것은 컴퓨터에게 특히 어렵습니다. 언어 모델은 텍스트만 보는데, 텍스트의 의미는 텍스트 밖의 세상에 대한 지식에 의존합니다.

4. 상식 추론 (Common Sense Reasoning)

"냉장고에 코끼리를 넣으려면 몇 단계가 필요한가?"
→ 인간: 웃기는 질문임을 즉시 인식 (코끼리는 냉장고에 안 들어감)
→ 초기 AI: 진지하게 단계를 나열

"그는 트로피를 가방에 넣을 수 없었다. 그것이 너무 컸기 때문이다."
→ "그것"은 트로피? 가방?
→ 인간: 물리적 크기 관계를 상식으로 즉시 판단 (트로피가 너무 큼)
이런 “Winograd Schema” 문제는 GPT-3 수준의 대규모 모델에서야 비로소 높은 정확도를 달성했으며, 이는 엄청난 양의 텍스트 데이터에서 상식을 간접적으로 학습한 결과입니다.

비유: 외국인이 한국어를 배우는 과정

NLP의 발전사를 한 문장으로 요약하면, 컴퓨터가 인간의 언어 학습 과정을 재현해 온 역사 입니다.
인간의 언어 학습 단계NLP 기술 발전해당 시기
문법책으로 규칙을 외운다규칙 기반 NLP— if-then 규칙으로 언어 처리1950~1990
원어민 대화를 많이 들으며 패턴을 파악한다통계적 NLP— 데이터에서 출현 빈도와 패턴 학습1990~2000
단어의 뉘앙스와 감정을 “느끼기” 시작한다단어 임베딩— 단어를 의미 공간의 벡터로 표현2003~2014
앞뒤 문맥을 기억하며 대화한다RNN/LSTM— 순차적으로 문맥을 기억2014~2017
문장 전체를 한 번에 파악하고, 핵심을 즉시 짚는다Transformer— 병렬로 모든 관계를 동시에 파악2017~
방대한 독서와 경험으로 어떤 주제든 대화할 수 있다사전학습 LLM— 수조 토큰으로 범용 지식 학습2018~
문법을 외워도 실제 대화에서 실패하듯(규칙 기반의 한계), 패턴만 외워도 새로운 표현에 당황하듯(통계적 NLP의 한계), 단어의 뜻을 알아도 문맥을 놓치듯(Word2Vec의 한계) — 각 단계의 실패가 다음 단계의 혁신을 이끌었습니다.
참고 핵심 통찰: NLP가 어려운 이유는 “언어가 복잡해서”가 아니라, 언어가 세상의 복잡성을 반영하기 때문 입니다. 언어를 이해한다는 것은 곧 세상을 이해한다는 것이며, 이것이 NLP가 AI의 궁극적 도전인 이유입니다. 현대 LLM이 놀라운 것은, 순수하게 텍스트만 읽고도 세상에 대한 상당한 이해를 획득했다는 점입니다.

한눈에 보는 NLP 발전 타임라인

시기패러다임대표 기술핵심 돌파구치명적 한계
1950~1990규칙 기반ELIZA, 전문가 시스템구조화된 언어 처리규칙 수작업, 확장 불가
1990~2000통계적 NLPN-gram, HMM, TF-IDF데이터에서 패턴 학습의미 이해 불가, 희소성
2003신경망 언어 모델NNLM (Bengio)단어를 벡터로 표현학습 속도 느림
2013~2014분산 표현Word2Vec, GloVe효율적 단어 임베딩다의어 처리 불가
2014~2015시퀀스 모델링RNN, LSTM, GRU가변 길이 시퀀스 처리장거리 의존성, 병렬화 불가
2014시퀀스-투-시퀀스Seq2Seq입출력 길이 독립적고정 길이 벡터 병목
2015어텐션 메커니즘Bahdanau Attention입력 전체를 동적 참조여전히 순차 처리
2017TransformerSelf-Attention완전 병렬화 + 장거리 의존성 해결계산량 O(N²)
2018~사전학습 시대BERT, GPT, T5범용 언어 이해/생성대규모 컴퓨팅 필요

서브 페이지

페이지내용
규칙 기반 + 통계적 NLP규칙 기반 NLP (19501990) + 통계적 NLP (19902000) — N-gram, TF-IDF, HMM
단어 임베딩 혁명단어 임베딩 (2003~2014) — NNLM, Word2Vec, GloVe, BPE
순환 신경망 시대RNN, LSTM, GRU, TextCNN (2014~2017)
Seq2Seq, Attention, Transformer정보 병목 해결, Bahdanau Attention, Self-Attention, Transformer 탄생 (2014~2017)
사전학습 시대ULMFiT, BERT, GPT, Scaling Laws, RLHF, 세 계보 (2018~)
전체 흐름 요약 + 인사이트기술 발전 패턴(S-curve), 미해결 과제, 고객 FAQ, 연습문제, 참고자료