NLP에서 LLM까지: 언어 모델의 발전사

현대 LLM(Large Language Model)은 하루아침에 탄생하지 않았습니다. 수십 년에 걸친 자연어처리(NLP) 연구의 축적 위에 서 있습니다. 이 가이드는 규칙 기반 시스템부터 Transformer까지, 각 기술이 왜 등장했고, 어떤 문제를 해결했으며, 어떤 한계가 다음 혁신을 이끌었는지를 전문가 수준으로 정리합니다.

참고 학습 목표

Transformer 이전 NLP 기술의 발전 흐름과 각 단계의 핵심 돌파구를 설명할 수 있다
각 모델의 등장 배경, 해결한 문제, 남은 한계를 구분할 수 있다
현대 LLM이 왜 Transformer 기반인지 역사적 맥락에서 이해한다
고객에게 “AI가 어떻게 여기까지 왔는지”를 체계적으로 설명할 수 있다

왜 NLP가 AI에서 가장 어려운 문제인가?

Transformer와 LLM의 발전사를 이해하기 전에, 왜 자연어 처리가 이미지 인식이나 게임 AI보다 훨씬 어려운 문제인지 먼저 짚어야 합니다. 이 어려움을 이해해야 각 기술이 “왜” 등장했는지가 체감됩니다.

자연어의 본질적 어려움

1. 모호성 (Ambiguity)

자연어는 모든 층위에서 모호합니다. 같은 문장이 완전히 다른 의미를 가질 수 있습니다.

모호성 유형	예시	문제
어휘적 모호성	”배가 아프다”	과일? 선박? 신체 부위?
구문적 모호성	”예쁜 소녀의 가방”	소녀가 예쁜가, 가방이 예쁜가?
화용적 모호성	”여기 좀 춥지 않아?”	정보 요청? 창문 닫아달라는 간접 요청?
참조 모호성	”철수가 영희에게 그의 책을 줬다"	"그”는 철수? 제3의 인물?

이미지 인식에서 “고양이 사진”은 누가 봐도 고양이입니다. 하지만 자연어에서 “그 사과는 빨갛다”의 “사과”가 과일인지 사과(謝過)인지는 문맥 없이는 알 수 없습니다.

2. 문맥 의존성 (Context Dependency)

단어 하나의 의미가 주변 수십, 수백 단어에 의해 결정됩니다.

"그는 은행에 갔다"
  → 앞에 "돈을 인출하려고"가 있으면 → 금융기관
  → 앞에 "낚시대를 들고"가 있으면 → 강둑

"그렇게 하면 안 돼"
  → 어머니가 아이에게 → 훈계
  → 동료가 동료에게 → 조언
  → 상사가 부하에게 → 지시

문맥이 없으면 의미를 결정할 수 없다는 것 — 이것이 규칙 기반 NLP가 실패한 근본적 이유이며, 통계적 접근이 등장한 배경입니다.

3. 세계 지식 (World Knowledge)

자연어 이해에는 “언어 밖의 지식”이 필요합니다.

"나폴레옹이 워털루에서 패배한 후, 유럽의 지도가 다시 그려졌다."
→ "지도"는 물리적 종이 지도? 아니면 정치적 세력 판도?
→ 워털루 전투(1815)의 역사적 맥락을 알아야 "세력 판도"로 해석 가능

이것은 컴퓨터에게 특히 어렵습니다. 언어 모델은 텍스트만 보는데, 텍스트의 의미는 텍스트 밖의 세상에 대한 지식에 의존합니다.

4. 상식 추론 (Common Sense Reasoning)

"냉장고에 코끼리를 넣으려면 몇 단계가 필요한가?"
→ 인간: 웃기는 질문임을 즉시 인식 (코끼리는 냉장고에 안 들어감)
→ 초기 AI: 진지하게 단계를 나열

"그는 트로피를 가방에 넣을 수 없었다. 그것이 너무 컸기 때문이다."
→ "그것"은 트로피? 가방?
→ 인간: 물리적 크기 관계를 상식으로 즉시 판단 (트로피가 너무 큼)

이런 “Winograd Schema” 문제는 GPT-3 수준의 대규모 모델에서야 비로소 높은 정확도를 달성했으며, 이는 엄청난 양의 텍스트 데이터에서 상식을 간접적으로 학습한 결과입니다.

비유: 외국인이 한국어를 배우는 과정

NLP의 발전사를 한 문장으로 요약하면, 컴퓨터가 인간의 언어 학습 과정을 재현해 온 역사 입니다.

인간의 언어 학습 단계	NLP 기술 발전	해당 시기
문법책으로 규칙을 외운다	규칙 기반 NLP— if-then 규칙으로 언어 처리	1950~1990
원어민 대화를 많이 들으며 패턴을 파악한다	통계적 NLP— 데이터에서 출현 빈도와 패턴 학습	1990~2000
단어의 뉘앙스와 감정을 “느끼기” 시작한다	단어 임베딩— 단어를 의미 공간의 벡터로 표현	2003~2014
앞뒤 문맥을 기억하며 대화한다	RNN/LSTM— 순차적으로 문맥을 기억	2014~2017
문장 전체를 한 번에 파악하고, 핵심을 즉시 짚는다	Transformer— 병렬로 모든 관계를 동시에 파악	2017~
방대한 독서와 경험으로 어떤 주제든 대화할 수 있다	사전학습 LLM— 수조 토큰으로 범용 지식 학습	2018~

문법을 외워도 실제 대화에서 실패하듯(규칙 기반의 한계), 패턴만 외워도 새로운 표현에 당황하듯(통계적 NLP의 한계), 단어의 뜻을 알아도 문맥을 놓치듯(Word2Vec의 한계) — 각 단계의 실패가 다음 단계의 혁신을 이끌었습니다.

참고 핵심 통찰: NLP가 어려운 이유는 “언어가 복잡해서”가 아니라, 언어가 세상의 복잡성을 반영하기 때문 입니다. 언어를 이해한다는 것은 곧 세상을 이해한다는 것이며, 이것이 NLP가 AI의 궁극적 도전인 이유입니다. 현대 LLM이 놀라운 것은, 순수하게 텍스트만 읽고도 세상에 대한 상당한 이해를 획득했다는 점입니다.

한눈에 보는 NLP 발전 타임라인

시기	패러다임	대표 기술	핵심 돌파구	치명적 한계
1950~1990	규칙 기반	ELIZA, 전문가 시스템	구조화된 언어 처리	규칙 수작업, 확장 불가
1990~2000	통계적 NLP	N-gram, HMM, TF-IDF	데이터에서 패턴 학습	의미 이해 불가, 희소성
2003	신경망 언어 모델	NNLM (Bengio)	단어를 벡터로 표현	학습 속도 느림
2013~2014	분산 표현	Word2Vec, GloVe	효율적 단어 임베딩	다의어 처리 불가
2014~2015	시퀀스 모델링	RNN, LSTM, GRU	가변 길이 시퀀스 처리	장거리 의존성, 병렬화 불가
2014	시퀀스-투-시퀀스	Seq2Seq	입출력 길이 독립적	고정 길이 벡터 병목
2015	어텐션 메커니즘	Bahdanau Attention	입력 전체를 동적 참조	여전히 순차 처리
2017	Transformer	Self-Attention	완전 병렬화 + 장거리 의존성 해결	계산량 O(N²)
2018~	사전학습 시대	BERT, GPT, T5	범용 언어 이해/생성	대규모 컴퓨팅 필요

서브 페이지

페이지	내용
규칙 기반 + 통계적 NLP	규칙 기반 NLP (1950~~1990) + 통계적 NLP (1990~~2000) — N-gram, TF-IDF, HMM
단어 임베딩 혁명	단어 임베딩 (2003~2014) — NNLM, Word2Vec, GloVe, BPE
순환 신경망 시대	RNN, LSTM, GRU, TextCNN (2014~2017)
Seq2Seq, Attention, Transformer	정보 병목 해결, Bahdanau Attention, Self-Attention, Transformer 탄생 (2014~2017)
사전학습 시대	ULMFiT, BERT, GPT, Scaling Laws, RLHF, 세 계보 (2018~)
전체 흐름 요약 + 인사이트	기술 발전 패턴(S-curve), 미해결 과제, 고객 FAQ, 연습문제, 참고자료

가이드 목록

Platform Setup

AI/BI & Analytics

GenAI & Agent

Compute & Apps

Data Engineering

GenAI 핵심 개념

RAG (검색 증강 생성)

MCP (Model Context Protocol)

ML 핵심 개념

Hands-on Workshop

왜 NLP가 AI에서 가장 어려운 문제인가?

자연어의 본질적 어려움

1. 모호성 (Ambiguity)

2. 문맥 의존성 (Context Dependency)

3. 세계 지식 (World Knowledge)

4. 상식 추론 (Common Sense Reasoning)

비유: 외국인이 한국어를 배우는 과정

한눈에 보는 NLP 발전 타임라인

서브 페이지

가이드 목록

Platform Setup

AI/BI & Analytics

GenAI & Agent

Compute & Apps

Data Engineering

GenAI 핵심 개념

RAG (검색 증강 생성)

MCP (Model Context Protocol)

ML 핵심 개념

Hands-on Workshop

​왜 NLP가 AI에서 가장 어려운 문제인가?

​자연어의 본질적 어려움

​1. 모호성 (Ambiguity)

​2. 문맥 의존성 (Context Dependency)

​3. 세계 지식 (World Knowledge)

​4. 상식 추론 (Common Sense Reasoning)

​비유: 외국인이 한국어를 배우는 과정

​한눈에 보는 NLP 발전 타임라인

​서브 페이지

왜 NLP가 AI에서 가장 어려운 문제인가?

자연어의 본질적 어려움

1. 모호성 (Ambiguity)

2. 문맥 의존성 (Context Dependency)

3. 세계 지식 (World Knowledge)

4. 상식 추론 (Common Sense Reasoning)

비유: 외국인이 한국어를 배우는 과정

한눈에 보는 NLP 발전 타임라인

서브 페이지