주요 LLM 모델 비교

모델 비교표

2025년 기준 주요 LLM 모델의 핵심 스펙을 비교합니다. 모델 선택 시 성능뿐 아니라 비용, 컨텍스트 크기, 오픈소스 여부 를 종합적으로 고려해야 합니다.

모델	개발사	파라미터	컨텍스트	특징	가격대 (1M 입력 토큰)	오픈소스
GPT-4o	OpenAI	비공개	128K	멀티모달, 범용 최강급	~$2.50	X
GPT-4.1	OpenAI	비공개	1M	코딩/지시 수행 최적화	~$2.00	X
Claude 4 Sonnet	Anthropic	비공개	200K	코딩, 에이전트 최강	~$3.00	X
Claude 4 Opus	Anthropic	비공개	200K (1M)	최고 지능, 깊은 추론	~$15.00	X
Llama 3.3	Meta	70B	128K	오픈웨이트, 커스텀 가능	셀프호스팅	O
Llama 4 Maverick	Meta	400B (MoE)	1M	MoE, 멀티모달	셀프호스팅	O
DBRX	Databricks	132B (MoE)	32K	MoE 아키텍처, 효율적	Foundation Model API	O
Mistral Large	Mistral AI	비공개	128K	유럽 기반, 다국어 강점	~$2.00	부분

주의 모델 성능은 빠르게 변화합니다. 최신 벤치마크는 LMSYS Chatbot Arena를 참고하세요. 위 가격은 2025년 기준 대략적 수치이며, 공식 가격표를 확인하세요.

MoE (Mixture of Experts) 아키텍처

위 모델 비교표에서 DBRX(132B), Llama 4 Maverick(400B)에 (MoE) 라는 표기가 있습니다. MoE는 현재 대형 LLM의 핵심 아키텍처 트렌드입니다. 기존 Dense 모델의 문제: 전통적인 Dense 모델은 모든 파라미터가 모든 토큰에 대해 활성화 됩니다. 예를 들어 Llama 70B는 하나의 토큰을 생성할 때마다 700억 개의 파라미터를 모두 사용합니다. 모델이 커질수록 추론 비용이 선형으로 증가합니다. MoE의 핵심 아이디어: 모델 내부에 여러 개의 Expert(전문가) 네트워크 를 두고, 각 토큰마다 Router 네트워크 가 가장 적합한 Top-K개의 Expert만 선택하여 활성화합니다. 나머지 Expert는 비활성 상태로 유지됩니다. 주요 MoE 모델 예시:

모델	전체 파라미터	토큰당 활성 파라미터	활성 비율	비고
DBRX	132B	36B	~27%	16 experts 중 4개 활성
Llama 4 Maverick	400B	~100B	~25%	128 experts, 멀티모달
Mixtral 8x22B	176B	~39B	~22%	8 experts 중 2개 활성
GPT-4(추정)	1.8T (루머)	~200B (추정)	~11%	8 experts (비공식)

Dense vs MoE 비교:

항목	Dense 모델	MoE 모델
추론 속도	파라미터에 비례하여 느림	활성 파라미터만 사용하므로 빠름
메모리 사용	전체 파라미터 로드 필요	전체 파라미터 로드 필요 (메모리는 절약 안 됨)
학습 복잡도	단순	Router 학습 등 추가 복잡성
성능	파라미터 대비 안정적	같은 추론 비용으로 더 높은 성능
서빙 비용	높음	낮음 (활성 파라미터 기준)

참고 고객에게 설명할 때: MoE는 “132B 모델의 지능을 가지면서 36B 모델의 비용으로 운영할 수 있는” 아키텍처입니다. DBRX가 Foundation Model API에서 비용 효율적인 이유가 바로 이것입니다. 다만 메모리에는 전체 파라미터를 올려야 하므로, GPU 메모리 요구사항은 전체 파라미터 기준입니다.

Emergent Abilities (창발적 능력)

LLM에서 가장 흥미로운 현상 중 하나는 창발적 능력(Emergent Abilities) 입니다. 모델의 파라미터 수가 특정 임계점을 넘어서면, 작은 모델에는 존재하지 않던 완전히 새로운 능력이 갑자기 나타나는 현상입니다.

대표적 창발 능력 사례

능력	등장 임계점 (대략)	설명
Few-shot Learning	~100B+ (GPT-3, 175B)	몇 개의 예시만으로 새로운 과제 수행
Chain-of-Thought 추론	~100B+	“단계적으로 생각하세요”라는 지시로 복잡한 문제 해결
코드 생성	~60B+	자연어 설명에서 실행 가능한 코드 생성
수학적 추론	~100B+	문장형 수학 문제 해결

GPT-2(1.5B)에서 GPT-3(175B)로의 도약이 혁명적으로 느껴진 이유가 바로 이 창발적 능력 때문입니다. GPT-2는 텍스트를 그럴듯하게 이어쓰는 정도였지만, GPT-3는 번역, 코드 작성, 수학 문제 풀이 등 전혀 학습하지 않은 작업을 few-shot으로 수행할 수 있었습니다.

주의: 창발에 대한 최신 논쟁

최근 연구에서는 창발적 능력이 “진짜 불연속적 도약”이 아니라 평가 지표(metric)의 특성에 의한 착시 일 수 있다는 주장이 제기되었습니다 (Schaeffer et al., 2023). 비선형적 평가 지표(예: exact match)를 연속적 지표(예: token-level accuracy)로 바꾸면 능력이 “점진적으로” 향상되는 것처럼 보인다는 것입니다.

참고 “파라미터가 많을수록 좋다” 오해와의 연결: 창발적 능력은 모델 크기의 중요성을 보여주지만, 이것이 “무조건 크면 좋다”는 의미는 아닙니다. MoE 아키텍처, 고품질 학습 데이터, RLHF 등 다른 요소도 동일하게 중요합니다. Llama 3 8B가 특정 작업에서 이전 세대 70B 모델을 능가하는 사례가 이를 증명합니다.

흔한 오해 (Common Misconceptions)

고객 미팅에서 자주 마주치는 LLM에 대한 대표적 오해와 이에 대한 정확한 사실을 정리합니다.

오해	사실
”LLM은 인터넷을 실시간 검색한다”	LLM은 학습 데이터의 패턴을 기억할 뿐, 실시간 검색하지 않습니다. RAG를 붙여야 최신 정보를 활용합니다.
”파라미터가 많을수록 무조건 좋다”	MoE(Mixture of Experts) 아키텍처는 전체 파라미터 중 일부만 활성화합니다. 효율성과 성능의 균형이 핵심입니다.
”Temperature 0이면 항상 정확하다”	Temperature 0은 “일관된” 출력을 의미하지 “정확한” 출력을 보장하지 않습니다. 틀린 답변을 일관되게 생성할 수 있습니다.
”긴 컨텍스트에 모든 것을 넣으면 된다”	컨텍스트가 길수록 비용이 증가하고 “Lost in the Middle” 문제가 발생합니다. 핵심 정보만 효율적으로 제공하세요.
”Fine-tuning하면 환각이 없어진다”	Fine-tuning은 스타일/형식을 맞추는 데 효과적이지만, 환각을 근본적으로 해결하지 않습니다. 사실 정확도가 목표라면 RAG가 더 적합합니다.

모델 선택 의사결정 프레임워크

모델을 선택할 때 “가장 좋은 모델”이 아니라 “우리 상황에 가장 적합한 모델” 을 찾아야 합니다.

의사결정 플로차트

[시작] 어떤 모델을 선택할까?
  │
  ├─ 데이터가 외부로 나갈 수 없는가? (데이터 주권/규제)
  │    ├─ Yes → 오픈소스 모델 (Llama, Mistral) + 자체 호스팅
  │    └─ No → 다음 질문으로
  │
  ├─ 정확도가 최우선인가? (금융, 의료, 법률)
  │    ├─ Yes → 최대 모델 (Claude 4 Opus, GPT-4.1)
  │    └─ No → 다음 질문으로
  │
  ├─ 비용이 가장 중요한가?
  │    ├─ Yes → 소형 모델 (Llama 3.3 70B, Mistral) + 양자화
  │    └─ No → 다음 질문으로
  │
  ├─ 긴 문서 처리가 필요한가? (100K+ 토큰)
  │    ├─ Yes → 대형 컨텍스트 모델 (GPT-4.1 1M, Llama 4 1M)
  │    └─ No → 다음 질문으로
  │
  └─ 범용적으로 사용하는가?
       └─ Yes → 가성비 최적 (GPT-4o, Claude 4 Sonnet)

사용 사례별 추천 모델

사용 사례	추천 모델	이유
고객 챗봇	Claude 4 Sonnet, GPT-4o	자연스러운 대화, 안전한 응답
코드 생성/리뷰	Claude 4 Sonnet, GPT-4.1	SWE-bench 최고 성능
문서 요약 (100p+)	GPT-4.1, Llama 4 Maverick	1M 컨텍스트 지원
수학/과학 추론	o3, DeepSeek R1	추론 모델 특화
다국어 (한국어)	Claude 4 Sonnet, GPT-4o	다국어 벤치마크 상위
비용 최적화	Llama 3.3 70B + 양자화	셀프호스팅으로 API 비용 제거
사내 보안 환경	Llama 3.3/4, Mistral	오픈소스, VPC 내 배포 가능

추론 모델 (Reasoning Models) 카테고리

2024~2025년에 등장한 새로운 카테고리로, 답변 전에 “생각하는 시간”을 가지는 모델입니다.

모델	개발사	방식	강점	비용
o1 / o3	OpenAI	Chain-of-Thought를 내부적으로 생성	수학, 코딩, 과학 추론	매우 높음
DeepSeek R1	DeepSeek	오픈소스 추론 모델. RL로 학습	o1 수준 성능, 오픈소스	셀프호스팅
Claude Extended Thinking	Anthropic	Sonnet/Opus에 “thinking” 모드	복잡한 분석, 계획 수립	높음

추론 모델은 언제 사용하는가?

복잡한 수학/논리 문제
다단계 코딩 과제 (버그 분석, 아키텍처 설계)
전략적 의사결정이 필요한 에이전트 오케스트레이션
단순 Q&A, 요약, 번역에는 불필요(비용 낭비)

추론 모델의 상세한 작동 원리는 추론 모델 (Reasoning Models) 페이지를 참고하세요.

증류 (Distillation): 큰 모델의 지식을 작은 모델로

증류는 Teacher 모델(대형)의 출력을 Student 모델(소형)이 모방 하도록 학습하는 기법입니다. 비용 최적화의 핵심 전략입니다.

증류의 과정

Teacher 모델 (Claude 4 Opus, GPT-4) 로 대량의 (입력, 출력) 쌍 생성
Student 모델 (Llama 3.3 8B, Mistral 7B) 을 Teacher의 출력으로 SFT
Student가 Teacher의 90~95% 성능을 1/10~1/50 비용으로 달성

증류의 실무적 활용

단계	모델	역할	비용
PoC/프로토타입	Claude 4 Opus	최고 정확도로 요구사항 검증	높음
증류 데이터 생성	Claude 4 Opus	10K+ (입력, 이상적 출력) 쌍 생성	중간 (일회성)
Student 학습	Llama 3.3 8B	Opus 출력으로 SFT	낮음 (일회성)
프로덕션 서빙	Llama 3.3 8B (증류된)	Opus의 90%+ 성능, 1/50 비용	매우 낮음

주의 라이선스 주의: OpenAI, Anthropic 등의 API 이용약관은 “경쟁 모델 학습을 위한 출력 사용”을 제한할 수 있습니다. 증류를 수행하기 전에 반드시 해당 모델의 이용약관을 확인하세요. 오픈소스 Teacher 모델(Llama 등)을 사용하면 이 제약이 없습니다.

Databricks Foundation Model APIs

Databricks에서 LLM을 사용하는 가장 빠른 방법은 Foundation Model APIs 입니다.

사용 가능 모델 (2025년 기준)

모델	유형	컨텍스트	과금 방식
Claude 4 Sonnet	범용	200K	Pay-per-token
Claude 4 Opus	최고 성능	200K	Pay-per-token
GPT-4o	범용	128K	Pay-per-token
GPT-4.1	코딩/지시	1M	Pay-per-token
Llama 3.3 70B	오픈소스 범용	128K	Pay-per-token / Provisioned
Llama 4 Maverick	오픈소스 MoE	1M	Pay-per-token / Provisioned
DBRX	Databricks MoE	32K	Pay-per-token / Provisioned
Mixtral 8x22B	오픈소스 MoE	64K	Pay-per-token / Provisioned

Pay-per-token vs Provisioned Throughput

항목	Pay-per-token	Provisioned Throughput
과금	사용한 토큰 수만큼	시간당 고정 요금
지연 시간	변동 (공유 인프라)	일관된 낮은 지연
처리량	제한적 (rate limit)	보장된 처리량
적합한 상황	개발, PoC, 간헐적 사용	프로덕션, 대량 처리
비용 효율	사용량 적을 때 유리	월 $1,000+ 사용 시 유리

참고 모델 선택 가이드: 개발/PoC 단계에서는 Pay-per-token으로 Claude 4 Sonnet 또는 GPT-4o를 사용하세요. 프로덕션 전환 시 비용 분석을 통해 Provisioned Throughput(오픈소스 모델) 전환을 검토합니다. 대부분의 경우 Llama 3.3 70B의 Provisioned Throughput 이 가장 비용 효율적입니다.

멀티모달 모델 비교

최신 LLM은 텍스트뿐 아니라 이미지, 오디오, 비디오 를 이해하는 멀티모달 능력을 갖추고 있습니다.

모델	텍스트	이미지 입력	이미지 생성	오디오 입력	오디오 생성	비디오 입력
GPT-4o	O	O	O (DALL-E)	O	O	O (제한적)
GPT-4.1	O	O	X	X	X	X
Claude 4 Sonnet	O	O	X	X	X	X
Claude 4 Opus	O	O	X	X	X	X
Llama 4 Maverick	O	O	X	X	X	X
Gemini 2.5 Pro	O	O	O	O	O	O

참고 멀티모달 활용 사례: 제조업의 불량 검출(이미지 입력), 콜센터 음성 분석(오디오 입력), 문서 OCR(이미지→텍스트) 등에서 멀티모달 모델이 활발히 사용됩니다. 상세한 내용은 멀티모달 LLM 페이지를 참고하세요.

< 이전: Hallucination | 다음: 실전 가이드 >

가이드 목록

Platform Setup

AI/BI & Analytics

GenAI & Agent

Compute & Apps

Data Engineering

GenAI 핵심 개념

RAG (검색 증강 생성)

MCP (Model Context Protocol)

ML 핵심 개념

Hands-on Workshop

모델 비교표

MoE (Mixture of Experts) 아키텍처

Emergent Abilities (창발적 능력)

대표적 창발 능력 사례

주의: 창발에 대한 최신 논쟁

흔한 오해 (Common Misconceptions)

모델 선택 의사결정 프레임워크

의사결정 플로차트

사용 사례별 추천 모델

추론 모델 (Reasoning Models) 카테고리

증류 (Distillation): 큰 모델의 지식을 작은 모델로

증류의 과정

증류의 실무적 활용

Databricks Foundation Model APIs

사용 가능 모델 (2025년 기준)

Pay-per-token vs Provisioned Throughput

멀티모달 모델 비교

가이드 목록

Platform Setup

AI/BI & Analytics

GenAI & Agent

Compute & Apps

Data Engineering

GenAI 핵심 개념

RAG (검색 증강 생성)

MCP (Model Context Protocol)

ML 핵심 개념

Hands-on Workshop

​모델 비교표

​MoE (Mixture of Experts) 아키텍처

​Emergent Abilities (창발적 능력)

​대표적 창발 능력 사례

​주의: 창발에 대한 최신 논쟁

​흔한 오해 (Common Misconceptions)

​모델 선택 의사결정 프레임워크

​의사결정 플로차트

​사용 사례별 추천 모델

​추론 모델 (Reasoning Models) 카테고리

​증류 (Distillation): 큰 모델의 지식을 작은 모델로

​증류의 과정

​증류의 실무적 활용

​Databricks Foundation Model APIs

​사용 가능 모델 (2025년 기준)

​Pay-per-token vs Provisioned Throughput

​멀티모달 모델 비교

모델 비교표

MoE (Mixture of Experts) 아키텍처

Emergent Abilities (창발적 능력)

대표적 창발 능력 사례

주의: 창발에 대한 최신 논쟁

흔한 오해 (Common Misconceptions)

모델 선택 의사결정 프레임워크

의사결정 플로차트

사용 사례별 추천 모델

추론 모델 (Reasoning Models) 카테고리

증류 (Distillation): 큰 모델의 지식을 작은 모델로

증류의 과정

증류의 실무적 활용

Databricks Foundation Model APIs

사용 가능 모델 (2025년 기준)

Pay-per-token vs Provisioned Throughput

멀티모달 모델 비교