모델 비교표
2025년 기준 주요 LLM 모델의 핵심 스펙을 비교합니다. 모델 선택 시 성능뿐 아니라 비용, 컨텍스트 크기, 오픈소스 여부 를 종합적으로 고려해야 합니다.| 모델 | 개발사 | 파라미터 | 컨텍스트 | 특징 | 가격대 (1M 입력 토큰) | 오픈소스 |
|---|---|---|---|---|---|---|
| GPT-4o | OpenAI | 비공개 | 128K | 멀티모달, 범용 최강급 | ~$2.50 | X |
| GPT-4.1 | OpenAI | 비공개 | 1M | 코딩/지시 수행 최적화 | ~$2.00 | X |
| Claude 4 Sonnet | Anthropic | 비공개 | 200K | 코딩, 에이전트 최강 | ~$3.00 | X |
| Claude 4 Opus | Anthropic | 비공개 | 200K (1M) | 최고 지능, 깊은 추론 | ~$15.00 | X |
| Llama 3.3 | Meta | 70B | 128K | 오픈웨이트, 커스텀 가능 | 셀프호스팅 | O |
| Llama 4 Maverick | Meta | 400B (MoE) | 1M | MoE, 멀티모달 | 셀프호스팅 | O |
| DBRX | Databricks | 132B (MoE) | 32K | MoE 아키텍처, 효율적 | Foundation Model API | O |
| Mistral Large | Mistral AI | 비공개 | 128K | 유럽 기반, 다국어 강점 | ~$2.00 | 부분 |
주의 모델 성능은 빠르게 변화합니다. 최신 벤치마크는 LMSYS Chatbot Arena를 참고하세요. 위 가격은 2025년 기준 대략적 수치이며, 공식 가격표를 확인하세요.
MoE (Mixture of Experts) 아키텍처
위 모델 비교표에서 DBRX(132B), Llama 4 Maverick(400B)에 (MoE) 라는 표기가 있습니다. MoE는 현재 대형 LLM의 핵심 아키텍처 트렌드입니다. 기존 Dense 모델의 문제: 전통적인 Dense 모델은 모든 파라미터가 모든 토큰에 대해 활성화 됩니다. 예를 들어 Llama 70B는 하나의 토큰을 생성할 때마다 700억 개의 파라미터를 모두 사용합니다. 모델이 커질수록 추론 비용이 선형으로 증가합니다. MoE의 핵심 아이디어: 모델 내부에 여러 개의 Expert(전문가) 네트워크 를 두고, 각 토큰마다 Router 네트워크 가 가장 적합한 Top-K개의 Expert만 선택하여 활성화합니다. 나머지 Expert는 비활성 상태로 유지됩니다. 주요 MoE 모델 예시:| 모델 | 전체 파라미터 | 토큰당 활성 파라미터 | 활성 비율 | 비고 |
|---|---|---|---|---|
| DBRX | 132B | 36B | ~27% | 16 experts 중 4개 활성 |
| Llama 4 Maverick | 400B | ~100B | ~25% | 128 experts, 멀티모달 |
| Mixtral 8x22B | 176B | ~39B | ~22% | 8 experts 중 2개 활성 |
| GPT-4(추정) | 1.8T (루머) | ~200B (추정) | ~11% | 8 experts (비공식) |
| 항목 | Dense 모델 | MoE 모델 |
|---|---|---|
| 추론 속도 | 파라미터에 비례하여 느림 | 활성 파라미터만 사용하므로 빠름 |
| 메모리 사용 | 전체 파라미터 로드 필요 | 전체 파라미터 로드 필요 (메모리는 절약 안 됨) |
| 학습 복잡도 | 단순 | Router 학습 등 추가 복잡성 |
| 성능 | 파라미터 대비 안정적 | 같은 추론 비용으로 더 높은 성능 |
| 서빙 비용 | 높음 | 낮음 (활성 파라미터 기준) |
참고 고객에게 설명할 때: MoE는 “132B 모델의 지능을 가지면서 36B 모델의 비용으로 운영할 수 있는” 아키텍처입니다. DBRX가 Foundation Model API에서 비용 효율적인 이유가 바로 이것입니다. 다만 메모리에는 전체 파라미터를 올려야 하므로, GPU 메모리 요구사항은 전체 파라미터 기준입니다.
Emergent Abilities (창발적 능력)
LLM에서 가장 흥미로운 현상 중 하나는 창발적 능력(Emergent Abilities) 입니다. 모델의 파라미터 수가 특정 임계점을 넘어서면, 작은 모델에는 존재하지 않던 완전히 새로운 능력이 갑자기 나타나는 현상입니다.대표적 창발 능력 사례
| 능력 | 등장 임계점 (대략) | 설명 |
|---|---|---|
| Few-shot Learning | ~100B+ (GPT-3, 175B) | 몇 개의 예시만으로 새로운 과제 수행 |
| Chain-of-Thought 추론 | ~100B+ | “단계적으로 생각하세요”라는 지시로 복잡한 문제 해결 |
| 코드 생성 | ~60B+ | 자연어 설명에서 실행 가능한 코드 생성 |
| 수학적 추론 | ~100B+ | 문장형 수학 문제 해결 |
주의: 창발에 대한 최신 논쟁
최근 연구에서는 창발적 능력이 “진짜 불연속적 도약”이 아니라 평가 지표(metric)의 특성에 의한 착시 일 수 있다는 주장이 제기되었습니다 (Schaeffer et al., 2023). 비선형적 평가 지표(예: exact match)를 연속적 지표(예: token-level accuracy)로 바꾸면 능력이 “점진적으로” 향상되는 것처럼 보인다는 것입니다.참고 “파라미터가 많을수록 좋다” 오해와의 연결: 창발적 능력은 모델 크기의 중요성을 보여주지만, 이것이 “무조건 크면 좋다”는 의미는 아닙니다. MoE 아키텍처, 고품질 학습 데이터, RLHF 등 다른 요소도 동일하게 중요합니다. Llama 3 8B가 특정 작업에서 이전 세대 70B 모델을 능가하는 사례가 이를 증명합니다.
흔한 오해 (Common Misconceptions)
고객 미팅에서 자주 마주치는 LLM에 대한 대표적 오해와 이에 대한 정확한 사실을 정리합니다.| 오해 | 사실 |
|---|---|
| ”LLM은 인터넷을 실시간 검색한다” | LLM은 학습 데이터의 패턴을 기억할 뿐, 실시간 검색하지 않습니다. RAG를 붙여야 최신 정보를 활용합니다. |
| ”파라미터가 많을수록 무조건 좋다” | MoE(Mixture of Experts) 아키텍처는 전체 파라미터 중 일부만 활성화합니다. 효율성과 성능의 균형이 핵심입니다. |
| ”Temperature 0이면 항상 정확하다” | Temperature 0은 “일관된” 출력을 의미하지 “정확한” 출력을 보장하지 않습니다. 틀린 답변을 일관되게 생성할 수 있습니다. |
| ”긴 컨텍스트에 모든 것을 넣으면 된다” | 컨텍스트가 길수록 비용이 증가하고 “Lost in the Middle” 문제가 발생합니다. 핵심 정보만 효율적으로 제공하세요. |
| ”Fine-tuning하면 환각이 없어진다” | Fine-tuning은 스타일/형식을 맞추는 데 효과적이지만, 환각을 근본적으로 해결하지 않습니다. 사실 정확도가 목표라면 RAG가 더 적합합니다. |
모델 선택 의사결정 프레임워크
모델을 선택할 때 “가장 좋은 모델”이 아니라 “우리 상황에 가장 적합한 모델” 을 찾아야 합니다.의사결정 플로차트
사용 사례별 추천 모델
| 사용 사례 | 추천 모델 | 이유 |
|---|---|---|
| 고객 챗봇 | Claude 4 Sonnet, GPT-4o | 자연스러운 대화, 안전한 응답 |
| 코드 생성/리뷰 | Claude 4 Sonnet, GPT-4.1 | SWE-bench 최고 성능 |
| 문서 요약 (100p+) | GPT-4.1, Llama 4 Maverick | 1M 컨텍스트 지원 |
| 수학/과학 추론 | o3, DeepSeek R1 | 추론 모델 특화 |
| 다국어 (한국어) | Claude 4 Sonnet, GPT-4o | 다국어 벤치마크 상위 |
| 비용 최적화 | Llama 3.3 70B + 양자화 | 셀프호스팅으로 API 비용 제거 |
| 사내 보안 환경 | Llama 3.3/4, Mistral | 오픈소스, VPC 내 배포 가능 |
추론 모델 (Reasoning Models) 카테고리
2024~2025년에 등장한 새로운 카테고리로, 답변 전에 “생각하는 시간”을 가지는 모델입니다.| 모델 | 개발사 | 방식 | 강점 | 비용 |
|---|---|---|---|---|
| o1 / o3 | OpenAI | Chain-of-Thought를 내부적으로 생성 | 수학, 코딩, 과학 추론 | 매우 높음 |
| DeepSeek R1 | DeepSeek | 오픈소스 추론 모델. RL로 학습 | o1 수준 성능, 오픈소스 | 셀프호스팅 |
| Claude Extended Thinking | Anthropic | Sonnet/Opus에 “thinking” 모드 | 복잡한 분석, 계획 수립 | 높음 |
- 복잡한 수학/논리 문제
- 다단계 코딩 과제 (버그 분석, 아키텍처 설계)
- 전략적 의사결정이 필요한 에이전트 오케스트레이션
- 단순 Q&A, 요약, 번역에는 불필요(비용 낭비)
추론 모델의 상세한 작동 원리는 추론 모델 (Reasoning Models) 페이지를 참고하세요.
증류 (Distillation): 큰 모델의 지식을 작은 모델로
증류는 Teacher 모델(대형)의 출력을 Student 모델(소형)이 모방 하도록 학습하는 기법입니다. 비용 최적화의 핵심 전략입니다.증류의 과정
증류의 실무적 활용
| 단계 | 모델 | 역할 | 비용 |
|---|---|---|---|
| PoC/프로토타입 | Claude 4 Opus | 최고 정확도로 요구사항 검증 | 높음 |
| 증류 데이터 생성 | Claude 4 Opus | 10K+ (입력, 이상적 출력) 쌍 생성 | 중간 (일회성) |
| Student 학습 | Llama 3.3 8B | Opus 출력으로 SFT | 낮음 (일회성) |
| 프로덕션 서빙 | Llama 3.3 8B (증류된) | Opus의 90%+ 성능, 1/50 비용 | 매우 낮음 |
주의 라이선스 주의: OpenAI, Anthropic 등의 API 이용약관은 “경쟁 모델 학습을 위한 출력 사용”을 제한할 수 있습니다. 증류를 수행하기 전에 반드시 해당 모델의 이용약관을 확인하세요. 오픈소스 Teacher 모델(Llama 등)을 사용하면 이 제약이 없습니다.
Databricks Foundation Model APIs
Databricks에서 LLM을 사용하는 가장 빠른 방법은 Foundation Model APIs 입니다.사용 가능 모델 (2025년 기준)
| 모델 | 유형 | 컨텍스트 | 과금 방식 |
|---|---|---|---|
| Claude 4 Sonnet | 범용 | 200K | Pay-per-token |
| Claude 4 Opus | 최고 성능 | 200K | Pay-per-token |
| GPT-4o | 범용 | 128K | Pay-per-token |
| GPT-4.1 | 코딩/지시 | 1M | Pay-per-token |
| Llama 3.3 70B | 오픈소스 범용 | 128K | Pay-per-token / Provisioned |
| Llama 4 Maverick | 오픈소스 MoE | 1M | Pay-per-token / Provisioned |
| DBRX | Databricks MoE | 32K | Pay-per-token / Provisioned |
| Mixtral 8x22B | 오픈소스 MoE | 64K | Pay-per-token / Provisioned |
Pay-per-token vs Provisioned Throughput
| 항목 | Pay-per-token | Provisioned Throughput |
|---|---|---|
| 과금 | 사용한 토큰 수만큼 | 시간당 고정 요금 |
| 지연 시간 | 변동 (공유 인프라) | 일관된 낮은 지연 |
| 처리량 | 제한적 (rate limit) | 보장된 처리량 |
| 적합한 상황 | 개발, PoC, 간헐적 사용 | 프로덕션, 대량 처리 |
| 비용 효율 | 사용량 적을 때 유리 | 월 $1,000+ 사용 시 유리 |
참고 모델 선택 가이드: 개발/PoC 단계에서는 Pay-per-token으로 Claude 4 Sonnet 또는 GPT-4o를 사용하세요. 프로덕션 전환 시 비용 분석을 통해 Provisioned Throughput(오픈소스 모델) 전환을 검토합니다. 대부분의 경우 Llama 3.3 70B의 Provisioned Throughput 이 가장 비용 효율적입니다.
멀티모달 모델 비교
최신 LLM은 텍스트뿐 아니라 이미지, 오디오, 비디오 를 이해하는 멀티모달 능력을 갖추고 있습니다.| 모델 | 텍스트 | 이미지 입력 | 이미지 생성 | 오디오 입력 | 오디오 생성 | 비디오 입력 |
|---|---|---|---|---|---|---|
| GPT-4o | O | O | O (DALL-E) | O | O | O (제한적) |
| GPT-4.1 | O | O | X | X | X | X |
| Claude 4 Sonnet | O | O | X | X | X | X |
| Claude 4 Opus | O | O | X | X | X | X |
| Llama 4 Maverick | O | O | X | X | X | X |
| Gemini 2.5 Pro | O | O | O | O | O | O |
참고 멀티모달 활용 사례: 제조업의 불량 검출(이미지 입력), 콜센터 음성 분석(오디오 입력), 문서 OCR(이미지→텍스트) 등에서 멀티모달 모델이 활발히 사용됩니다. 상세한 내용은 멀티모달 LLM 페이지를 참고하세요.
< 이전: Hallucination | 다음: 실전 가이드 >