Skip to main content

왜 중요한가

LLM API는 GenAI 애플리케이션의 두뇌 입니다. 채팅봇, 코딩 어시스턴트, 검색 엔진, 자동화 워크플로 등 거의 모든 GenAI 도구는 내부적으로 하나 이상의 LLM API를 호출합니다. 따라서 LLM API 생태계를 이해하는 것은 GenAI 도구 선택과 아키텍처 설계의 출발점입니다. 2024~2025년 LLM API 시장의 핵심 변화는 세 가지입니다.
  1. 성능 격차 축소: GPT-4가 독보적이던 시대에서, Claude, Gemini, Llama 등이 동등하거나 특정 영역에서 우위를 보이는 다극화 시대 로 전환
  2. 가격 급락: 동일 성능 대비 API 비용이 2024년 한 해 동안 10~100배 하락
  3. 추론 모델 등장: 단순 생성이 아닌 “생각하는” 모델 (o1, o3, DeepSeek R1)이 새로운 카테고리 형성

주요 LLM API 비교

아래 테이블은 2025년 4월 기준 주요 LLM API 제공업체와 대표 모델을 비교합니다. 가격은 100만 토큰(1M tokens) 기준이며, 모델 업데이트에 따라 변동될 수 있습니다.
제공업체대표 모델컨텍스트 길이입력 가격 ($/1M)출력 가격 ($/1M)핵심 강점
OpenAIGPT-4.11M$2.00$8.00가장 넓은 생태계, 지시 따르기 최적화
GPT-4o128K$2.50$10.00멀티모달, 빠른 속도
o3-mini200K$1.10$4.40추론 특화, 비용 효율
GPT-4o-mini128K$0.15$0.60저비용 범용
AnthropicClaude 4 Opus200K$15.00$75.00최고 수준 코딩/분석, 깊은 추론
Claude 4 Sonnet200K$3.00$15.00코딩/에이전트 최적 밸런스
Claude 3.5 Haiku200K$0.80$4.00빠른 속도, 낮은 비용
GoogleGemini 2.5 Pro1M+1.25 1.25~2.5010.00 10.00~15.00초장문 컨텍스트, 멀티모달
Gemini 2.0 Flash1M$0.10$0.40초저가, 빠른 응답
MetaLlama 4 Maverick1M자체호스팅자체호스팅오픈소스, 128 전문가 MoE
Llama 4 Scout10M자체호스팅자체호스팅초장문 컨텍스트, 16 전문가 MoE
MistralMistral Large128K$2.00$6.00유럽 기반, 다국어, 효율적
Codestral256K$0.30$0.90코딩 전용, 80+ 언어
DeepSeekDeepSeek V3128K$0.27$1.10GPT-4급 성능, 초저가
DeepSeek R1128K$0.55$2.19추론 특화, o1 대비 저렴
이 비교에서 가장 눈에 띄는 트렌드는 가격 대비 성능의 급격한 개선 입니다. DeepSeek V3는 GPT-4 수준의 성능을 GPT-4 Turbo 대비 약 20분의 1 가격에 제공하며, Gemini 2.0 Flash는 $0.10/1M 입력이라는 파격적 가격으로 대량 처리 워크로드에 적합합니다.

제공업체별 상세 분석

OpenAI

GenAI 시장의 개척자이자 표준 설정자 입니다. ChatGPT로 대중화를 이끌었고, OpenAI API는 사실상 업계 표준 인터페이스가 되었습니다. 대부분의 LLM 서빙 플랫폼(Databricks 포함)이 “OpenAI 호환 API”를 제공한다는 사실 자체가 OpenAI의 시장 지배력을 보여줍니다. 2025년 핵심 모델:
  • GPT-4.1: 코딩과 지시 따르기(instruction following) 에 특화된 모델입니다. OpenAI는 이 모델에서 “시스템 프롬프트를 더 충실히 따르는” 것을 핵심 개선점으로 내세웠습니다. 실무적으로 이는 복잡한 출력 포맷 지정, JSON 스키마 준수, 다단계 지시사항에서의 정확도를 의미합니다. 1M 토큰 컨텍스트를 지원하지만, 긴 컨텍스트에서의 “Lost in the Middle” 현상(중간 부분 정보를 놓치는 문제)은 여전히 주의가 필요합니다.
  • o3 / o3-mini: 추론 모델(Reasoning Model) 로, 답변 생성 전에 내부적으로 “사고 토큰(thinking tokens)“을 생성하여 단계별 추론을 수행합니다. 수학 올림피아드(AIME 2024) 정답률 96.7%, 코딩 경진대회(Codeforces) ELO 2727을 달성했습니다. 그러나 사고 토큰이 과금되므로 단순 작업에 사용하면 비용이 5~10배 증가 할 수 있습니다.
  • GPT-4o-mini: 비용 효율적 범용 모델. 입력 $0.15/1M으로 대부분의 분류, 요약, 간단한 생성 작업에 충분하며, 대량 배치 처리의 핵심 워크호스(workhorse)입니다.
선택 기준: 생태계 호환성이 가장 중요한 경우, 다양한 서드파티 도구와 연동해야 하는 경우, 구조화된 출력(Structured Output)이 필요한 경우

Anthropic

안전성과 유용성의 균형 을 핵심 가치로 내세우는 회사입니다. Claude 모델은 특히 코딩, 긴 문서 분석, 지시 따르기 에서 강점을 보이며, 특히 2024~2025년에 코딩 벤치마크에서 지속적으로 상위권을 기록하고 있습니다. 2025년 핵심 모델:
  • Claude 4 Opus: 최고 성능 모델. Extended Thinking(확장 사고) 이 핵심 차별점입니다. OpenAI의 o3와 유사하게 사고 과정을 거치되, 사고 토큰을 사용자에게 노출하지 않고 내부적으로 처리합니다. 복잡한 코딩, 수학, 긴 문서 분석에서 GPT-4.1과 o3를 교차적으로 능가합니다. 가격이 높지만($15/1M 입력), 한 번의 호출로 정확한 결과를 얻으면 반복 호출보다 총 비용이 낮을 수 있습니다.
  • Claude 4 Sonnet: 성능-비용 최적 밸런스 로, AI 코딩 어시스턴트(Cursor, Claude Code)의 기본 모델로 가장 많이 선택됩니다. Agent 워크로드에서 “도구 호출 정확도”가 특히 높아, 복잡한 multi-step 작업에서 실패율이 낮습니다.
  • Claude 3.5 Haiku: 빠른 응답이 필요한 실시간 애플리케이션용. 분류, 추출, 간단한 변환 작업에서 GPT-4o-mini와 경쟁합니다.
기술적 차별점 — 200K 컨텍스트의 실질적 의미: Claude의 200K 토큰 컨텍스트는 단순히 “긴 텍스트를 넣을 수 있다”는 것이 아닙니다. Anthropic은 “Needle in a Haystack” 테스트 (긴 문서 중간에 숨겨진 정보를 정확히 찾는 테스트)에서 거의 100%의 정확도를 보여주었습니다. 이는 200K 전체에서 정보 손실 없이 검색/분석이 가능하다는 의미로, RAG 없이도 중간 규모 코드베이스나 문서를 통째로 처리할 수 있습니다. 선택 기준: 코딩 작업이 핵심인 경우, 긴 코드베이스나 문서를 한 번에 분석해야 하는 경우, Agent 기반 자동화에서 도구 호출 정확도가 중요한 경우, 안전한 출력이 중요한 기업 환경

Google

멀티모달과 초장문 컨텍스트 에서 차별화합니다. Google의 핵심 전략은 “가장 큰 컨텍스트 윈도우”와 “가장 낮은 가격”으로 시장을 공략하는 것입니다. 2025년 핵심 모델:
  • Gemini 2.5 Pro: 1M+ 컨텍스트를 실용적 수준에서 최초로 구현한 모델입니다. 100만 토큰 컨텍스트의 기술적 의미는, 약 70만 단어(영문 책 8~10권, 코드 약 3만 줄)를 한 번에 처리할 수 있다는 것입니다. Google은 이를 위해 Ring Attention 과 같은 분산 어텐션 기법을 사용하여, 긴 시퀀스를 여러 TPU/GPU에 분산 처리합니다. 추론 모드(thinking)도 지원하여 o3, Claude Extended Thinking과 경쟁합니다.
  • Gemini 2.0 Flash: $0.10/1M 입력이라는 파격적 가격. 이는 GPT-4o-mini보다도 저렴하면서 성능은 GPT-4o에 근접합니다. 대량 텍스트 분류, 데이터 추출, 번역 등 배치 작업의 가격 혁신입니다.
선택 기준: 초장문 문서 처리(책 한 권, 코드베이스 전체), 멀티모달 입력(이미지+텍스트+영상)이 필요한 경우, GCP 환경, 대량 배치 처리 비용 최소화

Meta (Llama)

오픈소스 LLM의 선두주자 입니다. Llama 시리즈는 누구나 무료로 사용, 수정, 배포할 수 있어, 데이터 주권과 커스터마이징이 중요한 기업에서 널리 사용됩니다. 2025년 핵심 모델:
  • Llama 4 Maverick: 400B 파라미터 MoE(Mixture of Experts, 여러 전문가 모델을 혼합하여 효율적으로 추론하는 아키텍처). 128개 전문가 중 활성 17개로 효율적
  • Llama 4 Scout: 10M 토큰 컨텍스트. 109B 파라미터의 경량 MoE
선택 기준: 자체 인프라에서 LLM을 운영해야 하는 경우, 모델을 파인튜닝해야 하는 경우, 라이선스 비용을 없애고 싶은 경우

Mistral

유럽 기반 AI 회사로, EU 규제 환경에서의 데이터 주권과 효율성 을 강조합니다. 2025년 핵심 모델:
  • Mistral Large: 다국어 지원, 128K 컨텍스트, Function Calling 강점
  • Codestral: 코딩 전용 모델. 80개 이상 프로그래밍 언어 지원, 256K 컨텍스트
선택 기준: 유럽 데이터 규제 준수 필요, 코딩 전용 모델이 필요한 경우, 다국어 지원

DeepSeek

중국 기반 AI 회사로, 압도적 비용 효율 로 업계에 충격을 주었습니다. 2024년 12월 DeepSeek V3 출시 당시 “GPT-4급 성능을 20분의 1 비용으로”라는 평가를 받았습니다. 2025년 핵심 모델:
  • DeepSeek V3: 671B MoE 모델. 범용 성능이 GPT-4 Turbo에 근접
  • DeepSeek R1: 추론 특화 모델. o1 대비 4분의 1 가격으로 유사 성능
선택 기준: 비용이 최우선 고려사항인 경우, 추론(reasoning) 작업이 많은 경우
주의 DeepSeek는 중국 기반 회사로, 일부 기업에서는 데이터 규제/보안 정책상 사용이 제한될 수 있습니다. 민감한 데이터를 다루는 경우 반드시 조직의 보안 정책을 확인하세요. 오픈소스 모델(DeepSeek R1)을 자체 인프라에서 호스팅하는 방식으로 이 문제를 우회할 수 있습니다.

모델 선택 기준: 작업 유형별 추천

아래 테이블은 주요 작업 유형별로 가장 적합한 모델을 추천합니다. “최고 성능”은 비용을 고려하지 않은 최적 모델이고, “가성비”는 비용 대비 성능이 우수한 모델입니다.
작업 유형최고 성능가성비이유
코딩 (생성/수정)Claude 4 OpusClaude 4 Sonnet코드 품질, 지시 따르기에서 일관적 우위
복잡한 추론o3DeepSeek R1수학, 과학, 논리 문제에서 단계별 사고
장문 분석Gemini 2.5 ProGemini 2.0 Flash1M+ 토큰으로 책/코드베이스 전체 분석
대화/챗봇GPT-4oGPT-4o-mini자연스러운 대화, 넓은 지식
데이터 분석Claude 4 SonnetDeepSeek V3구조화된 데이터 이해, SQL/Python 생성
멀티모달Gemini 2.5 ProGPT-4o이미지/영상/오디오 네이티브 처리
대량 처리 (배치)GPT-4o-miniGemini 2.0 Flash최저 비용으로 대량 텍스트 처리
자체 호스팅Llama 4 MaverickLlama 4 Scout오픈소스, 데이터 주권 보장
이 테이블의 핵심 시사점은 “만능 모델은 없다” 는 것입니다. 각 모델은 특정 작업에서 강점을 보이므로, 프로덕션 시스템에서는 작업 유형에 따라 여러 모델을 조합하는 모델 라우팅 전략이 효과적입니다.

모델 라우팅 전략: 프로덕션의 핵심 아키텍처

프로덕션 GenAI 시스템에서 단일 모델만 사용하는 것은 비효율적입니다. 모델 라우팅(Model Routing) 은 요청의 복잡도, 작업 유형, 비용 제약에 따라 최적의 모델로 자동 분기하는 아키텍처 패턴입니다.

라우팅이 필요한 이유

동일한 챗봇이라도 “안녕하세요”에 Claude 4 Opus(15/1M)를호출하는것은낭비이고,복잡한코드분석요청에GPT4omini(15/1M)를 호출하는 것은 낭비이고, 복잡한 코드 분석 요청에 GPT-4o-mini(0.15/1M)를 사용하면 품질이 부족합니다. 실제 프로덕션 트래픽을 분석하면, 70~80%의 요청은 간단한 모델로 충분 하고, 나머지 20~30%만 고성능 모델이 필요합니다.

실전 라우팅 패턴

아래는 작업 특성별 권장 라우팅 패턴을 보여줍니다.
요청 특성라우팅 대상예상 비용 절감예시
단순 분류/추출GPT-4o-mini, Gemini Flash90%+감성 분석, 키워드 추출
일반 대화/요약GPT-4o, Claude Haiku60~70%FAQ 봇, 문서 요약
복잡한 코딩/분석Claude 4 Sonnet기준선코드 리뷰, 아키텍처 분석
수학/논리 추론o3, DeepSeek R1N/A (전용)수학 풀이, 논리적 증명
초장문 문서 처리Gemini 2.5 ProN/A (전용)책 요약, 대규모 코드 분석
이 패턴을 적용하면 평균 API 비용을 60~80% 절감 하면서 사용자 경험은 유지하거나 오히려 향상시킬 수 있습니다. 간단한 질문에는 빠른 모델이 응답하여 지연시간도 줄어들기 때문입니다.
참고 Databricks Foundation Model APIs를 사용하면 하나의 엔드포인트에서 여러 모델을 호출할 수 있으므로, AI Gateway 패턴으로 모델 라우팅을 구현하기 용이합니다. Unity Catalog의 접근 제어와 결합하면 모델별 사용 권한도 세밀하게 관리할 수 있습니다.

Databricks Foundation Model APIs

Databricks는 Foundation Model APIs 를 통해 주요 LLM을 통합된 인터페이스로 호출할 수 있습니다. 이는 OpenAI 호환 API 형태로 제공되므로, 기존 OpenAI SDK 코드를 최소한의 수정으로 Databricks에서 실행할 수 있습니다.

핵심 장점

  1. 통합 API: 하나의 엔드포인트로 GPT, Claude, Llama, Mistral, DBRX 등 다양한 모델 호출
  2. 거버넌스 통합: Unity Catalog를 통한 접근 제어, 사용량 추적, 비용 관리
  3. 네트워크 보안: VPC/VNet 내에서 API 호출, 데이터가 외부로 나가지 않음
  4. 이중 과금 모드: 워크로드 특성에 따라 최적의 과금 방식 선택 가능

Pay-per-token vs Provisioned Throughput

Foundation Model APIs는 두 가지 과금 모드를 제공하며, 이 선택이 비용에 큰 영향을 미칩니다. 아래 테이블은 두 과금 모드의 차이를 비교합니다.
기준Pay-per-tokenProvisioned Throughput
과금 방식토큰당 과금 (사용한 만큼)시간당 고정 비용 (전용 GPU)
성능 보장공유 인프라, 피크 시 지연 가능전용 GPU, 일관된 지연시간
적합 워크로드실험, 낮은 트래픽, 가변적 사용프로덕션, 높은 트래픽, SLA 필요
비용 효율하루 수백 요청 이하일 때 유리하루 수천 요청 이상일 때 유리
모델 선택사전 배포 모델만 사용커스텀 파인튜닝 모델 배포 가능
실무에서의 결정 기준은 일일 토큰 사용량 입니다. 대략적으로, 하루 평균 100만 토큰 이상을 소비한다면 Provisioned Throughput이 비용 효율적이고, 그 이하라면 Pay-per-token이 유리합니다. 초기에는 Pay-per-token으로 시작하여 사용량 패턴을 파악한 후 전환하는 것이 일반적입니다.

사용 예시

from openai import OpenAI

# Databricks Foundation Model API (OpenAI 호환)
client = OpenAI(
    base_url="https://<workspace>.databricks.com/serving-endpoints",
    api_key="<databricks-token>"
)

response = client.chat.completions.create(
    model="databricks-claude-sonnet-4",  # Databricks에서 호스팅하는 모델
    messages=[
        {"role": "user", "content": "PySpark로 윈도우 함수를 사용하는 예시를 보여줘"}
    ]
)

지원 모델 (2025년 4월 기준)

아래 테이블은 Databricks Foundation Model APIs에서 지원하는 주요 모델입니다.
모델제공업체용도
Claude 4 Sonnet / 3.5 HaikuAnthropic코딩, 분석, Agent
GPT-4o / GPT-4o-miniOpenAI범용, 멀티모달
Llama 4 Maverick / ScoutMeta범용, 장문 처리
Mistral Large / SmallMistral다국어, 효율적 처리
DBRXDatabricksDatabricks 최적화 오픈소스
각 모델은 databricks-<model-name> 형식의 엔드포인트로 즉시 사용 가능합니다. 별도의 API 키 발급이나 외부 서비스 가입이 필요 없습니다.
참고 Foundation Model APIs 외에도, Model Serving 을 통해 커스텀 파인튜닝된 모델이나 Hugging Face 모델을 직접 배포할 수 있습니다. 자세한 내용은 오픈소스 LLM 생태계 페이지를 참조하세요.