LLM API & 플랫폼

왜 중요한가

LLM API는 GenAI 애플리케이션의 두뇌 입니다. 채팅봇, 코딩 어시스턴트, 검색 엔진, 자동화 워크플로 등 거의 모든 GenAI 도구는 내부적으로 하나 이상의 LLM API를 호출합니다. 따라서 LLM API 생태계를 이해하는 것은 GenAI 도구 선택과 아키텍처 설계의 출발점입니다. 2024~2025년 LLM API 시장의 핵심 변화는 세 가지입니다.

성능 격차 축소: GPT-4가 독보적이던 시대에서, Claude, Gemini, Llama 등이 동등하거나 특정 영역에서 우위를 보이는 다극화 시대 로 전환
가격 급락: 동일 성능 대비 API 비용이 2024년 한 해 동안 10~100배 하락
추론 모델 등장: 단순 생성이 아닌 “생각하는” 모델 (o1, o3, DeepSeek R1)이 새로운 카테고리 형성

주요 LLM API 비교

아래 테이블은 2025년 4월 기준 주요 LLM API 제공업체와 대표 모델을 비교합니다. 가격은 100만 토큰(1M tokens) 기준이며, 모델 업데이트에 따라 변동될 수 있습니다.

제공업체	대표 모델	컨텍스트 길이	입력 가격 ($/1M)	출력 가격 ($/1M)	핵심 강점
OpenAI	GPT-4.1	1M	$2.00	$8.00	가장 넓은 생태계, 지시 따르기 최적화
	GPT-4o	128K	$2.50	$10.00	멀티모달, 빠른 속도
	o3-mini	200K	$1.10	$4.40	추론 특화, 비용 효율
	GPT-4o-mini	128K	$0.15	$0.60	저비용 범용
Anthropic	Claude 4 Opus	200K	$15.00	$75.00	최고 수준 코딩/분석, 깊은 추론
	Claude 4 Sonnet	200K	$3.00	$15.00	코딩/에이전트 최적 밸런스
	Claude 3.5 Haiku	200K	$0.80	$4.00	빠른 속도, 낮은 비용
Google	Gemini 2.5 Pro	1M+	$1.25~$ 2.50	$10.00~$ 15.00	초장문 컨텍스트, 멀티모달
	Gemini 2.0 Flash	1M	$0.10	$0.40	초저가, 빠른 응답
Meta	Llama 4 Maverick	1M	자체호스팅	자체호스팅	오픈소스, 128 전문가 MoE
	Llama 4 Scout	10M	자체호스팅	자체호스팅	초장문 컨텍스트, 16 전문가 MoE
Mistral	Mistral Large	128K	$2.00	$6.00	유럽 기반, 다국어, 효율적
	Codestral	256K	$0.30	$0.90	코딩 전용, 80+ 언어
DeepSeek	DeepSeek V3	128K	$0.27	$1.10	GPT-4급 성능, 초저가
	DeepSeek R1	128K	$0.55	$2.19	추론 특화, o1 대비 저렴

이 비교에서 가장 눈에 띄는 트렌드는 가격 대비 성능의 급격한 개선 입니다. DeepSeek V3는 GPT-4 수준의 성능을 GPT-4 Turbo 대비 약 20분의 1 가격에 제공하며, Gemini 2.0 Flash는 $0.10/1M 입력이라는 파격적 가격으로 대량 처리 워크로드에 적합합니다.

제공업체별 상세 분석

OpenAI

GenAI 시장의 개척자이자 표준 설정자 입니다. ChatGPT로 대중화를 이끌었고, OpenAI API는 사실상 업계 표준 인터페이스가 되었습니다. 대부분의 LLM 서빙 플랫폼(Databricks 포함)이 “OpenAI 호환 API”를 제공한다는 사실 자체가 OpenAI의 시장 지배력을 보여줍니다. 2025년 핵심 모델:

GPT-4.1: 코딩과 지시 따르기(instruction following) 에 특화된 모델입니다. OpenAI는 이 모델에서 “시스템 프롬프트를 더 충실히 따르는” 것을 핵심 개선점으로 내세웠습니다. 실무적으로 이는 복잡한 출력 포맷 지정, JSON 스키마 준수, 다단계 지시사항에서의 정확도를 의미합니다. 1M 토큰 컨텍스트를 지원하지만, 긴 컨텍스트에서의 “Lost in the Middle” 현상(중간 부분 정보를 놓치는 문제)은 여전히 주의가 필요합니다.
o3 / o3-mini: 추론 모델(Reasoning Model) 로, 답변 생성 전에 내부적으로 “사고 토큰(thinking tokens)“을 생성하여 단계별 추론을 수행합니다. 수학 올림피아드(AIME 2024) 정답률 96.7%, 코딩 경진대회(Codeforces) ELO 2727을 달성했습니다. 그러나 사고 토큰이 과금되므로 단순 작업에 사용하면 비용이 5~10배 증가 할 수 있습니다.
GPT-4o-mini: 비용 효율적 범용 모델. 입력 $0.15/1M으로 대부분의 분류, 요약, 간단한 생성 작업에 충분하며, 대량 배치 처리의 핵심 워크호스(workhorse)입니다.

선택 기준: 생태계 호환성이 가장 중요한 경우, 다양한 서드파티 도구와 연동해야 하는 경우, 구조화된 출력(Structured Output)이 필요한 경우

Anthropic

안전성과 유용성의 균형 을 핵심 가치로 내세우는 회사입니다. Claude 모델은 특히 코딩, 긴 문서 분석, 지시 따르기 에서 강점을 보이며, 특히 2024~2025년에 코딩 벤치마크에서 지속적으로 상위권을 기록하고 있습니다. 2025년 핵심 모델:

Claude 4 Opus: 최고 성능 모델. Extended Thinking(확장 사고) 이 핵심 차별점입니다. OpenAI의 o3와 유사하게 사고 과정을 거치되, 사고 토큰을 사용자에게 노출하지 않고 내부적으로 처리합니다. 복잡한 코딩, 수학, 긴 문서 분석에서 GPT-4.1과 o3를 교차적으로 능가합니다. 가격이 높지만($15/1M 입력), 한 번의 호출로 정확한 결과를 얻으면 반복 호출보다 총 비용이 낮을 수 있습니다.
Claude 4 Sonnet: 성능-비용 최적 밸런스 로, AI 코딩 어시스턴트(Cursor, Claude Code)의 기본 모델로 가장 많이 선택됩니다. Agent 워크로드에서 “도구 호출 정확도”가 특히 높아, 복잡한 multi-step 작업에서 실패율이 낮습니다.
Claude 3.5 Haiku: 빠른 응답이 필요한 실시간 애플리케이션용. 분류, 추출, 간단한 변환 작업에서 GPT-4o-mini와 경쟁합니다.

기술적 차별점 — 200K 컨텍스트의 실질적 의미: Claude의 200K 토큰 컨텍스트는 단순히 “긴 텍스트를 넣을 수 있다”는 것이 아닙니다. Anthropic은 “Needle in a Haystack” 테스트 (긴 문서 중간에 숨겨진 정보를 정확히 찾는 테스트)에서 거의 100%의 정확도를 보여주었습니다. 이는 200K 전체에서 정보 손실 없이 검색/분석이 가능하다는 의미로, RAG 없이도 중간 규모 코드베이스나 문서를 통째로 처리할 수 있습니다. 선택 기준: 코딩 작업이 핵심인 경우, 긴 코드베이스나 문서를 한 번에 분석해야 하는 경우, Agent 기반 자동화에서 도구 호출 정확도가 중요한 경우, 안전한 출력이 중요한 기업 환경

Google

멀티모달과 초장문 컨텍스트 에서 차별화합니다. Google의 핵심 전략은 “가장 큰 컨텍스트 윈도우”와 “가장 낮은 가격”으로 시장을 공략하는 것입니다. 2025년 핵심 모델:

Gemini 2.5 Pro: 1M+ 컨텍스트를 실용적 수준에서 최초로 구현한 모델입니다. 100만 토큰 컨텍스트의 기술적 의미는, 약 70만 단어(영문 책 8~10권, 코드 약 3만 줄)를 한 번에 처리할 수 있다는 것입니다. Google은 이를 위해 Ring Attention 과 같은 분산 어텐션 기법을 사용하여, 긴 시퀀스를 여러 TPU/GPU에 분산 처리합니다. 추론 모드(thinking)도 지원하여 o3, Claude Extended Thinking과 경쟁합니다.
Gemini 2.0 Flash: $0.10/1M 입력이라는 파격적 가격. 이는 GPT-4o-mini보다도 저렴하면서 성능은 GPT-4o에 근접합니다. 대량 텍스트 분류, 데이터 추출, 번역 등 배치 작업의 가격 혁신입니다.

선택 기준: 초장문 문서 처리(책 한 권, 코드베이스 전체), 멀티모달 입력(이미지+텍스트+영상)이 필요한 경우, GCP 환경, 대량 배치 처리 비용 최소화

Meta (Llama)

오픈소스 LLM의 선두주자 입니다. Llama 시리즈는 누구나 무료로 사용, 수정, 배포할 수 있어, 데이터 주권과 커스터마이징이 중요한 기업에서 널리 사용됩니다. 2025년 핵심 모델:

Llama 4 Maverick: 400B 파라미터 MoE(Mixture of Experts, 여러 전문가 모델을 혼합하여 효율적으로 추론하는 아키텍처). 128개 전문가 중 활성 17개로 효율적
Llama 4 Scout: 10M 토큰 컨텍스트. 109B 파라미터의 경량 MoE

선택 기준: 자체 인프라에서 LLM을 운영해야 하는 경우, 모델을 파인튜닝해야 하는 경우, 라이선스 비용을 없애고 싶은 경우

Mistral

유럽 기반 AI 회사로, EU 규제 환경에서의 데이터 주권과 효율성 을 강조합니다. 2025년 핵심 모델:

Mistral Large: 다국어 지원, 128K 컨텍스트, Function Calling 강점
Codestral: 코딩 전용 모델. 80개 이상 프로그래밍 언어 지원, 256K 컨텍스트

선택 기준: 유럽 데이터 규제 준수 필요, 코딩 전용 모델이 필요한 경우, 다국어 지원

DeepSeek

중국 기반 AI 회사로, 압도적 비용 효율 로 업계에 충격을 주었습니다. 2024년 12월 DeepSeek V3 출시 당시 “GPT-4급 성능을 20분의 1 비용으로”라는 평가를 받았습니다. 2025년 핵심 모델:

DeepSeek V3: 671B MoE 모델. 범용 성능이 GPT-4 Turbo에 근접
DeepSeek R1: 추론 특화 모델. o1 대비 4분의 1 가격으로 유사 성능

선택 기준: 비용이 최우선 고려사항인 경우, 추론(reasoning) 작업이 많은 경우

주의 DeepSeek는 중국 기반 회사로, 일부 기업에서는 데이터 규제/보안 정책상 사용이 제한될 수 있습니다. 민감한 데이터를 다루는 경우 반드시 조직의 보안 정책을 확인하세요. 오픈소스 모델(DeepSeek R1)을 자체 인프라에서 호스팅하는 방식으로 이 문제를 우회할 수 있습니다.

모델 선택 기준: 작업 유형별 추천

아래 테이블은 주요 작업 유형별로 가장 적합한 모델을 추천합니다. “최고 성능”은 비용을 고려하지 않은 최적 모델이고, “가성비”는 비용 대비 성능이 우수한 모델입니다.

작업 유형	최고 성능	가성비	이유
코딩 (생성/수정)	Claude 4 Opus	Claude 4 Sonnet	코드 품질, 지시 따르기에서 일관적 우위
복잡한 추론	o3	DeepSeek R1	수학, 과학, 논리 문제에서 단계별 사고
장문 분석	Gemini 2.5 Pro	Gemini 2.0 Flash	1M+ 토큰으로 책/코드베이스 전체 분석
대화/챗봇	GPT-4o	GPT-4o-mini	자연스러운 대화, 넓은 지식
데이터 분석	Claude 4 Sonnet	DeepSeek V3	구조화된 데이터 이해, SQL/Python 생성
멀티모달	Gemini 2.5 Pro	GPT-4o	이미지/영상/오디오 네이티브 처리
대량 처리 (배치)	GPT-4o-mini	Gemini 2.0 Flash	최저 비용으로 대량 텍스트 처리
자체 호스팅	Llama 4 Maverick	Llama 4 Scout	오픈소스, 데이터 주권 보장

이 테이블의 핵심 시사점은 “만능 모델은 없다” 는 것입니다. 각 모델은 특정 작업에서 강점을 보이므로, 프로덕션 시스템에서는 작업 유형에 따라 여러 모델을 조합하는 모델 라우팅 전략이 효과적입니다.

모델 라우팅 전략: 프로덕션의 핵심 아키텍처

프로덕션 GenAI 시스템에서 단일 모델만 사용하는 것은 비효율적입니다. 모델 라우팅(Model Routing) 은 요청의 복잡도, 작업 유형, 비용 제약에 따라 최적의 모델로 자동 분기하는 아키텍처 패턴입니다.

라우팅이 필요한 이유

동일한 챗봇이라도 “안녕하세요”에 Claude 4 Opus(

15/1M)를 호출하는 것은 낭비이고, 복잡한 코드 분석 요청에 GPT-4o-mini(

0.15/1M)를 사용하면 품질이 부족합니다. 실제 프로덕션 트래픽을 분석하면, 70~80%의 요청은 간단한 모델로 충분 하고, 나머지 20~30%만 고성능 모델이 필요합니다.

실전 라우팅 패턴

아래는 작업 특성별 권장 라우팅 패턴을 보여줍니다.

요청 특성	라우팅 대상	예상 비용 절감	예시
단순 분류/추출	GPT-4o-mini, Gemini Flash	90%+	감성 분석, 키워드 추출
일반 대화/요약	GPT-4o, Claude Haiku	60~70%	FAQ 봇, 문서 요약
복잡한 코딩/분석	Claude 4 Sonnet	기준선	코드 리뷰, 아키텍처 분석
수학/논리 추론	o3, DeepSeek R1	N/A (전용)	수학 풀이, 논리적 증명
초장문 문서 처리	Gemini 2.5 Pro	N/A (전용)	책 요약, 대규모 코드 분석

이 패턴을 적용하면 평균 API 비용을 60~80% 절감 하면서 사용자 경험은 유지하거나 오히려 향상시킬 수 있습니다. 간단한 질문에는 빠른 모델이 응답하여 지연시간도 줄어들기 때문입니다.

참고 Databricks Foundation Model APIs를 사용하면 하나의 엔드포인트에서 여러 모델을 호출할 수 있으므로, AI Gateway 패턴으로 모델 라우팅을 구현하기 용이합니다. Unity Catalog의 접근 제어와 결합하면 모델별 사용 권한도 세밀하게 관리할 수 있습니다.

Databricks Foundation Model APIs

Databricks는 Foundation Model APIs 를 통해 주요 LLM을 통합된 인터페이스로 호출할 수 있습니다. 이는 OpenAI 호환 API 형태로 제공되므로, 기존 OpenAI SDK 코드를 최소한의 수정으로 Databricks에서 실행할 수 있습니다.

핵심 장점

통합 API: 하나의 엔드포인트로 GPT, Claude, Llama, Mistral, DBRX 등 다양한 모델 호출
거버넌스 통합: Unity Catalog를 통한 접근 제어, 사용량 추적, 비용 관리
네트워크 보안: VPC/VNet 내에서 API 호출, 데이터가 외부로 나가지 않음
이중 과금 모드: 워크로드 특성에 따라 최적의 과금 방식 선택 가능

Pay-per-token vs Provisioned Throughput

Foundation Model APIs는 두 가지 과금 모드를 제공하며, 이 선택이 비용에 큰 영향을 미칩니다. 아래 테이블은 두 과금 모드의 차이를 비교합니다.

기준	Pay-per-token	Provisioned Throughput
과금 방식	토큰당 과금 (사용한 만큼)	시간당 고정 비용 (전용 GPU)
성능 보장	공유 인프라, 피크 시 지연 가능	전용 GPU, 일관된 지연시간
적합 워크로드	실험, 낮은 트래픽, 가변적 사용	프로덕션, 높은 트래픽, SLA 필요
비용 효율	하루 수백 요청 이하일 때 유리	하루 수천 요청 이상일 때 유리
모델 선택	사전 배포 모델만 사용	커스텀 파인튜닝 모델 배포 가능

실무에서의 결정 기준은 일일 토큰 사용량 입니다. 대략적으로, 하루 평균 100만 토큰 이상을 소비한다면 Provisioned Throughput이 비용 효율적이고, 그 이하라면 Pay-per-token이 유리합니다. 초기에는 Pay-per-token으로 시작하여 사용량 패턴을 파악한 후 전환하는 것이 일반적입니다.

사용 예시

from openai import OpenAI

# Databricks Foundation Model API (OpenAI 호환)
client = OpenAI(
    base_url="https://<workspace>.databricks.com/serving-endpoints",
    api_key="<databricks-token>"
)

response = client.chat.completions.create(
    model="databricks-claude-sonnet-4",  # Databricks에서 호스팅하는 모델
    messages=[
        {"role": "user", "content": "PySpark로 윈도우 함수를 사용하는 예시를 보여줘"}
    ]
)

지원 모델 (2025년 4월 기준)

아래 테이블은 Databricks Foundation Model APIs에서 지원하는 주요 모델입니다.

모델	제공업체	용도
Claude 4 Sonnet / 3.5 Haiku	Anthropic	코딩, 분석, Agent
GPT-4o / GPT-4o-mini	OpenAI	범용, 멀티모달
Llama 4 Maverick / Scout	Meta	범용, 장문 처리
Mistral Large / Small	Mistral	다국어, 효율적 처리
DBRX	Databricks	Databricks 최적화 오픈소스

각 모델은 databricks-<model-name> 형식의 엔드포인트로 즉시 사용 가능합니다. 별도의 API 키 발급이나 외부 서비스 가입이 필요 없습니다.

참고 Foundation Model APIs 외에도, Model Serving 을 통해 커스텀 파인튜닝된 모델이나 Hugging Face 모델을 직접 배포할 수 있습니다. 자세한 내용은 오픈소스 LLM 생태계 페이지를 참조하세요.

가이드 목록

Platform Setup

AI/BI & Analytics

GenAI & Agent

Compute & Apps

Data Engineering

GenAI 핵심 개념

RAG (검색 증강 생성)

MCP (Model Context Protocol)

ML 핵심 개념

Hands-on Workshop

왜 중요한가

주요 LLM API 비교

제공업체별 상세 분석

OpenAI

Anthropic

Google

Meta (Llama)

Mistral

DeepSeek

모델 선택 기준: 작업 유형별 추천

모델 라우팅 전략: 프로덕션의 핵심 아키텍처

라우팅이 필요한 이유

실전 라우팅 패턴

Databricks Foundation Model APIs

핵심 장점

Pay-per-token vs Provisioned Throughput

사용 예시

지원 모델 (2025년 4월 기준)

가이드 목록

Platform Setup

AI/BI & Analytics

GenAI & Agent

Compute & Apps

Data Engineering

GenAI 핵심 개념

RAG (검색 증강 생성)

MCP (Model Context Protocol)

ML 핵심 개념

Hands-on Workshop

​왜 중요한가

​주요 LLM API 비교

​제공업체별 상세 분석

​OpenAI

​Anthropic

​Google

​Meta (Llama)

​Mistral

​DeepSeek

​모델 선택 기준: 작업 유형별 추천

​모델 라우팅 전략: 프로덕션의 핵심 아키텍처

​라우팅이 필요한 이유

​실전 라우팅 패턴

​Databricks Foundation Model APIs

​핵심 장점

​Pay-per-token vs Provisioned Throughput

​사용 예시

​지원 모델 (2025년 4월 기준)

왜 중요한가

주요 LLM API 비교

제공업체별 상세 분석

OpenAI

Anthropic

Google

Meta (Llama)

Mistral

DeepSeek

모델 선택 기준: 작업 유형별 추천

모델 라우팅 전략: 프로덕션의 핵심 아키텍처

라우팅이 필요한 이유

실전 라우팅 패턴

Databricks Foundation Model APIs

핵심 장점

Pay-per-token vs Provisioned Throughput

사용 예시

지원 모델 (2025년 4월 기준)