Skip to main content

Serverless, Clusters, Scaling

항목DatabricksSnowflakeAWS RedshiftBigQueryMS Fabric
쿼리 엔진Photon (C++ 벡터화, 최대 12x)독점 MPP 엔진AQUA 가속 MPPDremel (서버리스)Spark + Direct Lake
서버리스 모드Serverless SQL Warehouse (즉시 시작)기본 서버리스Redshift Serverless (RPU)On-demand / EditionsFabric Capacity
웜업 시간Serverless: 초 단위수 초 ~ 수 분분 단위즉시초 ~ 분 단위
자동 확장지능형 자동 스케일링 + Queue 관리Multi-cluster Auto-scaleConcurrency Scaling (추가 비용)Slot 기반 자동 확장Capacity Unit 기반
워크로드 격리SQL Warehouse별 독립 클러스터Warehouse별 격리WLM Queues (공유 리소스)Reservation 기반Capacity 기반 분리
자동 최적화Predictive I/O + AI 기반 최적화자동 쿼리 최적화Automatic WLM자동 최적화자동 튜닝
인덱싱/클러스터링Liquid Clustering (자동 데이터 레이아웃)Micro-partition PruningSort Key, Distribution Key (수동)Clustering (자동/수동)자동 관리
유휴 시 비용자동 종료, 유휴 비용 Zero자동 일시중지Serverless: 자동, Provisioned: 과금On-demand: 쿼리당, Editions: 슬롯Capacity 단위 과금
참고 Databricks Photon 엔진: C++ 네이티브 벡터화 실행 엔진으로, TPC-DS 100TB 벤치마크에서 업계 최고 수준의 가격 대비 성능을 달성합니다. Liquid Clustering 은 파티셔닝의 진화로, 데이터 레이아웃을 자동 최적화하여 수동 OPTIMIZE 없이 최적의 쿼리 성능을 유지합니다.
주의 경쟁사 장점: BigQuery는 프로비저닝 없이 완전 서버리스로 동작하여 관리 오버헤드가 가장 낮습니다. Snowflake는 Auto-suspend/Auto-resume이 매우 직관적이며, 멀티 클러스터 자동 확장이 간단합니다.

Photon 엔진 상세

Photon이란?

Photon 은 Databricks가 자체 개발한 C++ 네이티브 벡터화 쿼리 실행 엔진 입니다. Apache Spark의 JVM 기반 엔진을 대체하여 SQL 및 DataFrame 워크로드에서 최대 12배 성능 향상 을 달성합니다.
특성Spark 기본 엔진 (JVM)Photon (C++ 네이티브)
언어Java/Scala (JVM)C++ (네이티브)
실행 방식Volcano 모델 (Row-at-a-time)벡터화 (Batch-at-a-time, SIMD 활용)
메모리 관리JVM GC 의존 (일시 정지 발생)직접 메모리 관리 (GC 없음)
CPU 활용JVM 오버헤드로 비효율CPU 캐시 최적화, SIMD 연산
I/O 최적화기본 Parquet/Delta 리더Predictive I/O (AI 기반 I/O 최적화)
호환성Spark SQL 100%Spark SQL 100% (투명한 대체)

Photon 성능 벤치마크

벤치마크결과
TPC-DS 100TB업계 최고 수준의 가격 대비 성능 (공식 기록)
일반 SQL 워크로드Spark 기본 대비 평균 3-8x 빠름
조인 집약 쿼리최대 12x 성능 향상
문자열 처리C++ 네이티브로 JVM 대비 5-10x
집계 연산벡터화로 3-5x 향상
참고 Photon은 추가 설정 없이 자동 적용 됩니다. SQL Warehouse에서는 기본 활성화되어 있으며, All-Purpose Cluster에서도 Photon 옵션을 켜면 즉시 적용됩니다. 기존 Spark SQL 코드를 수정할 필요가 없습니다.

경쟁사 쿼리 엔진과의 비교

항목Databricks PhotonSnowflake 엔진Redshift AQUABigQuery Dremel
엔진 유형C++ 벡터화독점 MPP (마이크로 파티션)FPGA 가속 캐시 계층서버리스 분산 엔진
오픈소스 여부비공개 (Delta Lake는 오픈소스)비공개비공개비공개
벡터화 실행네이티브 SIMD일부일부 (AQUA)컬럼 기반 벡터화
적응형 쿼리 실행AQE (Adaptive Query Execution)자동 최적화자동 WLM자동 최적화
캐싱 계층Delta Cache + Disk Cache + Result CacheResult Cache + Local DiskResult Cache + AQUA CacheResult Cache (24시간)
동시성 처리Warehouse별 독립 + 자동 스케일링Multi-cluster WarehouseConcurrency Scaling (추가 비용)Slot 기반 자동

Serverless vs Classic 컴퓨팅 상세

Databricks 컴퓨팅 옵션

옵션용도관리 수준시작 시간비용 특성
Serverless SQL WarehouseSQL 분석, BI 쿼리완전 관리형초 단위DBU/초, 유휴 시 Zero
Serverless ComputeNotebooks, Jobs, DLT완전 관리형초 단위DBU/초, 유휴 시 Zero
Classic SQL WarehouseSQL 분석 (커스터마이징 필요 시)반자동분 단위DBU/초 + 인스턴스 비용
All-Purpose Cluster대화형 개발, 탐색 분석수동/반자동분 단위DBU/초 + 인스턴스 비용
Job Cluster스케줄 Job 전용 (일회성)자동 생성/종료분 단위DBU/초 + 인스턴스 비용 (Job 종료 시 자동 삭제)

Serverless 선택 가이드

워크로드 특성에 따른 Databricks 컴퓨팅 선택:

SQL 분석/BI 쿼리
  └─ Serverless SQL Warehouse (기본 권장)

ETL/배치 Job
  └─ Serverless Compute (권장) 또는 Job Cluster (커스터마이징 필요 시)

대화형 개발/탐색
  └─ Serverless Compute (권장) 또는 All-Purpose Cluster (라이브러리 필요 시)

ML 학습 (GPU)
  └─ All-Purpose Cluster 또는 Job Cluster (GPU 인스턴스 지정)

스트리밍 (24/7)
  └─ Classic Cluster (Always-on) — Serverless 대비 예약 인스턴스로 비용 절감

경쟁사 서버리스 비교

항목Databricks ServerlessSnowflakeRedshift ServerlessBigQueryMS Fabric
프로비저닝불필요불필요불필요불필요Capacity 설정 필요
시작 시간초 단위 (웜 풀)수 초 ~ 수 분수십 초 ~ 수 분즉시초 ~ 분
자동 종료비활성 시 즉시 종료Auto-suspend (최소 60초)비활성 시 종료항상 대기 (On-demand)Capacity 유지
스케일 업자동 (쿼리 복잡도 기반)Warehouse 크기 변경 (수동/자동)RPU 자동 조절Slot 자동 확장 (Editions)Capacity 변경
스케일 아웃자동 (동시성 기반)Multi-cluster 자동자동Slot 추가Capacity 추가
최소 과금초 단위 (최소 없음)60초 최소RPU 초 단위10MB 최소 스캔시간 단위
GPU 지원네이티브 (ML/AI 워크로드)Container Services (제한적)N/AN/A (Vertex AI 별도)제한적
워크로드 범위SQL + ETL + ML + NotebooksSQL OnlySQL OnlySQL OnlySQL + Spark

자동 스케일링 메커니즘 비교

Databricks 지능형 자동 스케일링

기능설명
SQL Warehouse 자동 스케일링동시 쿼리 수에 따라 클러스터 수를 자동 조절 (Min/Max 설정)
Queue 관리리소스 부족 시 쿼리를 큐에 대기시키고, 스케일 아웃 후 자동 처리
Spot Instance 활용Worker 노드에 Spot/Preemptible 인스턴스 혼용으로 비용 절감
Cluster Autoscaling작업 부하에 따라 Worker 수 자동 조절 (Min/Max Workers 설정)
Predictive Optimization과거 패턴 기반으로 최적 클러스터 크기 사전 추천

경쟁사 자동 스케일링

플랫폼스케일링 방식장점단점
Snowflake Multi-clusterWarehouse 개수를 자동 확장 (Economy/Standard 모드)설정 간단, 직관적스케일 업은 수동, 크기 변경 시 재시작
Redshift Concurrency Scaling동시성 초과 시 임시 클러스터 자동 추가AWS 네이티브추가 비용 발생(무료 크레딧 소진 후)
BigQuery Slot AutoscalingEdition 모드에서 슬롯 자동 조절완전 자동, 관리 불필요비용 예측 어려움 (피크 시 급증)
Fabric CapacityCapacity Unit 기반 고정 할당예측 가능탄력성 부족, 버스트 시 스로틀링

스케일링 시나리오별 동작 비교

시나리오: 동시 쿼리 50→200으로 급증 (월말 보고서)
플랫폼동작소요 시간추가 비용
DatabricksServerless SQL Warehouse가 자동 클러스터 추가초 단위사용한 만큼만 (DBU)
SnowflakeMulti-cluster Warehouse 자동 확장 (Max 설정 필요)수 분추가 Warehouse 크레딧
RedshiftConcurrency Scaling 활성화 (임시 클러스터)수 분추가 비용 (무료 크레딧 초과 시)
BigQuerySlot Autoscaling (Editions) 또는 큐 대기 (On-demand)즉시 (슬롯 내)Editions: 추가 슬롯 비용
FabricCapacity 초과 시 스로틀링 → 수동 업그레이드분 ~ 시간Capacity 업그레이드 비용

비용 모델 상세: DBU vs 크레딧 vs 슬롯

과금 단위 개념 비교

항목Databricks DBUSnowflake CreditBigQuery SlotRedshift RPU
정의처리 능력의 정규화된 단위가상 웨어하우스 사용량 단위쿼리 실행 컴퓨팅 단위서버리스 컴퓨팅 단위
과금 기준초 단위초 단위 (최소 60초)초 단위 (Editions) / TB 스캔 (On-demand)초 단위
가격 범위 (리스트)$0.07-0.65/DBU (워크로드별)$2-4/Credit (에디션별)0.04/Slothour(Editions)/0.04/Slot-hour (Editions) / 6.25/TB (On-demand)$0.375/RPU-hour
워크로드별 차등SQL: 낮음, ML: 높음, Photon: 중간동일 (Warehouse 크기로 조절)동일 (슬롯 수로 조절)동일 (RPU 수로 조절)
유휴 비용Zero (자동 종료)Zero (Auto-suspend)On-demand: Zero / Editions: Baseline 유지비Zero (Serverless)
예약 할인1년: ~25% / 3년: ~40%Capacity: ~15-25%Commitment: ~25-40%Reserved: ~30-40%

Databricks DBU 워크로드별 가격 (참고)

워크로드 유형DBU 단가 범위 (리스트)특징
Jobs Compute$0.10-0.15/DBUETL, 배치 처리 — 가장 저렴
Jobs Compute (Serverless)$0.07-0.10/DBU서버리스 Job — 관리 비용 절감
All-Purpose Compute$0.40-0.55/DBU대화형 개발 — 가장 비쌈
SQL Warehouse (Serverless)$0.22-0.30/DBUSQL 분석 — 중간
SQL Warehouse (Classic)$0.22-0.30/DBUSQL 분석 — 인스턴스 비용 별도
Model Serving$0.06-0.10/DBU모델 추론 — 저렴
Serverless Real-Time Inference$0.07/DBU실시간 추론
주의 가격은 클라우드(AWS/Azure/GCP)와 리전에 따라 다릅니다. 위 수치는 참고용이며, 정확한 가격은 Databricks Pricing 페이지에서 확인하세요. 커밋 사용(PAYGO/Commit) 계약으로 추가 할인이 가능합니다.

Liquid Clustering vs 경쟁사 데이터 레이아웃

데이터 레이아웃 최적화 비교

항목Databricks Liquid ClusteringSnowflake Micro-partitionRedshift Sort KeyBigQuery Clustering
방식자동 인크리멘탈 클러스터링자동 마이크로 파티셔닝 + 자동 Reclustering수동 Sort Key / Distribution Key 설정수동/자동 클러스터링 칼럼 설정
변경 용이성언제든 클러스터링 키 변경 가능 (ALTER TABLE)자동 (변경 불필요)Sort Key 변경 시 테이블 재구성 필요클러스터링 칼럼 변경 시 재생성
자동 관리증분 자동 (새 데이터에만 적용)완전 자동수동 VACUUM 필요자동 Re-clustering
추가 비용없음 (쓰기 시 자동 적용)Reclustering 크레딧 소모VACUUM/ANALYZE 시간없음
파티셔닝 대체Liquid Clustering이 파티셔닝을 완전 대체마이크로 파티셔닝이 기본파티셔닝 별도파티셔닝 + 클러스터링 병행
참고 Liquid Clustering의 혁신: 기존 Hive-style 파티셔닝의 문제점(파티션 키 변경 불가, 소규모 파티션 문제, Z-Order 비용)을 완전히 해결합니다. ALTER TABLE ... CLUSTER BY (col1, col2) 한 줄로 적용되며, 기존 데이터는 점진적으로 재배치됩니다.

GPU 컴퓨팅 및 ML 학습 인프라 비교

항목DatabricksSnowflakeAWS SageMakerGCP Vertex AIMS Fabric
GPU 클러스터네이티브 지원 (A100, H100, L4 등)Snowpark Container Services (제한적)네이티브 지원 (광범위 GPU 옵션)네이티브 지원 (TPU 포함)제한적
분산 학습Spark + Horovod / DeepSpeed / Ray미지원SageMaker 분산 학습Vertex AI 분산 학습미지원
모델 서빙 GPUGPU Model Serving EndpointContainer Services (제한적)SageMaker EndpointsVertex AI Endpoints제한적
스팟 GPUSpot Instance 지원으로 비용 절감N/ASpot Training 지원Preemptible VM 지원N/A
MLflow 통합네이티브 (실험→레지스트리→서빙)미지원SageMaker Experiments (별도)Vertex AI Experiments (별도)MLflow 연동 가능
데이터 접근동일 플랫폼 (복사 불필요)제한적 (Snowpark 내)S3에서 복사 필요GCS에서 복사 필요제한적

GPU 인스턴스 유형별 용도

GPU 유형Databricks 지원주요 용도비용 수준
NVIDIA T4지원 (AWS/Azure/GCP)추론, 경량 학습저렴
NVIDIA A10G지원 (AWS)중간 규모 학습/추론중간
NVIDIA L4지원 (GCP/AWS)추론 최적화중간
NVIDIA A100 (40/80GB)지원 (AWS/Azure/GCP)대규모 학습, 파인튜닝높음
NVIDIA H100지원 (AWS/Azure)초대규모 학습, LLM 파인튜닝매우 높음
성공 SA/SE 핵심 메시지: Databricks는 동일 플랫폼에서 CPU(SQL/ETL)와 GPU(ML/AI) 워크로드를 모두 실행 할 수 있으며, Unity Catalog로 데이터→모델→서빙 전체 거버넌스를 통합합니다. SageMaker나 Vertex AI는 데이터 플랫폼과 분리되어 있어 데이터 복사와 거버넌스 이중화가 불가피합니다.

워크로드 격리 및 리소스 관리

워크로드 격리 방식 비교

항목DatabricksSnowflakeRedshiftBigQueryFabric
격리 단위SQL Warehouse / Cluster (완전 독립)Virtual Warehouse (완전 독립)WLM Queue (공유 리소스)Reservation / Slot PoolCapacity (공유)
물리적 격리독립 VM 클러스터독립 컴퓨팅 리소스동일 클러스터 내 큐논리적 슬롯 분리논리적 분리
상호 영향Zero (완전 격리)Zero (완전 격리)있음 (WLM 공유)있음 (슬롯 공유 가능)있음 (Capacity 공유)
설정 편의성SQL Warehouse 생성만으로 격리Warehouse 생성만으로 격리WLM 규칙 설정 복잡Reservation 설정Capacity 분리 설정

Databricks 워크로드 격리 베스트 프랙티스

권장 구성 (중대형 조직):

1. BI/리포팅용 SQL Warehouse (Serverless, Small, Auto-scale 1-3)
   └─ 주 사용자: 비즈니스 분석가, BI 도구

2. Ad-hoc 분석용 SQL Warehouse (Serverless, Medium, Auto-scale 1-5)
   └─ 주 사용자: 데이터 분석가, Genie Code 사용자

3. ETL/배치용 Serverless Compute
   └─ 주 사용자: 데이터 엔지니어, 스케줄 Job

4. ML 학습용 GPU Cluster (Job Cluster, 필요 시 생성)
   └─ 주 사용자: 데이터 사이언티스트, ML 엔지니어

5. 개발/테스트용 All-Purpose Cluster (소규모, Auto-terminate 30분)
   └─ 주 사용자: 개발자, 탐색 분석
참고 비용 최적화 팁: SQL Warehouse와 Serverless Compute는 유휴 시 자동 종료되므로 비용이 사용량에 정확히 비례합니다. All-Purpose Cluster는 Auto-terminate를 반드시 설정하여 유휴 비용을 방지하세요.