Skip to main content
이 문서는 Databricks란? 의 하위 문서입니다.

Databricks를 사용하는 역할별 활용 방법

Databricks는 데이터 팀의 다양한 역할이 하나의 플랫폼에서 협업할 수 있도록 설계되어 있습니다.
역할주로 사용하는 기능예시 업무
데이터 엔지니어SDP, Lakeflow, Auto Loader, Jobs데이터 파이프라인 구축·운영
데이터 분석가Databricks SQL, AI/BI Dashboard, GenieSQL 분석, 대시보드 작성, 리포트
데이터 과학자Notebooks, MLflow, Feature StoreML 모델 개발, 실험 관리
ML 엔지니어Model Serving, MLflow, Agent Framework모델 배포, 에이전트 개발
플랫폼 관리자Unity Catalog, Workspace 관리, 보안 설정권한 관리, 비용 모니터링, 거버넌스
비즈니스 사용자Genie, AI/BI Dashboard자연어로 데이터 질문, 대시보드 조회
현업에서는 이렇게 합니다: Databricks의 가장 큰 장점 중 하나는 “하나의 플랫폼에서 모든 역할이 협업한다”는 것입니다. 데이터 엔지니어가 파이프라인을 구축하면, 분석가가 같은 Delta 테이블에서 SQL로 분석하고, 데이터 과학자가 같은 데이터로 ML 모델을 학습합니다. 도구 간 데이터를 복사할 필요가 없으므로, “분석가가 보는 숫자와 과학자가 보는 숫자가 다른” 문제가 사라집니다.

통합 거버넌스 구조

역할주요 도구Unity Catalog
데이터 엔지니어SDP / Lakeflow, Auto Loader, Jobs통합 거버넌스
데이터 분석가Databricks SQL, AI/BI Dashboard, Genie통합 거버넌스
데이터 과학자 / ML 엔지니어Notebooks, MLflow, Model Serving통합 거버넌스
모든 역할이 Delta Lake (클라우드 스토리지) 위에서 작업하며, Unity Catalog 가 전체 거버넌스를 제공합니다.

실제 고객의 Before/After — 5개 도구 vs Databricks 하나

현업에서 Databricks 도입 전후를 비교하면 변화가 극적입니다. 아래는 실제로 많은 기업에서 겪는 전형적인 패턴입니다.

Before: 5개 이상의 도구를 조합하던 시절

단계도구
수집Informatica / NiFi
저장S3 + Hive Metastore
처리EMR Spark 클러스터
분석Redshift + Tableau
MLSageMaker + Jupyter
거버넌스Apache Atlas + Ranger
고려사항현실
데이터 복사 비용S3 → Redshift → SageMaker로 데이터를 매번 복사. 동일 데이터가 3~4곳에 존재하여 스토리지 비용이 3배로 증가했습니다
권한 관리 지옥도구마다 별도의 권한 체계. “이 테이블을 누가 볼 수 있나요?”라는 질문에 답하려면 3개 시스템을 확인해야 했습니다
인력 부담Hadoop/EMR 클러스터 운영에만 전담 인력 2~3명이 필요했습니다
개발 속도데이터 파이프라인 하나를 만드는 데 2~3주. 도구 간 연동 이슈 해결에 시간의 절반을 소비했습니다
데이터 불일치분석가가 Redshift에서 보는 숫자와, 데이터 과학자가 Jupyter에서 보는 숫자가 달랐습니다

After: Databricks 하나로 통합

단계도구
수집Auto Loader / Lakeflow Connect
저장+처리+분석+MLDatabricks Lakehouse
거버넌스Unity Catalog
시각화AI/BI Dashboard
개선 효과현실
데이터 복사 제거Delta Lake 하나의 저장소에서 ETL, SQL, ML 모두 수행. 스토리지 비용 60~70% 절감 사례가 많습니다
통합 권한Unity Catalog에서 모든 데이터 자산의 권한을 한 곳에서 관리합니다
운영 인력 절감Serverless 컴퓨팅으로 클러스터 관리 부담이 대폭 줄었습니다
개발 속도같은 파이프라인을 2~3일 만에 구축. 도구 간 연동 이슈가 없습니다
단일 진실 공급원분석가, 과학자, 엔지니어 모두 같은 Delta 테이블을 바라봅니다
현업에서는 이렇게 합니다: Databricks 도입 시 가장 먼저 “데이터 복사를 얼마나 줄일 수 있는가”를 ROI 계산에 포함합니다. 데이터 복사는 스토리지 비용뿐 아니라, 복사 파이프라인 유지보수, 데이터 불일치 디버깅, 권한 관리 중복 등 숨겨진 비용이 매우 큽니다.