이 문서는 Databricks란? 의 하위 문서입니다.
Databricks를 사용하는 역할별 활용 방법
Databricks는 데이터 팀의 다양한 역할이 하나의 플랫폼에서 협업할 수 있도록 설계되어 있습니다.| 역할 | 주로 사용하는 기능 | 예시 업무 |
|---|---|---|
| 데이터 엔지니어 | SDP, Lakeflow, Auto Loader, Jobs | 데이터 파이프라인 구축·운영 |
| 데이터 분석가 | Databricks SQL, AI/BI Dashboard, Genie | SQL 분석, 대시보드 작성, 리포트 |
| 데이터 과학자 | Notebooks, MLflow, Feature Store | ML 모델 개발, 실험 관리 |
| ML 엔지니어 | Model Serving, MLflow, Agent Framework | 모델 배포, 에이전트 개발 |
| 플랫폼 관리자 | Unity Catalog, Workspace 관리, 보안 설정 | 권한 관리, 비용 모니터링, 거버넌스 |
| 비즈니스 사용자 | Genie, AI/BI Dashboard | 자연어로 데이터 질문, 대시보드 조회 |
현업에서는 이렇게 합니다: Databricks의 가장 큰 장점 중 하나는 “하나의 플랫폼에서 모든 역할이 협업한다”는 것입니다. 데이터 엔지니어가 파이프라인을 구축하면, 분석가가 같은 Delta 테이블에서 SQL로 분석하고, 데이터 과학자가 같은 데이터로 ML 모델을 학습합니다. 도구 간 데이터를 복사할 필요가 없으므로, “분석가가 보는 숫자와 과학자가 보는 숫자가 다른” 문제가 사라집니다.
통합 거버넌스 구조
| 역할 | 주요 도구 | Unity Catalog |
|---|---|---|
| 데이터 엔지니어 | SDP / Lakeflow, Auto Loader, Jobs | 통합 거버넌스 |
| 데이터 분석가 | Databricks SQL, AI/BI Dashboard, Genie | 통합 거버넌스 |
| 데이터 과학자 / ML 엔지니어 | Notebooks, MLflow, Model Serving | 통합 거버넌스 |
실제 고객의 Before/After — 5개 도구 vs Databricks 하나
현업에서 Databricks 도입 전후를 비교하면 변화가 극적입니다. 아래는 실제로 많은 기업에서 겪는 전형적인 패턴입니다.Before: 5개 이상의 도구를 조합하던 시절
| 단계 | 도구 |
|---|---|
| 수집 | Informatica / NiFi |
| 저장 | S3 + Hive Metastore |
| 처리 | EMR Spark 클러스터 |
| 분석 | Redshift + Tableau |
| ML | SageMaker + Jupyter |
| 거버넌스 | Apache Atlas + Ranger |
| 고려사항 | 현실 |
|---|---|
| 데이터 복사 비용 | S3 → Redshift → SageMaker로 데이터를 매번 복사. 동일 데이터가 3~4곳에 존재하여 스토리지 비용이 3배로 증가했습니다 |
| 권한 관리 지옥 | 도구마다 별도의 권한 체계. “이 테이블을 누가 볼 수 있나요?”라는 질문에 답하려면 3개 시스템을 확인해야 했습니다 |
| 인력 부담 | Hadoop/EMR 클러스터 운영에만 전담 인력 2~3명이 필요했습니다 |
| 개발 속도 | 데이터 파이프라인 하나를 만드는 데 2~3주. 도구 간 연동 이슈 해결에 시간의 절반을 소비했습니다 |
| 데이터 불일치 | 분석가가 Redshift에서 보는 숫자와, 데이터 과학자가 Jupyter에서 보는 숫자가 달랐습니다 |
After: Databricks 하나로 통합
| 단계 | 도구 |
|---|---|
| 수집 | Auto Loader / Lakeflow Connect |
| 저장+처리+분석+ML | Databricks Lakehouse |
| 거버넌스 | Unity Catalog |
| 시각화 | AI/BI Dashboard |
| 개선 효과 | 현실 |
|---|---|
| 데이터 복사 제거 | Delta Lake 하나의 저장소에서 ETL, SQL, ML 모두 수행. 스토리지 비용 60~70% 절감 사례가 많습니다 |
| 통합 권한 | Unity Catalog에서 모든 데이터 자산의 권한을 한 곳에서 관리합니다 |
| 운영 인력 절감 | Serverless 컴퓨팅으로 클러스터 관리 부담이 대폭 줄었습니다 |
| 개발 속도 | 같은 파이프라인을 2~3일 만에 구축. 도구 간 연동 이슈가 없습니다 |
| 단일 진실 공급원 | 분석가, 과학자, 엔지니어 모두 같은 Delta 테이블을 바라봅니다 |
현업에서는 이렇게 합니다: Databricks 도입 시 가장 먼저 “데이터 복사를 얼마나 줄일 수 있는가”를 ROI 계산에 포함합니다. 데이터 복사는 스토리지 비용뿐 아니라, 복사 파이프라인 유지보수, 데이터 불일치 디버깅, 권한 관리 중복 등 숨겨진 비용이 매우 큽니다.