역할별 활용 방법

이 문서는 Databricks란? 의 하위 문서입니다.

Databricks를 사용하는 역할별 활용 방법

Databricks는 데이터 팀의 다양한 역할이 하나의 플랫폼에서 협업할 수 있도록 설계되어 있습니다.

역할	주로 사용하는 기능	예시 업무
데이터 엔지니어	SDP, Lakeflow, Auto Loader, Jobs	데이터 파이프라인 구축·운영
데이터 분석가	Databricks SQL, AI/BI Dashboard, Genie	SQL 분석, 대시보드 작성, 리포트
데이터 과학자	Notebooks, MLflow, Feature Store	ML 모델 개발, 실험 관리
ML 엔지니어	Model Serving, MLflow, Agent Framework	모델 배포, 에이전트 개발
플랫폼 관리자	Unity Catalog, Workspace 관리, 보안 설정	권한 관리, 비용 모니터링, 거버넌스
비즈니스 사용자	Genie, AI/BI Dashboard	자연어로 데이터 질문, 대시보드 조회

현업에서는 이렇게 합니다: Databricks의 가장 큰 장점 중 하나는 “하나의 플랫폼에서 모든 역할이 협업한다”는 것입니다. 데이터 엔지니어가 파이프라인을 구축하면, 분석가가 같은 Delta 테이블에서 SQL로 분석하고, 데이터 과학자가 같은 데이터로 ML 모델을 학습합니다. 도구 간 데이터를 복사할 필요가 없으므로, “분석가가 보는 숫자와 과학자가 보는 숫자가 다른” 문제가 사라집니다.

통합 거버넌스 구조

역할	주요 도구	Unity Catalog
데이터 엔지니어	SDP / Lakeflow, Auto Loader, Jobs	통합 거버넌스
데이터 분석가	Databricks SQL, AI/BI Dashboard, Genie	통합 거버넌스
데이터 과학자 / ML 엔지니어	Notebooks, MLflow, Model Serving	통합 거버넌스

모든 역할이 Delta Lake (클라우드 스토리지) 위에서 작업하며, Unity Catalog 가 전체 거버넌스를 제공합니다.

실제 고객의 Before/After — 5개 도구 vs Databricks 하나

현업에서 Databricks 도입 전후를 비교하면 변화가 극적입니다. 아래는 실제로 많은 기업에서 겪는 전형적인 패턴입니다.

Before: 5개 이상의 도구를 조합하던 시절

단계	도구
수집	Informatica / NiFi
저장	S3 + Hive Metastore
처리	EMR Spark 클러스터
분석	Redshift + Tableau
ML	SageMaker + Jupyter
거버넌스	Apache Atlas + Ranger

고려사항	현실
데이터 복사 비용	S3 → Redshift → SageMaker로 데이터를 매번 복사. 동일 데이터가 3~4곳에 존재하여 스토리지 비용이 3배로 증가했습니다
권한 관리 지옥	도구마다 별도의 권한 체계. “이 테이블을 누가 볼 수 있나요?”라는 질문에 답하려면 3개 시스템을 확인해야 했습니다
인력 부담	Hadoop/EMR 클러스터 운영에만 전담 인력 2~3명이 필요했습니다
개발 속도	데이터 파이프라인 하나를 만드는 데 2~3주. 도구 간 연동 이슈 해결에 시간의 절반을 소비했습니다
데이터 불일치	분석가가 Redshift에서 보는 숫자와, 데이터 과학자가 Jupyter에서 보는 숫자가 달랐습니다

After: Databricks 하나로 통합

단계	도구
수집	Auto Loader / Lakeflow Connect
저장+처리+분석+ML	Databricks Lakehouse
거버넌스	Unity Catalog
시각화	AI/BI Dashboard

개선 효과	현실
데이터 복사 제거	Delta Lake 하나의 저장소에서 ETL, SQL, ML 모두 수행. 스토리지 비용 60~70% 절감 사례가 많습니다
통합 권한	Unity Catalog에서 모든 데이터 자산의 권한을 한 곳에서 관리합니다
운영 인력 절감	Serverless 컴퓨팅으로 클러스터 관리 부담이 대폭 줄었습니다
개발 속도	같은 파이프라인을 2~3일 만에 구축. 도구 간 연동 이슈가 없습니다
단일 진실 공급원	분석가, 과학자, 엔지니어 모두 같은 Delta 테이블을 바라봅니다

현업에서는 이렇게 합니다: Databricks 도입 시 가장 먼저 “데이터 복사를 얼마나 줄일 수 있는가”를 ROI 계산에 포함합니다. 데이터 복사는 스토리지 비용뿐 아니라, 복사 파이프라인 유지보수, 데이터 불일치 디버깅, 권한 관리 중복 등 숨겨진 비용이 매우 큽니다.

시작하기

Databricks 플랫폼

레이크하우스 아키텍처

컴퓨트

데이터 엔지니어링

데이터 웨어하우징

Lakebase

Unity Catalog

AI/BI

머신러닝

AI 에이전트

GenAI 도구

Databricks Apps

보안과 거버넌스

개발 도구

플랫폼 비교

부록 — 선행 지식

부록 — 데이터 기초

부록 — 참고

Databricks를 사용하는 역할별 활용 방법

통합 거버넌스 구조

실제 고객의 Before/After — 5개 도구 vs Databricks 하나

Before: 5개 이상의 도구를 조합하던 시절

After: Databricks 하나로 통합

시작하기

Databricks 플랫폼

레이크하우스 아키텍처

컴퓨트

데이터 엔지니어링

데이터 웨어하우징

Lakebase

Unity Catalog

AI/BI

머신러닝

AI 에이전트

GenAI 도구

Databricks Apps

보안과 거버넌스

개발 도구

플랫폼 비교

부록 — 선행 지식

부록 — 데이터 기초

부록 — 참고

​Databricks를 사용하는 역할별 활용 방법

​통합 거버넌스 구조

​실제 고객의 Before/After — 5개 도구 vs Databricks 하나

​Before: 5개 이상의 도구를 조합하던 시절

​After: Databricks 하나로 통합

Databricks를 사용하는 역할별 활용 방법

통합 거버넌스 구조

실제 고객의 Before/After — 5개 도구 vs Databricks 하나

Before: 5개 이상의 도구를 조합하던 시절

After: Databricks 하나로 통합