Skip to main content

왜 학습 순서가 중요한가요?

Databricks는 데이터 엔지니어링, 분석, 머신러닝, 거버넌스를 아우르는 통합 플랫폼 입니다. 각 영역이 서로 밀접하게 연결되어 있기 때문에, 기초 개념 없이 고급 주제를 학습하면 이해에 어려움이 생깁니다. 예를 들어, Model Serving(모델 서빙)을 이해하려면 먼저 Spark 클러스터와 Delta Lake를 알아야 하고, Unity Catalog의 권한 체계를 이해해야 프로덕션 배포가 가능합니다. 이 로드맵은 학습 의존성 을 고려하여 최적의 순서를 안내합니다.
💡 Tip: 자신의 역할에 맞는 경로를 먼저 따라가되, 시간이 허용되면 다른 역할의 경로도 살펴보시는 것을 권장합니다. 플랫폼 전체를 이해하면 팀 간 협업이 훨씬 수월해집니다.

전체 학습 경로 흐름도

전체 학습 경로
순서섹션내용
00선행 지식RDB, 빅데이터 역사
01데이터 기초DW vs DL, ETL/ELT
02Databricks 개요플랫폼, Workspace
03레이크하우스Delta Lake, Medallion
04컴퓨트Spark, Cluster, SQL WH
05데이터 엔지니어링Auto Loader, SDP, Jobs
06데이터 웨어하우징DBSQL, AI 함수
07Unity Catalog거버넌스, 권한, 리니지
08AI/BIDashboard, Genie, Alerts
09머신러닝MLflow, Feature, Serving
10에이전트 개발RAG, Agent Framework
11LakebasePostgreSQL 호환 OLTP
12보안/거버넌스ID 관리, 네트워크 보안
13부록Apps, 학습 경로
실선 화살표는 필수 선행 학습, 점선 화살표는 권장 선행 학습 을 의미합니다.

역할별 학습 경로

1. 데이터 엔지니어 (Data Engineer)

데이터 파이프라인 설계, 구축, 운영을 담당하는 역할입니다. 데이터 엔지니어 학습 경로
순서섹션비고
100 선행 지식-
201 데이터 기초-
302 Databricks 개요-
403 레이크하우스-
504 컴퓨트-
605 데이터 엔지니어링핵심
706 웨어하우징-
807 Unity Catalog-
단계학습 내용예상 소요시간관련 문서
00 선행 지식RDB 기초, Star/Snowflake 스키마, 빅데이터 역사3~4시간00-prerequisites/
01 데이터 기초DW vs DL, ETL/ELT, 배치/스트리밍2~3시간01-data-fundamentals/
02 Databricks 개요플랫폼 아키텍처, Workspace, Notebook2시간02-databricks-overview/
03 레이크하우스Delta Lake, ACID, Medallion 아키텍처3~4시간03-lakehouse-architecture/
04 컴퓨트Spark 기초, 클러스터, SQL Warehouse3시간04-compute-workspace/
05 데이터 엔지니어링Auto Loader, SDP, Lakeflow Connect/Jobs6~8시간05-data-engineering/
06 웨어하우징DBSQL, 쿼리 최적화2~3시간06-data-warehousing/
07 Unity Catalog네임스페이스, 권한 관리, 리니지3~4시간07-unity-catalog/
추가 권장: 12. 보안/거버넌스 (프로덕션 환경 설정)

2. 데이터 분석가 (Data Analyst)

SQL과 시각화를 활용한 데이터 분석, 리포팅을 담당하는 역할입니다. 데이터 분석가 학습 경로
순서섹션비고
100 선행 지식 (RDB, 스키마)-
201 데이터 기초-
302 Databricks 개요-
406 웨어하우징핵심
508 AI/BI핵심
607 Unity Catalog-
단계학습 내용예상 소요시간관련 문서
00 선행 지식RDB 기초, Star/Snowflake 스키마2~3시간00-prerequisites/
01 데이터 기초DW vs DL 개념 이해1~2시간01-data-fundamentals/
02 Databricks 개요Workspace, Notebook 사용법1~2시간02-databricks-overview/
06 웨어하우징DBSQL, SQL Warehouse, AI 함수, 쿼리 최적화4~5시간06-data-warehousing/
08 AI/BILakeview 대시보드, Genie, 알림3~4시간08-ai-bi/
07 Unity Catalog데이터 검색, 리니지 활용2시간07-unity-catalog/
추가 권장: 03. 레이크하우스 (Medallion 아키텍처 이해)

3. ML 엔지니어 / 데이터 과학자

모델 학습, 실험 관리, 모델 배포를 담당하는 역할입니다. ML/AI 엔지니어 학습 경로
순서섹션비고
101 데이터 기초-
202 Databricks 개요-
304 컴퓨트-
409 머신러닝핵심
510 에이전트 개발핵심
단계학습 내용예상 소요시간관련 문서
01 데이터 기초데이터 파이프라인 이해1~2시간01-data-fundamentals/
02 Databricks 개요Workspace, Notebook1~2시간02-databricks-overview/
04 컴퓨트Spark 기초, ML Runtime, GPU 클러스터3시간04-compute-workspace/
09 머신러닝MLflow, Feature Engineering, Model Serving8~10시간09-machine-learning/
10 에이전트 개발RAG, Vector Search, Agent Evaluation6~8시간10-agent-development/
추가 권장: 03. 레이크하우스, 07. Unity Catalog (모델 거버넌스), 11. Lakebase

4. 플랫폼 관리자 (Admin)

워크스페이스 설정, 보안, 비용 관리를 담당하는 역할입니다. 플랫폼 관리자 학습 경로
순서섹션비고
102 Databricks 개요-
204 컴퓨트-
307 Unity Catalog핵심
412 보안/거버넌스핵심
단계학습 내용예상 소요시간관련 문서
02 Databricks 개요아키텍처(Control Plane/Data Plane), 배포 모델2시간02-databricks-overview/
04 컴퓨트클러스터 정책, SQL Warehouse 설정3시간04-compute-workspace/
07 Unity Catalog메타스토어 설정, 권한 체계, 리니지4~5시간07-unity-catalog/
12 보안/거버넌스네트워크 보안, 암호화, 감사 로그, 시스템 테이블5~6시간12-security-governance/
추가 권장: 03. 레이크하우스, 06. 웨어하우징, 13. 부록 (CLI, Asset Bundles)

전체 학습 순서 (처음부터 끝까지)

모든 내용을 체계적으로 학습하고 싶다면, 아래 순서대로 진행하시면 됩니다.
순서섹션예상 소요시간난이도
100. 선행 지식3~4시간입문
201. 데이터 기초2~3시간입문
302. Databricks 개요2시간입문
403. 레이크하우스3~4시간초급
504. 컴퓨트3시간초급
605. 데이터 엔지니어링6~8시간중급
706. 데이터 웨어하우징3~4시간중급
807. Unity Catalog4~5시간중급
908. AI/BI2~3시간초급
1009. 머신러닝8~10시간중급~고급
1110. 에이전트 개발6~8시간고급
1211. Lakebase2~3시간중급
1312. 보안/거버넌스4~5시간중급
1413. 부록2~3시간초급~중급
총 예상 소요시간약 50~65시간

Databricks 공식 인증 소개

Databricks는 역할별 공식 인증 시험을 제공합니다. 이 교육 자료를 학습한 후 인증에 도전해 보시기 바랍니다.

Associate 레벨 (입문~중급)

인증명대상 역할관련 섹션시험 개요
Databricks Certified Data Engineer Associate데이터 엔지니어03, 04, 05, 07Delta Lake, ELT, 파이프라인, 거버넌스 기초
Databricks Certified Data Analyst Associate데이터 분석가06, 08DBSQL, 대시보드, 쿼리 최적화
Databricks Certified Machine Learning AssociateML 엔지니어09MLflow, Feature Store, Model Serving 기초
Databricks Certified Generative AI Engineer AssociateAI 엔지니어09, 10RAG, Agent, LLM 서빙 기초

Professional 레벨 (중급~고급)

인증명대상 역할관련 섹션시험 개요
Databricks Certified Data Engineer Professional시니어 DE03, 04, 05, 07, 12고급 파이프라인, 성능 최적화, 보안
Databricks Certified Machine Learning Professional시니어 ML09, 10고급 MLOps, 프로덕션 배포, 모니터링
💡 인증 준비 팁: Databricks Academy의 무료 학습 과정을 먼저 수강하고, 이 교육 자료로 개념을 보충한 뒤, 공식 Practice Exam으로 실력을 점검하시는 것을 권장합니다.

추천 학습 리소스

공식 리소스

리소스URL설명
Databricks Academyacademy.databricks.com공식 온라인 교육 과정 (무료/유료). 인증 준비에 가장 적합합니다
Databricks Documentationdocs.databricks.com공식 기술 문서. 최신 기능과 API 레퍼런스를 확인할 수 있습니다
Databricks Blogdatabricks.com/blog신기능 소개, 아키텍처 딥다이브, 고객 사례를 확인할 수 있습니다
Release Notesdocs.databricks.com/release-notes최신 기능 업데이트와 변경 사항을 확인합니다

커뮤니티 & 오픈소스

리소스URL설명
Databricks Communitycommunity.databricks.com커뮤니티 포럼. 질문과 답변, 모범 사례를 공유합니다
Delta Lake Docsdocs.delta.ioDelta Lake 오픈소스 문서입니다
MLflow Docsmlflow.org/docsMLflow 오픈소스 문서입니다
Apache Spark Docsspark.apache.orgApache Spark 공식 문서입니다
GitHub - databricksgithub.com/databricks공식 예제 노트북, SDK, 도구의 소스 코드입니다

컨퍼런스 & 영상

리소스설명
Data+AI SummitDatabricks 연례 컨퍼런스. 최신 기술 발표와 고객 사례를 확인할 수 있습니다. 영상은 YouTube에서 무료 시청 가능합니다
Databricks YouTube튜토리얼, 데모, 웨비나 영상이 풍부합니다

실전 프로젝트 아이디어

학습 내용을 실무에 적용해 보는 것이 가장 효과적인 학습 방법입니다. 단계별로 도전해 보시기 바랍니다.

입문 프로젝트 (관련 섹션: 01~04)

프로젝트설명핵심 기술
CSV 데이터 Delta 변환공개 CSV 데이터를 Delta 테이블로 변환하고 Time Travel을 체험합니다Delta Lake, Notebook
SQL 분석 대시보드공개 데이터셋으로 DBSQL 대시보드를 만들어 봅니다DBSQL, Lakeview

중급 프로젝트 (관련 섹션: 05~08)

프로젝트설명핵심 기술
Medallion 파이프라인Bronze → Silver → Gold 3계층 데이터 파이프라인을 구축합니다Auto Loader, SDP, Jobs
거버넌스 설정Unity Catalog로 카탈로그/스키마를 설계하고 권한을 설정합니다UC, RBAC, 리니지
실시간 대시보드스트리밍 데이터를 수집하여 실시간 모니터링 대시보드를 만듭니다Streaming Table, Lakeview

고급 프로젝트 (관련 섹션: 09~12)

프로젝트설명핵심 기술
ML 모델 서빙분류 모델을 학습하고 실시간 서빙 엔드포인트로 배포합니다MLflow, Model Serving, Feature Store
RAG 챗봇사내 문서를 기반으로 Q&A 챗봇을 구축합니다Vector Search, Agent, RAG
E2E MLOps데이터 수집 → 피처 엔지니어링 → 학습 → 서빙 → 모니터링 전체 파이프라인을 자동화합니다Jobs, MLflow, Inference Table, Lakehouse Monitoring

FAQ (자주 묻는 질문)

Q1. 프로그래밍 경험이 없어도 학습할 수 있나요?

네, 가능합니다. 데이터 분석가 경로는 SQL 중심으로 구성되어 있어 프로그래밍 경험이 적어도 학습할 수 있습니다. 다만, 데이터 엔지니어나 ML 엔지니어 경로는 Python 기초 지식이 필요합니다.

Q2. 어떤 클라우드에서 실습하는 것이 좋나요?

이 교육 자료는 클라우드에 관계없이 적용 가능합니다. AWS, Azure, GCP 모두 Databricks를 지원합니다. 실습 환경은 Databricks Community Edition(무료)이나 회사에서 제공하는 워크스페이스를 활용하시면 됩니다.

Q3. 학습 완료까지 얼마나 걸리나요?

역할별로 다릅니다.
역할핵심 경로 소요시간전체 학습 소요시간
데이터 분석가약 15~20시간약 25~30시간
데이터 엔지니어약 25~30시간약 40~50시간
ML 엔지니어약 20~25시간약 40~50시간
플랫폼 관리자약 15~20시간약 30~40시간

Q4. 인증 시험은 어디서 응시하나요?

Databricks 인증 시험은 온라인(Kryterion 플랫폼) 으로 응시할 수 있습니다. 자택이나 사무실에서 웹캠과 화면 공유를 통해 감독 하에 시험을 치릅니다. 시험 비용은 인증별로 $200 USD 내외입니다.

Q5. 이 교육 자료와 Databricks Academy의 차이는 무엇인가요?

비교 항목이 교육 자료Databricks Academy
언어한국어영어
대상데이터 초보자 ~ 중급자초급 ~ 고급
형태읽기 자료 (Markdown)대화형 강의 + 실습 노트북
비용무료일부 무료 / 유료
업데이트수시 업데이트정기 업데이트
두 자료를 병행하여 학습 하시면 가장 효과적입니다. 이 자료로 개념을 한국어로 이해하고, Academy에서 실습으로 체득하시기 바랍니다.

참고 링크