Skip to main content
최종 업데이트: 2026-04 | 소요 시간: 8~10시간 (1일 집중 또는 2일 분할)

개요

Databricks Intelligence Platform 의 핵심 기능 12가지를 하루 만에 체험하는 핸즈온 워크샵입니다. 스마트TV에서 발생하는 170만 건 이상 의 가상 로그 데이터를 기반으로, 데이터 엔지니어링부터 ML 모델 배포, GenAI 에이전트 구축까지 전 과정을 직접 구현합니다. Databricks의 최신 AI 도구인 Genie Code(노트북 내장 AI)와 AI Dev Kit(Claude Code/Cursor 연동)를 활용하여 자연어만으로 대부분의 작업을 수행할 수 있음을 보여주는 것이 핵심 목표입니다.
참고 실제 고객 데이터 없이도 모든 실습이 가능합니다. 가상 데이터 생성 노트북(02_generate_synthetic_data)에서 170만 건의 시뮬레이션 데이터를 자동으로 생성합니다.

대상

  • Databricks 신규 도입 고객 — 플랫폼 전체 기능 체험
  • Data Engineer, Data Analyst, ML Engineer
  • AI 코딩 도구(Vibe Coding)의 생산성 향상 효과를 검증하고 싶은 팀

사전 요구사항

항목요구사항비고
Databricks WorkspacePremium 이상 플랜Unity Catalog 활성화 필수
클러스터 권한클러스터 생성 또는 서버리스 컴퓨트 접근관리자에게 요청
Python3.10+ (Track B 사용 시)로컬 설치
Claude Code최신 버전 (Track B 사용 시)npm install -g @anthropic-ai/claude-code
성공 Track A(노트북 실행)와 Track C(Genie Code)는 Databricks 워크스페이스만 있으면 바로 시작할 수 있습니다. 로컬 설치가 필요 없습니다.

12가지 Databricks 핵심 기능

이 워크샵에서 체험하는 기능 목록입니다.
#Feature한 줄 설명
1Unity Catalog3단계 네임스페이스(catalog.schema.table)로 데이터 거버넌스 통합 관리
2Delta LakeACID 트랜잭션, Time Travel, Schema Evolution 지원 오픈 테이블 포맷
3SDP (Lakeflow Declarative Pipelines)선언적 파이프라인으로 증분 처리와 데이터 품질 자동화
4Auto LoaderUC Volume 신규 파일 자동 감지, Exactly-once 처리
5Structured Streaming마이크로배치 기반 실시간 데이터 처리 파이프라인
6AI/BI DashboardSQL 기반 인터랙티브 대시보드
7AI/BI Genie자연어로 데이터 탐색 및 SQL 결과 조회
8MLflow실험 추적, 하이퍼파라미터 비교, 모델 레지스트리
9Model ServingREST API 엔드포인트, Scale-to-zero 지원
10Vector Search콘텐츠 임베딩과 유사도 검색으로 RAG 기반 구축
11Agent BricksKnowledge Assistant + Genie + Supervisor 멀티 에이전트
12Apps + LakebaseDatabricks Apps 웹 앱 배포 + Lakebase(PostgreSQL 호환 OLTP)

워크샵 커리큘럼

순서노트북주제핵심 기능소요시간
101_setup_catalog_schema환경 설정Unity Catalog, Schema, Volume~1분
202_generate_synthetic_data가상 데이터 생성 (170만건)PySpark, Delta Lake~10분
303_silver_gold_ctasBronze->Silver->Gold 수동 변환CTAS, SQL, Medallion Architecture~30분
404_sdp_pipeline동일 변환을 SDP로 자동화SDP (Lakeflow), Expectations~30분
505_aibi_dashboard_genie대시보드 & 자연어 탐색AI/BI Dashboard, Genie Space~1시간
606_deploy_event_generator실시간 이벤트 생성기 배포Databricks Apps, FastAPI~30분
707_structured_streaming실시간 데이터 처리Auto Loader, Structured Streaming~1시간
808_ml_recommendationML 추천 모델 & MLOpsFeature Store, LightGBM, MLflow, Model Serving~1.5시간
909_anomaly_detection이미지 이상 탐지CNN, SHAP, 비정형 데이터 처리~1시간
1010_agent_bricks_lakebaseGenAI 에이전트 & OLTP 연동Agent Bricks, Lakebase~2시간

3가지 학습 트랙

동일한 교육 내용을 세 가지 방식으로 진행할 수 있습니다. 학습 스타일과 환경에 따라 선택하세요.
트랙방식추가 설치추천 대상가이드
Track A노트북 직접 실행없음코드를 한 줄씩 읽으며 원리를 이해하고 싶은 분01. Foundation ~ 07. Apps & Lakebase
Track BClaude Code + AI Dev KitPython 3.10+, Claude CodeAI 코딩 도구로 생산성 향상을 체험하고 싶은 분PROMPT_GUIDE.md
Track CGenie Code (Databricks 내장)없음별도 설치 없이 Databricks 안에서 AI 코딩을 체험하고 싶은 분GENIE_CODE_GUIDE.md

Track A — 노트북 직접 실행

노트북을 순서대로 열어 Run All을 실행합니다. 코드를 한 줄씩 읽으며 동작 원리를 이해하고 싶은 분에게 추천합니다. 추가 설치가 필요 없습니다.
진행 순서: 01. Foundation -> 02. Data Engineering -> 03. Analytics -> 04. Streaming -> 05. ML -> 06. GenAI -> 07. Apps & Lakebase

Track B — Claude Code + AI Dev Kit

Claude Code에 자연어 프롬프트를 입력하여 코드를 자동 생성합니다. AI Dev KitMCP Server 50+ 도구19개 Skills 를 활용합니다.
# AI Dev Kit 설치
bash <(curl -sL https://raw.githubusercontent.com/databricks-solutions/ai-dev-kit/main/install.sh)
# Claude Code 실행 후 PROMPT_GUIDE.md의 프롬프트를 복사하여 붙여넣기
claude
가이드: PROMPT_GUIDE.md | 상세 프롬프트

Track C — Genie Code (Databricks 내장)

Databricks 노트북에서 Cmd+I로 Genie Code를 호출하여 자연어로 코드를 생성합니다. 별도 설치 없이 즉시 AI 코딩을 체험할 수 있습니다.
가이드: GENIE_CODE_GUIDE.md
참고 트랙을 섞어서 진행해도 됩니다. 예를 들어, 데이터 엔지니어링(0304)은 Track A로, ML(0809)은 Track B로 진행하는 것도 좋은 방법입니다.

시나리오: Smart TV 데이터

모든 데이터는 노트북에서 자동 생성되므로 실제 고객 데이터가 불필요합니다.
테이블건수설명
bronze.devices10,000TV 디바이스 마스터 정보
bronze.viewing_logs500,000채널/앱 시청 기록
bronze.click_events1,000,000리모컨/UI 조작 이벤트
bronze.ad_impressions200,000광고 노출/클릭/전환
가상 데이터이지만 실제 패턴을 반영합니다: 저녁 프라임타임(1923시) 시청 집중, Native 광고 CTR 47%, 지역별 가중치 등.

클러스터 설정 권장

모듈컴퓨트비고
Module 0~4 (데이터 엔지니어링)Serverless추가 설정 불필요
Module 5 (ML)ML Runtime + GPU이미지 이상 탐지 시 필요
Module 6 (GenAI)Serverless + Model Serving서빙 엔드포인트 접근 권한 필요
Module 7 (Apps)ServerlessLakebase 접근 권한 필요

참고 자료