이 가이드 사용 방법
** 이 교육 자료는 Claude Code (또는 Cursor)와 함께 사용합니다.**** Tip:** 각 Step을 순서대로 진행하세요. 이전 Step의 결과가 다음 Step의 입력이 됩니다.
- 터미널에서 프로젝트 디렉토리로 이동:
cd ~/smarttv-training- Claude Code 실행:
claude- 각 Step의 ” Claude에게 요청하기” 박스 내용을 복사하여 Claude에게 붙여넣기
- Claude가 코드를 생성하고 Databricks에서 실행합니다
- 결과를 확인하고 궁금한 점은 바로 질문하세요
학습 목표
- Bronze → Silver → Gold Medallion 파이프라인 구축
- Spark Declarative Pipelines (DLT) 활용법 이해
- 데이터 품질 검증 (Expectations) 적용
- 스마트TV 로그 데이터를 분석 가능한 형태로 변환
- Databricks Jobs로 파이프라인 스케줄링
파이프라인 아키텍처
Step 1: Bronze → Silver 변환 - 디바이스 데이터 정제
Claude에게 요청하기
Step 2: Bronze → Silver 변환 - 시청 로그 정제
Claude에게 요청하기
Step 3: Bronze → Silver 변환 - 클릭 이벤트 & 광고 로그
Claude에게 요청하기
Step 4: Silver → Gold 집계 - 일별 시청 요약
Claude에게 요청하기
Step 5: Silver → Gold 집계 - 사용자 프로필
Claude에게 요청하기
Step 6: Silver → Gold 집계 - 광고 성과 리포트
Claude에게 요청하기
Step 7: Silver → Gold 집계 - 콘텐츠 인기도 랭킹
Claude에게 요청하기
Step 8: Spark Declarative Pipeline (DLT) 구성
Claude에게 요청하기
핵심 개념: Spark Declarative Pipelines
Step 9: Databricks Jobs로 스케줄링
Claude에게 요청하기
Step 10: 파이프라인 검증 & 모니터링
Claude에게 요청하기
학습 정리
| 개념 | 실습 내용 |
|---|---|
| Medallion Architecture | Bronze(원본) → Silver(정제) → Gold(집계) 3단계 파이프라인 |
| 데이터 정제 | NULL 처리, 중복 제거, 타입 변환, 범위 검증 |
| 피처 엔지니어링 | 시간대 분류, 사용자 프로필, 세션 분석 |
| Spark Declarative Pipelines | Streaming Table, Materialized View, Expectations |
| Databricks Jobs | 멀티태스크 DAG, Cron 스케줄링, 알림 설정 |
| 데이터 품질 관리 | Expectations, 정합성 검증, 모니터링 |
비즈니스 가치
이 파이프라인을 통해 Smart TV는:- 시청 패턴 분석→ 콘텐츠 편성 최적화
- 사용자 프로필→ 개인화 추천 엔진의 입력 피처
- 광고 성과 분석→ FastTV 광고 수익 최적화, 광고주 리포팅
- 콘텐츠 랭킹→ 인기 콘텐츠 기반 큐레이션