Skip to main content
실제 데이터 파이프라인을 구축하는 핵심 기술을 학습합니다. Databricks의 Lakeflow 제품군을 중심으로 데이터 수집부터 변환, 오케스트레이션까지 다룹니다.

학습 목표

  • Auto Loader를 사용한 파일 기반 데이터 수집 방법 이해
  • Spark Declarative Pipelines(SDP)를 활용한 선언적 파이프라인 구축
  • Lakeflow Connect를 통한 외부 소스 데이터 수집(CDC 포함)
  • Lakeflow Jobs를 활용한 워크플로우 오케스트레이션

문서 목록 (이 폴더)

순서문서내용
1데이터 엔지니어링 전체 그림Lakeflow 제품군 소개와 각 역할을 설명합니다
2수집 방법 선택 가이드Auto Loader vs Lakeflow Connect vs 커스텀 비교를 안내합니다

하위 섹션

📂 Auto Loader

파일 기반 데이터 수집의 기본 — 클라우드 스토리지에서 자동으로 새 파일 감지 및 수집
문서내용
Auto Loader란?개념, 동작 방식, 사용 시나리오를 설명합니다
주요 옵션파일 포맷별 설정, 에러 처리, 메타데이터 컬럼을 다룹니다
Auto Loader 실습SDP 기반 수집 파이프라인을 구축합니다

📂 Spark Declarative Pipelines

선언적 파이프라인(SDP, 구 DLT) — Streaming Tables, Materialized Views, CDC 처리
문서내용
SDP란?선언적 파이프라인 개념, 구성 요소, 시스템 제약사항을 설명합니다
Streaming Tables & Materialized Views두 테이블 유형의 차이점과 선택 기준을 안내합니다
Expectations데이터 품질 관리 — 위반 처리 방식을 다룹니다
CDC 처리APPLY CHANGES, SCD Type 1/2 구현을 설명합니다
SDP 실습Medallion 아키텍처 기반 파이프라인을 구축합니다

📂 Lakeflow Connect

외부 데이터 소스 연결 — SaaS, 데이터베이스, 메시지큐 등에서 데이터 수집
문서내용
Lakeflow Connect란?개념, 지원 소스, 동작 방식을 설명합니다
수집 파이프라인 구성소스 연결, 테이블 매핑, 스케줄 설정을 안내합니다
Lakeflow Connect 실습외부 DB에서 CDC 기반 수집을 구성합니다

📂 Lakeflow Jobs

워크플로우 오케스트레이션 — 작업 스케줄링, 의존성 관리, 모니터링
문서내용
Lakeflow Jobs란?워크플로우 오케스트레이션 개념과 구성 요소를 설명합니다
작업 구성태스크, 의존성, 클러스터 정책, 파라미터를 다룹니다
스케줄링과 트리거Cron, 파일 도착 트리거, Continuous 모드를 안내합니다
모니터링과 알림실행 이력, 알림, 비용 추적을 설명합니다

참고 문서