원문: Announcing Lakebase Change Data Feed (CDF) 저자: Pranav Aurora, Cheng Chen, Hristo Stoyanov 게시일: 2026년 5월 27일
요약
- Lakebase Change Data Feed (Public Preview) 는 운영 데이터베이스로부터 파생되는 파이프라인 난립을 제거합니다. Lakebase 프로젝트당 한 번만 CDF를 켜면, 모든 테이블의 변경 사항이 Unity Catalog Managed Table 을 통해 노출되어 임의의 엔진·모델·에이전트가 직접 읽어갈 수 있습니다.
- 사이드카 인프라 없이 엔드-투-엔드로 거버넌스되는 네이티브 CDC: 데이터베이스 커넥터, 복제 상태 모니터링, 별도의 추출 작업 모두 필요 없습니다. SDP 스트리밍 파이프라인, DBSQL Materialized View, Agent Bricks 임베딩 등 다운스트림 소비자들이 모두 동일한 격리된 피드를 구독하므로, 주 워크로드에 영향을 주지 않습니다.
- 운영 데이터가 메달리온 아키텍처의 네이티브 Bronze 계층으로 동작합니다. Lakebase Synced Table 은 이미 Gold 데이터를 애플리케이션에 서빙해 왔고, Lakebase CDF 가 그 반대 방향(원천 → 레이크) 의 고리를 닫음으로써 데이터 생애주기 전반에 Unity Catalog 거버넌스와 리니지를 적용할 수 있게 되었습니다.
운영 데이터베이스에서 데이터를 옮기는 작업은 전통적으로 각 소스마다, 각 목적지마다 파이프라인을 별도로 구축하고 모니터링하는 것을 의미했습니다. 대부분의 팀에서 이 작업은 깨지기 쉽고, 거버넌스되지 않으며, 사람 손이 비례해서 더 들어가는(O(n)) 작업이었습니다. 오늘, 우리는 이 접근 방식을 바꿉니다. Public Preview 로 지금 사용 가능한 Lakebase 는 Change Data Feed (CDF) 를 제공하며, 이 피드는 Unity Catalog Managed Tables 에 저장되고 거버넌스됩니다. 피드를 한 번 활성화하면 모든 엔진·모델·에이전트가 거기서 직접 읽어갈 수 있습니다.
운영 데이터를 레이크로 옮기는 일은 왜 아직도 어려운가
Lakeflow Connect 가 Lakehouse 로의 데이터 적재를 수월하게 만들었지만, OLTP 데이터베이스에서 데이터를 꺼내오는 일은 여전히 수작업이 많고 마찰이 큰 작업으로 남아 있습니다. CDC(Change Data Capture)를 뽑아내려면 팀이 데이터베이스 커넥터를 구성하고, 복제 상태를 일일이 챙기고, 성능 영향에 대응하고, 흩어진 도구들로 에러를 추적해야 합니다. 이 모델은 빠른 데이터 브랜칭에 의존하는 에이전트 중심 개발 환경에서는 무너집니다. 새 브랜치마다, 새 목적지마다 복잡하고 거버넌스 없는 추출 파이프라인을 유지하는 것은 지속 불가능합니다.Lakehouse 에서 해결한 문제. 이제 Lakebase 에 가져옵니다.
Lakehouse 는 데이터를 오픈 포맷(Apache Iceberg™, Delta Lake)에 한 번 저장함으로써 분석을 위한 추출 파이프라인을 제거했습니다. 그 과정에서 Change Data Feed (CDF) 가 다운스트림 복제의 표준으로 자리 잡았고, ETL·스트리밍 워크플로·감사 로그를 떠받쳐 왔습니다.
이제 그 CDF 를 Lakebase 에 네이티브로 설정할 수 있습니다. 활성화에 1분도 걸리지 않으며, 프로젝트 내 모든 테이블에 일괄 적용됩니다. 이 단일 피드 하나로:
- SDP 로 스트리밍 파이프라인 구축
- DBSQL 로 Materialized View 생성
- Agent Bricks 로 임베딩 계산 및 저장