Skip to main content
원문: Introducing Lakehouse Federation Capabilities in Unity Catalog (2023-06-28)
작성자: Matei Zaharia, Andrew Li, Can Efeoglu, Cyrielle Simeone, Sachin Thakur, Daniel Tenedorio
Lakehouse Federation이 퍼블릭 프리뷰로 공개되었습니다! 데이터 팀은 데이터 파편화, 데이터 통합에 소요되는 시간과 비용, 여러 시스템에 걸친 데이터 거버넌스 관리의 어려움 등으로 인해 올바른 데이터에 빠르게 접근하는 데 많은 과제에 직면해 있습니다. 이러한 이유로 오늘 Data+AI Summit에서 우리는 Unity Catalog의 Lakehouse Federation 기능을 발표하게 되어 매우 기쁩니다. 이 기능을 통해 조직은 통합된 거버넌스를 갖춘 높은 확장성과 성능의 데이터 메시 아키텍처를 구축할 수 있습니다. Unity Catalog는 데이터와 AI를 위한 통합 거버넌스 솔루션을 제공합니다. Unity Catalog의 Lakehouse Federation 기능을 사용하면 데이터를 이동하거나 복사하지 않고도, 단순하고 통합된 경험 내에서 MySQL, PostgreSQL, Amazon Redshift, Snowflake, Azure SQL Database, Azure Synapse, Google BigQuery 등 다양한 데이터 플랫폼에 걸쳐 Databricks 내에서 데이터를 발견하고, 쿼리하고, 거버넌스할 수 있습니다. 이는 행·열 수준 접근 제어, 태그를 통한 발견 기능, 데이터 리니지와 같은 Unity Catalog의 고급 보안 기능이 이러한 외부 데이터 소스에도 적용되어 일관된 거버넌스를 보장한다는 것을 의미합니다.
“데이터 과학자와 비즈니스 사용자 모두 일관된 권한 관리가 한 곳에서 이루어지는 통합 사용자 인터페이스를 통해 다양한 데이터 소스에 접근할 수 있게 되었습니다. 우리는 데이터 형식을 Delta Lake로 지속적으로 표준화하고 있지만, Lakehouse Federation 덕분에 데이터 추출에 투자하기 전에 민첩하게 반복 작업을 할 수 있어 매우 기쁩니다.” — Jelle de Jong, Bayer Tech Lead

데이터 파편화가 혁신을 늦추고 있습니다

전 세계 모든 규모, 모든 산업의 수천 개 조직이 Databricks Lakehouse Platform에서 데이터와 AI를 활용하여 혁신하고 있습니다. 그러나 역사적, 조직적 또는 기술적 이유로 데이터는 많은 운영 및 분석 시스템에 분산되어 있으며, 이는 더 많은 과제를 야기합니다:
  1. 모든 데이터를 발견하고 접근하기 어렵습니다: 대부분의 조직은 여러 데이터 소스에 분산된 귀중한 데이터를 보유하고 있습니다. 데이터는 여러 데이터베이스, 데이터 웨어하우스, 오브젝트 스토리지 시스템 등에 있을 수 있습니다. 이로 인해 데이터와 인사이트가 불완전해지며, 이는 고객이 정보에 기반한 의사결정을 내리고 더 빠르게 혁신하는 능력을 저해합니다.
  2. 엔지니어링 병목으로 인한 느린 실행: 여러 데이터 소스에 걸쳐 데이터를 쿼리하기 위해 고객은 일반적으로 먼저 외부 데이터 소스에서 선호하는 플랫폼으로 데이터를 이동해야 합니다. 일부 데이터는 그만한 노력의 가치가 없을 수도 있습니다. 일부 데이터는 단일 통합 위치에 도착하기까지 너무 오래 걸려 혁신을 늦춥니다.
  3. 사일로화된 시스템 전반의 약한 컴플라이언스: 파편화된 거버넌스는 노력의 중복을 초래하고, 부적절한 접근이나 유출을 모니터링하고 방지할 수 없는 위험을 증가시켜 협업과 데이터 민주화를 저해합니다.
Unity Catalog

Unity Catalog의 Lakehouse Federation으로 데이터 에스테이트를 통합하세요

Lakehouse Federation은 이러한 핵심 과제를 해결하고, 조직이 사일로화된 데이터 시스템을 레이크하우스의 확장으로 노출하고, 쿼리하고, 거버넌스하는 것을 간단하게 만들어 줍니다. 이 새로운 기능을 통해 다음을 수행할 수 있습니다:
  1. 데이터 에스테이트의 통합 뷰 구축: 구조화된 데이터와 비구조화된 데이터 모두를 한 곳에서 자동으로 분류하고 발견하며, 조직의 모든 구성원이 데이터가 어디에 있든 상관없이 손끝에 있는 모든 데이터에 안전하게 접근하고 탐색할 수 있도록 합니다.
  2. 단일 엔진으로 모든 데이터를 효율적으로 쿼리하고 결합: 수집(Ingestion) 없이 단일 엔진으로 모든 데이터, 분석 및 AI 사용 사례에 걸쳐 가장 완전한 데이터에 대한 애드혹 분석과 프로토타이핑을 가속화합니다. 소스 간 고급 쿼리 계획과 캐싱은 단일 쿼리로 여러 플랫폼의 데이터에 접근하고 결합할 때에도 최적의 쿼리 성능을 보장합니다.
  3. 데이터 소스 전반의 데이터 보호: 하나의 권한 모델을 사용하여 데이터 소스 전반에 걸쳐 접근 규칙을 설정·적용하고 모든 데이터를 보호합니다. 행·열 수준 보안, 태그 기반 정책, 중앙 집중식 감사와 같은 규칙을 플랫폼 전반에 일관되게 적용하고, 데이터 사용을 추적하며, 내장된 데이터 리니지와 감사 가능성으로 컴플라이언스 요구 사항을 충족합니다.
Connect to external data sources from Unity Catalog
“Lakehouse Federation은 사용량, 판매, 게임 텔레메트리 데이터와 같은 데이터를 여러 소스와 여러 클라우드에 걸쳐 결합하고, 한 곳에서 모두 조회하고 쿼리할 수 있는 능력을 제공합니다. 이제 데이터를 원본 소스에 남겨두면서도 Databricks Lakehouse에서 활용할 수 있습니다. 자주 새로 고침되는 재무 데이터를 더 이상 이동할 필요가 없어 소중한 시간을 아낄 수 있고, 이 시간을 소비자에게 최고의 게임 경험을 제공하는 데 집중할 수 있습니다.” — Felix Baker, SEGA Europe Head of Data Services
“Lakehouse Federation을 통해 기존 데이터 환경을 Unity Catalog로 통합하는 작업을 더 빠르게 진행할 수 있게 되었습니다. 덕분에 Shell의 데이터 거버넌스가 단순해졌습니다. 더 많은 데이터셋이 한 곳에서 발견 가능해지고, 인증이 표준화되며, 공통 프로그래밍 언어로 데이터셋 전반에 걸친 쿼리가 가능해졌습니다. 궁극적으로, 이를 통해 오늘날 에너지 분야에서 일어나고 있는 전환을 더 효과적으로 헤쳐나갈 수 있게 되었습니다.” — Bryce Bartmann, Shell Chief Digital Technology Advisor
Query across data sources and benefit from built-in data lineage 이러한 새로운 기능은 최근 발표된 개방형 Hive 인터페이스와 결합하여, 조직이 Unity Catalog에서 데이터 관리, 발견, 거버넌스를 중앙화하고 Amazon EMR, Apache Spark, Amazon Athena, Presto, Trino 등 광범위한 컴퓨팅 플랫폼에서 이에 연결할 수 있음을 의미합니다. 이 새로운 인터페이스는 여러 데이터 카탈로그를 유지 관리할 필요를 없애고 이러한 플랫폼 전반에 걸쳐 일관된 데이터 거버넌스를 보장합니다.

다음 단계는?

이 기능은 현재 퍼블릭 프리뷰로 제공되므로 지금 바로 시작할 수 있습니다! 우리는 또한 Delta Universal Format(“UniForm”)의 퍼블릭 프리뷰를 통해 Unity Catalog의 거버넌스 기능을 Apache Iceberg 및 Hudi를 포함한 다양한 오픈 스토리지 형식으로 확장하고 있습니다. 이 통합을 통해 Delta 테이블을 마치 Iceberg 테이블인 것처럼(그리고 곧 Apache Hudi로도) 읽을 수 있게 되어, Unity Catalog는 세 가지 주요 오픈 레이크하우스 스토리지 형식을 모두 지원하는 유일한 유니버설 카탈로그가 됩니다. 마지막으로, 향후 Unity Catalog에서 정의한 접근 정책을 연합 데이터 소스에 푸시하여 데이터가 접근되는 모든 곳에서 일관된 적용이 가능하게 될 것입니다. 이를 통해 서로 다른 거버넌스 도구에 걸쳐 중복 정책 정의를 유지할 필요가 없어집니다. Databricks의 공동 창업자이자 CTO인 Matei Zaharia의 Data+AI Summit 2023 키노트를 시청하여 더 자세히 알아보세요. Data+AI Summit에 등록하여 직접 또는 가상으로 참여하고 데이터, 분석, AI의 최신 동향을 탐구하세요!

참고 자료