원문: New Delta Sharing Features, Data Collaboration Ecosystem Growth, Databricks Clean Rooms in Public Preview, Marketplace MomentumData + AI Summit 2024에서 발표된 Delta Sharing 신규 기능, 생태계 성장 지표, Clean Rooms Public Preview, Databricks Marketplace 확장을 소개합니다 게시일: 2024년 6월 13일 | 카테고리: Data Sharing & Collaboration 저자: Zaheera Valani, Tianyi Huang, Darshana Sivakumar, Giselle Goicochea, Harish Gaur
Databricks 고객들은 벤더 종속(vendor lock-in) 없이 유연하고 안전하며 개방된 생태계에서 파트너 및 고객과 크로스 플랫폼, 크로스 클라우드 협업을 이끌어가고 있습니다. Delta Sharing 오픈 프로토콜은 고객들이 데이터와 AI 자산을 손쉽고 안전하게 공유하여 혁신을 가속할 수 있도록 지원합니다. Databricks Marketplace는 데이터, 분석, AI에 관한 모든 니즈를 충족시키는 개방형 마켓플레이스로, 파트너들이 다양한 데이터 및 AI 자산을 공유하고 데이터 소비자들이 혁신을 실현할 수 있게 합니다. Data + AI Summit 2024에서 Databricks는 Delta Sharing, Clean Rooms, Databricks Marketplace에 걸친 여러 중요한 업데이트를 발표했습니다. 이번 글에서는 데이터 협업 생태계의 놀라운 성장 지표와 함께, 이러한 기능들이 어떻게 고객들에게 더욱 강력하고 안전하며 유연한 협업 환경을 제공하는지 살펴보겠습니다.
Databricks 데이터 협업 생태계의 놀라운 성장
Databricks는 혁신과 협업에 대한 지속적인 투자가 지난 한 해 동안 생태계 전반에 걸쳐 인상적인 성과를 거뒀음을 확인할 수 있었습니다.- 16,000명 이상의 데이터 수신자(data recipient)가 클라우드, 플랫폼, 리전을 가로질러 데이터와 AI 자산을 주고받기 위해 Delta Sharing을 채택했습니다.
- 데이터 제공자(data provider)와 수신자 간의 활성 Delta Share 수가 전년 대비 300% 이상 성장 했습니다.
- Databricks Marketplace에서 2,000개 이상의 데이터셋, AI 모델, 솔루션 액셀러레이터 리스팅이 제공되고 있습니다.
- Databricks Marketplace의 리스팅 수가 전년 대비 320% 증가 했습니다.
- Delta Sharing 연결의 40%가 오픈 커넥터를 통해 Apache Spark, Excel, pandas, PowerBI, Tableau 등 비(非)Databricks 플랫폼과 이루어지고 있습니다.
새로운 Delta Sharing 기능
Delta Sharing은 클라우드, 플랫폼, 리전을 가로질러 어떤 수신자에게든 라이브 데이터를 공유하기 위한 개방적이고 유연하며 안전한 접근 방식입니다. Data + AI Summit 2024에서 Databricks는 여러 혁신적인 Delta Sharing 신규 기능을 발표했습니다.Cross-Platform View Sharing (크로스 플랫폼 뷰 공유)
Databricks는 Cross-Platform View Sharing 의 Public Preview 출시를 발표했습니다. 이를 통해 데이터 제공자는 서로 다른 환경에서도 뷰(view)를 원활하게 공유할 수 있습니다. 데이터 소비자는 모든 유형의 Databricks 클러스터를 활용하거나 오픈 Delta Sharing 클라이언트를 사용하여 공유된 뷰에 접근하고 쿼리할 수 있습니다. 이는 게임 체인저입니다. 데이터 제공자의 도달 범위를 확대하고, 데이터 소비자에게는 벤더 종속의 부담 없이 더 쉽고 빠른 협업 환경을 제공하기 때문입니다.Secure Open Sharing with OpenID Connect (OIDC를 활용한 안전한 오픈 공유)
OIDC Token Federation 을 활용한 안전한 오픈 공유가 게이티드 Public Preview(gated public preview)로 제공됩니다. 이를 통해 오픈 수신자(open recipient)는 OpenID Connect 또는 OAuth 토큰을 사용하여 자신이 선호하는 Identity Provider를 통해 인증할 수 있습니다. 비(非)Databricks 수신자와 공유할 때 민감한 정보를 직접 교환할 필요가 없어지므로, 노출 리스크가 줄어들고 보안이 강화됩니다.History Sharing (히스토리 공유)
History Sharing 은 테이블 읽기 성능을 향상시키기 위해 도입된 기능입니다. 데이터 제공자가 수신자와 테이블 히스토리를 공유할 수 있게 하여, 수신자 측에서 더 효율적인 증분 읽기(incremental read)가 가능해집니다. 이는 대규모 데이터셋을 반복적으로 동기화해야 하는 시나리오에서 특히 큰 성능 개선 효과를 발휘합니다.Serverless Egress Controls (서버리스 이그레스 제어)
새롭게 도입된 Serverless Egress Controls 는 데이터 제공자가 서버리스 환경에서도 데이터 이그레스(egress)를 세밀하게 통제할 수 있게 합니다. 이를 통해 불필요한 데이터 전송 비용을 줄이고 보안 정책을 일관되게 적용할 수 있습니다.Lakehouse Federation Sharing (레이크하우스 페더레이션 공유)
Lakehouse Federation Sharing 은 현재 Private Preview로 제공되며 곧 더 넓게 출시될 예정입니다. 이 기능을 통해 데이터 제공자는 Snowflake, BigQuery, Redshift, MySQL, PostgreSQL 등 자신의 데이터 웨어하우스나 데이터베이스에 저장된 데이터에 대한 접근 권한을 손쉽게 부여할 수 있습니다. Databricks 고객은 제공자 측에 추가적인 오버헤드 없이 가장 넓은 범위의 데이터셋에 접근할 수 있게 됩니다. 이는 조직들이 기존 데이터 인프라를 그대로 유지하면서도 개방된 협업을 실현할 수 있음을 의미합니다.Materialized Views 및 Streaming Tables 공유
Private Preview로 Materialized Views 및 Streaming Tables 공유 가 제공됩니다. 이를 통해 고객은 추가 복사본이나 파이프라인을 유지할 필요 없이 Delta Live Tables 파이프라인 출력 결과를 손쉽게 공유할 수 있습니다.Cloudflare R2 지원
Delta Sharing이 이제 Cloudflare R2 를 지원합니다. Cloudflare R2와의 전략적 파트너십을 통해 고객은 제로 이그레스 피(zero egress fee) 혜택으로 상당한 비용 절감을 실현할 수 있습니다. Volume Sharing과 Cloudflare R2 지원 두 가지 기능 모두 이전에 Public Preview 상태였다가 현재 일반 공개(Generally Available) 되었습니다.Databricks Clean Rooms: 프라이버시 안전 협업
Databricks Clean Rooms는 민감한 데이터에 직접 접근하지 않고도 조직 경계를 넘어 안전하게 협업하기 위한 프라이버시 안전(privacy-safe) 환경을 제공합니다. 시장의 다른 데이터 클린룸(data clean room) 솔루션들과 달리, Databricks Clean Rooms는 Python을 통한 ML 및 AI에 대한 네이티브 지원을 포함해 모든 언어와 워크로드를 지원합니다. 이 유연하고 상호 운용 가능하며 확장 가능한 솔루션을 통해 조직들은 데이터 복제 없이 어떤 클라우드나 플랫폼에서도 누구와든 안전하게 협업할 수 있습니다. Databricks Clean Rooms는 AWS와 Azure에서 Public Preview 로 제공될 예정입니다. 이번 발표와 함께 새로운 Clean Rooms 기능들도 소개되었습니다.크로스 클라우드 페더레이션 공유 (Federated Sharing Across Clouds)
Clean Rooms에서 이제 클라우드 간 페더레이션 공유를 지원합니다. 서로 다른 클라우드 환경에 있는 협업 파트너들도 데이터 복제 없이 하나의 Clean Room 내에서 안전하게 공동 작업할 수 있습니다.HIPAA 지원
의료 산업을 위한 HIPAA 컴플라이언스 지원 이 추가되었습니다. 헬스케어 기업들이 환자 데이터의 프라이버시와 규제 요건을 준수하면서도 연구 및 분석 협업을 수행할 수 있게 됩니다.Management API
자동화를 위한 Management API 가 제공됩니다. 기업의 IT 팀과 데이터 엔지니어링 팀이 Clean Rooms의 생성, 관리, 모니터링을 프로그래밍 방식으로 자동화할 수 있습니다.단일 메타스토어 내 자기 협업 (Self-Collaboration)
단일 메타스토어 내에서 자기 협업(self-collaboration) 이 가능해졌습니다. 같은 조직 내의 서로 다른 팀이나 사업부가 Clean Room 환경을 통해 내부 데이터를 프라이버시 안전하게 공유하고 분석할 수 있습니다.참고 Databricks Clean Rooms는 LiveRamp, Habu 등 주요 파트너와 통합을 지원합니다. LiveRamp의 마이크 모로(Mike Moreau) 운영 부사장은 “LiveRamp와 Databricks Clean Rooms는 마케터들이 프라이버시를 보호하면서도 훌륭한 고객 경험을 창출하는 데 필요한 도구를 제공합니다”라고 말했습니다.
Databricks Marketplace: 지속적인 성장과 혁신
2023년 6월에 출시된 Databricks Marketplace는 데이터, 분석, AI에 관한 모든 니즈를 충족하는 개방형 플랫폼으로 자리잡았습니다. Delta Sharing을 기반으로 하는 Marketplace는 다양한 데이터셋, AI 모델, 노트북, 솔루션을 제공하며, 지난 한 해 동안 놀라운 성장을 기록했습니다. 지난 한 해 동안 Marketplace에는 여러 혁신적인 기능이 추가되었습니다.- AI Model Sharing on Marketplace: 마켓플레이스에서 AI 모델을 공유하고 검색할 수 있는 기능
- Volume Sharing on Marketplace: 이미지, 오디오, 비디오, PDF 등 비정형 또는 비테이블형 데이터를 대량으로 공유할 수 있는 기능으로 현재 일반 공개(GA) 상태
- Databricks to Open Sharing: Databricks에서 비(非)Databricks 수신자에게 직접 데이터를 공유하는 기능
- Private Exchanges: 데이터 소비자가 데이터 제품을 더 빠르게 발견하고 평가할 수 있도록 지원하는 프라이빗 교환 기능
- Solution Accelerators: 다양한 산업 및 사용 사례에 맞춘 솔루션 액셀러레이터