원문: Why agentic analytics starts with a well-governed data layerAI가 임원들의 데이터 상호작용 방식을 바꾸면서, 애널리틱스(Analytics)는 대시보드 시대를 벗어나 훨씬 더 역동적인 운영 모델로 전환되고 있습니다. 자연어 인터페이스(Natural Language Interface), AI 기반 인사이트(AI-Driven Insights), 에이전틱 워크플로우(Agentic Workflow)는 더 폭넓은 인텔리전스(Intelligence)에 대한 접근을 약속하지만, 동시에 많은 조직이 수년간 안고 살아온 문제를 수면 위로 드러냅니다. 바로 파편화된 정의, 일관성 없는 지표, 그리고 AI 규모를 위해 설계된 적 없는 거버넌스(Governance) 모델입니다. 통합된 시맨틱 레이어(Semantic Layer)가 계보(Lineage)와 오픈 표준(Open Standards) 위에 구축될 때, 신뢰할 수 있는 AI와 애널리틱스를 규모 있게 실현할 수 있습니다. Databricks의 아시아·태평양·일본(APJ) 필드 엔지니어링 담당 부사장인 Nick Eayrs 와의 인터뷰를 통해, 단순한 데이터 기반 구축을 넘어 지능형 엔터프라이즈(Intelligent Enterprise)로 나아가는 방법을 살펴봅니다.
애널리틱스가 어떻게 변화하고 있나요, 그리고 무엇이 달라졌나요?
가장 큰 변화는 인터페이스(Interface)에 있습니다. 예전에는 분석가가 SQL을 작성하거나 BI(Business Intelligence) 도구를 사용해 데이터에 접근해야 했습니다. 이제는 임원이 자연어로 질문하면 인사이트를 얻을 수 있습니다. 에이전트(Agent)가 데이터를 조회하고, 패턴을 탐색하며, 직접 행동을 취할 수 있습니다. 이는 강력한 가능성이지만, 한 가지 전제 조건이 있습니다. 바로 기반이 되는 데이터 레이어(Data Layer)가 이를 충분히 지원할 수 있을 만큼 잘 거버넌스되고 구조화되어 있어야 한다는 것입니다. 이 부분에서 많은 조직이 어려움을 겪습니다. 지표(Metric)가 여러 시스템에 걸쳐 중복 정의되어 있고, 각 팀마다 같은 개념에 대해 서로 다른 계산 방식을 사용하며, 데이터가 도구 전반에 걸쳐 사일로(Silo)화되어 있습니다. 이런 환경에서는 “매출”을 물었을 때 어떤 대답이 돌아올지, 그리고 그 대답을 믿어도 될지조차 알 수 없습니다.이런 파편화가 왜 오늘날 더 시급한 문제인가요?
기존의 BI 환경에서는 분석가가 쿼리(Query)를 작성하고 그 결과를 직접 검증할 수 있었습니다. 잘못된 숫자가 나오면 눈으로 확인하고 고칠 수 있었죠. AI와 에이전트 시스템은 그런 방식으로 작동하지 않습니다. 수천 개의 모델이나 에이전트가 동시에 데이터를 조회할 수 있습니다. 사람이 일일이 확인하고 조정할 수 없습니다. 그렇기 때문에 거버넌스(Governance) 가 단순히 규정 준수의 문제가 아니라 AI 품질의 문제가 됩니다. 지표가 잘 정의되지 않았다면, 에이전트는 그 잘못된 정의를 빠르게, 그리고 대규모로 증폭시킵니다. 그것이 가장 큰 리스크(Risk)입니다. 동시에, 시맨틱스(Semantics)가 사라지는 것은 아닙니다. 오히려 더 중요해집니다. AI와 에이전트는 여전히 그 아래에 있는 데이터에 의해 작동합니다. 결국 옛말 그대로입니다. 쓰레기를 넣으면 쓰레기가 나옵니다. 제품, 서비스, 분류 체계, 용어에 대한 적절한 비즈니스 컨텍스트(Business Context)를 갖춘 신뢰할 수 있는 고품질 데이터를 많이 확보할수록 AI 경험의 질이 높아집니다.거버넌스(Governance)를 실용적인 관점에서 어떻게 설명하시겠어요?
BI와 AI 양쪽 모두에서 거버넌스는 결국 신뢰(Trust), 계보(Lineage), 추적 가능성(Traceability) 의 문제입니다. 대시보드나 비즈니스 인텔리전스 인사이트를 생산할 때, 그것이 어떻게 만들어졌는지 이해할 수 있어야 합니다. 어떤 기반 데이터가 사용되었나요? 지표는 어떻게 정의되었나요? 이것을 모른다면 보고 있는 내용을 신뢰할 수 없습니다. AI의 세계에서는 이 필요성이 더욱 확대됩니다. AI 모델 출력이나 에이전틱 애플리케이션이 어떻게 결과를 도출했는지 이해할 수 있어야 합니다. 어떤 데이터가 참조되었나요? 어떤 지표 정의가 사용되었나요? 무언가 의심스러운 결과가 나왔을 때 감사(Audit)하고 수정할 수 있어야 합니다. 이는 조직 전체에 걸친 단일한 데이터 카탈로그(Data Catalog)에서 시작됩니다. 어디에 무엇이 있는지, 어떻게 연결되어 있는지, 누가 접근할 수 있는지를 알 수 있어야 합니다. 카탈로그가 갖춰지면 거기서 시맨틱스를 정의하고, 비즈니스 지표를 인증하며, 단일 진실 공급원(Single Source of Truth)을 만들 수 있습니다. Databricks 모델에서 이 진실 공급원은 개방적이고 상호운용 가능합니다. 그것이 매우 중요합니다. 이렇게 하면 몇 가지 일이 일어납니다. 계보, 거버넌스, 감사 가능성, 인증된 정의가 있기 때문에 신뢰 가 생깁니다. 불필요한 중복과 반복적인 ETL(Extract, Transform, Load)을 피하기 때문에 단순화 가 이루어집니다. 그리고 누군가 새로운 질문을 할 때마다 로직(Logic)을 다시 구축하지 않아도 되기 때문에 IT 부담이 줄어듭니다.기존의 BI 접근 방식 중 특히 AI를 위한 거버넌스에서 취약점이 되는 것이 있나요?
가장 큰 패턴은 데이터 추출과 복제(Data Extraction and Replication) 입니다. 전통적인 BI 도구는 종종 소스 시스템에서 데이터를 추출하고, 특정 리포팅 목적에 맞게 집계한 뒤, 독점적인 스토리지(Proprietary Storage)로 이동시키고, 그 위에 독점적인 시맨틱스와 대시보드를 레이어로 쌓습니다. 모든 것이 도구 안에 갇히게 됩니다. 이것이 AI 세계에서 진짜 문제가 됩니다. 왜냐하면 사용자는 항상 후속 질문을 하기 때문입니다. 더 깊이 파고들고 싶어합니다. 그 로직을 다른 시스템에 노출하고 싶어합니다. 데이터 사이언티스트나 머신러닝 팀이 그 위에 구축하길 원합니다. 모든 것이 하나의 독점적인 레이어에 갇혀 있으면 이것이 잘 작동하지 않습니다. 만약 모든 것이 오픈 데이터 포맷(Open Data Format)과 오픈 인터페이스(Open Interface) 위에 구축된다면, BI, AI, 노트북(Notebook), 에이전트, 데이터 사이언스 팀 모두 동일한 거버넌스된 기반 위에서 작업할 수 있습니다. 데이터를 한 번 저장하고 처리합니다. 모두가 자연어로 상호작용할 수 있습니다. 모두가 그 위에 구축할 수 있습니다.비즈니스 지표(Business Metric)와 시맨틱 레이어(Semantic Layer)는 이 구조에서 어떤 역할을 하나요?
비즈니스 지표는 기반 기둥(Foundational Pillar) 으로 취급되어야 합니다. 이는 매출, 이탈률, 고객 생애 가치(Customer Lifetime Value)와 같은 것들의 정의가 조직 전체에 걸쳐 명시적으로 정의되고, 인증되며, 재사용 가능해야 한다는 것을 의미합니다. 두 번째로, 그 지표들은 표준 언어, 주로 SQL(Structured Query Language)을 통해 접근 가능해야 하며, BI 도구뿐만 아니라 AI 인터페이스, 노트북, 에이전트에서도 사용할 수 있어야 합니다. 세 번째로, 개방성과 상호운용성(Openness and Interoperability) 이 필요합니다. 모든 비즈니스 로직을 꺼낼 수 없는 시스템 안에 밀어 넣고 싶지는 않을 것입니다. 오픈 표준은 선택의 자유와 시스템이나 공급자를 교체해야 할 때의 안전한 출구 전략을 제공하기 때문에 중요합니다. 그리고 AI 지원 거버넌스(AI-Enabled Governance) 도 필요합니다. 에이전틱 세계에서는 수천 개의 모델이나 에이전트가 항상 시맨틱 레이어와 상호작용할 수 있습니다. 메타데이터(Metadata), 주석, 비즈니스 지표를 최신 상태로 유지하는 것은 이 모든 것이 수동으로 처리된다면 엄청난 도전이 됩니다. AI는 그 메타데이터를 생성하고 유지하는 데 도움을 줄 수 있어서, 시맨틱 레이어가 규모에 맞게 사용 가능한 상태를 유지할 수 있도록 합니다.APJ(아시아·태평양·일본) 지역에서 구체적으로 어떤 것을 목격하고 계신가요?
APJ 고객들은 기반을 빠르게 올바르게 구축한 다음, AI 우선(AI-First) 애플리케이션 개발로 신속하게 전환하는 경향이 있습니다. 특히 금융 서비스, 통신, 소매 분야에서는 규제 준수와 데이터 품질에 대한 높은 기대치를 가진 고객들이 있으며, 이것이 실제로 좋은 데이터 기반 구축을 강제하는 요소가 됩니다. 우리가 목격하는 것은 고객들이 종종 거버넌스와 데이터 기반 레이어를 먼저 구축하고, 그 기반이 자리 잡히면 AI 네이티브(AI-Native) 애플리케이션으로 빠르게 이동한다는 것입니다. 이 순서가 중요합니다. 그 기반 없이는 AI 애플리케이션들이 기대한 대로 작동하지 않습니다. 신뢰할 수 없는 대답을 내놓거나, 사용자들이 결과를 신뢰하지 않거나, 혹은 팀마다 서로 다른 지표 정의로 인해 서로 다른 답변을 얻게 됩니다.AI와 함께 잘 작동하는 시맨틱 레이어를 구축하기 위한 실질적인 조언이 있으신가요?
구현 패턴은 비교적 명확합니다. 첫째, 데이터 기반을 올바르게 구축하세요. 메타데이터, 비즈니스 로직, 주석, 비즈니스 지표가 AI가 그 데이터를 잘 활용하기 전에 반드시 갖춰져 있어야 합니다. 둘째, 시맨틱 레이어를 구축하고 비즈니스 지표를 인증하세요. 이는 일회성 작업이 아닙니다. 유지 관리가 필요한 살아있는 레이어입니다. 하지만 일단 구축되면, 조직 전체에 걸쳐 엄청난 생산성 향상을 가져다 줍니다. 셋째, AI를 레이어로 추가한 다음 평가 프레임워크(Evaluation Framework)를 사용하여 그 출력을 모니터링하고 정제하세요. 이 순서가 중요합니다. 기반 없이 바로 AI로 뛰어들면 확장할 수 없는 것들을 만들게 됩니다.마무리로 어떤 메시지를 남기고 싶으신가요?
AI에서 가치를 만들어내는 조직들은 애널리틱스, 시맨틱스, 거버넌스를 별개의 대화로 취급하지 않습니다. 그것들을 하나의 기반으로 취급합니다. 가장 빠르게 실험에서 신뢰할 수 있는 인텔리전스로 전환하는 기업들이 자신들의 분야를 정의하게 될 것입니다. 그 기업들은 지표를 명확하게 정의하고, 중앙에서 거버넌스하며, 애널리틱스와 AI가 동일한 진실 위에서 구축할 수 있을 만큼 충분히 개방적으로 만드는 기업들입니다. 그것이 바로 에이전틱 애널리틱스의 시작점입니다. 데이터 레이어 자체입니다.참고 관련 자료
- Unity Catalog Business Semantics GA 발표 — BI와 AI를 위한 시맨틱 레이어의 미래
- 에이전틱 BI 구현: 인프라, 데이터, 시맨틱스 통합 방법
- Databricks AI/BI Genie — 자연어 기반 데이터 분석