왜 AI/BI가 등장했는가 — 전통 BI의 한계
💡 AI/BI 는 기존 BI 도구가 해결하지 못한 세 가지 근본 문제에 대한 Databricks의 해답입니다.
문제 1: 대시보드 피로 (Dashboard Fatigue)
전통 BI 환경에서는 분석가가 사전에 예측한 질문만 대시보드로 만들 수 있습니다. 조직 내 대시보드 수가 수백~수천 개로 늘어나면서 “어떤 대시보드가 최신인가?”, “이 숫자가 맞는가?”라는 불신이 생깁니다. 정작 필요한 질문은 대시보드에 없어 다시 분석가에게 요청하는 악순환이 반복됩니다.문제 2: 셀프서비스의 실패 (Self-Service BI의 현실)
Tableau, Power BI는 “비즈니스 사용자도 직접 분석할 수 있다”고 약속했지만, 실제로는:- 드래그앤드롭 인터페이스를 배우는 데 수 일이 걸립니다.
- 복잡한 계산식, LOD 표현식, DAX 함수는 결국 IT/분석가가 담당합니다.
- 데이터 모델 구조를 모르면 잘못된 집계를 만들어도 알아차리기 어렵습니다.
문제 3: 데이터 문해력 격차 (Data Literacy Gap)
조직의 80~90%는 SQL을 모릅니다. 분석가는 소수입니다. 데이터 기반 의사결정을 하고 싶어도 실제로 데이터를 조회할 수 있는 사람이 병목이 됩니다. AI가 SQL을 대신 작성해 주지 않는 한 이 격차는 해소되지 않습니다.| 한계 | 증상 | AI/BI의 해법 |
|---|---|---|
| 대시보드 피로 | 수천 개 대시보드, 불신 | Genie — 질문할 때마다 최신 데이터로 답변 |
| 셀프서비스 실패 | IT 병목, 대기열 | 자연어 → SQL 자동 생성 |
| 데이터 문해력 격차 | 80% 직원이 데이터 접근 불가 | SQL 없이 대화로 분석 |
Databricks AI/BI란?
💡 AI/BI 는 Databricks의 비즈니스 인텔리전스 솔루션으로, 데이터 분석가뿐만 아니라 비기술 비즈니스 사용자 도 데이터에서 인사이트를 얻을 수 있도록 설계된 도구 모음입니다.Databricks는 2024년 AI/BI를 발표하면서 ”** Intelligence is the new interface**“라는 비전을 제시했습니다. 핵심 아이디어는 다음과 같습니다:
- 레이크하우스 위에서 직접 실행: 데이터를 BI 도구로 복사하지 않고 Delta Lake에서 직접 조회합니다.
- LLM이 SQL 중간자 역할: 자연어 질문을 LLM이 SQL로 변환하여 실행합니다.
- Unity Catalog 거버넌스 통합: 테이블 권한, COMMENT, 메타데이터가 AI 정확도와 직결됩니다.
- Lakeview Dashboard + Genie의 조합: 정형화된 리포트(대시보드)와 탐색적 대화(Genie)를 하나의 플랫폼에서 제공합니다.
핵심 구성 요소
| 구성 요소 | 역할 | 대상 사용자 |
|---|---|---|
| AI/BI Dashboard (Lakeview) | SQL 쿼리 결과를 차트, 표, KPI로 시각화합니다 | 분석가, 비즈니스 사용자 |
| Genie | 자연어로 데이터에 질문하면 SQL을 자동 생성하여 답변합니다 | 비기술 사용자, 경영진 |
| Alerts | SQL 쿼리 결과가 조건을 만족하면 자동으로 알림을 보냅니다 | 운영팀, 분석가 |
| Metric Views | 비즈니스 메트릭을 중앙에서 정의하고 일관되게 사용합니다 | 전 조직 (UC 거버넌스 적용) |
Lakeview Dashboard — 코드 기반 대시보드
기존 Tableau/Power BI의 바이너리 파일 방식과 달리, Lakeview 대시보드는 JSON 직렬화 포맷 으로 저장됩니다. 이는 다음을 의미합니다:- Git 버전 관리 가능: 대시보드 변경 이력을 코드처럼 추적할 수 있습니다.
- 프로그래밍 방식 배포: Databricks Asset Bundle (DAB)로 CI/CD 파이프라인에 통합됩니다.
- API 기반 생성: REST API로 대시보드를 동적으로 생성·수정할 수 있습니다.
Genie — 자연어 질의 엔진
Genie는 단순한 “Text-to-SQL” 도구가 아닙니다. 아래 세 가지를 조합하여 정확도를 높입니다:- 테이블/컬럼 COMMENT: Unity Catalog에 등록된 메타데이터를 컨텍스트로 활용합니다.
- Trusted Answers (인증된 답변): 관리자가 사전 검증한 질문-SQL 쌍을 우선 매칭합니다.
- Instructions (지침): Space 수준의 비즈니스 규칙과 용어 정의를 LLM에 주입합니다.
Metric View — 통일된 메트릭 정의
Metric View 는 Unity Catalog 객체로, 비즈니스 메트릭(KPI)을 SQL로 한 번만 정의하면 대시보드·Genie·외부 도구에서 일관되게 참조할 수 있습니다.전통 BI vs AI/BI — 상세 비교
| 비교 항목 | 전통 BI (Tableau, Power BI) | Databricks AI/BI |
|---|---|---|
| 데이터 위치 | BI 도구로 데이터를 추출/복사해야 함 | 레이크하우스에서 직접 조회 |
| AI 기능 | 제한적 | 네이티브 AI — Genie, AI 차트 추천 |
| 거버넌스 | 별도 관리, 이중 권한 체계 | Unity Catalog 통합 — 단일 권한 소스 |
| 실시간성 | 추출 주기에 의존 (일 1회, 시간 단위) | Delta Lake 최신 데이터 즉시 조회 |
| 비용 모델 | 사용자당 월 라이선스 (Tableau: 840/user) | 플랫폼 내장 — SQL Warehouse 쿼리 비용만 |
| 대시보드 생성 | GUI 드래그앤드롭, 바이너리 파일 저장 | SQL + JSON, Git/CI-CD 관리 가능 |
| 질문-답변 | 사전 정의된 필터/드릴다운만 | 자연어 대화 — 사전 미정의 질문도 답변 |
| 메타데이터 활용 | BI 도구 내 별도 정의 | Unity Catalog COMMENT가 AI 정확도에 직결 |
| 학습 곡선 | 비기술 사용자: 수 일~수 주 | Genie: 즉시 사용 가능 (자연어) |
| 복잡 계산 | DAX, LOD 표현식 필요 | Metric View로 중앙 정의 후 재사용 |
💡 Databricks AI/BI는 Tableau, Power BI를 대체 하는 것이 아니라 보완 합니다. 하이브리드 전략에 대한 자세한 내용은 하이브리드 BI 전략 문서를 참고하세요.
데이터 흐름
| 단계 | 구성 요소 | 설명 |
|---|---|---|
| 데이터 저장 | Gold 테이블 (Delta Lake) | 분석에 최적화된 집계 테이블입니다 |
| 쿼리 실행 | SQL Warehouse (Serverless) | Photon 엔진으로 고속 쿼리를 처리합니다 |
| 시각화 | AI/BI Dashboard | 차트, 표, KPI 카운터로 시각화합니다 |
| 자연어 분석 | Genie Space | 자연어 질문 → SQL 자동 생성 → 답변 |
| 모니터링 | Alerts | 조건 충족 시 Slack/이메일 알림 |
| 외부 BI | Tableau, Power BI (JDBC/ODBC) | SQL Warehouse에 직접 연결 |
💡 Gold 테이블을 BI 소스로 사용: 대시보드는 Medallion 아키텍처의 Gold 계층 테이블을 소스로 사용합니다. Gold는 이미 집계되어 있으므로 쿼리가 간결하고 빠릅니다.
역할별 활용
| 역할 | 주요 도구 | 시나리오 |
|---|---|---|
| 데이터 분석가 | Dashboard, SQL Editor | 정기 리포트, 데이터 탐색 |
| 비즈니스 사용자 | Genie | ”이번 달 매출이 목표 대비 어떤가요?” |
| 경영진 | Genie, Dashboard | KPI 모니터링, 즉석 질문 |
| 운영팀 | Alerts | 이상 거래 감지, SLA 위반 알림 |
| 데이터 엔지니어 | Alerts, Dashboard | 파이프라인 모니터링, 데이터 품질 |
실전 사용 시나리오
시나리오 1: 경영진 KPI 대시보드
상황: CMO가 매주 임원 보고용 매출·고객·캠페인 대시보드를 원합니다. 중간에 “이번 분기 해지 고객 중 ARPU 상위 10%는 누구인가?”라는 즉석 질문이 나옵니다. AI/BI 활용 방법:- 분석가가 Lakeview Dashboard로 정기 KPI 대시보드를 만들어 공유합니다.
- 회의 중 즉석 질문은 CMO가 직접 Genie에 자연어로 입력합니다.
- Genie가 SQL을 생성·실행하여 30초 내 결과를 반환합니다.
시나리오 2: 현업 셀프서비스 분석
상황: 영업팀 매니저가 특정 지역의 신규 고객 현황을 매일 확인하고 싶습니다. SQL은 모릅니다. AI/BI 활용 방법:- 데이터 팀이
영업 분석Genie Space를 만들고 관련 Gold 테이블 3~5개를 연결합니다. - Instructions에 지역 코드, 고객 등급 정의 등 비즈니스 용어를 상세히 작성합니다.
- 매니저는 “지난 주 서울 지역 신규 고객 수와 평균 계약 금액을 보여줘”라고 입력합니다.
시나리오 3: 데이터팀 파이프라인 모니터링
상황: 데이터 엔지니어가 야간 배치 파이프라인의 이상 여부를 실시간으로 모니터링하고 싶습니다. AI/BI 활용 방법:- Lakeview Dashboard에 파이프라인 성공률, 처리 건수, 지연 시간 위젯을 구성합니다.
- Alerts로 처리 건수가 전일 대비 30% 이하이면 Slack 채널에 즉시 알림을 보냅니다.
- 이상 감지 후 Genie에 “오늘 오전 2시 배치에서 실패한 레코드의 공통점은?”을 질문합니다.
도입 시 고려사항
데이터 품질 요구사항
AI/BI, 특히 Genie의 정확도는 메타데이터 품질 에 직접 비례합니다. 도입 전 아래 체크리스트를 확인하세요.| 체크 항목 | 권장 사항 | 이유 |
|---|---|---|
| 테이블 COMMENT | 모든 Gold 테이블에 한글/영문 설명 필수 | Genie가 테이블 용도를 파악하는 데 사용 |
| 컬럼 COMMENT | 약어·코드 컬럼에 반드시 기재 (region: KR=한국) | LLM이 WHERE 조건 생성 시 참조 |
| 명명 규칙 | 스네이크케이스, 의미 있는 이름 (rev → total_revenue) | 모호한 컬럼명은 Genie 오류의 주요 원인 |
| Gold 테이블 준비 | Genie Space 대상 테이블은 집계·정제 완료 상태 | Raw 테이블 노출 시 복잡한 JOIN이 필요 |
SQL Warehouse 비용 관리
AI/BI는 모든 쿼리를 SQL Warehouse에서 실행합니다. 예상치 못한 비용 발생을 방지하기 위해:- Serverless SQL Warehouse: 사용한 쿼리 시간만 청구, Auto Stop 10분 권장
- 대시보드 새로고침 주기: 실시간이 필요 없다면 1시간 이상 캐시 활용
- Genie Space 접근 제어: 전체 공개 대신 필요한 팀에게만 권한 부여
- 쿼리 최적화: Gold 테이블에 Liquid Clustering 적용, 대형 JOIN 제거
기존 BI 도구와의 공존 (하이브리드 전략)
Databricks AI/BI로 전면 교체가 어려운 경우, 역할 분담 전략을 권장합니다:| 용도 | 권장 도구 | 이유 |
|---|---|---|
| 픽셀 퍼펙트 리포트 (인쇄, PDF 제출) | Tableau, Power BI | 정교한 레이아웃 제어 |
| 임시 탐색 질문 | Genie | 자연어 대화로 즉시 답변 |
| 실시간 운영 대시보드 | Lakeview Dashboard | Delta Lake 직접 조회 |
| 복잡한 통계 분석 | Databricks Notebook | Python/R 자유도 |
| 경영진 셀프서비스 | Genie | SQL 없이 즉시 사용 |
장단점과 한계
현재 할 수 있는 것
| 기능 | 상세 |
|---|---|
| 자연어 → SQL 자동 생성 | 한국어 질문도 지원 (2024년 이후) |
| 대시보드 Git 관리 | DAB (Databricks Asset Bundle)로 CI/CD |
| Metric View 중앙 정의 | 전사 KPI를 Unity Catalog에서 일원 관리 |
| Row-Level Security 연동 | Unity Catalog RLS가 Genie/Dashboard에도 적용 |
| MCP 연동 | Genie Agent를 외부 AI 에이전트에 노출 가능 |
| embedded 대시보드 | iFrame으로 외부 앱에 대시보드 삽입 가능 |
현재 할 수 없는 것 (한계)
| 한계 | 설명 | 우회 방법 |
|---|---|---|
| 픽셀 퍼펙트 레이아웃 | 인쇄용 정밀 레이아웃 불가 | Tableau/Power BI 사용 |
| 오프라인/로컬 접근 | 항상 인터넷 + SQL Warehouse 필요 | 없음 |
| Genie 다중 테이블 복잡 JOIN | 20개 이상 테이블 정확도 급감 | Space를 도메인별로 분리 |
| Genie 쓰기 작업 | SELECT만 가능, DML 불가 | Workflow/Job 사용 |
| 모바일 앱 | 전용 모바일 앱 없음 (브라우저만) | PWA 방식으로 접근 |
경쟁사 BI 대비 포지셔닝
| 도구 | 강점 | Databricks AI/BI와의 차별점 |
|---|---|---|
| Tableau | 시각화 표현력, 픽셀 퍼펙트 | AI/BI: 레이크하우스 직접 연결, 자연어 질의 |
| Power BI | Microsoft 생태계, 모바일 | AI/BI: Unity Catalog 거버넌스, Delta 직접 조회 |
| Looker | Git 기반 LookML, 시맨틱 레이어 | AI/BI: Metric View + Genie로 유사 기능 제공 |
| ThoughtSpot | 자연어 검색 특화 | AI/BI: 레이크하우스 통합, 비용 내장 |