Skip to main content
최종 업데이트: 2026-03-31

왜 자연어 SQL인가 — 비즈니스 가치

대부분의 기업에서 데이터는 풍부하지만, 그 데이터에 접근할 수 있는 사람은 소수의 데이터 엔지니어와 분석가에 한정되어 있습니다. 비즈니스 의사결정자가 “지난 달 APAC 매출이 왜 떨어졌지?”라는 질문을 하면, 분석 요청 티켓을 만들고 며칠을 기다려야 합니다. 이 데이터 접근의 병목 이 Genie Space가 해결하려는 핵심 문제입니다. 자연어 SQL 인터페이스의 비즈니스 가치는 세 가지로 요약됩니다:
가치설명비즈니스 임팩트
의사결정 속도데이터 분석 요청 → 셀프서비스 전환분석 리드타임 수일 → 수초
데이터 민주화SQL을 모르는 비즈니스 사용자도 직접 분석데이터팀 병목 해소, 분석가 리소스 절약
거버넌스 유지Unity Catalog 기반 행/열 수준 보안 자동 적용보안 정책 우회 없이 셀프서비스 제공
참고 Genie Space는 단순히 “자연어 → SQL 변환기”가 아닙니다. 도메인 전문가가 구축한 지식 체계(Knowledge Store) 를 기반으로 동작하기 때문에, 범용 AI 챗봇과 달리 조직 고유의 비즈니스 로직, 용어, 데이터 구조를 정확히 반영합니다.

Genie Space vs 기존 BI 도구

“Tableau나 Power BI가 이미 있는데 왜 Genie Space가 필요한가?”라는 질문을 자주 받습니다. Genie Space는 기존 BI를 대체 하는 것이 아니라, 보완 하는 역할입니다.
비교 항목기존 BI 도구 (Tableau, Power BI 등)Genie Space
질문 방식사전 정의된 대시보드/필터 탐색자연어로 자유롭게 질문
유연성대시보드 설계자가 예상한 질문만 가능데이터 범위 내에서 무한한 질문 가능
구축 비용대시보드마다 설계/개발 필요Space 1개로 다양한 질문 커버
유지보수비즈니스 변화 시 대시보드 재설계인스트럭션 업데이트로 대응
대상 사용자대시보드 탐색에 익숙한 사용자SQL/BI 경험 없는 비즈니스 사용자
인사이트 깊이사전 정의된 차원/측정값 범위Agent Mode로 다단계 탐색 분석 가능
실전 조합 전략: 반복적으로 확인하는 KPI는 기존 BI 대시보드로, 임시(ad-hoc) 질문이나 탐색적 분석은 Genie Space로 제공하는 것이 가장 효과적입니다. 많은 고객이 두 도구를 병행하여 사용합니다.

Genie Space란?

Genie Space는 Databricks의 AI 기반 자연어 데이터 분석 인터페이스입니다. 비즈니스 사용자가 SQL을 몰라도 자연어로 질문하면, AI가 SQL 쿼리를 자동 생성하고 결과를 반환합니다.

핵심 특징

특징설명왜 중요한가
자연어 질의일상 언어로 데이터에 질문SQL 학습 없이 누구나 데이터에 접근
SQL 자동 생성AI가 질문을 분석하여 정확한 SQL 쿼리 생성생성된 SQL을 투명하게 확인 가능 (블랙박스가 아님)
도메인 맞춤조직 고유의 용어와 비즈니스 로직 반영 가능범용 AI 대비 도메인 정확도가 훨씬 높음
거버넌스 내장Unity Catalog 기반 행/열 수준 보안 적용기존 보안 정책을 그대로 유지하면서 셀프서비스 제공
신뢰도 표시Trusted 마크로 검증된 응답 식별사용자가 응답의 신뢰 수준을 즉시 판단 가능
다국어 지원한국어 포함 다양한 언어로 질문 가능글로벌 조직에서 각 지역 팀이 모국어로 사용
Agent Mode다단계 추론과 가설 검증을 통한 심층 분석단순 쿼리를 넘어 “왜?”에 대한 인사이트 도출

동작 원리 — Compound AI System 아키텍처

Genie는 단일 LLM이 아닌 복합 AI 시스템(Compound AI System) 으로 동작합니다. “ChatGPT에 SQL을 짜달라고 하면 되지 않느냐”는 질문을 받을 수 있지만, Genie는 근본적으로 다릅니다. 범용 LLM은 사용자의 질문과 일반 지식만으로 SQL을 생성합니다. 반면 Genie는 Knowledge Store 라는 다층 지식 체계를 종합적으로 참조합니다:
  • 테이블/컬럼 메타데이터— 어떤 데이터가 어디에 있는지, 각 컬럼의 비즈니스 의미는 무엇인지
  • Primary/Foreign Key 관계— 테이블 간 어떻게 조인해야 하는지
  • 예제 SQL 쿼리— 복잡한 비즈니스 질문에 대한 “정답 SQL” 패턴
  • SQL Expression— 비즈니스 지표(Measure), 필터(Filter), 차원(Dimension)의 정확한 SQL 정의
  • 작성자가 제공한 인스트럭션— 도메인 규칙, 용어 정의, 응답 형식 지침
  • 동의어(Synonyms)와 프롬프트 매칭— 사용자 언어와 데이터 값의 자동 매핑
  • 대화 히스토리— 이전 질문의 맥락을 유지하여 후속 질문 처리
이 구성 요소들이 결합되어 Genie가 도메인에 특화된 정확한 SQL 을 생성할 수 있습니다. 따라서 Genie Space의 품질은 LLM의 성능보다 Knowledge Store의 풍부함 에 훨씬 더 크게 좌우됩니다.
참고 성공적인 Genie Space의 특징: 80% 이상의 벤치마크 정확도를 달성하는 Space들은 공통적으로 (1) 명확한 컬럼 설명, (2) 핵심 비즈니스 지표의 SQL Expression 정의, (3) 10개 이상의 예제 SQL 쿼리, (4) 프롬프트 매칭 설정을 갖추고 있습니다.

지원 데이터 소스

  • Unity Catalog의 Managed 및 External 테이블
  • Foreign 테이블
  • 뷰(View) 및 Materialized View — 뷰 사용을 적극 권장. 복잡한 조인을 미리 처리하면 정확도가 크게 향상됩니다
  • Metric View — 조직 표준 KPI를 정의하여 일관된 지표 사용 보장
  • 파일 업로드 (CSV, Excel) — Public Preview
데이터 소스 선택 원칙: “원본 테이블을 그대로 쓸 것인가, 분석용 뷰를 만들 것인가”는 Genie Space 구축의 첫 번째 설계 결정입니다. 대부분의 경우 분석용 뷰를 만드는 것이 정확도와 사용자 경험 모두에서 유리 합니다.

필수 요구 사항

Space 생성자:
  • Databricks SQL 워크스페이스 권한 (Entitlement)
  • Pro 또는 Serverless SQL Warehouse에 대한 CAN USE 권한
  • Unity Catalog 데이터 객체에 대한 SELECT 권한
최종 사용자:
  • Consumer Access 또는 Databricks SQL 워크스페이스 권한
  • 관련 데이터 객체에 대한 SELECT 권한
  • Genie Space에 대한 최소 CAN VIEW/CAN RUN 권한
참고 최종 사용자는 SQL Warehouse에 대한 직접적인 권한이 필요하지 않습니다. Space 설정에서 지정한 Default Warehouse의 자격 증명이 자동으로 적용됩니다.
주의 Consumer Access vs Databricks SQL Entitlement: Consumer Access는 Genie Space, 대시보드 등 소비형 기능만 사용할 수 있는 경량 권한입니다. SQL 에디터나 노트북이 필요 없는 순수 비즈니스 사용자에게는 Consumer Access만으로 충분합니다. 이렇게 하면 라이센스 비용을 최적화할 수 있습니다.

Agent Mode

Agent Mode란?

Agent Mode(이전 명칭: Research Agent)는 Genie Space의 고급 기능으로, 단순 쿼리를 넘어 다단계 추론과 가설 검증 을 통해 깊이 있는 인사이트를 도출합니다. 일반 Genie 모드가 “단일 질문 → 단일 SQL → 결과”라면, Agent Mode는 “복합 질문 → 가설 수립 → 다수의 SQL 실행 → 결과 종합 → 보고서” 패턴으로 동작합니다. 마치 숙련된 데이터 분석가가 하나의 질문에 대해 여러 각도에서 데이터를 탐색하고 종합하는 과정을 자동화한 것입니다.

주요 기능

  • 연구 계획 수립: 복잡한 질문에 대한 구조화된 접근 방식 및 가설 개발
  • 다중 쿼리 실행: 여러 SQL 쿼리를 실행하여 다각도로 데이터 수집
  • 반복 학습: 발견한 내용을 기반으로 분석 방법론 지속 조정
  • 종합 보고서: 인용, 시각화, 지원 테이블이 포함된 상세 요약 제공

사용 방법

  1. Genie Space를 엽니다.
  2. 채팅 입력란의 Agent Mode 아이콘 을 클릭합니다.
  3. 질문을 입력하고 전송합니다.
  4. Agent가 필요 시 확인 질문을 하고, 완료 후 종합 보고서를 제공합니다.

적합한 질문 예시

  • “이번 분기 매출이 급증한 원인은 무엇인가?”
  • “가장 수익성 높은 고객 세그먼트는?”
  • “마케팅 캠페인 중 ROI가 가장 높은 것은? 그 이유는?”

일반 모드 vs Agent Mode — 언제 무엇을 사용할까?

질문 유형일반 모드Agent Mode
”이번 달 총 매출은?”적합 (단일 쿼리)불필요
”매출이 떨어진 원인은?”부적합 (단일 쿼리로 분석 불가)적합(다각도 분석)
“고객 세그먼트별 LTV 비교”가능 (단일 쿼리)더 깊은 인사이트 가능
”마케팅 ROI 분석 보고서 작성”부적합적합(종합 보고서 생성)
참고 Agent Mode는 현재 Public Preview이며, 표준 Warehouse 컴퓨팅 비용 외 추가 비용은 없습니다. 보고서는 PDF로 내보내기가 가능합니다. 다만 여러 SQL을 순차적으로 실행하므로 일반 모드보다 응답 시간이 길어질 수 있습니다.
Agent Mode 활용 팁: Agent Mode로 생성된 분석 보고서는 경영진 브리핑 자료로 활용하기에 좋습니다. “이번 분기 매출 감소 원인을 분석하고, 개선 방안을 제안해줘”라는 질문 하나로 데이터 기반 인사이트 보고서를 자동 생성할 수 있습니다.

베스트 프랙티스

핵심 원칙

Genie를 신입 데이터 분석가 라고 생각하세요. 아무리 똑똑해도 회사의 비즈니스 용어, 데이터 구조, 암묵적 규칙을 모릅니다. “순매출”이 총매출에서 무엇을 빼는 것인지, “활성 고객”의 기준이 90일인지 180일인지는 누군가 알려줘야 합니다. 명확한 컨텍스트, 구조화된 메타데이터, 예제 쿼리를 제공해야 합니다.

테이블 구성

원칙상세
작게 시작5개 이하 테이블로 시작, 필요 시 확장
사전 조인관련 테이블을 뷰로 미리 조인하여 복잡도 감소
30개 제한최대 30개 테이블, 초과 시 뷰로 통합
Metric View 활용지표, 차원, 집계를 Metric View로 정의
불필요 컬럼 숨김혼란을 줄 수 있는 컬럼은 Hide 처리

컬럼 설명 — 정확도의 80%를 결정하는 요소

컬럼 설명은 Genie 정확도에 가장 큰 영향을 미치는 단일 요소입니다. 좋은 컬럼 설명은 가능한 값, 단위, 비즈니스 정의 를 포함합니다.
  • 명확하고 구체적인 컬럼 이름과 설명 작성 — “주문 상태. 가능한 값: pending, shipped, delivered, cancelled”
  • AI 생성 설명을 사용할 경우 반드시 검증 후 적용 — AI가 생성한 “This column contains status” 같은 설명은 도움이 안 됨
  • 모호하거나 불필요한 세부사항 제거 — 기술적 구현 세부사항보다 비즈니스 의미에 집중
  • Space 전용 메타데이터와 동의어(synonym) 추가 — 한국어/영어, 부서별 용어 차이를 모두 커버
  • 숫자 컬럼의 경우 단위 를 반드시 명시 — “매출 (단위: 원)”, “무게 (단위: kg)“

인스트럭션 작성

우선순위:
1. SQL 표현식 → 비즈니스 용어를 정확한 SQL로 정의
2. 예제 SQL 쿼리 → 복잡한 다단계 질문에 대한 답변 시연
3. 텍스트 인스트럭션 → 글로벌 컨텍스트만 (최후의 수단)
일관성 유지: 예제, 표현식, 텍스트 인스트럭션 간 모순되는 지침이 없도록 주의하세요. 인스트럭션에 “매출은 net_revenue”라고 했는데, 예제 쿼리에서 gross_revenue를 사용하면 Genie가 혼란스러워합니다.
주의 가장 흔한 실수: 텍스트 인스트럭션에만 의존하는 것입니다. “순매출을 계산할 때 할인과 환불을 빼세요”라는 텍스트보다, SUM(amount) - SUM(discount) - SUM(refund) AS net_revenue라는 SQL Expression이 100% 더 정확 합니다.

개발 접근법

  1. 목적 정의: 특정 대상과 주제에 집중 (범용 X)
  2. 최소 시작: 최소한의 인스트럭션과 제한된 질문으로 시작
  3. 직접 테스트: Space의 첫 번째 사용자가 되어 직접 테스트
  4. SQL 검증: 생성된 SQL을 꼼꼼히 검토
  5. 점진적 확장: 피드백 기반으로 인스트럭션을 점진적으로 추가
  6. 도메인 전문가 참여: SQL에 능통한 데이터 분석가가 구축

사용자 테스트 가이드

  • 사용자에게 개선 협업 임을 미리 안내. “이 Space는 완성본이 아니라 여러분의 피드백으로 함께 개선하는 것”이라는 기대치를 설정하세요.
  • Space가 정의한 주제 범위 내에서 테스트하도록 안내. “이 Space에서 답할 수 있는 질문”과 “답할 수 없는 질문”의 경계를 명확히 알려주세요.
  • 좋아요/싫어요 피드백 적극 활용 유도. 피드백은 Space 개선의 가장 중요한 데이터입니다.
  • 추가 피드백은 작성자에게 직접 공유
파일럿 테스트 팁: 테스트 사용자 5명에게 각각 동일한 5개 질문을 주고, 응답의 일관성과 정확도를 비교하세요. 이 방법으로 “어떤 유형의 질문이 약한지”를 빠르게 파악할 수 있습니다.

Genie Space vs Genie Code 비교

비교 항목Genie SpaceGenie Code
대상 사용자비즈니스 사용자, 비기술 인력데이터 엔지니어, 사이언티스트, 분석가
주요 목적자연어 데이터 질의AI 기반 코딩 지원 및 자동화
인터페이스전용 채팅 공간워크스페이스 전체에 내장된 패널
입력 방식자연어 질문자연어 + 코드 + Slash 명령어
출력SQL 결과 테이블, 시각화, 요약코드, 노트북 셀, 대시보드, 파이프라인
설정도메인 전문가가 테이블/인스트럭션 사전 구성별도 설정 불필요 (Unity Catalog 자동 참조)
거버넌스Space 단위 권한 관리워크스페이스 및 Unity Catalog 권한
비용SQL Warehouse 컴퓨팅노트북/쿼리/작업 컴퓨팅
Agent Mode다단계 연구 분석, PDF 보고서다단계 워크플로 자동화, 코드 생성/실행
적합한 사용 사례”지난 달 매출은 얼마야?""ETL 파이프라인을 만들어줘”

언제 무엇을 사용할까?

Genie Space를 사용하세요:
  • 비기술 사용자가 데이터에 접근해야 할 때
  • 반복적인 비즈니스 질의를 셀프서비스로 제공할 때
  • 도메인 특화된 데이터 질의 환경이 필요할 때
  • SQL을 모르는 팀원도 데이터 분석을 해야 할 때
Genie Code를 사용하세요:
  • 복잡한 데이터 파이프라인을 구축할 때
  • ML 모델을 학습하고 배포할 때
  • 대시보드를 생성하고 관리할 때
  • 코드 디버깅과 최적화가 필요할 때
  • GenAI 애플리케이션을 개발할 때

자주 묻는 질문 (FAQ)

질문답변
Genie가 한국어를 잘 이해하나요?네, 한국어 질문을 잘 처리합니다. 다만 컬럼명/데이터값이 영어인 경우 동의어와 프롬프트 매칭 설정이 필요합니다
Genie가 잘못된 답을 하면 어떻게 되나요?모든 응답에 생성된 SQL이 표시되므로 검증이 가능합니다. 피드백 기능으로 오답을 신고하면 관리자가 개선합니다
데이터가 유출될 수 있나요?Unity Catalog 권한이 그대로 적용되므로, 사용자가 기존에 볼 수 없던 데이터는 Genie를 통해서도 볼 수 없습니다
비용이 많이 드나요?Serverless SQL Warehouse 기준, 쿼리가 실행될 때만 비용이 발생합니다. Genie 기능 자체에 대한 추가 라이센스 비용은 없습니다
몇 명까지 동시에 사용할 수 있나요?사용자 수 제한은 없습니다. Warehouse가 자동 스케일링되므로 동시 사용자가 많아져도 성능이 유지됩니다
기존 대시보드를 대체해야 하나요?아닙니다. 대시보드는 정기 KPI 모니터링, Genie Space는 ad-hoc 질문에 각각 적합합니다
다른 워크스페이스의 데이터를 쿼리할 수 있나요?Unity Catalog에 등록된 데이터라면 크로스 워크스페이스 접근이 가능합니다

Genie Space 도입 로드맵

조직에 Genie Space를 도입할 때는 단계적 접근이 중요합니다. 처음부터 전사 배포를 목표로 하지 말고, 작은 성공 사례를 먼저 만드세요.
단계기간활동성공 기준
PoC1-2주단일 팀 + 핵심 테이블 2-3개로 시작벤치마크 70% 이상
파일럿2-4주SME 검증 + 벤치마크 확충 + 사용자 10명벤치마크 80% 이상, 사용자 만족
확산1-2개월부서 단위 롤아웃 + 모니터링 운영주간 활성 사용자 안정적 증가
전사 표준3개월+다부서 Space + 운영 체계 확립데이터팀 ad-hoc 요청 감소
주의 가장 흔한 실패 패턴은 “20개 테이블을 한꺼번에 넣고 전사에 배포”하는 것입니다. 이렇게 하면 정확도가 낮아 사용자가 신뢰를 잃고, 결국 아무도 사용하지 않게 됩니다. 작게 시작하고, 검증하고, 확장하세요.

도입 성공을 위한 핵심 체크리스트

  • 챔피언 확보: 데이터에 관심 있고 피드백을 적극적으로 줄 비즈니스 사용자 1-2명을 파일럿 챔피언으로 지정
  • 데이터 준비: Space에 추가할 테이블의 컬럼 설명이 충분한지, 데이터 품질에 문제는 없는지 사전 점검
  • 기대치 설정: “모든 질문에 100% 정확하게 답하지는 않지만, 계속 개선된다”는 현실적 기대치를 사용자에게 전달
  • 피드백 채널: 사용자가 문제를 보고할 수 있는 간편한 채널 (Slack 채널, 이메일 등) 마련
  • 성과 측정: “데이터팀 ad-hoc 요청 건수 감소”, “질문 응답 시간 단축” 같은 측정 가능한 KPI 설정

참고 자료