Skip to main content

개요

Genie Space는 비즈니스 사용자가 자연어로 데이터에 질문할 수 있는 도메인 특화 채팅 환경입니다. Space를 잘 구성하면 사용자들이 SQL을 몰라도 정확한 데이터 인사이트를 얻을 수 있습니다. 이 가이드에서는 Space 생성의 전체 절차와 각 설정 항목의 의미, 그리고 최적의 구성 방법을 상세히 설명합니다.
참고 왜 첫 설정이 중요한가: Space 생성 시 입력하는 Title, Description, 테이블 선택은 단순한 UI 설정이 아닙니다. 이 정보들은 Genie의 LLM이 SQL을 생성할 때 참조하는 컨텍스트의 일부 입니다. “영업팀 매출 분석”이라는 Title은 Genie에게 “이 Space는 영업 도메인의 매출 데이터를 다룬다”는 맥락을 제공합니다. 잘못된 설정은 곧 부정확한 응답으로 이어집니다.

Step 1: Genie Space 만들기

  1. Databricks 워크스페이스 좌측 사이드바에서 Genie 를 클릭합니다.
  2. 우측 상단의 New 버튼을 클릭합니다.
    • 화면 설명: “Create a new Genie Space” 다이얼로그가 나타나며, 데이터 소스 선택 화면이 표시됩니다.
  3. Unity Catalog에서 데이터 소스(테이블/뷰)를 선택합니다.
    • Catalog > Schema > Table 순서로 탐색합니다.
    • 여러 테이블을 동시에 선택할 수 있습니다.
  4. Create 버튼을 클릭합니다.
처음 생성할 때는 핵심 테이블 2-3개만 선택하세요. 나중에 Configure > Data 메뉴에서 언제든 테이블을 추가/제거할 수 있습니다.

Step 2: Warehouse 선택

Configure > Settings 메뉴에서 Default Warehouse 를 선택합니다. Warehouse는 Genie가 생성한 SQL을 실행하는 컴퓨팅 리소스입니다.

Warehouse 선택이 중요한 이유

Warehouse 선택은 사용자 경험과 비용 에 직접적으로 영향을 미칩니다. 비즈니스 사용자가 질문을 입력하고 30초 이상 기다려야 한다면, Space에 대한 신뢰가 빠르게 떨어집니다. 특히 첫 인상이 중요한 파일럿/PoC 단계에서는 응답 속도가 도입 성공 여부를 좌우합니다.
Warehouse 유형특징권장 사용 시나리오콜드 스타트 시간
Serverless자동 스케일링, 즉시 시작, 사용한 만큼 과금대부분의 Genie Space (권장)0초(즉시 시작)
Pro예측 가능한 비용, 고정 클러스터 크기대규모 쿼리, 비용 예측이 중요한 경우1-5분(자동 중지 후 재시작 시)
Classic레거시 지원신규 Space에는 비권장3-10분

Serverless vs Pro — 어떤 것을 선택할까?

판단 기준Serverless 권장Pro 권장
사용 패턴비정기적, 산발적 사용업무 시간 내 지속적 사용
사용자 수소수 사용자 (1-20명)대규모 사용자 (20명+, 동시 쿼리)
비용 예측사용량이 예측 불가월별 비용 예측이 필요
응답 속도콜드 스타트 0초가 중요약간의 지연 허용 가능
쿼리 규모간단한 집계/필터 쿼리대용량 데이터 스캔, 복잡한 조인
주의 Genie Space는 SQL Warehouse 만 지원합니다. All-Purpose Cluster는 사용할 수 없습니다. Serverless SQL Warehouse를 사용하면 콜드 스타트 없이 즉시 쿼리가 실행되므로 사용자 경험이 가장 좋습니다.
비용 최적화 팁: Serverless Warehouse는 쿼리가 없을 때 비용이 0입니다. 사용 빈도가 낮은 Space라면 Serverless가 Pro보다 비용 효율적입니다. 반면, 하루 종일 수십 명이 사용하는 Space라면 Pro Warehouse의 고정 비용이 더 경제적일 수 있습니다.

Step 3: 기본 설정 구성

Configure > Settings 메뉴에서 다음 항목들을 설정합니다.

전체 설정 항목

설정 항목필수 여부설명작성 팁
Title필수Space 이름 (워크스페이스 브라우저에 표시)데이터 도메인을 명확히 표현 (예: “영업팀 매출 분석”)
Default Warehouse필수쿼리 실행에 사용할 SQL WarehouseServerless 권장
Description권장Space 목적 설명 (Markdown 지원)Genie가 컨텍스트로 참조하므로 상세히 작성
Sample Questions권장사용자에게 보여줄 예시 질문3-5개의 대표 질문 등록
Tags선택조직/분류를 위한 태그팀명, 도메인 등
File Uploads선택CSV/Excel 파일 업로드 허용 여부보안 정책에 따라 결정

Title 작성 가이드

Title은 사용자가 Space 목록에서 가장 먼저 보는 정보입니다.
좋은 예시나쁜 예시이유
”APAC 영업팀 매출 분석""Sales”도메인과 팀을 명확히 식별
”고객 서비스 티켓 현황""CS Data”비기술 사용자도 목적을 이해
”물류 배송 추적 대시보드""Test Space”데이터 범위가 명확

Title이 LLM 컨텍스트인 이유

Genie가 사용자 질문을 받으면, 가장 먼저 참조하는 정보 중 하나가 Space의 Title 입니다. LLM은 Title을 통해 “이 Space가 어떤 도메인의 데이터를 다루는지”를 판단합니다. 예를 들어 Title이 “Sales”라면 LLM은 영업인지, 소매인지, B2B인지 맥락을 파악하기 어렵습니다. “APAC 영업팀 B2B 매출 분석”이라면 지역, 팀, 비즈니스 모델까지 명확합니다.

Description 작성 가이드

Description은 단순 설명이 아니라 Genie가 응답을 생성할 때 참조하는 중요한 메타데이터 입니다. Description에 “이 Space는 2024년 이후 데이터만 포함합니다”라고 적으면, Genie는 “2023년 매출은?”이라는 질문에 “이 Space에는 해당 기간의 데이터가 없습니다”라고 응답할 수 있습니다.
참고 Description에 포함할 내용:
  • Space가 다루는 데이터의 범위와 기간(예: “2023년 이후 APAC 지역 매출 데이터”)
  • 주요 비즈니스 용어 정의 (예: “ARR = 연간 반복 매출”)
  • 데이터 갱신 주기(예: “매일 오전 9시 갱신”)
  • 제한 사항(예: “개인정보는 포함하지 않음”)
Description 작성 예시:
이 Space는 APAC 영업팀의 B2B 매출 데이터를 다룹니다.

데이터 범위: 2024년 1월 이후, 한국/일본/싱가포르 3개국
갱신 주기: 매일 오전 9시 (KST) 자동 갱신
주요 용어:
- 순매출 = 총매출 - 할인 - 환불
- 활성 고객 = 최근 90일 내 구매 이력이 있는 고객
- ARR = Annual Recurring Revenue (연간 반복 매출)
제한사항: 고객 개인정보(이름, 연락처)는 포함하지 않음
주의 Description이 너무 길면 역효과가 날 수 있습니다. 핵심 정보 위주로 10-20줄 이내 로 작성하세요. 상세한 비즈니스 규칙은 Description이 아니라 인스트럭션(Instructions)에 작성하는 것이 적합합니다.

Step 4: Sample Questions 설정

Sample Questions는 사용자가 채팅창을 처음 열었을 때 표시되는 예시 질문입니다. 이 질문들은 단순한 UI 요소가 아니라 두 가지 중요한 역할 을 합니다:
  1. 사용자 가이드: 이 Space에서 어떤 질문을 할 수 있는지 알려줍니다.
  2. Genie 컨텍스트: Genie가 이 Space의 의도와 범위를 이해하는 데 참고합니다.

좋은 Sample Question vs 나쁜 Sample Question

좋은 예시나쁜 예시이유
”지난 분기 APAC 지역 매출 상위 5개 국가는?""매출 보여줘”구체적인 필터와 집계 기준 포함
”올해 신규 고객 수 월별 추이를 꺾은선 그래프로 보여줘""고객 데이터”시각화 유형까지 명시
”제품 카테고리별 반품률을 비교하고, 10% 이상인 항목을 표시해줘""반품”비즈니스 기준치 포함
”지난 달 대비 이번 달 주문 건수 증감률은?""주문”비교 기준이 명확
Sample Questions를 3-5개 등록하되, 다양한 분석 유형(추이 분석, 비교, 랭킹, 필터링)을 포함하세요. 이렇게 하면 사용자가 질문 패턴을 학습하고, Genie도 더 넓은 범위의 질문에 대응할 수 있습니다.

Step 5: 데이터 객체 추가

  1. Configure > Data 메뉴로 이동합니다.
  2. Add 버튼으로 테이블/뷰를 추가합니다.
    • 화면 설명: Unity Catalog 브라우저가 나타나며, Catalog > Schema > Table을 탐색할 수 있습니다.
  3. Overview 탭에서 컬럼 이름, 데이터 타입, 설명을 확인합니다.
  4. Sample data 탭에서 실제 데이터를 미리 확인합니다.
  5. 불필요한 테이블은 휴지통 아이콘으로 제거합니다.
주의 테이블은 5개 이하 로 시작하는 것을 권장합니다. 최대 30개까지 추가할 수 있지만, 테이블이 많을수록 Genie가 잘못된 테이블을 선택할 확률이 높아집니다. 관련성이 높은 핵심 테이블부터 시작하고, 벤치마크 테스트를 거친 후 점진적으로 확장하세요.

원본 테이블 vs 뷰(View) — 무엇을 추가할까?

실무에서 가장 효과적인 패턴은 분석용 뷰를 미리 만들어서 추가 하는 것입니다.
접근 방식장점단점
원본 테이블 직접 추가설정이 간단, 즉시 시작 가능불필요한 컬럼 노출, 조인 정확도 저하 위험
분석용 뷰 생성 후 추가필요한 컬럼만 노출, 사전 조인으로 정확도 향상뷰 생성 작업 필요
예를 들어, orders, customers, products 3개 테이블을 각각 추가하는 대신, orders_with_customer_product라는 뷰를 미리 만들어서 1개만 추가하면 Genie가 조인을 고민할 필요가 없습니다. 테이블이 적을수록, 컬럼명이 명확할수록 정확도가 올라갑니다.
실전 팁: 이미 Databricks SQL에서 자주 사용하는 쿼리가 있다면, 그 쿼리의 FROM/JOIN 패턴을 뷰로 만들어 Genie Space에 추가하세요. 분석가들이 이미 검증한 조인 로직을 그대로 활용할 수 있습니다.

File Uploads 설정 — 언제 활성화할까?

File Uploads를 활성화하면 사용자가 CSV나 Excel 파일을 업로드하여 Genie Space의 기존 데이터와 조합 분석할 수 있습니다.
활성화 권장비활성화 권장
사용자가 외부 데이터(시장 조사, 경쟁사 데이터)를 자사 데이터와 비교해야 할 때보안 정책이 엄격하여 외부 파일 유입을 금지할 때
사용자가 예산/목표 데이터를 올려서 실적과 대비 분석할 때데이터 거버넌스 관점에서 비정형 데이터 유입을 제한할 때
PoC/파일럿 단계에서 빠른 분석이 필요할 때프로덕션 환경에서 데이터 품질 관리가 중요할 때
주의 File Uploads는 현재 Public Preview 입니다. 업로드된 파일은 임시 테이블로 저장되며, 세션이 끝나면 삭제됩니다. 민감 데이터가 포함된 파일 업로드에 주의하세요.

생성 후 체크리스트

Space를 생성한 직후 아래 항목을 확인하세요:
  • Title과 Description이 데이터 도메인을 명확히 설명하는가?
  • Warehouse가 올바르게 선택되었는가?
  • Sample Questions가 3개 이상 등록되었는가?
  • 추가한 테이블의 컬럼 설명이 충분한가?
  • 불필요한 컬럼이 숨김 처리되었는가?
  • 테스트 질문 5개 이상으로 기본 동작을 검증했는가?
  • 첫 번째 질문의 응답 속도가 5초 이내인가? (Warehouse 정상 동작 확인)
  • 생성된 SQL의 테이블/컬럼 선택이 올바른가? (Show code로 검증)

흔한 실수와 해결법

실수영향해결법
Description 미작성Genie가 Space 목적을 파악하지 못해 부정확한 응답데이터 범위, 용어, 갱신 주기를 포함한 상세 설명 작성
테이블 10개 이상 추가쿼리 정확도 저하, 응답 시간 증가핵심 테이블 5개 이하로 시작
Sample Questions 미등록사용자가 어떤 질문을 해야 할지 모름다양한 분석 유형의 예시 3-5개 등록
Classic Warehouse 사용콜드 스타트로 인한 느린 응답Serverless SQL Warehouse로 변경
약어로 된 TitleGenie가 도메인을 파악하지 못함도메인과 팀을 포함한 명확한 한국어 Title 작성
동일 스키마의 테이블 다수 추가Genie가 어느 테이블을 쿼리할지 혼동용도별로 뷰를 만들어 구분하거나, 불필요한 테이블 제거
생성 직후 5분 테스트: Space를 만든 직후, 등록한 Sample Questions를 모두 실행해보세요. 이 5분 투자가 나중에 시간을 크게 절약합니다. 이때 Show code로 생성된 SQL을 반드시 확인하세요. SQL이 올바르게 생성되지 않으면 컬럼 설명이나 동의어를 먼저 보강해야 합니다.