개요
Genie Space는 비즈니스 사용자가 자연어로 데이터에 질문할 수 있는 도메인 특화 채팅 환경입니다. Space를 잘 구성하면 사용자들이 SQL을 몰라도 정확한 데이터 인사이트를 얻을 수 있습니다. 이 가이드에서는 Space 생성의 전체 절차와 각 설정 항목의 의미, 그리고 최적의 구성 방법을 상세히 설명합니다.참고 왜 첫 설정이 중요한가: Space 생성 시 입력하는 Title, Description, 테이블 선택은 단순한 UI 설정이 아닙니다. 이 정보들은 Genie의 LLM이 SQL을 생성할 때 참조하는 컨텍스트의 일부 입니다. “영업팀 매출 분석”이라는 Title은 Genie에게 “이 Space는 영업 도메인의 매출 데이터를 다룬다”는 맥락을 제공합니다. 잘못된 설정은 곧 부정확한 응답으로 이어집니다.
Step 1: Genie Space 만들기
- Databricks 워크스페이스 좌측 사이드바에서 Genie 를 클릭합니다.
- 우측 상단의 New 버튼을 클릭합니다.
- 화면 설명: “Create a new Genie Space” 다이얼로그가 나타나며, 데이터 소스 선택 화면이 표시됩니다.
- Unity Catalog에서 데이터 소스(테이블/뷰)를 선택합니다.
- Catalog > Schema > Table 순서로 탐색합니다.
- 여러 테이블을 동시에 선택할 수 있습니다.
- Create 버튼을 클릭합니다.
팁 처음 생성할 때는 핵심 테이블 2-3개만 선택하세요. 나중에 Configure > Data 메뉴에서 언제든 테이블을 추가/제거할 수 있습니다.
Step 2: Warehouse 선택
Configure > Settings 메뉴에서 Default Warehouse 를 선택합니다. Warehouse는 Genie가 생성한 SQL을 실행하는 컴퓨팅 리소스입니다.Warehouse 선택이 중요한 이유
Warehouse 선택은 사용자 경험과 비용 에 직접적으로 영향을 미칩니다. 비즈니스 사용자가 질문을 입력하고 30초 이상 기다려야 한다면, Space에 대한 신뢰가 빠르게 떨어집니다. 특히 첫 인상이 중요한 파일럿/PoC 단계에서는 응답 속도가 도입 성공 여부를 좌우합니다.| Warehouse 유형 | 특징 | 권장 사용 시나리오 | 콜드 스타트 시간 |
|---|---|---|---|
| Serverless | 자동 스케일링, 즉시 시작, 사용한 만큼 과금 | 대부분의 Genie Space (권장) | 0초(즉시 시작) |
| Pro | 예측 가능한 비용, 고정 클러스터 크기 | 대규모 쿼리, 비용 예측이 중요한 경우 | 1-5분(자동 중지 후 재시작 시) |
| Classic | 레거시 지원 | 신규 Space에는 비권장 | 3-10분 |
Serverless vs Pro — 어떤 것을 선택할까?
| 판단 기준 | Serverless 권장 | Pro 권장 |
|---|---|---|
| 사용 패턴 | 비정기적, 산발적 사용 | 업무 시간 내 지속적 사용 |
| 사용자 수 | 소수 사용자 (1-20명) | 대규모 사용자 (20명+, 동시 쿼리) |
| 비용 예측 | 사용량이 예측 불가 | 월별 비용 예측이 필요 |
| 응답 속도 | 콜드 스타트 0초가 중요 | 약간의 지연 허용 가능 |
| 쿼리 규모 | 간단한 집계/필터 쿼리 | 대용량 데이터 스캔, 복잡한 조인 |
주의 Genie Space는 SQL Warehouse 만 지원합니다. All-Purpose Cluster는 사용할 수 없습니다. Serverless SQL Warehouse를 사용하면 콜드 스타트 없이 즉시 쿼리가 실행되므로 사용자 경험이 가장 좋습니다.
팁 비용 최적화 팁: Serverless Warehouse는 쿼리가 없을 때 비용이 0입니다. 사용 빈도가 낮은 Space라면 Serverless가 Pro보다 비용 효율적입니다. 반면, 하루 종일 수십 명이 사용하는 Space라면 Pro Warehouse의 고정 비용이 더 경제적일 수 있습니다.
Step 3: 기본 설정 구성
Configure > Settings 메뉴에서 다음 항목들을 설정합니다.전체 설정 항목
| 설정 항목 | 필수 여부 | 설명 | 작성 팁 |
|---|---|---|---|
| Title | 필수 | Space 이름 (워크스페이스 브라우저에 표시) | 데이터 도메인을 명확히 표현 (예: “영업팀 매출 분석”) |
| Default Warehouse | 필수 | 쿼리 실행에 사용할 SQL Warehouse | Serverless 권장 |
| Description | 권장 | Space 목적 설명 (Markdown 지원) | Genie가 컨텍스트로 참조하므로 상세히 작성 |
| Sample Questions | 권장 | 사용자에게 보여줄 예시 질문 | 3-5개의 대표 질문 등록 |
| Tags | 선택 | 조직/분류를 위한 태그 | 팀명, 도메인 등 |
| File Uploads | 선택 | CSV/Excel 파일 업로드 허용 여부 | 보안 정책에 따라 결정 |
Title 작성 가이드
Title은 사용자가 Space 목록에서 가장 먼저 보는 정보입니다.| 좋은 예시 | 나쁜 예시 | 이유 |
|---|---|---|
| ”APAC 영업팀 매출 분석" | "Sales” | 도메인과 팀을 명확히 식별 |
| ”고객 서비스 티켓 현황" | "CS Data” | 비기술 사용자도 목적을 이해 |
| ”물류 배송 추적 대시보드" | "Test Space” | 데이터 범위가 명확 |
Title이 LLM 컨텍스트인 이유
Genie가 사용자 질문을 받으면, 가장 먼저 참조하는 정보 중 하나가 Space의 Title 입니다. LLM은 Title을 통해 “이 Space가 어떤 도메인의 데이터를 다루는지”를 판단합니다. 예를 들어 Title이 “Sales”라면 LLM은 영업인지, 소매인지, B2B인지 맥락을 파악하기 어렵습니다. “APAC 영업팀 B2B 매출 분석”이라면 지역, 팀, 비즈니스 모델까지 명확합니다.Description 작성 가이드
Description은 단순 설명이 아니라 Genie가 응답을 생성할 때 참조하는 중요한 메타데이터 입니다. Description에 “이 Space는 2024년 이후 데이터만 포함합니다”라고 적으면, Genie는 “2023년 매출은?”이라는 질문에 “이 Space에는 해당 기간의 데이터가 없습니다”라고 응답할 수 있습니다.참고 Description에 포함할 내용:
- Space가 다루는 데이터의 범위와 기간(예: “2023년 이후 APAC 지역 매출 데이터”)
- 주요 비즈니스 용어 정의 (예: “ARR = 연간 반복 매출”)
- 데이터 갱신 주기(예: “매일 오전 9시 갱신”)
- 제한 사항(예: “개인정보는 포함하지 않음”)
주의 Description이 너무 길면 역효과가 날 수 있습니다. 핵심 정보 위주로 10-20줄 이내 로 작성하세요. 상세한 비즈니스 규칙은 Description이 아니라 인스트럭션(Instructions)에 작성하는 것이 적합합니다.
Step 4: Sample Questions 설정
Sample Questions는 사용자가 채팅창을 처음 열었을 때 표시되는 예시 질문입니다. 이 질문들은 단순한 UI 요소가 아니라 두 가지 중요한 역할 을 합니다:- 사용자 가이드: 이 Space에서 어떤 질문을 할 수 있는지 알려줍니다.
- Genie 컨텍스트: Genie가 이 Space의 의도와 범위를 이해하는 데 참고합니다.
좋은 Sample Question vs 나쁜 Sample Question
| 좋은 예시 | 나쁜 예시 | 이유 |
|---|---|---|
| ”지난 분기 APAC 지역 매출 상위 5개 국가는?" | "매출 보여줘” | 구체적인 필터와 집계 기준 포함 |
| ”올해 신규 고객 수 월별 추이를 꺾은선 그래프로 보여줘" | "고객 데이터” | 시각화 유형까지 명시 |
| ”제품 카테고리별 반품률을 비교하고, 10% 이상인 항목을 표시해줘" | "반품” | 비즈니스 기준치 포함 |
| ”지난 달 대비 이번 달 주문 건수 증감률은?" | "주문” | 비교 기준이 명확 |
팁 Sample Questions를 3-5개 등록하되, 다양한 분석 유형(추이 분석, 비교, 랭킹, 필터링)을 포함하세요. 이렇게 하면 사용자가 질문 패턴을 학습하고, Genie도 더 넓은 범위의 질문에 대응할 수 있습니다.
Step 5: 데이터 객체 추가
- Configure > Data 메뉴로 이동합니다.
- Add 버튼으로 테이블/뷰를 추가합니다.
- 화면 설명: Unity Catalog 브라우저가 나타나며, Catalog > Schema > Table을 탐색할 수 있습니다.
- Overview 탭에서 컬럼 이름, 데이터 타입, 설명을 확인합니다.
- Sample data 탭에서 실제 데이터를 미리 확인합니다.
- 불필요한 테이블은 휴지통 아이콘으로 제거합니다.
주의 테이블은 5개 이하 로 시작하는 것을 권장합니다. 최대 30개까지 추가할 수 있지만, 테이블이 많을수록 Genie가 잘못된 테이블을 선택할 확률이 높아집니다. 관련성이 높은 핵심 테이블부터 시작하고, 벤치마크 테스트를 거친 후 점진적으로 확장하세요.
원본 테이블 vs 뷰(View) — 무엇을 추가할까?
실무에서 가장 효과적인 패턴은 분석용 뷰를 미리 만들어서 추가 하는 것입니다.| 접근 방식 | 장점 | 단점 |
|---|---|---|
| 원본 테이블 직접 추가 | 설정이 간단, 즉시 시작 가능 | 불필요한 컬럼 노출, 조인 정확도 저하 위험 |
| 분석용 뷰 생성 후 추가 | 필요한 컬럼만 노출, 사전 조인으로 정확도 향상 | 뷰 생성 작업 필요 |
orders, customers, products 3개 테이블을 각각 추가하는 대신, orders_with_customer_product라는 뷰를 미리 만들어서 1개만 추가하면 Genie가 조인을 고민할 필요가 없습니다. 테이블이 적을수록, 컬럼명이 명확할수록 정확도가 올라갑니다.
팁 실전 팁: 이미 Databricks SQL에서 자주 사용하는 쿼리가 있다면, 그 쿼리의 FROM/JOIN 패턴을 뷰로 만들어 Genie Space에 추가하세요. 분석가들이 이미 검증한 조인 로직을 그대로 활용할 수 있습니다.
File Uploads 설정 — 언제 활성화할까?
File Uploads를 활성화하면 사용자가 CSV나 Excel 파일을 업로드하여 Genie Space의 기존 데이터와 조합 분석할 수 있습니다.| 활성화 권장 | 비활성화 권장 |
|---|---|
| 사용자가 외부 데이터(시장 조사, 경쟁사 데이터)를 자사 데이터와 비교해야 할 때 | 보안 정책이 엄격하여 외부 파일 유입을 금지할 때 |
| 사용자가 예산/목표 데이터를 올려서 실적과 대비 분석할 때 | 데이터 거버넌스 관점에서 비정형 데이터 유입을 제한할 때 |
| PoC/파일럿 단계에서 빠른 분석이 필요할 때 | 프로덕션 환경에서 데이터 품질 관리가 중요할 때 |
주의 File Uploads는 현재 Public Preview 입니다. 업로드된 파일은 임시 테이블로 저장되며, 세션이 끝나면 삭제됩니다. 민감 데이터가 포함된 파일 업로드에 주의하세요.
생성 후 체크리스트
Space를 생성한 직후 아래 항목을 확인하세요:- Title과 Description이 데이터 도메인을 명확히 설명하는가?
- Warehouse가 올바르게 선택되었는가?
- Sample Questions가 3개 이상 등록되었는가?
- 추가한 테이블의 컬럼 설명이 충분한가?
- 불필요한 컬럼이 숨김 처리되었는가?
- 테스트 질문 5개 이상으로 기본 동작을 검증했는가?
- 첫 번째 질문의 응답 속도가 5초 이내인가? (Warehouse 정상 동작 확인)
- 생성된 SQL의 테이블/컬럼 선택이 올바른가? (Show code로 검증)
흔한 실수와 해결법
| 실수 | 영향 | 해결법 |
|---|---|---|
| Description 미작성 | Genie가 Space 목적을 파악하지 못해 부정확한 응답 | 데이터 범위, 용어, 갱신 주기를 포함한 상세 설명 작성 |
| 테이블 10개 이상 추가 | 쿼리 정확도 저하, 응답 시간 증가 | 핵심 테이블 5개 이하로 시작 |
| Sample Questions 미등록 | 사용자가 어떤 질문을 해야 할지 모름 | 다양한 분석 유형의 예시 3-5개 등록 |
| Classic Warehouse 사용 | 콜드 스타트로 인한 느린 응답 | Serverless SQL Warehouse로 변경 |
| 약어로 된 Title | Genie가 도메인을 파악하지 못함 | 도메인과 팀을 포함한 명확한 한국어 Title 작성 |
| 동일 스키마의 테이블 다수 추가 | Genie가 어느 테이블을 쿼리할지 혼동 | 용도별로 뷰를 만들어 구분하거나, 불필요한 테이블 제거 |
팁 생성 직후 5분 테스트: Space를 만든 직후, 등록한 Sample Questions를 모두 실행해보세요. 이 5분 투자가 나중에 시간을 크게 절약합니다. 이때 Show code로 생성된 SQL을 반드시 확인하세요. SQL이 올바르게 생성되지 않으면 컬럼 설명이나 동의어를 먼저 보강해야 합니다.