11. Structured Streaming
| 시나리오 | 프롬프트 |
|---|---|
| Kafka 수집 | ”Kafka ‘user_events’(broker:9092)에서 JSON → Bronze 테이블 Streaming 코드.” |
| 윈도우 집계 | ”5분 텀블링 윈도우 이벤트 수 집계. 워터마크 10분.” |
| 스트림-스트림 조인 | ”주문 + 결제 스트림을 order_id로 조인.” |
| Auto Loader | ”S3 CSV를 Auto Loader로 수집. 스키마 진화 처리.” |
12. Delta Lake 작업
| 시나리오 | 프롬프트 |
|---|---|
| OPTIMIZE + Z-ORDER | ”@prod.sales.orders OPTIMIZE. order_date, region Z-ORDER.” |
| VACUUM | ”7일 이전 파일 정리. dry-run 먼저.” |
| 타임 트래블 | ”3일 전 vs 현재 데이터 비교. 변경 행 수.” |
| Liquid Clustering | ”자주 필터링되는 컬럼 분석 → 최적 클러스터링 키 추천.” |
| MERGE | ”@staging → @prod MERGE(upsert). customer_id 매칭. 변경분만 업데이트.” |
13. Job 스케줄링 & 워크플로
| 시나리오 | 프롬프트 |
|---|---|
| 스케줄링 | ”이 노트북을 매일 06시 실행하는 Job SDK 코드.” |
| 멀티태스크 | ”3개 노트북 순차 실행 워크플로. 01_ingest → 02_transform → 03_aggregate.” |
| 실패 알림 | ”Job 실패 시 Slack 웹훅 알림 코드.” |
| 재시도 | ”실패 시 3회 재시도. 지수 백오프.” |
14. 데이터 품질 & 모니터링
| 시나리오 | 프롬프트 |
|---|---|
| 종합 점검 | ”null 비율, 중복, 날짜 유효성, 금액 범위 체크. 이상 시 보고서.” |
| 이상 탐지 | ”최근 7일 이상치 탐지. Z-score + IQR 비교.” |
| 프로파일링 | ”모든 컬럼 프로파일: 분포, 유니크값, 최빈값, 결측률.” |
| SLA 모니터링 | ”데이터 신선도 확인. 1시간 이상 지연 시 경고.” |
| 드리프트 감지 | ”피처 분포를 1주 전과 비교. 드리프트 컬럼 식별.” |
15. 코드 마이그레이션 (Chat 모드 권장)
| 시나리오 | 프롬프트 |
|---|---|
| Pandas → PySpark | ”pandas를 PySpark로 변환. apply() 대신 내장 함수.” |
| SAS → PySpark | ”SAS PROC SQL을 PySpark SQL로.” |
| Hive → UC | ”Hive DDL을 Unity Catalog 호환 Delta Managed Table로.” |
| Oracle PL/SQL | ”Oracle PL/SQL을 Databricks SQL로. 구문 차이 설명.” |
| Spark 2 → 3 | ”Spark 2.x를 3.x + 런타임 15.x로 업그레이드. deprecated API 대체.” |
16. 디버깅 & 오류 진단
| 시나리오 | 프롬프트 |
|---|---|
| Quick Fix | 오류 발생 시 Quick Fix 버튼 클릭 |
| 오류 진단 | ”Diagnose with Genie” 또는 “/fix” |
| OOM | ”OutOfMemoryError 원인 분석 + 메모리 절감 방법.” |
| 성능 | ”/optimize” |
| 권한 | ”AccessDenied 해결에 필요한 권한 안내.” |
| 환경 | ”/repairEnvironment” |
17. MCP 외부 도구 연동
| 서버 유형 | 용도 |
|---|---|
| UC Functions | SQL 함수 실행 |
| Vector Search | 문서 검색 |
| Genie Spaces | 자연어 데이터 질의 |
| UC Connections | Jira, GitHub, Slack 등 |
| Databricks Apps | 커스텀 도구 |
| 시나리오 | 프롬프트 |
|---|---|
| Slack | ”분석 결과를 #data-team에 공유.” |
| Jira | ”데이터 품질 이슈로 ES 티켓 생성. High 심각도.” |
| GitHub | ”이 함수의 최신 버전을 GitHub에서 가져와.” |
| Vector Search | “‘반품 정책’ 관련 문서 검색.” |
참고 MCP 서버는 최대 20개 도구, Agent 모드에서만 작동합니다.
18. Agent Skills
| Skill | 설명 |
|---|---|
| PII 마스킹 | ”PII 마스킹해줘” → 조직 표준 자동 적용 |
| 데이터 품질 | ”품질 검사해줘” → 조직 기준 적용 |
| ML 워크플로 | ”모델 학습해줘” → 표준 실험/로깅 규칙 |
| ETL 패턴 | ”수집 파이프라인 만들어줘” → 표준 패턴 적용 |
Workspace/.assistant/skills/{name}/SKILL.md
19. Custom Instructions 예시
| 수준 | 파일 위치 |
|---|---|
| 사용자 | /Users/<username>/.assistant_instructions.md |
| 워크스페이스 | Workspace/.assistant_workspace_instructions.md |
20. Slash Commands 레퍼런스
| 명령어 | 기능 |
|---|---|
/explain | 코드 설명 |
/fix | 오류 수정 |
/optimize | 성능 최적화 |
/test | 단위 테스트 생성 |
/doc | docstring 생성 |
/findTables | UC 테이블 검색 |
/findQueries | UC 쿼리 검색 |
/prettify | 코드 포맷팅 |
/rename | 셀 이름 제안 |
/repairEnvironment | 라이브러리 오류 해결 |
/diagnose | 심층 오류 진단 |
기능 지원 매트릭스
| 기능 | Notebooks | SQL Editor | Dashboards | Pipelines | MLflow | Model Serving |
|---|---|---|---|---|---|---|
| Chat 모드 | O | O | O | O | O | O |
| Agent 모드 | O | O | O | O | - | O |
| 인라인 자동완성 | O | O | - | O | - | - |
| Quick Fix | O | O | - | - | - | - |
| MCP 연동 | O | - | - | - | - | - |
| Slash 명령어 | O | O | - | - | - | O |
| 이미지 첨부 | O | - | O | - | - | - |
| Agent Skills | O | - | - | - | - | - |
프로덕션 운영 팁
| 원칙 | 이유 |
|---|---|
| 세션 분리 | 주제 혼합 시 컨텍스트 혼란 |
| 데이터 제한 우선 | 전체 실행 전 1,000행으로 검증 |
| 프로덕션 보호 | sandbox에만 저장 |
| 루프 감시 | 같은 에러 반복 시 즉시 중단 |
| 탭 유지 | 탭 전환 시 Agent 일시 정지 |
| 메타데이터 관리 | COMMENT 품질 = 응답 품질 |