Skip to main content
Streaming, Delta Lake, Job, 데이터 품질, 코드 마이그레이션, 디버깅, MCP, Skills, Slash Commands, 기능 매트릭스에 관한 프롬프트 레시피입니다.

11. Structured Streaming

시나리오프롬프트
Kafka 수집”Kafka ‘user_events’(broker:9092)에서 JSON → Bronze 테이블 Streaming 코드.”
윈도우 집계”5분 텀블링 윈도우 이벤트 수 집계. 워터마크 10분.”
스트림-스트림 조인”주문 + 결제 스트림을 order_id로 조인.”
Auto Loader”S3 CSV를 Auto Loader로 수집. 스키마 진화 처리.”

12. Delta Lake 작업

시나리오프롬프트
OPTIMIZE + Z-ORDER”@prod.sales.orders OPTIMIZE. order_date, region Z-ORDER.”
VACUUM”7일 이전 파일 정리. dry-run 먼저.”
타임 트래블”3일 전 vs 현재 데이터 비교. 변경 행 수.”
Liquid Clustering”자주 필터링되는 컬럼 분석 → 최적 클러스터링 키 추천.”
MERGE”@staging → @prod MERGE(upsert). customer_id 매칭. 변경분만 업데이트.”

13. Job 스케줄링 & 워크플로

시나리오프롬프트
스케줄링”이 노트북을 매일 06시 실행하는 Job SDK 코드.”
멀티태스크”3개 노트북 순차 실행 워크플로. 01_ingest → 02_transform → 03_aggregate.”
실패 알림”Job 실패 시 Slack 웹훅 알림 코드.”
재시도”실패 시 3회 재시도. 지수 백오프.”

14. 데이터 품질 & 모니터링

시나리오프롬프트
종합 점검”null 비율, 중복, 날짜 유효성, 금액 범위 체크. 이상 시 보고서.”
이상 탐지”최근 7일 이상치 탐지. Z-score + IQR 비교.”
프로파일링”모든 컬럼 프로파일: 분포, 유니크값, 최빈값, 결측률.”
SLA 모니터링”데이터 신선도 확인. 1시간 이상 지연 시 경고.”
드리프트 감지”피처 분포를 1주 전과 비교. 드리프트 컬럼 식별.”

15. 코드 마이그레이션 (Chat 모드 권장)

시나리오프롬프트
Pandas → PySpark”pandas를 PySpark로 변환. apply() 대신 내장 함수.”
SAS → PySpark”SAS PROC SQL을 PySpark SQL로.”
Hive → UC”Hive DDL을 Unity Catalog 호환 Delta Managed Table로.”
Oracle PL/SQL”Oracle PL/SQL을 Databricks SQL로. 구문 차이 설명.”
Spark 2 → 3”Spark 2.x를 3.x + 런타임 15.x로 업그레이드. deprecated API 대체.”

16. 디버깅 & 오류 진단

시나리오프롬프트
Quick Fix오류 발생 시 Quick Fix 버튼 클릭
오류 진단”Diagnose with Genie” 또는 “/fix”
OOM”OutOfMemoryError 원인 분석 + 메모리 절감 방법.”
성능”/optimize”
권한”AccessDenied 해결에 필요한 권한 안내.”
환경”/repairEnvironment”

17. MCP 외부 도구 연동

서버 유형용도
UC FunctionsSQL 함수 실행
Vector Search문서 검색
Genie Spaces자연어 데이터 질의
UC ConnectionsJira, GitHub, Slack 등
Databricks Apps커스텀 도구
시나리오프롬프트
Slack”분석 결과를 #data-team에 공유.”
Jira”데이터 품질 이슈로 ES 티켓 생성. High 심각도.”
GitHub”이 함수의 최신 버전을 GitHub에서 가져와.”
Vector Search“‘반품 정책’ 관련 문서 검색.”
참고 MCP 서버는 최대 20개 도구, Agent 모드에서만 작동합니다.

18. Agent Skills

Skill설명
PII 마스킹”PII 마스킹해줘” → 조직 표준 자동 적용
데이터 품질”품질 검사해줘” → 조직 기준 적용
ML 워크플로”모델 학습해줘” → 표준 실험/로깅 규칙
ETL 패턴”수집 파이프라인 만들어줘” → 표준 패턴 적용
Skills 디렉토리: Workspace/.assistant/skills/{name}/SKILL.md

19. Custom Instructions 예시

# 코딩: PySpark 기본, plotly 차트, snake_case, 한국어 주석
# 데이터: dev.sandbox에 저장, 프로덕션 수정 금지, LIMIT 1000 먼저
# 응답: 각 단계 마크다운 요약, MLflow 기록
수준파일 위치
사용자/Users/<username>/.assistant_instructions.md
워크스페이스Workspace/.assistant_workspace_instructions.md

20. Slash Commands 레퍼런스

명령어기능
/explain코드 설명
/fix오류 수정
/optimize성능 최적화
/test단위 테스트 생성
/docdocstring 생성
/findTablesUC 테이블 검색
/findQueriesUC 쿼리 검색
/prettify코드 포맷팅
/rename셀 이름 제안
/repairEnvironment라이브러리 오류 해결
/diagnose심층 오류 진단

기능 지원 매트릭스

기능NotebooksSQL EditorDashboardsPipelinesMLflowModel Serving
Chat 모드OOOOOO
Agent 모드OOOO-O
인라인 자동완성OO-O--
Quick FixOO----
MCP 연동O-----
Slash 명령어OO---O
이미지 첨부O-O---
Agent SkillsO-----

프로덕션 운영 팁

원칙이유
세션 분리주제 혼합 시 컨텍스트 혼란
데이터 제한 우선전체 실행 전 1,000행으로 검증
프로덕션 보호sandbox에만 저장
루프 감시같은 에러 반복 시 즉시 중단
탭 유지탭 전환 시 Agent 일시 정지
메타데이터 관리COMMENT 품질 = 응답 품질

참고 자료