Lakehouse Monitoring 연동
Inference Table의 데이터를 Lakehouse Monitoring 과 연동하면, 데이터 드리프트와 모델 품질을 체계적으로 모니터링할 수 있습니다.데이터 드리프트 감지
| 생성 테이블 | 내용 |
|---|---|
*_profile_metrics | 각 컬럼의 통계 요약 (평균, 분산, 분포 등) |
*_drift_metrics | 기준 기간 대비 드리프트 지표 (PSI, KL Divergence 등) |
💡 PSI(Population Stability Index): 두 분포의 차이를 측정하는 지표입니다. PSI가 0.2를 초과하면 유의미한 드리프트로 판단합니다.드리프트 지표 해석 기준:
| 지표 | 범위 | 해석 |
|---|---|---|
| PSI | < 0.1 | 안정 (No Change) |
| PSI | 0.1 ~ 0.2 | 소폭 변화 (Minor Shift), 모니터링 강화 |
| PSI | > 0.2 | 유의미한 드리프트 (Major Shift), 재학습 권장 |
| KS 통계량 | < 0.05 | 두 분포 동일 (p-value 기준) |
| Jensen-Shannon Divergence | > 0.1 | 분포 차이 감지 |
Lakehouse Monitoring 알림 설정
드리프트 감지 시 자동으로 알림을 발송하도록 설정할 수 있습니다.모델 품질 모니터링
Ground Truth 레이블이 확보되면 모델의 실제 성능을 추적할 수 있습니다.MLflow Tracing (에이전트/LLM 서빙)
LLM 기반 에이전트를 서빙하는 경우, MLflow Tracing 을 통해 각 요청의 내부 실행 경로를 추적할 수 있습니다.| 구성 요소 | 역할 | 설명 |
|---|---|---|
| 사용자 요청 | 입력 | 에이전트에 요청을 전송합니다 |
| 에이전트 | 오케스트레이션 | 요청을 분석하고 필요한 작업을 수행합니다 |
| 문서 검색 | Vector Search | 관련 문서를 검색합니다 |
| LLM 호출 | Foundation Model | 답변을 생성합니다 |
| 도구 실행 | SQL, API 등 | 외부 도구를 호출합니다 |
| 최종 응답 | 출력 | 사용자에게 결과를 반환합니다 |
| 트레이스 항목 | 설명 |
|---|---|
| Span 계층구조 | 에이전트의 각 단계(검색, LLM 호출, 도구 실행)를 트리 형태로 표시합니다 |
| 입출력 | 각 단계의 입력과 출력을 기록합니다 |
| 토큰 사용량 | LLM 호출별 입력/출력 토큰 수를 추적합니다 |
| 지연 시간 | 각 단계별 소요 시간을 밀리초 단위로 측정합니다 |
| 에러 정보 | 실패 시 에러 메시지와 스택 트레이스를 기록합니다 |
시스템 테이블 활용
Databricks 시스템 테이블(system.serving)에는 모든 서빙 엔드포인트의 운영 메트릭이 자동으로 기록됩니다.
💡 시스템 테이블 은 Unity Catalog의 system 카탈로그에 위치하며, 워크스페이스 관리자가 활성화해야 합니다. 추가 비용 없이 90일간의 데이터를 보존합니다.