MLflow 기반 평가
Agent Bricks는 MLflow와 긴밀하게 통합되어 에이전트 품질을 체계적으로 평가합니다.MLflow Tracing으로 에이전트 동작 추적
- Production Monitoring for MLflow 활성화
- Build 탭에서 질문 입력 후 View Trace 클릭
AI Judge (LLM-as-Judge) 설정
| 메트릭 | 설명 |
|---|---|
| Correctness | 기대 답변과 일치하는지 |
| Groundedness | 검색된 문서에 근거하는지 |
| Relevance | 질문에 대한 관련성 |
| Safety | 유해/부적절 내용 여부 |
| Chunk Relevance | 검색된 청크의 관련성 |
Synthetic Task Generation
Examples 탭에서 Generate synthetic tasks 클릭하여 자동 질문-답변 쌍을 생성합니다.주의 Synthetic Task는 출발점일 뿐입니다. 반드시 SME가 검토하고 보완해야 합니다.
평가 워크플로우
프로덕션 모니터링 포인트
| 카테고리 | 모니터링 항목 | 기준 |
|---|---|---|
| 품질 | AI Judge 점수 추이 | Correctness 80% 이상 |
| 사용자 | 좋아요/싫어요 비율 | 부정 피드백 20% 초과 시 개선 |
| 성능 | 응답 지연 | P95 기준 10초 이내 |
| 비용 | 토큰 사용량 | 일별 DBU 추적 |
배포 절차: Review App → Model Serving → REST API
Step 1: Review App으로 SME 검증
Step 2: Model Serving 엔드포인트 배포
Step 3: REST API로 연동
워크스페이스 간 마이그레이션
- 타겟 워크스페이스에 리소스 생성
- 소스에서 SDK로 설정 조회
- 타겟에서 API로 재생성
- Instructions, Examples 데이터 Export/Import
- AI Judge로 품질 검증
평가가 Agent Bricks에서 특히 중요한 이유
AI 에이전트는 비결정적 시스템 이므로, 동일 입력에도 다른 출력이 나올 수 있습니다.위험 평가 없이 배포하는 것은 테스트 없이 코드를 프로덕션에 배포하는 것과 같습니다. 최소 50개 이상의 테스트 케이스로 평가한 후 배포하세요.