평가 데이터셋 설계 전략
데이터셋 구성 원칙
| 원칙 | 설명 |
|---|---|
| 대표성 | 실제 사용자 질문 패턴을 반영 |
| 다양성 | 다양한 주제, 난이도, 형식 |
| 균형 | 답변 가능한 질문 + “문서에 없는” 질문 |
| 현실성 | 오타, 약어, 구어체 포함 |
질문 카테고리별 비율 권장사항
| 카테고리 | 비율 |
|---|---|
| 직접 조회 | 30% |
| 추론 필요 | 20% |
| 비교/분석 | 15% |
| 범위 외 질문 | 15% |
| 모호한 질문 | 10% |
| 에지 케이스 | 10% |
Synthetic Task Generation 활용 전략
MLflow Evaluate 통합 패턴
Agent Bricks UI vs MLflow Evaluate API
| 기능 | Agent Bricks UI | MLflow Evaluate API |
|---|---|---|
| 데이터셋 관리 | UI에서 수동 관리 | UC 테이블로 프로그래밍 관리 |
| 커스텀 메트릭 | 기본 5가지 | 사용자 정의 추가 가능 |
| 자동화 | 수동 실행 | CI/CD 파이프라인 연동 |
자동 평가 파이프라인
CI/CD 연동 패턴
참고 처음에는 낮은 임계값(Correctness 0.70)으로 시작하고 점진적으로 높이세요.
에이전트 유형별 평가 전략
Knowledge Assistant
최우선: Groundedness (환각 방지가 핵심), Correctness, Chunk RelevanceGenie Space
최우선: SQL 정확도, 결과 정확도, 에러율Supervisor Agent
최우선: 라우팅 정확도, 종합 응답 품질, 권한 준수평가 결과 분석 및 개선 루프
평가 이력 관리
| 주기 | 활동 |
|---|---|
| 매주 | AI Judge 자동 평가 (회귀 감지) |
| 격주 | 프로덕션 로그에서 실패 질문 수집 |
| 매월 | SME 리뷰 + 데이터셋 업데이트 |
| 분기 | 전체 평가 보고서 + 목표 재설정 |