Skip to main content
평가 데이터셋 설계 전략, MLflow Evaluate 통합 패턴, 에이전트 유형별 평가 전략, 결과 분석 및 개선 루프를 다룹니다.

평가 데이터셋 설계 전략

데이터셋 구성 원칙

원칙설명
대표성실제 사용자 질문 패턴을 반영
다양성다양한 주제, 난이도, 형식
균형답변 가능한 질문 + “문서에 없는” 질문
현실성오타, 약어, 구어체 포함

질문 카테고리별 비율 권장사항

카테고리비율
직접 조회30%
추론 필요20%
비교/분석15%
범위 외 질문15%
모호한 질문10%
에지 케이스10%

Synthetic Task Generation 활용 전략

1단계: 50~100개 초기 질문 생성
2단계: SME가 부자연스러운 질문 삭제 (~20~30%)
3단계: 누락된 카테고리 수동 추가
4단계: 각 질문에 Guidelines 추가
5단계: UC 테이블로 Export하여 버전 관리

MLflow Evaluate 통합 패턴

Agent Bricks UI vs MLflow Evaluate API

기능Agent Bricks UIMLflow Evaluate API
데이터셋 관리UI에서 수동 관리UC 테이블로 프로그래밍 관리
커스텀 메트릭기본 5가지사용자 정의 추가 가능
자동화수동 실행CI/CD 파이프라인 연동

자동 평가 파이프라인

import mlflow

eval_df = spark.table("ml.evaluation.agent_eval_dataset").toPandas()
eval_df["predictions"] = eval_df["request"].apply(get_agent_response)

with mlflow.start_run(run_name="agent-eval-v2.1"):
    results = mlflow.evaluate(
        data=eval_df, predictions="predictions", targets="expected_response",
        model_type="question-answering",
        extra_metrics=[mlflow.metrics.genai.relevance(), mlflow.metrics.genai.faithfulness()],
    )

CI/CD 연동 패턴

에이전트 설정 변경 → 자동 MLflow Evaluate 실행 (50개+ 테스트)
→ 모든 메트릭 임계값 이상 → 배포
→ 하나라도 미만 → 알림 + 배포 차단
참고 처음에는 낮은 임계값(Correctness 0.70)으로 시작하고 점진적으로 높이세요.

에이전트 유형별 평가 전략

Knowledge Assistant

최우선: Groundedness (환각 방지가 핵심), Correctness, Chunk Relevance

Genie Space

최우선: SQL 정확도, 결과 정확도, 에러율

Supervisor Agent

최우선: 라우팅 정확도, 종합 응답 품질, 권한 준수

평가 결과 분석 및 개선 루프

AI Judge 평가 결과 확인
→ 점수가 낮은 질문 식별
→ Groundedness 낮음 → Trace에서 Retrieval 확인
→ Correctness 낮음 → 기대 답변과 비교
→ Chunk Relevance 낮음 → 문서 구조/동의어 문제 확인

평가 이력 관리

주기활동
매주AI Judge 자동 평가 (회귀 감지)
격주프로덕션 로그에서 실패 질문 수집
매월SME 리뷰 + 데이터셋 업데이트
분기전체 평가 보고서 + 목표 재설정