평가 데이터셋과 MLflow

평가 데이터셋 설계 전략, MLflow Evaluate 통합 패턴, 에이전트 유형별 평가 전략, 결과 분석 및 개선 루프를 다룹니다.

평가 데이터셋 설계 전략

데이터셋 구성 원칙

원칙	설명
대표성	실제 사용자 질문 패턴을 반영
다양성	다양한 주제, 난이도, 형식
균형	답변 가능한 질문 + “문서에 없는” 질문
현실성	오타, 약어, 구어체 포함

질문 카테고리별 비율 권장사항

카테고리	비율
직접 조회	30%
추론 필요	20%
비교/분석	15%
범위 외 질문	15%
모호한 질문	10%
에지 케이스	10%

Synthetic Task Generation 활용 전략

1단계: 50~100개 초기 질문 생성
2단계: SME가 부자연스러운 질문 삭제 (~20~30%)
3단계: 누락된 카테고리 수동 추가
4단계: 각 질문에 Guidelines 추가
5단계: UC 테이블로 Export하여 버전 관리

MLflow Evaluate 통합 패턴

Agent Bricks UI vs MLflow Evaluate API

기능	Agent Bricks UI	MLflow Evaluate API
데이터셋 관리	UI에서 수동 관리	UC 테이블로 프로그래밍 관리
커스텀 메트릭	기본 5가지	사용자 정의 추가 가능
자동화	수동 실행	CI/CD 파이프라인 연동

자동 평가 파이프라인

import mlflow

eval_df = spark.table("ml.evaluation.agent_eval_dataset").toPandas()
eval_df["predictions"] = eval_df["request"].apply(get_agent_response)

with mlflow.start_run(run_name="agent-eval-v2.1"):
    results = mlflow.evaluate(
        data=eval_df, predictions="predictions", targets="expected_response",
        model_type="question-answering",
        extra_metrics=[mlflow.metrics.genai.relevance(), mlflow.metrics.genai.faithfulness()],
    )

CI/CD 연동 패턴

에이전트 설정 변경 → 자동 MLflow Evaluate 실행 (50개+ 테스트)
→ 모든 메트릭 임계값 이상 → 배포
→ 하나라도 미만 → 알림 + 배포 차단

참고 처음에는 낮은 임계값(Correctness 0.70)으로 시작하고 점진적으로 높이세요.

에이전트 유형별 평가 전략

Knowledge Assistant

최우선: Groundedness (환각 방지가 핵심), Correctness, Chunk Relevance

Genie Space

최우선: SQL 정확도, 결과 정확도, 에러율

Supervisor Agent

최우선: 라우팅 정확도, 종합 응답 품질, 권한 준수

평가 결과 분석 및 개선 루프

AI Judge 평가 결과 확인
→ 점수가 낮은 질문 식별
→ Groundedness 낮음 → Trace에서 Retrieval 확인
→ Correctness 낮음 → 기대 답변과 비교
→ Chunk Relevance 낮음 → 문서 구조/동의어 문제 확인

평가 이력 관리

주기	활동
매주	AI Judge 자동 평가 (회귀 감지)
격주	프로덕션 로그에서 실패 질문 수집
매월	SME 리뷰 + 데이터셋 업데이트
분기	전체 평가 보고서 + 목표 재설정

시작하기

Databricks 플랫폼

레이크하우스 아키텍처

컴퓨트

데이터 엔지니어링

데이터 웨어하우징

Lakebase

Unity Catalog

AI/BI

Genie Space 운영

머신러닝

AI 에이전트

GenAI 도구

Databricks Apps

보안과 거버넌스

모범 사례

개발 도구

플랫폼 비교

부록 — 선행 지식

부록 — 데이터 기초

부록 — 참고

평가 데이터셋 설계 전략

데이터셋 구성 원칙

질문 카테고리별 비율 권장사항

Synthetic Task Generation 활용 전략

MLflow Evaluate 통합 패턴

Agent Bricks UI vs MLflow Evaluate API

자동 평가 파이프라인

CI/CD 연동 패턴

에이전트 유형별 평가 전략

Knowledge Assistant

Genie Space

Supervisor Agent

평가 결과 분석 및 개선 루프

평가 이력 관리

시작하기

Databricks 플랫폼

레이크하우스 아키텍처

컴퓨트

데이터 엔지니어링

데이터 웨어하우징

Lakebase

Unity Catalog

AI/BI

Genie Space 운영

머신러닝

AI 에이전트

GenAI 도구

Databricks Apps

보안과 거버넌스

모범 사례

개발 도구

플랫폼 비교

부록 — 선행 지식

부록 — 데이터 기초

부록 — 참고

​평가 데이터셋 설계 전략

​데이터셋 구성 원칙

​질문 카테고리별 비율 권장사항

​Synthetic Task Generation 활용 전략

​MLflow Evaluate 통합 패턴

​Agent Bricks UI vs MLflow Evaluate API

​자동 평가 파이프라인

​CI/CD 연동 패턴

​에이전트 유형별 평가 전략

​Knowledge Assistant

​Genie Space

​Supervisor Agent

​평가 결과 분석 및 개선 루프

​평가 이력 관리

평가 데이터셋 설계 전략

데이터셋 구성 원칙

질문 카테고리별 비율 권장사항

Synthetic Task Generation 활용 전략

MLflow Evaluate 통합 패턴

Agent Bricks UI vs MLflow Evaluate API

자동 평가 파이프라인

CI/CD 연동 패턴

에이전트 유형별 평가 전략

Knowledge Assistant

Genie Space

Supervisor Agent

평가 결과 분석 및 개선 루프

평가 이력 관리