MLflow 3.0: 생성형 AI를 자신 있게 구축, 평가, 배포하기

원문: MLflow 3.0: Build, Evaluate, and Deploy Generative AI with Confidence (2025-06-11)

작성자: Corey Zumar, Eric Peter, Alkis Polyzotis, Cathy Yin, Ian Ackerman, Nikhil Thorat, Ben Wilson, Maheswaran Venkatachalam, Matei Zaharia, Patrick Wendell, Akhil Gupta

MLflow는 월간 3,000만 건 이상의 다운로드와 전 세계 850명 이상의 개발자 기여를 바탕으로 대규모 MLOps의 기반으로 자리 잡았으며, 수천 개 기업의 ML 및 딥러닝 워크로드를 지원하고 있습니다. 오늘, 기존의 모든 AI 워크로드에 대한 핵심 기능을 강화하면서 동일한 수준의 엄격함과 신뢰성을 생성형 AI에도 제공하는 대규모 진화인 MLflow 3.0을 발표하게 되어 매우 기쁩니다. 이 강력한 새로운 기능들은 오픈 소스 MLflow와 Databricks의 완전 관리형 서비스 모두에서 사용할 수 있으며, 엔터프라이즈 수준의 GenAI 개발 경험을 제공합니다. 생성형 AI는 관찰 가능성(Observability), 품질 측정, 빠르게 변화하는 프롬프트 및 구성 관리에 관한 새로운 과제를 제시하지만, MLflow 3.0은 또 다른 전문화된 플랫폼을 통합할 필요 없이 이러한 문제를 해결합니다. MLflow 3.0은 생성형 AI 애플리케이션, 전통적인 머신러닝, 딥러닝을 아우르는 통합 플랫폼입니다. GenAI 에이전트를 구축하든, 분류기를 훈련하든, 신경망을 파인튜닝하든, MLflow 3.0은 여러분의 필요에 맞춰 확장되는 일관된 워크플로우, 표준화된 거버넌스, 프로덕션 수준의 신뢰성을 제공합니다.

MLflow 3.0 한눈에 보기

포괄적인 생성형 AI 기능: 트레이싱, LLM 심사관(Judge), 인간 피드백 수집, 애플리케이션 버전 관리, 프롬프트 관리 기능이 높은 애플리케이션 품질과 완전한 관찰 가능성을 제공하도록 설계되었습니다
신속한 디버깅 및 근본 원인 분석: 입력, 출력, 레이턴시, 비용이 포함된 완전한 트레이스를 확인하고, 이를 생성한 정확한 프롬프트, 데이터, 앱 버전과 연결할 수 있습니다
프로덕션 데이터로부터의 지속적 개선: 실제 사용 데이터와 피드백을 더 나은 평가 데이터셋과 개선된 애플리케이션으로 전환합니다
통합 플랫폼: MLflow는 협업, 생명주기 관리, 거버넌스를 위한 일관된 도구를 갖춘 단일 플랫폼에서 모든 생성형 AI, 전통적 ML, 딥러닝 워크로드를 지원합니다
Databricks에서의 엔터프라이즈 확장성: 전 세계 수천 개 조직의 프로덕션 AI 워크로드를 지원하는 검증된 신뢰성과 성능을 제공합니다

GenAI의 도전 과제: 파편화된 도구, 도달하기 어려운 품질

생성형 AI는 품질에 대한 사고방식을 바꿔놓았습니다. 정답 레이블(Ground Truth)이 있는 전통적 ML과 달리, GenAI의 출력은 자유 형식이고, 미묘하며, 다양합니다. 하나의 프롬프트가 모두 똑같이 올바른 수십 가지의 서로 다른 응답을 생성할 수 있습니다. 챗봇의 응답이 “좋은” 것인지 어떻게 측정할까요? 에이전트가 할루시네이션을 일으키지 않는다는 것을 어떻게 보장할까요? 프롬프트, 검색, 도구 호출의 복잡한 체인을 어떻게 디버깅할까요? 이러한 질문들은 GenAI 애플리케이션을 구축하는 모든 조직이 직면하는 세 가지 핵심 과제를 가리킵니다:

관찰 가능성(Observability): 특히 문제가 발생했을 때 애플리케이션 내부에서 무슨 일이 일어나고 있는지 이해하기
품질 측정(Quality Measurement): 수작업 병목 없이 자유 형식 텍스트 출력을 대규모로 평가하기
지속적 개선(Continuous Improvement): 프로덕션 인사이트를 더 높은 품질의 애플리케이션으로 전환하는 피드백 루프 만들기

오늘날 이러한 과제를 해결하려는 조직들은 파편화된 환경에 직면합니다. 데이터 관리, 관찰 가능성 및 평가, 배포에 각각 별도의 도구를 사용합니다. 이러한 접근 방식은 심각한 격차를 만듭니다: 문제를 디버깅하려면 플랫폼 간에 전환해야 하고, 평가는 실제 프로덕션 데이터와 격리된 상태에서 이루어지며, 사용자 피드백은 애플리케이션 개선에 반영되지 않습니다. 팀은 GenAI 앱을 개선하는 것보다 도구를 통합하는 데 더 많은 시간을 소비합니다. 이러한 복잡성에 직면한 많은 조직들은 체계적인 품질 보증을 포기합니다. 비구조화된 수동 테스트에 의존하고, “충분히 괜찮아 보이면” 프로덕션에 배포하며, 최선을 바랄 뿐입니다. 고품질 애플리케이션을 출시하기 위해 이러한 GenAI 과제를 해결하려면 새로운 기능이 필요하지만, 여러 플랫폼을 저글링할 필요는 없어야 합니다. 그래서 MLflow 3.0은 검증된 MLOps 기반을 확장하여 다음을 포함하는 통합 경험으로 하나의 플랫폼에서 GenAI를 포괄적으로 지원합니다:

20개 이상의 GenAI 라이브러리를 위한 포괄적 트레이싱: 개발 및 프로덕션에서 모든 요청에 대한 가시성을 제공하며, 트레이스를 생성한 정확한 코드, 데이터, 프롬프트와 연결됩니다
LLM 심사관을 활용한 연구 기반 평가: GenAI 품질을 체계적으로 측정하고 개선 기회를 식별합니다
통합 피드백 수집: 배포 위치에 관계없이 프로덕션에서 최종 사용자 및 전문가의 인사이트를 수집하여 평가 및 관찰 가능성 스택에 직접 피드백함으로써 지속적인 품질 개선을 가능하게 합니다

“MLflow 3.0의 트레이싱은 AI 기반 보안 플랫폼을 확장하는 데 필수적이었습니다. 모든 모델 결정에 대한 엔드투엔드 가시성을 제공하여 더 빠르게 디버깅하고, 성능을 모니터링하며, 위협이 진화함에 따라 방어도 함께 발전할 수 있도록 해줍니다. LangChain과의 원활한 통합과 자동 로깅 덕분에 추가적인 엔지니어링 오버헤드 없이 이 모든 것을 얻을 수 있습니다.” — Sam Chou, Barracuda 수석 엔지니어

MLflow 3.0이 어떻게 조직의 고품질 생성형 AI 애플리케이션 구축, 평가, 배포 방식을 변화시키는지 보여주기 위해, 실제 사례를 따라가 보겠습니다: 이커머스 고객 지원 챗봇 구축입니다. 이 과정에서 MLflow가 세 가지 핵심 GenAI 과제를 각각 어떻게 해결하는지 살펴보며, 디버깅에서 배포까지 빠르게 이동할 수 있도록 해줍니다. 이 여정 전반에 걸쳐 Review App, Deployment Jobs, Unity Catalog 거버넌스 등 엔터프라이즈 GenAI 개발을 대규모로 실용적으로 만드는 통합 도구를 포함한 Databricks의 Managed MLflow 3.0의 전체 역량을 활용합니다.

Step 1: 프로덕션 수준 트레이싱으로 성능 이슈 정확히 파악하기

이커머스 챗봇이 베타로 출시되었지만, 테스터들은 느린 응답과 부정확한 제품 추천에 대해 불만을 제기합니다. GenAI 애플리케이션의 복잡한 프롬프트, 검색, 도구 호출 체인에 대한 가시성이 없으면 맹목적으로 디버깅하게 되며, 관찰 가능성 과제를 직접 경험하게 됩니다. MLflow 3.0의 프로덕션 규모 트레이싱은 모든 것을 바꿔놓습니다. 단 몇 줄의 코드만으로 20개 이상의 GenAI 라이브러리와 커스텀 비즈니스 로직에서 개발부터 프로덕션까지 모든 환경에서 상세한 트레이스를 캡처할 수 있습니다. 경량화된 mlflow-tracing 패키지는 성능에 최적화되어 있어 필요한 만큼 많은 트레이스를 빠르게 기록할 수 있습니다. OpenTelemetry를 기반으로 구축되어 최대한의 이식성과 함께 엔터프라이즈 규모의 관찰 가능성을 제공합니다. MLflow Tracing으로 코드를 계측한 후, MLflow UI에서 자동으로 캡처된 모든 트레이스를 확인할 수 있습니다.

MLflow Tracing으로 코드를 계측한 후, MLflow UI에서 자동으로 캡처된 모든 트레이스를 확인할 수 있습니다.

MLflow Tracing으로 코드를 계측한 후, MLflow UI로 이동하면 자동으로 캡처된 모든 트레이스를 확인할 수 있습니다. 타임라인 뷰는 응답이 15초 이상 걸리는 이유를 드러냅니다: 앱이 각 창고의 재고를 순차적으로 확인하고(5번의 순차 호출), 최근 구매만 필요한데도 고객의 전체 주문 이력(500건 이상)을 검색합니다. 창고 확인을 병렬화하고 최근 주문만 필터링한 후, 응답 시간이 50% 이상 단축됩니다.

Step 2: LLM 심사관으로 품질을 측정하고 개선하기

레이턴시 이슈가 해결되었으므로, 이제 품질에 집중합니다. 베타 테스터들은 여전히 관련 없는 제품 추천에 대해 불만을 제기합니다. 품질을 개선하기 전에 먼저 체계적으로 측정해야 합니다. 이것이 두 번째 GenAI 과제를 부각시킵니다: GenAI 출력이 자유 형식이고 다양할 때 품질을 어떻게 측정할까요? MLflow 3.0은 품질 평가를 간단하게 만듭니다. 프로덕션 트레이스에서 평가 데이터셋을 만든 다음, Databricks MLflow가 제공하는 연구 기반 LLM 심사관을 실행합니다: 이러한 심사관은 GenAI 트레이스의 다양한 품질 측면을 평가하고 감지된 이슈에 대한 상세한 근거를 제공합니다.

이러한 심사관은 GenAI 트레이스의 다양한 품질 측면을 평가하고 감지된 이슈에 대한 상세한 근거를 제공합니다.

평가 결과를 살펴보면 문제가 드러납니다: 안전성과 근거성(Groundedness) 점수는 양호하지만, 65%의 검색 관련성(Retrieval Relevance) 점수가 검색 시스템이 종종 잘못된 정보를 가져오고 있음을 확인해주며, 이는 덜 관련성 있는 응답으로 이어집니다. MLflow의 LLM 심사관은 인간 전문가의 판단과 일치하도록 세밀하게 튜닝된 평가자입니다. 비즈니스 요구사항에 맞춘 가이드라인을 사용하여 커스텀 심사관을 만들 수 있습니다. 성공적인 상호작용, 엣지 케이스, 어려운 시나리오를 포함한 실제 사용자 대화에서 평가 데이터셋을 구축하고 버전 관리할 수 있습니다. MLflow는 대규모 평가를 처리하여 어떤 규모의 애플리케이션에서도 체계적인 품질 평가를 실용적으로 만듭니다.

Step 3: 전문가 피드백을 활용하여 품질 개선하기

65%의 검색 관련성 점수가 근본 원인을 가리키지만, 이를 수정하려면 시스템이 무엇을 검색해야 하는지 이해해야 합니다. 이제 MLflow 3.0과 통합된 Review App이 등장합니다. AI 출력에 대한 구조화된 전문가 피드백을 수집하기 위한 웹 인터페이스입니다. 이것이 프로덕션 인사이트를 더 높은 품질의 애플리케이션으로 전환하는 지속적 개선 여정의 시작입니다. 제품 전문가들이 검색 품질이 낮은 트레이스를 검토하는 라벨링 세션을 만듭니다. 고객이 “aptX HD 코덱 지원과 30시간 이상 배터리를 갖춘 200달러 이하 무선 헤드폰”을 요청했지만 일반적인 헤드폰 결과를 받았을 때, 전문가들은 모든 요구사항을 충족하는 정확한 제품을 어노테이션합니다. Review App은 도메인 전문가가 직관적인 웹 인터페이스를 통해 실제 응답과 소스 문서를 검토할 수 있게 해주며, 코딩이 필요하지 않습니다. 전문가들은 올바르게 검색된 제품을 표시하고 혼동 포인트(예: 유선 vs 무선 헤드폰)를 식별합니다. 전문가 어노테이션은 향후 개선을 위한 훈련 데이터가 되며, LLM 심사관을 실제 품질 기준에 맞추는 데 도움을 줍니다. Review App

Step 4: 프롬프트, 코드, 구성 변경 추적하기

전문가 어노테이션을 바탕으로 검색 시스템을 재구축합니다. 키워드 매칭에서 기술 사양을 이해하는 시맨틱 검색으로 전환하고, 확인되지 않은 제품 기능에 대해 더 신중하게 응답하도록 프롬프트를 업데이트합니다. 하지만 이러한 변경 사항을 어떻게 추적하고 품질이 향상되었는지 어떻게 보장할까요? MLflow 3.0의 **버전 추적(Version Tracking)**은 애플리케이션 코드, 프롬프트, LLM 파라미터, 검색 로직, 리랭킹 알고리즘 등을 포함한 전체 애플리케이션을 스냅샷으로 캡처합니다. 각 버전은 사용 중에 생성된 모든 트레이스와 메트릭을 연결합니다. 문제가 발생하면 문제가 있는 응답을 생성한 정확한 버전으로 추적할 수 있습니다. Version Tracking

프롬프트에는 특별한 주의가 필요합니다: 작은 문구 변경이 애플리케이션의 동작을 극적으로 바꿀 수 있어 테스트가 어렵고 회귀에 취약합니다. 다행히 MLflow의 새로운 Prompt Registry는 프롬프트 관리에 엔지니어링 수준의 엄격함을 제공합니다. Git 스타일 추적으로 프롬프트를 버전 관리하고, 프로덕션에서 다양한 버전을 테스트하며, 필요 시 즉시 롤백할 수 있습니다. UI는 버전 간 시각적 차이점을 보여주어 무엇이 변경되었는지, 성능에 미치는 영향을 쉽게 이해할 수 있게 합니다. MLflow Prompt Registry는 또한 DSPy 옵티마이저와 통합되어 평가 데이터에서 자동으로 개선된 프롬프트를 생성합니다. 포괄적인 버전 추적이 갖춰지면, 변경 사항이 실제로 품질을 개선했는지 측정합니다: 결과는 수정 사항이 효과적임을 확인해줍니다: 검색 관련성이 65%에서 91%로 뛰어올랐고, 응답 관련성은 93%로 향상되었습니다.

Step 5: 프로덕션에 배포하고 모니터링하기

검증된 개선 사항을 가지고, 이제 배포할 차례입니다. MLflow 3.0 Deployment Jobs는 품질 요구사항을 충족하는 검증된 애플리케이션만 프로덕션에 도달하도록 보장합니다. 애플리케이션의 새 버전을 등록하면 자동으로 평가가 트리거되고 결과가 승인을 위해 제시되며, Unity Catalog 통합이 거버넌스와 감사 추적을 제공합니다. 이 동일한 모델 등록 워크플로우는 전통적 ML 모델, 딥러닝 모델, GenAI 애플리케이션을 모두 지원합니다. Deployment Jobs가 자동으로 추가 품질 검사를 실행하고 이해관계자가 결과를 검토한 후, 개선된 챗봇은 모든 품질 게이트를 통과하고 프로덕션 승인을 받습니다. 이제 수천 명의 고객에게 서비스할 예정이므로, 최종 사용자 피드백을 수집하도록 애플리케이션을 계측합니다: 대시보드

프로덕션에 배포한 후, 대시보드는 만족도가 높다는 것을 보여줍니다. 개선 작업 덕분에 고객들이 정확한 제품 추천을 받고 있습니다. LLM 심사관의 자동화된 품질 모니터링과 실시간 사용자 피드백의 결합은 애플리케이션이 가치를 제공하고 있다는 확신을 줍니다. 문제가 발생하면 트레이스와 피드백을 통해 빠르게 이해하고 해결할 수 있습니다.

데이터를 통한 지속적 개선

프로덕션 데이터가 이제 개선을 위한 로드맵이 됩니다. 이것으로 프로덕션 인사이트에서 개발 개선으로, 그리고 다시 프로덕션으로 이어지는 지속적 개선 사이클이 완성됩니다. 부정적 피드백이 있는 트레이스를 평가 데이터셋으로 직접 내보냅니다. 버전 추적을 사용하여 배포 간 비교하고 무엇이 효과적인지 파악합니다. 새로운 이슈가 발생하면 체계적인 프로세스가 있습니다: 문제가 있는 트레이스를 수집하고, 전문가 어노테이션을 받고, 앱을 업데이트하고, 자신 있게 배포합니다. 각 이슈는 영구적인 테스트 케이스가 되어 회귀를 방지하고 시간이 지남에 따라 더 강력한 애플리케이션을 구축합니다.

“MLflow 3.0은 Q&A 에이전트를 자신 있게 디버깅하고 개선하는 데 필요한 가시성을 제공했습니다. 이전에는 수 시간의 추측 작업이 필요했던 것을 이제는 몇 분 만에 진단할 수 있으며, 각 검색, 추론 단계, 도구 호출에 걸쳐 완전한 추적 가능성을 갖추고 있습니다.” — Daisuke Hashimoto, Woven by Toyota 테크 리드

함께 확장되는 통합 플랫폼

MLflow 3.0은 이러한 모든 AI 기능을 하나의 플랫폼에 통합합니다. GenAI 애플리케이션의 모든 세부 사항을 캡처하는 동일한 트레이싱 인프라가 전통적 ML 모델 서빙에 대한 가시성도 제공합니다. 동일한 배포 워크플로우가 딥러닝 모델과 LLM 기반 애플리케이션 모두를 다룹니다. Unity Catalog와의 동일한 통합이 모든 유형의 AI 자산에 대해 실전 검증된 거버넌스 메커니즘을 제공합니다. 이 통합된 접근 방식은 모든 AI 이니셔티브에 걸쳐 일관된 관리를 보장하면서 복잡성을 줄입니다. MLflow 3.0의 개선 사항은 모든 AI 워크로드에 혜택을 줍니다. GenAI 애플리케이션 버전 관리를 위한 새로운 LoggedModel 추상화는 훈련 반복에 걸친 딥러닝 체크포인트 추적도 단순화합니다. GenAI 버전이 트레이스 및 메트릭과 연결되는 것처럼, 전통적 ML 모델과 딥러닝 체크포인트도 이제 훈련 실행, 데이터셋, 여러 환경에서 계산된 평가 메트릭을 연결하는 완전한 계보를 유지합니다. Deployment Jobs는 모든 유형의 모델에 대한 자동화된 품질 게이트로 고품질 머신러닝 배포를 보장합니다. 이들은 MLflow 3.0이 모든 유형의 AI 자산에 대한 통합 관리를 통해 클래식 ML과 딥러닝 모델에 제공하는 개선 사항의 몇 가지 예에 불과합니다. Databricks에서 MLOps 및 AI 관찰 가능성의 기반으로서, MLflow 3.0은 전체 Mosaic AI Platform과 원활하게 통합됩니다. MLflow는 모델, GenAI 애플리케이션, 프롬프트, 데이터셋의 중앙 집중식 거버넌스를 위해 Unity Catalog를 활용합니다. Databricks AI/BI를 사용하여 MLflow 데이터에서 대시보드를 구축하고, AI 메트릭을 비즈니스 인사이트로 전환할 수도 있습니다.

MLflow 3.0 시작하기

GenAI를 막 시작하든 수백 개의 모델과 에이전트를 대규모로 운영하든, Databricks의 Managed MLflow 3.0에는 필요한 도구가 갖춰져 있습니다. 이미 MLflow를 사용하고 있는 수천 개의 조직에 합류하여 MLflow가 AI 개발의 표준이 된 이유를 확인해보세요. 무료 Databricks Managed MLflow에 가입하여 몇 분 만에 MLflow 3.0을 사용해보세요. 엔터프라이즈 수준의 신뢰성, 보안, 전체 Databricks Lakehouse Platform과의 원활한 통합을 얻을 수 있습니다. 기존 Databricks Managed MLflow 사용자의 경우, MLflow 3.0으로 업그레이드하면 강력한 새 기능에 즉시 접근할 수 있습니다. 현재의 실험, 모델, 워크플로우는 원활하게 계속 작동하면서 생성형 AI 애플리케이션을 위한 프로덕션 수준의 트레이싱, LLM 심사관, 온라인 모니터링 등을 얻을 수 있으며, 마이그레이션이 필요하지 않습니다.

다음 단계

문서 읽기 — 포괄적인 가이드와 튜토리얼
퀵스타트 체험하기 — Managed MLflow 3.0을 실제로 확인
커뮤니티 참여하기 — 수천 명의 MLflow 사용자와 연결

​MLflow 3.0 한눈에 보기

​GenAI의 도전 과제: 파편화된 도구, 도달하기 어려운 품질

​Step 1: 프로덕션 수준 트레이싱으로 성능 이슈 정확히 파악하기

​Step 2: LLM 심사관으로 품질을 측정하고 개선하기

​Step 3: 전문가 피드백을 활용하여 품질 개선하기

​Step 4: 프롬프트, 코드, 구성 변경 추적하기

​Step 5: 프로덕션에 배포하고 모니터링하기

​데이터를 통한 지속적 개선

​함께 확장되는 통합 플랫폼

​MLflow 3.0 시작하기

​다음 단계

​참고 자료