Skip to main content
원문: Introducing Agent Bricks: Auto-Optimized Agents Using Your Data (2025-06-11)
작성자: Xiangrui Meng, Kasey Uhlenhuth, Hanlin Tang, Patrick Wendell, Matei Zaharia
  • 자동 최적화 에이전트: 작업을 설명하기만 하면 고품질 도메인 특화 에이전트를 구축할 수 있습니다. 평가와 튜닝은 Agent Bricks가 처리합니다.
  • 빠르고 비용 효율적인 결과: Mosaic AI 연구 기반의 자동 최적화로 더 높은 품질을 더 낮은 비용으로 달성합니다.
  • 프로덕션에서 입증: Flo Health, AstraZeneca 등이 안전하고 정확한 AI를 수주가 아닌 수일 만에 확장하는 데 사용하고 있습니다.

작년, 데이터 인텔리전스의 약속 — 여러분의 데이터를 기반으로 추론할 수 있는 AI 구축 — 이 Mosaic AI와 함께 실현되었습니다. Mosaic AI는 AI 시스템을 구축, 평가, 모니터링, 보안하기 위한 종합 플랫폼입니다. 이후 수천 명의 고객이 데이터 인텔리전스를 프로덕션에 배포하여, 엔터프라이즈 데이터를 기반으로 한 도메인 특화 에이전트를 구축했습니다:
  • Mastercard는 고객 온보딩을 가속화하기 위해 디지털 어시스턴트를 출시했습니다.
  • AT&T는 무선 고객을 사기와 피해로부터 보호합니다.
  • Crisis Text Line은 차세대 위기 상담사를 교육하기 위해 정신 건강 전문 AI 에이전트를 구축했습니다.
  • Block은 엔터프라이즈 컨텍스트에 기반한 AI 코딩 어시스턴트인 goose를 출시했습니다.
그러나 생성형 기술의 미성숙함은 프로덕션까지의 여정을 여전히 어렵게 만들었습니다. 고품질 에이전트를 구축하는 것은 여러 가지 이유로 너무 복잡한 경우가 많았습니다:
  1. 평가가 어렵습니다. 많은 엔터프라이즈 AI 작업은 인간과 자동화된 LLM 판정자 모두에게 평가가 어렵습니다. 수학 시험 같은 학술 벤치마크는 실제 사용 사례로 전환되지 않았습니다. 세밀한 평가를 구축하려면 비용이 많이 드는 수동 라벨링이 필요한 경우가 많았습니다. 그 결과, 유망한 프로젝트들이 끝없는 튜닝 사이클에 갇혀 정체되었고, 이해관계자들은 불명확한 진전으로 인해 신뢰를 잃었습니다.
  2. 너무 많은 조정 변수. 에이전트는 각각 고유한 조정 변수를 가진 많은 컴포넌트로 구성된 복잡한 AI 시스템입니다. 프롬프트 튜닝에서 인덱스 청킹 전략, 모델 선택, 파인튜닝 파라미터에 이르기까지, 각 조정은 시스템 전반에 걸쳐 알 수 없는 영향을 미칩니다. 빠른 반복적 개선이어야 할 것이 비용이 많이 들고 지루한 수동 시행착오가 되어, 프로덕션까지의 시간이 늦어집니다.
  3. 비용과 품질. 팀이 위의 문제를 해결하고 고품질 에이전트를 구축한 후에도, 에이전트를 프로덕션으로 확장하기에는 비용이 너무 높다는 사실에 놀라는 경우가 많습니다. 그래서 팀은 긴 비용 최적화 과정에 갇히거나, 비용과 품질 사이의 트레이드오프를 강요받게 됩니다.

Agent Bricks: 도메인 작업을 위해 자동 최적화되는 에이전트

고객과 함께 AI를 프로덕션에 출시한 위의 경험을 바탕으로, 우리는 지난 1년간 에이전트 구축 방식을 근본적으로 재고했습니다. 오늘 우리는 기업이 도메인 특화 에이전트를 개발하는 방식을 바꾸는 새로운 제품인 Agent Bricks를 소개합니다. 에이전트 개발의 압도적인 복잡성을 관리하는 대신, 팀은 가장 중요한 것에 집중할 수 있습니다: 에이전트의 목적을 정의하고 자연어 피드백을 통해 품질에 대한 전략적 가이드를 제공하는 것입니다. 나머지는 Agent Bricks가 처리하며, 평가 스위트를 자동으로 생성하고 품질을 자동 최적화합니다. Agent Bricks 작동 방식:
  1. 작업 선언. 작업을 선택하고, 에이전트가 수행할 작업의 고수준 설명을 자연어로 정의하며, 데이터 소스를 연결합니다.
  2. 자동 평가. Agent Bricks는 작업에 특화된 평가 벤치마크를 자동으로 생성합니다. 여기에는 새로운 데이터의 합성 생성이나 커스텀 LLM 판정자 구축이 포함될 수 있습니다.
  3. 자동 최적화. Agent Bricks는 프롬프트 엔지니어링, 모델 파인튜닝, 리워드 모델, TAO(test-adaptive optimization) 등 다양한 최적화 기법을 지능적으로 탐색하고 조합하여 높은 품질을 달성합니다.
  4. 비용과 품질. Agent Bricks는 에이전트가 효과적일 뿐만 아니라 비용 효율적이도록 보장합니다. 사용자는 비용 최적화 모델과 품질 최적화 모델 중에서 선택할 수 있습니다.
Agent Bricks: 평가 데이터셋 Agent Bricks를 사용하면 자동 평가를 통해 추측을 제거할 수 있습니다. 우리가 조정 변수를 자동 최적화하므로, 에이전트의 성능을 신뢰하고 최고 효율로 운영되고 있음을 확인할 수 있습니다. 최종 결과는 고품질이면서 비용 효율적인 에이전트를 프로덕션에 출시할 수 있다는 것입니다. Agent Bricks는 정형 정보 추출(structured information extraction), 신뢰할 수 있는 지식 지원(reliable knowledge assistance), 커스텀 텍스트 변환(custom text transformation), 오케스트레이션 멀티 에이전트 시스템(orchestrated multi-agent systems) 등 주요 산업 공통 사용 사례에 최적화되어 있습니다.

Agent Bricks로 고품질 에이전트 구축하기

Agent Bricks는 품질을 측정, 구축, 지속적으로 개선할 수 있는 고유한 능력을 갖추고 있습니다. 예를 들어, 문서 기반 대화형 에이전트 구축에서 여러 Q&A 벤치마크에 걸쳐 평균 품질을 측정했습니다. 이 분야의 다른 제품과 비교했을 때, Agent Bricks는 훨씬 더 높은 품질의 에이전트를 구축했습니다(Figure 1). 뿐만 아니라, 지속적 학습 능력을 통해 성능은 시간이 지남에 따라 계속 향상됩니다. Agent Bricks는 훨씬 더 높은 품질의 에이전트를 구축합니다 문서 이해 분야에서 Agent Bricks는 프롬프트 최적화된 독점 LLM과 비교하여 더 높은 품질과 더 낮은 비용의 시스템을 구축합니다(Figure 2). 문서 파싱 벤치마크에서 더 높은 품질을 달성하면서도 최대 10배 낮은 비용의 시스템을 구현할 수 있습니다. Agent Bricks는 프롬프트 최적화된 독점 LLM과 비교하여 더 높은 품질과 더 낮은 비용의 시스템을 구축합니다 이러한 벤치마크 외에도, 우리의 고객들 역시 Agent Bricks로 품질 높은 에이전트를 구축하고 있습니다:
“Agent Bricks를 통해 표준 상용 LLM 대비 의료 정확도를 두 배로 높이면서 Flo Health의 임상적 정확성, 안전성, 개인정보 보호 및 보안에 대한 높은 내부 기준을 충족할 수 있었습니다.” — Roman Bugaev, CTO, Flo Health
“Agent Bricks는 LLM-as-judge 및 인간 평가 정확도 지표 모두에서 기존 오픈소스 구현을 크게 능가했습니다.” — Joel Wasson, Enterprise Data & Analytics, Hawaiian Electric
“[Agent Bricks는] 엔터프라이즈 전반의 AI 역량을 가속화하고, 피드백 루프에서의 품질 개선을 가이드하며, 동등하게 잘 작동하는 더 저렴한 옵션을 식별할 수 있게 해주었습니다.” — Chris Nishnick, Director of AI, Lippert

최신 에이전트 학습 연구 기반

Agent Bricks가 이러한 결과를 달성할 수 있는 것은 Databricks Mosaic AI Research 팀의 연구를 기반으로 하기 때문입니다. 에이전트 품질을 개선하기 위한 방법은 다양하게 존재하며, 새로운 연구가 숨 가쁜 속도로 발표되고 있습니다. 우리 팀은 기존 연구를 큐레이션하고 새로운 혁신을 개발하여, Agent Bricks가 자동 평가 및 최적화 단계에서 활용합니다. 광범위한 방법론을 보유하고 있지만, 오늘은 우리의 혁신 중 하나인 **ALHF(Agent Learning from Human Feedback)**를 소개하고자 합니다.

ALHF(Agent Learning from Human Feedback)

품질의 핵심 과제는 피드백으로부터 에이전트의 행동을 조정하는 능력입니다. 피드백이 종종 좋아요 또는 싫어요로만 제공되고, 에이전트 시스템 내부의 많은 컴포넌트와 조정 변수 중 어느 것을 조정해야 피드백을 반영할 수 있는지 불분명하기 때문에 이것은 특히 어렵습니다. 모든 지시사항을 하나의 거대한 LLM 프롬프트에 넣는 현재의 접근 방식은 취약하며, 더 복잡한 에이전트 시스템으로 일반화되지 않습니다. ALHF를 통해 우리는 두 가지 접근 방식으로 이 문제를 해결했습니다. 첫째, 풍부한 맥락의 자연어 가이드(예: “1990년 5월 이전의 모든 데이터를 무시하라”)를 수신할 수 있습니다. 둘째, 이 자연어 가이드를 기반으로 우리의 알고리즘이 가이드를 기술적 최적화로 지능적으로 변환합니다 — 검색 알고리즘 개선, 프롬프트 강화, 벡터 데이터베이스 필터링, 또는 에이전트 패턴 자체 수정까지 수행합니다. Agent Learning from Human Feedback (ALHF) 이 접근 방식은 에이전트 개발을 민주화하여, 도메인 전문가가 AI 인프라에 대한 깊은 기술 전문지식 없이도 시스템 개선에 직접 기여할 수 있게 합니다.
“지속적으로 정확도를 평가하고 개선할 수 있는 능력은 Experian에게 핵심적인 기능입니다. 특히 규제가 엄격한 산업에서 더욱 그렇습니다.” — James Lin, Head of AI ML Innovation, Experian

앞으로의 길: 연구실에서 프로덕션까지 수개월이 아닌 수일 만에

초기 고객들은 이미 Agent Bricks가 제공하는 변혁을 경험하고 있습니다 — 성능 벤치마크를 두 배로 높이는 정확도 개선과 개발 일정을 수 주에서 단 하루로 단축하는 성과입니다. 더 중요한 것은, 불과 몇 달 전만 해도 불가능해 보였던 것을 달성하고 있다는 점입니다: 일관된 비즈니스 가치를 제공하는 지속 가능하고 확장 가능한 AI 시스템입니다. Agent Bricks는 단순한 도구의 진화 이상입니다 — 성숙하고 프로덕션에 준비된 AI 개발을 향한 근본적인 전환입니다. 에이전트 시스템이 엔터프라이즈 운영의 중심이 됨에 따라, 과거의 “정성적 품질 평가” 방식은 더 이상 확장할 수 없습니다. 조직은 실제 비즈니스 애플리케이션의 복잡성과 요구사항을 처리할 수 있는 지능형 에이전트를 구축하고 최적화하기 위한 견고하고 체계적인 접근 방식이 필요합니다.

Agent Bricks를 사용하는 고객들

많은 Databricks 고객이 이미 Agent Bricks로 AI 에이전트를 구축했으며, 앞으로 이들이 무엇을 할 수 있을지 기대됩니다.
“Agent Bricks를 통해 저희 팀은 단 한 줄의 코드도 작성하지 않고 40만 건 이상의 임상시험 문서를 파싱하여 정형 데이터 포인트를 추출할 수 있었습니다. 60분도 채 안 되어 복잡한 비정형 데이터를 분석에 활용 가능한 형태로 변환할 수 있는 에이전트가 완성되었습니다.” — Joseph Roemer, Head of Data & AI, Commercial IT, AstraZeneca
“Agent Bricks를 통해 저희는 프로덕션에서 신뢰할 수 있는 비용 효율적인 에이전트를 구축할 수 있었습니다. 맞춤화된 평가 덕분에 비정형 입법 일정(legislative calendars)을 파싱하는 정보 추출 에이전트를 자신감 있게 개발했으며, 수동 시행착오 최적화에 소요되던 30일을 절약할 수 있었습니다.” — Ryan Jockers, Assistant Director of Reporting and Analytics, North Dakota University System

지금 Agent Bricks를 시작하세요

“데모 품질”과 “프로덕션 품질” 사이의 격차를 해소할 준비가 되셨나요? Agent Bricks는 현재 베타로 제공됩니다. 시작하기: 엔터프라이즈 AI의 미래는 복잡성을 관리하는 것이 아닙니다 — 중요한 결과에 집중하고 나머지는 Agent Bricks에게 맡기는 것입니다.

참고 자료