원문: An AI-First Approach to Data Engineering with Lakeflow and Agent Bricks
참고
요청하신 URL(databricks-announces-industry-first-agentic-etl-lakeflow)은 현재 404 오류를 반환합니다. 광범위한 검색 결과, 해당 URL의 블로그 포스트는 존재하지 않으며, 동일한 주제(Lakeflow + Agentic ETL)를 다루는 가장 유사한 공식 포스트인 위 원문을 번역합니다.
Lakeflow와 Agent Bricks를 활용한 AI 우선 데이터 엔지니어링 접근법
ETL 파이프라인의 모든 단계에 AI 기반 자동화를 도입하는 방법 게시일: 2026년 2월 24일- Lakeflow는 AI 네이티브 엔지니어링 플랫폼을 제공하여, 팀이 Agent Bricks AI 함수를 사용해 ETL 워크플로우 내에서 직접 모델을 통합하고 프로덕션화할 수 있게 합니다.
- Lakeflow Jobs를 통해 엔지니어는 전체 엔터프라이즈 컨텍스트를 유지하면서 AI 워크로드를 대규모로 오케스트레이션하고, 복잡한 파이프라인을 자동화할 수 있습니다.
- 프로덕션 데이터 파이프라인에 AI를 성공적으로 내재화한 고객들의 기술 활용 사례와 실제 적용 사례를 살펴봅니다.
데이터 엔지니어들은 점점 더 하나의 핵심 문제에 집중하고 있습니다. 바로 AI를 활용하여 ETL을 개선하고, 새로운 복잡성을 도입하지 않으면서도 신뢰할 수 있는 프로덕션 수준의 파이프라인을 구축하는 것입니다. 이들은 연결이 끊어진 도구를 추가하거나 컨텍스트를 빼앗지 않고 워크플로우를 실제로 간소화해주는 AI가 필요합니다. Databricks Lakeflow는 임베디드되고 안전한 AI를 갖춘 통합 데이터 엔지니어링 플랫폼을 제공하여, 전체 데이터 처리 과정을 자동화하고, 더 많은 인사이트를 발굴하며, 더 넓은 범위의 비즈니스 문제를 지원합니다. AI가 생성한 파이프라인 코드든, AI 워크로드 오케스트레이션이든 간에, Lakeflow를 활용하는 데이터 엔지니어는 수시간의 수동 연결 작업에서 벗어나 비즈니스에 실질적인 영향을 미치는 전략적이고 고부가가치 패턴에 집중할 수 있습니다. 이 블로그에서는 AI 모델을 데이터 파이프라인에 구현하여 비즈니스 인사이트를 자동으로 발굴하고, 이를 프로덕션화·확장하는 방법을 살펴보겠습니다.
데이터에서 더 많은 인사이트를 손쉽게 대규모로 추출하기
데이터 팀은 계약서, 청구서, 대화 녹취록, 리뷰 등 구조화되지 않은 입력물의 홍수 속에 빠져 있습니다. 이를 처리하려면 흔히 불안정한 NLP 모델, 경직된 규칙, 또는 수동 정제 작업을 병행해야 합니다. 그 결과는 신뢰하기 어려운 출력, 느린 처리 속도, 그리고 문서 내에 잠겨 있는 귀중한 인사이트이며, 엔지니어들은 영향력 있는 작업 대신 반복적인 파싱에 시간을 소모하게 됩니다. Databricks Lakeflow를 사용하면 Databricks Agent Bricks AI 함수 를 통해 AI 기반 변환을 기존 워크플로우에 원활하게 통합하여 이 문제를 해결할 수 있습니다. 이 함수들을 통해 고품질 AI를 ETL 프로세스에 직접 통합함으로써, 비정형 데이터와 정형 데이터 모두의 추출, 변환, 분류를 대규모로 자동화할 수 있습니다. Agent Bricks에는 선택 가능한 여러 유형의 AI 함수가 있습니다. 일부는 프롬프트가 필요 없는 특정 작업용 함수로, 다음과 같습니다.ai_extract: 제공한 레이블을 기반으로 입력 텍스트에서 특정 항목을 추출합니다. 예: 인물, 위치, 조직ai_classify: 제공한 레이블에 따라 입력 텍스트를 분류합니다. 예: “긴급” vs. “비긴급”, 또는 주제 카테고리ai_translate: 지정한 대상 언어로 텍스트를 번역합니다.
- 새 데이터 생성: AI를 사용해 고객 인사이트 요약을 작성하여 보고를 가속하거나 미래 수익을 예측합니다.
- 데이터 구조화 및 조직화: 수백만 건의 다국어 리뷰에 대해 감정 분석을 실행하거나, 자연어 프롬프트를 사용해 고객 세분화를 대규모로 자동화합니다.
- 데이터 품질 개선: 퍼지 매칭과 엔티티 해석을 사용해 대규모로 중복 및 불일치를 수정합니다.
ai_parse_document에 대해 특히 기대가 큽니다. 이 함수는 구조화되지 않은 모든 데이터를 필요한 구조화된 형식으로 변환하는 데 사용할 수 있습니다. 멀티모달 파운데이션 모델을 사용하여 ai_parse_doc는 텍스트를 파싱하고, 테이블을 추출하고, 그림에 대해 추론하고, 이미지를 AI 생성 설명으로 변환할 수 있습니다. 이 함수는 이전에는 분석이 거의 불가능했던 데이터 처리에 새로운 가능성을 열어줍니다.
또한 서버리스 배치 추론 플랫폼으로 구동되는 보다 범용적인 함수인 ai_query()도 제공합니다. 이 함수를 사용하면 선택한 LLM을 사용해 대규모 데이터셋에 걸쳐 AI 기반 변환을 한 번에 실행할 수 있습니다.
수백만 행에 걸쳐 성능을 극대화하기 위해, 당사의 서버리스 배치 추론 엔진은 컴퓨팅 리소스를 자동으로 프로비저닝 및 확장하고 워크로드를 병렬로 실행합니다. 이를 통해 요청별 오버헤드가 제거되고 처리 속도가 현저히 향상되어, 대용량 AI 워크로드의 실행 시간을 시간 단위에서 분 단위로 줄이면서 비용 효율성도 높입니다.
Lakeflow를 사용하면 Lakeflow Jobs 를 통해 AI 모델을 데이터 엔지니어링 솔루션에 네이티브하게 프로덕션화하고 오케스트레이션할 수 있습니다. AI 함수를 활용하면 오케스트레이션에 더 많은 효율성을 가져오고 다음과 같은 사용 사례를 발굴할 수 있습니다.
Lakeflow와 Agent Bricks를 결합하면 단일하고 통합된 거버넌스 데이터 플랫폼에서 AI 모델을 실행할 수 있으므로, AI와 AI가 추출하는 인사이트가 올바른 비즈니스 및 엔터프라이즈 컨텍스트를 갖게 됩니다.
AI 함수와 Lakeflow의 실용적인 활용 사례
사례 1: 원시 통화 녹취록에서 비즈니스 인사이트 도출
영업팀이 길고 구조화되지 않은 통화 녹취록을 명확하고 실행 가능한 요약으로 변환할 신뢰할 수 있는 방법이 필요하다고 가정해봅시다. 하루에 수백 건의 통화가 이루어지며, 각 통화는 45분에서 60분씩 지속된다면 수동 검토는 금방 불가능해집니다. Databricks를 사용하면 내장된 AI 함수를 활용해 모든 녹취록을 쉽고 빠르게 분석하고, 핵심 인사이트를 추출하며, 후속 조치 권고 사항을 생성할 수 있습니다. 별도의 AI 서비스를 구축하거나 커스텀 에이전트를 관리하는 대신, 단순히 쿼리를 작성하고 Lakeflow Jobs의 오케스트레이터의 일부로 실행하기만 하면 됩니다. 그러면 AI 모델이 거버넌스가 적용된 통합 데이터 엔지니어링 플랫폼에 직접 구현되어, 기존 영업 파이프라인 워크플로우와 완전히 통합되고 올바른 비즈니스 및 엔터프라이즈 컨텍스트를 유지하면서 확장 가능한 배치 처리를 제공합니다. 실제로 어떻게 작동하는지 살펴보겠습니다. 통화 녹취록을 파이프라인에 수집한 후, AI 함수를 적용하여 비정형 텍스트를 사용 가능한 신호로 변환할 수 있습니다.ai_analyze_sentiment를 사용해 통화의 전반적인 감정(긍정, 부정, 중립)을 파악합니다.ai_extract를 사용해 고객 이름, 회사명, 직책, 전화번호 등 통화의 핵심 정보를 추출합니다.ai_classify를 사용해 통화 유형(긴급도, 주제 등)을 분류합니다.
ai_query를 활용합니다(예시에서는 “databricks-meta-llama-3-3-70b-instruct” LLM을 사용합니다).
이 쿼리는 영업팀과 어카운트 팀이 한눈에 검토할 수 있는 일관성 있고 고품질의 요약을 생성합니다.
그런 다음 동일한 워크플로우에서 개인화된 후속 조치를 생성할 수 있습니다.
이 내용은 통화가 끝난 직후 팀이 취해야 할 올바른 조치를 정확히 파악할 수 있도록, 대규모로 CRM이나 영업 도구에 직접 푸시될 수 있습니다. 또한 이 내용을 BI 팀과 공유하여 전반적인 고객 서비스 경험을 개선하는 데 도움이 되는 격차를 발굴할 수도 있습니다.
사례 2: 보험 청구 처리 간소화
더 빠르고 일관된 승인이 필요한 보험사를 위해 청구 처리 파이프라인을 구축한다고 가정해봅시다. 오늘날 청구서는 스캔된 문서, 사진, PDF 같은 구조화되지 않은 첨부 파일이 포함된 이메일로 도착하는 경우가 많아, 대규모로 수집하고 처리하기가 어렵습니다. Agent Bricks와 Lakeflow를 사용하면 데이터 엔지니어가ai_parse_document와 ai_query를 활용해 ETL 파이프라인의 일부로 수신 이메일에서 데이터를 자동으로 추출, 정규화, 통합할 수 있습니다. 이를 통해 수동 검토를 줄이고, 결정을 가속화하며, 기존 데이터 워크플로우에 원활하게 통합되는 신뢰할 수 있는 종단간 자동화가 가능해집니다.
Lakeflow와 Agent Bricks를 사용하면 이메일 파일을 레이크하우스에 수집한 다음 다음과 같이 필요한 데이터를 추출할 수 있습니다.
ai_query를 사용해 이메일 본문을 읽고 핵심 정보(예: 이름, 생년월일, 주소, 사회보장번호 등)를 추출합니다.- 수신되는 이미지 유형을 특별히 읽을 수 있는 모델과 함께
ai_query를 사용합니다. 이 AI 함수는 첨부된 이미지를 설명하는 텍스트를 생성하고 메타데이터를 추출합니다. - 이메일에 첨부된 모든 PDF(jpg 또는 png)를 읽기 위해
ai_parse_document를 사용합니다.
ai_query를 사용하여 모든 정보를 통합한 파일로 만들 수 있습니다. 이 파일은 사용 사례에 따라 다른 워크플로우에서 재사용하거나 다운스트림 팀(BI 분석가, AI/ML 팀 등)에 직접 공유할 수 있습니다.
아래는 Lakeflow Jobs에서 해당 워크플로우가 어떻게 보이는지를 보여주는 DAG 예시입니다.
Lakeflow와 Agent Bricks를 결합하면 훨씬 더 많은 작업을 수행할 수 있습니다. 지저분한 영업 데이터를 AI 기반 마케팅 캠페인으로 변환하는 방법을 보여주는 영상을 확인하세요.
Databricks에서 AI의 실제 적용 사례
많은 Databricks 고객과 데이터 엔지니어들이 AI와 Lakeflow를 사용하여 가격 책정, 고객 성공, 마케팅 등 다양한 비즈니스 문제를 성공적으로 해결하고 인사이트를 발굴하며 생산성을 향상시켰습니다. 뉴욕 기반 핀테크 기업인 Kard 는 Agent Bricks AI 함수를 활용하여 수동적이고 일관성 없는 레거시 방식을 대체하는 확장 가능하고 정확한 트랜잭션 분류 시스템을 구축했습니다. 이 현대적인 접근 방식은 Kard가 수십억 건의 트랜잭션을 효율적으로 처리하고, 개인화된 보상을 제공하며, 충성도와 비즈니스 가치를 높이는 더 풍부한 인사이트를 제공할 수 있게 해줍니다. 라틴 아메리카 최대 은행 중 하나인 Banco Bradesco 의 데이터 엔지니어링 팀은 길고 시간이 많이 걸리는 코딩, 디버깅, 문서화 프로세스로 인한 생산성 병목 현상에 직면했습니다. Databricks Assistant 를 도입함으로써 코딩 시간을 50% 단축했으며, 자연어를 사용해 코드를 생성하고 문제를 해결할 수 있게 되어 기술 사용자와 비기술 사용자 모두가 역량을 강화했습니다. 이를 통해 데이터 접근성이 민주화되고, 비용이 절감되었으며, 데이터 기반 의사결정이 가속화되었습니다. 글로벌 옴니채널 광고 플랫폼인 Locala 는 이전 스케줄러인 Airflow로는 처리할 수 없었던 복잡한 LLM 트레이닝 파이프라인을 오케스트레이션하기 위해 Lakeflow Jobs를 사용했습니다. ETL, 모델 트레이닝 및 실험, 컴퓨팅 선택을 간소화함으로써, Lakeflow Jobs는 복잡한 워크플로우 관리의 운영 부담을 제거하여 단 한 명의 데이터 사이언티스트가 애드테크 기업의 핵심 영업 기능이 된 GenAI 어시스턴트를 구축할 수 있게 되었습니다.Lakeflow를 사용하면 AI 기능을 데이터 엔지니어링 플랫폼에 쉽게 통합하고 AI 워크플로우를 오케스트레이션하여, 데이터 프로세스를 더욱 효율적이고, 인사이트 중심적이며, 접근 가능하게 만들 수 있습니다. 앞으로도 더 많은 기능이 출시될 예정입니다! 곧 Databricks Genie 를 사용하여 자연어 처리를 통한 파이프라인 작성 및 디버깅에 데이터 엔지니어링 플랫폼을 활용할 수 있게 될 것입니다.
다음 단계:
- Databricks Free Edition으로 시작하기
- Databricks AI 함수 제품 문서 확인하기
- Databricks Genie에 대해 자세히 알아보기