적용 가이드
시나리오별 추천 전략
| 시나리오 | 추천 전략 | 이유 |
|---|---|---|
| 일반 Q&A | Dense + Reranking | 의미 검색으로 후보 추출 후 정밀 재정렬 |
| 전문 용어가 많은 문서 | Hybrid (BM25 + Dense) | 정확한 용어 매칭과 의미 검색을 동시에 |
| 한국어 문서 | Kiwi 토크나이저 + Hybrid | 형태소 분석 기반 BM25로 한국어 키워드 검색 강화 |
| 법률/의료 문서 | Self-Query + Metadata Filter | 날짜, 카테고리, 법령 번호 등 구조화된 필터링 |
| 긴 문서 기반 Q&A | Parent Document Retriever | 작은 청크로 검색하되 큰 컨텍스트 반환 |
| 대규모 문서셋 (100K+) | Vector Search + Reranking | 서버 사이드 검색으로 확장성 확보 |
전략 선택 플로우
참고 처음에는 Dense Retriever + Reranking 조합으로 시작하고, 평가 결과에 따라 Hybrid나 Multi-Query를 점진적으로 추가하는 것을 권장합니다.
Phase 1: 기본 (Baseline)
목표: 동작하는 RAG 파이프라인 구축| 구성 요소 | 기술 선택 | 비고 |
|---|---|---|
| 검색 | Databricks Vector Search + query_type="hybrid" | 내장 하이브리드 검색 활용 |
| 청킹 | Recursive Character Text Splitter (500~1000 토큰) | 가장 범용적인 전략 |
| 임베딩 | databricks-bge-large-en 또는 bge-m3 | 다국어 지원 모델 선택 |
| LLM | databricks-claude-sonnet-4 또는 databricks-meta-llama-3-3-70b-instruct | Foundation Model API |
| 평가 | Databricks Agent Evaluation (기본 메트릭) | 검색 정밀도, 답변 정확도 |
Phase 2: 중급 (Enhanced)
목표: 한국어 검색 품질 강화 + 정밀도 향상| 구성 요소 | 기술 선택 | Phase 1 대비 변화 |
|---|---|---|
| 한국어 처리 | Kiwi 형태소 분석기 + Custom BM25 Retriever | 한국어 키워드 검색 정확도 대폭 향상 |
| 검색 | EnsembleRetriever (Kiwi BM25 + VS Dense) | 하이브리드 검색 직접 구현 |
| Re-ranking | Cross-Encoder (bge-reranker-v2-m3) | 검색 정밀도 30~50% 향상 기대 |
| 청킹 | Parent-Child 또는 Semantic 청킹 | 문맥 보존 + 검색 정확도 향상 |
| 전처리 | Query Rewrite (대화 맥락 반영) | 멀티턴 대화 지원 |
Phase 3: 고급 (Advanced)
목표: 자기 교정 + 멀티 소스 + Agentic RAG Agentic RAG란? 기존 RAG가 “검색 → 생성”의 고정된 파이프라인이라면, Agentic RAG는 LLM이 에이전트 로서 검색 전략을 스스로 결정합니다. 질문을 분석하여 어떤 소스에서 검색할지, 검색 결과가 충분한지, 추가 검색이 필요한지를 동적으로 판단 하고, 필요하면 Tool(SQL 실행, 웹 검색, API 호출 등)을 직접 호출합니다. LangGraph 같은 워크플로 프레임워크로 이 의사결정 흐름을 그래프로 정의합니다. LLM-as-Judge란? 사람이 평가하기 어려운 대량의 RAG 출력을 다른 LLM(보통 더 강력한 모델) 이 평가하는 기법입니다. 평가 기준(충실도, 관련성, 완전성 등)을 프롬프트로 정의하고, 평가 대상 답변을 입력하면 LLM이 점수와 근거를 반환합니다. Databricks Agent Evaluation이 이 패턴을 내장 지원합니다. 사람 평가(Human Evaluation)와 병행하면 비용 대비 효과적인 품질 관리가 가능합니다.| 구성 요소 | 기술 선택 | Phase 2 대비 변화 |
|---|---|---|
| 전처리 | Contextual Retrieval + Query Routing | 문맥 보존 극대화 + 멀티 소스 라우팅 |
| 후처리 | Self-RAG + Corrective RAG | 환각 대폭 감소 |
| 에이전트 | Agentic RAG (Genie 연동, Tool Use) | 동적 검색 전략 결정 |
| 평가 | LLM-as-Judge + Human Evaluation | 정량/정성 평가 결합 |
| 모니터링 | Databricks Lakehouse Monitoring + MLflow | 프로덕션 품질 지속 관리 |
참고 로드맵 적용 팁: 각 Phase를 넘어갈 때마다 반드시 평가 메트릭 을 비교하세요. Phase 2가 Phase 1보다 검색 정밀도(Precision@5)에서 최소 10% 이상 개선되지 않는다면, 기존 Phase의 튜닝(가중치, 청크 크기, 임베딩 모델)에 더 투자하는 것이 효율적입니다.