이 문서는 RAG 섹션의 일부입니다.한국어는 영어와 매우 다른 언어 구조를 가지고 있어, RAG 파이프라인의 각 단계에서 특별한 고려가 필요합니다. 이 가이드에서는 한국어 RAG 시스템의 품질을 높이기 위한 실전 기법을 단계별로 다룹니다.
핵심 과제
한국어 RAG는 교착어 특성(조사/어미 결합), 띄어쓰기 불규칙성, 한영 혼용, 상대적으로 적은 학습 데이터 등의 이유로 영어 RAG와 근본적으로 다른 접근이 필요합니다. 영어 기준 파이프라인을 그대로 적용하면 BM25 검색 실패, 토큰 비용 급증, 임베딩 품질 저하 등의 문제가 발생합니다.가이드 구성
과제 & Kiwi 형태소 분석
한국어 RAG의 구조적 어려움과 Kiwi 형태소 분석기를 활용한 해결 방법
BM25 검색 & 청킹 전략
Kiwi 기반 BM25 Retriever, 하이브리드 검색, 한국어 청킹 전략
임베딩 모델 & 베스트 프랙티스
한국어 임베딩 모델 선택, Re-ranking, 전처리, 트러블슈팅
권장 구성 요약
| 단계 | 권장 도구/전략 | 이유 |
|---|---|---|
| 토크나이저 | Kiwi + KSS 조합 | 형태소 분석 + 문장 분리 |
| 청킹 | Recursive + 한국어 구분자 | 종결어미 기반 자연스러운 분절 |
| 임베딩 | multilingual-e5-large-instruct | Databricks 기본 제공, 한영 혼용 지원 |
| 검색 | Hybrid (Kiwi BM25 + Vector) | 키워드 + 의미 검색 결합 |
| 재정렬 | bge-reranker-v2-m3 | 다국어 Reranker, 한국어 지원 |