Skip to main content
이 문서는 RAG 섹션의 일부입니다.
한국어는 영어와 매우 다른 언어 구조를 가지고 있어, RAG 파이프라인의 각 단계에서 특별한 고려가 필요합니다. 이 가이드에서는 한국어 RAG 시스템의 품질을 높이기 위한 실전 기법을 단계별로 다룹니다.

핵심 과제

한국어 RAG는 교착어 특성(조사/어미 결합), 띄어쓰기 불규칙성, 한영 혼용, 상대적으로 적은 학습 데이터 등의 이유로 영어 RAG와 근본적으로 다른 접근이 필요합니다. 영어 기준 파이프라인을 그대로 적용하면 BM25 검색 실패, 토큰 비용 급증, 임베딩 품질 저하 등의 문제가 발생합니다.

가이드 구성

과제 & Kiwi 형태소 분석

한국어 RAG의 구조적 어려움과 Kiwi 형태소 분석기를 활용한 해결 방법

BM25 검색 & 청킹 전략

Kiwi 기반 BM25 Retriever, 하이브리드 검색, 한국어 청킹 전략

임베딩 모델 & 베스트 프랙티스

한국어 임베딩 모델 선택, Re-ranking, 전처리, 트러블슈팅

권장 구성 요약

단계권장 도구/전략이유
토크나이저Kiwi + KSS 조합형태소 분석 + 문장 분리
청킹Recursive + 한국어 구분자종결어미 기반 자연스러운 분절
임베딩multilingual-e5-large-instructDatabricks 기본 제공, 한영 혼용 지원
검색Hybrid (Kiwi BM25 + Vector)키워드 + 의미 검색 결합
재정렬bge-reranker-v2-m3다국어 Reranker, 한국어 지원