이 섹션은 RAG(Retrieval-Augmented Generation)를 구성하는 핵심 알고리즘과 개념을 깊이 있게 설명합니다. 각 개념 페이지는 “왜 필요한가”부터 시작하여, 역사적 맥락, 동작 원리, 수식 해석, 실무 적용까지 단계적으로 다룹니다.
이 섹션의 목적
RAG 파이프라인은 여러 기술의 조합입니다. 각 기술이 왜 존재하는지, 내부에서 무슨 일이 일어나는지 를 정확히 이해해야 문제가 생겼을 때 원인을 진단하고 올바른 튜닝 포인트를 찾을 수 있습니다. 이 섹션은 각 개념을 독립 페이지 로 분리하여 충분한 깊이로 설명합니다.참고 읽는 순서: 위에서 아래로 순서대로 읽는 것을 권장합니다. 각 개념은 이전 개념을 기반으로 설명됩니다. 예를 들어, “유사도 측정”은 “임베딩”을 이해한 상태에서 읽어야 합니다.
개념 목록
| # | 개념 | 한 줄 설명 | 페이지 |
|---|---|---|---|
| 1 | 임베딩 (Embedding) | 텍스트를 의미를 담은 숫자 벡터로 변환하는 기술 | embedding.md |
| 2 | 유사도 측정 (Similarity) | 두 벡터가 얼마나 비슷한지 수학적으로 측정하는 방법 | similarity.md |
| 3 | 벡터 인덱스 & ANN | 수백만 벡터에서 밀리초 안에 유사 벡터를 찾는 자료 구조 | vector-index.md |
| 4 | BM25 & 키워드 검색 | 단어 빈도와 희소성 기반의 고전적이지만 강력한 검색 알고리즘 | bm25.md |
| 5 | 하이브리드 검색 & RRF | Dense + Sparse 검색을 결합하여 서로의 약점을 보완 | hybrid-search.md |
| 6 | Re-ranking | 1차 검색 결과를 정교한 모델로 재정렬하여 정밀도를 높이는 기법 | reranking.md |
이 섹션에서 다루지 않는 개념
아래 개념들은 별도 페이지에서 더 깊이 다룹니다:- 청킹 (Chunking): 청킹 전략 페이지 참고
- 토크나이저 & 한국어 처리: 한국어 RAG 최적화 페이지 참고
- 프롬프트 엔지니어링: RAG 체인 구축 페이지 참고
- 평가 메트릭: RAG 평가 페이지 참고
용어 빠른 참조
| 용어 | 한 줄 요약 |
|---|---|
| 벡터 | 임베딩의 결과물, 다차원 숫자 배열 |
| 코사인 유사도 | 두 벡터의 각도로 유사성 측정 |
| ANN / HNSW | 수백만 벡터에서 빠르게 유사한 것을 검색 |
| BM25 | 키워드 빈도 기반 텍스트 검색 |
| RRF | 서로 다른 검색 결과를 순위 기반으로 결합 |
| Cross-encoder | 질문+문서를 함께 입력하여 정밀하게 관련성 평가 |
다음 단계: 개념을 이해했다면, 데이터 준비부터 시작하여 실제 RAG 파이프라인을 구축해보세요.