RAG 핵심 개념 사전 - Databricks 가이드

이 섹션은 RAG(Retrieval-Augmented Generation)를 구성하는 핵심 알고리즘과 개념을 깊이 있게 설명합니다. 각 개념 페이지는 “왜 필요한가”부터 시작하여, 역사적 맥락, 동작 원리, 수식 해석, 실무 적용까지 단계적으로 다룹니다.

이 섹션의 목적

RAG 파이프라인은 여러 기술의 조합입니다. 각 기술이 왜 존재하는지, 내부에서 무슨 일이 일어나는지 를 정확히 이해해야 문제가 생겼을 때 원인을 진단하고 올바른 튜닝 포인트를 찾을 수 있습니다. 이 섹션은 각 개념을 독립 페이지 로 분리하여 충분한 깊이로 설명합니다.

참고 읽는 순서: 위에서 아래로 순서대로 읽는 것을 권장합니다. 각 개념은 이전 개념을 기반으로 설명됩니다. 예를 들어, “유사도 측정”은 “임베딩”을 이해한 상태에서 읽어야 합니다.

개념 목록

#	개념	한 줄 설명	페이지
1	임베딩 (Embedding)	텍스트를 의미를 담은 숫자 벡터로 변환하는 기술	embedding.md
2	유사도 측정 (Similarity)	두 벡터가 얼마나 비슷한지 수학적으로 측정하는 방법	similarity.md
3	벡터 인덱스 & ANN	수백만 벡터에서 밀리초 안에 유사 벡터를 찾는 자료 구조	vector-index.md
4	BM25 & 키워드 검색	단어 빈도와 희소성 기반의 고전적이지만 강력한 검색 알고리즘	bm25.md
5	하이브리드 검색 & RRF	Dense + Sparse 검색을 결합하여 서로의 약점을 보완	hybrid-search.md
6	Re-ranking	1차 검색 결과를 정교한 모델로 재정렬하여 정밀도를 높이는 기법	reranking.md

이 섹션에서 다루지 않는 개념

아래 개념들은 별도 페이지에서 더 깊이 다룹니다:

청킹 (Chunking): 청킹 전략 페이지 참고
토크나이저 & 한국어 처리: 한국어 RAG 최적화 페이지 참고
프롬프트 엔지니어링: RAG 체인 구축 페이지 참고
평가 메트릭: RAG 평가 페이지 참고

용어 빠른 참조

용어	한 줄 요약
벡터	임베딩의 결과물, 다차원 숫자 배열
코사인 유사도	두 벡터의 각도로 유사성 측정
ANN / HNSW	수백만 벡터에서 빠르게 유사한 것을 검색
BM25	키워드 빈도 기반 텍스트 검색
RRF	서로 다른 검색 결과를 순위 기반으로 결합
Cross-encoder	질문+문서를 함께 입력하여 정밀하게 관련성 평가

다음 단계: 개념을 이해했다면, 데이터 준비부터 시작하여 실제 RAG 파이프라인을 구축해보세요.

​이 섹션의 목적

​개념 목록

​이 섹션에서 다루지 않는 개념

​용어 빠른 참조

이 섹션의 목적

개념 목록

이 섹션에서 다루지 않는 개념

용어 빠른 참조