가드레일이란?
가드레일(Guardrails) 은 AI 에이전트의 입력과 출력에 대한 안전 장치 입니다. 에이전트가 유해한 콘텐츠를 생성하거나, 개인정보를 유출하거나, 허용되지 않은 주제에 대해 답변하는 것을 방지합니다. Databricks의 AI Gateway 를 통해 Model Serving 엔드포인트에 가드레일을 적용할 수 있습니다.💡 비유: 가드레일은 도로의 “안전 가드레일”과 같습니다. 차량(AI)이 도로(허용 범위) 밖으로 나가지 않도록 물리적 장벽을 세우는 것입니다.
AI Gateway 가드레일 개념
AI Gateway는 Model Serving 엔드포인트 앞에 위치하는 프록시 계층 으로, 모든 요청과 응답을 모니터링하고 제어합니다.| 단계 | 구성 요소 | 설명 |
|---|---|---|
| 1 | 사용자 | 요청을 AI Gateway로 전송합니다 |
| 2 | AI Gateway | 모든 요청/응답을 모니터링하고 제어하는 프록시 계층입니다 |
| 3 | 입력 필터 | 사용자 요청을 검사합니다 (Safety, Topic, PII) |
| 4 | Model Serving Endpoint | 에이전트가 요청을 처리합니다 |
| 5 | 출력 필터 | 에이전트 응답을 검사합니다 (Safety, PII, 키워드) |
| 6 | 사용자 | 필터링된 응답을 수신합니다 |
입력 필터 (Input Guardrails)
사용자의 요청이 에이전트에 도달하기 전에 필터링합니다.Safety Filter (안전 필터)
유해하거나 부적절한 콘텐츠를 자동으로 감지하고 차단합니다.| 카테고리 | 설명 |
|---|---|
| 혐오 발언 | 인종, 성별, 종교 등에 대한 차별적 발언입니다 |
| 폭력/자해 | 폭력적 행위나 자해를 조장하는 내용입니다 |
| 성적 콘텐츠 | 부적절한 성적 콘텐츠입니다 |
| 불법 활동 | 불법 행위를 조장하는 내용입니다 |
Topic Filter (주제 필터)
에이전트가 답변해야 할 주제와 답변하지 말아야 할 주제를 명시합니다.| 설정 | 동작 |
|---|---|
valid_topics | 이 목록에 해당하는 주제의 질문만 허용합니다 |
invalid_topics | 이 목록에 해당하는 주제의 질문을 차단합니다 |
💡 valid_topics와 invalid_topics: 둘 다 설정할 수 있으며, invalid_topics에 해당하면 valid_topics에 포함되더라도 차단됩니다.
출력 필터 (Output Guardrails)
에이전트의 응답이 사용자에게 전달되기 전에 필터링합니다.PII 필터 (개인정보 보호)
응답에 포함된 개인식별정보(PII)를 감지하고 처리합니다.| PII behavior | 동작 |
|---|---|
BLOCK | PII가 감지되면 전체 응답을 차단합니다 |
MASK | PII를 마스킹하여 전달합니다 (예: 010-****-5678) |
NONE | PII 감지를 비활성화합니다 |
| PII 유형 | 예시 |
|---|---|
| 이름 | 홍길동 |
| 전화번호 | 010-1234-5678 |
| 이메일 | user@example.com |
| 주소 | 서울시 강남구 … |
| 주민등록번호 | 901015-1234567 |
| 신용카드 번호 | 4532-XXXX-XXXX-1234 |
키워드 필터
특정 키워드가 포함된 응답을 차단합니다.Rate Limiting (속도 제한)
에이전트의 남용을 방지하기 위해 요청 수를 제한합니다.Rate Limit 설정 옵션
| 설정 | 설명 |
|---|---|
calls | 허용되는 최대 요청 수입니다 |
renewal_period | 제한 기간입니다 (minute, hour, day) |
key | 제한 단위입니다 (user: 사용자별, endpoint: 전체) |
전체 설정 예제
가드레일 차단 시 동작
가드레일에 의해 요청이 차단되면, 사용자에게 안전한 기본 응답이 반환됩니다.| 차단 유형 | 반환 응답 예시 |
|---|---|
| Safety 차단 | ”죄송합니다, 해당 요청은 처리할 수 없습니다.” |
| Topic 차단 | ”죄송합니다, 해당 주제에 대해서는 답변을 드리기 어렵습니다.” |
| PII 차단 | ”응답에 민감한 개인정보가 포함되어 전달할 수 없습니다.” |
| Rate Limit | HTTP 429 (Too Many Requests) |
모니터링
가드레일의 활동은 Inference Tables에 자동으로 기록됩니다.정리
| 핵심 개념 | 설명 |
|---|---|
| AI Gateway | Model Serving 앞에 위치하여 요청/응답을 필터링하는 프록시입니다 |
| Safety Filter | 유해하고 부적절한 콘텐츠를 자동으로 감지하고 차단합니다 |
| Topic Filter | 허용/금지 주제를 설정하여 에이전트의 응답 범위를 제한합니다 |
| PII Filter | 개인정보를 감지하여 차단(BLOCK) 또는 마스킹(MASK)합니다 |
| Rate Limiting | 사용자별/엔드포인트별 요청 수를 제한하여 남용을 방지합니다 |