Evaluation and Guardrails

평가와 가드레일

신뢰와 검증OCLS SHARPEN

허용되는 판단과 위험한 판단을 평가 기준과 안전 규칙으로 구분한다.


Context

에이전트가 자율적으로 판단하고 실행하면, 결과의 품질을 사후에 확인하는 것만으로는 부족하다. 시스템이 커질수록 '좋은 실행'과 '위험한 실행'의 기준이 명확하지 않으면 품질 편차가 확대되고, 사고 발생 시 원인 분석이 어려워진다.

Problem

평가 기준이 없으면 에이전트의 출력 품질을 정량적으로 비교할 수 없고, 모듈 교체나 프롬프트 변경의 효과를 측정할 수 없다. 가드레일이 없으면 에이전트가 비용 한도를 초과하거나, 허용되지 않은 외부 API를 호출하거나, 민감한 데이터를 노출하는 등의 위험을 사전에 차단할 방법이 없다.

Forces

  • 평가 기준이 엄격하면 안전하지만 에이전트의 자율성이 제한되고, 느슨하면 위험이 커진다.
  • 사전 가드레일은 위험을 예방하지만 정상 실행을 차단할 수 있고, 사후 평가는 이미 발생한 문제를 되돌리기 어렵다.
  • 자동 평가는 빠르지만 미묘한 품질 차이를 놓칠 수 있고, 인간 평가는 정확하지만 느리다.

Solution

각 에이전트와 모듈에 정량적 평가 기준(성공률, 응답 품질 점수, 비용 효율)과 안전 가드레일(비용 한도, 권한 범위, 금지 동작 목록)을 함께 부여한다. 가드레일은 실행 전에 검증하고, 평가는 실행 후에 수행한다. 평가 결과가 기준 이하이면 자동 알림 또는 실행 중단 정책을 적용한다. 비결정적 에이전트의 평가에서는 pass@k(k번 중 1회 이상 성공 확률)와 pass^k(k번 모두 성공 확률)를 구분해야 한다. 도구적 용도에서는 pass@k가 적합하지만, 고객 대면 서비스에서는 일관성을 요구하는 pass^k가 핵심 지표다. 또한 평가는 capability eval(낮은 통과율, 어려운 과제)과 regression eval(100% 유지, 퇴행 감지)로 이원화한다. Capability eval이 안정적으로 높은 통과율에 도달하면 regression eval로 '졸업'시키고, 이 졸업 시점이 OCLS 루프에서 경계가 안정화된 시그널이 된다.

판단 질문

품질과 리스크를 어떤 기준으로 측정할 것인가?

적용 시나리오

예시 시나리오 — 본 페이지의 수치와 기업명은 패턴 설명을 위한 가상 사례이며, 실측 데이터가 아닙니다.

QA Agent가 Response Agent의 출력을 평가한다. 평가 기준: 응답 관련성 점수 ≥ 0.8, 어조 일관성 ≥ 0.7, 할루시네이션 탐지 = false. 사전 가드레일: 개인정보(주민번호, 카드번호) 포함 시 즉시 차단, 응답 길이 500자 초과 시 요약 요청, 외부 URL 포함 시 허용 도메인 목록 대조. 사후 평가: 일일 응답 품질 분포를 추적해 평균이 0.75 아래로 떨어지면 운영팀에 알림. 이 구조 덕분에 프롬프트를 변경했을 때 품질 변화를 정량적으로 비교할 수 있고, 변경 전후의 A/B 테스트가 가능해진다.

이렇게 하면 무너진다

평가 기준 없이 운영하면 '최근 고객 불만이 늘었는데 원인을 모르겠다'는 상황이 반복된다. 가드레일 없이 운영하면 에이전트가 고객의 카드 번호를 응답에 포함하거나, 존재하지 않는 환불 정책을 안내하는 사고가 사후에야 발견된다. 두 경우 모두 시스템에 대한 신뢰가 빠르게 하락한다.

구현 패턴 연결

  • Generator-Critic
  • Evaluator-Optimizer

생성 에이전트의 출력을 검증 에이전트가 평가하는 구조. 사전 가드레일은 실행 전 차단, 사후 평가는 Generator-Critic 루프로 구현한다.

Academic References

  • Beyond Task Completion: An Assessment Framework for Evaluating Agentic AI Systems — arXiv 2512.12791
  • AI Governance by Design for Agentic Systems — Preprints.org

Related Patterns

  • Module Contract실행 단위의 조건, 권한, 실패 경로를 계약으로 선언한다.
  • Human Approval고비용·고위험·고영향 의사결정은 인간 승인 흐름 안에 둔다.
  • Decision Traceability판단 근거, 선택 사유, 협업 경로를 구조화된 로그로 남긴다.