Human Approval
인간 승인
고비용·고위험·고영향 의사결정은 인간 승인 흐름 안에 둔다.
Context
에이전트의 자율 실행 범위가 넓어질수록 고비용 작업, 되돌리기 어려운 변경, 외부에 영향을 미치는 결정이 자동으로 실행될 위험이 있다. 모든 것을 승인받으면 병목이 되고, 아무것도 승인받지 않으면 사고가 발생한다.
Problem
인간 승인 지점이 정의되지 않으면 에이전트가 고위험 작업을 자율 실행하거나, 반대로 사소한 작업까지 승인을 요청해 전체 흐름이 멈춘다. 승인 기준이 암묵적이면 에이전트마다 다른 판단을 하게 되고, 감사 추적도 불가능해진다.
Forces
- 승인 지점이 많으면 안전하지만 처리 속도가 느려지고, 적으면 빠르지만 위험이 커진다.
- 비동기 승인은 흐름을 덜 막지만 대기 시간이 길어질 수 있고, 동기 승인은 즉시 반영되지만 병목이 된다.
- 자동 승인 규칙을 도입하면 효율적이지만, 규칙이 잘못되면 위험한 작업이 통과할 수 있다.
Solution
비용, 위험도, 영향 범위 기준으로 승인이 필요한 작업을 명시적으로 분류한다. 저위험 작업은 자동 승인, 중위험은 사후 검토, 고위험은 사전 승인으로 단계를 나눈다. 승인 흐름은 에이전트의 실행 루프에 내장하되, 승인 대기 중에도 다른 작업을 계속할 수 있는 비동기 구조를 기본으로 한다. 모든 승인 이벤트는 로그에 남긴다. 승인 판단의 분류 기준으로 Anthropic의 [Claude Code Auto Mode]에서 제시된 네 가지 위협 유형을 참고할 수 있다: (1) 과잉 행동(overeager) — 목표는 달성하지만 허용 범위를 초과, (2) 정직한 실수(honest mistakes) — 리소스 범위나 소유권 오해, (3) 프롬프트 인젝션 — 도구 출력에 심어진 악의적 지시, (4) 모델 정렬 오류 — 독립적 목표 추구. 분류기는 보수적 기본값을 적용해 '에이전트가 자율적으로 선택한 모든 것은 사용자가 명시적으로 허용하기 전까지 미승인'으로 취급한다.
판단 질문
언제 에이전트가 멈추고 사람에게 넘겨야 하는가?
적용 시나리오
예시 시나리오 — 본 페이지의 수치와 기업명은 패턴 설명을 위한 가상 사례이며, 실측 데이터가 아닙니다.
고객 상담 시스템의 승인 분류 매트릭스: 저위험(자동 승인) — 일반 문의 응답, FAQ 안내, 배송 상태 조회. 중위험(사후 검토) — 10만원 이하 부분 환불, 쿠폰 발급, 배송지 변경. 고위험(사전 승인) — 10만원 초과 전액 환불, 계약 해지, 법적 책임 언급, 경쟁사 비교 발언. Escalation Agent가 고위험으로 분류하면 응답 초안과 근거를 함께 승인 큐에 넣고, 승인 대기 중에도 다른 문의를 계속 처리한다. 승인/거절 결과와 사유는 모두 로그에 남아 분류 기준의 정기 검토 데이터가 된다.
이렇게 하면 무너진다
승인 기준 없이 운영하면 에이전트가 전액 환불을 자동 처리하거나, 법적 책임을 시인하는 응답을 보내는 사고가 발생한다. 반대로 모든 응답에 승인을 요구하면 처리 시간이 평균 2시간에서 8시간으로 늘어나 고객 이탈률이 급증한다. 암묵적 기준에 의존하면 주간 팀과 야간 팀의 승인 판단이 달라져 일관성이 무너진다.
구현 패턴 연결
- Human-in-the-Loop
비동기 승인 큐와 승인/거절 콜백이 핵심 구현 요소. 승인 대기 중에도 다른 작업을 계속하는 비동기 구조를 기본으로 한다.
Academic References
- Practices for Governing Agentic AI Systems — OpenAI
- Model AI Governance Framework for Agentic AI — IMDA (Singapore)