Cost Control
비용 통제
토큰 예산, 모델 선택, 호출 빈도를 구조적으로 관리하여 비용 곡선을 통제한다.
Context
에이전틱 AI 시스템은 쓰는 만큼 토큰 비용이 붙는다. 전통적 소프트웨어의 고정 인프라 비용과 달리 에이전트의 추론 횟수, 컨텍스트 길이, 모델 선택에 따라 비용이 수십 배까지 벌어진다. 시스템이 커질수록 비용을 최적화하지 않고는 ROI를 낼 수 없다.
Problem
비용 통제 구조가 없으면 에이전트가 굳이 고비용 모델을 부르거나 같은 입력에 추론을 거듭하거나 컨텍스트를 잔뜩 넘겨 비용이 눈덩이처럼 불어난다. 에이전트별·모듈별 비용 귀속이 안 되면 어디서 비용이 새는지 알 수 없고 최적화 대상도 짚어낼 수 없다.
Forces
- 고품질 모델을 쓰면 정확도는 높지만 비용이 크고, 경량 모델을 쓰면 비용은 줄지만 품질이 떨어질 위험이 있다.
- 캐시를 적극 쓰면 비용은 줄지만 신선도가 떨어지고, 늘 새로 추론하면 비용은 늘지만 최신 결과를 얻는다.
- 에이전트별 예산을 빡빡하게 묶으면 비용은 잡히지만 중요한 추론까지 막힐 수 있다.
Solution
비용 통제를 세 단계로 짠다. 첫째는 경로별 모델 선택이다. 고위험 결정 경로에는 고성능 모델을, 분류·필터링 같은 저위험 경로에는 경량 모델을 배정한다. 둘째는 에이전트별 예산 할당이다. 각 에이전트와 모듈에 토큰 예산을 주고 사용량을 실시간으로 따라가며, 예산이 바닥나면 경량 모델로 폴백하거나 인간에게 에스컬레이션한다. 확장 사고(extended thinking)를 쓰는 모델에서는 thinking 토큰을 별도 예산 항목으로 추적해 '깊게 생각하는 비용'이 어디서 나는지 드러낸다. 셋째는 캐시·배치 전략이다. 자주 재사용하는 시스템 프롬프트·도구 정의·긴 참조 문서는 prompt caching으로 고정한다. 캐시는 접두 일치(prefix match)로 동작하므로 캐시 대상 블록을 프롬프트 앞쪽에 안정적으로 배치하고 가변 입력은 그 뒤에 둔다. 캐시가 적중하면 해당 입력 토큰 비용이 기본가의 약 1/10 수준으로 떨어지고 지연도 함께 준다. 비동기로 돌릴 수 있는 작업은 배치로 묶어 호출 횟수를 줄인다. 비용 데이터는 OCLS SHARPEN 루프의 핵심 입력이 되어, 비용 이상이 잡히면 모델 배정과 예산 경계를 다시 조정한다.
판단 질문
이 추론에 이 모델이 정말 필요한가?
적용 시나리오
예시 시나리오 — 본 페이지의 수치와 기업명은 패턴 설명을 위한 가상 사례이며, 실측 데이터가 아닙니다.
고객 상담 시스템 초기에는 모든 에이전트가 같은 고성능 모델을 썼다. 문의량이 10배로 뛰자 월 비용이 예산의 3배를 넘겼다. 따져보니 Intake Agent(분류)가 전체 토큰의 40%를 먹는데도 경량 모델로 분류 정확도 95%를 지킬 수 있었다. Response Agent는 고성능 모델을 그대로 두되 자주 묻는 질문에는 캐시된 응답 템플릿을 붙였다. QA Agent는 전수 검사 대신 샘플링 검사로 바꿨다. 그 결과 비용을 60% 줄이면서도 품질 지표는 그대로 지켰다.
이렇게 하면 무너진다
비용 추적 없이 운영하면 '이번 달 비용이 왜 2배가 됐는가'에 답할 수 없다. 모든 에이전트에 같은 모델을 쓰면 단순 분류에도 고비용 추론이 붙고, 캐시 전략이 없으면 같은 질문에 매번 새 토큰을 태운다. 프롬프트 앞부분에 타임스탬프나 무작위 ID를 넣어 prompt cache 접두부를 호출마다 무효화하면 캐싱 이점을 통째로 잃는다. 예산 한도가 없으면 트래픽이 몰릴 때 비용이 끝없이 불어난다.
구현 패턴 연결
- Token Budget Management
- Model Routing
경로별 모델 선택(고위험=고성능, 저위험=경량), 에이전트별 토큰 예산 할당, 캐시·배치 전략을 묶어 비용 곡선을 통제한다.
Academic References
- Practices for Governing Agentic AI Systems — OpenAI
- The Rise of Agentic AI: Architectures, Taxonomies, and Evaluation Metrics — Future Internet (MDPI)