Cost Control

비용 통제

협업과 조율OCLS LAYER

토큰 예산, 모델 선택, 호출 빈도를 구조적으로 관리하여 비용 곡선을 통제한다.


Context

에이전틱 AI 시스템은 사용량에 비례하여 토큰 비용이 발생한다. 전통적 소프트웨어의 고정 인프라 비용과 달리, 에이전트의 추론 횟수, 컨텍스트 길이, 모델 선택에 따라 비용이 수십 배 차이 난다. 시스템이 확장될수록 비용 최적화 없이는 ROI를 달성할 수 없다.

Problem

비용 통제 구조가 없으면 에이전트가 불필요하게 고비용 모델을 호출하거나, 동일한 입력에 반복 추론을 수행하거나, 컨텍스트를 과도하게 전달하여 비용이 기하급수적으로 증가한다. 에이전트별·모듈별 비용 귀속이 안 되면 어디서 비용이 발생하는지 파악할 수 없고, 최적화 대상을 특정할 수 없다.

Forces

  • 고품질 모델을 쓰면 정확도가 높지만 비용이 크고, 경량 모델을 쓰면 비용은 줄지만 품질 저하 위험이 있다.
  • 캐시를 적극 활용하면 비용이 줄지만 신선도가 떨어지고, 항상 새로 추론하면 비용이 늘지만 최신 결과를 얻는다.
  • 에이전트별 예산을 엄격히 제한하면 비용은 통제되지만 중요한 추론이 차단될 수 있다.

Solution

비용 통제를 세 단계로 구조화한다. 첫째, 경로별 모델 선택 — 고위험 결정 경로에는 고성능 모델, 분류·필터링 같은 저위험 경로에는 경량 모델을 배정한다. 둘째, 에이전트별 예산 할당 — 각 에이전트와 모듈에 토큰 예산을 부여하고, 사용량을 실시간 추적하며, 예산 소진 시 경량 모델로 폴백하거나 인간에게 에스컬레이션한다. 셋째, 캐시·배치 전략 — 동일한 입력 패턴에 대한 결과를 캐시하고, 비동기 가능한 작업은 배치 처리하여 호출 횟수를 줄인다. 비용 데이터는 OCLS SHARPEN 루프의 핵심 입력이 되어, 비용 이상이 감지되면 모델 배정과 예산 경계를 재조정한다.

판단 질문

이 추론에 이 모델이 정말 필요한가?

적용 시나리오

예시 시나리오 — 본 페이지의 수치와 기업명은 패턴 설명을 위한 가상 사례이며, 실측 데이터가 아닙니다.

고객 상담 시스템에서 초기에는 모든 에이전트가 동일한 고성능 모델을 사용했다. 문의량이 10배 증가하자 월 비용이 예산의 3배를 초과했다. 분석 결과, Intake Agent(분류)가 전체 토큰의 40%를 소비하지만 경량 모델로도 분류 정확도 95%를 유지할 수 있었다. Response Agent는 고성능 모델을 유지하되, 자주 묻는 질문에는 캐시된 응답 템플릿을 적용했다. QA Agent는 전수 검사 대신 샘플링 기반 검사로 전환했다. 결과적으로 비용을 60% 절감하면서 품질 지표는 유지되었다.

이렇게 하면 무너진다

비용 추적 없이 운영하면 '이번 달 비용이 왜 2배가 되었는가'에 답할 수 없다. 모든 에이전트에 동일 모델을 사용하면 단순 분류에도 고비용 추론이 발생하고, 캐시 전략이 없으면 동일 질문에 매번 새로운 토큰을 소비한다. 예산 한도가 없으면 트래픽 급증 시 비용이 무제한으로 증가한다.

구현 패턴 연결

  • Token Budget Management
  • Model Routing

경로별 모델 선택(고위험=고성능, 저위험=경량), 에이전트별 토큰 예산 할당, 캐시·배치 전략을 결합하여 비용 곡선을 통제한다.

Academic References

  • Practices for Governing Agentic AI Systems — OpenAI
  • The Rise of Agentic AI: Architectures, Taxonomies, and Evaluation Metrics — Future Internet (MDPI)

Related Patterns

  • Module Contract실행 단위의 조건, 권한, 실패 경로를 계약으로 선언한다.
  • Evaluation and Guardrails허용되는 판단과 위험한 판단을 평가 기준과 안전 규칙으로 구분한다.