Claude Code에서 돈 새는 패턴 2026 — 비싼 건 모델보다 workflow일 때가 많다

Claude Code 비용을 보면 사람은 보통 모델부터 욕한다.

근데 진짜로 많이 새는 건 모델이 아니라 workflow다.

같은 질문을 여러 번 던지고, 같은 문서를 매번 붙이고, 병렬 세션을 과하게 열고, checkpoint 없이 자동화 루프를 돌리면 비용은 조용히 올라간다.

이 글은 Claude Code에서 돈 새는 패턴을 workflow 기준으로 쪼개서 본다.

이 글이 필요한 사람

  • Claude Code가 왜 자꾸 비싸지는지 감이 안 오는 사람
  • 같은 모델인데도 팀마다 비용 차이가 큰 이유를 찾고 싶은 사람
  • prompt caching과 spend limit을 같이 써야 하는지 궁금한 사람
  • 병렬 세션, long context, 자동화 때문에 비용이 새는 팀
  • “모델 바꾸면 끝”이라고 생각했다가 다시 돌아오는 사람

Quick Answer

Claude Code 비용이 새는 패턴은 대개 다섯 가지다.

  1. static prefix를 매번 새로 보내는 것
  2. 긴 문서와 코드를 통째로 던지는 것
  3. 병렬 세션을 너무 많이 여는 것
  4. checkpoint 없는 자동화 루프를 돌리는 것
  5. 작은 일도 큰 모델로 계속 처리하는 것

그래서 먼저 고칠 것은 모델이 아니라 workflow다.

지금 결론

  • Claude Code는 token이 아니라 workflow에서 먼저 샌다.
  • prompt caching은 반복되는 prefix에 특히 유효하다.
  • spend limit이 없으면 실험비가 생각보다 빨리 커진다.
  • 병렬 세션은 생산성과 비용을 동시에 키운다.
  • 작은 일까지 큰 모델로 처리하면 비용 구조가 무뎌진다.

이번에 공식 문서로 확인한 것

Anthropic 공식 문서에서 확인되는 핵심은 아래다.

  • Claude Code의 평균 비용은 약 $6/dev/day다.
  • 90%의 사용자는 하루 $12 이하라고 안내된다.
  • 팀 사용량은 대체로 $100~200/dev/mo 범위로 설명된다.
  • /cost로 현재 세션 사용량을 볼 수 있다.
  • Anthropic Console에는 workspace spend limits가 있다.
  • prompt caching은 tools, system, messages 순서의 prefix 재사용 구조다.
  • 캐시는 기본 5분이고 1시간 TTL도 제공된다.
  • cache hit는 exact match가 필요하다.
  • prompt caching은 output token 생성 자체에는 영향을 주지 않는다.

이건 꽤 중요한 단서다.

즉, 캐시를 잘 쓰면 반복 계산이 줄고, limit을 잘 걸면 사고가 늦어진다.

아직 직접 검증 안 한 것

우리 팀에서 실제로 얼마나 아끼는지는 문서만 보고선 알 수 없다.

  • static prefix가 몇 번 반복되는지
  • 병렬 세션이 실제로 몇 개까지 돌아가는지
  • cache hit가 얼마나 나는지
  • checkpoint 없는 자동화가 실제로 얼마나 오래 도는지

이건 우리가 직접 봐야 한다.

그래서 이 글은 공식 기능 + 워크플로 감각을 같이 보자는 제안이다.


돈 새는 패턴 5가지

1) static prompt를 매번 다시 보내는 것

이건 가장 흔한 누수다.

매 요청마다 역할 설명, 규칙, 예시, 금지사항을 다시 붙이고 있으면 입력 토큰이 매번 다시 나간다.

Anthropic prompt caching 문서는 이런 반복 prefix를 캐시해서 처리 시간을 줄이고 비용을 낮추는 구조를 제공한다.

증상

  • 같은 system prompt가 반복된다
  • 같은 예시가 여러 번 복사된다
  • 같은 tool 정의가 매번 다시 들어간다

고치는 법

  • static instructions를 앞에 모은다
  • 바뀌는 사용자 입력만 뒤에 둔다
  • cache_control을 설계한다

운영 포인트

캐시는 exact match가 필요하다.

조금씩 바뀌는 프롬프트에는 생각보다 안 먹힌다.

2) 긴 문서와 코드를 통째로 붙이는 것

“혹시 모르니까 다 넣자”는 가장 비싼 습관이다.

긴 로그, 긴 코드베이스, 긴 회의록, 긴 실패 기록을 그대로 붙이면 비용은 당연히 올라간다.

증상

  • 레포 전체를 계속 던진다
  • 로그를 정리하지 않는다
  • 이미 본 파일을 다시 붙인다

고치는 법

  • 필요한 파일만 잘라 넣는다
  • 요약본을 먼저 만든다
  • 분석용 입력과 reference용 입력을 분리한다

운영 해석

비싼 건 모델이 아니라 불필요한 입력이다.

3) 병렬 세션을 너무 많이 여는 것

이건 팀에서 조용히 터진다.

한 작업인데도 메인 세션, 검증 세션, 재현 세션, 정리 세션이 다 따로 돈을 먹는다.

증상

  • 같은 질문을 다른 세션에서 다시 묻는다
  • 검증용이 본 작업보다 많다
  • “잠깐만”이 여러 개로 번진다

고치는 법

  • 세션 역할을 명확히 나눈다
  • 병렬 수를 제한한다
  • 동일 주제는 한 세션에서 끝낸다

실무 기준

병렬은 빠르다. 근데 병렬은 곧 비용이다.

4) checkpoint 없는 자동화 루프

자동화는 좋다.

근데 체크포인트가 없으면 자동화는 곧 지출 루프가 된다.

증상

  • 실패해도 멈추지 않는다
  • 재시도를 계속 한다
  • 애매한 결과를 그대로 다음 단계로 넘긴다

고치는 법

  • 중간 승인 지점을 넣는다
  • 재시도 횟수를 제한한다
  • 실패 시 사람이 개입하는 지점을 정한다

운영 해석

자동화는 알아서 해줘가 아니다.

자동화는 어디서 멈출지 먼저 정하는 일이다.

5) 작은 일도 큰 모델로 처리하는 것

작은 작업까지 항상 큰 모델을 쓰면 비용 구조가 무뎌진다.

증상

  • 태깅도 큰 모델
  • 문장 다듬기도 큰 모델
  • 간단한 확인도 큰 모델

고치는 법

  • 작업 난이도별 모델 계층을 둔다
  • 경량 작업은 경량 모드로 보낸다
  • 큰 모델은 정말 어려운 문제에 남긴다

핵심

큰 모델을 줄이는 게 목적이 아니다.

큰 모델이 꼭 필요한 순간만 남기는 것이 목적이다.


prompt caching은 어디서 먹히나

Anthropic의 prompt caching은 반복되는 static content에 잘 맞는다.

잘 먹히는 경우

  • 동일한 system prompt를 반복한다
  • 예시가 많다
  • 대화가 길다
  • 같은 지시문을 여러 번 재사용한다

잘 안 먹히는 경우

  • 매번 내용이 크게 바뀐다
  • cache breakpoint가 애매하다
  • static prefix가 짧다

기억할 점

  • cache hit는 exact match다
  • cache TTL은 5분 기본, 1시간도 가능하다
  • output token 생성은 줄지 않는다

즉, 캐시는 만능이 아니라 반복되는 구조를 아끼는 기능이다.

15분 워크플로 감사표

반복 구간

  • 같은 프롬프트가 몇 번 반복되나
  • 같은 문서가 몇 번 다시 붙나
  • 같은 결과를 몇 번 다시 확인하나

병렬 구간

  • 세션이 한 작업에 몇 개 필요한가
  • 검증용이 과한가
  • 같은 질문을 다른 세션에서 재탕하나

자동화 구간

  • 실패 시 멈추는가
  • 재시도 제한이 있는가
  • 승인 지점이 있는가

모델 계층

  • 경량 작업에 큰 모델을 쓰는가
  • 더 싼 모드로 내려갈 수 있는가

직접 확인한 것

이번에 문서 기준으로 직접 확인한 것은 아래다.

  • Claude Code는 토큰 기반으로 비용이 쌓인다
  • 평균 비용과 팀 평균 범위가 공식 문서에 있다
  • prompt caching은 prefix 재사용 구조다
  • cache hit는 exact match다
  • Console spend limits가 있다

아직 직접 측정해야 하는 것은 이거다.

  • 우리 팀에서 가장 많이 새는 패턴
  • cache hit율
  • 병렬 세션의 상한
  • checkpoint가 없는 자동화의 실제 비용

실수 TOP

1. 모델만 욕하는 것

workflow가 문제면 모델을 바꿔도 다시 샌다.

2. 캐시를 안 쓰는 것

반복 prefix를 계속 다시 보내면 그냥 돈을 버리는 셈이다.

3. 병렬 세션 무제한

빠른 대신 비싼 구조다.

4. checkpoint 없는 자동화

멈추는 기준이 없으면 그건 자동화가 아니라 비용 루프다.

5. 작은 일에 큰 모델

큰 모델은 기본값이 아니다.

FAQ

Q. prompt caching은 꼭 써야 하나?

반복되는 static prefix가 있으면 가치가 크다.

Q. 캐시가 output token도 줄이나?

아니다. 문서상 output token 생성에는 영향을 주지 않는다.

Q. Claude Code 비용은 어떻게 먼저 보나?

/cost, Console spend limit, 팀 평균 범위를 같이 본다.

Q. workflow 비용을 어떻게 줄이나?

반복 프롬프트를 줄이고, 병렬 세션을 제한하고, checkpoint를 넣는다.

Q. 모델 교체는 언제 해야 하나?

workflow를 손봐도 품질이 계속 부족할 때다.

다음에 읽을 글

  • Claude Code 팀 예산 짜는 법 2026 — seat·token·실험비를 따로 잡아야 덜 터진다
  • AI 코딩 답변이 너무 길 때 2026 — 모델 교체보다 출력 정책을 먼저 손봐야 하는 이유
  • 유료 AI 구독 전에 Playground와 Console에서 먼저 확인할 5가지 2026 — 팀 도입 전 감 잡는 법

공식 자료