Claude Code의 1M 토큰 컨텍스트(2026년 3월 정식 출시)는 멀티에이전트 세션이 중간에 잘리는 문제를 사실상 해결합니다. 하지만 컨텍스트가 커진다고 에이전트가 알아서 잘 돌아가는 건 아닙니다. CLAUDE.md 설계, 에이전트 역할 분리, /loop + /voice 같은 최신 커맨드 조합이 실제 생산성 차이를 만듭니다.

이 글이 필요한 사람
- Claude Code를 매일 쓰는데 “이게 맞나?” 싶은 개발자/파워유저
- 옵시디언 볼트에 에이전트를 연결하려고 삽질 중인 사람
- 100만 토큰 컨텍스트가 실제로 뭘 바꾸는지 궁금한 사람
- morning-briefing, blog-pipeline 같은 팀 에이전트를 직접 짜보고 싶은 사람
100만 토큰, 진짜 뭐가 달라졌나
솔직히 말하면, 처음엔 숫자 마케팅인 줄 알았다.
200K도 쓰다 보면 충분하던데. 근데 멀티에이전트 세션을 좀 길게 돌려보면 바로 체감이 온다.
Claude Code로 blog-pipeline 에이전트 하나를 돌리면 그 안에서 리서처, 라이터, 리뷰어가 순차적으로 실행된다. 각 에이전트가 컨텍스트를 받아서 처리하고 다음 에이전트에게 넘기는 구조다. 200K 창에서는 이 과정이 20-30분이면 컨텍스트를 80-90% 채워버린다. 그 순간부터 AI가 “기억 조각 맞추기”를 시작하는데, 이때부터 결과물 품질이 눈에 띄게 떨어진다.
1M 창이 생기면서 뭐가 바뀌었냐면, 에이전트가 중간에 “리셋” 안 하고 전체 맥락을 끝까지 들고 있을 수 있게 됐다.
앤트로픽 공식 발표 기준: MRCR v2 벤치마크에서 1M 토큰 기준 78.3% 정확도. 쉽게 말하면 100만 토큰짜리 대화 안에서 앞뒤 맥락 연결을 80% 정도 정확히 유지한다는 얘기다.
그리고 중요한 게 하나 더 있다. 추가 비용이 없다. Opus 4.6 기준 입력 $5 / 출력 $25 per M tokens. 900K 토큰을 쓰든 9K를 쓰든 단가는 동일하다. Max, Team, Enterprise 플랜은 기본 적용이고, API 쓰는 사람은 베타 헤더 없이 그냥 된다.
내가 실제로 구축한 에이전트 워크플로
옵시디언 볼트를 에이전트의 장기 기억으로 쓰는 구조다. 볼트 안에 .claude/ 폴더를 만들고, 거기에 에이전트 정의 파일들을 관리한다.
큰 그림은 이렇다:
옵시디언 볼트 (.claude/) ├── agents/ ← 에이전트 정의 md 파일들 │ ├── morning-briefing-team.md │ ├── blog-pipeline-team.md │ └── trading-coach.md ├── skills/ ← 단위 작업 스킬 │ ├── crypto-analyzer/ │ └── blog-reviewer/ ├── MEMORY/ ← 3-tier 메모리 │ ├── hot/ ← 오늘의 상태 │ ├── warm/ ← 패턴, 관점 │ └── cold/ ← 이력 └── CLAUDE.md ← 전체 시스템 지시서
CLAUDE.md가 핵심이다
CLAUDE.md는 Claude Code가 매 세션 시작 때 자동으로 읽는 파일이다. 쉽게 말하면 “출근 첫 날 주는 인수인계서”다.
여기다가 뭘 써야 하냐면, 볼트 구조, 에이전트 목록, 작업 원칙, 메모리 참조 방식을 적는다. 그러면 새 세션을 열 때마다 AI가 “아, 내가 이 팀의 블로그 에이전트구나”를 바로 인식한다.
중요한 건 지나치게 길면 안 된다는 점이다. CLAUDE.md가 너무 길면 AI가 그걸 파싱하는 데만 컨텍스트 예산을 쓴다. 실제로 돌려보면 300줄 이상은 체감 성능이 떨어지기 시작한다. 핵심만 100-150줄로 압축하고, 나머지는 .claude/rules/에 분리하는 게 맞다.
morning-briefing-team 실전 구조
매일 아침 자동으로 시황, 뉴스, 블로그 아이디어를 정리해주는 팀 에이전트다. 실제 사용 중인 구조를 보여주면:
오케스트레이터(morning-briefing-team.md) → 3개 서브에이전트 병렬 실행:
news-analyst: 오늘의 AI/테크 뉴스 수집 + 요약market-checker: BTC/ETH 시황 + 트레이딩 적합도blog-scout: 트렌딩 주제 수집 + blog-ideas.md 업데이트
이 3개를 순차로 돌리지 않고 병렬로 돌리는 게 포인트다. Claude Code의 Task 시스템이 각 서브에이전트를 독립 컨텍스트 창에서 실행하기 때문에, 세 개를 동시에 돌려도 서로 간섭이 없다.
실제 실행 시간은 순차 대비 약 60% 단축. 매일 아침 루틴이 15분에서 6분으로 줄었다.
blog-pipeline-team 실전 구조
이게 제일 복잡하고 제일 많이 썼다. 글감 하나를 입력하면 리서치 → 작성 → 검증 → 저장까지 자동으로 처리한다.
@blog-pipeline-team {주제}
↓
Phase 1: blog-researcher (haiku) - 웹 검색 + 볼트 참조
↓
Phase 2: blog-writer (opus 4.6) - 완성 글 작성
↓
Phase 3: blog-reviewer (haiku) - PASS/REVISE/FAIL 판정
↓
Phase 4: 파일 저장 + SNS 포스트 생성
여기서 각 에이전트가 자기 역할에 맞는 모델을 쓴다. 리서처와 리뷰어는 haiku(빠르고 저렴), 라이터는 opus 4.6(품질 우선). 이 조합 하나로 글 한 편당 비용이 약 $0.8-1.2 선이다.
trading-coach 활용 방식
BTC 분석할 때 쓰는 에이전트인데, 이쪽은 좀 다른 접근이다.
MEMORY/warm/my-crypto-perspective.md에 내 장기 투자 관점(엘리엇 파동 기준, 월봉 우선, 단기 노이즈 무시)을 저장해두고, trading-coach가 매번 이걸 읽고 분석한다. 그러면 AI가 “단기 조정인데 장기 관점 유지”처럼 내 기존 맥락에 맞는 판단을 한다.
100만 토큰 창이 여기서도 효과를 발휘한다. 과거 분석 30개를 전부 컨텍스트에 넣고 “이번 패턴이 이전 XX월 패턴과 유사한가”를 물어볼 수 있다. 200K 창에서는 불가능했던 질문이다.
실수 TOP 5 – 이거 겪고 나서야 제대로 됐다
1. 에이전트를 너무 세분화했다
처음에 에이전트를 20개 넘게 만들었다. “전문화가 곧 품질”이라고 생각했는데, 실제로는 오케스트레이터가 각 에이전트를 호출하는 오버헤드가 더 컸다.
지금은 10개로 줄였고, 단순 반복 작업은 에이전트 대신 스킬(skill)로 처리한다. 에이전트는 판단이 필요한 곳에만 쓴다.
2. CLAUDE.md에 모든 걸 때려넣었다
CLAUDE.md가 500줄이었던 시절이 있다. 그때 AI가 복잡한 작업을 지시하면 자꾸 앞에 나온 규칙을 잊어버렸다. 당연하다, 자기 지시서 읽는 데 토큰을 다 쓴 거다.
핵심 원칙만 100줄로 압축하고, 채널별 규칙은 .claude/rules/에 분리했다. 성능이 눈에 띄게 개선됐다.
3. 리뷰어를 작성자와 같은 에이전트로 썼다
blog-writer가 쓴 글을 blog-writer가 검토하면 당연히 눈에 가리는 부분이 생긴다. “쓰는 사람과 검증하는 사람은 달라야 한다”는 원칙을 지키면서 품질이 훨씬 좋아졌다.
지금은 writer는 opus, reviewer는 haiku를 쓰고 역할을 완전히 분리했다.
4. 메모리를 안 썼다
처음에는 매 세션마다 AI에게 맥락을 다시 설명했다. 지금 생각하면 엄청난 낭비였다.
MEMORY 시스템을 세 단계로 나눴다. hot(오늘 상태), warm(패턴/관점), cold(이력). 세션 시작 때 hot 파일만 읽으면 AI가 “어제 어디까지 했고, 지금 뭘 해야 하는지”를 바로 안다.
5. 병렬 실행을 몰랐다
초기엔 서브에이전트를 순서대로 하나씩 불렀다. Claude Code의 Task 시스템이 병렬 실행을 지원하는 걸 뒤늦게 알았다. 독립적인 작업(리서치 + 시황 + 아이디어 수집)은 병렬로 돌리면 실행 시간이 절반에서 3분의 1로 줄어든다.
2026년 3월 최신 기능 – 실제로 써보니
/loop 커맨드 (2026-03-07 추가)
사용법이 단순하다: /loop 5m check the deploy
5분마다 특정 명령을 자동 실행한다. 나는 이걸 블로그 아이디어 모니터링에 쓴다. 트렌드를 30분마다 체크해서 blog-ideas.md를 자동 업데이트하는 루프를 돌린다.
장기 작업(컴파일, 테스트, 데이터 수집)의 완료 여부를 AI에게 모니터링 시키는 용도로도 좋다.
/voice 커맨드 (2026-03-03 롤아웃 중)
스페이스바를 눌러 말하고 놓으면 전송. 기술 용어 최적화 트랜스크립션이 들어가 있어서 “Claude Code”, “Obsidian”, “MCP” 같은 단어를 꽤 정확하게 인식한다.
아직 5% 사용자에게만 롤아웃 중이라 전부 쓸 수 있는 건 아니다. 활성화되면 /voice 입력하면 된다.
실제로 써보니 한 가지 패턴에 제일 유용하다. 생각의 흐름을 끊지 않고 빠르게 지시를 던질 때. 키보드로 긴 프롬프트 타이핑하는 것보다 말하는 게 3.7배 빠르다는 분석도 있는데, 글쓰기 작업 지시할 때 체감이 가장 크다.
Agent Teams (2026-02-05 실험적 기능)
기존 서브에이전트와의 차이를 먼저 짚자.
- 서브에이전트: 오케스트레이터가 일을 쪼개서 던지고 결과를 받음. 각 서브는 독립 창.
- 에이전트 팀: 팀원 인스턴스들이 서로 직접 대화 가능. 한 에이전트가 다른 에이전트의 판단을 실시간으로 반영.
blog-pipeline에서 쓰자면, reviewer가 writer에게 실시간으로 “이 섹션 다시 써줘”를 보내고, writer가 그걸 바로 반영하는 구조가 가능해진다. 지금은 실험적 기능이라 안정성이 아직 검증 중이다.
핵심 결론 – 1M 토큰이 바꾼 것과 안 바꾼 것
| 항목 | 200K 이전 | 1M 이후 |
|---|---|---|
| 멀티에이전트 세션 지속 시간 | 20-30분 후 품질 저하 | 시간 제한 실질적으로 해소 |
| 과거 분석 참조 | 최근 5-10개 정도 | 30-50개 전부 가능 |
| 추가 비용 | 장기 컨텍스트 할증 있었음 | 없음 (단가 동일) |
| 코드베이스 규모 | 50K 줄 이상은 분할 필요 | 대규모 코드베이스 단일 창 가능 |
1M 토큰이 바꾸지 못한 것도 있다. AI가 판단하는 능력 자체가 바뀌진 않는다. 컨텍스트가 크다고 더 똑똑해지는 게 아니라, 더 많은 정보를 기반으로 판단하게 된다는 차이다.
그리고 여전히 CLAUDE.md 설계, 에이전트 역할 분리, 메모리 시스템 없이 그냥 컨텍스트만 크면 느린 AI 한 마리 키우는 것과 다름없다.
에이전트 워크플로 구축 체크리스트
[ ] CLAUDE.md 100-150줄로 압축 완료 [ ] 에이전트 역할 명확히 분리 (판단 vs 실행) [ ] writer != reviewer 원칙 적용 [ ] 병렬 실행 가능한 태스크 확인 [ ] MEMORY 3-tier (hot/warm/cold) 세팅 [ ] /loop 활용 가능한 반복 작업 목록 작성 [ ] 스킬과 에이전트 역할 구분 완료
FAQ
Q. 100만 토큰을 전부 채워서 써도 비용이 같나요? A. 네. 2026년 3월 기준 Opus 4.6 입력 $5 / 출력 $25 per M tokens 단일 요금. 장기 컨텍스트 할증 없앴습니다. Max/Team/Enterprise 플랜 기본 포함.
Q. 옵시디언 없어도 이런 워크플로 만들 수 있나요? A. 가능합니다. 볼트가 핵심이 아니라 CLAUDE.md + MEMORY 디렉토리 구조가 핵심입니다. 어떤 로컬 폴더든 같은 방식으로 만들 수 있습니다.
Q. 서브에이전트랑 에이전트 팀의 차이가 실제로 느껴지나요? A. 서브에이전트는 현재 안정적이고 실전에서 씁니다. 에이전트 팀은 아직 실험적 기능이라 복잡한 작업에는 아직 불안정합니다.
Q. /loop 커맨드는 얼마나 짧은 간격까지 지원하나요? A. 공식 문서 기준으로 분(m) 단위가 최소입니다. 초 단위는 지원하지 않습니다.
Q. haiku로 리뷰어를 쓰면 품질이 나쁘지 않나요? A. 리뷰어는 “판정”이 주 역할이라 haiku로 충분합니다. 팩트 대조, AI 문투 감지, 분량 체크처럼 체크리스트 기반 작업은 haiku가 빠르고 저렴하게 처리합니다. 창의적 글쓰기만 opus가 필요합니다.
공식 출처
- Anthropic 공식 블로그: 1M context is now generally available for Opus 4.6 and Sonnet 4.6
- Claude Code Docs: Create custom subagents
- Claude Code Changelog: code.claude.com/docs/en/changelog
- Anthropic 공식 블로그: When to use multi-agent systems
- Claude API Docs: Context windows
- The Decoder: Anthropic drops the surcharge for million-token context windows