모델이 좋아졌다는 말은 이제 너무 흔하다.
프롬프트 잘 쓰라는 말도 너무 많이 들었다.
근데 실무에서 에이전트를 붙여 보면 사람을 제일 빨리 지치게 하는 건 모델의 IQ가 아니라 운영 장치가 허술한 상태다.
똑같은 프롬프트를 써도
- 어떤 팀은 하루 종일 잘 굴리고
- 어떤 팀은 반나절 만에 비용, 권한, 재작업으로 멘탈이 나간다
여기서 차이를 만드는 게 하네스다.
Anthropic도 장기 애플리케이션 개발 실험을 이야기할 때 모델 한 번 잘 부르는 법보다 context management, tool control, evaluator, retry loop 같은 주변 장치를 더 길게 설명한다.
실무에서는 이게 더 중요하다.
프롬프트는 좋으면 한 번 잘 된다. 하네스는 덜 망가진 채로 계속 굴러가게 한다.
핵심 요약
AI 코딩 에이전트 운영에서 프롬프트보다 하네스가 더 중요해지는 이유는,
팀이 실제로 터지는 지점이말을 어떻게 걸었나보다
어디까지 권한을 줬나,어떻게 검증하나,실패했을 때 어떻게 복구하나에 있기 때문이다.
개인 실험 단계에선 프롬프트가 체감이 크지만,
팀 운영 단계에선 하네스가 성능 상한선보다 사고 하한선을 정한다.
이런 상황에 맞다
- Claude Code, Codex, OpenCode 같은 도구를 붙였는데 결과 편차가 큰 사람
- 프롬프트를 계속 고치는데 운영 피로도는 그대로인 팀
- 에이전트가 잘할 때는 빠른데 한 번 삐끗하면 수습이 너무 오래 걸리는 사람
- 권한 제어, 평가 루프, 복구 기준을 문서가 아니라 기분으로 굴리고 있는 사람
- 이제는
한 번 잘 되는 데모보다매일 덜 망하는 시스템이 필요한 사람
지금 결론
- 프롬프트는 출력 품질을 흔들지만, 하네스는 운영 안정성을 결정한다.
- 팀 운영으로 갈수록 핵심은
권한,평가,복구,로그,분업이 된다. - 하네스가 없으면 좋은 모델도 결국 비용 누수와 재작업 기계가 되기 쉽다.
- 하네스가 있으면 모델이 덜 똑똑해도 팀 전체 생산성이 더 안정적일 수 있다.
- 그래서 실무 경쟁력은 프롬프트 장인보다
에이전트가 망가질 때 덜 크게 망하게 만드는 팀에 있다.
아주 짧게 보면
- 프롬프트는
한 번 잘 되게 하는 법 - 하네스는
계속 덜 망하게 하는 법
개인 장난감 단계에서는 전자가 재밌고, 팀 운영 단계에서는 후자가 돈을 지킨다.
왜 프롬프트보다 하네스가 먼저 문제를 일으키나
실무에서 실제로 많이 터지는 건 이런 것들이다.
- 쓰면 안 되는 파일까지 건드리는 권한 문제
- 잘못된 결과를 그럴듯하게 통과시키는 평가 부재
- 실패 후 어디서 다시 시작해야 하는지 모르는 복구 부재
- 같은 일을 두 번 세 번 반복하는 세션 누수
- 사람이 보기 좋은 답과 시스템이 실행 가능한 답이 섞이는 포맷 혼선
이건 프롬프트를 세 줄 더 깎는다고 해결되지 않는다.
프롬프트로 해결되는 영역
- 답변 톤
- 출력 형식
- 설명 깊이
- 작업 순서 제안
하네스로 해결되는 영역
- 어떤 파일과 도구에 접근 가능한지
- 실패하면 어디서 멈추고 누구에게 넘길지
- 결과를 어떤 기준으로 검증할지
- 비용과 로그를 어떻게 남길지
- 사람용 요약과 실행용 산출물을 어떻게 분리할지
즉, 프롬프트는 말, 하네스는 운영실이다.
권한·평가·복구 루프 5단계
1. 권한 경계부터 정해야 한다
에이전트는 똑똑해서 무서운 게 아니라 열린 문이 많아서 무섭다.
그래서 시작점은 늘 비슷하다.
- 읽어도 되는 범위
- 수정해도 되는 범위
- 절대 건드리면 안 되는 범위
- 사용자 확인이 필요한 범위
이걸 md 설명에만 적어두면 잘 읽는 날은 괜찮고, 안 읽는 날은 사고가 난다.
그래서 하네스는 권한을 문장이 아니라 실행 조건으로도 묶어야 한다.
2. 평가기를 따로 둬야 한다
에이전트가 쓴 결과를 같은 에이전트가 스스로 칭찬하게 두면 생각보다 허술해진다.
평가기에서 최소한 이런 걸 본다.
- 구조 섹션이 다 있는지
- 금지 파일을 건드리지 않았는지
- 공식 출처가 필요한 글에 공식 출처가 있는지
- 숫자 예시가 실제 계산과 맞는지
- 같은 허브 안에서 제목 중복이 심하지 않은지
실무에서는 이 평가기가 있어야 속도가 사고로 안 바뀐다.
3. 복구 지점을 미리 정해야 한다
장기 작업에서 제일 짜증나는 순간은 실패 그 자체보다 다시 어디서 시작해야 하는지 모를 때다.
하네스는 그래서 체크포인트가 필요하다.
- 초안 완료
- 검수 완료
- 발행 직전
- 발행 후 장부 정리
어디서 실패했는지 보이면 거기부터 다시 이어 붙일 수 있다.
없으면 항상 처음부터 다시 하게 된다.
이게 토큰도 태우고 사람도 태운다.
4. 로그는 사람용과 기계용을 나눠야 한다
운영하면서 많이 꼬이는 게 이거다.
사람이 보고 싶은 건 뭐가 왜 실패했고 다음에 뭘 하면 되는지다.
기계가 다시 쓰기 좋은 건 입력, 상태, exit code, diff, checkpoint다.
둘을 한 문서에 다 몰아넣으면 길어지고, 아무도 안 보고, 다음 에이전트도 못 쓴다.
그래서 하네스는
- 사람용 요약 로그
- 기계용 상태 로그
를 나눠야 덜 망한다.
5. 실패했을 때 자동으로 작아져야 한다
좋은 하네스는 실패하면 더 큰 시도를 하지 않는다.
오히려 더 작게 간다.
예를 들면:
- 파일 전체 수정 실패 -> 한 섹션만 수정
- 병렬 작업 충돌 -> 단일 작업으로 축소
- 평가기 불합격 -> 발행 중지 후 review 상태 유지
- 도구 실패 -> 대체 도구나 수동 경로로 전환
이런 축소 전략이 없으면 실패 뒤에 더 큰 실패가 따라온다.
직접 굴리면 어디서 가장 많이 꼬이나
내 체감으로는 프롬프트보다 아래 셋이 더 자주 사람을 괴롭힌다.
1. 프롬프트는 멀쩡한데 권한이 과하다
결과는 좋아 보여도 건드리면 안 되는 파일을 같이 만지는 순간 신뢰가 한 번에 날아간다.
2. 초안은 잘 쓰는데 마감 루프가 없다
리뷰, 발행, 장부 정리 중 어디선가 삐끗하면 팀은 됐나? 안 됐나?를 확인하느라 더 지친다.
3. 실패 로그가 길기만 하고 행동으로 안 이어진다
장문 로그를 남겼는데 다음 액션이 한 줄로 안 나오면 운영자는 그냥 체념한다.
언제는 하네스보다 프롬프트가 더 중요한가
물론 있다.
- 단발성 질문 답변
- 블로그 제목 5개 뽑기
- 비교적 안전한 리서치
- 작은 파일 하나만 다루는 작업
이럴 땐 프롬프트 튜닝 체감이 더 크다.
근데 팀 운영으로 갈수록 이 비중이 줄어든다.
언제는 아예 하네스를 거창하게 안 깔아도 되나
이것도 중요하다.
하네스가 좋다고 모든 작업에 운영실을 지을 필요는 없다.
아래라면 얇게 가는 게 맞다.
- 파일 한두 개만 다룸
- 실패 비용이 낮음
- 사람이 바로 눈으로 검수 가능
- 반복성이 아직 없음
반대로 아래라면 얇게 가면 곧 후회한다.
- 여러 파일을 건드림
- 발행/배포가 걸려 있음
- 재현성이 중요함
- 여러 사람이 같은 시스템을 씀
최소 하네스만 깔아도 체감 큰 조합
1인 운영 기준으로는 보통 이 정도만 있어도 체감이 크다.
| 레이어 | 최소 구성 | 왜 필요한가 |
|---|---|---|
| 권한 | 수정 가능 범위 명시 | 쓸데없는 사고 방지 |
| 평가 | 구조/출처/금지패턴 체크 | 초안 품질 하한선 확보 |
| 상태 | drafting/review/published 같은 체크포인트 | 어디서 멈췄는지 확인 |
| 로그 | 사람용 요약 + 기계용 상태 분리 | 복구 속도 개선 |
| 폴백 | 실패 시 수동 경로 한 개 확보 | 전체 정지 방지 |
이 다섯 개만 있어도 프롬프트만 만질 때보다 운영 피로가 훨씬 줄어든다.
실수 TOP
실수 1. 프롬프트가 곧 시스템이라고 믿는다
한 번 잘 나온 답을 시스템으로 착각하면 다음 실패에서 바로 무너진다.
실수 2. 권한을 너무 늦게 생각한다
결과 품질보다 먼저 봐야 할 게 권한 경계인데, 대부분은 사고 난 뒤에야 본다.
실수 3. 평가기를 안 두고 사람 감에 맡긴다
운 좋을 때는 빠르지만, 팀이 커질수록 편차가 폭발한다.
실수 4. 실패 로그를 장문 수필로 남긴다
읽는 사람도 없고, 다음 액션도 안 나온다.
실수 5. 모든 작업에 거대한 하네스를 깐다
필요한 건 통제지 의전이 아니다.
FAQ
Q. 좋은 프롬프트 하나면 충분한 거 아니야
단발 실험은 그럴 수 있다. 하지만 팀 운영은 실패 복구와 권한 경계가 더 비싸다.
Q. 하네스는 개발팀만 필요한 거야
아니다. 문서 운영, 블로그 발행, 리서치 파이프라인도 다 하네스가 필요하다.
Q. 그럼 모델 성능은 안 중요해
중요하다. 다만 팀 단계에서는 모델 성능보다 운영 안정성이 먼저 병목이 되는 경우가 많다.
Q. 어디부터 손대는 게 가장 체감이 커
권한 경계, 평가 체크, 실패 후 재시작 지점. 보통 이 셋만 잡아도 훨씬 덜 피곤해진다.
Q. 하네스를 너무 무겁게 만들까 봐 걱정돼
그래서 최소 하네스가 중요하다. 작은 작업은 얇게, 반복 작업만 두껍게 가면 된다.
관련 글
- Claude Code 자동화 용어 정리 2026 — Triage·Compound·LLM Wiki·Harness를 어디에 써야 안 겹칠까
- HyperAgents란 무엇인가 2026 — Meta 자기개선 에이전트와 하네스 개념 한 번에 정리
- DGM-H 사용법과 핵심 설정 포인트 2026 — generate_loop, staged eval, parent 선택은 어디서 만지나
참고 자료/공식 출처
- Anthropic Engineering,
Harness design for long-running application development with Claude Code - 내 운영 메모: 블로그 발행/검수/상태체크 파이프라인 실전 경험