솔직히 2026년 1월 28일 발표를 처음 봤을 때, 저는 “아, 또 하나의 모델 제휴 뉴스겠지”라고 생각했습니다. 그런데 세부 숫자를 읽고 생각이 바뀌었습니다. 이건 모델 교체 뉴스가 아니라, 기업 AI 실행 방식 자체를 바꾸는 설계에 가까웠어요.
2026년 1월 28일 기준으로 ServiceNow는 Claude를 Build Agent 기본 모델로 지정했고, 내부 29,000명 배포에서 영업 준비 시간을 최대 95% 줄였으며, 고객 구현 리드타임 50% 단축을 목표로 공개했습니다.
왜 하필 Claude였을까요? 왜 이 타이밍에 발표했을까요? 그리고 우리 팀이 AI 코딩 에이전트를 도입할 때, 무엇부터 체크해야 실패를 줄일 수 있을까요?

먼저 용어부터 짧게 맞춰봅니다
[Build Agent]란? ServiceNow에서 자연어 지시로 앱과 워크플로를 만들고 실행할 수 있게 설계된 엔터프라이즈급 AI 코딩/오케스트레이션 기능입니다.
[AI Control Tower]란? 모델·에이전트·워크플로 전반의 정책, 감사, 사용량, 컴플라이언스를 한 곳에서 관리하는 통합 거버넌스 계층입니다.
2026년 1월 발표에서 확인된 핵심 사실 8가지
| 항목 | 확인된 내용 | 출처 날짜 |
|---|---|---|
| 1 | Claude가 ServiceNow Build Agent의 기본 모델로 지정 | 2026-01-28 |
| 2 | Claude가 ServiceNow AI Platform의 preferred model 중 하나로 제공 | 2026-01-28 |
| 3 | ServiceNow 내부 29,000명에게 Claude/Claude Code 배포 | 2026-01-28 |
| 4 | 영업 미팅 준비 시간 최대 95% 단축 초기 결과 공개 | 2026-01-28 |
| 5 | Build Agent 초기 트랙션 12개월 내 4배 성장 기대 | 2026-01-28 |
| 6 | 고객 구현 시간 50% 단축 목표 공개 | 2026-01-28 |
| 7 | 플랫폼 운영 규모: 연간 80 billion+ workflows | 2026-01-28 |
| 8 | OpenAI도 2026-01-20에 preferred capability로 발표(멀티모델) | 2026-01-20 |
여기서 중요한 건 한 줄입니다. “Claude 단독 올인”이 아니라, “멀티모델 전략 안에서 Claude를 코딩/에이전트 축에 강하게 배치”했다는 점입니다.
왜 ServiceNow는 Claude를 전면에 세웠을까
제가 발표문과 후속 인터뷰를 읽고 정리한 포인트는 5가지입니다.
1) 코딩 에이전트의 실행 품질을 제품에 직접 연결할 수 있었기 때문
Build Agent는 단순 요약 봇이 아니라, 워크플로를 실제로 만들고 동작시키는 영역입니다. 여기선 “말을 잘하는 모델”보다 “의도 -> 실행” 변환 품질이 더 중요합니다.
ServiceNow는 Claude를 Build Agent 기본으로 두고, Claude Code까지 묶어서 개발자/시민개발자 모두가 자연어로 앱을 만들게 했습니다. 이 조합은 코딩 역량의 하향평준화가 아니라, 개발 병목 구간을 줄이는 전략에 가깝습니다.
2) 외부 홍보 전에 내부에서 숫자를 먼저 뽑았기 때문
기업 도입에서 제일 위험한 건 “데모는 화려한데 실사용이 비어 있는 경우”입니다. ServiceNow는 내부 29,000명 배포 수치와 함께, 영업 준비 시간 최대 95% 단축이라는 운영 결과를 같이 공개했습니다.
이 포인트가 왜 중요할까요? 사내 데이터가 나오면, 도입 논리가 기능 소개에서 운영 지표 중심으로 바뀝니다. 결재 라인이 가장 좋아하는 언어도 바로 숫자입니다.
3) Time-to-Value를 계약 후반이 아니라 도입 초반 KPI로 잡았기 때문
발표문에서 눈에 띈 문장은 구현 시간 50% 단축 목표였습니다. 많은 조직이 AI를 붙인 뒤, “언젠가 생산성이 오르겠지” 상태에 오래 머뭅니다.
ServiceNow는 판매-구현-운영 전 주기를 같이 건드렸습니다. 즉 모델 성능을 이야기하면서도, 실제 도입 리드타임 단축을 전면 KPI로 둔 겁니다. 이건 PoC 성공률을 높이는 접근입니다.
4) 거버넌스를 별도 문서가 아니라 플랫폼 레이어로 설계했기 때문
AI가 부서별로 퍼질수록, 보안팀은 “누가 어떤 모델로 무슨 데이터를 썼나”를 먼저 묻습니다. ServiceNow는 AI Control Tower를 통해 모델 사용, 정책, 모니터링, 컴플라이언스를 중앙에서 관리하는 구조를 강조했습니다.
왜 이게 중요할까요? 에이전트가 3개일 때는 표로 관리되지만, 30개를 넘으면 수작업 관리가 무너집니다. 거버넌스가 플랫폼에 내장되지 않으면, 확장 속도가 빨라질수록 리스크가 같이 폭발합니다.
5) 산업 특화 시나리오(헬스케어/생명과학)까지 같이 제시했기 때문
ServiceNow와 Anthropic 발표는 단순 범용 도입이 아니라 규제 민감 산업 적용을 함께 언급했습니다. 예시로 claims authorization를 days -> hours로 단축 가능하다고 제시했죠.
이런 메시지는 “우리도 챗봇 있어요”와 다릅니다. 고위험, 고규제 영역에서도 쓸 수 있는지, 즉 도입 난이도가 높은 구간에서 버틸 수 있는지를 보여주기 때문입니다.
중요한 보정: “Claude를 골랐다”와 “Claude만 쓴다”는 다릅니다
2026년 1월 20일 ServiceNow는 OpenAI와도 확장 협업을 발표했습니다. 그리고 1월 28일에는 Anthropic 협업을 발표했습니다.
이 순서를 보면 의사결정 패턴이 보입니다. 모델 하나에 종속되는 구조를 피하면서, 워크플로 플랫폼 쪽 통제권은 ServiceNow가 유지하는 방식입니다.
즉 실제 메시지는 이렇습니다. “모델 선택권은 열어두고, 정책/감사/오케스트레이션은 한 플랫폼에서 통제한다.”
기업이 이 문장을 놓치면, 모델 비교표만 만들다가 정작 운영 구조 설계는 비어 있게 됩니다.
의사결정 매트릭스: 도입팀이 놓치기 쉬운 질문
| 의사결정 축 | ServiceNow 접근 | 도입팀 체크 질문 |
|---|---|---|
| 모델 성능 | Build Agent 기본 모델 지정 + 복합 작업 실행 강조 | “우리 핵심 유스케이스에서 실행 성공률을 어떻게 측정할까?” |
| 모델 전략 | Preferred model 다중 운영(OpenAI/Anthropic 등) | “벤더 락인 없이 모델 교체가 가능한가?” |
| 거버넌스 | AI Control Tower로 정책/감사/사용량 통합 | “감사 로그와 권한 정책이 중앙에서 보이나?” |
| 확산 방식 | 내부 대규모 배포 후 고객 확장 | “사내 파일럿 지표 없이 외부 확산부터 시작하진 않는가?” |
| 산업 적용 | 헬스케어/생명과학 등 고규제 시나리오 언급 | “규제 영역까지 갈 로드맵이 있는가?” |
AI 코딩 에이전트 기업 도입 체크리스트 (실무 7단계)
아래 7단계는 “기능 체험”이 아니라 “운영 전환” 기준으로 만든 체크리스트입니다.
1단계: 유스케이스를 기능 단위가 아니라 워크플로 단위로 정의
- 체크 질문: “어떤 부서의 어떤 리드타임을 며칠에서 몇 시간으로 줄일 것인가?”
- 실무 기준: 티켓 처리, 코드 리뷰, 승인 처리처럼 시작점/종료점이 명확한 흐름 1개를 고릅니다.
저는 이 단계를 건너뛰면, PoC가 “AI가 똑똑하네”에서 끝난다고 봅니다. 성과는 늘 흐름에서 나오지 기능에서 나오지 않습니다.
2단계: 모델 벤치마크보다 실행 성공률 지표를 먼저 설계
- 체크 질문: “정답률 말고 실행 완료율과 재작업률을 어떻게 볼 것인가?”
- 실무 기준: 완료율, 실패 원인 분류, 사람 개입 횟수를 기본 대시보드로 만듭니다.
벤치마크 점수는 선택에 참고가 됩니다. 하지만 배포 후 품질은 실제 워크플로에서의 실패 패턴이 결정합니다.
3단계: 거버넌스 기준선을 먼저 고정
- 체크 질문: “누가 어떤 데이터에 접근하고, 어떤 행동이 자동 실행되는가?”
- 실무 기준: 역할기반 권한, 감사 로그, 승인 경계(자동/수동)를 파일럿 시작 전에 명시합니다.
AI 프로젝트가 보안팀에서 막히는 이유는, 기술이 부족해서보다 기준선이 없어서입니다. 이 부분은 먼저 못 박는 편이 빠릅니다.
4단계: 내부 파일럿에서 수치 3개를 확보
- 체크 질문: “우리 조직의 1차 성공 숫자 3개는 무엇인가?”
- 실무 기준: 시간 절감, 처리량 증가, 오류율 감소를 최소 1개씩 잡습니다.
ServiceNow가 95% 준비 시간 단축을 같이 제시한 것처럼, 도입팀도 내부 숫자 없이는 확산 단계에서 설득이 어렵습니다.
5단계: 시민개발자와 전문개발자 역할을 분리
- 체크 질문: “누가 생성하고, 누가 검증하고, 누가 배포 승인하는가?”
- 실무 기준: 생성 권한과 배포 권한을 분리하고, 리뷰 루프를 고정합니다.
자연어로 앱을 만들 수 있게 되면, 개발 접근성은 올라갑니다. 동시에 검증 책임 설계를 더 선명하게 해야 합니다.
6단계: 멀티모델 운영 원칙을 사전에 문서화
- 체크 질문: “업무별로 어떤 모델을 우선 사용하고, 교체 기준은 무엇인가?”
- 실무 기준: 비용, 지연시간, 정확도, 규제 요건 4개 축으로 라우팅 규칙을 만듭니다.
2026년의 핵심은 한 모델 승부가 아니라, 업무별 모델 라우팅 능력입니다. 이 규칙이 있어야 운영비와 품질이 같이 잡힙니다.
7단계: 확산 조건(Go/No-Go)을 파일럿 시작 전에 못 박기
- 체크 질문: “어떤 수치가 나오면 다음 부서로 확장할 것인가?”
- 실무 기준: 4주 내 목표 달성 임계치와 실패 시 중단/재설계 조건을 문서화합니다.
이 기준이 없으면, 파일럿은 길어지고 책임은 흐려집니다. 짧게 돌리고 명확히 판단하는 팀이 결국 이깁니다.
운영 지표 템플릿 (바로 복사해서 쓰는 버전)
| 지표 | 계산 방식 | 목표 예시 |
|---|---|---|
| 실행 완료율 | 자동 완료 건수 / 전체 요청 | 70% 이상 |
| 평균 리드타임 | 요청 -> 완료 평균 시간 | 기존 대비 40% 단축 |
| 사람 개입률 | 수동 개입 건수 / 전체 요청 | 30% 이하 |
| 재작업률 | 48시간 내 재오픈 건수 / 완료 건수 | 10% 이하 |
| 거버넌스 준수율 | 정책 위반 없는 실행 건수 / 전체 | 99% 이상 |
이 표를 매주 같은 시간에 보는 것만으로도, 에이전트 도입 품질이 흔들릴 가능성이 줄어듭니다.
내가 느낀 점
저는 이번 발표에서 “모델 성능”보다 “운영 설계”가 더 인상적이었습니다. Build Agent 기본 모델 지정, 내부 29,000명 적용, 거버넌스 통합, 그리고 구현 시간 KPI까지 한 번에 묶은 구성이었기 때문입니다.
왜 이게 놀라웠냐면, 보통은 기능 발표와 운영 발표가 따로 가거든요. 이번에는 둘을 같은 문장에 넣었습니다. 그게 2026년형 엔터프라이즈 AI 발표의 톤이라고 느꼈습니다.
솔직한 마음
저는 한편으로 좀 무서웠습니다. 코딩 에이전트가 좋아질수록, 팀의 검증 역량 격차가 더 크게 벌어질 수 있다고 보기 때문입니다.
“누구나 만들 수 있다”는 건 분명 좋은 변화입니다. 하지만 “누구나 운영 리스크를 감당할 수 있다”와는 다른 문장입니다. 그래서 저는 생성 속도보다 검증 체계가 더 중요하다고 계속 강조하고 싶습니다.
앞으로 할 것들
제가 실제 팀 도입 자문을 한다면, 2026년 3월 안에 아래 3가지를 먼저 실행할 생각입니다.
- 2주짜리 단일 워크플로 파일럿 1개부터 시작
- 모델 라우팅 정책(비용/지연/정확도/규제) 문서 1장 고정
- 주간 운영지표 리뷰를 팀 리듬에 강제 편입
이 3개가 잡히면, 그 다음에야 에이전트 수를 늘려도 된다고 봅니다.
FAQ
Q1. ServiceNow가 Claude를 선택했다는 건 OpenAI를 버렸다는 뜻인가요?
A. 아닙니다. 2026년 1월 20일 ServiceNow는 OpenAI 협업 확장을 발표했고, 1월 28일에는 Anthropic 협업을 발표했습니다. 공식 표현도 “model choice strategy”입니다.
Q2. 왜 Build Agent 기본 모델 지정이 중요한가요?
A. 기본값은 사용량을 만듭니다. 파일럿이 아니라 실제 운영 트래픽이 기본 모델로 쌓이기 때문에, 학습되는 운영 노하우와 최적화 속도가 달라집니다.
Q3. 95% 준비 시간 단축 수치는 그대로 믿어도 되나요?
A. 공식 발표의 “early results”이므로, 내 조직에 그대로 복제된다고 가정하면 안 됩니다. 대신 같은 항목(준비 시간)을 내부 파일럿에서 재측정하는 게 맞습니다.
Q4. 중견기업도 같은 전략을 쓸 수 있나요?
A. 가능합니다. 다만 29,000명 롤아웃을 따라할 필요는 없습니다. 단일 팀, 단일 워크플로, 4주 검증 사이클로 축소해서 시작하면 됩니다.
Q5. 코딩 에이전트 도입에서 가장 먼저 깨지는 건 뭔가요?
A. 권한과 승인 경계가 제일 먼저 깨집니다. 생성 권한과 배포 권한을 분리하지 않으면, 속도는 올라가도 운영 사고가 발생하기 쉽습니다.
Q6. 2026년 지금, 한 모델만 고집하는 전략은 위험한가요?
A. 개인적으로는 위험하다고 봅니다. 업무별 요구사항이 빠르게 갈라지고 있어서, 모델 다변화 + 통합 거버넌스가 현실적인 선택입니다.
결론
ServiceNow가 Claude를 고른 이유를 한 문장으로 요약하면, “코딩 에이전트를 기업 워크플로에 붙였을 때, 실행 품질과 운영 통제를 동시에 확보하기 쉬운 조합”이었기 때문입니다.
그리고 2026년 2월 현재 관점에서 더 중요한 건, 특정 모델 찬반이 아니라 우리 조직의 도입 프레임을 얼마나 빨리 운영형으로 전환하느냐입니다.
체크리스트 7단계만 먼저 고정해도, 도입 실패 확률은 확실히 줄일 수 있습니다.
참고 자료
- ServiceNow x Anthropic 공식 발표 (2026-01-28)
- ServiceNow Investor Relations 공시 버전 (2026-01-28)
- Anthropic 공식: ServiceNow chooses Claude (2026-01-28)
- ServiceNow x OpenAI 공식 발표 (2026-01-20)
- OpenAI 공식: ServiceNow partnership (2026-01-20)
- ServiceNow AI Control Tower 발표 (2025-05-06)
- TechCrunch 후속 보도 (2026-01-28)
- CRN 인터뷰: 멀티모델 유연성 강조 (2026-01-30)