2026년 2월 5일, Anthropic과 OpenAI가 같은 날 코딩 AI를 발표했어요.
- Claude Opus 4.6 (Anthropic)
- GPT-5.3 Codex (OpenAI)
“우연일까요?”
아뇨, 정면승부예요.
그래서 오늘은 점수로만 비교해볼게요. 느낌 말고 숫자.

📊 벤치마크 점수 정면 비교
핵심 벤치마크 비교표
| 벤치마크 | Claude Opus 4.6 | GPT-5.3 Codex | 승자 |
|---|---|---|---|
| Terminal-Bench 2.0 | 65.4% | 77.3% | 🏆 GPT |
| SWE-bench Verified | 80.8% | – | 🏆 Claude |
| SWE-bench Pro | – | 56.8% | (다른 버전) |
| OSWorld-Verified | – | 64.7% | GPT만 발표 |
| MRCR v2 (1M context) | 76% | – | 🏆 Claude |
| 속도 | 기준 | +25% 빠름 | 🏆 GPT |
⚡ Terminal-Bench 2.0 – GPT 승리
터미널 환경에서 코딩 작업 수행 능력 평가
| 모델 | 점수 |
|---|---|
| GPT-5.3 Codex | 77.3% |
| Claude Opus 4.6 | 65.4% |
차이: 11.9% 포인트
이건 솔직히 충격이었어요.
Claude가 코딩 벤치마크에서 지다니?
GPT-5.3이 터미널 기반 작업에서는 확실히 앞서요.
🧠 SWE-bench – Claude 승리
실제 GitHub 이슈 해결 능력 평가
⚠️ 주의: 두 회사가 다른 버전의 SWE-bench를 사용했어요.
| 모델 | 벤치마크 버전 | 점수 |
|---|---|---|
| Claude Opus 4.6 | SWE-bench Verified | 80.8% |
| GPT-5.3 Codex | SWE-bench Pro | 56.8% |
직접 비교 불가 – 테스트 세트가 달라요.
근데 참고로:
- SWE-bench Verified: 인간이 풀 수 있다고 확인한 500개 문제
- SWE-bench Pro: 더 어려운 문제 세트
같은 테스트가 아니라서 단순 비교는 안 되지만,
Claude가 80%대를 찍었다는 건 상당히 높은 수치예요.
🔄 속도 비교 – GPT 승리
| 항목 | Claude Opus 4.6 | GPT-5.3 Codex |
|---|---|---|
| 추론 속도 | 기준 | +25% 빠름 |
OpenAI 공식 발표:
“GPT-5.3 Codex는 GPT-5.2 대비 25% 빠른 추론 속도“
실제 코딩할 때 이 차이 체감 커요.
📏 컨텍스트 윈도우 – Claude 승리
| 항목 | Claude Opus 4.6 | GPT-5.3 Codex |
|---|---|---|
| 컨텍스트 윈도우 | 1M 토큰 (베타) | – |
| 최대 출력 | 128K 토큰 | – |
| MRCR v2 (1M context) | 76% | – |
Claude가 압도적이에요.
대규모 코드베이스 전체를 한번에 이해하는 건 Claude가 훨씬 잘함.
🎯 에이전틱 능력 비교
| 기능 | Claude Opus 4.6 | GPT-5.3 Codex |
|---|---|---|
| 에이전트 팀 병렬 처리 | ✅ Agent Teams | ❌ |
| 실시간 협업 | ❌ | ✅ |
| 컨텍스트 압축 | ✅ Compaction | ❌ |
| 셀프 디버깅 | ❌ | ✅ |
| OSWorld-Verified | – | 64.7% |
방향이 달라요.
- Claude: “맡기고 기다리기” (긴 작업, 병렬 처리)
- GPT: “같이 핑퐁하기” (빠른 반응, 실시간 협업)
📈 최종 점수 정리
GPT-5.3 Codex가 이긴 것
| 벤치마크 | GPT 점수 | Claude 점수 |
|---|---|---|
| Terminal-Bench 2.0 | 77.3% | 65.4% |
| 추론 속도 | +25% | 기준 |
Claude Opus 4.6이 이긴 것
| 벤치마크 | Claude 점수 | GPT 점수 |
|---|---|---|
| SWE-bench Verified | 80.8% | – |
| MRCR v2 (1M context) | 76% | – |
| 컨텍스트 윈도우 | 1M 토큰 | – |
🤔 “그래서 누가 이긴 거야?”
무승부에 가까워요.
- 터미널 작업, 속도 → GPT-5.3 승
- GitHub 이슈 해결, 긴 컨텍스트 → Claude 승
근데 주목할 점:
GPT가 Terminal-Bench에서 Claude를 12% 포인트 앞섰어요.
이건 OpenAI가 “코딩 특화” 방향으로 본격 들어왔다는 신호예요.
😤 내가 느낀 점
솔직히요,
Claude가 코딩 벤치마크에서 지는 걸 처음 봤어요.
Terminal-Bench 2.0에서 65.4% vs 77.3%?
“Claude가 코딩은 무조건 최고”라는 공식이 깨졌어요.
물론 SWE-bench에선 여전히 Claude가 앞서고,
컨텍스트 처리는 Claude가 압도적이지만…
경쟁이 시작됐어요.
📌 앞으로 내가 할 것들
작업별 도구 분리
터미널 작업, 빠른 코드 수정 → GPT-5.3 Codex 대규모 코드 분석, 리팩토링 → Claude Opus 4.6 긴 세션 필요한 작업 → Claude Opus 4.6
둘 다 구독 유지
월 40달러는 경험비예요.
📝 최종 결론
“GPT-5.3 Codex가 Claude의 코딩 아성을 무너뜨렸나?”
반은 맞고 반은 틀려요.
✅ Terminal-Bench 2.0: GPT 승 (77.3% vs 65.4%)
✅ 속도: GPT 승 (+25%)
✅ SWE-bench Verified: Claude 승 (80.8%)
✅ 컨텍스트: Claude 승 (1M 토큰)
“최고”는 없고, “최적의 조합”만 있어요.
📎 공식 출처
🏷️ 태그
#ClaudeOpus46 #GPT53Codex #AI코딩 #벤치마크비교 #Anthropic #OpenAI