Codex에서 GPT-5.5를 써야 할까 2026 — GPT-5.4와 비용·검수·장기작업 비교표

OpenAI는 2026년 4월 23일 GPT-5.5를 발표했고, Codex에는 Plus 이상 사용자 대상으로 400K 컨텍스트와 함께 순차 배포 중이라고 밝혔다.

그럼 이제 질문이 바뀐다.

Codex에서 GPT-5.5를 기본 모델로 올려도 될까.

AI 코딩 에이전트를 매일 쓰는 입장에서는 이 질문이 단순한 신모델 구경이 아니다.

모델이 더 똑똑해졌다는 말은 늘 달콤하다.

근데 실제 작업에서는 다른 계산이 붙는다.

비용은 얼마나 늘어나는지.

검수 시간은 줄어드는지.

긴 작업을 맡겼을 때 중간에 멈추지 않는지.

틀렸을 때 더 그럴듯하게 틀리지는 않는지.

내가 이 글에서 보는 GPT-5.5는 발표 자료 속 가장 똑똑한 모델이 아니다.

Codex 안에서 리팩터링, 테스트, 문서화, 파일 이동, 스프레드시트 분석 같은 일을 오래 붙잡고 가는 장기 작업 모델이다.

한 줄 답은 이렇다. GPT-5.5는 Codex에서 큰 리팩터링, 모호한 버그, 여러 파일을 오가는 작업, 문서/스프레드시트까지 묶인 업무에 먼저 써볼 만하다. 단순 수정, 짧은 질문, 이미 답이 뻔한 작업까지 전부 GPT-5.5로 올리면 비용 대비 재미가 시들해질 수 있다.

이 글은 GPT-5.5 발표 요약이 아니다.

공식 발표와 가격표, 시스템 카드에서 확인한 숫자를 바탕으로 GPT-5.4와 어떻게 비교 테스트할지 정리하는 운영 메모다.

특히 Codex를 하루에 여러 번 쓰는 사람이라면 모델 선택이 곧 작업비가 된다.

작업비라는 말이 거창해 보여도 별거 아니다.

모델 비용, 재시도 횟수, 리뷰 시간, 깨진 테스트 복구 시간, 내가 다시 설명하는 시간의 합이다.

이걸 줄여주면 비싼 모델도 싸다.

이걸 못 줄이면 싼 모델도 은근히 비싸다.

먼저 보는 비용 회수표

GPT-5.5를 켤지 말지는 모델 이름보다 실패 비용으로 판단하는 게 낫다.

작업 GPT-5.5 우선? 이유
큰 리팩터링, 테스트 복구, 여러 파일 동시 수정 재시도와 사람 검수 시간이 줄어야 단가 2배가 회수된다
모호한 버그 추적, 긴 로그 분석, 문서+코드 동시 정리 문맥 유지와 도구 사용 품질이 비용보다 중요해진다
짧은 문구 수정, 단순 질답, 이미 답이 정해진 변경 아니오 GPT-5.4나 더 싼 모델로도 충분한 경우가 많다
Fast mode 조건부 빠른 출력이 실제 병목일 때만 켠다. 습관처럼 켜면 그냥 더 비싼 버튼이다

2026 리프레시: 모델 예산 CTA

2026년 5월 5일 기준 OpenAI Codex pricing 문서에서 중요한 문장은 두 가지다.

하나는 작업 크기와 복잡도, 로컬/클라우드 실행 여부, 긴 세션의 컨텍스트 사용량에 따라 Codex 사용량이 달라진다는 점이다.

다른 하나는 GPT-5.5가 GPT-5.4와 비슷한 결과를 내기 위해 더 적은 토큰을 쓰는 경향이 있다는 설명이다.

그래서 이 글의 CTA는 “무조건 GPT-5.5″가 아니라 이 표다.

작업 전 체크 GPT-5.5로 올릴 신호 GPT-5.4 이하로 남길 신호
파일 수 여러 모듈과 테스트가 같이 움직인다 파일 하나의 작은 수정이다
실패 비용 틀리면 롤백, 데이터, 배포 위험이 크다 틀려도 바로 눈에 보이고 되돌리기 쉽다
컨텍스트 긴 로그, 문서, 이전 결정, 테스트 결과를 같이 봐야 한다 질문과 답이 한 화면 안에 들어온다
검수 시간 사람이 다시 읽는 시간이 비싸다 사람이 보는 시간이 거의 들지 않는다
속도 설정 빠른 응답이 실제 병목이다 빠른 버튼을 습관적으로 누르고 있다

이 표를 채우지 않고 모델만 올리면, AI 예산은 실험비가 아니라 기분비가 된다.

기분비.

무섭다.

이 표로도 애매하면 먼저 AI 코딩 툴 예산 짜는 법 2026에서 구독형, API형, 혼합형 예산 구조를 먼저 나누는 편이 좋다.

AI툴 예산 회수 슬롯

GPT-5.5를 쓸지 말지는 멋짐이 아니라 회수로 봐야 한다.

팀이나 1인 개발자가 바로 적어볼 값은 아래 5개다.

항목 내 숫자
월 AI툴 구독료 합계 ChatGPT, Claude, Cursor, Windsurf, 기타
월 API/토큰 비용 프로젝트별 평균과 최고치
사람 검수 시간 한 달에 몇 시간 줄었는지
실패 복구 시간 깨진 테스트, 잘못된 수정, 재작업 시간
GPT-5.5 투입 기준 몇 파일 이상, 몇 시간 이상, 어떤 리스크 이상일 때만 켜는지

이 표가 비어 있으면 비싼 모델을 써도 돈을 버는지 알 수 없다.

이 표가 채워지면 나중에 AI툴 예산 템플릿, 팀 운영 체크리스트, 구독 비교 링크를 붙이기 좋은 자리다.

지금 결론

GPT-5.5는 항상 기본값보다 긴 작업 전용 카드로 먼저 두는 게 낫다.

이유는 세 가지다.

첫째, OpenAI 공식 가격 기준으로 GPT-5.5 API 가격은 GPT-5.4의 2배다.

GPT-5.5는 입력 100만 토큰당 5달러, 출력 100만 토큰당 30달러로 안내돼 있다.

GPT-5.4는 입력 100만 토큰당 2.5달러, 출력 100만 토큰당 15달러다.

가격표만 보면 고민할 것도 없이 두 배다.

둘째, Codex에서의 가치는 토큰 단가보다 재시도 감소에서 나온다.

OpenAI는 GPT-5.5가 GPT-5.4와 비슷한 토큰당 지연시간을 유지하면서, Codex 작업을 더 적은 토큰으로 끝내는 경향이 있다고 설명한다.

이 말이 실사용에서 맞다면 단가 2배를 일부 상쇄할 수 있다.

하지만 그건 내 작업에서 확인해야 한다.

발표 자료가 내 레포지토리의 테스트 실패까지 대신 책임져주진 않는다.

셋째, GPT-5.5는 단순 답변보다 에이전트형 작업에서 차이가 나도록 설계된 모델이다.

공식 발표는 코딩, 컴퓨터 사용, 지식 업무, 초기 과학 연구처럼 긴 문맥에서 도구를 쓰며 행동하는 영역의 개선을 강조한다.

그래서 파일 하나 고쳐줘보다 이 기능을 넣고 테스트까지 돌려서 PR 설명까지 써줘 같은 작업에서 먼저 체감해야 한다.

내 결론은 이렇다.

GPT-5.5는 Codex의 비상 장비가 아니라 고난도 작업 모드로 배치한다.

기본 수정은 GPT-5.4나 더 싼 모델로 두고, 실패 비용이 큰 작업만 GPT-5.5로 올린다.

이렇게 해야 모델 업그레이드가 기분값이 아니라 운영값이 된다.

Codex 모델 배치 결정표 GPT-5.5 우선 작업과 GPT-5.4 유지 작업을 나눈 인포그래픽 GPT-5.5는 모든 작업의 기본값보다 큰 리팩터링, 모호한 버그, 테스트 복구처럼 검수 비용이 높은 작업에 먼저 배치하는 편이 낫다.

발표에서 확인한 핵심 숫자

공식 발표에서 가장 먼저 볼 숫자는 벤치마크다.

하지만 벤치마크는 그대로 외우는 게 아니라 내 작업으로 번역해야 한다.

Terminal-Bench 2.0은 복잡한 CLI 워크플로를 보는 지표다.

SWE-Bench Pro는 실제 GitHub 이슈 해결 능력을 보는 지표다.

OSWorld-Verified는 모델이 실제 컴퓨터 환경을 다루는 능력에 가깝다.

BrowseComp와 MCP Atlas는 검색과 도구 사용의 질을 가늠하는 데 도움이 된다.

그래서 Codex 사용자에게는 아래처럼 읽는 게 더 실용적이다.

항목 GPT-5.5 GPT-5.4 Codex 작업으로 번역하면
Terminal-Bench 2.0 82.7% 75.1% CLI, 테스트, 파일 조작이 섞인 작업에서 더 버틸 가능성
SWE-Bench Pro 58.6% 57.7% 실제 이슈 해결은 개선 폭이 작으니 직접 검증 필요
Expert-SWE 내부 평가 73.1% 68.5% 긴 엔지니어링 작업에서 계획 유지력 기대
OSWorld-Verified 78.7% 75.0% 컴퓨터 사용과 앱 조작형 업무에 약간 유리
BrowseComp 84.4% 82.7% 조사형 작업에서 근거 찾기 성능 개선 기대
MCP Atlas 75.3% 70.6% 도구 호출과 MCP류 작업에서 개선 기대
Tau2-bench Telecom 98.0% 92.8% 절차형 고객지원·운영 워크플로에 강점 가능

여기서 제일 조심할 숫자는 SWE-Bench Pro다.

GPT-5.5가 58.6%, GPT-5.4가 57.7%다.

차이가 없다는 뜻은 아니다.

다만 모든 코딩 작업에서 압도적이라는 식으로 읽으면 과하다.

실제 레포지토리에서는 이 작은 차이보다 내 테스트 환경, 요구사항의 선명도, 작업 범위, 리뷰 기준이 더 크게 먹힌다.

반대로 Terminal-Bench 2.0과 Expert-SWE 쪽 개선은 Codex 운영자 입장에서 더 흥미롭다.

이 둘은 단발 코드 답변보다 긴 작업, 명령 실행, 문맥 유지, 실패 후 재시도에 가깝다.

내가 GPT-5.5를 먼저 시험할 곳도 바로 여기다.

모델이 더 똑똑하다는 말보다, 멈추지 않고 끝까지 들고 가는지가 중요하다.

그게 안 되면 이름이 GPT-5.5든 GPT-5.5 Pro든 결국 내가 마무리 투입된다.

그 순간 모델 업그레이드는 자동화가 아니라 비싼 인턴 관리가 된다.

GPT-5.5를 먼저 올릴 작업

Codex에서 GPT-5.5를 먼저 써볼 작업은 난도가 높은 작업이 아니라 실패했을 때 사람 시간이 크게 새는 작업이다.

이 둘은 비슷해 보이지만 다르다.

어려운 알고리즘 문제라도 파일 하나에서 끝나면 검수가 쉽다.

반대로 간단한 설정 변경이라도 테스트, 문서, 배포 스크립트, 권한 파일을 같이 건드리면 검수가 무거워진다.

GPT-5.5는 후자에서 먼저 값이 나야 한다.

작업 GPT-5.5 우선도 이유 검수 기준
큰 리팩터링 높음 여러 파일의 의도와 영향 범위를 오래 유지해야 함 변경 파일 목록, 테스트, 되돌림 계획
모호한 버그 분석 높음 실패 원인을 추론하고 가설을 줄여야 함 재현 명령, 원인 설명, 수정 전후 로그
테스트 복구 높음 코드와 테스트 기대값을 같이 봐야 함 실패 테스트가 왜 통과했는지 설명
문서+코드 동시 수정 높음 구현과 사용자 설명이 맞아야 함 README, changelog, 사용 예시 동기화
스프레드시트/문서 생성 중간~높음 OpenAI가 지식 업무 개선을 강조한 영역 산출물 구조, 숫자 검산
단순 변수명 변경 낮음 모델 차이보다 범위 지정이 더 중요 GPT-5.4 또는 더 싼 모델로 충분
한 파일짜리 CSS 수정 낮음 시각 검수가 병목 모델보다 스크린샷 검증이 중요
이미 답이 정해진 질문 낮음 추론보다 검색·기억 문제 빠른 모델로 처리

여기서 핵심은 작업 크기가 아니라 검수 난도다.

코드 한 줄이라도 인증, 결제, 데이터 삭제에 연결되면 GPT-5.5를 써도 사람 검수가 필요하다.

반대로 수십 줄을 고쳐도 테스트가 촘촘하고 되돌리기 쉬우면 꼭 최고 모델이 필요하지 않다.

모델 선택은 자존심 싸움이 아니다.

업무를 가장 싸고 덜 피곤하게 끝내는 배치 문제다.

이렇게 보면 GPT-5.5는 모든 작업을 대신하는 모델이 아니라 검수 비용이 높은 작업의 실패 확률을 낮추는 모델에 가깝다.

그 관점이 잡히면 비용 계산도 쉬워진다.

비싼 모델이 비싼 이유를 증명해야 하는 순간은 늘 있다.

그리고 그 증명은 벤치마크 표가 아니라 내 작업 로그에서 나온다.

GPT-5.4와 비교할 실전 테스트 5가지

GPT-5.5를 열자마자 느낌으로 판단하면 거의 망한다.

새 모델은 보통 첫날에 더 좋아 보인다.

답변 문장이 매끈하고, 계획이 길고, 자신감이 있다.

문제는 그 자신감이 실제 작업 완료와 같은 말이 아니라는 점이다.

그래서 나는 GPT-5.4와 GPT-5.5를 아래 5개 작업으로 비교하겠다.

1. 오래된 실패 테스트 하나 고치기

입력은 실패 로그, 관련 파일 경로, 기존 테스트 명령으로 제한한다.

모델에게 먼저 원인 가설을 3개만 세우게 한다.

그다음 실제 파일을 읽고, 수정하고, 테스트를 돌리게 한다.

성공 기준은 단순히 테스트가 초록색이 되는 게 아니다.

왜 실패했는지 설명이 맞아야 한다.

수정 범위가 작아야 한다.

불필요한 리팩터링이 없어야 한다.

테스트 명령과 결과를 남겨야 한다.

GPT-5.5가 여기서 GPT-5.4보다 나아야 할 지점은 집요함이다.

첫 가설이 틀렸을 때 포기하지 않고 다른 근거를 찾아야 한다.

그냥 더 긴 답변을 쓰는 건 점수가 아니다.

긴 답변은 가끔 먼지처럼 쌓인다.

먼지가 많다고 집이 정리된 건 아니잖아.

2. 작은 기능을 PR 단위로 끝내기

입력은 기능 요구사항, 관련 폴더, 금지 범위를 준다.

예를 들어 설정 옵션 하나를 추가하고, UI에 노출하고, 테스트를 추가하고, 문서에 적게 한다.

성공 기준은 네 가지다.

구현이 요구사항을 만족해야 한다.

테스트가 있어야 한다.

문서가 실제 동작과 맞아야 한다.

PR 설명이 리뷰어가 바로 읽을 수 있어야 한다.

GPT-5.5가 좋은 모델이라면 중간에 다 했습니다라고 멈추는 빈도가 줄어야 한다.

코드만 고치고 문서를 빼먹는 것도 줄어야 한다.

테스트를 추가했는데 실행하지 않는 습관도 줄어야 한다.

내가 가장 보고 싶은 건 완성도보다 끝맺음이다.

AI 코딩에서 은근히 피곤한 건 80%까지는 빨리 왔는데 마지막 20%를 사람이 치우는 상황이다.

그 20%가 반복되면 자동화가 아니라 설거지가 된다.

3. 문서 묶음을 읽고 체크리스트 만들기

OpenAI 발표는 GPT-5.5가 문서, 스프레드시트, 지식 업무에도 강하다고 설명한다.

그래서 코드만 보면 반쪽 테스트다.

문서 5개를 주고 운영 체크리스트를 만들게 해야 한다.

예를 들어 릴리스 노트, 보안 정책, 가격표, 내부 작업 로그, 기존 블로그 글을 같이 준다.

성공 기준은 정보 요약이 아니다.

중복을 제거해야 한다.

충돌하는 문장을 표시해야 한다.

날짜와 출처를 붙여야 한다.

실행 순서로 재배열해야 한다.

이 작업은 TECHTAEK 글쓰기에도 바로 연결된다.

내가 원하는 건 예쁜 요약문이 아니라 내일 다시 써먹을 수 있는 운영표다.

GPT-5.5가 GPT-5.4보다 낫다면 여기서 더 적은 왕복으로 구조를 잡아야 한다.

단, 숫자 인용은 반드시 사람이 다시 본다.

모델이 숫자를 그럴듯하게 옮길 때가 제일 무섭다.

말투가 차분하면 더 무섭다.

4. 여러 도구가 필요한 작업 이어가기

Codex 작업은 파일 읽기, 검색, 테스트, 이미지 확인, 문서 생성이 섞일 수 있다.

GPT-5.5는 도구 사용과 장기 작업에서 더 강하다고 포지셔닝돼 있다.

그러면 여러 도구를 써야 하는 작업에서 비교해야 한다.

예시는 이렇다.

리포지토리에서 관련 코드를 찾는다.

테스트를 돌린다.

실패 로그를 읽는다.

파일을 수정한다.

다시 테스트한다.

변경 요약을 작성한다.

성공 기준은 도구 호출 횟수가 많다는 게 아니다.

필요한 도구를 필요한 순서로 써야 한다.

같은 파일을 의미 없이 반복해서 읽지 않아야 한다.

테스트 실패를 보고도 성공했습니다라고 말하면 바로 감점이다.

이건 모델 지능보다 운영 습관에 가깝다.

GPT-5.5가 여기서 강하면 비싼 모델을 쓸 이유가 생긴다.

도구를 덜 낭비하고, 작업 전환을 덜 헷갈리고, 마지막 보고가 더 정확해지는 쪽이다.

5. 일부러 애매한 요구사항을 던지기

현실의 요청은 깔끔하지 않다.

이거 좀 정리해줘 같은 말이 제일 많다.

그래서 마지막 테스트는 애매한 요구사항으로 해야 한다.

단, 완전히 불공정하게 던지면 안 된다.

작업 목표, 성공 기준, 금지 범위는 최소한으로 준다.

그리고 모델이 어떤 질문을 되묻는지 본다.

좋은 코딩 에이전트는 애매함을 무작정 메우지 않는다.

위험한 가정은 표시한다.

바로 실행해도 되는 부분은 실행한다.

막히는 부분은 짧게 확인한다.

GPT-5.5가 여기서 더 낫다면, 실제 업무에서 체감이 크다.

대부분의 사고는 코드 실력 부족보다 요구사항 오해에서 시작하기 때문이다.

모델이 똑똑해질수록 더 중요한 건 모른다고 말하는 능력이다.

그 능력이 없으면 고급 모델은 더 고급스럽게 사고 친다.

비용은 모델 가격보다 검수 루프에서 샌다

API 가격만 보면 GPT-5.5는 GPT-5.4보다 정확히 두 배 비싼 층에 있다.

OpenAI 가격표 기준 GPT-5.5는 입력 100만 토큰 5달러, 캐시 입력 0.5달러, 출력 100만 토큰 30달러다.

GPT-5.4는 입력 2.5달러, 캐시 입력 0.25달러, 출력 15달러다.

하지만 Codex 구독 환경에서는 이 가격표가 곧바로 내 카드 명세서와 1대1로 연결되지는 않는다.

그래도 운영 감각을 잡는 데는 충분하다.

비싼 모델을 쓰면 먼저 물어야 할 질문은 토큰을 줄이는가가 아니다.

내가 다시 설명하는 횟수를 줄이는가다.

비용 항목 겉으로 보이는 비용 실제로 더 아픈 비용
모델 단가 입력/출력 토큰 가격 잘못된 방향으로 오래 달린 작업
Fast mode 1.5배 빠른 토큰 생성, 2.5배 비용 빨라졌는데 검수는 그대로인 상황
긴 컨텍스트 더 많은 파일과 문서 투입 근거가 많아져도 결론이 흐려지는 상황
재시도 같은 프롬프트 다시 실행 사람의 집중력 재부팅
리뷰 diff 확인 의도와 테스트 결과까지 다시 확인

Codex에서 GPT-5.5 Fast mode도 조심해서 봐야 한다.

OpenAI는 Codex에서 GPT-5.5 Fast mode가 토큰 생성 속도 1.5배, 비용 2.5배라고 안내한다.

이건 꽤 선명한 교환이다.

기다림이 병목인 작업이면 쓸 수 있다.

하지만 검수가 병목인 작업이면 빠른 출력은 별 도움이 안 된다.

오히려 검수할 diff가 더 빨리 쌓인다.

사람은 GPU가 아니다.

사람 리뷰어는 처리량을 올린다고 바로 클럭이 올라가지 않는다.

그래서 Fast mode는 짧고 확실한 작업을 빠르게 반복할 때 먼저 본다.

큰 리팩터링에서 Fast mode를 켜는 건 조심스럽다.

그 작업은 속도보다 방향이 중요하다.

방향이 틀린 상태로 빨라지면 그냥 빠른 삽질이다.

삽질도 빠르면 운동은 되겠지만, 배포는 안 된다.

언제 GPT-5.4에 남겨도 되는가

GPT-5.5가 나왔다고 GPT-5.4가 갑자기 못 쓰는 모델이 되는 건 아니다.

오히려 기본 작업은 GPT-5.4에 남겨야 운영이 깔끔하다.

모델 운영에서 제일 흔한 실수는 새 모델을 전부의 기본값으로 올리는 것이다.

처음 며칠은 기분이 좋다.

그다음 비용이 보인다.

그다음 검수 로그가 보인다.

마지막에는 어떤 작업에서 실제로 나아졌는지 기억이 안 난다.

이러면 업그레이드 실험이 아니라 분위기 소비가 된다.

GPT-5.4에 남겨도 되는 작업은 아래처럼 잡는다.

작업 GPT-5.4 유지 이유 GPT-5.5로 올릴 조건
짧은 코드 설명 답변 품질보다 빠른 이해가 목적 설명이 반복해서 틀릴 때
한 파일 수정 영향 범위가 좁음 테스트 실패 원인이 모호할 때
단순 문서 정리 구조만 맞으면 됨 여러 출처 충돌을 해결해야 할 때
작은 UI 문구 수정 사람이 최종 눈검수 다국어/접근성까지 함께 볼 때
커밋 메시지 초안 비용 대비 고급 추론 불필요 복잡한 변경 묶음을 설명해야 할 때

이 분리를 해두면 좋은 점이 하나 더 있다.

GPT-5.5 테스트 결과를 더 깨끗하게 볼 수 있다.

모든 작업을 섞어버리면 어떤 개선이 모델 덕분인지 알기 어렵다.

비교는 지저분하면 바로 맛이 간다.

똑같은 작업 묶음에서 GPT-5.4와 GPT-5.5를 나눠 돌리고, 성공률과 재시도 횟수를 비교해야 한다.

그때야 비싼 모델을 계속 쓸지 결정할 수 있다.

보안과 제한은 덤이 아니라 본문이다

GPT-5.5는 능력이 올라간 만큼 안전장치도 같이 봐야 한다.

OpenAI는 GPT-5.5의 생물/화학 및 사이버 보안 능력을 Preparedness Framework상 High로 분류한다고 밝혔다.

Critical은 아니라고 설명하지만, GPT-5.4보다 사이버 보안 능력이 올라갔다고도 적었다.

시스템 카드에서는 GPT-5.5를 복잡한 실제 작업, 코드 작성, 온라인 리서치, 문서와 스프레드시트 생성, 도구 이동에 맞춘 모델로 설명한다.

이 말은 좋은 소식이면서 동시에 운영 부담이다.

모델이 더 많은 일을 할수록 권한 설계가 중요해진다.

Codex에서 특히 봐야 할 건 세 가지다.

첫째, 파일 권한이다.

읽기만 해야 하는 작업인지, 쓰기까지 허용할 작업인지, 명령 실행이 필요한 작업인지 분리해야 한다.

둘째, 네트워크 접근이다.

외부 패키지를 설치하거나 웹을 검색해야 하는 작업은 편하지만 공급망 위험이 붙는다.

셋째, 사용자 확인이다.

데이터 삭제, 배포, 결제, 외부 전송처럼 되돌리기 어려운 행동은 모델이 아무리 똑똑해도 사람 확인을 남겨야 한다.

GPT-5.5가 더 잘한다는 말이 더 많이 열어도 된다는 뜻은 아니다.

오히려 반대에 가깝다.

더 잘하는 모델일수록 좁은 작업실 안에서 더 강하게 써야 한다.

권한을 넓혀서 성능을 얻는 건 쉽다.

나중에 사고 원인을 설명하는 게 어렵다.

AI 에이전트 운영에서 제일 비싼 건 모델 비용이 아니라 설명 불가능한 변경이다.

내 작업흐름에 붙이는 순서

나는 GPT-5.5를 바로 전체 기본값으로 올리지 않는다.

대신 7일짜리 비교 실험으로 붙인다.

첫날에는 작업 유형을 나눈다.

리팩터링, 버그 수정, 테스트 복구, 문서 생성, 조사형 업무로 나눠서 각각 2개씩 후보를 만든다.

둘째 날에는 GPT-5.4 기준 성능을 기록한다.

성공 여부, 재시도 횟수, 사람이 다시 설명한 횟수, 최종 리뷰 시간을 적는다.

셋째 날과 넷째 날에는 GPT-5.5로 같은 유형의 작업을 돌린다.

완전히 같은 작업을 다시 돌리면 학습 효과가 생기니, 비슷한 난도의 다른 작업을 잡는다.

다섯째 날에는 실패 사례만 모은다.

어디서 멈췄는지, 어디서 가정을 잘못했는지, 어떤 파일을 과하게 건드렸는지 본다.

여섯째 날에는 모델 배치 규칙을 만든다.

예를 들어 테스트 복구와 모호한 버그는 GPT-5.5, 짧은 문서 수정은 GPT-5.4, 대량 파일 읽기는 GPT-5.5 후 사람 샘플링 검수처럼 적는다.

일곱째 날에는 이 규칙을 팀 문서나 개인 운영 노트에 넣는다.

중요한 건 느낌으로 끝내지 않는 것이다.

새 모델 테스트는 매번 신제품 구경으로 끝나기 쉽다.

하지만 Codex 운영자에게 필요한 건 오, 좋다가 아니라 어떤 작업에 올릴지다.

아래처럼 기록하면 충분하다.

기록 항목 예시
작업 이름 결제 모듈 테스트 복구
모델 GPT-5.4 / GPT-5.5
입력 범위 실패 로그, 관련 파일 6개, 테스트 명령
성공 여부 통과 / 부분 성공 / 실패
재시도 횟수 0회, 1회, 2회
사람 개입 요구사항 재설명, 테스트 수정, diff 되돌림
리뷰 시간 12분
다음 규칙 이 유형은 GPT-5.5 우선

이 정도만 해도 모델 선택이 훨씬 덜 감정적이 된다.

감정은 블로그 제목에는 도움이 되지만 운영비에는 가끔 무섭다.

숫자와 로그를 남기자.

미래의 내가 고마워한다.

실수 TOP 5

첫 번째 실수는 발표 벤치마크를 내 레포지토리 성능으로 착각하는 것이다.

Terminal-Bench와 SWE-Bench는 좋은 힌트다.

하지만 내 프로젝트의 테스트 품질, 문서 상태, 빌드 속도, 의존성 꼬임은 벤치마크 표에 없다.

그래서 최소 5개 작업은 직접 돌려봐야 한다.

두 번째 실수는 GPT-5.5를 모든 작업의 기본값으로 올리는 것이다.

이렇게 하면 비용과 성능의 관계가 흐려진다.

어떤 작업에서 좋아졌는지 알기 어렵다.

처음엔 긴 작업 위주로 제한해야 한다.

세 번째 실수는 Fast mode를 생산성 버튼처럼 누르는 것이다.

Fast mode는 기다림이 병목일 때 유용하다.

검수가 병목이면 출력 속도만 올라간다.

더 빨리 나온 diff를 사람이 더 빨리 이해할 수는 없다.

네 번째 실수는 보안 제한을 성가신 장애물로만 보는 것이다.

OpenAI는 GPT-5.5의 사이버 보안 능력에 더 엄격한 분류기와 통제를 붙였다고 설명한다.

방어 작업에는 도움이 되지만, 일부 요청은 더 자주 막힐 수 있다.

이건 모델 품질 문제가 아니라 운영 설계 변수다.

다섯 번째 실수는 똑똑함검수 생략으로 해석하는 것이다.

GPT-5.5가 더 오래 작업하고 더 적은 안내로 움직인다면, 변경 범위도 더 넓어질 수 있다.

넓은 변경에는 넓은 검수가 필요하다.

모델이 좋아질수록 사람의 리뷰 기준도 같이 좋아져야 한다.

안 그러면 자동화는 빨라지는데 책임은 그대로 내 책상 위에 남는다.

책상도 가끔 쉬어야 한다.

GPT-5.5 도입 체크리스트

아래 체크리스트를 통과하면 GPT-5.5를 Codex 작업에 붙일 준비가 된 것이다.

  • [ ] GPT-5.5를 쓸 작업 유형을 3개 이하로 정했다.
  • [ ] GPT-5.4와 비교할 기준 작업을 준비했다.
  • [ ] 성공 기준을 느낌이 아니라 테스트, 리뷰 시간, 재시도 횟수로 적었다.
  • [ ] Fast mode를 켤 조건과 끌 조건을 정했다.
  • [ ] 파일 쓰기, 명령 실행, 네트워크 접근 범위를 작업별로 나눴다.
  • [ ] 보안·데이터 삭제·배포 작업에는 사람 확인 단계를 남겼다.
  • [ ] 숫자와 가격은 공식 페이지 확인 날짜를 적기로 했다.
  • [ ] 모델이 실패했을 때 되돌릴 git/worktree 기준을 정했다.
  • [ ] 작업 완료 보고에 테스트 명령과 결과를 요구한다.
  • [ ] 7일 뒤 모델 배치 규칙을 업데이트할 날짜를 잡았다.

체크리스트에서 세 개 이상 비어 있으면 아직 전체 적용은 이르다.

그럴 땐 작은 실험부터 하자.

좋은 모델을 나쁘게 쓰는 가장 쉬운 방법은 준비 없이 크게 여는 것이다.

작게 열고, 로그를 보고, 이기는 작업에만 넓힌다.

이게 재미는 덜해 보여도 운영에는 강하다.

운영은 원래 조용히 이기는 장르다.

FAQ

GPT-5.5는 Codex에서 바로 쓸 수 있나?

OpenAI 발표 기준으로 GPT-5.5는 Plus, Pro, Business, Enterprise, Edu, Go 플랜의 Codex 사용자에게 순차 배포 중이다.

다만 계정, 지역, 플랜, 배포 상태에 따라 보이는 시점은 다를 수 있다.

API는 2026년 4월 24일 확인 기준으로 coming soon 상태다.

그래서 글을 읽는 시점에는 OpenAI 가격 페이지와 Codex 모델 선택 화면을 다시 확인하는 게 좋다.

GPT-5.5가 GPT-5.4보다 무조건 낫나?

아니다.

공식 수치상 GPT-5.5는 여러 장기 작업과 도구 사용 벤치마크에서 GPT-5.4보다 높다.

하지만 SWE-Bench Pro처럼 차이가 작게 보이는 지표도 있다.

짧고 범위가 좁은 작업에서는 GPT-5.4가 비용 대비 더 나을 수 있다.

GPT-5.5 API 가격은 얼마인가?

OpenAI API Pricing 페이지 기준 GPT-5.5는 입력 100만 토큰당 5달러, 캐시 입력 0.5달러, 출력 100만 토큰당 30달러로 표시돼 있다.

GPT-5.4는 입력 2.5달러, 캐시 입력 0.25달러, 출력 15달러다.

Batch와 Flex는 표준 API 가격의 절반, Priority processing은 표준의 2.5배로 안내돼 있다.

가격은 바뀔 수 있으니 발행 전 확인일을 남겨야 한다.

Codex Fast mode는 언제 쓰면 좋나?

기다림이 병목인 짧고 확실한 작업에 먼저 쓴다.

예를 들어 작은 수정 후보를 여러 개 만들거나, 이미 범위가 좁은 문서 정리를 빠르게 반복할 때다.

큰 리팩터링처럼 방향 검수가 중요한 작업에서는 조심스럽다.

속도가 빨라도 사람이 읽고 판단하는 시간은 그대로이기 때문이다.

GPT-5.5를 쓰면 코드 리뷰를 줄여도 되나?

줄이면 안 된다.

오히려 처음 1~2주는 리뷰 항목을 더 촘촘히 두는 게 좋다.

모델이 더 넓게 작업할 수 있으면, 변경 영향도 넓어질 수 있다.

리뷰를 없애는 게 아니라 반복 설명과 재시도를 줄이는 방향으로 봐야 한다.

GPT-5.5는 보안 작업에도 써도 되나?

방어 목적의 코드 점검, 취약점 설명, 내부 시스템 보강에는 유용할 수 있다.

다만 OpenAI는 GPT-5.5의 사이버 보안 능력을 High로 보고, 고위험 활동에는 더 강한 제한과 통제를 적용한다고 설명한다.

업무에서 쓰려면 권한, 로그, 승인 단계를 먼저 정해야 한다.

특히 외부 시스템, 크리덴셜, 배포 권한이 섞인 작업은 사람 확인을 남기는 편이 안전하다.

GPT-5.5 Pro까지 기다려야 하나?

대부분의 Codex 작업은 먼저 GPT-5.5로 비교하면 된다.

GPT-5.5 Pro는 더 높은 정확도와 어려운 작업을 위한 선택지로 안내돼 있지만, 비용과 대기 시간도 함께 봐야 한다.

내 기준에서는 GPT-5.5로도 실패하는 장기 연구형 작업, 법무·데이터 과학·복잡한 설계 검토처럼 높은 정확도가 필요한 작업에만 Pro 후보를 둔다.

일상적인 코드 수정까지 Pro를 기본값으로 두는 건 과할 가능성이 크다.

TECHTAEK 기준으로 이 글의 핵심은 뭔가?

GPT-5.5 발표가 아니라 모델 배치 규칙이다.

어떤 작업을 GPT-5.5로 올리고, 어떤 작업은 GPT-5.4로 남기고, 어떤 작업은 Fast mode를 꺼야 하는지 정하는 게 핵심이다.

AI 도구 글은 기능 요약만 하면 금방 낡는다.

반대로 운영 기준으로 남기면 다음 모델이 나와도 다시 쓸 수 있다.

공식 출처

관련 글

SNS 복사용

OpenAI가 GPT-5.5를 발표했다.

근데 Codex 사용자 입장에서 중요한 질문은 “더 똑똑한가?”가 아니다.

“어떤 작업에 올려야 비용과 검수 시간이 줄어드는가?”다.

이번 글에서는 GPT-5.5를 GPT-5.4와 비교할 5가지 실전 테스트, Fast mode를 켤 조건, 보안/권한 체크리스트를 정리했다.

핵심은 간단하다.

GPT-5.5는 기본값보다 장기 작업 전용 카드로 먼저 쓰자.

큰 리팩터링, 모호한 버그, 테스트 복구, 문서+코드 동시 수정에는 올려볼 만하다.

단순 수정과 짧은 질문까지 전부 올리면 그냥 더 비싼 기분값이 될 수 있다.

모델 업그레이드는 취향이 아니라 배치 전략이다.