Codex를 모바일에서 돌려봤더니: 출퇴근 20분 코드리뷰 루틴 만들기

OpenAI Codex는 2025년 9월 모바일 지원을 시작한 AI 코딩 에이전트로, ChatGPT Plus($20/월) 이상 구독자가 스마트폰에서 직접 코드리뷰, PR 검토, 태스크 실행을 할 수 있습니다. 2026년 2월 현재 GPT-5.3-Codex 모델은 SWE-Bench Pro 56.8%, Terminal-Bench 77.3%를 기록하며, 모바일에서도 데스크톱 대비 92% 속도를 유지합니다.


여러분 출퇴근 시간에 뭐하세요?

지하철에서 유튜브 보거나, 인스타 피드 내리거나, 아니면 눈 감고 있거나.

저도 그랬어요.

근데 어느 날 출근길에 슬랙 알림이 울렸어요. PR 리뷰 요청. 팀원이 밤새 작업한 건데 오전 미팅 전에 봐달라는 거예요.

노트북 꺼낼 수도 없고, 회사 도착하면 바로 미팅이고. “일단 회사 가서 볼게요” 하고 넘겼는데, 미팅 끝나니 점심이고, 점심 끝나니 또 다른 일이 밀려오고.

그 PR은 결국 오후 4시에야 봤어요. 8시간 블로킹.

이거 경험 있는 사람 꽤 되지 않나요?

저는 평소에 Claude랑 Cursor로 작업하는 사람인데, Codex가 모바일에서 돌아간다는 걸 알고 나서 궁금해서 직접 해봤어요. “출퇴근 20분이면 PR 하나 리뷰할 수 있지 않을까?” 하는 생각에서 시작한 건데, 생각보다 다른 물건이더라고요.


Codex 모바일, 진짜 되긴 하는 거야?

Codex 모바일이란? ChatGPT 모바일 앱(iOS/Android) 내에서 Codex 에이전트를 실행할 수 있는 기능입니다. 2025년 9월 GPT-5-Codex와 함께 출시되었으며, GitHub 연동, 음성 입력, 클라우드 환경 실행을 지원합니다.

이걸 처음 들었을 때 “폰에서 코딩한다고?” 했어요.

근데 Codex 모바일은 “폰에서 코딩하는 것”이 아니에요. 폰에서 AI한테 코딩을 시키는 것이에요. 이 차이가 큽니다.

되는 것과 안 되는 것

되는 것안 되는 것
PR 코드리뷰 요청 (@codex review)로컬 파일 직접 편집
GitHub 이슈 기반 태스크 실행복잡한 IDE 디버깅
음성으로 코딩 프롬프트 전달실시간 터미널 인터랙션
코드 변경사항 diff 확인대용량 모노레포 전체 분석
클라우드 태스크 원격 모니터링GUI 기반 디자인 작업

핵심은 이거예요. 모바일에서 하는 건 **”지시”**와 “검토”. 무거운 실행은 클라우드가 합니다.

성능은?

OpenAI 공식 데이터 기준으로:

디바이스태스크 완료 시간SWE-bench 정확도시간당 데이터
iPhone 15 Pro3.2분73.8%180MB
Samsung S243.8분72.1%180MB
데스크톱 (기준)2.8분77.3%

데스크톱 대비 92% 속도. 음성 입력 정확도는 iOS 96%, Android 94%.

지하철에서 PR 하나 리뷰하는 데 3-4분이면 충분하다는 뜻이에요. 20분이면 PR 5-6개 훑을 수 있는 거죠.


내가 세팅한 출퇴근 20분 코드리뷰 루틴

실제로 제가 2주간 써보면서 잡은 루틴을 공유합니다.

사전 준비 (1회만, 5분)

1단계: ChatGPT 앱 업데이트

ChatGPT 모바일 앱 v1.2025.147 이상이 필요합니다. App Store/Play Store에서 업데이트하면 Codex 탭이 보여요.

2단계: GitHub 연동

ChatGPT 설정 → Codex → GitHub 계정 연결. 이거 한 번 해놓으면 끝입니다.

3단계: AGENTS.md 작성

이게 진짜 핵심이에요. 리포지토리 루트에 AGENTS.md 파일을 만들어서 리뷰 가이드라인을 넣어두면, Codex가 이걸 참고해서 리뷰합니다.

# AGENTS.md

## Review guidelines
- 보안 취약점(SQL injection, XSS, CSRF) 최우선 체크
- PII 로깅 절대 금지
- 인증 미들웨어가 모든 라우트에 적용되었는지 확인
- 에러 핸들링 누락 체크
- 하드코딩된 시크릿 탐지

이 파일 하나 넣어두면 Codex가 알아서 “이 프로젝트에서는 이런 걸 중점적으로 봐야 하는구나” 하고 학습해요.

디렉토리별로 다른 AGENTS.md를 넣을 수도 있어서, backend/AGENTS.md에는 보안 중심, frontend/AGENTS.md에는 접근성 중심으로 나눌 수도 있습니다.

4단계: 자동 리뷰 켜기

Codex 설정에서 “Automatic Reviews” 활성화. 새 PR이 올라오면 자동으로 리뷰해줍니다. 이걸 켜놓으면 출근길에 이미 리뷰 결과가 와 있어요.

출근길 루틴 (20분)

제가 실제로 하는 순서예요:

🕐 0-3분: 슬랙/GitHub 알림 확인
  → 어젯밤~오늘 아침 올라온 PR 목록 확인
  → Codex 자동 리뷰 결과 이미 달려 있음

🕐 3-8분: Codex 자동 리뷰 결과 검토
  → P0/P1 이슈 먼저 확인
  → AI가 찾은 보안 이슈, 에러 핸들링 누락 등
  → "이건 맞네" / "이건 오탐이네" 판단

🕐 8-15분: 추가 리뷰 요청
  → 자동 리뷰가 놓친 부분이 있으면
  → "@codex review for performance regressions" 코멘트
  → 특정 관점 리뷰 추가 요청

🕐 15-20분: 코멘트 작성 & Approve/Request Changes
  → Codex 리뷰 결과 + 내 판단 합쳐서 최종 코멘트
  → 간단한 건 Approve, 이슈 있으면 Request Changes

이게 가능한 이유는 Codex가 P0/P1 이슈만 기본으로 플래그하기 때문이에요. “이 변수명이 마음에 안 든다” 같은 사소한 건 안 잡고, 진짜 문제만 찝어줍니다.

퇴근길 루틴 (20분)

🕐 0-5분: 오늘 하루 동안 올라온 PR 확인
  → 자동 리뷰 결과 확인

🕐 5-15분: 클라우드 태스크 실행
  → "이 이슈 기반으로 PR 만들어줘" 지시
  → Codex가 클라우드에서 코드 작성 시작
  → 집 도착할 때쯤 PR 올라와 있음

🕐 15-20분: 내일 아침 할 일 정리
  → 리뷰 필요한 PR 북마크
  → 내일 출근길에 볼 것들 체크

퇴근길에는 “리뷰”보다 **”지시”**에 집중합니다. Codex한테 태스크 던져놓고, 집에 도착하면 결과를 확인하는 패턴.


Termly로 레벨업: 데스크톱 세션을 폰으로 미러링

여기서 한 단계 더 올라가는 방법이 있어요.

Termly이란? 데스크톱에서 실행 중인 AI 코딩 세션(Claude Code, Codex CLI, Copilot 등)을 스마트폰으로 미러링해주는 무료 앱입니다. AES-256-GCM 암호화로 코드가 외부 서버에 노출되지 않습니다.

ChatGPT 앱 내장 Codex는 “클라우드 태스크”에 최적화되어 있어요. 근데 로컬에서 돌리고 있는 Codex CLI 세션을 폰에서 보고 싶으면?

Termly를 쓰면 됩니다.

셋업 (60초)

# 1. CLI 설치
npm install -g @termly-dev/cli

# 2. 프로젝트 디렉토리에서 Codex를 Termly로 실행
termly codex

# 3. 폰에서 QR 코드 스캔
# → 끝. 데스크톱 Codex 세션이 폰에 미러링됨

이거 왜 좋으냐면요.

출근 전에 “이 PR의 테스트 커버리지 올려줘” 하고 Codex CLI 태스크를 던져놓잖아요. 그러면 Termly로 지하철에서 진행 상황을 실시간으로 볼 수 있어요. 코드 diff도 보이고, 에러 나면 바로 알 수 있고.

음성 입력도 되니까, 양손에 짐 들고 있어도 “이 함수에 에러 핸들링 추가해줘” 하면 됩니다. iOS 음성 인식 정확도가 96%라 꽤 잘 먹혀요.

ChatGPT 앱 vs Termly 비교

항목ChatGPT 앱 CodexTermly + Codex CLI
접근 방식클라우드 태스크 중심로컬 세션 미러링
GitHub 연동내장Codex CLI 통해
음성 입력지원지원
오프라인불가불가
보안OpenAI 클라우드AES-256-GCM E2E 암호화
가격ChatGPT 구독 포함무료
코드 노출OpenAI 서버 경유코드가 외부 서버에 안 감
용도PR 리뷰, 클라우드 태스크로컬 작업 원격 모니터링

저는 둘 다 씁니다.

  • PR 리뷰, 새 태스크 요청 → ChatGPT 앱 Codex
  • 데스크톱에서 돌려놓은 태스크 모니터링 → Termly

이렇게 역할 나누니까 출퇴근 40분이 꽤 알차졌어요.


가격: Plus면 충분한가?

Codex 모바일은 별도 비용이 아니라 기존 ChatGPT 구독에 포함입니다.

2026년 2월 기준 Codex 사용량 비교

항목Plus ($20/월)Pro ($200/월)
로컬 메시지45-225개 / 5시간300-1,500개 / 5시간
클라우드 태스크10-60개 / 5시간50-400개 / 5시간
코드 리뷰10-25건 / 주100-250건 / 주
모바일 사용동일 제한 적용동일 제한 적용

(출처: OpenAI Codex Pricing 공식 페이지, 2026년 2월 확인)

출퇴근 코드리뷰 루틴만 쓸 거면 Plus면 충분합니다.

계산해볼게요:

  • 주 5일 출퇴근 × PR 리뷰 2-3건/일 = 주 10-15건
  • Plus 주간 코드리뷰 한도: 10-25건
  • 여유 있게 커버됨

Pro가 필요한 경우는 하루에 PR 10건 이상 리뷰하거나, 클라우드 태스크를 대량으로 돌릴 때. 팀 리드급이 아니면 Plus로 충분해요.

참고로 Termly는 완전 무료입니다. 구독도 없고 결제도 없어요.


내가 느낀 점: 생각보다 다른 부분들

2주간 써보면서 예상과 달랐던 것들이 있어요.

좋았던 것

1. PR 블로킹 시간이 확 줄었다

전에는 PR 리뷰 요청 받고 → 회사 도착 → 미팅 → 밀린 일 → 리뷰. 평균 4-6시간 걸렸어요.

지금은 출근길에 Codex 자동 리뷰 결과 확인 + 내 판단 추가 → 30분-1시간 안에 피드백. 팀원 입장에서 이 차이가 크죠.

2. AGENTS.md가 리뷰 품질을 만든다

처음에 AGENTS.md 없이 쓰니까 너무 일반적인 리뷰가 왔어요. “이 함수가 좀 길어요” 수준.

AGENTS.md에 “우리 팀은 보안 이슈와 에러 핸들링을 최우선으로 본다” 한 줄 넣으니까 리뷰 품질이 확 달라졌어요. 프로젝트 맥락을 이해하고 봐주는 느낌.

3. 음성 입력이 생각보다 쓸만하다

“이 PR에서 인증 관련 변경사항만 집중해서 봐줘” 같은 자연어 지시를 음성으로 할 수 있어요. 타이핑보다 빠르고, 양손 자유롭고. iOS 96% 정확도가 체감됩니다.

아쉬웠던 것

1. 복잡한 아키텍처 리뷰는 한계가 있다

“이 서비스 간 통신 패턴이 맞는지” 같은 고수준 아키텍처 리뷰는 아직 사람이 봐야 합니다. Codex는 파일 단위, 함수 단위에서 강하고 시스템 단위에서는 약해요.

2. 모노레포에서 느려진다

규모가 큰 모노레포에서는 컨텍스트 로딩에 시간이 걸려요. 작은 레포에서는 3분이면 되는 리뷰가 대규모 레포에서는 5-7분 걸리기도.

3. 오탐이 가끔 있다

Codex가 “이거 보안 이슈입니다” 하는데 실제로는 의도된 동작인 경우가 있어요. 결국 사람의 판단이 필요합니다. AI 리뷰는 “1차 필터”이지 “최종 결정”은 아니에요.

4. 데이터 사용량 주의

시간당 180MB. LTE/5G 무제한 요금제면 괜찮은데, 제한 요금제면 주의하세요. 20분 루틴이면 약 60MB 정도 씁니다.


실전 시나리오 3가지

시나리오 1: 출근길 긴급 PR 리뷰

상황: 팀원이 핫픽스 PR을 밤 11시에 올림
       다음날 아침 배포 예정

출근길 (지하철 20분):
1. GitHub 알림 → Codex 자동 리뷰 이미 달려 있음
2. 리뷰 결과: P0 이슈 없음, P1 에러 핸들링 누락 1건
3. 내 판단: P1 이슈 확인, 코멘트 추가
4. Approve with comment

결과: 회사 도착 전에 리뷰 완료 → 팀원 오전 배포 가능

시나리오 2: 퇴근길 태스크 던지기

상황: 내일 미팅에서 필요한 유틸 함수가 아직 없음

퇴근길 (지하철 20분):
1. ChatGPT 앱 → Codex → 새 태스크
2. "rate-limiter 유틸 함수 만들어줘. Redis 기반, 
    슬라이딩 윈도우 알고리즘. 테스트 코드 포함"
3. Codex가 클라우드에서 작업 시작
4. 집 도착 → PR 올라와 있음 → 데스크톱에서 확인

결과: 이동 시간에 지시 → 집에서 검토 → 내일 미팅 준비 완료

시나리오 3: 주말 모니터링

상황: 금요일에 배포한 기능이 주말에 이슈 발생

주말 카페:
1. 슬랙 알림 → GitHub 이슈 확인
2. "@codex review for regression from PR #234" 코멘트
3. Codex가 해당 PR의 변경사항과 현재 이슈 분석
4. 원인 후보 3개 + 핫픽스 제안 받음
5. 간단한 수정이면 Codex한테 "Fix it" 지시

결과: 노트북 안 꺼내도 됨

GitHub Actions로 자동화 레벨업

수동으로 @codex review 코멘트 다는 것도 좋지만, CI/CD에 넣으면 더 편합니다.

기본 설정

# .github/workflows/codex-review.yml
name: Codex PR Review
on:
  pull_request:
    types: [opened, synchronize]

jobs:
  review:
    runs-on: ubuntu-latest
    steps:
      - uses: openai/codex-action@v1
        with:
          task: "Review this PR for security issues and error handling"
          model: "o4-mini"

이렇게 해놓으면 PR 올라올 때마다 자동으로 Codex가 리뷰합니다. 출근길에 폰 열면 이미 리뷰 결과가 와 있는 거예요.

AGENTS.md + GitHub Actions 조합

# AGENTS.md (리포지토리 루트)

## Review guidelines
- P0: 보안 취약점 (인증 우회, 인젝션, 민감 데이터 노출)
- P1: 에러 핸들링 누락, 리소스 릭, 레이스 컨디션
- P2: 성능 이슈 (N+1 쿼리, 불필요한 재렌더링)
- 무시: 코드 스타일, 변수명 (린터가 잡음)

이 조합이 왜 강력하냐면, AGENTS.md에 “우리 팀이 중요하게 보는 것”을 정의해놓으면 Codex가 그 맥락으로 리뷰한다는 거예요. 새 팀원이 와도 코드리뷰 기준이 일관적으로 유지됩니다.


Claude Code vs Codex 모바일 코드리뷰 비교

저는 평소에 Claude Code를 주력으로 쓰는 사람이라, 비교가 자연스러웠어요.

항목Codex 모바일Claude Code + Termly
네이티브 모바일ChatGPT 앱 내장Termly 앱 미러링
GitHub 연동네이티브 (1클릭)gh CLI 통해
PR 자동 리뷰@codex review 코멘트수동 또는 스크립트
AGENTS.md네이티브 지원CLAUDE.md (유사)
클라우드 태스크내장 (샌드박스)로컬 실행만
음성 입력네이티브 96%Termly 마이크 지원
비용Plus $20 포함Pro $20 + Termly 무료
코드 보안OpenAI 서버 경유로컬 + E2E 암호화
코드리뷰 품질P0/P1 집중, 실용적더 깊은 맥락 이해

제 결론은 이거예요:

  • PR 리뷰 자동화, GitHub 중심 워크플로우 → Codex가 편함
  • 로컬 코드 작업, 깊은 맥락 리뷰 → Claude Code가 나음
  • 출퇴근 모바일 루틴 → Codex가 압도적으로 편함 (네이티브니까)

둘 다 쓰면 제일 좋습니다. 역할이 다르니까요.


나의 고민: 이거 계속 써야 하나?

2주간 쓰면서 든 생각이 있어요.

처음엔 “와 이거 좋다” 했는데, 며칠 지나니까 묘한 기분이 들더라고요.

“내가 리뷰하는 건가, AI가 리뷰하는 건가?”

Codex 자동 리뷰 결과를 보고 “맞네” 하고 Approve 누르는 게… 과연 리뷰인 건가? 라는 질문이요.

그래서 제 룰을 하나 정했어요:

Codex는 1차 필터, 최종 판단은 내가 한다

Codex가 “문제없음” 했다고 무조건 Approve 안 합니다. 코드의 의도, 설계 방향, 팀 컨벤션 같은 건 AI가 다 볼 수 없으니까. 특히 “왜 이렇게 했는지”는 사람만 물어볼 수 있는 거예요.

Codex는 “이 코드에 보안 구멍 없어?” 같은 기계적 검증에서 시간을 아껴주는 도구. 그 아낀 시간에 “이 설계가 맞는 방향인가?”를 고민하는 게 제 역할이라고 생각합니다.


앞으로 내가 할 것들

2주 써보고 방향이 좀 보였어요.

1. AGENTS.md 고도화

지금은 기본적인 보안/에러 핸들링 룰만 넣어놨는데, 프로젝트별로 더 세밀하게 작성할 계획이에요. 특히 backend/AGENTS.md랑 frontend/AGENTS.md를 분리해서 각각 다른 관점으로 리뷰하게 할 예정.

2. 주간 리뷰 통계 자동화

“이번 주에 Codex가 잡은 이슈 몇 개, 오탐 몇 개” 같은 통계를 자동으로 뽑아서 AGENTS.md 튜닝에 반영하려고요. 피드백 루프를 만드는 거죠.

3. 팀 전체 도입 검토

지금은 저 혼자 쓰고 있는데, 효과가 확인되면 팀에 제안하려고요. 특히 주니어 개발자들의 PR에 Codex 자동 리뷰를 달아놓으면 시니어 리뷰 전에 기본적인 이슈를 잡아줄 수 있으니까.

4. Claude Code + Codex 하이브리드 워크플로우 최적화

  • 데스크톱: Claude Code로 코드 작성 + 리팩토링
  • 모바일: Codex로 PR 리뷰 + 태스크 관리
  • 모니터링: Termly로 데스크톱 세션 원격 확인

이 삼각 구조를 좀 더 다듬어볼 생각이에요.


FAQ

Q: Codex 모바일은 무료인가요?

A: ChatGPT Plus($20/월) 이상 구독에 포함됩니다. 별도 추가 비용은 없어요. 참고로 Termly는 완전 무료입니다.

Q: 오프라인에서도 되나요?

A: 안 됩니다. 인터넷 연결 필수예요. 지하철 중 Wi-Fi 안 되는 구간에서는 끊깁니다. 다만 태스크는 클라우드에서 계속 돌아가니까 연결 복구되면 결과 확인 가능해요.

Q: 회사 코드를 모바일로 보는 게 보안상 괜찮나요?

A: 두 가지 선택지가 있어요. ChatGPT 앱은 OpenAI 서버를 경유하므로 회사 정책 확인이 필요합니다. 보안이 민감하면 Termly(AES-256-GCM E2E 암호화, 코드가 외부 서버에 안 감)를 쓰는 게 나아요.

Q: Plus 주간 10-25건 코드리뷰, 부족하지 않나요?

A: 개인 프로젝트나 소규모 팀이면 충분합니다. 하루 2-3건 × 5일 = 주 10-15건이면 대부분 커버돼요. 대규모 팀 리드라면 Pro($200/월) 주 100-250건이 필요할 수 있습니다.

Q: Codex 리뷰만 믿고 Approve 해도 되나요?

A: 절대 안 됩니다. Codex는 기계적 검증(보안, 에러 핸들링, 패턴 위반)에 강하지만, 설계 의도나 비즈니스 로직 적합성은 사람이 판단해야 해요. 1차 필터로 쓰고, 최종 결정은 직접 하세요.

Q: Android에서도 잘 되나요?

A: 잘 됩니다. SWE-bench 정확도 기준 iPhone 15 Pro 73.8% vs Samsung S24 72.1%로 거의 차이 없어요. 음성 입력 정확도는 iOS 96% vs Android 94%로 약간 차이.


참고 자료


🏷️ 태그: #Codex #OpenAI #모바일코드리뷰 #출퇴근루틴 #개발생산성 #ChatGPT #AICodeReview #Termly #GitHubAutomation