GPT-5.3 Codex: OpenAI의 자율 코딩 에이전트
OpenAI는 2026년 2월 5일, 스스로를 구축하는 데 도움을 준 최초의 AI 모델인 GPT-5.3 Codex를 출시했습니다. Terminal-Bench 77.3%, SWE-Bench Pro 56.8%, 자율적인 수 시간 단위 코딩 세션 기능을 갖췄습니다. 기능, 벤치마크 및 Claude Code와의 상세 비교 분석을 확인하세요.
TL;DR
OpenAI는 2026년 2월 5일, Anthropic이 Opus 4.6을 발표한 것과 같은 날 GPT-5.3 Codex를 출시했습니다. 주요 지표는 다음과 같습니다:
- Terminal-Bench 2.0: 77.3% — 에이전틱(agentic) 터미널 코딩 부문에서 모든 모델을 선도
- SWE-Bench Pro: 56.8% — 4개 프로그래밍 언어 전체에서 최고 점수 기록
- OSWorld: 64.7% — 강력한 컴퓨터 사용 능력을 보여주나, Sonnet 4.6의 72.5%보다는 뒤처짐
- GPT-5.2 Codex 대비 25% 더 빠름
- 작업 중 상호작용 가능 — 컨텍스트를 잃지 않고 작업 중간에 에이전트의 방향을 수정 가능
- 최초의 셀프 부트스트래핑(self-bootstrapping) 모델 — GPT-5.3 Codex가 자체 학습 과정의 디버깅을 지원
- 유료 ChatGPT 플랜 사용자를 위한 Codex 앱, CLI 및 IDE 확장에서 사용 가능
- API 가격은 아직 미공개
OpenAI 발표 내용
GPT-5.3 Codex는 단순히 더 나은 코딩 모델에 그치지 않습니다. 디버깅, 배포, 모니터링, PRD 작성, 카피 편집, 테스트 실행 등 전체 소프트웨어 수명 주기 에이전트(full software lifecycle agent)로서 설계된 OpenAI의 첫 번째 모델입니다.
핵심 기능은 자율적인 장시간 실행 작업입니다. GPT-5.3 Codex에 복잡한 과업을 주면, 모델은 수 시간 동안 조사하고, 도구를 사용하며, 코드를 실행하고, 진행 상황에 따라 계획을 조정하며 작업을 수행합니다. 동료와 협업하는 것처럼 컨텍스트를 유지하면서 작업 중간에 지시를 내릴 수 있습니다.
OpenAI의 가장 파격적인 주장은 GPT-5.3 Codex가 "자신을 만드는 데 결정적인 역할을 한 최초의 모델"이라는 점입니다. Codex 팀은 초기 버전을 사용하여 자체 학습 파이프라인을 디버깅하고, 배포를 관리하며, 평가 결과를 진단했습니다.
Be first to build with AI
Y Build is the AI-era operating system for startups. Join the waitlist and get early access.
벤치마크
GPT-5.3 Codex가 앞서는 분야
| 벤치마크 | 테스트 항목 | GPT-5.3 Codex | 최고 경쟁 모델 |
|---|---|---|---|
| Terminal-Bench 2.0 | 에이전틱 터미널 코딩 | 77.3% | Gemini 3.1 Pro: 68.5% |
| SWE-Bench Pro | 다중 언어 코딩 | 56.8% | Gemini 3.1 Pro: 54.2% |
| HumanEval | 코드 생성 | 93% | — |
| GPQA | 과학적 추론 | 81% | Gemini 3.1 Pro: 94.3% |
전체 비교
| 벤치마크 | GPT-5.3 Codex | Opus 4.6 | Sonnet 4.6 | Gemini 3.1 Pro |
|---|---|---|---|---|
| Terminal-Bench 2.0 | 77.3% | 65.4% | 59.1% | 68.5% |
| SWE-Bench Pro | 56.8% | — | — | 54.2% |
| OSWorld | 64.7% | 72.7% | 72.5% | N/A |
| SWE-bench Verified | ~80% | 80.8% | 79.6% | 80.6% |
| ARC-AGI-2 | 52.9% | 68.8% | 58.3% | 77.1% |
수치의 의미
GPT-5.3 Codex는 에이전틱 터미널 코딩 분야에서 압도적인 성능을 보입니다. 이는 AI 에이전트가 코드베이스를 탐색하고, 명령어를 실행하며, 출력을 해석하고, 오류를 수정하며 반복 작업해야 하는 종류의 과업입니다. 77.3%의 Terminal-Bench 점수는 차순위 모델(Gemini 3.1 Pro, 68.5%)보다 약 9점 앞서며, Opus 4.6(65.4%)보다는 12점 앞섭니다.
그러나 컴퓨터 사용(computer use) 능력(OSWorld)에서는 Claude에 상당히 뒤처지는 모습(64.7% vs Sonnet 4.6의 72.5%)을 보입니다. 또한 추론(reasoning) 부문(ARC-AGI-2)에서도 Gemini 3.1 Pro(77.1%) 및 Opus 4.6(68.8%)에 비해 크게 뒤처져 있습니다.
주요 기능
1. 자율적인 수 시간 단위 세션
이전의 코딩 모델들은 짧은 호흡으로 작동했습니다. 사용자가 프롬프트를 입력하면 모델이 응답하고, 다시 사용자가 입력하는 방식이었습니다. GPT-5.3 Codex는 복잡한 작업에 대해 여러 단계에 걸쳐 워크플로우를 직접 관리하며 지속적으로 작업합니다.
워크플로우 예시: "인증 시스템을 JWT에서 OAuth 2.0으로 마이그레이션하고, 영향을 받는 모든 엔드포인트를 업데이트하고, 테스트를 작성한 뒤 마이그레이션이 작동하는지 확인해줘." GPT-5.3 Codex는 코드베이스를 조사하고, 마이그레이션을 계획하며, 파일별로 실행하고, 테스트를 돌려 실패를 수정하고 결과를 보고합니다. 이 과정은 잠재적으로 수 시간이 소요될 수 있습니다.
2. 인터랙티브 조향(Interactive Steering)
GPT-5.3 Codex가 작업하는 동안 컨텍스트를 잃지 않고 방향을 재설정할 수 있습니다. 모델이 잘못된 방향으로 가고 있다고 판단되면 방향 전환을 명령할 수 있으며, 대화는 끊김 없이 이어집니다.
3. 전체 소프트웨어 수명 주기
OpenAI는 GPT-5.3 Codex가 단순한 코드 작성을 넘어선 기능을 수행한다고 명시했습니다:
- 디버깅 — 에러 로그를 읽고 근본 원인을 추적하여 수정 사항 적용
- 배포 — 배포 파이프라인 및 설정 관리
- 모니터링 — 실행 중인 시스템의 문제 감시
- PRD 및 문서화 — 제품 요구 사항 정의서 및 문서 작성
- 사용자 조사 — 피드백 및 테스트 결과 요약
- 테스트 — 테스트 스위트 생성 및 실행
- 지표 분석 — 성능 데이터 분석
4. 셀프 부트스트래핑(Self-Bootstrapping)
GPT-5.3 Codex는 개발 과정에서 자신의 초기 버전을 활용하여 다음과 같은 작업을 수행했습니다:
- 학습 파이프라인 이슈 디버깅
- 모델 배포 관리
- 평가 결과 진단
- 수백만 개의 토큰을 사용해 자율적으로 게임 개발 반복 수행
AI 모델이 자신의 생성 과정에 기여했다고 공개적으로 설명된 것은 이번이 처음입니다.
GPT-5.3 Codex vs. Claude Code
| 기능 | GPT-5.3 Codex | Claude Code (Sonnet/Opus 4.6) |
|---|---|---|
| 터미널 코딩 | 77.3% | Opus: 65.4%, Sonnet: 59.1% |
| 컴퓨터 사용 | 64.7% | Sonnet: 72.5%, Opus: 72.7% |
| SWE-bench | ~80% | Opus: 80.8%, Sonnet: 79.6% |
| 수 시간 단위 자율성 | 예 | 제한적 |
| 인터랙티브 조향 | 예 | 예 |
| IDE 통합 | Codex IDE 확장 | Cursor, VS Code |
| CLI | Codex CLI | Claude Code CLI |
| 사무 작업 | 제한적 | Sonnet: 1633 Elo |
| 프롬프트 인젝션 방어 | 표준 | Opus 수준 |
| API 가격 | 미정 | $3/$15 (Sonnet), $15/$75 (Opus) |
- 장시간 실행되는 자율 코딩 작업(수 시간 단위 세션)이 필요한 경우
- 복잡한 도구 체인을 사용하는 터미널 중심의 워크플로우를 가진 경우
- 이미 OpenAI/ChatGPT 생태계를 사용 중인 경우
- 전체 소프트웨어 수명 주기 자동화를 원하는 경우
- 컴퓨터 사용 / 브라우저 자동화가 중요한 경우 (72.5% vs 64.7%)
- 코딩과 함께 사무 업무를 병행하는 경우
- 에이전트 보안이 중요한 경우 (더 우수한 프롬프트 인젝션 방어 능력)
- API 비용 예측 가능성($3/$15로 확정된 가격)이 필요한 경우
가용성
GPT-5.3 Codex는 다음 환경에서 유료 ChatGPT 플랜(Plus, Pro, Team, Enterprise) 사용자에게 제공됩니다:
- Codex 앱 (웹) — 전체 자율 에이전트 인터페이스
- Codex CLI — 터미널 기반 코딩 에이전트
- IDE 확장 — 에디터 내 통합
- API — 수 주 내 출시 예정 (가격 미정)
개발자에게 갖는 의미
AI 코딩 에이전트 경쟁이 본격화되었습니다
2026년 2월 5일, OpenAI와 Anthropic은 각각 GPT-5.3 Codex와 Claude Opus 4.6이라는 주요 모델을 같은 날 출시했습니다. 메시지는 명확합니다. 자율 코딩 에이전트가 가장 중요한 경쟁 전장이 되었다는 것입니다.
서로 다른 강점, 서로 다른 워크플로우
GPT-5.3 Codex는 장시간 세션에 걸친 자율적인 터미널 기반 코딩에 탁월합니다. Claude는 컴퓨터 사용, 오피스 통합 및 안전성에서 강점을 보입니다. Gemini 3.1 Pro는 추론 및 멀티모달 분야를 선도합니다.
대부분의 개발자에게 선택은 자신의 워크플로우에 달려 있습니다:
- CLI/터미널 작업 비중이 높음 → GPT-5.3 Codex
- 브라우저 자동화 + 복합 작업 → Claude Code
- 과학적/추론 중심 작업 → Gemini 3.1 Pro
모델은 시작일 뿐입니다
세 연구소 모두에서 나타나는 트렌드는 모델 하나만으로는 부족하다는 점입니다. 모델 주변에는 배포, 모니터링, 분석 및 성장 도구가 필요합니다. AI 코딩 에이전트가 코드를 작성하더라도, 제품을 출시하려면 전체 스택이 필요합니다.
구축한 것을 배포하세요. Y Build는 코드 이후의 모든 것(클릭 한 번으로 배포, 제품 영상을 위한 Demo Cut, AI SEO 및 분석)을 처리합니다. 어떤 AI 코딩 도구와도 함께 사용할 수 있습니다. 무료로 시작하기.
출처:
- OpenAI: Introducing GPT-5.3-Codex
- OpenAI: GPT-5.3-Codex System Card
- Fortune: OpenAI GPT-5.3 Codex raises cybersecurity risks
- MarkTechPost: GPT-5.3-Codex agentic coding model
- DataCamp: GPT-5.3 Codex from coding to general work agent
- OfficeChai: Gemini 3.1 Pro Benchmarks (GPT-5.3 comparison)
- LLM Stats: GPT-5.3 Codex pricing and benchmarks
Be first to build with AI
Y Build is the AI-era operating system for startups. Join the waitlist and get early access.