GPT-5.3 Codex: OpenAI의 자율 코딩 에이전트

TL;DR

OpenAI는 2026년 2월 5일, Anthropic이 Opus 4.6을 발표한 것과 같은 날 GPT-5.3 Codex를 출시했습니다. 주요 지표는 다음과 같습니다:

Terminal-Bench 2.0: 77.3% — 에이전틱(agentic) 터미널 코딩 부문에서 모든 모델을 선도
SWE-Bench Pro: 56.8% — 4개 프로그래밍 언어 전체에서 최고 점수 기록
OSWorld: 64.7% — 강력한 컴퓨터 사용 능력을 보여주나, Sonnet 4.6의 72.5%보다는 뒤처짐
GPT-5.2 Codex 대비 25% 더 빠름
작업 중 상호작용 가능 — 컨텍스트를 잃지 않고 작업 중간에 에이전트의 방향을 수정 가능
최초의 셀프 부트스트래핑(self-bootstrapping) 모델 — GPT-5.3 Codex가 자체 학습 과정의 디버깅을 지원
유료 ChatGPT 플랜 사용자를 위한 Codex 앱, CLI 및 IDE 확장에서 사용 가능
API 가격은 아직 미공개

OpenAI 발표 내용

GPT-5.3 Codex는 단순히 더 나은 코딩 모델에 그치지 않습니다. 디버깅, 배포, 모니터링, PRD 작성, 카피 편집, 테스트 실행 등 전체 소프트웨어 수명 주기 에이전트(full software lifecycle agent)로서 설계된 OpenAI의 첫 번째 모델입니다.

핵심 기능은 자율적인 장시간 실행 작업입니다. GPT-5.3 Codex에 복잡한 과업을 주면, 모델은 수 시간 동안 조사하고, 도구를 사용하며, 코드를 실행하고, 진행 상황에 따라 계획을 조정하며 작업을 수행합니다. 동료와 협업하는 것처럼 컨텍스트를 유지하면서 작업 중간에 지시를 내릴 수 있습니다.

OpenAI의 가장 파격적인 주장은 GPT-5.3 Codex가 "자신을 만드는 데 결정적인 역할을 한 최초의 모델"이라는 점입니다. Codex 팀은 초기 버전을 사용하여 자체 학습 파이프라인을 디버깅하고, 배포를 관리하며, 평가 결과를 진단했습니다.

벤치마크

GPT-5.3 Codex가 앞서는 분야

벤치마크	테스트 항목	GPT-5.3 Codex	최고 경쟁 모델
Terminal-Bench 2.0	에이전틱 터미널 코딩	77.3%	Gemini 3.1 Pro: 68.5%
SWE-Bench Pro	다중 언어 코딩	56.8%	Gemini 3.1 Pro: 54.2%
HumanEval	코드 생성	93%	—
GPQA	과학적 추론	81%	Gemini 3.1 Pro: 94.3%

전체 비교

벤치마크	GPT-5.3 Codex	Opus 4.6	Sonnet 4.6	Gemini 3.1 Pro
Terminal-Bench 2.0	77.3%	65.4%	59.1%	68.5%
SWE-Bench Pro	56.8%	—	—	54.2%
OSWorld	64.7%	72.7%	72.5%	N/A
SWE-bench Verified	~80%	80.8%	79.6%	80.6%
ARC-AGI-2	52.9%	68.8%	58.3%	77.1%

수치의 의미

GPT-5.3 Codex는 에이전틱 터미널 코딩 분야에서 압도적인 성능을 보입니다. 이는 AI 에이전트가 코드베이스를 탐색하고, 명령어를 실행하며, 출력을 해석하고, 오류를 수정하며 반복 작업해야 하는 종류의 과업입니다. 77.3%의 Terminal-Bench 점수는 차순위 모델(Gemini 3.1 Pro, 68.5%)보다 약 9점 앞서며, Opus 4.6(65.4%)보다는 12점 앞섭니다.

그러나 컴퓨터 사용(computer use) 능력(OSWorld)에서는 Claude에 상당히 뒤처지는 모습(64.7% vs Sonnet 4.6의 72.5%)을 보입니다. 또한 추론(reasoning) 부문(ARC-AGI-2)에서도 Gemini 3.1 Pro(77.1%) 및 Opus 4.6(68.8%)에 비해 크게 뒤처져 있습니다.

주요 기능

1. 자율적인 수 시간 단위 세션

이전의 코딩 모델들은 짧은 호흡으로 작동했습니다. 사용자가 프롬프트를 입력하면 모델이 응답하고, 다시 사용자가 입력하는 방식이었습니다. GPT-5.3 Codex는 복잡한 작업에 대해 여러 단계에 걸쳐 워크플로우를 직접 관리하며 지속적으로 작업합니다.

워크플로우 예시: "인증 시스템을 JWT에서 OAuth 2.0으로 마이그레이션하고, 영향을 받는 모든 엔드포인트를 업데이트하고, 테스트를 작성한 뒤 마이그레이션이 작동하는지 확인해줘." GPT-5.3 Codex는 코드베이스를 조사하고, 마이그레이션을 계획하며, 파일별로 실행하고, 테스트를 돌려 실패를 수정하고 결과를 보고합니다. 이 과정은 잠재적으로 수 시간이 소요될 수 있습니다.

2. 인터랙티브 조향(Interactive Steering)

GPT-5.3 Codex가 작업하는 동안 컨텍스트를 잃지 않고 방향을 재설정할 수 있습니다. 모델이 잘못된 방향으로 가고 있다고 판단되면 방향 전환을 명령할 수 있으며, 대화는 끊김 없이 이어집니다.

3. 전체 소프트웨어 수명 주기

OpenAI는 GPT-5.3 Codex가 단순한 코드 작성을 넘어선 기능을 수행한다고 명시했습니다:

디버깅 — 에러 로그를 읽고 근본 원인을 추적하여 수정 사항 적용
배포 — 배포 파이프라인 및 설정 관리
모니터링 — 실행 중인 시스템의 문제 감시
PRD 및 문서화 — 제품 요구 사항 정의서 및 문서 작성
사용자 조사 — 피드백 및 테스트 결과 요약
테스트 — 테스트 스위트 생성 및 실행
지표 분석 — 성능 데이터 분석

4. 셀프 부트스트래핑(Self-Bootstrapping)

GPT-5.3 Codex는 개발 과정에서 자신의 초기 버전을 활용하여 다음과 같은 작업을 수행했습니다:

학습 파이프라인 이슈 디버깅

모델 배포 관리

평가 결과 진단

수백만 개의 토큰을 사용해 자율적으로 게임 개발 반복 수행

AI 모델이 자신의 생성 과정에 기여했다고 공개적으로 설명된 것은 이번이 처음입니다.

GPT-5.3 Codex vs. Claude Code

기능	GPT-5.3 Codex	Claude Code (Sonnet/Opus 4.6)
터미널 코딩	77.3%	Opus: 65.4%, Sonnet: 59.1%
컴퓨터 사용	64.7%	Sonnet: 72.5%, Opus: 72.7%
SWE-bench	~80%	Opus: 80.8%, Sonnet: 79.6%
수 시간 단위 자율성	예	제한적
인터랙티브 조향	예	예
IDE 통합	Codex IDE 확장	Cursor, VS Code
CLI	Codex CLI	Claude Code CLI
사무 작업	제한적	Sonnet: 1633 Elo
프롬프트 인젝션 방어	표준	Opus 수준
API 가격	미정	$3/$15 (Sonnet), $15/$75 (Opus)

다음과 같은 경우 GPT-5.3 Codex를 선택하세요:

장시간 실행되는 자율 코딩 작업(수 시간 단위 세션)이 필요한 경우
복잡한 도구 체인을 사용하는 터미널 중심의 워크플로우를 가진 경우
이미 OpenAI/ChatGPT 생태계를 사용 중인 경우
전체 소프트웨어 수명 주기 자동화를 원하는 경우

다음과 같은 경우 Claude Code를 선택하세요:

컴퓨터 사용 / 브라우저 자동화가 중요한 경우 (72.5% vs 64.7%)
코딩과 함께 사무 업무를 병행하는 경우
에이전트 보안이 중요한 경우 (더 우수한 프롬프트 인젝션 방어 능력)
API 비용 예측 가능성($3/$15로 확정된 가격)이 필요한 경우

가용성

GPT-5.3 Codex는 다음 환경에서 유료 ChatGPT 플랜(Plus, Pro, Team, Enterprise) 사용자에게 제공됩니다:

Codex 앱 (웹) — 전체 자율 에이전트 인터페이스
Codex CLI — 터미널 기반 코딩 에이전트
IDE 확장 — 에디터 내 통합
API — 수 주 내 출시 예정 (가격 미정)

현재 무료 티어 접근은 제공되지 않습니다.

개발자에게 갖는 의미

AI 코딩 에이전트 경쟁이 본격화되었습니다

2026년 2월 5일, OpenAI와 Anthropic은 각각 GPT-5.3 Codex와 Claude Opus 4.6이라는 주요 모델을 같은 날 출시했습니다. 메시지는 명확합니다. 자율 코딩 에이전트가 가장 중요한 경쟁 전장이 되었다는 것입니다.

서로 다른 강점, 서로 다른 워크플로우

GPT-5.3 Codex는 장시간 세션에 걸친 자율적인 터미널 기반 코딩에 탁월합니다. Claude는 컴퓨터 사용, 오피스 통합 및 안전성에서 강점을 보입니다. Gemini 3.1 Pro는 추론 및 멀티모달 분야를 선도합니다.

대부분의 개발자에게 선택은 자신의 워크플로우에 달려 있습니다:

CLI/터미널 작업 비중이 높음 → GPT-5.3 Codex

브라우저 자동화 + 복합 작업 → Claude Code

과학적/추론 중심 작업 → Gemini 3.1 Pro

모델은 시작일 뿐입니다

세 연구소 모두에서 나타나는 트렌드는 모델 하나만으로는 부족하다는 점입니다. 모델 주변에는 배포, 모니터링, 분석 및 성장 도구가 필요합니다. AI 코딩 에이전트가 코드를 작성하더라도, 제품을 출시하려면 전체 스택이 필요합니다.

구축한 것을 배포하세요. Y Build는 코드 이후의 모든 것(클릭 한 번으로 배포, 제품 영상을 위한 Demo Cut, AI SEO 및 분석)을 처리합니다. 어떤 AI 코딩 도구와도 함께 사용할 수 있습니다. 무료로 시작하기.

출처: