최근에 나는 Codex에겐 일을 맡기고, Claude Code에겐 일을 시킨다.

Codex 주간 제한이 아슬아슬하여 간단한 구현을 Claude Code에게 시키고 있는데, 얘가 작업하는 내내 마음이 조마조마하고 불안해서 계속 지켜보게 된다.

그리고, 역시나... 너무 대충 구현하여 자꾸 지적하게 된다. ㅜㅜ

새 구현은 제멋대로 구현해서 문제고, 기존 구현은 자꾸 코드 날려서 문제고.

가장 심각한 건, 통과(구현 완료) 기준을 자기 멋대로 정한 뒤 그걸 통과하는 최적의 방법으로 구현한다는 점이다. 내 요구사항을 무시하거나 누락할지라도, 심지어 하지 말라고 지시한 것조차도 수행하면서까지 자기 기준으로 통과하는 데 집중한다.

예를 들어, 명확하게 문자열값 Enum을 지시해도 string으로 통일해버린다. 테스트 코드도 제멋대로 문자열 비교를 해버리니 당연히 구현도 빠르고 검증도 단순하다. 그래서 Enum화하라고 지시하면 적용하면서 테스트가 와장창 깨지고, 그게 몇 번 반복되면 놀랍게도 다시 string으로 바꾸거나 fake Enum 꼼수를 모색한다.

물론 loop를 여러 번 태우면 저런 단순한 요구사항은 결국 지켜진다. 근데 그 loop에서 소모되는 토큰을 생각하면 단순한 작업을 하는 것치고 너무 비싸다.

같은 요구사항에 대해 Codex는 훨씬 낫다. 작업 전에 기존 구현을 일부 먼저 파악한 후(이건 Claude Code도 수행한다. AI 지침으로 동일하게 들어가 있으니까) Enum을 미리 제안하며, 놓치는 걸 지적하면 대개 1회 턴으로 정리된다. 이런 건 무척 간단하고 단순한 일이라 reasoning을 high는 커녕 medium으로 해도 충분하다.

그래서 결과물 기준으로 놓고보면 시간이든 토큰이든 Claude Code가 1.5~3배 정도 비싸다.

에이전트 도구로써 Claude Code 자체는 좋다. Codex가 구리기도 하지만, 편의성이나 유용한 기능이 빨리 빨리 들어오기도 한다. 근데 까다롭거나 복잡한 일을 믿고 맡기지 못하겠다.

이번 달까지는 타이핑하기 귀찮은 일은 Claude Code에게 맡기며 지켜보고 Plan 취소 여부를 결정해야겠다. 그런 단순한 일은 그래도 여전히 괜찮게 하지만, 그 정도는 좀 더 저렴한 모델로도(kimi 2.5라든가) 꽤 잘하기 때문이다. Codex의 reasoning 수준을 낮춰도 되고, Codex App으로는 (4월 2일까지) 2배 제한 rate라서 훨씬 저렴하다.

Claude Code 애호가였던 내가 이 정도까지 불신하며 기피하게 되다니, 그것도 불과 두 달 사이에.

0

If you have a fediverse account, you can quote this note from your own instance. Search https://hackers.pub/ap/notes/019cd2fc-e8a9-773e-b0e0-f8da04fecd0e on your instance and quote it. (Note that quoting is not supported in Mastodon.)