ai 코딩 에이전트가 일하는 환경을 재구성하고 며칠 돌려보니 에이전트가 한결 일을 잘한다. 특히 claude code를 고려한 요소가 많다보니 claude code가 확연히 나아졌다.
소감.
-
claude code는 빨리 작업 마치는 데 초점을 맞추고 있다는 게 아주 잘 드러난다. codex에 비해 현저하게 단계 건너뛰고 대충(?) 일을 하려해서 workflow guard에게 매우 자주 걸린다. 그러다보니 토큰 사용량이 예전보다 늘었다.
-
claude code는 시야가 상당히 좁은데, 좋게 작용하면 작업에 집중하기 때문에 빠르게 쳐내고, 나쁘게 작용하면 안티 패턴을 양산한다.
-
codex도 규칙과 지침을 자주 빼먹긴 해서 ai 에이전트 종특(?)이라고 받아들이고, 누락하지 않게 자꾸 일러주는 존재를 구축해야 한다. (내 경우는 workflow guard)
-
claude code는 단순하게 보면 토큰 소비량이 늘었는데, 그래도 ralphloop 같은 거 태우는 것보다는 효율적이다. 그대신 작업 성공율이 늘었고, effort 수준을 낮췄기 때문에 총 토큰 소비량은 오히려 줄었다.
-
claude code가 작업을 마치는 시간이 2~3배 늘었다. 내가 뭔가 잘못 설계했나해서 고민하다가 “완수” 기준으로는 오히려 시간이 줄었다는 걸 깨닫고는 내가 도파민을 너무 찾는다고 반성했다.
-
claude code가 수시로 별도로 소환된 codex에게 지적받다보니 동작이 느려진 것에 반해 codex는 작업 중인 context 안에서 자기비판을 하다보니 상당히 자신에게 너그러운 판단을 한다. 그래서 codex가 claude code보다 작업 속도가 빨라졌다! 재밌긴 했지만, 곧 workflow guard를 개선해서 codex가 빠져나가는 틈을 줄였다.
-
codex도 단순하게 보면 토큰 소비량이 늘었지만, reasoning 수준을 한 단계 더 낮췄다. 지난 주엔 xhigh + high를 주로 썼지만, 이번 주엔 high + medium을 주로 쓰며, 까다로운 설계나 정책에 대해 리뷰하거나 디버깅할 때에 xhigh를 돌린다. 그래서 codex가 소비하는 총 토큰도 줄었다.
-
하지만 workflow에서 codex가 자주 동원되기 때문에 전체적인 codex 사용량이 늘었는데, openai가 서비스 장애를 이유로 자주 주간 제한을 초기화해줘서 여유롭다.
-
codex의 ux/ui 능력은 무척 떨어진다. 이건 어떻게 해도 별로 나아지지 않아서 포기. 구현을 얼추 마무리한 후에 claude code에 web-design-architect sub agent 로 따로 ux/ui 리팩토링하고 있다.
-
계속 workflow 구성은 개선하고 있다. workflow hub 자체를 관리하는 codex 세션을 만들어 자가발전하게 유지하고 있다. workflow hub 자체에 문제가 발견되면 일시와 상황을 설명하면 ai 에이전트들이 남기는 로그를 보고는 개선안을 모색하고, 실험(experiment ledger)을 세워서 검증한다.
-
다음 주쯤엔 회사에 공개하고 전파해도 될 것 같다.