안녕하세요, 에디터 쿼리즘입니다. 세상의 모든 이슈를 데이터로 쪼개다.
최근 클로드 오퍼스(Claude Opus) 4.7 업데이트 이후, 혹시 사이드 프로젝트로 코드를 짜다가 토큰 청구서를 보고 뒷목을 잡으신 분들 없으신가요? 여러분도 이런 경험 분명 있으실 겁니다. 복잡한 에이전트(Agent) 작업을 시키려니 기존의 high 모드는 묘하게 깊이가 부족하고, 그렇다고 max를 켰다가는 몇 시간 만에 지갑이 'max'로 털려버리는 아찔한 상황 말이죠.
저 역시 최근 대규모 코드베이스를 리팩토링하다가 토큰 비용 때문에 식은땀을 흘렸는데요. 마침 앤스로픽(Anthropic)이 우리 개발자들의 지갑 사정을 눈치챘는지 기가 막힌 옵션을 하나 던져줬습니다. 바로 오늘 데이터로 낱낱이 파헤쳐볼 xhigh 모드입니다.
비용과 지능의 아슬아슬한 줄다리기, 왜 xhigh일까?
오퍼스 4.6 시절에는 장시간 실행되는 프로그래밍 에이전트를 돌릴 때 선택지가 너무 극단적이었습니다. high를 쓰면 다중 파일 탐색 같은 복잡한 추론에서 엉뚱한 길로 빠지기 일쑤였고, max는 눈물 나는 비용을 감수해야 했죠.
response = client.beta.messages.create(
model="claude-opus-4-7",
max_tokens=128000,
output_config={
"effort": "xhigh",
"task_budget": {"type": "tokens", "total": 200000}
},
messages=[{"role": "user", "content": "Refactor the entire user authentication module"}],
betas=["task-budgets-2026-03-13"]
)
앤스로픽의 내부 벤치마크 데이터를 살펴볼까요?
오퍼스 4.7을 기준으로
xhigh 모드의 에이전트 코딩 성공률은 약 71%(약 10만 토큰 소모)를 기록했습니다. 반면 max 레벨은 성공률이 74.5%로 소폭 오르지만, 토큰은 20만 개 이상을 집어삼킵니다. 고작 3%의 성능 향상을 위해 비용을 두 배나 태우는 건 데이터 분석가 입장에서는 절대 용납할 수 없는 가성비입니다. 앤스로픽이 코딩 작업 시 이 모드를 '공식적인 시작점'으로 권장하는 데는 다 이유가 있었던 거죠.
데이터로 보는 5가지 Effort 레벨 비교
그렇다면 새로 추가된 이 녀석의 위치는 정확히 어디쯤일까요? 한눈에 보기 쉽게 표로 정리해 보았습니다.
기존 high 모드와의 결정적 차이 3가지
단순히 비용만 오르는 게 아닙니다. 이 모드는 클로드의 '적응형 사고(Adaptive Thinking)'를 훨씬 깊게 자극합니다. 모델 스스로 중간 결과를 성찰하고 실패한 경로를 되돌아가는 백트래킹(Backtracking) 빈도가 눈에 띄게 늘어납니다. 또한 코드베이스 전체를 훑어보는 탐색적 도구(grep, 종속성 추적 등) 호출에 훨씬 적극적이라, 30분 이상 걸리는 긴 작업에서도 길을 잃지 않고 끈질기게 목표를 향해 나아가는 뚝심을 보여줍니다.
실전 적용! 내 프로젝트에 200% 활용하는 비법
말로만 들으면 아쉬우니, 실제 프로젝트에 어떻게 적용하는지 차근차근 단계별로 알아보겠습니다. 기존에 세팅해 둔 코드가 있다면 지금 바로 수정해 보세요.
- 파라미터 추가하기:
OpenAI 호환 인터페이스를 사용 중이라면extra_body필드를 활용해야 합니다. 파이썬 코드 기준으로extra_body={"effort": "xhigh"}한 줄만 추가하면 마법이 시작됩니다. - 출력 공간 넉넉하게 확보하기 (가장 중요):
깊게 생각하는 만큼 출력할 데이터도 많아집니다.max_tokens를 4096 정도로 놔두면 십중팔구 중간에 말이 끊깁니다. 앤스로픽 공식 권장 사항인 64k 이상으로 시원하게 늘려주세요. - Claude Code CLI 기본값 체감하기:
4.7 업데이트 이후 Claude Code 터미널 도구는 기본값이 이미xhigh로 변경되었습니다. 평소보다 토큰이 빨리 닳는 느낌이 든다면 정상입니다. 대신 다중 파일 버그 수정 성공률이 극적으로 올라간 걸 경험하실 수 있을 겁니다. - 진행 상황 시각화 켜기:
응답이 길어지면 시스템이 멈춘 줄 오해하기 십상이죠.thinking.display = "summarized"옵션을 켜두면 클로드가 열심히 머리를 굴리는 과정을 사용자에게 보여줄 수 있어 사용자 경험이 훨씬 매끄러워집니다.
덧붙여, 동일한 프롬프트라도 4.7의 새로운 토크나이저(Tokenizer)는 이전 버전에 비해 약 1.3배 더 많은 토큰을 소모할 수 있습니다. 예산 산정 시 이 부분도 꼭 여유 버퍼를 두고 계산하시는 걸 추천합니다.
독자들이 가장 궁금해하는 질문들
글을 마무리하기 전, 현업 개발자분들이 제게 가장 많이 물어보시는 질문들을 모아 시원하게 답변해 드립니다.
Q. 무조건 xhigh를 쓰는 게 이득인가요?
A. 아닙니다! 단순한 JSON 추출이나 일상적인 Q&A에서는 오히려 '과잉 추론(Over-reasoning)'이 발생해 응답 속도만 느려집니다. 그런 작업에는 가볍게 medium이나 low를 섞어 쓰는 동적 라우팅 전략이 필요합니다.
Q. 이전 버전인 소넷 4.6에서도 사용할 수 있나요?
A. 아쉽게도 지원하지 않습니다. 이 모드는 오퍼스 4.7만의 독점 기능이며, 이전 모델 호출 시 오류(400 Error)를 뱉어냅니다.
Q. 응답 속도가 너무 답답해지지는 않을까요?
A. high 모드 대비 대략 50~80% 정도 지연이 발생할 수 있습니다. 하지만 장기적인 에이전트 작업을 생각해보세요. 속도는 느려져도 사람이 수동으로 개입해서 수정하는 시간이 확연히 줄어들기 때문에, 전체 프로젝트 완료 시간은 오히려 단축되는 마법을 경험하실 수 있습니다.
더 똑똑하게, 그리고 가볍게 코딩하는 법
오늘 준비한 데이터 분석은 여기까지입니다. 클로드 오퍼스 4.7의 이 영리한 기능은 비싼 토큰 요금 때문에 복잡한 코딩 자동화를 망설였던 우리에게 한 줄기 빛과도 같습니다. 지금 바로 여러분의 코드 에디터를 열고 API 세팅을 살짝 수정해 보세요. 아마 퇴근 시간이 훌쩍 앞당겨질지도 모릅니다. 🚀
지금까지 데이터를 요리하는 에디터, 쿼리즘이었습니다. 다음에도 알차고 통찰력 있는 테크 이슈로 찾아뵙겠습니다. 모두 버그 없는 평온한 하루 보내시길 바랄게요!
[본 아티클은 클로드 오퍼스 4.7 공식 기술 문서와 데이터 벤치마크를 기반으로 작성된 정보 제공 목적의 글이며, 개발 환경에 따른 실제 토큰 비용 및 성능 차이가 발생할 수 있습니다.]