2026년 2월 7일 토요일, 주말 아침부터 앤트로픽이 사고를 쳤네요. (전 휴일 반납하고 이거 뜯어보고 있습니다...) 드디어 클로드 오퍼스 4.6이 베일을 벗었는데, 이건 단순히 성능 좀 좋아진 수준이 아니더라고요. 오픈AI의 GPT-5.2를 벤치마크에서 대놓고 눌러버렸는데, 15년 차 덕후 관점에서 소름 돋는 포인트만 딱 짚어드릴게요.
- 적응형 사고: 어려운 건 딥하게, 쉬운 건 빠르게 (지능 가성비 끝판왕)
- 100만 토큰: 책 수십 권 분량도 안 까먹고 정확히 짚어냄 (기억력 76% 달성)
- GPT-5.2 압살: GDPval-AA 벤치마크에서 경쟁 모델보다 144점 높음
똑똑하기만 한 시대는 끝, 이제 '눈치'까지 챙긴 오퍼스 4.6
그동안 AI 쓰면서 답답했던 게 뭐였나요? 간단한 질문에도 세상 진지하게 장문의 답변을 내놓느라 시간 쓰고 비용 쓰는 거였잖아요. 이번 오퍼스 4.6의 핵심은 '적응형 사고(Adaptive Thinking)'예요. 문제 난이도를 지가 스스로 판단해서 생각의 깊이를 조절하더라고요.
노력(Effort) 설정, 이제 사용자가 직접 조절해요
개발자라면 환호할 기능인데, 답변 생성 시 '노력' 단계를 4단계(Low to Max)로 세팅할 수 있어요. 굳이 풀파워가 필요 없는 단순 잡무에는 비용을 아끼고, 복잡한 아키텍처 짤 때는 '최대'로 올려서 딥하게 파고드는 거죠. 실제로 써보니 약 20% 정도 더 효율적으로 자원을 쓰는 느낌이랄까요?
데이터로 증명된 1등의 위엄 (vs GPT-5.2)
앤트로픽이 이번에 작정하고 지표를 공개했어요. 경제적 가치를 평가하는 GDPval-AA 점수에서 경쟁작인 GPT-5.2보다 144포인트나 높게 나왔더라고요. 전작인 4.5에 비하면 무려 190포인트나 점프했습니다. (이 정도면 거의 세대교체 급이죠?)
| 평가 모델 | GDPval-AA (점수) | 비고 |
|---|---|---|
| 클로드 오퍼스 4.6 | 상위 1위 탈환 | 적응형 사고 적용 |
| GPT-5.2 | -144 Elo | 추론 능력 대등 |
| 클로드 오퍼스 4.5 | -190 Elo | 이전 세대 |
맥락 부패(Context Rot)? 이제 남의 나라 이야기
대형 언어 모델의 고질병, 뒤로 갈수록 앞에 했던 말 까먹는 현상이죠. 이번 오퍼스 4.6은 100만 토큰 컨텍스트를 지원하면서 정확도를 76%까지 끌어올렸어요. 소넷 모델이 18.5%였던 거 생각하면... (이건 비교 자체가 실례인 수준이네요). 방대한 사규나 코드 베이스를 통째로 던져줘도 핵심을 기가 막히게 찾아냅니다.
결국 앤트로픽의 전략은 명확해요. "단순히 말 잘하는 AI가 아니라, 함께 일할 줄 아는 동료"를 만들겠다는 거죠. 클로드 코드 내의 '에이전트 팀' 기능을 보면 이건 그냥 AI가 아니라 자율적인 가상 팀에 가깝더라고요. 백문이 불여일견입니다. 지금 바로 API나 웹에서 한 번 돌려보세요. 멍청한 답변에 지쳤던 분들이라면 눈이 번쩍 뜨일 겁니다.
이 글이 도움 되셨나요?
더 궁금한 점은 댓글로 남겨주세요. 제가 아는 선에서 최대한 답변 드릴게요!
면책조항: 본 포스팅은 IT 기술 트렌드 공유를 목적으로 하며, 특정 서비스의 이용 결과나 성능을 보장하지 않습니다. 실제 성능은 사용 환경과 데이터의 특성에 따라 다를 수 있습니다.