Claude Sonnet 5 발표, Opus 4.8을 매번 쓰지 않아도 될까? 가격·벤치마크 비교

6월 30일, 엔트로픽이 새로운 소넷 모델인 Claude Sonnet 5 를 깜짝 발표했습니다.

https://www.anthropic.com/news/claude-sonnet-5

가격, 벤치마크, Fable 5와 Mythos 5 이슈, 그리고 GPT-5.6 발표 직후라는 타이밍까지 같이 보면 꽤 흥미로운 흐름이 보입니다.

Sonnet 5 어떤 특징을 갖고 있을까? 가장 에이전틱하다.

이번 Sonnet 5의 핵심은 이제 일상적인 에이전트 작업에서 굳이 매번 Opus급 모델을 써야 하느냐라는 질문을 던지는 모델에 가깝다고 봅니다.

Claude Sonnet 5는 2026년 6월 30일 Anthropic이 공개한 새로운 Sonnet 계열 모델입니다. API 모델명은 claude-sonnet-5이며, Claude.ai, Claude Code, Claude Platform, AWS, Google Vertex, Microsoft Foundry 등에서 사용할 수 있는 것으로 정리되어 있습니다.

Anthropic은 이번 모델을 “역대 가장 에이전틱한 Sonnet”에 가깝게 소개하고 있습니다. 여기서 에이전틱하다는 말은 단순히 답변을 잘한다는 뜻이 아닙니다. 계획을 세우고, 도구를 사용하고, 브라우저나 터미널을 다루면서, 여러 단계의 작업을 끝까지 이어가는 능력에 가깝습니다.

clipboard-image-20260701T080003-1 — 에이전틱 Sonnet 설명

이 부분이 중요한 이유는 실제 개발이나 업무 자동화에서 우리가 원하는 것이 단순한 채팅 답변이 아니기 때문입니다. 버그를 찾고, 원인을 추적하고, 수정안을 만들고, 테스트하고, 다시 검증하는 흐름을 얼마나 안정적으로 이어가느냐가 더 중요합니다.

기존 Sonnet 계열도 충분히 좋았지만, 복잡한 작업에서는 중간에 멈추거나, 표면적인 수정만 하고 끝나는 경우가 있었습니다. 그래서 정말 중요한 작업에서는 Opus를 쓰게 되는 경우가 많았습니다. 문제는 비용입니다. Opus급 모델은 강력하지만, 반복적으로 쓰기에는 부담이 큽니다.

Sonnet 5는 바로 이 사이에 들어오는 모델입니다.

“Opus를 쓰기엔 비싸고, 기존 Sonnet으로는 살짝 부족했던 작업들.”

이 구간을 노린 모델이라고 볼 수 있습니다.

가격은 확실히 공격적입니다

Sonnet 5의 가격은 인트로 기간과 정가가 나뉘어 있습니다.

표면적으로 보면 인트로 가격 기준으로 Sonnet 5는 Opus 4.8보다 약 60% 저렴합니다. 정가로 올라간 뒤에도 약 40% 정도 낮은 가격대입니다.

이 가격 차이는 꽤 큽니다. 특히 Claude Code처럼 반복적으로 모델을 호출하는 환경에서는 체감 차이가 더 커질 수 있습니다. 한두 번 질문하는 정도라면 큰 차이가 아닐 수 있지만, 하루 종일 코드 수정, 로그 분석, 문서 정리, 테스트 자동화 같은 작업을 돌린다면 이야기가 달라집니다.

clipboard-image-20260701T075454-1 — 출처 : Anthropic 페이지

다만 여기서 한 가지 조심해야 할 부분이 있습니다. Sonnet 5는 업데이트된 토크나이저를 사용하기 때문에, 같은 텍스트라도 이전 모델보다 더 많은 토큰으로 계산될 수 있다는 이야기가 있습니다. 자료상으로는 같은 텍스트가 약 1.0배에서 1.35배 정도 더 많은 토큰으로 매핑될 수 있다고 정리되어 있습니다.

실제로 기존의 Opus 4.7 때도 기존 4.6 에 비해서 단순 토큰당 비용이 비싸진 않았지만 실제 수행을 해보면 작업 자체가 엄청나게 많이 발생하면서 비용이 많이 나오는 구조였죠.

그래서 단순히 “가격이 40~60% 싸졌다”라고만 보면 안 됩니다. 실제 비용은 내가 넣는 입력의 길이, 출력량, 캐시 사용 여부, 그리고 토크나이저 차이까지 같이 봐야 합니다.

그래도 큰 흐름은 분명합니다. Sonnet 5는 Opus 4.8보다 훨씬 낮은 비용으로, 상당히 많은 에이전트 작업을 처리할 수 있는 위치를 노리고 있습니다.

벤치마크는 “Opus를 완전히 이겼다”보다는 “많이 가까워졌다”에 가깝습니다

벤치마크를 보면 Sonnet 5의 방향이 더 명확해집니다.

자료에 따르면 Sonnet 5는 SWE-bench, Terminal-Bench, GDPval, HLE with tools 같은 여러 항목에서 기존 Sonnet 4.6보다 크게 개선된 것으로 정리되어 있습니다. 특히 터미널 기반 에이전트 작업이나 금융·지식 업무형 평가에서는 Opus 4.8과 근접하거나, 일부 항목에서는 앞서는 결과도 언급되고 있습니다.

clipboard-image-20260701T075426-1 — 출처 : Anthropic 홈페이지

여기서 중요한 것은 “Sonnet 5가 Opus 4.8을 완전히 대체한다”가 아닙니다.

오히려 정확한 표현은 이쪽에 가깝습니다.

대부분의 일상적인 에이전트 작업에서 Opus 4.8에 상당히 가까워졌다.

이 차이는 꽤 중요합니다. 왜냐하면 실제 사용에서는 언제나 최고 성능만 중요한 것이 아니기 때문입니다. 비용, 속도, 실패했을 때 다시 돌릴 수 있는 부담, 반복 작업의 안정성까지 같이 봐야 합니다.

예를 들어 복잡한 아키텍처 변경이나 매우 어려운 버그 추적, 보안과 관련된 작업이라면 여전히 Opus 4.8을 쓰는 것이 맞을 수 있습니다. 하지만 일반적인 코드 수정, 문서 분석, PR 리뷰, 간단한 리팩터링, 자동화 플로우 설계라면 Sonnet 5가 훨씬 현실적인 기본값이 될 수 있습니다.

저희 팀의 서비스인 SAM 에도 바로 추가해놓고 자체 벤치마크 내용을 정리해보니 다음과 같이 나오네요.

Fable 5와 Mythos 5 이슈와 같은 날 발표됐다는 점도 흥미롭습니다

이번 Sonnet 5 발표에서 또 하나 눈에 띄는 부분은 타이밍입니다.

자료를 보면 2026년 6월 30일에는 Sonnet 5 발표와 함께 Fable 5, Mythos 5 수출통제 해제 소식도 같이 정리되어 있습니다. Fable 5와 Mythos 5는 이전에 사이버보안 관련 이슈로 접근이 제한되었던 모델로 알려져 있었고, 18일간의 차단 이후 다시 해제된 흐름으로 정리됩니다.

여기서 조심해야 할 점은, 이 두 사건의 인과관계를 단정하면 안 된다는 것입니다.

Sonnet 5가 Fable 5 이슈 때문에 급하게 나온 것인지, GPT-5.6 발표에 대응하기 위해 나온 것인지, 원래 계획된 출시였는지는 외부에서 확정하기 어렵습니다. 다만 같은 시기에 이런 일이 겹쳤다는 점은 제품 포지셔닝 측면에서 꽤 흥미롭습니다.

Fable 5와 Mythos 5가 강력하지만 민감한 모델이었다면, Sonnet 5는 상대적으로 더 넓은 사용자에게 제공할 수 있는 “일상 업무용 에이전트 모델” 에 가깝게 보입니다.

강력하지만 너무 위험한 방향으로 가지 않으면서, 개발자와 일반 사용자가 반복적으로 쓸 수 있는 기본 모델.

Anthropic이 Sonnet 5를 어떤 의도로 배치했는지 단정할 수는 없지만, 결과적으로는 그런 역할을 맡고 있는 것으로 보입니다.

GPT-5.6 Terra와도 직접 비교될 수밖에 없습니다

Sonnet 5의 또 다른 경쟁 상대는 Opus 4.8만이 아닙니다.

OpenAI가 GPT-5.6 Sol, Terra, Luna 라인을 공개한 직후라는 점을 보면, Sonnet 5는 GPT-5.6 Terra와도 자연스럽게 비교될 수밖에 없습니다. Terra가 일상 업무와 비용 효율을 노린 모델이라면, Sonnet 5 역시 비슷한 영역을 겨냥하고 있습니다.

결국 지금의 AI 모델 경쟁은 단순히 “누가 제일 똑똑한가”에서 조금씩 벗어나고 있습니다.

이제는 이런 질문이 더 중요해지고 있습니다.

같은 비용으로 얼마나 많은 작업을 처리할 수 있는가

긴 작업을 얼마나 안정적으로 완수하는가

코딩, 문서, 브라우저, 터미널 작업을 얼마나 자연스럽게 이어가는가

사용자가 매일 기본값으로 쓸 수 있는가

최고 성능 모델과 저가형 모델 사이를 어떻게 나눌 것인가

이 관점에서 보면 Sonnet 5는 단순한 중간급 모델이 아닙니다. 오히려 Anthropic이 “일상 에이전트 작업의 기본값”을 다시 잡으려는 모델에 가깝습니다.

즉 Terra 가 대중에게 공개되었을때 대부분의 개발자들을 만족시킬 에이전틱한 업무 수행의 모델의 대결에서 Sonnet 5 와 GPT 5.6 테라중 어떤 모델이 더 대중들의 선택을 받게 될지도 흥미진진한 관전 포인트가 될 것 같습니다.

마치며..

사용자 입장에서는 새로운 모델이 나오고 서로 경쟁하는 것은 상당히 환영할만한 일입니다. 다만, 이제는 약간 서로 비슷해지고 있는 것이 아닌가? 하면서 다음은 또 어떤 선택을 하게 될지도 궁금합니다.

소넷 5가 나오고 커뮤니티들의 반응을 살펴보다보니 " 소넷5의 장점은 우리가 엔트로픽에 기대하는 것이 아니다!!" , "이러한 행보는 중국산 모델들이나 하려는 것이다!!" , "엔트로픽의 고뇌가 느껴진다. 성장이 멈춘 것 같다!!" 라는 이야기도 나오는 것이 신기한 것 같습니다.

어쩌면 우리는 AI 모델들이 지난 2년동안 엄청나게 빠르게 발전해오면서 엄청난 생산성의 발전을 보여준 것을 너무 당연하게 생각하는 것 같기도 합니다.

하지만 이제 소넷5가 막 나왔기 때문에 실제로 써보면서 어쩌면 가장 적절한 모델이 나온것이 아닐까 생각이 들면서, 저도 서비스하고있는 AI 라우팅 서비스인 SAM 에 바로 적용을 해놨는데 사용자분들이랑 한번 써보면서 후기등을 확인해봐야겠습니다.