Anthropic 엔지니어링 블로그 #3: Raising the bar on SWE-bench Verified — AI가 GitHub 이슈를 혼자 해결한다 2026년 5월 4일·3 분 AI 기술 SWE-Bench Claude 코딩에이전트 AI Anthropic 벤치마크 Claude 3.5 Sonnet이 AI 코딩 벤치마크 1위에 오른 비결. 모델만 좋아진 게 아니라, AI가 쓰는 도구를 잘 설계한 덕분이다.