↓ 본문으로 건너뛰기

Evaluation

Anthropic 엔지니어링 블로그 #19: Infrastructure Noise in Agentic Coding Evals — 벤치마크 점수, 그거 진짜 모델 차이인가요?

2026년 5월 8일 · 4분 읽기 · #Evaluation #Benchmark

Anthropic 엔지니어링 블로그 #17: AI-Resistant Technical Evaluations — AI가 못 푸는 기술 면접 문제 만들기

2026년 5월 8일 · 4분 읽기 · #Evaluation #Anthropic