Benchmark
#ai-news
Anthropic 엔지니어링 블로그 #20: Eval Awareness — Claude가 자기가 평가받고 있다는 걸 알아챈 사건
💬 -
#ai-news
Anthropic 엔지니어링 블로그 #19: Infrastructure Noise in Agentic Coding Evals — 벤치마크 점수, 그거 진짜 모델 차이인가요?
💬 -