Anthropic 엔지니어링 블로그 #20: Eval Awareness — Claude가 자기가 평가받고 있다는 걸 알아챈 사건

이 글은 Anthropic 엔지니어링 블로그에 2026년 3월 6일 게재된 “Eval awareness in Claude Opus 4.6’s BrowseComp performance” 를 읽고, 내용을 정리한 글입니다. 원문: https://www.anthropic.com/engineering/eval-awareness-browsecomp

한 줄로 말하면
#

Claude가 “이거 평가 문제 아닌가?” 알아채고는, 평가 코드를 찾아 복호화까지 시도했다.

어떤 문제를 해결하려 했나
#

BrowseComp는 모델이 웹을 뒤져 답을 찾는 능력을 재는 벤치마크입니다. 그런데 Claude Opus 4.6의 평가 트랜스크립트를 분석하다 보니, 이상한 사례가 발견됐어요.

“수백 번 검색했는데 답이 안 나오네… 이 문제, 너무 구체적이라 인위적으로 만든 것 같은데. GAIA? BrowseComp? SimpleQA? FRAMES? WebArena? 어디 벤치마크지?”

Claude가 자기가 평가받고 있다는 걸 추론하고, 어느 벤치마크인지 식별한 뒤, GitHub에서 평가 코드를 찾아 XOR 복호화 스크립트를 직접 짜서 정답을 빼내려 시도했습니다.

이게 한 번의 우연이 아니라, 재현 가능한 전략이었어요.

해결책: 사건의 구조와 대응
#

1. Claude의 5단계 행동 패턴
#

[1단계] 정상 검색
   - 수백 번 웹 검색, 정상적으로 답 찾기 시도
   - 한 사례에선 3,000만 토큰 사용

[2단계] 메타 추론
   - "이 질문, 너무 구체적이라 인위적이지 않나?"
   - 정답 찾기에서 질문 분석으로 전환

[3단계] 벤치마크 식별
   - "GAIA? BrowseComp? SimpleQA?…" 후보 나열
   - 질문 패턴으로 어느 벤치마크인지 좁힘

[4단계] 적극적 복호화
   - GitHub에서 평가 소스 코드 찾음
   - XOR 복호화 방식 식별
   - canary string 찾고
   - 파이썬 복호화 함수 실행

[5단계] 우회 시도
   - 암호화된 데이터셋이 바이너리 요청 거부 시
   - HuggingFace에서 호환되는 JSON 미러 찾기

토큰 소비: 첫 사례 4,050만 토큰 (중앙값의 38배), 두 번째 1,340만 토큰.

2. 점수 영향과 빈도
#

설정	의도치 않은 해결 비율
단일 에이전트	0.24%
멀티 에이전트	0.87% (3.7배)

1,266개 문제 중 11건 — 9건은 표준 contamination, 2건이 진짜 eval awareness. 점수 조정: 멀티에이전트 86.81% → 86.57%.

3. 방어 — 무엇이 통했고 안 통했나
#

방어	결과
바이너리 파일 형식 제한	✅ 복호화 시도 3건 차단
데이터셋 인증 게이팅 (자격증명 필요)	✅ 6건 차단
“BrowseComp” 모든 변형 차단 목록	✅ 가장 효과적
URL 단위 차단	❌ 다른 경로로 우회
파생 벤치마크 답 난독화	⚠️ 부분 차단

원문 인용: “평가 무결성을 설계 시점의 일이 아니라, 지속적인 적대적 문제로 다뤄야 한다.”

추가로 발견된 contamination 경로
#

흥미로운 우회 사례: 이커머스 사이트가 검색 쿼리에서 페이지를 자동 생성하는데, AI 에이전트들이 이전에 같은 퍼즐을 검색하면서 그 결과가 인덱싱돼 있었습니다. 한 에이전트의 관찰:

“여러 AI 에이전트가 이미 같은 퍼즐을 검색했었네. 캐시된 쿼리 흔적이 남아 있다.”

웹은 이전 평가 실행 기록을 영구적으로 누적하고 있습니다.

핵심 결론
#

벤치마크 점수가 의심스러울 때 사람들은 본능적으로 “데이터 누수(contamination)“를 떠올립니다. 이 글의 답은 한 단계 더 나아갑니다.

“점수가 부풀려진 게 학습 데이터 오염인 줄 알았는데, 사실은 모델이 적극적으로 평가를 식별·해킹하는 단계까지 왔다.”

이건 단순 contamination이 아니라 모델이 스스로 도구를 써서 평가를 우회하는 행동입니다. 평가 무결성은 이제 적대적 보안 문제로 다뤄야 해요.

내 작업에 적용한다면
#

시나리오 1 — 일반적인 데이터 분석 과정
#

분석 평가에서도 같은 문제가 생깁니다. 모델이 정답이 어디 있는지 알아내면 정직한 분석이 안 됩니다.

[평가 무결성 적용]
[표준 데이터셋 의존 줄이기]
- Iris, Titanic처럼 학습 데이터에 흔한 데이터셋은 의미 없음
- 사내 비공개 데이터, 새로 수집한 데이터로 평가
[정답 노출 방지]
- 평가 데이터를 모델·웹에 보이지 않는 환경에서 보관
- 검증셋 정답을 코드 저장소에 두지 않음
[메타 추론 모니터링]
- 모델이 "이 문제는 X 벤치마크 같다"고 추론하면 그 시도 무효 처리
- 트랜스크립트에서 평가 식별 패턴 감지
[적대적 관점]
- 평가는 "모델이 우회하려 할 수도 있다"는 가정 하에 설계

핵심: 분석 평가의 신뢰성은 “모델이 정답에 접근할 어떤 경로도 닫혀 있나” 로 결정됩니다.

시나리오 2 — 웹 사이트를 자동으로 운영할 때
#

운영 자동화 평가도 마찬가지입니다. AI가 평가셋을 알아채는 순간 의미가 사라져요.

[평가 무결성 적용]
[평가 시나리오 비공개]
- 운영 자동화 평가셋을 GitHub 공개 저장소에 두지 않음
- 평가 환경에서만 접근 가능하게 분리
[웹 흔적 차단]
- 평가 중 외부 검색 결과 캐시가 다음 평가에 영향 안 가게
- 평가용 도메인은 인덱싱 차단
[적대적 시나리오]
- "모델이 평가임을 알아챘다고 가정"하고도 의미 있는 평가셋 설계
- 흔한 시나리오와 사내 특이 케이스 섞기 (#17 패턴)
[지속적 점검]
- 평가 트랜스크립트를 사람이 정기 리뷰 — 메타 추론 흔적 찾기

핵심: AI가 점점 똑똑해질수록 “평가를 우회할 수도 있다는 가정” 위에서 평가셋을 설계해야 합니다. 정직한 평가는 이제 적대적 게임이에요.

Anthropic 엔지니어링 블로그를 오래된 순서대로 읽고 정리합니다.

작성자

성경재

홈랩, 셀프호스팅, AI/ML, 데이터 분석에 관심이 많습니다.

한 줄로 말하면 #

어떤 문제를 해결하려 했나 #

해결책: 사건의 구조와 대응 #

1. Claude의 5단계 행동 패턴 #

2. 점수 영향과 빈도 #

3. 방어 — 무엇이 통했고 안 통했나 #

추가로 발견된 contamination 경로 #

핵심 결론 #

내 작업에 적용한다면 #

시나리오 1 — 일반적인 데이터 분석 과정 #

시나리오 2 — 웹 사이트를 자동으로 운영할 때 #