본문으로 건너뛰기
CodeBerry
  1. AI 뉴스/
#ai-news

Anthropic 엔지니어링 블로그 #22: Claude Code Auto Mode — 권한 팝업과 '위험한 다 허용' 사이의 중간

이 글은 Anthropic 엔지니어링 블로그에 2026년 3월 25일 게재된 “Claude Code auto mode: a safer way to skip permissions” 를 읽고, 내용을 정리한 글입니다. 원문: https://www.anthropic.com/engineering/claude-code-auto-mode


한 줄로 말하면
#

사용자가 권한 팝업의 93%를 그냥 승인하니, AI 분류기가 위험 행동만 골라 차단하는 모드를 만들었다.


어떤 문제를 해결하려 했나
#

Claude Code에 권한 옵션은 두 가지가 있습니다.

[수동 권한 모드]
- 매 작업마다 "허용?" 팝업
- 사용자가 93% 그냥 클릭 (피로)
- 위험한 작업도 무비판적 승인 위험

[--dangerously-skip-permissions]
- 모든 권한 팝업 끔
- 위험한 작업도 그대로 실행
- 사고 시 피해 큼

또 #12에서 본 샌드박스가 있지만, 새 능력마다 설정이 필요하고 네트워크/호스트 접근에서 격리가 깨집니다.

이 글이 제안하는 답: AI 분류기가 위험 행동만 골라 차단. 그 사이를 채우는 옵션이에요.


해결책: 2단계 분류기 + 3계층 권한
#

1. 작동 구조 — 두 층 방어
#

[Input Layer]
서버측 프롬프트 인젝션 탐지기
- 도구 출력이 에이전트 컨텍스트로 들어가기 전 스캔
- 적대적 콘텐츠 감지 시 경고 부착

[Output Layer]
Sonnet 4.6 기반 트랜스크립트 분류기
- Stage 1: 빠른 단일 토큰 필터 (차단 쪽으로 기울임)
- Stage 2: 의심 행동에만 Chain-of-thought 추론으로 오탐 감소

흥미로운 설계: 분류기는 사용자 메시지와 실행될 도구 호출만 봄. 어시스턴트의 추론과 도구 출력은 일부러 가립니다. “에이전트가 자기 설득으로 위험 행동에 도달하는 길” 을 차단하는 거예요.

2. 3계층 권한 구조
#

계층 내용 예시
Tier 1 내장 안전 도구 허용 목록 파일 읽기, 검색, 코드 탐색
Tier 2 프로젝트 내 파일 작업 버전 관리로 검토 가능한 변경
Tier 3 분류기 평가 더 위험한 작업

3. 무엇을 차단하나
#

범주 예시
파괴/유출 강제 푸시, 대량 삭제, 데이터 외부 전송
보안 후퇴 로깅 비활성화, 지속성 설치
신뢰 경계 넘기 외부 코드 실행, 자격증명 탐색
공유 인프라 우회 main에 직접 푸시, 프로덕션 직배포

구체 사례:

  • 모호한 삭제 (“오래된 브랜치 정리” → 원격 대량 삭제)
  • 인증 에러 후 자격증명 탐색
  • 이름 유사성으로 추정한 잡 타겟팅
  • 외부 서비스로 데이터 공유
  • 배포 시 안전 점검 우회

결과 / 효과
#

세 가지 데이터셋 평가:

지표 실 트래픽(10K) 실제 과잉 행동(52) 합성 유출(1K)
Stage 1 FPR 8.5% 6.6% FNR 1.8% FNR
전체 파이프라인 FPR 0.4% 17% FNR 5.7% FNR

해석:

  • FPR 0.4% — 정상 행동의 0.4%만 잘못 차단 (사용자 불편 최소)
  • 17% FNR — 위험 행동의 17%는 놓침 (완벽하진 않음)

원문이 분명히 한 입장: “분류기가 완벽할 필요는 없다. 가드레일 없을 때보다 자율 작업을 훨씬 안전하게 만드는 게 시작점이다.”


권한 모델 비교
#

모드 안전성 편의성 유지보수
수동 권한 보통(피로로 약화) 낮음 낮음
샌드박스(#12) 높음 보통 높음(새 능력마다 설정)
Auto Mode 보통(개선 중) 높음 낮음
--dangerously-skip 매우 낮음 매우 높음 없음

Auto Mode 권장 대상: --dangerously-skip-permissions 를 쓰던 사용자. 가드레일 없이 자율을 원하던 사람들에게 약한 가드레일을 제공.


핵심 결론
#

자동 에이전트 보안을 강화하려 할 때 사람들은 본능적으로 “더 많은 확인을 요구하자"고 합니다. 이 글의 답은 다릅니다.

“안전이 부족한 줄 알았는데, 사실은 사용자가 무비판적으로 클릭하는 게 안전을 망치고 있었다.”

93% 자동 승인은 사실상 권한이 없는 거나 마찬가지였어요. AI 분류기가 위험 행동만 골라 막아주면, 사용자는 평소엔 방해받지 않고 진짜 위험할 때만 알림을 받습니다.


내 작업에 적용한다면
#

시나리오 1 — 일반적인 데이터 분석 과정
#

분석 자동화에서도 같은 절충이 필요합니다. 매번 확인은 너무 잦고, 다 허용은 위험해요.

[Before — 양극단 사이]
모든 SQL/쓰기 권한 확인 → 자동화 의미 없음
다 허용 → 실수 한 번에 테이블 날아감

[auto mode 패턴 적용]
[Tier 1 — 자유]
- 읽기 전용 쿼리, 통계 계산, 시각화
[Tier 2 — 검토 가능 변경]
- 임시 테이블/뷰 생성, 분석 결과 저장
[Tier 3 — 분류기 판단]
- 원본 테이블 변경, 외부 시스템 호출 등
- "위험 패턴 감지" 시 사람 승인 요청
[설계 원칙]
- 위험 행동의 정의를 사전에 명문화
- 모호하면 차단으로 기울임

핵심: 분석 자동화의 효율과 안전의 균형은 “위험 행동만 골라 사람에게 묻는 분류 체계” 에서 옵니다.

시나리오 2 — 웹 사이트를 자동으로 운영할 때
#

운영 자동화도 같은 패턴이 그대로 적용됩니다.

[Before — 양극단]
모든 배포에 사람 승인 → 야간 운영 불가
다 자동 → 사고 시 피해 큼

[auto mode 패턴 적용]
[Tier 1 — 자유]
- 빌드, 로컬 테스트, 스테이징 배포, 로그 조회
[Tier 2 — 검토 가능]
- 콘텐츠 수정, 스테이징 환경 변경
[Tier 3 — 분류기 판단]
- 프로덕션 배포, 외부 API 호출, 권한 변경
- 위험 패턴 감지 시 사람 승인
[프롬프트 인젝션 대비]
- 외부에서 가져온 콘텐츠/이슈가 시스템 명령으로 해석되지 않게 격리

핵심: 자동 운영의 안정성은 “안전 도구는 자유, 위험 행동만 분류기가 가르기” 라는 계층 설계에서 옵니다. 모든 행동을 같은 잣대로 다루지 마세요.


Anthropic 엔지니어링 블로그를 오래된 순서대로 읽고 정리합니다.

성경재
작성자
성경재
홈랩, 셀프호스팅, AI/ML, 데이터 분석에 관심이 많습니다.