Claude 가이드 #7: 컨텍스트 윈도우 — 100만 토큰을 안전하게 다루기

Claude 가이드 - 이 글은 시리즈의 일부입니다.

부분 : 이 글

부분 : Claude 가이드 #6: Effort 파라미터 — 응답의 '공들임'을 한 단어로 조절하기

부분 : Claude 가이드 #5: 적응형 사고 — Claude가 알아서 깊게 생각해주는 모드

부분 : Claude 가이드 #4: Extended Thinking — Claude가 답하기 전에 생각할 시간 주기

부분 : Claude 가이드 #3: 토큰 미리 세기 — 보내기 전에 얼마인지 확인하기

부분 : Claude 가이드 #2: 배치 처리 — 급하지 않은 일은 50% 싸게

부분 : Claude 가이드 #1: Prompt Caching — 같은 자료 비용을 10%로 줄이는 잠깐 기억하기

이 글은 Claude API 공식 문서의 Context Windows 페이지를 정리한 글입니다. 원문: https://platform.claude.com/docs/en/build-with-claude/context-windows 마지막 확인: 2026-05-17

1. 한 줄 요약
#

Claude가 한 번에 펼쳐 놓고 볼 수 있는 책상 크기 — 그게 컨텍스트 윈도우입니다. 책상이 클수록 좋지만, 너무 많이 올려놓으면 오히려 헷갈려요.

2. 무엇이고 왜 좋을까
#

컨텍스트 윈도우(context window) 는 Claude가 한 번의 대화에서 “동시에 보고 있는 모든 글자"를 담는 작업 공간입니다. 책상 위에 펼쳐 놓은 자료라고 생각하면 쉽습니다. 책상이 작으면 자료를 다 못 펴고, 책상이 커도 너무 어지럽게 쌓으면 어디에 뭐가 있는지 못 찾죠.

여기서 토큰(token)은 AI가 글자를 세는 단위입니다. 한국어 한 글자가 대략 1~2 토큰 정도라고 보시면 됩니다.

📏 핵심 수치 하나: Claude의 최신 모델(Opus 4.7, Sonnet 4.6 등)은 100만 토큰까지 한 번에 다룰 수 있습니다. 한국어로 환산하면 책 약 10권 분량입니다. 그 외 모델은 보통 20만 토큰(책 2권 정도)입니다.

💡 그런데 흥미로운 점 하나 — 책상이 커도 너무 가득 채우면 정확도가 떨어집니다. 이를 “컨텍스트 부패(context rot)” 라고 부르는데요, 5번 함정에서 자세히 보겠습니다.

3. 이런 상황에서 써요
#

상황 1: 학기 말 노트 정리하는 학생
#

“한 학기 동안 강의 노트가 10개가 쌓였어요. 시험 전에 통째로 정리하고 싶은데, 한꺼번에 넣어도 될까요?”

네, 100만 토큰 모델이라면 한 학기 분량의 강의 노트와 PDF 자료를 한 번에 펼쳐놓고 “이 모든 자료를 시험 단원별로 묶어줘"라고 부탁할 수 있습니다. 단, 자료가 정말 많다면 한 번에 다 넣기보다 단원별로 나눠 묻는 편이 더 정확한 답을 받아요.

상황 2: 회사 매뉴얼을 보고 답변하는 직장인
#

“우리 회사 매뉴얼이 300페이지에요. 신입 직원 질문에 답하는데, 매뉴얼 전체를 한 번에 보여줘도 되나요?”

300페이지면 대략 15만 토큰 정도라 100만 토큰 책상에는 충분히 올라갑니다. 다만 “매뉴얼 어디에 적혀 있던가?“가 너무 광범위해지면 답이 부정확해질 수 있어요. 가능하면 관련 챕터만 추려서 넣는 게 더 좋은 답을 받는 비결입니다.

상황 3: 두꺼운 책 한 권을 요약하고 싶은 일반인
#

“500쪽짜리 책 한 권을 챕터별로 요약하고, 마지막에 전체 정리도 받고 싶어요.”

책 한 권은 대략 20~30만 토큰 정도라 100만 토큰 안에 충분히 들어갑니다. “이 책 전체를 펼쳐놓고, 챕터마다 핵심 3가지씩 뽑아줘"라고 한 번에 부탁할 수 있어요. 다만 대화가 길어질수록 책상이 점점 차오른다는 점만 기억하시면 됩니다.

4. 가볍게 시작하기
#

💻 개발 경험이 있으신가요? 아래 코드는 메시지를 보내기 전에 토큰 수를 미리 세어보는 가장 짧은 예시입니다. 비개발자라면 “이런 식으로 미리 확인할 수 있구나” 정도로 보고 넘어가셔도 충분합니다.

import anthropic

client = anthropic.Anthropic()

# 보내기 전에 토큰 수를 미리 세어보는 게 핵심
result = client.messages.count_tokens(
    model="claude-opus-4-7",
    messages=[
        {"role": "user", "content": "여기에 긴 자료를 붙여넣기..."}
    ]
)

print(f"이 메시지는 {result.input_tokens} 토큰입니다")
# 100만 토큰을 넘기지 않는지 미리 확인할 수 있습니다

count_tokens는 “이 메시지를 보내면 책상을 얼마나 차지하나요?“를 미리 물어보는 도구입니다. 100만 토큰 가까이 차오르면 답이 흐려질 수 있으니, 미리 세어보고 분량을 조절하면 안심이에요. 답변 생성 비용은 들지 않고 측정만 합니다.

5. 흔한 오해와 함정
#

⚠️ 함정 1: “100만 토큰이니까 다 때려 넣으면 되겠지?”
#

책상이 크다고 무조건 좋은 건 아닙니다. 자료가 많아질수록 Claude가 어디에 집중해야 할지 헷갈려져요. 이걸 컨텍스트 부패라고 부릅니다.

❌ 회사 자료 1,000개를 통째로 붙여놓고 “고객 환불 정책 알려줘” ✅ 환불 관련 챕터만 추려서 붙이고 “여기서 환불 정책 알려줘”

자료가 적을수록 답이 또렷해집니다.

⚠️ 함정 2: “대화가 길어졌는데 왜 갑자기 답이 이상하지?”
#

대화는 회차마다 책상에 쌓입니다. 100번 주고받은 대화는 100번 분량이 다 책상 위에 그대로 남아 있어요. 한참 이야기한 뒤 갑자기 엉뚱한 답이 나온다면, 책상이 너무 차서 그럴 가능성이 큽니다.

해결: 긴 대화는 중간에 “지금까지 이야기 정리해줘"로 한 번 요약하고, 새 대화창에서 그 요약본으로 다시 시작해 보세요. 책상을 깨끗하게 비우는 거예요.

⚠️ 함정 3: “max_tokens 1,000,000으로 설정하면 답을 100만 토큰만큼 받겠네?”
#

max_tokens는 답변의 최대 길이이지, 입력과 출력을 합한 총량이 아닙니다. 그리고 입력 + 답변이 책상 크기를 넘으면 도중에 끊깁니다 (model_context_window_exceeded라는 메시지와 함께요).

✅ 입력 90만 토큰을 넣었다면, 답변은 최대 10만 토큰까지밖에 안 들어가요. 입력이 클수록 답변 공간이 줄어든다는 점만 기억하세요.

6. 한 단계 더 (관심 있는 분만)
#

🎯 여기까지 오신 분 환영합니다. 이 섹션은 더 깊이 알고 싶은 분을 위한 보너스입니다. 본문만 읽으셔도 충분합니다.

모델별 책상 크기 비교

모델	책상 크기	한국어 환산	이미지/PDF 페이지
Claude Opus 4.7	100만 토큰	책 약 10권	한 번에 600장
Claude Opus 4.6	100만 토큰	책 약 10권	한 번에 600장
Claude Sonnet 4.6	100만 토큰	책 약 10권	한 번에 600장
Claude Sonnet 4.5	20만 토큰	책 약 2권	한 번에 100장
Claude Haiku 4.5	20만 토큰	책 약 2권	한 번에 100장

컨텍스트 인식(context awareness) 이라는 재밌는 기능도 있습니다. Sonnet 4.6, Sonnet 4.5, Haiku 4.5는 자기가 지금 책상의 몇 %를 썼는지 스스로 알아챕니다. 예를 들어 100만 토큰 중 35만 토큰을 썼다면 “65만 남았네, 길게 답해도 되겠다"고 판단하는 거죠. 마치 요리 경연에서 시계를 보면서 페이스 조절하는 셰프와 같습니다.

더 큰 자료를 다루고 싶다면 — 자매 시리즈 #4 프롬프트 캐시(prompt caching)와 함께 쓰면 같은 자료를 매번 다시 넣지 않아도 됩니다. 100만 토큰을 매번 보내면 비용이 부담될 수 있는데, 캐시로 한 번 기억시켜두면 다음부터는 1/10 가격에 읽어와요.

7. 한 마디
#

컨텍스트 윈도우는 처음 들으면 어려워 보이지만, 결국 “책상 크기"라는 비유 하나로 정리됩니다. 책상이 크면 한 번에 많이 다룰 수 있고, 적당히 정돈해서 올려놓을수록 답이 또렷해진다 — 이게 전부예요.

처음 시도할 때 답이 이상하게 느껴진다면 함정 1~3 중 하나일 가능성이 큽니다. 자료를 너무 많이 넣었거나, 대화가 길어졌거나, max_tokens를 헷갈렸거나요. 천천히 하나씩 확인해 보시면 금방 익숙해지실 거예요.

다음 시리즈 #8에서는 Compaction(자동 압축) — “긴 대화를 Claude가 알아서 요약해 책상을 정돈해 주는” 기능을 안내해 드리겠습니다. 오늘 배운 책상 비유가 그대로 이어집니다.

— 키스 드림

Claude API 공식 문서를 한국어로 풀어쓴 시리즈입니다. 원문 정확성이 가장 우선, 의역과 친근함은 그 위에서.

작성자

성경재

홈랩, 셀프호스팅, AI/ML, 데이터 분석에 관심이 많습니다.

Claude 가이드 - 이 글은 시리즈의 일부입니다.

부분 : 이 글

부분 : Claude 가이드 #6: Effort 파라미터 — 응답의 '공들임'을 한 단어로 조절하기

부분 : Claude 가이드 #5: 적응형 사고 — Claude가 알아서 깊게 생각해주는 모드

부분 : Claude 가이드 #4: Extended Thinking — Claude가 답하기 전에 생각할 시간 주기

부분 : Claude 가이드 #3: 토큰 미리 세기 — 보내기 전에 얼마인지 확인하기

부분 : Claude 가이드 #2: 배치 처리 — 급하지 않은 일은 50% 싸게

부분 : Claude 가이드 #1: Prompt Caching — 같은 자료 비용을 10%로 줄이는 잠깐 기억하기

1. 한 줄 요약 #

2. 무엇이고 왜 좋을까 #

3. 이런 상황에서 써요 #

상황 1: 학기 말 노트 정리하는 학생 #

상황 2: 회사 매뉴얼을 보고 답변하는 직장인 #

상황 3: 두꺼운 책 한 권을 요약하고 싶은 일반인 #

4. 가볍게 시작하기 #

5. 흔한 오해와 함정 #

⚠️ 함정 1: “100만 토큰이니까 다 때려 넣으면 되겠지?” #

⚠️ 함정 2: “대화가 길어졌는데 왜 갑자기 답이 이상하지?” #

⚠️ 함정 3: “max_tokens 1,000,000으로 설정하면 답을 100만 토큰만큼 받겠네?” #

6. 한 단계 더 (관심 있는 분만) #

7. 한 마디 #