TL;DR
- AI가 똑똑해질수록 답변이 길어지고, 출력 토큰은 입력 토큰보다 4~6배 비싸 비용과 컨텍스트를 동시에 잡아먹는다.
- Caveman 프롬프트는 Claude에게 원시인처럼 짧게 말하라고 지시해 출력 토큰을 평균 65%, 최대 87% 절감한다.
- 플러그인 한 줄 설치로 적용,
/caveman-compress로 CLAUDE.md까지 압축하면 입력 토큰도 46% 추가 절감된다.
“AI한테 우가우가 시켰더니 토큰 87% 줄었다”
SNS에서 이 한 줄이 퍼졌을 때 처음엔 농담인 줄 알았다.
Paweł Huryn이 X에 올린 포스트다: “A 16-year-old cut Claude’s output tokens by 75%. The trick: make it talk like a caveman. Less ‘I’d be happy to help,’ more ‘done.'”
그리고 실제로 벤치마크를 돌려보니 농담이 아니었다.
장황함은 토큰 비용으로 청구된다
Claude Code에서 버그 하나 물어봤을 뿐인데 이런 서론이 붙는다.
"I'd be happy to help! That's a great question. Let me walk you through
this step by step. First, let me understand the context of your problem..."
이 문장들은 해결책과 무관하다. 그리고 토큰으로 청구된다.
2026년 기준 구조가 이렇다:
- 출력 토큰 단가 = 입력의 4~6배 (Claude Sonnet 기준 입력 $3/1M, 출력 $15/1M)
- 에이전트 텔레메트리 분석: 실사용 토큰의 40~60%가 언어적 패딩과 중복
- 비최적화 에이전트: 최대 70% 낭비, 사용자 10,000명 기준 비용 3배 차이
컨텍스트 창 문제도 있다. Claude Code는 세션 내 컨텍스트가 제한돼 있다. 필요 없는 말이 길수록 실제 작업 공간이 빠르게 잠식된다.
원시인처럼 말하면 87% 줄어든다
Julius Brussee가 만든 caveman 플러그인은 이 문제를 프롬프트 레이어에서 강제로 해결한다. Claude에게 원시인(“우가우가”) 어투로 응답하라고 지시하는 것이다.
같은 React 리렌더링 버그 설명, 전후 비교:
일반 Claude — 69토큰:
The reason your React component is re-rendering is likely because you're
creating a new object reference on each render cycle. When you pass an
inline object as props, React sees it as a new object every time the
parent re-renders, even if the values are identical. This triggers
unnecessary re-renders throughout your component tree...
Caveman Claude — 19토큰:
New object ref each render. Inline object prop = new ref = re-render.
Wrap in useMemo.
동일한 해결책. 토큰 75% 절감. 응답 3배 빠름.
10개 태스크 벤치마크:
| 태스크 | 일반 | Caveman | 절감 |
|---|---|---|---|
| React 리렌더 버그 설명 | 1,180 | 159 | 87% |
| Auth 미들웨어 수정 | 704 | 121 | 83% |
| PostgreSQL 커넥션 풀 설정 | 2,347 | 380 | 84% |
| Docker 멀티스테이지 빌드 | 1,042 | 290 | 72% |
| PostgreSQL 레이스 컨디션 디버깅 | 1,200 | 232 | 81% |
| 평균 | — | — | 65% |
설치 & 첫 사용
# macOS / Linux / WSL — 약 30초
curl -fsSL https://raw.githubusercontent.com/JuliusBrussee/caveman/main/install.sh | bash
Windows PowerShell
irm https://raw.githubusercontent.com/JuliusBrussee/caveman/main/install.ps1 | iex
Claude Code 플러그인 마켓플레이스
claude plugin marketplace add JuliusBrussee/caveman
요구사항: Node.js 18 이상. 설치 후 Claude Code 재시작. TUI에서 /caveman 입력하면 즉시 활성화된다.
압축 레벨 4단계
/caveman lite # 문법 유지, 필러만 제거 — 문서 작업에 적합
/caveman # 기본값(full) — 대부분의 코딩 세션
/caveman ultra # 약어 최대 활용 — 반복 디버깅 루프
/caveman wenyan # 고전 한문 스타일 — 실험적
| 레벨 | 설명 | 권장 상황 |
|---|---|---|
lite |
문법 유지 + 필러 제거 | 팀 공유 문서, PR 설명 |
full |
문장 단편 허용 | 일반 개발 세션 |
ultra |
약어 최대 활용 | 빠른 디버깅 반복 |
wenyan |
고전 한문 스타일 | 취향껏 |
슬래시 커맨드 전체
/caveman [level] # 세션 압축 활성화
/caveman-stats # 누적 절감 토큰 + 비용 확인
/caveman-compress CLAUDE.md # 메모리 파일 영구 압축 (입력 토큰 46% 절감)
/caveman-commit # 50자 이내 conventional 커밋 메시지
/caveman-review # 한 줄 PR 코멘트
/caveman-compress가 핵심이다. CLAUDE.md나 프로젝트 메모에 쌓인 장황한 설명을 한 번 압축하면 이후 세션 시작마다 입력 토큰이 46% 줄어든다. 복리 효과다. 프로젝트마다 긴 CLAUDE.md를 관리하는 팀은 팀 전체 적용이 즉각적인 비용 절감으로 이어진다.
매 세션 수동 입력이 귀찮다면
CLAUDE.md에 한 줄 추가하면 자동 적용된다.
Communication: terse caveman style. No filler. Tool first. Result first.
No greetings. No explanations unless asked. Code unchanged.
Claude Code와 Codex는 플러그인 설치 후 자동으로 Caveman이 적용된다. Cursor, Gemini CLI 등 다른 에이전트는 세션마다 /caveman 수동 입력이 필요하다.
왜 Claude는 기본적으로 장황한가
근본 원인을 알면 더 세밀하게 적용할 수 있다.
Claude는 RLHF(인간 피드백 강화학습) 과정에서 “helpful하고 thorough하게 보이는” 응답이 높은 점수를 받도록 훈련됐다. 인간 평가자들은 짧고 정확한 답변보다 친절하고 자세한 설명에 더 후한 점수를 줬다.
결과적으로 Claude의 기본 동작은 다음과 같다:
- 묻지 않아도 배경 설명 추가
- 이미 아는 내용 재확인
- 헤징 문구 (“It’s worth noting that…”)
- 마무리 인사 (“Let me know if you need anything else!”)
이 패턴은 챗봇에선 자연스럽지만, 토큰 비용이 실시간 청구되는 API/에이전트 환경에서는 낭비다. Caveman은 이 학습 편향을 프롬프트 레이어에서 강제로 덮어쓴다.
주의사항
사고 토큰(thinking tokens)에는 효과 없다. Extended thinking 모드를 쓰고 있다면 내부 추론 토큰은 Caveman으로 줄어들지 않는다. 출력 텍스트만 압축된다.
복잡한 설계 작업엔 lite 모드를 권장한다. 아키텍처 결정이나 트레이드오프 논의를 ultra 모드로 강제하면 중요한 맥락이 잘릴 수 있다. 단순 디버깅은 ultra, 설계 논의는 lite로 구분하는 게 실용적이다.
Claude Code 세션 한도 자체는 해결하지 않는다. Max 플랜의 5시간 리셋 한도는 시간 기반이다. Caveman은 컨텍스트 창 효율을 높이지만 세션 리셋 한도를 늘리지는 않는다.
결론
AI 모델이 강력해질수록 역설적으로 말이 많아진다. 더 많은 컨텍스트를 처리할 수 있으니 더 많은 설명을 쏟아내고, 그 설명이 다시 컨텍스트를 잡아먹는 순환이다.
Caveman은 이 순환을 끊는 가장 단순한 해결책이다. 설치 30초, 슬래시 커맨드 하나로 세션 출력 토큰 65%, CLAUDE.md 압축으로 입력 토큰 46% 추가 절감. 코드와 URL은 그대로, 불필요한 언어만 제거된다.
Claude Code를 주력으로 쓰는 팀이라면 온보딩 문서에 Caveman 설치를 기본 스텝으로 넣는 것이 이제는 상식에 가깝다.
참고 자료