RTX 4090에서 Qwen 27B를 80+ t/s로 구동하는 MTP·TurboQuant 설정법

TL;DR

단일 RTX 4090에서 MTP(Medusa Tree Prediction)와 TurboQuant KV 캐시를 결합해 Qwen3.6-27B를 80+ t/s로 구동하는 실험 결과가 Reddit에 공개됐다. 다만 해당 수치는 단일 실험자의 비공개 포크 기반 보고이며, 재현 환경이 완전히 공개되지 않은 상태다. 온프레미스 추론 비용을 줄이려는 팀이라면 기술 메커니즘과 한계를 먼저 파악하고 접근할 것을 권장한다.


문제 정의: 27B 모델을 단일 소비자 GPU에서 실용적으로 쓸 수 있는가

27B급 모델을 단일 RTX 4090(24GB VRAM)에서 서빙하려면 두 가지 병목이 동시에 걸린다.

  1. 메모리: KV 캐시가 긴 컨텍스트에서 VRAM을 빠르게 소진한다.
  2. 속도: 메모리 대역폭 한계로 생성 속도가 30~50 t/s 수준에 머문다.

이번 실험은 이 두 병목을 각각 TurboQuant(KV 캐시 압축)와 MTP(드래프트 추론)로 동시에 공략한다는 점에서 주목할 만하다.


핵심 기술 메커니즘

MTP (Medusa Tree Prediction)

MTP는 단일 forward pass에서 여러 후보 토큰을 병렬로 드래프팅한 뒤, 원본 모델이 이를 검증하는 speculative decoding 변형이다. 이번 실험에서는 --mtp-draft 3 설정(드래프트 헤드 3개)을 사용했으며, 수락률은 약 73%로 보고됐다. 수락률이 높을수록 실제 생성 속도 향상폭이 커진다.

[드래프트 헤드 × 3] → 후보 토큰 3개 예측
        ↓
[원본 모델 검증] → 수락(73%) / 거부(27%)
        ↓
수락된 토큰만 출력 스트림에 편입

TBQ4_0 (TurboQuant KV 캐시)

TurboQuant의 TBQ4_0 포맷은 KV 캐시를 4.25 bpv(bits per value)로 압축한다. 표준 FP16(16 bpv) 대비 약 3.76배 메모리 절감이 이론상 가능하다. 저자는 이를 “무손실(lossless)”이라 표현하지만, 이는 저자의 주관적 품질 평가이며 공식 벤치마크로 검증된 수치는 아니다.

다이어그램

설치 및 재현 조건

⚠️ 현재 포크 미공개 — 직접 재현 불가

원문 Reddit 스레드(링크)에서 저자는 “The fork’s buildable if anyone wants to try it”이라고 언급했으나, 공개 저장소 URL을 제공하지 않았다. 스레드 작성 시점 기준으로 포크는 비공개 상태이며, 정식 GitHub URL이 확정되지 않았다.

따라서 현재 시점에서 이 스택의 직접 재현은 불가능하다. 재현을 시도하려면 원문 스레드에서 저자에게 직접 포크 URL을 요청하거나, 저자가 URL을 공개할 때까지 대기해야 한다.

포크가 공개될 경우 원문 스레드 댓글 또는 저자 Reddit 프로필에서 URL이 업데이트될 가능성이 높다. 스레드를 북마크하고 주기적으로 확인하는 것을 권장한다.


80+ t/s 재현을 위한 조건 명시

저자가 공개한 수치(80~87 t/s)는 다음 조건 하의 단일 보고임을 명확히 해야 한다.

항목 저자 보고 조건 미공개 항목
하드웨어 RTX 4090 24GB CPU, RAM 사양 미공개
모델 Qwen3.6-27B Q4_K_M + MTP 헤드 정확한 GGUF 파일 출처 불명
컨텍스트 262K 실제 프롬프트 길이 미공개
온도/샘플링 미공개 greedy vs sampling 구분 없음
측정 방식 미공개 워밍업 여부, 반복 횟수 불명

동일 수치를 재현하려면 위 미공개 항목이 모두 통제돼야 한다. 현 시점에서 이 수치를 프로덕션 계획의 기준으로 삼는 것은 위험하다.

독립 재현 체크리스트

포크가 공개된 이후 독립적으로 수치를 검증하려면 아래 항목을 고정하고 측정해야 한다. 저자가 이 항목들을 공개하지 않았으므로, 비교 가능한 기준선을 직접 설정해야 한다.

체크 항목 권장 고정값 비고
프롬프트 길이 512 토큰 (예: 반복 패딩 텍스트) 저자 미공개, 재현 시 명시 필요
생성 길이 512 토큰 짧은 생성은 t/s를 과대 추정할 수 있음
샘플링 파라미터 temperature=0 (greedy) greedy가 가장 재현성 높음
워밍업 측정 전 1회 이상 실행 후 폐기 GPU 클럭 안정화 목적
반복 횟수 최소 5회 측정 후 중앙값 사용 단일 측정은 노이즈 포함 가능성 높음
컨텍스트 크기 --ctx-size 262144 저자 보고 조건과 동일하게 설정
배치 크기 --batch-size 512 미공개 항목, 명시 후 비교

핵심 주의: 특히 프롬프트 길이와 생성 길이는 t/s 수치에 직접적인 영향을 미친다. 짧은 프롬프트(예: 32토큰) + 짧은 생성(예: 64토큰)으로 측정하면 KV 캐시 효과가 거의 반영되지 않아 수치가 부풀려질 수 있다. 저자가 이 조건을 공개하지 않은 이상, 80~87 t/s는 최적 조건에서의 상한값으로 해석하는 것이 안전하다.


한국 기업 환경에서의 실용적 판단

클라우드 API vs 온프레미스 4090 비용 비교

카카오, 네이버, 토스처럼 자체 추론 인프라를 운영하는 팀이 이 기술 스택을 검토할 때 핵심 판단 기준은 총소유비용(TCO)이다.

온프레미스 RTX 4090 월간 비용 추산

비용 항목 계산 근거 월간 비용
하드웨어 감가상각 구매가 230만원, 3년 상각 약 64,000원/월
전력 TDP 450W × 24h × 30일 × 130원/kWh 약 42,000원/월
포크 유지보수 (엔지니어링) 시니어 엔지니어 월 4시간 × 80,000원/h 약 320,000원/월
합계 약 426,000원/월

유지보수 비용은 팀 상황에 따라 크게 달라진다. 포크 없이 표준 llama.cpp를 사용한다면 유지보수 비용은 사실상 0에 가깝지만, 이 스택의 핵심 최적화(MTP + TBQ4_0)는 현재 표준 llama.cpp에 미병합 상태다.

클라우드 API 월간 비용 추산 (월 토큰량별)

아래는 대표적인 클라우드 API 가격을 기준으로 한 비교다. 27B급 모델과 유사한 성능대의 API를 기준으로 삼았다.

월 처리 토큰 Claude 3.5 Haiku
($0.8/M 입력, $4/M 출력)
GPT-4o-mini
($0.15/M 입력, $0.6/M 출력)
온프레미스 4090
(감가상각+전기)
100만 토큰 약 6,500원 약 1,100원 약 106,000원
1,000만 토큰 약 65,000원 약 11,000원 약 106,000원
5,000만 토큰 약 325,000원 약 55,000원 약 106,000원
1억 토큰 약 650,000원 약 110,000원 약 106,000원
5억 토큰 약 3,250,000원 약 550,000원 약 106,000원

계산 가정: 입력:출력 비율 7:3 가정, 환율 1,350원/달러 적용. 온프레미스는 유지보수 비용 제외한 하드웨어+전력만 포함.

TCO 분기점 해석

  • GPT-4o-mini 대비: 월 약 1억 토큰 이상 처리 시 온프레미스(하드웨어+전력 기준)가 유리해진다. 유지보수 비용(월 약 32만원)을 포함하면 분기점은 월 약 2~3억 토큰으로 올라간다.
  • Claude 3.5 Haiku 대비: 월 약 1,500만 토큰 이상이면 온프레미스가 유리하다. 유지보수 포함 시 약 3,000만 토큰이 분기점이다.
  • 데이터 보안 요건: 금융·의료·개인정보 처리 환경에서는 외부 API 전송 자체가 규제 리스크이므로, 토큰량과 무관하게 온프레미스가 유일한 선택지일 수 있다.

클라우드 API 방식의 추가 고려사항
– 트래픽 급증 시 비용 선형 증가
– 데이터 외부 전송 이슈(금융/개인정보 처리 시 규제 고려 필요)

온프레미스 방식의 추가 고려사항
포크 유지보수 리스크: 업스트림 llama.cpp가 업데이트될 때마다 MTP/TBQ4_0 패치를 재적용해야 한다. 전담 엔지니어 없이는 유지보수 부담이 상당하다.
호환성 리스크: 현재 이 스택은 표준 llama.cpp가 아닌 개인 포크에 의존한다. 포크가 방치될 경우 보안 패치 적용이 불가능해진다.

실무 권장: 위 분기점 계산은 하드웨어+전력 기준의 단순화된 추산이다. 실제 의사결정 시에는 엔지니어링 인건비, 서버 공간 비용, 네트워크 비용, 모델 업데이트 주기 등을 추가로 반영해야 한다. 현재 이 스택이 개인 포크에 의존한다는 점을 감안하면, 포크의 업스트림 병합 여부가 확정되기 전까지는 프로덕션 도입 결정을 보류하는 것이 합리적이다.


주의사항

  1. 모델명 혼동 주의: 원문에 명시된 모델은 Qwen3.6-27B이며, Heretic-v2는 저자가 사용한 파인튜닝 변형 명칭이다. 공식 Qwen 릴리스와 다른 서드파티 파생 모델이므로 라이선스와 품질 기준을 별도로 확인해야 한다.

  2. “무손실” 표현의 해석: TBQ4_0의 “lossless” 표현은 저자의 주관적 품질 평가이며, 수학적 무손실 압축을 의미하지 않는다.

  3. 단일 실험자 보고: 80+ t/s 수치는 독립 재현이 확인되지 않은 상태다. 커뮤니티 추가 검증을 기다리는 것이 합리적이다.


결론

MTP와 TurboQuant KV 캐시의 조합은 단일 소비자 GPU에서 27B 모델의 실용적 서빙 가능성을 높이는 방향으로 작동한다. 기술 메커니즘 자체는 타당하며, 수락률 73%라는 MTP 성능은 speculative decoding 관련 선행 연구와 일치하는 범위에 있다. 그러나 현 시점에서 이 스택은 미공개 포크 + 미검증 수치 + 불완전한 재현 조건이라는 세 가지 제약을 동시에 안고 있다. 프로덕션 도입 전에 포크의 공개 여부, 업스트림 병합 계획, 독립 재현 결과를 순서대로 확인하는 것이 바람직하다.


출처: Got MTP + TurboQuant running — Qwen3.6-27B — 80+ t/s at 262K context on a single RTX 4090 — r/LocalLLaMA


댓글 남기기