llama.cpp MTP로 12GB VRAM에서 Qwen 35B 80 tok/sec 실행하기
llama.cpp MTP 12GB VRAM — llama.cpp MTP를 활용해 RTX 4070 Super 12GB VRAM에서 Qwen3.6 35B를 초당 80토큰으로 구동하는 실전 가이드. GPU/CPU 로드 밸런싱, -fitt 1536 파라미터 설정, 128…
llama.cpp MTP 12GB VRAM — llama.cpp MTP를 활용해 RTX 4070 Super 12GB VRAM에서 Qwen3.6 35B를 초당 80토큰으로 구동하는 실전 가이드. GPU/CPU 로드 밸런싱, -fitt 1536 파라미터 설정, 128…
KV 캐시 양자화 추론 최적화 — KV 캐시 양자화와 MTP 결합으로 RTX 4090에서 262K 컨텍스트 기반 80+ t/s 달성. Qwen 27B 모델의 VRAM 병목 해소 및 추론 속도 2배 향상 방법을 상세히 분석합니다.
BeeLlama.cpp 로컬 추론 — BeeLlama.cpp는 DFlash 스펙큘레이티브 디코딩과 TurboQuant 압축으로 RTX 3090에서 Qwen 27B 모델을 200k 컨텍스트로 구동합니다. 베이스라인 대비 2~3배 처리량 향상, 135 tps 달성…
RTX 4090 장문 추론 최적화 — RTX 4090 단일 GPU에서 Qwen 27B 모델로 262K 컨텍스트 조건에서 80~87 t/s를 달성한 실험 결과. MTP 투기적 디코딩과 TurboQuant KV 캐시 압축 결합으로 소비자 GPU의 장문 추론 가능성을…
Qwen 35B-A3B 로컬 추론을 12GB VRAM에서 구현하는 ncmoe 최적화 전략을 공개합니다. 32k 컨텍스트 기준 43.4 t/s 생성 속도와 OOM 방지를 위한 메모리 임계값 관리법을 지금 확인하세요.