llama.cpp MTP로 12GB VRAM에서 Qwen 35B 80 tok/sec 실행하기
llama.cpp MTP 12GB VRAM — llama.cpp MTP를 활용해 RTX 4070 Super 12GB VRAM에서 Qwen3.6 35B를 초당 80토큰으로 구동하는 실전 가이드. GPU/CPU 로드 밸런싱, -fitt 1536 파라미터 설정, 128…
llama.cpp MTP 12GB VRAM — llama.cpp MTP를 활용해 RTX 4070 Super 12GB VRAM에서 Qwen3.6 35B를 초당 80토큰으로 구동하는 실전 가이드. GPU/CPU 로드 밸런싱, -fitt 1536 파라미터 설정, 128…
Qwen3.6 MTP 언센서드 — Qwen3.6 35B A3B 언센서드 모델이 Native MTP를 보존한 채 출시되었습니다. safetensors와 GGUF 포맷 간 MTP 텐서 구조 차이(19개 vs 20개)를 이해하고 KLD 0.0015로 성능 열화 없이 검…
LLM 추론 최적화를 위해 MTP와 TurboQuant를 결합해 단일 RTX 4090 24GB에서 Qwen3.6-27B를 초당 80토큰 이상으로 구동하는 방법. 262K 컨텍스트 처리 시 속도 2배 향상 달성.