llama.cpp MTP로 12GB VRAM에서 Qwen 35B 80 tok/sec 실행하기
llama.cpp MTP 12GB VRAM — llama.cpp MTP를 활용해 RTX 4070 Super 12GB VRAM에서 Qwen3.6 35B를 초당 80토큰으로 구동하는 실전 가이드. GPU/CPU 로드 밸런싱, -fitt 1536 파라미터 설정, 128…
llama.cpp MTP 12GB VRAM — llama.cpp MTP를 활용해 RTX 4070 Super 12GB VRAM에서 Qwen3.6 35B를 초당 80토큰으로 구동하는 실전 가이드. GPU/CPU 로드 밸런싱, -fitt 1536 파라미터 설정, 128…
Qwen3.6 MTP 언센서드 — Qwen3.6 35B A3B 언센서드 모델이 Native MTP를 보존한 채 출시되었습니다. safetensors와 GGUF 포맷 간 MTP 텐서 구조 차이(19개 vs 20개)를 이해하고 KLD 0.0015로 성능 열화 없이 검…
vLLM ROCm AMD GPU — vLLM ROCm 백엔드가 Lemonade에 통합되어 AMD GPU에서 .safetensors 모델을 GGUF 변환 없이 직접 실행 가능. PagedAttention 기반 효율적 추론, 설치 및 사용법, 한계점까지 상세 분석.