Intel Optane PMem으로 1조 파라미터 LLM 로컬 실행 가이드
로컬 LLM 1조 파라미터 실행 — 로컬 LLM 1조 파라미터 모델을 768GB Optane PMem + 12GB GPU로 실행하는 방법. MoE 아키텍처 활용, llama.cpp 설정, 메모리 계층화 전략을 단계별로 설명합니다.
로컬 LLM 1조 파라미터 실행 — 로컬 LLM 1조 파라미터 모델을 768GB Optane PMem + 12GB GPU로 실행하는 방법. MoE 아키텍처 활용, llama.cpp 설정, 메모리 계층화 전략을 단계별로 설명합니다.
llama.cpp MTP 12GB VRAM — llama.cpp MTP를 활용해 RTX 4070 Super 12GB VRAM에서 Qwen3.6 35B를 초당 80토큰으로 구동하는 실전 가이드. GPU/CPU 로드 밸런싱, -fitt 1536 파라미터 설정, 128…
BeeLlama.cpp 로컬 추론 — BeeLlama.cpp는 DFlash 스펙큘레이티브 디코딩과 TurboQuant 압축으로 RTX 3090에서 Qwen 27B 모델을 200k 컨텍스트로 구동합니다. 베이스라인 대비 2~3배 처리량 향상, 135 tps 달성…
RTX 4090 장문 추론 최적화 — RTX 4090 단일 GPU에서 Qwen 27B 모델로 262K 컨텍스트 조건에서 80~87 t/s를 달성한 실험 결과. MTP 투기적 디코딩과 TurboQuant KV 캐시 압축 결합으로 소비자 GPU의 장문 추론 가능성을…
DGX Spark GB10 vLLM 설정의 실전 가이드. NVIDIA 공식 포럼 기반 커뮤니티 최적화 레시피, 메모리 대역폭 제약 극복 방법, Llama 3.1 벤치마크 결과를 한눈에 정리했습니다.
vLLM ROCm AMD GPU — vLLM ROCm 백엔드가 Lemonade에 통합되어 AMD GPU에서 .safetensors 모델을 GGUF 변환 없이 직접 실행 가능. PagedAttention 기반 효율적 추론, 설치 및 사용법, 한계점까지 상세 분석.