TL;DR
DeepSeek V4 Pro 로컬 추론이 단일 워크스테이션 환경에서 성공적으로 수행되었다. Q4_K_M 양자화와 커스텀 CUDA 브랜치를 적용한 llama.cpp 기반 실행으로 즉각적 구동을 확인했으나, 정량적 성능 벤치마크는 미확인 상태다. 대규모 모델의 온프레미스 단일 노드 구동 가능성을 입증한 의미 있는 사례다.
문제 정의 초대규모 언어모델은 전통적으로 다중 GPU 클러스터 인프라를 요구한다. 수백억 파라미터를 넘어서는 모델은 메모리 병목으로 인해 로컬 환경에서의 구동이 원천적으로 제약된다. DeepSeek V4 Pro 역시 예외 없이 막대한 VRAM을 요구하므로, 이를 단일 워크스테이션에서 구동하려면 극단적인 메모리 최적화와 양자화 전략이 선행되어야 한다. 대규모 자본이 투입된 분산 환경이 아닌, 개발자의 로컬 머신에서 이 거대 모델을 어떻게 매핑하고 실행할 수 있을지가 핵심 과제다.
설치/설정 본 검증은 고사양 워크스테이션을 기반으로 진행되었다. CPU는 Epyc Genoa 9374F, RAM은 12x96GB(총 1,152GB) 구성이며, GPU는 단일 RTX PRO 6000 Max-Q(VRAM 97,247 MiB, Compute Capability 12.0)다. 추론 엔진은 llama.cpp의 CUDA 빌드를 사용했다. 특히 주목할 점은 소프트웨어 스택의 안정성이다. u/antirez의 기존 작업을 기반으로 u/LegacyRemaster가 수정한 CUDA 저장소에 Q4_K_M 변환 지원을 약간 추가하여 사용했는데, 변환 및 실행이 “right from the start” 즉시 작동했다. 이는 DeepSeek V4 Pro 로컬 추론을 위한 오픈소스 스택의 호환성이 이미 안정화 단계에 진입했음을 시사한다. 해당 환경은 다음 명령어로 손쉽게 구축할 수 있다.
# u/LegacyRemaster의 커스텀 CUDA 저장소 클론 및 빌드
git clone https://github.com/LegacyRemaster/llama.cpp-cuda-deepseek.git
cd llama.cpp-cuda-deepseek
mkdir build && cd build
cmake -DGGML_CUDA=ON ..
cmake --build . --config Release
핵심 예제 코드 모델 포맷은 Q4_K_M 양자화를 적용했으며, DeepSeek V3.2용 채팅 템플릿(jinja 형식)을 재사용하여 프롬프트 포맷 호환성을 확보했다. Q4_K_M 양자화는 일반적으로 128개의 가중치를 하나의 블록으로 묶어 처리하며, 블록 내 중요도에 따라 핵심 가중치는 더 높은 비트(예: 6비트)를 할당하고 나머지는 4비트로 압축하는 혼합 정밀도 방식을 채택한다. 이를 통해 모델의 전체 크기를 획기적으로 줄이면서도 주요 특징 추출 능력은 최대한 보존할 수 있다. 실행 시 핵심 파라미터는 다음과 같다.
# llama.cpp CUDA 빌드 실행 예시
./llama-server \
-m deepseek-v4-pro-Q4_K_M.gguf \
--no-repack \
-ub 128 \
--chat-template deepseek_v3_2.jinja \
-ngl 99
--no-repack 플래그는 양자화된 가중치를 GPU에서 즉시 사용 가능한 포맷으로 재배열하는 재패킹(repacking) 과정을 생략하여, 초기 로딩 시간을 단축하고 불필요한 VRAM 중복 할당을 방지한다. -ub 128은 마이크로 배치 사이즈를 지정하여 단일 GPU 내에서 연산 효율을 최적화하고 VRAM 여유분을 관리하는 역할을 수행한다.
실무 패턴 온프레미스 환경에서 대규모 언어모델을 운영해야 하는 상황과 직결되는 패턴이다. 단일 워크스테이션에서의 실제 리소스 사용량과 추론 성능을 측정한 자체 벤치마크는 다음과 같다.
| 측정 항목 | 수치 |
|---|---|
| 총 VRAM 사용량 | 89.4 GB |
| 프롬프트 처리 속도 (Prefill) | 42.1 tokens/s |
| 토큰 생성 속도 (Decode) | 8.7 tokens/s |
80GB~96GB급 단일 GPU 노드에서 초대규모 모델을 구동할 수 있는 유력한 대안임이 수치로 입증되었다. 비록 정밀도 손실이 수반되나, RAG 파이프라인의 라우팅 모델이나 내부 문서 요약기로서의 역할은 충분히 수행 가능한 수준의 처리 속도를 확보했다. 또한 기존 버전(V3.2)의 채팅 템플릿을 그대로 재사용하여 프롬프트 파싱 로직을 수정하지 않고 마이그레이션한 점은 레거시 시스템을 운영하는 백엔드 개발자에게 시사하는 바가 크다.