컨텐츠로 건너뛰기

Technology Trends

  • 홈

로컬 LLM

Qwen 35B-A3B 12GB VRAM 로컬 추론 최적화 가이드

2026-05-092026-05-09 작성자: tt

Qwen 35B-A3B 로컬 추론을 12GB VRAM에서 구현하는 ncmoe 최적화 전략을 공개합니다. 32k 컨텍스트 기준 43.4 t/s 생성 속도와 OOM 방지를 위한 메모리 임계값 관리법을 지금 확인하세요.

카테고리 AI/ML 태그 MoE 오프로딩, ncmoe, Qwen 35B-A3B, VRAM 최적화, 로컬 LLM 댓글 남기기

vLLM ROCm AMD GPU 설치 및 설정 가이드

2026-05-092026-05-09 작성자: tt

vLLM ROCm AMD GPU — vLLM ROCm 백엔드가 Lemonade에 통합되어 AMD GPU에서 .safetensors 모델을 GGUF 변환 없이 직접 실행 가능. PagedAttention 기반 효율적 추론, 설치 및 사용법, 한계점까지 상세 분석.

카테고리 AI/ML 태그 AMD GPU, GGUF, Lemonade, PagedAttention, ROCm, safetensors, vLLM, 로컬 LLM, 양자화, 추론 최적화 댓글 남기기
새 글
← 이전 페이지1 페이지2

카테고리

  • AI 개발도구 워크플로우
  • AI 블로그 자동화
  • AI/ML
  • 개발도구
  • 기술 트렌드
  • 논문리뷰
  • 로컬 LLM 실험실

Recent Posts

  • Stripe 자율 코딩 에이전트 ‘미니언’ 도입기: 주간 1,000건 PR을 생성하는 6계층 아키텍처 분석
  • DeepSeek R1 완전 분석: MoE + GRPO로 600만 달러에 o1급 추론 달성한 방법
  • Google I/O 2026 핵심 정리: Managed Agents API부터 Gemini Omni까지
  • 구글 안티그래비티 2.0 완전 정복: CLI 설치부터 Cloud Run 자동 배포까지
  • OpenAI Codex 완전 정복: 설치부터 CI 자동화까지 초보자 가이드 (2026)

Recent Comments

보여줄 댓글이 없습니다.

인기 Posts

  • llama.cpp MTP로 12GB VRAM에서 Qwen 35B 80 tok/sec 실행하기
  • DGX Spark GB10에서 vLLM 실행하기: 커뮤니티 최적화 설정
  • Claude 토큰 절약 87%: Caveman 프롬프트 설치부터 실무 적용까지
  • WordPress REST API로 AI 글 자동 발행 파이프라인 만들기
  • OpenAI Codex CLI 사용법: 73개 명령어 카테고리별 정리

페이지

  • About
  • Contact
  • 개인정보처리방침
© 2026 Technology Trends • 제작됨 GeneratePress