헤르메스 에이전트 설치 가이드: 로컬·Docker·Slack 30분 완성 [2편]

헤르메스 에이전트 설치 방법을 단계별로 설명합니다. pip 설치부터 Ollama 로컬 모델, Docker 배포, Slack·Telegram 연동까지 30분 안에 팀 운용 환경을 구축하는 가이드입니다.

헤르메스 에이전트란? 쓸수록 똑똑해지는 오픈소스 AI 에이전트 가이드

헤르메스 에이전트(Hermes Agent)는 Nous Research가 출시한 오픈소스 자율 AI 에이전트로, 스킬 파일을 자동 생성해 쓸수록 빨라집니다. GitHub 14만 스타, OpenRouter 1위 달성 배경과 스킬 시스템·3계층 메모리 구조를 5편 시리즈로 정리합니다.

Claude 토큰 절약 87%: Caveman 프롬프트 설치부터 실무 적용까지

TL;DR AI가 똑똑해질수록 답변이 길어지고, 출력 토큰은 입력 토큰보다 4~6배 비싸 비용과 컨텍스트를 동시에 잡아먹는다. Caveman 프롬프트는 Claude에게 원시인처럼 짧게 말하라고 지시해 출력 토큰을 평균 65%, 최대 87% 절감한다. 플러그인 한 줄 설치로 적용, /caveman-compress로 CLAUDE.md까지 압축하면 입력 토큰도 46% 추가 절감된다. “AI한테 우가우가 시켰더니 토큰 87% 줄었다” SNS에서 이 한 줄이 퍼졌을 때 처음엔 … 더 읽기

Claude Design 사용법 완벽 가이드: 대화로 프로토타입 만드는 법

TL;DR Claude Design은 2026년 4월 Anthropic이 출시한 Chat-to-Design 도구 — 대화 한 줄로 프로토타입·슬라이드·원페이저를 만든다. 코드베이스를 업로드하면 브랜드 색상·타이포그래피를 자동 학습, 이후 모든 결과물에 일관되게 적용된다. Pro 이상 플랜에 추가 비용 없이 포함, claude.ai/design에서 바로 접근 가능하다. 디자이너 없이 프로토타입을 만들어야 하는 상황 투자자 미팅 전날 밤, PM이 Figma를 열고 멈추는 건 한국 스타트업에서 흔한 … 더 읽기

Intel Optane PMem으로 1조 파라미터 LLM 로컬 실행 가이드

로컬 LLM 1조 파라미터 실행 — 로컬 LLM 1조 파라미터 모델을 768GB Optane PMem + 12GB GPU로 실행하는 방법. MoE 아키텍처 활용, llama.cpp 설정, 메모리 계층화 전략을 단계별로 설명합니다.

Qwen3 35B vs Gemma 4: 32GB VRAM 로컬 LLM 성능 비교

로컬 LLM 32GB VRAM 비교 — 로컬 LLM 32GB VRAM 환경에서 Qwen3 35B A3B, Qwen3 27B, Gemma 4 26B, Nemotron 3 Nano 4개 모델을 코드 이해 태스크로 비교 분석. 장문맥 처리 아키텍처와 실제 성능 평가.

NVIDIA Star Elastic 단일 체크포인트 추론 제어 가이드

Star Elastic 추론 제어는 NVIDIA가 공개한 단일 체크포인트 기반 스펙트럼 추론 기술입니다. Gumbel-Softmax 라우터로 30B, 23B, 12B 모델을 제로샷 슬라이싱하여 사고·답변 단계별 동적 용량 할당을 구현하는 방법을 알아보세요.