연속적 사고 추론, LLM의 새로운 패러다임

TL;DR

Meta AI의 Coconut (Chain of Continuous Thought)은 LLM 추론을 언어 기반 Chain-of-Thought에서 잠재 공간(latent space)의 연속적 사고로 대체하는 패러다임이다. 언어로 표현할 필요가 없는 정보를 잠재 공간에서 직접 처리하여 기존 CoT 대비 토큰 수를 90% 감소시키며, 계획 수립이 필요한 복잡한 추론 과제(GSM8k, ProsQA)에서 정확도 향상을 기록했다. 이는 모델이 인간 언어의 제약을 넘어 더 효율적인 사고 방식을 학습할 수 있는 기반을 제시한다.

배경: 언어적 Chain-of-Thought의 한계

기존 LLM의 추론은 인간의 사고 과정을 모방하는 언어 기반 Chain-of-Thought(CoT)에 의존했다. 모델은 추론의 중간 단계를 자연어 토큰으로 생성해야만 다음 단계를 진행할 수 있다. 그러나 모든 추론 과정이 언어로 명시될 필요는 없다. 인간 역시 복잡한 문제를 해결할 때 암묵적인 직관이나 압축된 사고를 거치며, 이를 언어로 모두 풀어쓰는 것은 비효율적이다. 언어적 CoT는 이산적(discrete)인 토큰 공간의 한계로 인해 추론 속도와 효율성에 병목을 발생시킨다. Coconut은 이 한계를 극복하기 위해 추론의 무대를 언어 공간에서 연속적인 벡터 공간인 잠재 공간으로 이동시킨다.

핵심 메커니즘: 잠재 공간에서의 연속적 사고

Coconut의 핵심은 언어 토큰을 생성하는 대신, 모델의 마지막 은닉 상태(hidden state)를 다음 단계의 입력 임베딩으로 직접 사용하는 ‘연속적 사고(continuous thought)’에 있다. 이 메커니즘은 역전파 시 기울기(gradient)가 연속적 사고 단계를 직접 통과할 수 있게 하여, 추론 과정 자체를 엔드투엔드로 학습 가능하게 만든다. 훈련은 다단계 커리큘럼(multi-stage curriculum)로 진행된다. 초기에는 기존 언어 기반 CoT로 학습을 시작해 안정적인 기반을 다지고, 점진적으로 언어 토큰 생성 단계를 연속적 사고 단계로 대체해 나간다. 이는 인간이 복잡한 기술을 습득할 때 초기에는 명시적으로 사고하다가 숙련될수록 사고 과정이 함축되고 암묵적으로 빨라지는 현상과 논리적으로 일치한다.

Coconut vs Standard CoT 비교 다이어그램 — Standard CoT(언어 기반) vs Coconut(잠재 공간 기반) 추론 흐름 비교

마치며

앞선 두 추론 흐름의 비교에서 명확히 보듯, Coconut은 LLM이 ‘말로 풀어쓰는 사고’에서 벗어나 ‘직관적으로 생각하는 사고’로 진일보했음을 보여줍니다. 이산적인 언어 토큰의 장벽을 허물고 연속적인 잠재 공간에서 추론을 수행함으로

Chain-of-Thought 프롬프팅 가이드: LLM 추론 성능 향상 방법

TL;DR

배경: 언어적 Chain-of-Thought의 한계

핵심 메커니즘: 잠재 공간에서의 연속적 사고

마치며

댓글 남기기 응답 취소