핵심 내용
이 연구는 추론 모델의 내부 은닉 상태에 정답 여부(correctness) 정보가 내재되어 있음을 보여줍니다.
모델의 검색 기반 추론
최신 추론 모델은 문제 해결 과정에서 여러 경로(Chain-of-Thought)를 탐색하는 등 강력한 문제 해결 능력을 보여줍니다. 그러나 올바른 답변에 도달한 후에도 여전히 추가적인 추론 단계를 수행하는 ‘과잉 추론(overthinking)’ 현상이 나타납니다.
자기 검증(self-verification)의 필요성
이러한 문제를 해결하기 위해, 모델이 자신의 중간 결과에 대해 정답 여부를 자체적으로 평가(자기 검증)할 수 있는지, 그리고 내부 은닉 상태가 그러한 정보를 어느 정도 담고 있는지를 탐구하고자 합니다.
불확실성 및 신뢰도 평가
기존 연구들은 주로 LLM이 제공하는 자가 보고(self-reported) 신뢰도나 외부 검증자를 활용한 방식을 사용했지만, 내부 은닉 상태를 활용하는 ‘화이트박스’ 접근법이 더 우수함이 제안되었습니다.
인퍼런스 효율 및 얼리 스타핑
모델이 과도하게 추론하지 않고 필요한 경우 조기에 종료할 수 있도록 하는 연구가 진행되어 왔으며, 본 논문은 이와 연계하여 내부 신호를 활용하는 방안을 제시합니다.
모델의 내부 은닉 상태에서 정답 여부 정보를 효과적으로 추출하는 프로빙 기법과, 이를 활용한 얼리 스타핑 전략을 통해 추론 효율을 향상시킬 수 있음을 체계적으로 보여줍니다.