00:00:00

Share Your Feedback 🏝️

ReAct Prompting

ReAct Prompting

MinWoo(Daniel) Park | Tech Blog

Read more
Previous: Data Mixing Made Efficient** Next: Principled Instructions

ReAct Prompting

  • Related Project: Private
  • Category: Paper Review
  • Date: 2024-05-27

On the Brittle Foundations of ReAct Prompting for Agentic Large Language Models

  • url: https://arxiv.org/abs/2405.13966
  • pdf: https://arxiv.org/pdf/2405.13966
  • html https://arxiv.org/html/2405.13966v1
  • abstract: The reasoning abilities of Large Language Models (LLMs) remain a topic of debate. Some methods such as ReAct-based prompting, have gained popularity for claiming to enhance sequential decision-making abilities of agentic LLMs. However, it is unclear what is the source of improvement in LLM reasoning with ReAct based prompting. In this paper we examine these claims of ReAct based prompting in improving agentic LLMs for sequential decision-making. By introducing systematic variations to the input prompt we perform a sensitivity analysis along the claims of ReAct and find that the performance is minimally influenced by the “interleaving reasoning trace with action execution” or the content of the generated reasoning traces in ReAct, contrary to original claims and common usage. Instead, the performance of LLMs is driven by the similarity between input example tasks and queries, implicitly forcing the prompt designer to provide instance-specific examples which significantly increases the cognitive burden on the human. Our investigation shows that the perceived reasoning abilities of LLMs stem from the exemplar-query similarity and approximate retrieval rather than any inherent reasoning abilities.

Contents

TL;DR


대규모 언어모델의 인퍼런스 능력 분석: 계획 및 인퍼런스 테스크에 대한 연구

  • 대규모 언어모델(LLMs)의 계획 및 인퍼런스 능력을 평가하기 위해 ReAct 방법을 사용하여 실험을 수행합니다.
  • 프롬프트의 구조와 정보가 모델 성능에 미치는 영향을 분석하여, 프롬프트 설계가 중요함을 강조합니다.
  • ReAct 방법의 성능 한계를 규명하고, 이를 통해 LLMs의 일반화 및 적응 능력을 향상시키기 위한 방향을 제시합니다.

서론

최근 대규모 언어모델들은 자연어 처리 분야에서 다양한 작업에서 휴먼 수준의 성능을 보이며 빠르게 발전하고 있습니다. 이런 모델들의 계획 및 인퍼런스 능력을 향상시키기 위한 많은 연구가 이루어지고 있으며, 특히 ReAct 방법이 주목받고 있습니다. ReAct는 인퍼런스 과정을 작업 실행에 삽입하여 계획 능력을 향상시키려는 접근 방식입니다.

선행 연구 및 이론적 배경

ReAct는 특정 작업을 수행하기 위해 프롬프트 내에 인퍼런스 흔적을 포함시키는 방법을 사용합니다. 이는 모델이 주어진 문제를 해결하기 위해 필요한 단계를 논리적으로 인퍼런스하도록 유도합니다. 그러나 초기 실험에서는 프롬프트의 작은 변화에도 모델의 성능이 크게 떨어지는 문제가 발견되었습니다. 이에 본 연구는 ReAct 방법의 다양한 측면을 체계적으로 분석하고 개선 방향을 모색하고자 합니다.

방법

실험 설계

본 연구에서는 다양한 LLMs(GPT-3.5-turbo, GPT-3.5-instruct, GPT-4, Claude-Opus)를 사용하여 AlfWorld 도메인에서 ReAct 방법을 테스트합니다. 실험은 세 가지 주요 연구 질문에 중점을 두었습니다.

  1. RQ1: 인퍼런스 흔적과 행동 실행의 결합이 모델 성능에 미치는 영향은 무엇인가?
  2. RQ2: 인퍼런스 흔적 또는 지도 정보의 유형이 모델 성능에 어떠한 영향을 미치는가?
  3. RQ3: 예제 프롬프트와 쿼리 간의 유사성이 모델 성능에 어떻게 영향을 미치는가?

데이터 처리

실험은 ReAct의 기존 프롬프트를 기반으로 다양한 변형을 통해 이루어졌습니다. 각 변형은 모델이 정보를 처리하는 방식에 따라 성능 차이를 분석하기 위해 설계되었습니다.

결과 및 논의

[RQ1: 인퍼런스 흔적과 행동 실행의 결합]

실험 결과, 인퍼런스 흔적을 행동 실행과 결합하지 않은 경우가 더 나은 성능을 보였습니다. 이는 ReAct의 기본 가정과 반대되는 결과로, 입력 구조가 모델 성능에 중요한 영향을 미친다는 것을 시사합니다.

[RQ2: 지도 정보의 유형]

지도 정보의 유형(강한 지도 vs 약한 지도 vs 플라시보 지도)이 모델의 결정 과정에 미치는 영향은 미미했습니다. 이는 모델이 제공된 정보를 활용하는 방식에 큰 차이가 없음을 의미합니다.

[RQ3: 예제와 쿼리의 유사성]

예제와 쿼리 간의 유사성이 낮을수록 모델의 성능이 급격히 저하되었습니다. 이는 모델이 특정 인스턴스에 과도하게 최적화되어 있으며, 일반화 능력이 부족함을 나타냅니다.

결론

ReAct 방법을 포함한 대규모 언어모델의 인퍼런스 및 계획 능력을 평가한 이 연구는 프롬프트 설계가 모델 성능에 중요한 영향을 미치며, 모델의 일반화 및 적응 능력 향상을 위해 추가적인 연구가 필요함을 강조합니다.

Previous: Data Mixing Made Efficient** Next: Principled Instructions

post contain ""

    No matching posts found containing ""