00:00:00

Share Your Feedback 🏝️

Effect of Sampling Temperature

Effect of Sampling Temperature

MinWoo(Daniel) Park | Tech Blog

Read more
Previous: Evaluation | Human vs. LLM judges Next: Rank RAG

Effect of Sampling Temperature

  • Related Project: Private
  • Category: Paper Review
  • Date: 2024-06-14

The Effect of Sampling Temperature on Problem Solving in Large Language Models

  • url: https://arxiv.org/abs/2402.05201
  • pdf: https://arxiv.org/pdf/2402.05201
  • html https://arxiv.org/html/2402.05201v2
  • github: https://github.com/matthewrenze/jhu-llm-temperature
  • abstract: In this research study, we empirically investigate the effect of sampling temperature on the performance of Large Language Models (LLMs) on various problem-solving tasks. We created a multiple-choice question-and-answer (MCQA) exam by randomly sampling problems from standard LLM benchmarks. Then, we used nine popular LLMs with five prompt-engineering techniques to solve the MCQA problems while increasing the sampling temperature from 0.0 to 1.6. Despite anecdotal reports to the contrary, our empirical results indicate that changes in temperature from 0.0 to 1.0 do not have a statistically significant impact on LLM performance for problem-solving tasks. In addition, these results appear to generalize across LLMs, prompt-engineering techniques, and problem domains. All code, data, and supplemental materials are available on GitHub at: this https URL.

[트랜스포머 Temperature 관련 논문 색인마킹]


  • 대규모 언어모델(LLM)을 사용한 문제 해결 태스크의 최적 샘플링 온도를 연구
  • 복수의 LLM과 프롬프트 엔지니어링 기법을 활용하여 다양한 도메인에서 성능 평가
  • 샘플링 온도 조절을 통한 정확성 및 창의성 간의 트레이드오프 분석

1. 서론

1.1 배경

최근 대규모 언어모델(LLM)은 인공 지능 분야에 혁명을 일으켰습니다. 오픈 소스 LLM 및 유료 API의 사용으로 엔지니어들은 LLM을 AI 시스템에 통합할 수 있게 되었습니다. 그러나 효과적으로 LLM을 작동시키기 위해서는 프롬프트 엔지니어링과 하이퍼파라미터 튜닝이 필요합니다.

예를 들어, 사슬 사고(chain-of-thought), 트리 사고(tree-of-thought), 자기 비판(self-criticism), 자기 일관성(self-consistency)과 같은 기술들을 사용하여 LLM의 성능을 향상시킬 수 있습니다. 또한, 샘플링 온도(sampling temperature), 상위 k 샘플링(top-k sampling), 반복 패널티(repetition penalty), 최대 토큰 길이(maximum token length)와 같은 여러 인퍼런스 하이퍼파라미터들을 조정하여 LLM의 출력과 성능을 수정할 수 있습니다.

1.2 샘플링 온도

샘플링 온도는 LLM의 하이퍼파라미터로, 인퍼런스 시 모델 출력의 무작위성을 제어합니다. LLM은 디코딩 과정의 각 단계에서 이전 토큰을 사용하여 다음 출력 토큰을 선택합니다. LLM의 마지막 계층은 로짓(logits)을 확률로 변환하는 소프트맥스 함수를 사용합니다.

\(\Pr(v_k) = \frac{e^{l_k / \tau}}{\sum_i e^{l_i / \tau}}\) (1)

\(v_k\)는 k번째 어휘 토큰, \(l_k\)는 토큰의 로짓, \(\tau\)는 상수 온도입니다. 낮은 온도는 LLM의 출력을 더 결정론적으로 만들어, 가장 가능성 높은 예측을 선호하게 합니다. 반면, 높은 온도는 출력의 무작위성을 증가시켜, 더 창의적인 예측을 가능하게 합니다.

1.3 샘플링 온도 선택

프롬프트 엔지니어링 커뮤니티 내에서 다양한 문제 해결 태스크에 이상적인 샘플링 온도에 대한 의견과 모범 사례가 있습니다. 정밀함과 사실적 정확성이 요구되는 작업에는 낮은 샘플링 온도가 권장되며, 창의력이 요구되는 작업에는 높은 온도로 설정해야할 수 있습니다. 따라서 적절한 온도 파라미터를 선택하는 것은 창의력과 환각 사이의 균형을 고려해야 합니다.


2. 방법

2.1 모델

이 연구 프로젝트에 사용된 LLM 모델은 널리 사용되는 기초 LLM 9가지를 포함합니다. 분석을 보완하기 위해 일반적으로 사용되는 프롬프트 엔지니어링 기술을 사용하여 생성된 5개의 프롬프트를 실험에 사용했습니다.

2.2 데이터

테스트 데이터셋는 널리 사용되는 LLM 성능 벤치마크에서 파생된 다중 선택 질문 및 답변(MCQA) 시험으로 구성됩니다. ARC, AQUA-RAT, Hellaswag, LogiQA, LSAT 및 SAT 시리즈 등 다양한 벤치마크가 사용되었습니다.

2.3 과정

실험은 모델, 프롬프트, 시험, 온도의 조합에 대해 LLM의 문제 해결 성능을 테스트하도록 설계되었습니다. 각 문제에 대한 평균 정답 정확도를 계산하여 성능을 평가했습니다.

2.4 메트릭

LLM의 정답 정확도를 주요 성능 지표로 측정했습니다. 추가로, LLM 응답의 유사성을 평가하기 위해 Jaccard 유사성, 단어 빈도 비교(BoW), TF-IDF 유사성, Levenshtein 유사성, BLEU 점수 및 SBERT 유사성 등의 텍스트 유사성 메트릭을 사용했습니다.

2.5 분석

정확도 변화의 통계적 유의성을 평가하기 위해 Kruskal-Wallis 테스트를 사용했습니다. 데이터는 정규 분포를 따르지 않고 이항 분포를 보여 Kruskal-Wallis 테스트가 선택되었습니다.


3. 결과

3.1 정확도 대 온도

샘플링 온도 0.0에서 1.0 사이에서 모든 LLM, 프롬프트 엔지니어링 기법 및 문제 도메인에 대해 문제 해결 성능이 비교적 안정적으로 유지되었습니다. GPT-3.5를 사용하여 CoT 프롬프트로 1,000개 문제 시험을 수행한 결과, Kruskal-Wallis 테스트에서 \(H(10) = 10.439, p = 0.403\)이 나왔습니다.

첫째, GPT-3.5를 사용하여 100문제 시험에서 CoT 프롬프트를 분석한 결과, 온도 0.0에서 1.0 사이에서 정확도가 안정적으로 유지되었습니다. 그러나 온도 1.0 이후로는 텍스트가 급격히 불명확해지며 정확도가 감소하여 1.6에서 0에 이르렀습니다.

둘째, CoT 프롬프트를 사용한 100문제 시험에서 모든 9개의 LLM의 성능을 분석한 결과, Llama 2 7B를 제외하고 모든 LLM에서 정확도가 안정적으로 유지되었습니다. 대부분의 LLM은 온도 기능에 따라 점진적으로 성능이 감소하는 경향을 보였습니다.

셋째, GPT-3.5를 사용하여 각각의 다섯 가지 프롬프트로 100문제 시험의 성능을 분석했습니다. 모든 온도에서 모든 프롬프트 엔지니어링 기법에 대해 정확도가 안정적으로 유지되었습니다. 결과적으로, 모든 단일 프롬프트 실험에 CoT 프롬프트를 사용했습니다.

마지막으로, GPT-3.5를 사용하여 모든 열 가지 시험에서 CoT 프롬프트의 성능을 분석했습니다. 모든 온도에서 모든 문제 도메인에 걸쳐 정확도가 안정적으로 유지되었습니다. 그러나 LSAT-AR 및 SAT-Math 시험에서 Kruskal-Wallis p-value에서 통계적으로 유의미한 차이가 나타났습니다.

3.2 텍스트 변이성 대 온도

온도의 기능에 따른 텍스트 변이성을 추가로 분석한 결과, 온도가 증가함에 따라 텍스트 유사성이 감소하는 분명한 추세를 보였습니다. 이는 높은 온도에서 LLM이 더 다양한 출력을 생성함을 나타내며, 이런 결과는 LLM, 프롬프트 엔지니어링 기법 또는 문제 도메인에 관계없이 유지됩니다.


4. 토론

4.1 해석

이런 결과를 바탕으로, 0.0에서 1.0 사이의 온도 변화가 LLM의 문제 해결 성능에 통계적으로 유의미한 영향을 미치지 않는 것으로 나타났습니다. 이런 결과는 LLM, 프롬프트 엔지니어링 기법 및 문제 도메인에 걸쳐 일반화되는 것으로 보입니다. 그러나 이런 일반적인 발견에 몇 가지 예외가 있을 수 있습니다.

따라서 문제 해결 작업에 LLM의 샘플링 온도를 0.0으로 설정하는 것이 권장됩니다. 이 온도는 재현성을 최대화하면서 정확도를 저하시키지 않습니다. 또한, 1.0 이상의 온도에서 발생하는 성능 저하를 피할 수 있습니다. 그러나 이런 지침에 대한 예외도 고려해야 합니다.

4.2 한계

비용 및 런타임 고려로 인해 여러 한계가 있었습니다.

첫째, 연구는 유명한 LLM의 일부에 국한되었기 때문에 다른 LLM에서는 결과가 달라질 수 있습니다.

둘째, 단일 프롬프트 및 응답 주기와 한 번의 인-콘텍스트 학습을 사용하는 프롬프트 엔지니어링 기법의 일부만 탐색했습니다. 결과적으로, 샘플링 온도를 더 잘 활용할 수 있는 더 복잡한 프롬프트나 에이전트 구조가 있을 수 있습니다.

셋째, 연구는 문제, 문제 도메인 및 문제 해결 작업의 일부에 국한되었습니다. 결과적으로, 발견은 더 큰 데이터셋, 다른 문제 도메인 또는 다른 유형의 문제 해결 작업에는 적용되지 않을 수 있습니다.

넷째, 모든 모델, 프롬프트 및 시험 조합에 대해 탐색한 샘플링 온도를 0.0에서 1.0으로 제한했습니다. 결과적으로, 다른 LLM의 온도 하이퍼파라미터는 1.0 이상의 온도에서 다르게 작동할 수 있습니다.

마지막으로, 모델, 프롬프트, 시험 및 온도의 다양한 조합을 모두 탐색할 수 없었습니다. 결과적으로, 문제 해결 성능에서 온도가 더 중요한 역할을 할 수 있는 다른 LLM, 프롬프트 엔지니어링 기법 및 문제 도메인의 조합이 존재할 수 있습니다.

4.3 시사점

이 연구는 샘플링 온도를 0.0에서 1.0 범위로 변경해도 MCQA 문제에서 LLM의 문제 해결 능력에 영향을 미치지 않는다는 경험적 증거를 제공합니다. 이런 결과는 AI 엔지니어들이 자신의 LLM 에이전트 및 응용 프로그램에 대해 다양한 샘플링 온도를 평가하는 데 상당한 시간 및 자원을 절약할 수 있게 합니다. 또한, 다양한 문제 해결 작업에 대한 최적의 샘플링 온도에 대한 프롬프트 엔지니어링 커뮤니티 내의 비생산적인 논쟁을 줄일 수 있습니다.

피어 리뷰에서도 Perplexity 같은 것들로 Temeperature 관련된 주제가 논쟁적인데, Temperature와 Hallucination을 생각하면… 지금보다 더 정리된 논문들이 나오면 좋을 것 같네요.

4.4 향후 연구

이 연구를 개선하기 위해 다음과 같은 후속 실험을 제안합니.

첫째, 추가 LLM과의 실험을 수행하는 것이 권장됩니다. 다른 독점 및 오픈 소스 LLM은 특정 모델에 이점을 줄 수 있는 온도를 활용할 수 있지만, 테스트한 LLM에서는 이점을 제공하지 않을 수도 있습니다.

둘째, MCQA 문제를 넘어서 올바른 답변이 더 개방적인 다른 유형의 문제 해결 작업으로 확장하는 것이 권장됩니다. 본 논문의 실험에서 샘플링 온도의 영향이 제한적인 것은 MCQA 문제의 구조에 의해 부과된 제약 때문일 수 있으므로 더 조사해봐야합니다.

셋째, 더 많은 MCQA 문제 및 문제 도메인으로 추가 실험을 수행하는 것이 바람직하며, 특히 더 창의적인 해결책이나 측면적인 ‘박스 밖의’ 사고를 요구하는 작업 및 문제 도메인을 목표로 삼아야 합니다.

넷째, 각 LLM, 프롬프트, 및 시험에 대해 정확도가 0에 이르는 샘플링 온도 범위를 확장하는 것이 권장됩니다. 그러나 생성된 텍스트가 더 무작위화됨에 따라 각 응답의 토큰 수가 상당히 증가하여 1.0 이상의 온도를 탐색하는 데 드는 런타임 및 비용이 상당히 증가할 수 있습니다.

마지막으로으로 샘플링 온도 변경에 민감한 문제의 하위 유형이 있는지 확인하기 위해 보다 심층적인 오류 분석을 수행해야하며, 통계적 노이즈이나 평균화로 인해 개별 문제에서 온도 변화에 민감한 문제가 숨겨져 있을 수 있습니다.

Previous: Evaluation | Human vs. LLM judges Next: Rank RAG

post contain ""

    No matching posts found containing ""