Created: 2024-05-03 14:34:02 +0000
Last modified: 2024-09-05
20:56:50 +0900
Model | Wild Chat
- Related Project: Private
- Category: Paper Review
- Date: 2024-05-03
WildChat: 1M ChatGPT Interaction Logs in the Wild
- url: https://arxiv.org/abs/2405.01470
- pdf: https://arxiv.org/pdf/2405.01470
- html https://arxiv.org/html/2405.01470v1
- abstract: Chatbots such as GPT-4 and ChatGPT are now serving millions of users. Despite their widespread use, there remains a lack of public datasets showcasing how these tools are used by a population of users in practice. To bridge this gap, we offered free access to ChatGPT for online users in exchange for their affirmative, consensual opt-in to anonymously collect their chat transcripts and request headers. From this, we compiled WildChat, a corpus of 1 million user-ChatGPT conversations, which consists of over 2.5 million interaction turns. We compare WildChat with other popular user-chatbot interaction datasets, and find that our dataset offers the most diverse user prompts, contains the largest number of languages, and presents the richest variety of potentially toxic use-cases for researchers to study. In addition to timestamped chat transcripts, we enrich the dataset with demographic data, including state, country, and hashed IP addresses, alongside request headers. This augmentation allows for more detailed analysis of user behaviors across different geographical regions and temporal dimensions. Finally, because it captures a broad range of use cases, we demonstrate the dataset’s potential utility in fine-tuning instruction-following models. WildChat is released at this https URL under AI2 ImpACT Licenses.
Contents
TL;DR
WILDCHAT은 실제 사용자와의 다양한 상호작용을 포함한 풍부한 데이터셋으로, 대화형 챗봇 모델을 향상시키기 위한 자료를 제공합니다.
[문제와 해결 방법]
문제
기존의 챗봇 상호작용 데이터셋은 주로 전문가가 선별한 단일 턴 대화를 포함하고 있어 실제 사용자와의 다양한 다중 턴 상호작용을 잘 반영하지 못합니다.
해결 방법
WILDCHAT은 1백만 개 이상의 다중 턴 대화를 포함한 데이터셋으로, 실제 사용자와의 상호작용을 보다 정확하게 반영합니다. 이를 통해 챗봇이 사용자와의 대화에서 더욱 효과적으로 반응할 수 있는 데이터를 제공합니다.
[선행연구와 해당 논문의 발견]
선행연구
기존의 사용자-챗봇 대화 데이터셋은 대부분 단일 턴 대화에 초점을 맞추고 있으며, 다중 턴 상호작용의 실제 예시를 포함하지 않는 경우가 많습니다.
해당 논문의 발견
WILDCHAT은 다양한 다중 턴 대화를 포함하여, 기존 데이터셋과는 다른 실제 사용자와의 상호작용을 제공함으로써 연구자들에게 중요한 자료를 제공합니다. 특히 지역별 동작 분석과 함께 상세한 행동 분석을 가능하게 합니다.
[방법]
WILDCHAT 데이터셋은 다음과 같은 방법을 통해 수집되었습니다.
- 챗봇 서비스 배포: GPT-3.5-Turbo API와 GPT-4 API를 사용하여 Hugging Face Spaces에 배포하였습니다.
- 사용자 동의: 데이터 수집 및 사용에 대한 사용자 동의 메커니즘을 구현하여 사용자의 개인정보 보호를 보장하였습니다.
- 데이터 전처리: 대화를 턴 기반 시스템으로 분류하고, 개인 식별 정보를 삭제하고 IP 주소를 해시처리하여 개인정보를 보호하였습니다.
[데이터 분석]
WILDCHAT 데이터셋의 기본 통계와 비교 결과
- 다양성: WILDCHAT는 68개의 언어를 포함하고 있으며, 다양한 사용자 프롬프트 카테고리를 보여줍니다.
- 지리적 분포: 주로 미국, 러시아, 중국에서 데이터가 생성되었습니다.
[독성 분석]
WILDCHAT 데이터셋의 독성 분석 결과
- 독성(toxicity) 비율: 사용자 턴의 10.46%와 챗봇 턴의 6.58%가 독성으로 판단되었습니다.
- 카테고리: 주로 성적 도발이 가장 많았습니다.
[Instruction Tuning]
- 성능 평가: WILDLLAMA 모델은 다른 오픈 소스 모델과 비교하여 우수한 성능을 보였으며, 특히 롤플레이와 코딩 분야에서 높은 평가를 받았습니다.