00:00:00

Share Your Feedback 🏝️

Model | Guanaco

Model | Guanaco

MinWoo(Daniel) Park | Tech Blog

Read more
Previous: Model | Open Assistant Next: Model | Stable Beluga

Model | Guanaco

  • Related Project: private
  • Category: Paper Review
  • Date: 2023-08-09

Guanaco

  • url: https://guanaco-model.github.io/
  • huggingface(model weight): https://huggingface.co/JosephusCheung/Guanaco
  • data-set: https://huggingface.co/datasets/JosephusCheung/GuanacoDataset
  • abstract: We present QLoRA, an efficient fine-tuning approach that reduces memory usage enough to finetune a 65B parameter model on a single 48GB GPU while preserving full 16-bit fine-tuning task performance. QLoRA backpropagates gradients through a frozen, 4-bit quantized pretrained language model into Low Rank Adapters~(LoRA). Our best model family, which we name Guanaco, outperforms all previous openly released models on the Vicuna benchmark, reaching 99.3% of the performance level of ChatGPT while only requiring 24 hours of fine-tuning on a single GPU. QLoRA introduces a number of innovations to save memory without sacrificing performance: (a) 4-bit NormalFloat (NF4), a new data type that is information theoretically optimal for normally distributed weights (b) double quantization to reduce the average memory footprint by quantizing the quantization constants, and (c) paged optimziers to manage memory spikes. We use QLoRA to finetune more than 1,000 models, providing a detailed analysis of instruction following and chatbot performance across 8 instruction datasets, multiple model types (LLaMA, T5), and model scales that would be infeasible to run with regular fine-tuning (e.g. 33B and 65B parameter models). Our results show that QLoRA fine-tuning on a small high-quality dataset leads to state-of-the-art results, even when using smaller models than the previous SoTA. We provide a detailed analysis of chatbot performance based on both human and GPT-4 evaluations showing that GPT-4 evaluations are a cheap and reasonable alternative to human evaluation. Furthermore, we find that current chatbot benchmarks are not trustworthy to accurately evaluate the performance levels of chatbots. A lemon-picked analysis demonstrates where Guanaco fails compared to ChatGPT. We release all of our models and code, including CUDA kernels for 4-bit training. Model Card
  • note: It is highly recommended to use fp16 inference for this model, as 8-bit precision may significantly affect performance. If you require a more consumer hardware-friendly version, please use the specialized quantized, only 5+GB V-Ram required JosephusCheung/GuanacoOnConsumerHardware.

Guanaco 모델

  • Meta의 LLaMA 7B 모델을 기반으로 구축된 인스트럭션-팔로잉 언어 모델
  • Alpaca 모델의 초기 52K 데이터셋을 확장하여 534K+ 항목을 추가, 영어, 간체 중국어, 번체 중국어(대만, 홍콩), 일본어, 독일어 및 다양한 언어 및 문법 작업을 포함.
  • 다중 언어 환경에서 우수한 성능 발휘
  • Guanaco 데이터셋과 모델 가중치를 공개하여 연구의 개방성과 재현성을 촉진

모델 사용 시 유의사항

  • 해로운, 편향된 또는 노골적인 콘텐츠에 대해 필터링되지 않음.
  • 윤리적 규범을 준수하지 않는 출력이 생성될 수 있으므로 연구 또는 실용적 응용 시 주의 필요

개선된 컨텍스트 및 프롬프트 역할 지원

  • ChatGPT와 유사한 형식으로 새로운 포맷 설계
  • 다중 턴 대화에서 대화 기록을 쉽게 추적하고 컨텍스트 유지
  • 포맷 예시
    ### Instruction:
    User: History User Input
    Assistant: History Assistant Answer
    ### Input:
    System: Knowledge
    User: New User Input
    ### Response:
    New Assistant Answer
    

롤플레잉 지원

  • Character.AI와 유사한 롤플레잉 지원
  • 다양한 언어로 특정 역할, 역사적 인물, 가상의 캐릭터 등으로 모델을 지시할 수 있음.
  • “캐릭터 이름: 응답” 형식으로 일관된 역할 유지

답변 거부 및 잘못된 응답 회피

  • 모델이 충분한 지식이 없거나 유효한 응답을 제공할 수 없는 상황을 더 효과적으로 처리
  • 예약 키워드 도입
    • NO IDEA: 필요한 지식이 부족함을 표시
    • FORBIDDEN: 법적, 윤리적, 안전상의 이유로 답변 거부
    • SFW: NSFW 콘텐츠로 필터링되어 답변 거부

지속적인 주제에 대한 응답

  • 사용자의 요청에 따라 질문이나 주제에 대한 응답을 계속 제공
  • 다중 턴 대화에서 컨텍스트를 유지하고 더 일관된 응답 제공
  • 사용자 선호에 따라 몰입감 있고 맞춤형 대화 경험 제공

다중모달 비주얼 질문 응답(VQA) 지원

  • 텍스트와 시각적 입력을 결합하여 쿼리에 응답
  • 시각적 및 언어적 이해를 연결하여 다양한 응용 프로그램에 유용할 수 있음
Previous: Model | Open Assistant Next: Model | Stable Beluga

post contain ""

    No matching posts found containing ""