Sabiá 7B - GGUF

Os modelos Sabiá foram otimizados com language modeling objective, mas não foram treinados para seguir instruções (instruction tuning). Ou seja, eles não são chatbots. Eles funcionam bem em tarefas few-shot: você passa exemplos de entrada e saída, seguidos por um novo exemplo de entrada, daí o modelo gera o texto complementar (a resposta).

Arquivos Incluídos

Nome Método Quant Bits Tamanho Desc
sabia7b-q4_0.gguf q4_0 4 3.83 GB Quantização em 4-bit.
sabia7b-q4_1.gguf q4_1 4 4.24 GB Quantização em 4-bit. Acurácia maior que q4_0 mas não tão boa quanto q5_0. Inferência mais rápida que os modelos q5.
sabia7b-q5_0.gguf q5_0 5 4.65 GB Quantização em 5-bit. Melhor acurácia, maior uso de recursos, inferência mais lenta.
sabia7b-q5_1.gguf q5_1 5 5.06 GB Quantização em 5-bit. Ainda Melhor acurácia, maior uso de recursos, inferência mais lenta.
sabia7b-q8_0.gguf q8_0 8 7.16 GB Quantização em 8-bit. Quase indistinguível do float16. Usa muitos recursos e é mais lento.

Observação: os valores de RAM acima não pressupõem descarregamento de GPU. Se as camadas forem descarregadas para a GPU, isso reduzirá o uso de RAM e usará VRAM.

Como executar com llama.cpp

Usei o seguinte comando. Para melhores resultados forneça exemplos de resultados esperados. Exemplo:

Classifique a string abaixo em uma ou mais das seguintes classes: A, B, C ou D.

String: <string 1>

Classes: B, D

String: <string 2>

Classes:

./main -m ./models/sabia-7b/sabia7b-q5_1.gguf --color --temp 0.5 -n 256 -p "### Instrução: {comando} ### Resposta:"

Para compreender os parâmetros, veja a documentação do llama.cpp

Experimente gratuitamente no Google Colab: Open In Colab

Sobre o formato GGUF

GGUF é um novo formato introduzido pela equipe llama.cpp em 21 de agosto de 2023. É um substituto para o GGML, que não é mais suportado pelo llama.cpp.

O principal benefício do GGUF é que ele é um formato extensível e à prova de futuro que armazena mais informações sobre o modelo como metadados. Ele também inclui código de tokenização significativamente melhorado, incluindo pela primeira vez suporte total para tokens especiais. Isso deve melhorar o desempenho, especialmente com modelos que usam novos tokens especiais e implementam modelos de prompt personalizados.

Aqui está uma lista de clientes e bibliotecas que são conhecidos por suportar GGUF:

  • llama.cpp.
  • ollama - servidor com interfaces REST e CLI
  • text-generation-webui, a interface web mais amplamente utilizada. Suporta GGUF com aceleração GPU via backend ctransformers - backend llama-cpp-python deve funcionar em breve também.
  • KoboldCpp, agora suporta GGUF a partir da versão 1.41! Uma poderosa interface web GGML, com aceleração total da GPU. Especialmente bom para contar histórias.
  • LM Studio, versão 0.2.2 e posteriores suportam GGUF. Uma GUI local totalmente equipada com aceleração GPU em ambos Windows (NVidia e AMD) e macOS.
  • LoLLMS Web UI, agora deve funcionar, escolha o backend c_transformers. Uma ótima interface web com muitos recursos interessantes. Suporta aceleração GPU CUDA.
  • ctransformers, agora suporta GGUF a partir da versão 0.2.24! Uma biblioteca Python com aceleração GPU, suporte LangChain e servidor AI compatível com OpenAI.
  • llama-cpp-python, suporta GGUF a partir da versão 0.1.79. Uma biblioteca Python com aceleração GPU, suporte LangChain e servidor API compatível com OpenAI.
  • candle, adicionou suporte GGUF em 22 de agosto. Candle é um framework ML Rust com foco em desempenho, incluindo suporte GPU e facilidade de uso.
  • LocalAI, adicionou suporte GGUF em 23 de agosto. LocalAI provê uma API Rest para modelos LLM e de geração de imagens.

Template

### Instrução:
{prompt}

### Resposta:
Downloads last month
42
GGUF
Model size
6.74B params
Architecture
llama

4-bit

5-bit

8-bit

Inference Examples
Inference API (serverless) has been turned off for this model.

Collection including lucianosb/sabia-7b-GGUF