fernandosola
commited on
Update README.md
Browse files
README.md
CHANGED
@@ -1,8 +1,204 @@
|
|
1 |
---
|
2 |
license: mit
|
3 |
-
language:
|
4 |
-
-
|
5 |
-
base_model:
|
6 |
-
- mistralai/Mistral-7B-Instruct-v0.1
|
7 |
pipeline_tag: text-generation
|
8 |
-
---
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
---
|
2 |
license: mit
|
3 |
+
language: pt
|
4 |
+
base_model: mistralai/Mistral-7B-Instruct-v0.1
|
|
|
|
|
5 |
pipeline_tag: text-generation
|
6 |
+
---
|
7 |
+
|
8 |
+
|
9 |
+
# Blue Arara 7b instruct GGUF
|
10 |
+
- Criador do modelo: [fernandosola](https://huggingface.co/fernandosola).
|
11 |
+
- Modelo base: [bluearara-7b-instruct](https://huggingface.co/fernandosola/bluearara-7B-instruct).
|
12 |
+
- Modelo fundacional: [Mistral 7B Instruct v0.2](https://huggingface.co/mistralai/Mistral-7B-Instruct-v0.2).
|
13 |
+
|
14 |
+
<!-- description start -->
|
15 |
+
## Descrição
|
16 |
+
|
17 |
+
Este repositório contêm o modelo quantizado GGUF de [bluearara-7b-instruct] (https://huggingface.co/fernandosola/bluearara-7B-instruct). <br>
|
18 |
+
Estes arquivos foram quantizados por AByrth
|
19 |
+
|
20 |
+
<div style="width: auto; margin-left: auto; margin-right: auto">
|
21 |
+
<img src="https://i.imgur.com/ZiM1Ua0.png" alt="Arara Azul" style="width:256; min-width: 100px; margin: auto;">
|
22 |
+
</div>
|
23 |
+
|
24 |
+
|
25 |
+
|
26 |
+
<!-- description end -->
|
27 |
+
|
28 |
+
<!-- README_GGUF.md-about-gguf start -->
|
29 |
+
|
30 |
+
### Sobre o formato GGUF
|
31 |
+
|
32 |
+
GGUF é um formato quantizado para modelos LLM introduzido pela equipe llama.cpp em Agosto de 2023.
|
33 |
+
|
34 |
+
Sugestões de aplicativos clientes e bibliotecas que suportam modelos GGUF:
|
35 |
+
|
36 |
+
* [llama.cpp](https://github.com/ggerganov/llama.cpp). O projeto fonte do GGUF. Oferece uma CLI e uma opção de servidor.
|
37 |
+
* [text-generation-webui](https://github.com/oobabooga/text-generation-webui), uma interface web com muitos recursos e extensões poderosas. Suporta aceleração de GPU.
|
38 |
+
* [GPT4All](https://gpt4all.io/index.html), uma GUI de execução local gratuita e de código aberto, compatível com Windows, Linux e macOS com aceleração em GPU.
|
39 |
+
* [LM Studio](https://lmstudio.ai/), um aplicativo GUI local fácil de usar para Windows, Linux e macOS (Silicon), com aceleração de GPU.
|
40 |
+
* [llama-cpp-python](https://github.com/abetlen/llama-cpp-python), uma biblioteca Python com aceleração de GPU, suporte LangChain e servidor API compatível com OpenAI.
|
41 |
+
|
42 |
+
<!-- README_GGUF.md-about-gguf end -->
|
43 |
+
<!-- repositories-available start -->
|
44 |
+
## Repositorios disponíveis
|
45 |
+
|
46 |
+
* [Modelo GGUF 3, 4, 5, 6 e 8-bit para inferências CPU ou CPU+GPU](https://huggingface.co/fernandosola/bluearara-7B-instruct-GGUF)
|
47 |
+
* [Modelo GPTQ para inferências GPU, quantizado em 4 bits.](https://huggingface.co/fernandosola/bluearara-7B-instruct-GPTQ)
|
48 |
+
* [Modelo original não quantizado em formato pytorch fp16, para inferência GPU e futuras](https://huggingface.co/fernandosola/bluearara-7B)
|
49 |
+
<!-- repositories-available end -->
|
50 |
+
|
51 |
+
<!-- prompt-template start -->
|
52 |
+
## Prompt template: Mistral
|
53 |
+
|
54 |
+
```
|
55 |
+
<s>[INST] {prompt} [/INST]
|
56 |
+
```
|
57 |
+
|
58 |
+
<!-- prompt-template end -->
|
59 |
+
|
60 |
+
<!-- README_GGUF.md-provided-files start -->
|
61 |
+
## Modelos Quantizados GGUF
|
62 |
+
| Nome | Quantização | Bits | Tamanho | Consumo de RAM | Indicação |
|
63 |
+
| ---- | ---- | ---- | ---- | ---- | ----- |
|
64 |
+
| [bluearara-7B-instruct_Q3_K_M.gguf](https://huggingface.co/fernandosola/bluearara-7B-instruct-GGUF/blob/main/bluearara-7B-instruct_Q3_K_M.gguf) | Q3_K_M | 3 | 3.52 GB| 6.02 GB | Pequeno, perda de qualidade razoável|
|
65 |
+
| [bluearara-7B-instruct-Q4_0.gguf](https://huggingface.co/fernandosola/bluearara-7B-instruct-GGUF/blob/main/bluearara-7B-instruct_Q4_0.gguf) | Q4_0 | 4 | 4.11 GB| 6.61 GB | Pequeno, Qualidade balanceada|
|
66 |
+
| [bluearara-7B-instruct-Q5_0.gguf](https://huggingface.co/fernandosola/bluearara-7B-instruct-GGUF/blob/main/bluearara-7B-instruct_Q5_0.gguf) | Q5_0 | 5 | 5.00 GB| 7.50 GB | Médio, Qualidade balanceada|
|
67 |
+
| [bluearara-7B-instruct-Q6_K.gguf](https://huggingface.co/fernandosola/bluearara-7B-instruct-GGUF/blob/main/bluearara-7B-instruct_Q6_K.gguf) | Q6_K | 6 | 5.94 GB| 8.44 GB | Grande, pouquíssima perda de qualidade|
|
68 |
+
| [bluearara-7B-instruct-Q8_0.gguf](https://huggingface.co/fernandosola/bluearara-7B-instruct-GGUF/blob/main/bluearara-7B-instruct_Q8_0.gguf) | Q8_0 | 8 | 7.70 GB| 10.20 GB | Grande, perda mínima de qualidade|
|
69 |
+
|
70 |
+
**Note**: **Note**: O consumo de RAM assume uso exclusivo em CPU, sem offload de camadas (layers) do modelo para a GPU. O consumo de RAM é reduzido se uma ou mais camadas forem descarregadas em GPU.
|
71 |
+
|
72 |
+
<!-- README_GGUF.md-provided-files end -->
|
73 |
+
|
74 |
+
<!-- README_GGUF.md-how-to-download start -->
|
75 |
+
## Como realizar o download dos arquivos GGUF
|
76 |
+
|
77 |
+
**Observação para downloaders manuais:** Evite clonar o repositório inteiro! Escolha apenas o arquivo com a quantização desejada.
|
78 |
+
|
79 |
+
Os clientes/bibliotecas listados abaixo farão download automaticamente para você, fornecendo uma lista de modelos disponíveis para você escolher:
|
80 |
+
|
81 |
+
* LM Studio
|
82 |
+
* oobabooga/text-generation-webui
|
83 |
+
|
84 |
+
### Usando oobabooga/text-generation-webui
|
85 |
+
|
86 |
+
Em Download Model, coloque o endereço do repositorio e modelo: **fernandosola/bluearara-7B-instruct-v02**
|
87 |
+
|
88 |
+
Finalmente, clique "Download"
|
89 |
+
|
90 |
+
### Em comando de linha
|
91 |
+
|
92 |
+
Use a biblioteca Python `huggingface-hub`:
|
93 |
+
|
94 |
+
```shell
|
95 |
+
pip3 install huggingface-hub
|
96 |
+
```
|
97 |
+
|
98 |
+
Então você pode baixar qualquer arquivo de modelo individual para o diretório atual, em alta velocidade, com um comando como este:
|
99 |
+
|
100 |
+
```shell
|
101 |
+
huggingface-cli download fernandosola/bluearara-7B-instruct-GGUF bluearara-7B-instruct_q4_0.gguf.gguf --local-dir . --local-dir-use-symlinks False
|
102 |
+
```
|
103 |
+
|
104 |
+
<details>
|
105 |
+
<summary>Opções avançados de download do huggingface-cli (clique para ler)</summary>
|
106 |
+
|
107 |
+
Você também pode baixar vários arquivos de uma vez com um padrão:
|
108 |
+
|
109 |
+
```shell
|
110 |
+
huggingface-cli download fernandosola/bluearara-7B-instruct-GGUF --local-dir . --local-dir-use-symlinks False --include='*Q4*gguf'
|
111 |
+
```
|
112 |
+
|
113 |
+
Para acelerar downloads em conexões rápidas (1Gbit/s ou superior), instale `hf_transfer`:
|
114 |
+
|
115 |
+
```shell
|
116 |
+
pip3 install hf_transfer
|
117 |
+
```
|
118 |
+
|
119 |
+
E defina a variável de ambiente `HF_HUB_ENABLE_HF_TRANSFER` com valor `1`:
|
120 |
+
|
121 |
+
```shell
|
122 |
+
HF_HUB_ENABLE_HF_TRANSFER=1 huggingface-cli download fernandosola/bluearara-7B-instruct-GGUF bluearara-7B-instruct_Q4_0.gguf --local-dir . --local-dir-use-symlinks False
|
123 |
+
```
|
124 |
+
|
125 |
+
Usuários da linha de comando do Windows: você pode definir a variável de ambiente executando`set HF_HUB_ENABLE_HF_TRANSFER=1` antes de executar o comando para download.
|
126 |
+
</details>
|
127 |
+
<!-- README_GGUF.md-how-to-download end -->
|
128 |
+
<!-- README_GGUF.md-how-to-run start -->
|
129 |
+
|
130 |
+
## Como executar com `llama.cpp`
|
131 |
+
|
132 |
+
Baixe a versão mais recente do `llama.cpp`:
|
133 |
+
```shell
|
134 |
+
git clone https://github.com/ggerganov/llama.cpp.git
|
135 |
+
```
|
136 |
+
|
137 |
+
Compile os aplicativos C++ nativos usando `make`:
|
138 |
+
```shell
|
139 |
+
make
|
140 |
+
```
|
141 |
+
|
142 |
+
Execute o modelo quantizado baixado previamente:
|
143 |
+
|
144 |
+
|
145 |
+
```shell
|
146 |
+
./main -ngl 35 -m bluearara-7B-instruct_Q4_0.gguf --color -c 2048 --temp 0.7 --repeat_penalty 1.1 -n -1 -p "<s>[INST] {prompt} [/INST]"
|
147 |
+
```
|
148 |
+
|
149 |
+
Mude `-ngl 32` para o número de camadas (layerd) que deseja descarregar para a GPU. Remova, caso não tenha GPU disponível.
|
150 |
+
|
151 |
+
Mude `-c 2048` para o tamanho de contexto desejado. O valor máximo é 32768 (32K). No entanto, contextos longos exigem muita mémória RAM. Reduza se enfrentar problemas.
|
152 |
+
|
153 |
+
Se você quiser ter uma conversa no estilo chat, substitua o argumento `-p <PROMPT>` por `-i -ins`
|
154 |
+
|
155 |
+
para outros parâmetros, consulte [the llama.cpp documentation](https://github.com/ggerganov/llama.cpp/blob/master/examples/main/README.md)
|
156 |
+
|
157 |
+
## Usando `text-generation-webui`
|
158 |
+
|
159 |
+
Mais instruções podem ser encontradas na documentação do text-generation-webui, aqui: [text-generation-webui/docs/04 ‐ Model Tab.md](https://github.com/oobabooga/text-generation-webui/blob/main/docs/04%20%E2%80%90%20Model%20Tab.md#llamacpp).
|
160 |
+
|
161 |
+
## Executando com Python
|
162 |
+
|
163 |
+
Você pode usar modelos GGUF do Python usando a biblioteca [llama-cpp-python](https://github.com/abetlen/llama-cpp-python)
|
164 |
+
|
165 |
+
### Exemplo:
|
166 |
+
|
167 |
+
#### Simple llama-cpp-python example code
|
168 |
+
|
169 |
+
```python
|
170 |
+
from llama_cpp import Llama
|
171 |
+
|
172 |
+
# Defina gpu_layers como o número de camadas a serem descarregadas para GPU. Defina como 0 se nenhuma aceleração de GPU estiver disponível em seu sistema.
|
173 |
+
llm = Llama(
|
174 |
+
model_path="./bluearara-7B-instruct_Q4_0.gguf", # Faça download do modelo antes
|
175 |
+
n_ctx=32768, # Tamanho máximo de contexto. Reduza, se tiver pouco RAM disponível
|
176 |
+
n_threads=8, # Número de threads CPU para usar. Teste para verificar o número idela no seu sistema.
|
177 |
+
n_gpu_layers=35 # O número de camadas (layers) a serem descarregadas para GPU, se você tiver aceleração de GPU disponível
|
178 |
+
)
|
179 |
+
|
180 |
+
# Fazendo uma inferência simples
|
181 |
+
output = llm(
|
182 |
+
"<s>[INST] {prompt} [/INST]", # Prompt
|
183 |
+
max_tokens=512, # Limitando resposta em 512 tokens
|
184 |
+
stop=["</s>"], # Examplo de stop token - verifique no seu modelo
|
185 |
+
echo=True # True se deve repetir o prompt.
|
186 |
+
|
187 |
+
|
188 |
+
# API para Chat Completion
|
189 |
+
llm = Llama(model_path="./bluearara-7B-instruct_Q4_0.gguf", chat_format="llama-2") # Set chat_format according to the model you are using
|
190 |
+
llm.create_chat_completion(
|
191 |
+
messages = [
|
192 |
+
# o role "system" está em desuso.
|
193 |
+
# {"role": "system", "content": "You are a story writing assistant."},
|
194 |
+
{
|
195 |
+
"role": "user", "content": "You are a story writing assistant. \n\n Write a story about llamas."
|
196 |
+
}
|
197 |
+
]
|
198 |
+
)
|
199 |
+
```
|
200 |
+
|
201 |
+
## Carbon Footprint - Environmental Concerns
|
202 |
+
A pegada de Carbono deste subprojeto consumiu 6 de horas de computação acumuladas em GPUs em hardware do tipo NVIDIA RTX 3070 e CPU Intel Xeon E5. Toda energia consumida foi de origem solar, com produção de 0.0g de CO2 ou gases de efeitos estufa.
|
203 |
+
|
204 |
+
The Carbon footprint of this subproject consumed 6 hours of computing accumulated on hardware as NVIDIA RTX 3070 GPUs (100W-270W) and Intel Xeon E5 CPU (100W). All energy consumed was of solar origin, producing 0.0g of CO2 or greenhouse gases.
|