fernandosola commited on
Commit
2c5ffc3
·
verified ·
1 Parent(s): 26ade61

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +201 -5
README.md CHANGED
@@ -1,8 +1,204 @@
1
  ---
2
  license: mit
3
- language:
4
- - pt
5
- base_model:
6
- - mistralai/Mistral-7B-Instruct-v0.1
7
  pipeline_tag: text-generation
8
- ---
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
  ---
2
  license: mit
3
+ language: pt
4
+ base_model: mistralai/Mistral-7B-Instruct-v0.1
 
 
5
  pipeline_tag: text-generation
6
+ ---
7
+
8
+
9
+ # Blue Arara 7b instruct GGUF
10
+ - Criador do modelo: [fernandosola](https://huggingface.co/fernandosola).
11
+ - Modelo base: [bluearara-7b-instruct](https://huggingface.co/fernandosola/bluearara-7B-instruct).
12
+ - Modelo fundacional: [Mistral 7B Instruct v0.2](https://huggingface.co/mistralai/Mistral-7B-Instruct-v0.2).
13
+
14
+ <!-- description start -->
15
+ ## Descrição
16
+
17
+ Este repositório contêm o modelo quantizado GGUF de [bluearara-7b-instruct] (https://huggingface.co/fernandosola/bluearara-7B-instruct). <br>
18
+ Estes arquivos foram quantizados por AByrth
19
+
20
+ <div style="width: auto; margin-left: auto; margin-right: auto">
21
+ <img src="https://i.imgur.com/ZiM1Ua0.png" alt="Arara Azul" style="width:256; min-width: 100px; margin: auto;">
22
+ </div>
23
+
24
+
25
+
26
+ <!-- description end -->
27
+
28
+ <!-- README_GGUF.md-about-gguf start -->
29
+
30
+ ### Sobre o formato GGUF
31
+
32
+ GGUF é um formato quantizado para modelos LLM introduzido pela equipe llama.cpp em Agosto de 2023.
33
+
34
+ Sugestões de aplicativos clientes e bibliotecas que suportam modelos GGUF:
35
+
36
+ * [llama.cpp](https://github.com/ggerganov/llama.cpp). O projeto fonte do GGUF. Oferece uma CLI e uma opção de servidor.
37
+ * [text-generation-webui](https://github.com/oobabooga/text-generation-webui), uma interface web com muitos recursos e extensões poderosas. Suporta aceleração de GPU.
38
+ * [GPT4All](https://gpt4all.io/index.html), uma GUI de execução local gratuita e de código aberto, compatível com Windows, Linux e macOS com aceleração em GPU.
39
+ * [LM Studio](https://lmstudio.ai/), um aplicativo GUI local fácil de usar para Windows, Linux e macOS (Silicon), com aceleração de GPU.
40
+ * [llama-cpp-python](https://github.com/abetlen/llama-cpp-python), uma biblioteca Python com aceleração de GPU, suporte LangChain e servidor API compatível com OpenAI.
41
+
42
+ <!-- README_GGUF.md-about-gguf end -->
43
+ <!-- repositories-available start -->
44
+ ## Repositorios disponíveis
45
+
46
+ * [Modelo GGUF 3, 4, 5, 6 e 8-bit para inferências CPU ou CPU+GPU](https://huggingface.co/fernandosola/bluearara-7B-instruct-GGUF)
47
+ * [Modelo GPTQ para inferências GPU, quantizado em 4 bits.](https://huggingface.co/fernandosola/bluearara-7B-instruct-GPTQ)
48
+ * [Modelo original não quantizado em formato pytorch fp16, para inferência GPU e futuras](https://huggingface.co/fernandosola/bluearara-7B)
49
+ <!-- repositories-available end -->
50
+
51
+ <!-- prompt-template start -->
52
+ ## Prompt template: Mistral
53
+
54
+ ```
55
+ <s>[INST] {prompt} [/INST]
56
+ ```
57
+
58
+ <!-- prompt-template end -->
59
+
60
+ <!-- README_GGUF.md-provided-files start -->
61
+ ## Modelos Quantizados GGUF
62
+ | Nome | Quantização | Bits | Tamanho | Consumo de RAM | Indicação |
63
+ | ---- | ---- | ---- | ---- | ---- | ----- |
64
+ | [bluearara-7B-instruct_Q3_K_M.gguf](https://huggingface.co/fernandosola/bluearara-7B-instruct-GGUF/blob/main/bluearara-7B-instruct_Q3_K_M.gguf) | Q3_K_M | 3 | 3.52 GB| 6.02 GB | Pequeno, perda de qualidade razoável|
65
+ | [bluearara-7B-instruct-Q4_0.gguf](https://huggingface.co/fernandosola/bluearara-7B-instruct-GGUF/blob/main/bluearara-7B-instruct_Q4_0.gguf) | Q4_0 | 4 | 4.11 GB| 6.61 GB | Pequeno, Qualidade balanceada|
66
+ | [bluearara-7B-instruct-Q5_0.gguf](https://huggingface.co/fernandosola/bluearara-7B-instruct-GGUF/blob/main/bluearara-7B-instruct_Q5_0.gguf) | Q5_0 | 5 | 5.00 GB| 7.50 GB | Médio, Qualidade balanceada|
67
+ | [bluearara-7B-instruct-Q6_K.gguf](https://huggingface.co/fernandosola/bluearara-7B-instruct-GGUF/blob/main/bluearara-7B-instruct_Q6_K.gguf) | Q6_K | 6 | 5.94 GB| 8.44 GB | Grande, pouquíssima perda de qualidade|
68
+ | [bluearara-7B-instruct-Q8_0.gguf](https://huggingface.co/fernandosola/bluearara-7B-instruct-GGUF/blob/main/bluearara-7B-instruct_Q8_0.gguf) | Q8_0 | 8 | 7.70 GB| 10.20 GB | Grande, perda mínima de qualidade|
69
+
70
+ **Note**: **Note**: O consumo de RAM assume uso exclusivo em CPU, sem offload de camadas (layers) do modelo para a GPU. O consumo de RAM é reduzido se uma ou mais camadas forem descarregadas em GPU.
71
+
72
+ <!-- README_GGUF.md-provided-files end -->
73
+
74
+ <!-- README_GGUF.md-how-to-download start -->
75
+ ## Como realizar o download dos arquivos GGUF
76
+
77
+ **Observação para downloaders manuais:** Evite clonar o repositório inteiro! Escolha apenas o arquivo com a quantização desejada.
78
+
79
+ Os clientes/bibliotecas listados abaixo farão download automaticamente para você, fornecendo uma lista de modelos disponíveis para você escolher:
80
+
81
+ * LM Studio
82
+ * oobabooga/text-generation-webui
83
+
84
+ ### Usando oobabooga/text-generation-webui
85
+
86
+ Em Download Model, coloque o endereço do repositorio e modelo: **fernandosola/bluearara-7B-instruct-v02**
87
+
88
+ Finalmente, clique "Download"
89
+
90
+ ### Em comando de linha
91
+
92
+ Use a biblioteca Python `huggingface-hub`:
93
+
94
+ ```shell
95
+ pip3 install huggingface-hub
96
+ ```
97
+
98
+ Então você pode baixar qualquer arquivo de modelo individual para o diretório atual, em alta velocidade, com um comando como este:
99
+
100
+ ```shell
101
+ huggingface-cli download fernandosola/bluearara-7B-instruct-GGUF bluearara-7B-instruct_q4_0.gguf.gguf --local-dir . --local-dir-use-symlinks False
102
+ ```
103
+
104
+ <details>
105
+ <summary>Opções avançados de download do huggingface-cli (clique para ler)</summary>
106
+
107
+ Você também pode baixar vários arquivos de uma vez com um padrão:
108
+
109
+ ```shell
110
+ huggingface-cli download fernandosola/bluearara-7B-instruct-GGUF --local-dir . --local-dir-use-symlinks False --include='*Q4*gguf'
111
+ ```
112
+
113
+ Para acelerar downloads em conexões rápidas (1Gbit/s ou superior), instale `hf_transfer`:
114
+
115
+ ```shell
116
+ pip3 install hf_transfer
117
+ ```
118
+
119
+ E defina a variável de ambiente `HF_HUB_ENABLE_HF_TRANSFER` com valor `1`:
120
+
121
+ ```shell
122
+ HF_HUB_ENABLE_HF_TRANSFER=1 huggingface-cli download fernandosola/bluearara-7B-instruct-GGUF bluearara-7B-instruct_Q4_0.gguf --local-dir . --local-dir-use-symlinks False
123
+ ```
124
+
125
+ Usuários da linha de comando do Windows: você pode definir a variável de ambiente executando`set HF_HUB_ENABLE_HF_TRANSFER=1` antes de executar o comando para download.
126
+ </details>
127
+ <!-- README_GGUF.md-how-to-download end -->
128
+ <!-- README_GGUF.md-how-to-run start -->
129
+
130
+ ## Como executar com `llama.cpp`
131
+
132
+ Baixe a versão mais recente do `llama.cpp`:
133
+ ```shell
134
+ git clone https://github.com/ggerganov/llama.cpp.git
135
+ ```
136
+
137
+ Compile os aplicativos C++ nativos usando `make`:
138
+ ```shell
139
+ make
140
+ ```
141
+
142
+ Execute o modelo quantizado baixado previamente:
143
+
144
+
145
+ ```shell
146
+ ./main -ngl 35 -m bluearara-7B-instruct_Q4_0.gguf --color -c 2048 --temp 0.7 --repeat_penalty 1.1 -n -1 -p "<s>[INST] {prompt} [/INST]"
147
+ ```
148
+
149
+ Mude `-ngl 32` para o número de camadas (layerd) que deseja descarregar para a GPU. Remova, caso não tenha GPU disponível.
150
+
151
+ Mude `-c 2048` para o tamanho de contexto desejado. O valor máximo é 32768 (32K). No entanto, contextos longos exigem muita mémória RAM. Reduza se enfrentar problemas.
152
+
153
+ Se você quiser ter uma conversa no estilo chat, substitua o argumento `-p <PROMPT>` por `-i -ins`
154
+
155
+ para outros parâmetros, consulte [the llama.cpp documentation](https://github.com/ggerganov/llama.cpp/blob/master/examples/main/README.md)
156
+
157
+ ## Usando `text-generation-webui`
158
+
159
+ Mais instruções podem ser encontradas na documentação do text-generation-webui, aqui: [text-generation-webui/docs/04 ‐ Model Tab.md](https://github.com/oobabooga/text-generation-webui/blob/main/docs/04%20%E2%80%90%20Model%20Tab.md#llamacpp).
160
+
161
+ ## Executando com Python
162
+
163
+ Você pode usar modelos GGUF do Python usando a biblioteca [llama-cpp-python](https://github.com/abetlen/llama-cpp-python)
164
+
165
+ ### Exemplo:
166
+
167
+ #### Simple llama-cpp-python example code
168
+
169
+ ```python
170
+ from llama_cpp import Llama
171
+
172
+ # Defina gpu_layers como o número de camadas a serem descarregadas para GPU. Defina como 0 se nenhuma aceleração de GPU estiver disponível em seu sistema.
173
+ llm = Llama(
174
+ model_path="./bluearara-7B-instruct_Q4_0.gguf", # Faça download do modelo antes
175
+ n_ctx=32768, # Tamanho máximo de contexto. Reduza, se tiver pouco RAM disponível
176
+ n_threads=8, # Número de threads CPU para usar. Teste para verificar o número idela no seu sistema.
177
+ n_gpu_layers=35 # O número de camadas (layers) a serem descarregadas para GPU, se você tiver aceleração de GPU disponível
178
+ )
179
+
180
+ # Fazendo uma inferência simples
181
+ output = llm(
182
+ "<s>[INST] {prompt} [/INST]", # Prompt
183
+ max_tokens=512, # Limitando resposta em 512 tokens
184
+ stop=["</s>"], # Examplo de stop token - verifique no seu modelo
185
+ echo=True # True se deve repetir o prompt.
186
+
187
+
188
+ # API para Chat Completion
189
+ llm = Llama(model_path="./bluearara-7B-instruct_Q4_0.gguf", chat_format="llama-2") # Set chat_format according to the model you are using
190
+ llm.create_chat_completion(
191
+ messages = [
192
+ # o role "system" está em desuso.
193
+ # {"role": "system", "content": "You are a story writing assistant."},
194
+ {
195
+ "role": "user", "content": "You are a story writing assistant. \n\n Write a story about llamas."
196
+ }
197
+ ]
198
+ )
199
+ ```
200
+
201
+ ## Carbon Footprint - Environmental Concerns
202
+ A pegada de Carbono deste subprojeto consumiu 6 de horas de computação acumuladas em GPUs em hardware do tipo NVIDIA RTX 3070 e CPU Intel Xeon E5. Toda energia consumida foi de origem solar, com produção de 0.0g de CO2 ou gases de efeitos estufa.
203
+
204
+ The Carbon footprint of this subproject consumed 6 hours of computing accumulated on hardware as NVIDIA RTX 3070 GPUs (100W-270W) and Intel Xeon E5 CPU (100W). All energy consumed was of solar origin, producing 0.0g of CO2 or greenhouse gases.