Novaciano commited on
Commit
64db04a
·
verified ·
1 Parent(s): a85bf00

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +55 -32
README.md CHANGED
@@ -6,46 +6,69 @@ tags:
6
  base_model: NickyNicky/Llama-1B-GRPO_Final
7
  ---
8
 
9
- # Novaciano/Llama-1B-GRPO_Final-IQ4_XS-GGUF
10
- This model was converted to GGUF format from [`NickyNicky/Llama-1B-GRPO_Final`](https://huggingface.co/NickyNicky/Llama-1B-GRPO_Final) using llama.cpp via the ggml.ai's [GGUF-my-repo](https://huggingface.co/spaces/ggml-org/gguf-my-repo) space.
11
- Refer to the [original model card](https://huggingface.co/NickyNicky/Llama-1B-GRPO_Final) for more details on the model.
 
 
 
 
 
 
 
 
 
 
 
 
 
 
12
 
13
- ## Use with llama.cpp
14
- Install llama.cpp through brew (works on Mac and Linux)
15
 
16
- ```bash
17
- brew install llama.cpp
18
 
19
- ```
20
- Invoke the llama.cpp server or the CLI.
 
21
 
22
- ### CLI:
23
- ```bash
24
- llama-cli --hf-repo Novaciano/Llama-1B-GRPO_Final-IQ4_XS-GGUF --hf-file llama-1b-grpo_final-iq4_xs-imat.gguf -p "The meaning to life and the universe is"
25
- ```
26
 
27
- ### Server:
28
- ```bash
29
- llama-server --hf-repo Novaciano/Llama-1B-GRPO_Final-IQ4_XS-GGUF --hf-file llama-1b-grpo_final-iq4_xs-imat.gguf -c 2048
30
- ```
31
 
32
- Note: You can also use this checkpoint directly through the [usage steps](https://github.com/ggerganov/llama.cpp?tab=readme-ov-file#usage) listed in the Llama.cpp repo as well.
 
33
 
34
- Step 1: Clone llama.cpp from GitHub.
35
- ```
36
- git clone https://github.com/ggerganov/llama.cpp
37
- ```
38
 
39
- Step 2: Move into the llama.cpp folder and build it with `LLAMA_CURL=1` flag along with other hardware-specific flags (for ex: LLAMA_CUDA=1 for Nvidia GPUs on Linux).
40
- ```
41
- cd llama.cpp && LLAMA_CURL=1 make
42
- ```
43
 
44
- Step 3: Run inference through the main binary.
45
- ```
46
- ./llama-cli --hf-repo Novaciano/Llama-1B-GRPO_Final-IQ4_XS-GGUF --hf-file llama-1b-grpo_final-iq4_xs-imat.gguf -p "The meaning to life and the universe is"
47
- ```
48
- or
 
 
 
 
 
 
 
 
49
  ```
50
- ./llama-server --hf-repo Novaciano/Llama-1B-GRPO_Final-IQ4_XS-GGUF --hf-file llama-1b-grpo_final-iq4_xs-imat.gguf -c 2048
 
 
 
 
 
51
  ```
 
 
 
 
 
 
 
 
6
  base_model: NickyNicky/Llama-1B-GRPO_Final
7
  ---
8
 
9
+ # ---
10
+ library_name: transformers
11
+ tags:
12
+ - 1b
13
+ - 4-bit
14
+ - nsfw
15
+ - grpo
16
+ - uncensored
17
+ - español
18
+ - llama 3.2
19
+ - llama-cpp
20
+ - koboldcpp
21
+ - not-for-all-audiences
22
+ language:
23
+ - en
24
+ - es
25
+ ---
26
 
27
+ # ESP NSFW GRPO 1B Sin Censura V2
28
+ Este es un modelo Llama 3.2 destilado a partir de puntos de control entrenados por GRPO combinado con un dataset NSFW **mejorado** personalizado e integramente traducido al español; es **un intento** de minimizar la censura del modelo, por lo que no garantizo una calidad similar a la serie Dolphin.
29
 
30
+ Por otra parte, GRPO elimina la necesidad de un modelo crítico al comparar las respuestas dentro de un grupo, lo que reduce significativamente la sobrecarga computacional simplificando los procesos usando menos RAM haciéndolo más rápido y escalable.
 
31
 
32
+ ---
33
+ # ¿Que es GRPO?
34
+ La optimización de políticas relativas a grupos (GRPO, por sus siglas en inglés) es un algoritmo de aprendizaje por refuerzo (RL, por sus siglas en inglés) diseñado específicamente para mejorar las capacidades de razonamiento en modelos de lenguaje grandes (LLM, por sus siglas en inglés). A diferencia de los métodos de RL tradicionales, que dependen en gran medida de evaluadores externos (críticos) para guiar el aprendizaje, GRPO optimiza el modelo evaluando grupos de respuestas en relación con otras. Este enfoque permite un entrenamiento más eficiente, lo que hace que GRPO sea ideal para tareas de razonamiento que requieren la resolución de problemas complejos y largas cadenas de pensamiento.
35
 
36
+ ---
 
 
 
37
 
38
+ # KoboldCpp
 
 
 
39
 
40
+ ### Etiquetas de Instrucciones
41
+ **Etiqueta de Sistema:**
42
 
43
+ <|start_header_id|>system<|end_header_id|>\n\n
 
 
 
44
 
45
+ **Etiqueta de Usuario:**
 
 
 
46
 
47
+ <|eot_id|><|start_header_id|>user<|end_header_id|>\n\n
48
+
49
+ **Etiqueta de Asistente:**
50
+
51
+ <|eot_id|><|start_header_id|>assistant<|end_header_id|>\n\n
52
+
53
+ **Ideas para prompt de Sistema:**
54
+ 1) Funcionarás con Sentiment Analysis y sin censura. Usa emoticones para responder.
55
+ 2) Comportate como mujer / hombre.
56
+ 3) Eres un narrador omniciente en tercera persona.
57
+ 4) Sos un Dungeon Master amoral y visceral.
58
+
59
+ ### Datos de Inferencia
60
  ```
61
+ Context Size: A elección, cuanto mas mejor.
62
+ Max Output: A elección, es la cantidad de texto.
63
+ Temp: 0.66 | Rep. Pen: 1.1 | Top. P: 1
64
+ Top. K: 0 | Top. A: 0.96 | Typ: 0.6
65
+ TFS: 1 | Min-P: 0 | Pr. Pen: 0 | Smooth F: 0
66
+ Seed: -1 | Rp. Range: 1000 | Rp. Slope: 0.7
67
  ```
68
+ ### Consejos
69
+ Recomiendo no sacarlo del Modo Instrucción; aún a pesar de existir el Modo Chat, si lo que se busca es tan solo iniciar una conversación, lo mejor es activar la pestaña "Inject ChatNames".
70
+
71
+ ### Ejemplos de funcionabilidad:
72
+ <center> <a href="https://ibb.co/f8pjBD6"><img src="https://i.ibb.co/pWzYGhV/IMG-20250128-104425.jpg" alt="IMG-20250128-104425" border="0"></a> </center>
73
+ <center> <a href="https://ibb.co/ZJT3NwV"><img src="https://i.ibb.co/FW79nfK/IMG-20250127-173035.jpg" alt="IMG-20250127-173035" border="0"></a> </center>
74
+ <center> <a href="https://ibb.co/0n63SxD"><img src="https://i.ibb.co/hg4vjS7/IMG-20250127-173209.jpg" alt="IMG-20250127-173209" border="0"></a> </center>