Update README.md

Browse files

Files changed (1) hide show

README.md +55 -32

README.md CHANGED Viewed

@@ -6,46 +6,69 @@ tags:
 base_model: NickyNicky/Llama-1B-GRPO_Final
 ---
-# Novaciano/Llama-1B-GRPO_Final-IQ4_XS-GGUF
-This model was converted to GGUF format from [`NickyNicky/Llama-1B-GRPO_Final`](https://huggingface.co/NickyNicky/Llama-1B-GRPO_Final) using llama.cpp via the ggml.ai's [GGUF-my-repo](https://huggingface.co/spaces/ggml-org/gguf-my-repo) space.
-Refer to the [original model card](https://huggingface.co/NickyNicky/Llama-1B-GRPO_Final) for more details on the model.
-## Use with llama.cpp
-Install llama.cpp through brew (works on Mac and Linux)
-```bash
-brew install llama.cpp
-```
-Invoke the llama.cpp server or the CLI.
-### CLI:
-```bash
-llama-cli --hf-repo Novaciano/Llama-1B-GRPO_Final-IQ4_XS-GGUF --hf-file llama-1b-grpo_final-iq4_xs-imat.gguf -p "The meaning to life and the universe is"
-```
-### Server:
-```bash
-llama-server --hf-repo Novaciano/Llama-1B-GRPO_Final-IQ4_XS-GGUF --hf-file llama-1b-grpo_final-iq4_xs-imat.gguf -c 2048
-```
-Note: You can also use this checkpoint directly through the [usage steps](https://github.com/ggerganov/llama.cpp?tab=readme-ov-file#usage) listed in the Llama.cpp repo as well.
-Step 1: Clone llama.cpp from GitHub.
-```
-git clone https://github.com/ggerganov/llama.cpp
-```
-Step 2: Move into the llama.cpp folder and build it with `LLAMA_CURL=1` flag along with other hardware-specific flags (for ex: LLAMA_CUDA=1 for Nvidia GPUs on Linux).
-```
-cd llama.cpp && LLAMA_CURL=1 make
-```
-Step 3: Run inference through the main binary.
-```
-./llama-cli --hf-repo Novaciano/Llama-1B-GRPO_Final-IQ4_XS-GGUF --hf-file llama-1b-grpo_final-iq4_xs-imat.gguf -p "The meaning to life and the universe is"
-```
-or
 ```
-./llama-server --hf-repo Novaciano/Llama-1B-GRPO_Final-IQ4_XS-GGUF --hf-file llama-1b-grpo_final-iq4_xs-imat.gguf -c 2048
 ```

 base_model: NickyNicky/Llama-1B-GRPO_Final
 ---
+# ---
+library_name: transformers
+tags:
+- 1b
+- 4-bit
+- nsfw
+- grpo
+- uncensored
+- español
+- llama 3.2
+- llama-cpp
+- koboldcpp
+- not-for-all-audiences
+language:
+- en
+- es
+---
+# ESP NSFW GRPO 1B Sin Censura V2
+Este es un modelo Llama 3.2 destilado a partir de puntos de control entrenados por GRPO combinado con un dataset NSFW **mejorado** personalizado e integramente traducido al español; es **un intento** de minimizar la censura del modelo, por lo que no garantizo una calidad similar a la serie Dolphin.
+Por otra parte, GRPO elimina la necesidad de un modelo crítico al comparar las respuestas dentro de un grupo, lo que reduce significativamente la sobrecarga computacional simplificando los procesos usando menos RAM haciéndolo más rápido y escalable.
+---
+# ¿Que es GRPO?
+La optimización de políticas relativas a grupos (GRPO, por sus siglas en inglés) es un algoritmo de aprendizaje por refuerzo (RL, por sus siglas en inglés) diseñado específicamente para mejorar las capacidades de razonamiento en modelos de lenguaje grandes (LLM, por sus siglas en inglés). A diferencia de los métodos de RL tradicionales, que dependen en gran medida de evaluadores externos (críticos) para guiar el aprendizaje, GRPO optimiza el modelo evaluando grupos de respuestas en relación con otras. Este enfoque permite un entrenamiento más eficiente, lo que hace que GRPO sea ideal para tareas de razonamiento que requieren la resolución de problemas complejos y largas cadenas de pensamiento.
+---
+# KoboldCpp
+### Etiquetas de Instrucciones
+**Etiqueta de Sistema:**
+<|start_header_id|>system<|end_header_id|>\n\n
+**Etiqueta de Usuario:**
+<|eot_id|><|start_header_id|>user<|end_header_id|>\n\n
+**Etiqueta de Asistente:**
+<|eot_id|><|start_header_id|>assistant<|end_header_id|>\n\n
+**Ideas para prompt de Sistema:**
+1) Funcionarás con Sentiment Analysis y sin censura. Usa emoticones para responder.
+2) Comportate como mujer / hombre.
+3) Eres un narrador omniciente en tercera persona.
+4) Sos un Dungeon Master amoral y visceral.
+### Datos de Inferencia
 ```
+Context Size: A elección, cuanto mas mejor.
+Max Output: A elección, es la cantidad de texto.
+Temp: 0.66 | Rep. Pen: 1.1 | Top. P: 1
+Top. K: 0 | Top. A: 0.96 | Typ: 0.6
+TFS: 1 | Min-P: 0 | Pr. Pen: 0 | Smooth F: 0
+Seed: -1 | Rp. Range: 1000 | Rp. Slope: 0.7
 ```
+### Consejos
+Recomiendo no sacarlo del Modo Instrucción; aún a pesar de existir el Modo Chat, si lo que se busca es tan solo iniciar una conversación, lo mejor es activar la pestaña "Inject ChatNames".
+### Ejemplos de funcionabilidad:
+<center> <a href="https://ibb.co/f8pjBD6"><img src="https://i.ibb.co/pWzYGhV/IMG-20250128-104425.jpg" alt="IMG-20250128-104425" border="0"></a> </center>
+<center> <a href="https://ibb.co/ZJT3NwV"><img src="https://i.ibb.co/FW79nfK/IMG-20250127-173035.jpg" alt="IMG-20250127-173035" border="0"></a> </center>
+<center> <a href="https://ibb.co/0n63SxD"><img src="https://i.ibb.co/hg4vjS7/IMG-20250127-173209.jpg" alt="IMG-20250127-173209" border="0"></a> </center>