Novaciano
/

ESP-NSFW-GRPO-1B-Sin_Censura-GGUF

4-bit precision

nsfw

Not-For-All-Audiences

Model card Files Files and versions

Novaciano commited on Jan 28

Commit

ac5e1c7

·

verified ·

1 Parent(s): 30b6219

Update README.md

Files changed (1) hide show

README.md +5 -5

README.md CHANGED Viewed

@@ -23,23 +23,23 @@ Por otra parte, GRPO elimina la necesidad de un modelo crítico al comparar las
 ---
-## ¿Que es GRPO?
 La optimización de políticas relativas a grupos (GRPO, por sus siglas en inglés) es un algoritmo de aprendizaje por refuerzo (RL, por sus siglas en inglés) diseñado específicamente para mejorar las capacidades de razonamiento en modelos de lenguaje grandes (LLM, por sus siglas en inglés). A diferencia de los métodos de RL tradicionales, que dependen en gran medida de evaluadores externos (críticos) para guiar el aprendizaje, GRPO optimiza el modelo evaluando grupos de respuestas en relación con otras. Este enfoque permite un entrenamiento más eficiente, lo que hace que GRPO sea ideal para tareas de razonamiento que requieren la resolución de problemas complejos y largas cadenas de pensamiento.
 ---
-## KoboldCpp
-# Datos de Inferencia
 ```
 Context Size: A elección, cuanto mas mejor.
 Max Output: A elección, es la cantidad de texto.
-Temp: 0.1 | Rep. Pen: 1.1 | Top. P: 1
 Top. K: 0 | Top. A: 0.96 | Typ: 0.6
 TFS: 1 | Min-P: 0 | Pr. Pen: 0 | Smooth F: 0
 Seed: -1 | Rp. Range: 1000 | Rp. Slope: 0.7
 ```
-# Ejemplos de funcionabilidad:
 <center> <a href="https://ibb.co/ZJT3NwV"><img src="https://i.ibb.co/FW79nfK/IMG-20250127-173035.jpg" alt="IMG-20250127-173035" border="0"></a> </center>
 <center> <a href="https://ibb.co/0n63SxD"><img src="https://i.ibb.co/hg4vjS7/IMG-20250127-173209.jpg" alt="IMG-20250127-173209" border="0"></a> </center>

 ---
+# ¿Que es GRPO?
 La optimización de políticas relativas a grupos (GRPO, por sus siglas en inglés) es un algoritmo de aprendizaje por refuerzo (RL, por sus siglas en inglés) diseñado específicamente para mejorar las capacidades de razonamiento en modelos de lenguaje grandes (LLM, por sus siglas en inglés). A diferencia de los métodos de RL tradicionales, que dependen en gran medida de evaluadores externos (críticos) para guiar el aprendizaje, GRPO optimiza el modelo evaluando grupos de respuestas en relación con otras. Este enfoque permite un entrenamiento más eficiente, lo que hace que GRPO sea ideal para tareas de razonamiento que requieren la resolución de problemas complejos y largas cadenas de pensamiento.
 ---
+# KoboldCpp
+## Datos de Inferencia
 ```
 Context Size: A elección, cuanto mas mejor.
 Max Output: A elección, es la cantidad de texto.
+Temp: 0.66 | Rep. Pen: 1.1 | Top. P: 1
 Top. K: 0 | Top. A: 0.96 | Typ: 0.6
 TFS: 1 | Min-P: 0 | Pr. Pen: 0 | Smooth F: 0
 Seed: -1 | Rp. Range: 1000 | Rp. Slope: 0.7
 ```
+## Ejemplos de funcionabilidad:
 <center> <a href="https://ibb.co/ZJT3NwV"><img src="https://i.ibb.co/FW79nfK/IMG-20250127-173035.jpg" alt="IMG-20250127-173035" border="0"></a> </center>
 <center> <a href="https://ibb.co/0n63SxD"><img src="https://i.ibb.co/hg4vjS7/IMG-20250127-173209.jpg" alt="IMG-20250127-173209" border="0"></a> </center>