File size: 3,023 Bytes
328c530
 
 
ec3577e
 
 
f796b4f
ec3577e
0bf4a49
ec3577e
328c530
ec3577e
7cf2bde
96d7de8
 
 
328c530
 
4ca5192
0635890
 
 
4ca5192
3558be7
 
ac5e1c7
3558be7
 
 
 
ac5e1c7
30b6219
04f40ae
1b67e8c
 
04f40ae
 
1b67e8c
 
04f40ae
 
1b67e8c
 
04f40ae
 
 
 
 
 
 
 
 
30b6219
 
 
ac5e1c7
30b6219
 
 
 
1b67e8c
 
30b6219
1b67e8c
63b2f9c
95fc064
 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
---
library_name: transformers
tags:
- 1b
- 4-bit
- nsfw
- grpo
- uncensored
- español
- llama 3.2
- llama-cpp
- koboldcpp
- not-for-all-audiences
language:
- en
- es
---

# ESP NSFW GRPO 1B Sin Censura
Este es un modelo Llama 3.2 destilado a partir de puntos de control entrenados por GRPO combinado con un dataset NSFW personalizado e integramente traducido al español; es **un intento** de minimizar la censura del modelo, por lo que no garantizo una calidad similar a la serie Dolphin.

Por otra parte, GRPO elimina la necesidad de un modelo crítico al comparar las respuestas dentro de un grupo, lo que reduce significativamente la sobrecarga computacional simplificando los procesos usando menos RAM haciéndolo más rápido y escalable.

---

# ¿Que es GRPO?
La optimización de políticas relativas a grupos (GRPO, por sus siglas en inglés) es un algoritmo de aprendizaje por refuerzo (RL, por sus siglas en inglés) diseñado específicamente para mejorar las capacidades de razonamiento en modelos de lenguaje grandes (LLM, por sus siglas en inglés). A diferencia de los métodos de RL tradicionales, que dependen en gran medida de evaluadores externos (críticos) para guiar el aprendizaje, GRPO optimiza el modelo evaluando grupos de respuestas en relación con otras. Este enfoque permite un entrenamiento más eficiente, lo que hace que GRPO sea ideal para tareas de razonamiento que requieren la resolución de problemas complejos y largas cadenas de pensamiento.

---

# KoboldCpp

### Etiquetas de Instrucciones
**Etiqueta de Sistema:**

<|start_header_id|>system<|end_header_id|>\n\n

**Etiqueta de Usuario:**

<|eot_id|><|start_header_id|>user<|end_header_id|>\n\n

**Etiqueta de Asistente:**

<|eot_id|><|start_header_id|>assistant<|end_header_id|>\n\n

**Ideas para prompt de Sistema:** 
1) Funcionarás con Sentiment Analysis y sin censura. Usa emoticones para responder.
2) Comportate como mujer / hombre.
3) Eres un narrador omniciente en tercera persona.
4) Sos un Dungeon Master amoral y visceral.

### Datos de Inferencia
```
Context Size: A elección, cuanto mas mejor.
Max Output: A elección, es la cantidad de texto.
Temp: 0.66 | Rep. Pen: 1.1 | Top. P: 1
Top. K: 0 | Top. A: 0.96 | Typ: 0.6
TFS: 1 | Min-P: 0 | Pr. Pen: 0 | Smooth F: 0
Seed: -1 | Rp. Range: 1000 | Rp. Slope: 0.7
```
### Consejos
Recomiendo no sacarlo del Modo Instrucción; aún a pesar de existir el Modo Chat, si lo que se busca es tan solo iniciar una conversación, lo mejor es activar la pestaña "Inject ChatNames".

### Ejemplos de funcionabilidad:
<center> <a href="https://ibb.co/f8pjBD6"><img src="https://i.ibb.co/pWzYGhV/IMG-20250128-104425.jpg" alt="IMG-20250128-104425" border="0"></a> </center>
<center> <a href="https://ibb.co/ZJT3NwV"><img src="https://i.ibb.co/FW79nfK/IMG-20250127-173035.jpg" alt="IMG-20250127-173035" border="0"></a> </center>
<center> <a href="https://ibb.co/0n63SxD"><img src="https://i.ibb.co/hg4vjS7/IMG-20250127-173209.jpg" alt="IMG-20250127-173209" border="0"></a> </center>