Create README.md
Browse files
README.md
ADDED
@@ -0,0 +1,50 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
---
|
2 |
+
base_model:
|
3 |
+
- deepseek-ai/deepseek-r1-14b
|
4 |
+
language:
|
5 |
+
- zh
|
6 |
+
- en
|
7 |
+
library_name: transformers
|
8 |
+
tags:
|
9 |
+
- incremental-pretraining
|
10 |
+
- sft
|
11 |
+
- reinforcement-learning
|
12 |
+
- roleplay
|
13 |
+
- cot
|
14 |
+
- sex
|
15 |
+
license: apache-2.0
|
16 |
+
---
|
17 |
+
# Tifa-Deepseek-14b-CoT
|
18 |
+
|
19 |
+
- **HF Model**: [ValueFX9507/Tifa-Deepsex-14b-CoT](https://huggingface.co/ValueFX9507/Tifa-Deepsex-14b-CoT)
|
20 |
+
- **GGUF**: [Q8](https://huggingface.co/ValueFX9507/Tifa-Deepsex-14b-CoT-GGUF-Q8) | [Q4](https://huggingface.co/ValueFX9507/Tifa-Deepsex-14b-CoT-GGUF-Q4)(更多量化版本持续更新中)
|
21 |
+
- **Demo APK**: [点击下载](http://app.visionsic.com/download/projectchat.apk)
|
22 |
+
|
23 |
+
本模型基于Deepseek-R1-14B进行深度优化,借助Tifa_220B生成的数据集通过三重训练策略显著增强角色扮演、小说文本生成与思维链(CoT)能力。特别适合需要长程上下文关联的创作场景。
|
24 |
+
|
25 |
+
## 版本介绍:
|
26 |
+
- **Tifa-Deepsex-14b-CoT**
|
27 |
+
|
28 |
+
- 验证模型,测试RL奖励算法对于角色扮演数据的影响,该版本为初版,输出灵活但是不受控制,仅做研究使用。
|
29 |
+
|
30 |
+
- **Tifa-Deepsex-14b-CoT-Chat**
|
31 |
+
|
32 |
+
- 采用标准数据训练,使用成熟RL策略,附加防重复强化学习,适合正常使用,输出文本质量正常,少数情况下思维发散。
|
33 |
+
|
34 |
+
-增量训练0.4T小说内容
|
35 |
+
|
36 |
+
-100K由TifaMax生成的SFT数据,10K由DeepseekR1生成的SFT数据,2K高质量人工数据
|
37 |
+
|
38 |
+
-30K由TifaMax生成的DPO强化学习数据,用于防止重复,增强上下文关联,提升政治安全性
|
39 |
+
|
40 |
+
- **Tifa-Deepsex-14b-CoT-Crazy**
|
41 |
+
|
42 |
+
- 大量使用RL策略,主要采用671B满血R1蒸馏的数据,输出发散性高,继承R1优点,也继承了R1的危害性。文学性能佳。
|
43 |
+
|
44 |
+
-增量训练0.4T小说内容
|
45 |
+
|
46 |
+
-40K由TifaMax生成的SFT数据,60K由DeepseekR1生成的SFT数据,2K高质量人工数据
|
47 |
+
|
48 |
+
-30K由TifaMax生成的DPO强化学习数据,用于防止重复,增强上下文关联,提升政治安全性
|
49 |
+
|
50 |
+
-10K由TifaMax生成PPO数据,10K由DeepseekR1生成PPO数据
|