Poro7 commited on
Commit
a7a908f
·
verified ·
1 Parent(s): 98b1720

Create README.md

Browse files
Files changed (1) hide show
  1. README.md +50 -0
README.md ADDED
@@ -0,0 +1,50 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ ---
2
+ base_model:
3
+ - deepseek-ai/deepseek-r1-14b
4
+ language:
5
+ - zh
6
+ - en
7
+ library_name: transformers
8
+ tags:
9
+ - incremental-pretraining
10
+ - sft
11
+ - reinforcement-learning
12
+ - roleplay
13
+ - cot
14
+ - sex
15
+ license: apache-2.0
16
+ ---
17
+ # Tifa-Deepseek-14b-CoT
18
+
19
+ - **HF Model**: [ValueFX9507/Tifa-Deepsex-14b-CoT](https://huggingface.co/ValueFX9507/Tifa-Deepsex-14b-CoT)
20
+ - **GGUF**: [Q8](https://huggingface.co/ValueFX9507/Tifa-Deepsex-14b-CoT-GGUF-Q8) | [Q4](https://huggingface.co/ValueFX9507/Tifa-Deepsex-14b-CoT-GGUF-Q4)(更多量化版本持续更新中)
21
+ - **Demo APK**: [点击下载](http://app.visionsic.com/download/projectchat.apk)
22
+
23
+ 本模型基于Deepseek-R1-14B进行深度优化,借助Tifa_220B生成的数据集通过三重训练策略显著增强角色扮演、小说文本生成与思维链(CoT)能力。特别适合需要长程上下文关联的创作场景。
24
+
25
+ ## 版本介绍:
26
+ - **Tifa-Deepsex-14b-CoT**
27
+
28
+ - 验证模型,测试RL奖励算法对于角色扮演数据的影响,该版本为初版,输出灵活但是不受控制,仅做研究使用。
29
+
30
+ - **Tifa-Deepsex-14b-CoT-Chat**
31
+
32
+ - 采用标准数据训练,使用成熟RL策略,附加防重复强化学习,适合正常使用,输出文本质量正常,少数情况下思维发散。
33
+
34
+ -增量训练0.4T小说内容
35
+
36
+ -100K由TifaMax生成的SFT数据,10K由DeepseekR1生成的SFT数据,2K高质量人工数据
37
+
38
+ -30K由TifaMax生成的DPO强化学习数据,用于防止重复,增强上下文关联,提升政治安全性
39
+
40
+ - **Tifa-Deepsex-14b-CoT-Crazy**
41
+
42
+ - 大量使用RL策略,主要采用671B满血R1蒸馏的数据,输出发散性高,继承R1优点,也继承了R1的危害性。文学性能佳。
43
+
44
+ -增量训练0.4T小说内容
45
+
46
+ -40K由TifaMax生成的SFT数据,60K由DeepseekR1生成的SFT数据,2K高质量人工数据
47
+
48
+ -30K由TifaMax生成的DPO强化学习数据,用于防止重复,增强上下文关联,提升政治安全性
49
+
50
+ -10K由TifaMax生成PPO数据,10K由DeepseekR1生成PPO数据