JosephusCheung commited on
Commit
3537dbd
·
1 Parent(s): 944264b

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +49 -1
README.md CHANGED
@@ -78,4 +78,52 @@ Hard ACC:54.71
78
 
79
  ## GSM8K
80
 
81
- **Zero-shot ACC 0.7012888551933283** (Outperforms MetaMath-13B, Qwen-14B)
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
78
 
79
  ## GSM8K
80
 
81
+ **Zero-shot ACC 0.7012888551933283** (Outperforms MetaMath-13B, Qwen-14B)
82
+
83
+
84
+ ## 请读我:
85
+
86
+ 另请参阅[7B版本](https://huggingface.co/CausalLM/7B)
87
+
88
+ 该模型是基于Qwen和LLaMA2的模型权重进行训练的。训练过程中使用了与LLaMA2相同的模型结构,使用原始MHA LLaMA2模型的相同注意力计算方法,对相对位置编码(RoPE)没有进行额外的缩放。
89
+
90
+ 我们手动筛选了一个包含13亿个标记的SFT数据集进行训练,利用了Hugging Face的开源数据集。对于大多数句子,我们进行了手动或合成改写,并使用更大的语言模型生成了其他语言版本。此外,我们还使用了精心挑选的来自维基百科的条目、来自Fandom的精选条目以及来自萌娘百科的过滤条目进行增强文本训练。为了在效率和质量之间取得平衡,训练所使用的100%数据都是合成数据,没有直接使用来自互联网或公开可用数据集的原始文本进行微调。
91
+
92
+ 7B版本的模型是14B模型的精简版本,专门设计用于推测抽样。因此,在直接使用模型时,需要谨慎行事,因为它可能会产生幻觉或不可靠的输出。
93
+
94
+ 请注意,模型是在未经过滤的互联网数据上进行训练的。由于我们无法审核所有数据,可能会出现大量不良内容、色情、暴力和冒犯性语言,我们无法删除这些内容。因此,您仍然需要对模型的安全性进行自己的检查,并对输出中的关键词进行过滤。由于计算资源的限制,我们目前无法为模型的伦理和安全实施RLHF,也无法对拒绝回答某些问题的SFT样本进行训练以进行限制性微调。
95
+
96
+ 额外奖励:模型在LLaVA1.5中引入的提示格式上进行了一些微调,与图像注意力计算无关。因此,将ViT投影模块与冻结的LM对齐,并根据视觉指令实施快速实现有效的多模态能力。
97
+
98
+ ## 提示格式:
99
+ [chatml](https://github.com/openai/openai-python/blob/main/chatml.md)
100
+
101
+ **系统提示不能为空!**
102
+
103
+ ## MMLU:
104
+ STEM准确率:64.19
105
+
106
+ 人文及艺术学科准确率:61.40
107
+
108
+ 其他学科准确率:71.64
109
+
110
+ 社会学科准确率:75.37
111
+
112
+ **平均准确率:67.36**(超过所有70B以下的模型,非常接近最佳70B微调模型)
113
+
114
+ ## CEval(验证集):
115
+ STEM准确率:66.71
116
+
117
+ 社会科学准确率:85.10
118
+
119
+ 人文学科准确率:76.68
120
+
121
+ 其他学科准确率:70.23
122
+
123
+ 困难准确率:54.71
124
+
125
+ **平均准确率:73.10**(超过Qwen-14B和GPT-4)
126
+
127
+ ## GSM8K
128
+
129
+ **零样本准确率0.7012888551933283**(超过MetaMath-13B和Qwen-14B)