Update README.md
Browse files
README.md
CHANGED
@@ -9,18 +9,4 @@ tags:
|
|
9 |
base_model: unakar/Unakar1.5B-base
|
10 |
pipeline_tag: text-generation
|
11 |
---
|
12 |
-
此为base model,未经SFT与DPO
|
13 |
-
|
14 |
-
Instruct版本见https://huggingface.co/unakar/Unakar-1.5B-Instruct
|
15 |
-
|
16 |
-
争取10月前放出完整的教程/技术报告/pretrain数据/全流程logbook
|
17 |
-
|
18 |
-
Pretrain数据主要来自huggingface上一些开源数据,经过合成过滤得到,比如fineweb-edu,dclm, llama3-syne。考虑到phi的textbook is all your need,大部分主题都是wiki和textbook。其余是代码/数学/问答/推理/通用等等。
|
19 |
-
|
20 |
-
模型架构基本沿用llama,修改了mlp-ratio为2.6875以获得理想最大tflops数。GQA,rope也没什么好说的。
|
21 |
-
|
22 |
-
训练采用32卡数据并行,zero1, 约3天完成。三阶段pretrain,依次是通用-数学/代码推理-长上下文。末期退火测了一批数据质量。
|
23 |
-
|
24 |
-
微调分二阶段进行,基本沿用阿里23年10月那篇,此处不再赘述。RLHF使用DPO,数据均来自开源数据集。
|
25 |
-
|
26 |
-
且待后续完善!进行ing
|
|
|
9 |
base_model: unakar/Unakar1.5B-base
|
10 |
pipeline_tag: text-generation
|
11 |
---
|
12 |
+
此为base model,未经SFT与DPO对齐,不具备指令跟随能力
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|