Update README.md
Browse files
README.md
CHANGED
@@ -24,12 +24,12 @@ base_model:
|
|
24 |
- Qwen/Qwen2.5-3B-Instruct
|
25 |
---
|
26 |
|
27 |
-
Qwen-2.5-3B-CoT-ZH-TW (GRPO RLHF 啟發式多步推理優化版)
|
28 |
|
29 |
|
30 |
---
|
31 |
|
32 |
-
模型簡介 | Model Overview
|
33 |
|
34 |
本模型基於 Qwen-2.5-3B-Instruct,專為繁體中文數學/邏輯推理場景設計,不是單純仿製長鏈推理,而是經由創新 RLHF 訓練流程,讓模型自發產生類似「aha moment」的推理能力。
|
35 |
|
@@ -53,7 +53,7 @@ Instead of standard CoT SFT or PPO, we use a minimal SFT “cold start” with h
|
|
53 |
|
54 |
---
|
55 |
|
56 |
-
訓練動機 | Motivation
|
57 |
|
58 |
這個專案純粹出於個人興趣與繁體中文圈的實際需求而開發,旨在讓本地端能有更好用的推理模型。
|
59 |
我希望能為繁體中文圈貢獻可以本地部署的推理模型,讓模型在繁中語境下,也能自發產生多步驟、具備頓悟感(aha moment)的解題過程。
|
@@ -68,7 +68,7 @@ The entire training process emphasizes both experimentation and real-world usabi
|
|
68 |
|
69 |
---
|
70 |
|
71 |
-
模型特性 | Key Features
|
72 |
|
73 |
Aha Moment 自發推理:非模板複製,而是訓練模型「自己發現推理步驟」
|
74 |
|
@@ -90,7 +90,7 @@ Local Deployment Friendly: Runs on standard consumer GPUs, with step count sweet
|
|
90 |
|
91 |
---
|
92 |
|
93 |
-
訓練細節 | Training Details
|
94 |
|
95 |
基礎模型 / Base:Qwen2.5-3B-Instruct
|
96 |
|
@@ -108,7 +108,7 @@ RLHF 核心:獎勵重點放在答案正確率、推理步驟合理性與精簡
|
|
108 |
|
109 |
---
|
110 |
|
111 |
-
使用建議 | Usage Tips
|
112 |
|
113 |
推薦應用:數學解題、邏輯題、逐步問答
|
114 |
適合使用類似:「請自行分步推理,說明每一步的原因。」等提示語
|
@@ -119,7 +119,7 @@ RLHF 核心:獎勵重點放在答案正確率、推理步驟合理性與精簡
|
|
119 |
|
120 |
|
121 |
|
122 |
-
快速上手 | Quickstart
|
123 |
|
124 |
```python
|
125 |
print("Hello, world!")
|
@@ -132,7 +132,7 @@ prompt = "小明有 3 顆蘋果,又拿到 2 顆,一共幾顆?請分步說
|
|
132 |
inputs = tokenizer(prompt, return_tensors="pt")
|
133 |
outputs = model.generate(
|
134 |
**inputs,
|
135 |
-
max_new_tokens=
|
136 |
do_sample=True,
|
137 |
temperature=0.7,
|
138 |
top_p=0.95,
|
@@ -143,11 +143,11 @@ print(tokenizer.decode(outputs[0], skip_special_tokens=True))
|
|
143 |
|
144 |
---
|
145 |
|
146 |
-
參考資料 | References
|
147 |
|
148 |
Qwen 官方
|
149 |
|
150 |
-
Deepseek R1
|
151 |
|
152 |
DoggiAI/GSM8K_zh_tw
|
153 |
|
@@ -157,7 +157,7 @@ RLHF/GRPO 相關文獻
|
|
157 |
|
158 |
---
|
159 |
|
160 |
-
License
|
161 |
|
162 |
本模型採用 Apache-2.0 授權,允許用於研究、學術及商業用途。請遵循授權條款保留原作者版權及免責聲明。
|
163 |
|
|
|
24 |
- Qwen/Qwen2.5-3B-Instruct
|
25 |
---
|
26 |
|
27 |
+
# Qwen-2.5-3B-CoT-ZH-TW (GRPO RLHF 啟發式多步推理優化版)
|
28 |
|
29 |
|
30 |
---
|
31 |
|
32 |
+
### 模型簡介 | Model Overview
|
33 |
|
34 |
本模型基於 Qwen-2.5-3B-Instruct,專為繁體中文數學/邏輯推理場景設計,不是單純仿製長鏈推理,而是經由創新 RLHF 訓練流程,讓模型自發產生類似「aha moment」的推理能力。
|
35 |
|
|
|
53 |
|
54 |
---
|
55 |
|
56 |
+
### 訓練動機 | Motivation
|
57 |
|
58 |
這個專案純粹出於個人興趣與繁體中文圈的實際需求而開發,旨在讓本地端能有更好用的推理模型。
|
59 |
我希望能為繁體中文圈貢獻可以本地部署的推理模型,讓模型在繁中語境下,也能自發產生多步驟、具備頓悟感(aha moment)的解題過程。
|
|
|
68 |
|
69 |
---
|
70 |
|
71 |
+
### 模型特性 | Key Features
|
72 |
|
73 |
Aha Moment 自發推理:非模板複製,而是訓練模型「自己發現推理步驟」
|
74 |
|
|
|
90 |
|
91 |
---
|
92 |
|
93 |
+
### 訓練細節 | Training Details
|
94 |
|
95 |
基礎模型 / Base:Qwen2.5-3B-Instruct
|
96 |
|
|
|
108 |
|
109 |
---
|
110 |
|
111 |
+
### 使用建議 | Usage Tips
|
112 |
|
113 |
推薦應用:數學解題、邏輯題、逐步問答
|
114 |
適合使用類似:「請自行分步推理,說明每一步的原因。」等提示語
|
|
|
119 |
|
120 |
|
121 |
|
122 |
+
### 快速上手 | Quickstart
|
123 |
|
124 |
```python
|
125 |
print("Hello, world!")
|
|
|
132 |
inputs = tokenizer(prompt, return_tensors="pt")
|
133 |
outputs = model.generate(
|
134 |
**inputs,
|
135 |
+
max_new_tokens=512,
|
136 |
do_sample=True,
|
137 |
temperature=0.7,
|
138 |
top_p=0.95,
|
|
|
143 |
|
144 |
---
|
145 |
|
146 |
+
### 參考資料 | References
|
147 |
|
148 |
Qwen 官方
|
149 |
|
150 |
+
Deepseek R1 論文
|
151 |
|
152 |
DoggiAI/GSM8K_zh_tw
|
153 |
|
|
|
157 |
|
158 |
---
|
159 |
|
160 |
+
### License
|
161 |
|
162 |
本模型採用 Apache-2.0 授權,允許用於研究、學術及商業用途。請遵循授權條款保留原作者版權及免責聲明。
|
163 |
|