BryanADA commited on
Commit
98bbc32
·
verified ·
1 Parent(s): afe767e

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +11 -11
README.md CHANGED
@@ -24,12 +24,12 @@ base_model:
24
  - Qwen/Qwen2.5-3B-Instruct
25
  ---
26
 
27
- Qwen-2.5-3B-CoT-ZH-TW (GRPO RLHF 啟發式多步推理優化版)
28
 
29
 
30
  ---
31
 
32
- 模型簡介 | Model Overview
33
 
34
  本模型基於 Qwen-2.5-3B-Instruct,專為繁體中文數學/邏輯推理場景設計,不是單純仿製長鏈推理,而是經由創新 RLHF 訓練流程,讓模型自發產生類似「aha moment」的推理能力。
35
 
@@ -53,7 +53,7 @@ Instead of standard CoT SFT or PPO, we use a minimal SFT “cold start” with h
53
 
54
  ---
55
 
56
- 訓練動機 | Motivation
57
 
58
  這個專案純粹出於個人興趣與繁體中文圈的實際需求而開發,旨在讓本地端能有更好用的推理模型。
59
  我希望能為繁體中文圈貢獻可以本地部署的推理模型,讓模型在繁中語境下,也能自發產生多步驟、具備頓悟感(aha moment)的解題過程。
@@ -68,7 +68,7 @@ The entire training process emphasizes both experimentation and real-world usabi
68
 
69
  ---
70
 
71
- 模型特性 | Key Features
72
 
73
  Aha Moment 自發推理:非模板複製,而是訓練模型「自己發現推理步驟」
74
 
@@ -90,7 +90,7 @@ Local Deployment Friendly: Runs on standard consumer GPUs, with step count sweet
90
 
91
  ---
92
 
93
- 訓練細節 | Training Details
94
 
95
  基礎模型 / Base:Qwen2.5-3B-Instruct
96
 
@@ -108,7 +108,7 @@ RLHF 核心:獎勵重點放在答案正確率、推理步驟合理性與精簡
108
 
109
  ---
110
 
111
- 使用建議 | Usage Tips
112
 
113
  推薦應用:數學解題、邏輯題、逐步問答
114
  適合使用類似:「請自行分步推理,說明每一步的原因。」等提示語
@@ -119,7 +119,7 @@ RLHF 核心:獎勵重點放在答案正確率、推理步驟合理性與精簡
119
 
120
 
121
 
122
- 快速上手 | Quickstart
123
 
124
  ```python
125
  print("Hello, world!")
@@ -132,7 +132,7 @@ prompt = "小明有 3 顆蘋果,又拿到 2 顆,一共幾顆?請分步說
132
  inputs = tokenizer(prompt, return_tensors="pt")
133
  outputs = model.generate(
134
  **inputs,
135
- max_new_tokens=128,
136
  do_sample=True,
137
  temperature=0.7,
138
  top_p=0.95,
@@ -143,11 +143,11 @@ print(tokenizer.decode(outputs[0], skip_special_tokens=True))
143
 
144
  ---
145
 
146
- 參考資料 | References
147
 
148
  Qwen 官方
149
 
150
- Deepseek R1
151
 
152
  DoggiAI/GSM8K_zh_tw
153
 
@@ -157,7 +157,7 @@ RLHF/GRPO 相關文獻
157
 
158
  ---
159
 
160
- License
161
 
162
  本模型採用 Apache-2.0 授權,允許用於研究、學術及商業用途。請遵循授權條款保留原作者版權及免責聲明。
163
 
 
24
  - Qwen/Qwen2.5-3B-Instruct
25
  ---
26
 
27
+ # Qwen-2.5-3B-CoT-ZH-TW (GRPO RLHF 啟發式多步推理優化版)
28
 
29
 
30
  ---
31
 
32
+ ### 模型簡介 | Model Overview
33
 
34
  本模型基於 Qwen-2.5-3B-Instruct,專為繁體中文數學/邏輯推理場景設計,不是單純仿製長鏈推理,而是經由創新 RLHF 訓練流程,讓模型自發產生類似「aha moment」的推理能力。
35
 
 
53
 
54
  ---
55
 
56
+ ### 訓練動機 | Motivation
57
 
58
  這個專案純粹出於個人興趣與繁體中文圈的實際需求而開發,旨在讓本地端能有更好用的推理模型。
59
  我希望能為繁體中文圈貢獻可以本地部署的推理模型,讓模型在繁中語境下,也能自發產生多步驟、具備頓悟感(aha moment)的解題過程。
 
68
 
69
  ---
70
 
71
+ ### 模型特性 | Key Features
72
 
73
  Aha Moment 自發推理:非模板複製,而是訓練模型「自己發現推理步驟」
74
 
 
90
 
91
  ---
92
 
93
+ ### 訓練細節 | Training Details
94
 
95
  基礎模型 / Base:Qwen2.5-3B-Instruct
96
 
 
108
 
109
  ---
110
 
111
+ ### 使用建議 | Usage Tips
112
 
113
  推薦應用:數學解題、邏輯題、逐步問答
114
  適合使用類似:「請自行分步推理,說明每一步的原因。」等提示語
 
119
 
120
 
121
 
122
+ ### 快速上手 | Quickstart
123
 
124
  ```python
125
  print("Hello, world!")
 
132
  inputs = tokenizer(prompt, return_tensors="pt")
133
  outputs = model.generate(
134
  **inputs,
135
+ max_new_tokens=512,
136
  do_sample=True,
137
  temperature=0.7,
138
  top_p=0.95,
 
143
 
144
  ---
145
 
146
+ ### 參考資料 | References
147
 
148
  Qwen 官方
149
 
150
+ Deepseek R1 論文
151
 
152
  DoggiAI/GSM8K_zh_tw
153
 
 
157
 
158
  ---
159
 
160
+ ### License
161
 
162
  本模型採用 Apache-2.0 授權,允許用於研究、學術及商業用途。請遵循授權條款保留原作者版權及免責聲明。
163