Update README.md
Browse files
README.md
CHANGED
@@ -6,7 +6,6 @@ language:
|
|
6 |
- zh
|
7 |
- en
|
8 |
base_model:
|
9 |
-
- microsoft/Phi-4-multimodal-instruct
|
10 |
- Qwen/Qwen2.5-1.5B-Instruct
|
11 |
pipeline_tag: text-generation
|
12 |
library_name: transformers
|
@@ -23,7 +22,7 @@ license: apache-2.0
|
|
23 |
因為簡體中文和繁體中文在語法和語義相似度高,往往只是差在文字本身看起來不一樣。另外,千問 (Qwen) 的模型中文的能力是很強的 (甚至是 apache license)。我們利用 [繁化姬](https://zhconvert.org) 將簡體中文所對應的 token 和 繁體中文的 token 做代換。更多關於 tokenizer 帶換掉哪些單詞,可以查看 [benchang1110/DeepSeek-R1-Distill-Qwen-1.5B-zhtw](https://huggingface.co/benchang1110/DeepSeek-R1-Distill-Qwen-1.5B-zhtw) 中的 convert.txt。
|
24 |
|
25 |
### SFT
|
26 |
-
這個階段我們用 [lianghsun/tw-instruct-500k](https://huggingface.co/datasets/lianghsun/tw-instruct-500k)
|
27 |
|
28 |
### DPO
|
29 |
這個階段我們用 [zake7749/kyara-chinese-preference-rl-dpo-s0-30K](https://huggingface.co/datasets/zake7749/kyara-chinese-preference-rl-dpo-s0-30K) 這個資料集做 alignment,目標讓模型能夠條列式的輸出,並且能夠在輸出的時候保持一定的邏輯性。
|
@@ -144,7 +143,6 @@ ASSISTANT:當然可以。在18世紀,音樂風格經歷了許多變化,從
|
|
144 |
|
145 |
修改 system prompt 會調整模型輸出的偏見和立場。
|
146 |
|
147 |
-
|
148 |
## How to Get Started with the Model
|
149 |
|
150 |
使用下面程式碼可以進行多輪對話,使用 ```restart``` 可以重新開始對話,使用 ```exit``` 可以結束對話。```system``` 是 system prompt 對於模型的輸出影響很大。Default 的 system prompt 是 ```"你是 Qwen-Taiwan-1.5B, 來自台灣,全名福爾摩沙台灣。你是一位有幫助的助手。"```。
|
@@ -371,7 +369,6 @@ GPU Hours: A100*3h
|
|
371 |
|
372 |
|
373 |
|
374 |
-
|
375 |
## Citation
|
376 |
|
377 |
```bibtex
|
|
|
6 |
- zh
|
7 |
- en
|
8 |
base_model:
|
|
|
9 |
- Qwen/Qwen2.5-1.5B-Instruct
|
10 |
pipeline_tag: text-generation
|
11 |
library_name: transformers
|
|
|
22 |
因為簡體中文和繁體中文在語法和語義相似度高,往往只是差在文字本身看起來不一樣。另外,千問 (Qwen) 的模型中文的能力是很強的 (甚至是 apache license)。我們利用 [繁化姬](https://zhconvert.org) 將簡體中文所對應的 token 和 繁體中文的 token 做代換。更多關於 tokenizer 帶換掉哪些單詞,可以查看 [benchang1110/DeepSeek-R1-Distill-Qwen-1.5B-zhtw](https://huggingface.co/benchang1110/DeepSeek-R1-Distill-Qwen-1.5B-zhtw) 中的 convert.txt。
|
23 |
|
24 |
### SFT
|
25 |
+
這個階段我們用 [lianghsun/tw-instruct-500k](https://huggingface.co/datasets/lianghsun/tw-instruct-500k) 因為前面的繁簡轉換並無法轉換所有單詞,所以用這個資料集做微調。但為了保持模型原先強大的性能避免更改太多模型參數,我們用 LoRA 微調。
|
26 |
|
27 |
### DPO
|
28 |
這個階段我們用 [zake7749/kyara-chinese-preference-rl-dpo-s0-30K](https://huggingface.co/datasets/zake7749/kyara-chinese-preference-rl-dpo-s0-30K) 這個資料集做 alignment,目標讓模型能夠條列式的輸出,並且能夠在輸出的時候保持一定的邏輯性。
|
|
|
143 |
|
144 |
修改 system prompt 會調整模型輸出的偏見和立場。
|
145 |
|
|
|
146 |
## How to Get Started with the Model
|
147 |
|
148 |
使用下面程式碼可以進行多輪對話,使用 ```restart``` 可以重新開始對話,使用 ```exit``` 可以結束對話。```system``` 是 system prompt 對於模型的輸出影響很大。Default 的 system prompt 是 ```"你是 Qwen-Taiwan-1.5B, 來自台灣,全名福爾摩沙台灣。你是一位有幫助的助手。"```。
|
|
|
369 |
|
370 |
|
371 |
|
|
|
372 |
## Citation
|
373 |
|
374 |
```bibtex
|