Update README.md
Browse files
README.md
CHANGED
@@ -8,15 +8,18 @@ language:
|
|
8 |
base_model:
|
9 |
- meta-llama/Llama-3.2-3B-Instruct
|
10 |
pipeline_tag: question-answering
|
|
|
11 |
---
|
12 |
|
13 |
-
# 🦙 llama-3.2-3B-Elite 🔥
|
14 |
|
15 |
## 🌟 模型亮点
|
16 |
这是一个基于 **Meta-Llama-3.2-3B-Instruct** 的微调模型,使用 **Qwen3-235B 蒸馏数据** + **监督微调 (SFT)** 训练而成。
|
17 |
-
在实际使用中,我发现它不仅在
|
18 |
|
19 |
-
🔥
|
|
|
|
|
20 |
|
21 |
---
|
22 |
|
@@ -31,13 +34,14 @@ pipeline_tag: question-answering
|
|
31 |
|
32 |
---
|
33 |
|
|
|
|
|
|
|
|
|
34 |
## 📊 效果对比 (Before vs After)
|
35 |
> 表格长度有限,对比图片中只展示部分回答内容。实际模型效果可以看底下的部分问题回答的截屏。
|
36 |
|
37 |
### 1️⃣ 数学推理
|
38 |
-
**Prompt**
|
39 |
-
垃圾处理厂用 4 台同样的垃圾处理器,同时工作 2.5 小时,一共处理垃圾 375.3 千克。照这样计算,一台垃圾处理器每小时处理垃圾多少千克?
|
40 |
-
|
41 |
| 原始 Llama3.2-3B | 微调后模型 |
|
42 |
|---|---|
|
43 |
| **答案**:235.18 千克/小时 ❌<br>(计算逻辑混乱,结果错误) | **答案**:37.53 千克/小时 ✅<br>(逐步推理,验证正确) |
|
@@ -100,7 +104,8 @@ pipeline_tag: question-answering
|
|
100 |
|
101 |
## ⚖️ 局限性
|
102 |
- 训练数据量仅 50k,虽然效果明显提升,但对开放领域问题仍可能不足。
|
103 |
-
- 模型主要优化了
|
|
|
104 |
- 尚未使用 RLHF / DPO,个别输出在“人类偏好对齐”上还有限。
|
105 |
|
106 |
---
|
@@ -123,3 +128,7 @@ pipeline_tag: question-answering
|
|
123 |
|
124 |
|
125 |
|
|
|
|
|
|
|
|
|
|
8 |
base_model:
|
9 |
- meta-llama/Llama-3.2-3B-Instruct
|
10 |
pipeline_tag: question-answering
|
11 |
+
|
12 |
---
|
13 |
|
14 |
+
# 🦙 llama-3.2-3B-Chinese-Elite 🔥
|
15 |
|
16 |
## 🌟 模型亮点
|
17 |
这是一个基于 **Meta-Llama-3.2-3B-Instruct** 的微调模型,使用 **Qwen3-235B 蒸馏数据** + **监督微调 (SFT)** 训练而成。
|
18 |
+
在实际使用中,我发现它不仅在 **中文对话、输出内容格式、简单推理、科学问题回答、聊天对话、创意写作** 等任务上表现远优于原始 Llama3.2-3B。同时 **基于中文环境的综合能力,远超越基座模型**,而且风格更接近 **2025年最新 Qwen3系列模型**,输出更自然、更贴近人类偏好,也会有表情符号使文章更生动活泼。
|
19 |
|
20 |
+
🔥 得益于仅 **3B 的参数规模**,该模型在 **响应速度** 上表现非常突出,交互体验 **流畅自然**。
|
21 |
+
它能够轻松处理 **日常对话、文本总结、翻译、学习资料讲解** 等常见任务,并且在 **资源受限的环境(如轻量 GPU、本地 CPU 或个人电脑)** 下依然能够 **高效运行**。
|
22 |
+
与此同时,模型支持 **离线部署**,在保障 **数据安全** 的同时大幅 **节省计算与能源开销**,非常适合 **教育、研究以及个人学习** 场景使用。
|
23 |
|
24 |
---
|
25 |
|
|
|
34 |
|
35 |
---
|
36 |
|
37 |
+

|
38 |
+
|
39 |
+

|
40 |
+
|
41 |
## 📊 效果对比 (Before vs After)
|
42 |
> 表格长度有限,对比图片中只展示部分回答内容。实际模型效果可以看底下的部分问题回答的截屏。
|
43 |
|
44 |
### 1️⃣ 数学推理
|
|
|
|
|
|
|
45 |
| 原始 Llama3.2-3B | 微调后模型 |
|
46 |
|---|---|
|
47 |
| **答案**:235.18 千克/小时 ❌<br>(计算逻辑混乱,结果错误) | **答案**:37.53 千克/小时 ✅<br>(逐步推理,验证正确) |
|
|
|
104 |
|
105 |
## ⚖️ 局限性
|
106 |
- 训练数据量仅 50k,虽然效果明显提升,但对开放领域问题仍可能不足。
|
107 |
+
- 模型主要优化了 **聊天 / 语言 / 叙事/ ** 场景,专业领域可能不如更大模型强。
|
108 |
+
- 基座模型限制:Llama-3.2-3B 的基础能力和通用性能相对有限,微调虽能改善表现,但无法突破基座模型本身的上限。数学能力与复杂问题解决能力孱弱。
|
109 |
- 尚未使用 RLHF / DPO,个别输出在“人类偏好对齐”上还有限。
|
110 |
|
111 |
---
|
|
|
128 |
|
129 |
|
130 |
|
131 |
+
|
132 |
+
|
133 |
+
|
134 |
+
|