SkyWork commited on
Commit
326f068
·
1 Parent(s): ad7d40d

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +49 -3
README.md CHANGED
@@ -1,3 +1,49 @@
1
- ---
2
- license: mit
3
- ---
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ # SkyTextJunior
2
+
3
+ SkyTextJunior是由奇点智源发布的中文GPT3预训练模型,参数量30亿左右,可以进行聊天、问答、中英互译等不同的[任务](https://openapi.singularity-ai.com/index.html#/examplesIndex)。
4
+
5
+
6
+ ## 项目亮点
7
+
8
+ 1. 技术优势一 :30多道流程的数据清洗
9
+
10
+ 随着NLP技术的发展,预训练大模型逐渐成为了人工智能的核心技术之一。预训练大模型通常需要海量的文本来进行训练,网络文本自然成为了最重要的语料来源。而训练语料的质量无疑直接影响着模型的效果。为了训练出能力出众的模型,奇点智源在数据清洗时使用了30多道的清洗流程。精益求精的细节处理,铸造了卓越的模型效果。
11
+
12
+ 2. 技术优势二:针对中文优化创新的中文编码方式
13
+
14
+ 曾经在预训练大模型领域,一直是被英文社区主导着,而中文预训练大模型的重要性不言而喻。不同于英文的拼音文字,中文预训练大模型的中文输入方式显然应该有所不同。奇点智源针对中文的特点,优化创新使用了独特的中文编码方式,更加符合中文的语言习惯,重新构建出更利于模型理解的中文字典。
15
+
16
+
17
+
18
+ # 奇点新闻
19
+
20
+ - [2022.12.15] [昆仑天工AIGC发布会](https://live.vhall.com/v3/lives/subscribe/697547540)
21
+
22
+
23
+
24
+ ## 依赖
25
+
26
+ ```
27
+ 推荐
28
+ transformers>=4.16.0
29
+ ```
30
+
31
+ ## 模型使用
32
+
33
+ ```python
34
+ # -*- coding: utf-8 -*-
35
+ from transformers import GPT2LMHeadModel
36
+ from transformers import AutoTokenizer
37
+ from transformers import TextGenerationPipeline
38
+
39
+ model = GPT2LMHeadModel.from_pretrained("SkyWork/SkyTextJunior")
40
+ tokenizer = AutoTokenizer.from_pretrained("SkyWork/SkyTextJunior", trust_remote_code=True)
41
+ text_generator = TextGenerationPipeline(model, tokenizer, device=0)
42
+ input_str = "今天是个好天气"
43
+ max_new_tokens = 20
44
+ print(text_generator(input_str, max_new_tokens=max_new_tokens, do_sample=True))
45
+ ```
46
+
47
+ # 版权许可
48
+
49
+ [MIT License]