ClassCat commited on
Commit
c75d068
·
1 Parent(s): dd70d49

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +8 -0
README.md CHANGED
@@ -12,6 +12,10 @@ widget:
12
 
13
  ## GPT2 Japanese base model version 2
14
 
 
 
 
 
15
  ### Training Data
16
 
17
  * [wiki40b/ja](https://www.tensorflow.org/datasets/catalog/wiki40b#wiki40bja) (Japanese Wikipedia)
@@ -28,6 +32,10 @@ generator("今度の連休の天気は", max_length=50, num_return_sequences=5)
28
 
29
  ## (Japanese description) GPT2 日本語 ベースモデル・バージョン 2
30
 
 
 
 
 
31
  ### 訓練データ
32
 
33
  * [wiki40b/ja](https://www.tensorflow.org/datasets/catalog/wiki40b#wiki40bja) (日本語 Wikipedia)
 
12
 
13
  ## GPT2 Japanese base model version 2
14
 
15
+ ### Tokenizer
16
+
17
+ Using BPE tokenizer with vocabulary size 60,000.
18
+
19
  ### Training Data
20
 
21
  * [wiki40b/ja](https://www.tensorflow.org/datasets/catalog/wiki40b#wiki40bja) (Japanese Wikipedia)
 
32
 
33
  ## (Japanese description) GPT2 日本語 ベースモデル・バージョン 2
34
 
35
+ ### トークナイザー
36
+
37
+ 語彙サイズ 60,000 の BPE トークナイザーを使用しています。
38
+
39
  ### 訓練データ
40
 
41
  * [wiki40b/ja](https://www.tensorflow.org/datasets/catalog/wiki40b#wiki40bja) (日本語 Wikipedia)