nlp-waseda
/

gpt2-small-japanese-wikipedia

Text Generation

text-generation-inference

Inference Endpoints

Model card Files Files and versions Community

gpt2-small-japanese-wikipedia / README.md

0x71d3

add readme

5fb9822 almost 3 years ago

|

history blame contribute delete

2.74 kB

	---
	language:
	- ja
	license: cc-by-sa-4.0
	datasets:
	- wikipedia
	widget:
	- text: "早稲田大学で自然言語処理を"
	---

	# nlp-waseda/gpt2-small-japanese-wikipedia

	This model is Japanese GPT-2 pretrained on Japanese Wikipedia.

	## Intended uses & limitations

	You can use the raw model for text generation or fine-tune it to a downstream task.

	Note that the texts should be segmented into words using Juman++ in advance.

	### How to use

	You can use this model directly with a pipeline for text generation. Since the generation relies on some randomness, we set a seed for reproducibility:

	```python
	>>> from transformers import pipeline, set_seed
	>>> generator = pipeline('text-generation', model='nlp-waseda/gpt2-small-japanese-wikipedia')
	>>> set_seed(42)
	>>> generator("早稲田大学で自然言語処理を", max_length=30, do_sample=True, pad_token_id=2, num_return_sequences=5)
	[{'generated_text': '早稲田大学で自然言語処理を学び、 1969 年には同大学院を修了。東京芝浦電気株式会社に就職後、情報処理'},
	{'generated_text': '早稲田大学で自然言語処理を学び、帰国後は立教大学理学部助手を務めた。 1978 年に神奈川県立湘南高等学校校長に就任'},
	{'generated_text': '早稲田大学で自然言語処理を研究。 1972 年に早稲田大学文学部ドイツ文学専攻を卒業し、同年から 1979 年まで上智大学'},
	{'generated_text': '早稲田大学で自然言語処理を専攻する。 1979 年東京農工大学農学部卒業。 1980 年同大学院農学研究科修士課程修了。'},
	{'generated_text': '早稲田大学で自然言語処理を専攻しながら、日本で活動する自然言語研究家。大学時代は東京大学理学部の助手を務め'}]
	```

	Here is how to use this model to get the features of a given text in PyTorch:

	```python
	from transformers import ReformerTokenizer, GPT2Model
	tokenizer = ReformerTokenizer.from_pretrained('nlp-waseda/gpt2-small-japanese-wikipedia')
	model = GPT2Model.from_pretrained('nlp-waseda/gpt2-small-japanese-wikipedia')
	text = "早稲田大学で自然言語処理を"
	encoded_input = tokenizer(text, return_tensors='pt')
	output = model(**encoded_input)
	```

	## Training data

	The GPT-2 model was pretrained on Japanese Wikipedia, dumped on 2021-12-20.

	## Training procedure

	### Preprocessing

	The texts are normalized using zenhan, segmented into words using Juman++, and tokenized using SentencePiece. Juman++ 2.0.0-rc3 was used for pretraining.

	The model was trained on 8 NVIDIA A100 GPUs.