phoner45 commited on
Commit
6c240f6
·
verified ·
1 Parent(s): 1a6295e

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +29 -20
README.md CHANGED
@@ -6,45 +6,54 @@ tags:
6
  model-index:
7
  - name: finetune_iapp_thaiqa
8
  results: []
 
 
 
 
 
 
9
  ---
10
 
11
  <!-- This model card has been generated automatically according to the information the Trainer had access to. You
12
- should probably proofread and complete it, then remove this comment. -->
13
 
14
  # finetune_iapp_thaiqa
15
 
16
- This model is a fine-tuned version of [airesearch/wangchanberta-base-att-spm-uncased](https://huggingface.co/airesearch/wangchanberta-base-att-spm-uncased) on the None dataset.
17
 
18
  ## Model description
19
 
20
- More information needed
21
 
22
  ## Intended uses & limitations
23
 
24
- More information needed
 
25
 
26
- ## Training and evaluation data
27
 
28
- More information needed
29
 
30
- ## Training procedure
 
 
 
 
 
 
 
 
31
 
32
- ### Training hyperparameters
33
 
34
- The following hyperparameters were used during training:
35
- - learning_rate: 2e-05
36
- - train_batch_size: 16
37
- - eval_batch_size: 32
38
- - seed: 42
39
- - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
40
- - lr_scheduler_type: linear
41
- - lr_scheduler_warmup_ratio: 0.2
42
- - num_epochs: 2
43
- - mixed_precision_training: Native AMP
44
 
45
- ### Framework versions
 
 
 
 
46
 
47
  - Transformers 4.44.2
48
  - Pytorch 2.4.0+cu121
49
  - Datasets 2.21.0
50
- - Tokenizers 0.19.1
 
6
  model-index:
7
  - name: finetune_iapp_thaiqa
8
  results: []
9
+ license: mit
10
+ datasets:
11
+ - phoner45/iapp_thaiqa
12
+ language:
13
+ - th
14
+ pipeline_tag: question-answering
15
  ---
16
 
17
  <!-- This model card has been generated automatically according to the information the Trainer had access to. You
 
18
 
19
  # finetune_iapp_thaiqa
20
 
21
+ This model is a fine-tuned version of [airesearch/wangchanberta-base-att-spm-uncased](https://huggingface.co/airesearch/wangchanberta-base-att-spm-uncased) on the ipp_thaiqa dataset.
22
 
23
  ## Model description
24
 
25
+ โมเดลนี้ได้รับการออกแบบมาเพื่อทำงานในงานถามตอบ (Question Answering) สำหรับภาษาไทย โดยใช้สถาปัตยกรรม WangchanBERTa ซึ่งเป็นโมเดลภาษาไทยที่มีประสิทธิภาพสูง มาจากการปรับแต่งโมเดล BERT แบบไม่แยกตัวพิมพ์เล็กและพิมพ์ใหญ่ และใช้ SentencePiece Tokenizer โมเดลนี้เน้นที่การทำงานกับคำถามและคำตอบภาษาไทยโดยเฉพาะ
26
 
27
  ## Intended uses & limitations
28
 
29
+ การใช้งาน: โมเดลนี้สามารถนำไปใช้ในงานถามตอบ (Question Answering) สำหรับภาษาไทย เช่น ระบบแชทบอทที่ให้ข้อมูลตามคำถามที่ผู้ใช้ถาม
30
+ ข้อจำกัด: โมเดลนี้ได้รับการฝึกบนชุดข้อมูลจำกัด ดังนั้นอาจมีข้อผิดพลาดในการทำงานในบางบริบท และประสิทธิภาพอาจไม่ดีเท่าที่ควรในกรณีที่ข้อมูลหรือคำถามมีความซับซ้อนเกินไป หรือเป็นข้อมูลที่ไม่เคยพบเจอมาก่อน
31
 
32
+ # Use a pipeline as a high-level helper
33
 
34
+ from transformers import pipeline
35
 
36
+ pipe = pipeline("question-answering", model="phoner45/finetune_iapp_thaiqa")
37
+
38
+ context = """
39
+ ประเทศไทยมีกรุงเทพมหานครเป็นเมืองหลวง และเป็นเมืองที่ใหญ่ที่สุดในประเทศ
40
+ นอกจากนี้ยังมีจังหวัดอื่นๆ ที่สำคัญ เช่น เชียงใหม่ ภูเก็ต และขอนแก่น
41
+ ประเทศไทยมีการปกครองในระบอบประชาธิปไตย โดยมีพระมหากษัตริย์เป็นประมุข
42
+ """
43
+
44
+ question = "เมืองหลวงของประเทศไทยคือเมืองอะไร?"
45
 
46
+ result = pipe(question=question, context=context)
47
 
48
+ print(result)
 
 
 
 
 
 
 
 
 
49
 
50
+ ## Training and evaluation data
51
+
52
+ ข้อมูลชุดที่ใช้ในการฝึก (Training Dataset) Thai Wikipedia Question Answering Dataset ipp_thaiqa !wget https://archive.org/download/iapp_thaiqa/iapp_thaiqa.zip
53
+
54
+ ## Training procedure
55
 
56
  - Transformers 4.44.2
57
  - Pytorch 2.4.0+cu121
58
  - Datasets 2.21.0
59
+ - Tokenizers 0.19.1