phoner45 commited on
Commit
6abea8d
·
verified ·
1 Parent(s): 6c240f6

Training complete

Browse files
Files changed (1) hide show
  1. README.md +20 -29
README.md CHANGED
@@ -6,54 +6,45 @@ tags:
6
  model-index:
7
  - name: finetune_iapp_thaiqa
8
  results: []
9
- license: mit
10
- datasets:
11
- - phoner45/iapp_thaiqa
12
- language:
13
- - th
14
- pipeline_tag: question-answering
15
  ---
16
 
17
  <!-- This model card has been generated automatically according to the information the Trainer had access to. You
 
18
 
19
  # finetune_iapp_thaiqa
20
 
21
- This model is a fine-tuned version of [airesearch/wangchanberta-base-att-spm-uncased](https://huggingface.co/airesearch/wangchanberta-base-att-spm-uncased) on the ipp_thaiqa dataset.
22
 
23
  ## Model description
24
 
25
- โมเดลนี้ได้รับการออกแบบมาเพื่อทำงานในงานถามตอบ (Question Answering) สำหรับภาษาไทย โดยใช้สถาปัตยกรรม WangchanBERTa ซึ่งเป็นโมเดลภาษาไทยที่มีประสิทธิภาพสูง มาจากการปรับแต่งโมเดล BERT แบบไม่แยกตัวพิมพ์เล็กและพิมพ์ใหญ่ และใช้ SentencePiece Tokenizer โมเดลนี้เน้นที่การทำงานกับคำถามและคำตอบภาษาไทยโดยเฉพาะ
26
 
27
  ## Intended uses & limitations
28
 
29
- การใช้งาน: โมเดลนี้สามารถนำไปใช้ในงานถามตอบ (Question Answering) สำหรับภาษาไทย เช่น ระบบแชทบอทที่ให้ข้อมูลตามคำถามที่ผู้ใช้ถาม
30
- ข้อจำกัด: โมเดลนี้ได้รับการฝึกบนชุดข้อมูลจำกัด ดังนั้นอาจมีข้อผิดพลาดในการทำงานในบางบริบท และประสิทธิภาพอาจไม่ดีเท่าที่ควรในกรณีที่ข้อมูลหรือคำถามมีความซับซ้อนเกินไป หรือเป็นข้อมูลที่ไม่เคยพบเจอมาก่อน
31
 
32
- # Use a pipeline as a high-level helper
33
-
34
- from transformers import pipeline
35
-
36
- pipe = pipeline("question-answering", model="phoner45/finetune_iapp_thaiqa")
37
-
38
- context = """
39
- ประเทศไทยมีกรุงเทพมหานครเป็นเมืองหลวง และเป็นเมืองที่ใหญ่ที่สุดในประเทศ
40
- นอกจากนี้ยังมีจังหวัดอื่นๆ ที่สำคัญ เช่น เชียงใหม่ ภูเก็ต และขอนแก่น
41
- ประเทศไทยมีการปกครองในระบอบประชาธิปไตย โดยมีพระมหากษัตริย์เป็นประมุข
42
- """
43
-
44
- question = "เมืองหลวงของประเทศไทยคือเมืองอะไร?"
45
 
46
- result = pipe(question=question, context=context)
47
 
48
- print(result)
49
 
50
- ## Training and evaluation data
51
 
52
- ข้อมูลชุดที่ใช้ในการฝึก (Training Dataset) Thai Wikipedia Question Answering Dataset ipp_thaiqa !wget https://archive.org/download/iapp_thaiqa/iapp_thaiqa.zip
 
 
 
 
 
 
 
 
 
53
 
54
- ## Training procedure
55
 
56
  - Transformers 4.44.2
57
  - Pytorch 2.4.0+cu121
58
  - Datasets 2.21.0
59
- - Tokenizers 0.19.1
 
6
  model-index:
7
  - name: finetune_iapp_thaiqa
8
  results: []
 
 
 
 
 
 
9
  ---
10
 
11
  <!-- This model card has been generated automatically according to the information the Trainer had access to. You
12
+ should probably proofread and complete it, then remove this comment. -->
13
 
14
  # finetune_iapp_thaiqa
15
 
16
+ This model is a fine-tuned version of [airesearch/wangchanberta-base-att-spm-uncased](https://huggingface.co/airesearch/wangchanberta-base-att-spm-uncased) on the None dataset.
17
 
18
  ## Model description
19
 
20
+ More information needed
21
 
22
  ## Intended uses & limitations
23
 
24
+ More information needed
 
25
 
26
+ ## Training and evaluation data
 
 
 
 
 
 
 
 
 
 
 
 
27
 
28
+ More information needed
29
 
30
+ ## Training procedure
31
 
32
+ ### Training hyperparameters
33
 
34
+ The following hyperparameters were used during training:
35
+ - learning_rate: 2e-05
36
+ - train_batch_size: 16
37
+ - eval_batch_size: 32
38
+ - seed: 42
39
+ - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
40
+ - lr_scheduler_type: linear
41
+ - lr_scheduler_warmup_ratio: 0.2
42
+ - num_epochs: 2
43
+ - mixed_precision_training: Native AMP
44
 
45
+ ### Framework versions
46
 
47
  - Transformers 4.44.2
48
  - Pytorch 2.4.0+cu121
49
  - Datasets 2.21.0
50
+ - Tokenizers 0.19.1