phoner45 commited on
Commit
1c51a05
·
verified ·
1 Parent(s): 40aba1b

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +22 -13
README.md CHANGED
@@ -6,12 +6,6 @@ tags:
6
  model-index:
7
  - name: finetune_iapp_thaiqa
8
  results: []
9
- license: mit
10
- datasets:
11
- - phoner45/iapp_thaiqa
12
- language:
13
- - th
14
- pipeline_tag: question-answering
15
  ---
16
 
17
  <!-- This model card has been generated automatically according to the information the Trainer had access to. You
@@ -19,24 +13,39 @@ should probably proofread and complete it, then remove this comment. -->
19
 
20
  # finetune_iapp_thaiqa
21
 
22
- This model is a fine-tuned version of [airesearch/wangchanberta-base-att-spm-uncased](https://huggingface.co/airesearch/wangchanberta-base-att-spm-uncased) on the None dataset.
23
 
24
  ## Model description
25
 
26
- More information needed
27
 
28
  ## Intended uses & limitations
29
 
30
- More information needed
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
31
 
32
  ## Training and evaluation data
33
 
34
- More information needed
35
 
36
  ## Training procedure
37
 
38
- ### Training hyperparameters
39
-
40
  The following hyperparameters were used during training:
41
  - learning_rate: 2e-05
42
  - train_batch_size: 16
@@ -53,4 +62,4 @@ The following hyperparameters were used during training:
53
  - Transformers 4.44.2
54
  - Pytorch 2.4.0+cu121
55
  - Datasets 2.21.0
56
- - Tokenizers 0.19.1
 
6
  model-index:
7
  - name: finetune_iapp_thaiqa
8
  results: []
 
 
 
 
 
 
9
  ---
10
 
11
  <!-- This model card has been generated automatically according to the information the Trainer had access to. You
 
13
 
14
  # finetune_iapp_thaiqa
15
 
16
+ his model is a fine-tuned version of [airesearch/wangchanberta-base-att-spm-uncased](https://huggingface.co/airesearch/wangchanberta-base-att-spm-uncased) on the ipp_thaiqa dataset.
17
 
18
  ## Model description
19
 
20
+ โมเดลนี้ได้รับการออกแบบมาเพื่อทำงานในงานถามตอบ (Question Answering) สำหรับภาษาไทย โดยใช้สถาปัตยกรรม WangchanBERTa ซึ่งเป็นโมเดลภาษาไทยที่มีประสิทธิภาพสูง มาจากการปรับแต่งโมเดล BERT แบบไม่แยกตัวพิมพ์เล็กและพิมพ์ใหญ่ และใช้ SentencePiece Tokenizer โมเดลนี้เน้นที่การทำงานกับคำถามและคำตอบภาษาไทยโดยเฉพาะ
21
 
22
  ## Intended uses & limitations
23
 
24
+ การใช้งาน: โมเดลนี้สามารถนำไปใช้ในงานถามตอบ (Question Answering) สำหรับภาษาไทย เช่น ระบบแชทบอทที่ให้ข้อมูลตามคำถามที่ผู้ใช้ถาม
25
+ ข้อจำกัด: โมเดลนี้ได้รับการฝึกบนชุดข้อมูลจำกัด ดังนั้นอาจมีข้อผิดพลาดในการทำงานในบางบริบท และประสิทธิภาพอาจไม่ดีเท่าที่ควรในกรณีที่ข้อมูลหรือคำถามมีความซับซ้อนเกินไป หรือเป็นข้อมูลที่ไม่เคยพบเจอมาก่อน
26
+
27
+ # Use a pipeline as a high-level helper
28
+
29
+ from transformers import pipeline
30
+
31
+ pipe = pipeline("question-answering", model="phoner45/finetune_iapp_thaiqa")
32
+
33
+ context = """
34
+ ประเทศไทยมีกรุงเทพมหานครเป็นเมืองหลวง และเป็นเมืองที่ใหญ่ที่สุดในประเทศ
35
+ นอกจากนี้ยังมีจังหวัดอื่นๆ ที่สำคัญ เช่น เชียงใหม่ ภูเก็ต และขอนแก่น
36
+ ประเทศไทยมีการปกครองในระบอบประชาธิปไตย โดยมีพระมหากษัตริย์เป็นประมุข
37
+ """
38
+
39
+ question = "เมืองหลวงของประเทศไทยคือเมืองอะไร?"
40
+
41
+ result = pipe(question=question, context=context)
42
 
43
  ## Training and evaluation data
44
 
45
+ ข้อมูลชุดที่ใช้ในการฝึก (Training Dataset) Thai Wikipedia Question Answering Dataset ipp_thaiqa !wget https://archive.org/download/iapp_thaiqa/iapp_thaiqa.zip
46
 
47
  ## Training procedure
48
 
 
 
49
  The following hyperparameters were used during training:
50
  - learning_rate: 2e-05
51
  - train_batch_size: 16
 
62
  - Transformers 4.44.2
63
  - Pytorch 2.4.0+cu121
64
  - Datasets 2.21.0
65
+ - Tokenizers 0.19.1