Edit model card

distilbert-indonesian-squad

This model is a fine-tuned version of cahya/distilbert-base-indonesian on the Translated SQuAD2.0 dataset for Q&A downstream task. It achieves the following results on the evaluation set:

  • Loss: 2.0067

Model Size (after training): 270mb

GitHub

Details of Indonesian DistilBERT base (from their documentation)

This model is a distilled version of the Indonesian BERT base model. This model is uncased.

This is one of several other language models that have been pre-trained with indonesian datasets. More detail about its usage on downstream tasks (text classification, text generation, etc) is available at Transformer based Indonesian Language Models.

Details of the downstream task (Q&A) - Dataset

SQuAD2.0 combines the 100,000 questions in SQuAD1.1 with over 50,000 unanswerable questions written adversarially by crowdworkers to look similar to answerable ones. To do well on SQuAD2.0, systems must not only answer questions when possible, but also determine when no answer is supported by the paragraph and abstain from answering.

Dataset Split # samples
SQuAD2.0 train 130k
SQuAD2.0 eval 12.3k

Model Training

The model was trained on Kaggle's T4 GPU x2 and 13GB of RAM.

Results:

Metric # Value
EM 51.00
F1 68.92

Simple Usage (Using πŸ€— Pipeline)

from transformers import pipeline

qa_pipeline = pipeline(
    "question-answering",
    model="boimbukanbaim/indonesian-distilbert-finetuned-squad",
    tokenizer="boimbukanbaim/indonesian-distilbert-finetuned-squad"
)

qa_pipeline({
    'context': """
    Dalam matematika, turunan atau derivatif dari sebuah fungsi adalah cara mengukur sensitivitas perubahan nilai fungsi terhadap perubahan pada nilai variabelnya. Sebagai contoh, turunan dari posisi sebuah benda bergerak terhadap waktu mengukur kecepatan benda bergerak ketika waktu berjalan. Turunan adalah alat penting dalam kalkulus.
    
    Turunan sebuah fungsi satu variabel di suatu titik, jika itu ada, adalah kemiringan dari garis singgung dari grafik fungsi di titik tersebut. Garis singgung adalah hampiran (aproksimasi) linear terbaik dari fungsi di sekitar titik tersebut. Konsep turunan dapat diperumum untuk fungsi multivariabel. Dalam perumuman ini, turunan dianggap sebagai transformasi linear, dengan translasi yang sesuai, menghasilkan hampiran linear dari grafik fungsi multivariabel tersebut. Matriks Jacobi adalah matriks yang merepresentasikan transformasi linear terhadap suatu basis yang ditentukan. Matriks ini dapat ditentukan dengan turunan parsial dari variabel-variabel independen. Pada fungsi multivariabel bernilai real, matriks Jacobi tereduksi menjadi vektor gradien.
    
    Proses menemukan turunan disebut diferensiasi. Kebalikan proses ini disebut dengan antiturunan. Teorema fundamental kalkulus menyatakan hubungan diferensiasi dengan integrasi. Turunan dan integral adalah dua operasi dasar dalam kalkulus satu-variabel.
    
    Konsep turunan fungsi yang universal banyak digunakan dalam berbagai cabang matematika maupun bidang ilmu yang lain. Dalam bidang ekonomi, turunan digunakan untuk menghitung biaya marginal, total penerimaan, dan biaya produksi. Bidang biologi menggunakan turunan untuk menghitung laju pertumbuhan mikroorganisme, dalam bidang fisika untuk menghitung kepadatan kawat, dalam bidang kimia untuk menghitung laju pemisahan, dalam bidang geografi untuk menghitung laju pertumbuhan penduduk, dan masih banyak lagi.
    """,
    'question': "Apa itu derivatif?"
})

output:

{
    'score': 0.1216660588979721,
    'start': 61,
    'end': 159,
    'answer': 'adalah cara mengukur sensitivitas perubahan nilai fungsi terhadap perubahan pada nilai variabelnya'
}

Training hyperparameters

The following hyperparameters were used during training:

  • learning_rate: 2e-05
  • train_batch_size: 32
  • eval_batch_size: 32
  • seed: 42
  • optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
  • lr_scheduler_type: linear
  • num_epochs: 3

Training results

Training Loss Epoch Step Validation Loss
1.8513 1.0 4100 1.9777
1.5702 2.0 8200 1.9628
1.3763 3.0 12300 2.0067

Framework versions

  • Transformers 4.33.2
  • Pytorch 2.0.0
  • Datasets 2.1.0
  • Tokenizers 0.13.3
Downloads last month
11
Safetensors
Model size
67.5M params
Tensor type
F32
Β·
Inference Examples
This model does not have enough activity to be deployed to Inference API (serverless) yet. Increase its social visibility and check back later, or deploy to Inference Endpoints (dedicated) instead.

Model tree for boimbukanbaim/distilbert-indonesian-squad

Finetuned
(4)
this model