bigbird_pegasus

This model is a fine-tuned version of google/bigbird-pegasus-large-arxiv on the None dataset. It achieves the following results on the evaluation set:

Loss: nan

Model description

More information needed

Intended uses & limitations

More information needed

Training and evaluation data

More information needed

Training procedure

Training hyperparameters

The following hyperparameters were used during training:

learning_rate: 3e-05
train_batch_size: 2
eval_batch_size: 4
seed: 42
optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
lr_scheduler_type: polynomial
lr_scheduler_warmup_steps: 500
training_steps: 20000
mixed_precision_training: Native AMP

Training results

Epoch	Step	Validation Loss
0.0	500	nan
0.01	1000	nan
0.01	1500	nan
0.01	2000	nan
0.02	2500	nan
0.02	3000	nan
0.02	3500	nan
0.03	4000	nan
0.03	4500	nan
0.03	5000	nan
0.04	5500	nan
0.04	6000	nan
0.05	6500	nan
0.05	7000	nan
0.05	7500	nan
0.06	8000	nan
0.06	8500	nan
0.06	9000	nan
0.07	9500	nan
0.07	10000	nan
0.07	10500	nan
0.08	11000	nan
0.08	11500	nan
0.08	12000	nan
0.09	12500	nan
0.09	13000	nan
0.09	13500	nan
0.1	14000	nan
0.1	14500	nan
0.1	15000	nan
0.11	15500	nan
0.11	16000	nan
0.11	16500	nan
0.12	17000	nan
0.12	17500	nan
0.13	18000	nan
0.13	18500	nan
0.13	19000	nan
0.14	19500	nan
0.14	20000	nan

Framework versions

Transformers 4.37.2
Pytorch 2.2.2+cu121
Datasets 2.18.0
Tokenizers 0.15.1

alshelt
/

bigbird_pegasus

bigbird_pegasus

Model description

Intended uses & limitations

Training and evaluation data

Training procedure

Training hyperparameters

Training results

Framework versions

Model tree for alshelt/bigbird_pegasus

Evaluation results