berel_finetuned_on_HB_morphemes_1_epoch

This model is a fine-tuned version of dicta-il/BEREL on the None dataset. It achieves the following results on the evaluation set:

Model description

More information needed

More information needed

More information needed

The following hyperparameters were used during training:

learning_rate: 0.0001
train_batch_size: 8
eval_batch_size: 8
seed: 42
optimizer: Use adamw_torch with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
lr_scheduler_type: linear
num_epochs: 1

Training Loss	Epoch	Step	Validation Loss
4.7697	0.0568	500	4.2651
4.2035	0.1135	1000	3.9031
4.0256	0.1703	1500	3.7760
3.8769	0.2270	2000	3.6892
3.7322	0.2838	2500	3.5716
3.6824	0.3405	3000	3.4876
3.5591	0.3973	3500	3.4126
3.5489	0.4540	4000	3.3240
3.4443	0.5108	4500	3.3036
3.3946	0.5675	5000	3.2344
3.2494	0.6243	5500	3.2238
3.2556	0.6810	6000	3.1466
3.2021	0.7378	6500	3.0968
3.1622	0.7946	7000	3.0669
3.1692	0.8513	7500	3.0719
3.2131	0.9081	8000	2.9867
3.0374	0.9648	8500	3.0344