train_qnli_1744902605

This model is a fine-tuned version of google/gemma-3-1b-it on the qnli dataset. It achieves the following results on the evaluation set:

  • Loss: 0.0624
  • Num Input Tokens Seen: 73102784

Model description

More information needed

Intended uses & limitations

More information needed

Training and evaluation data

More information needed

Training procedure

Training hyperparameters

The following hyperparameters were used during training:

  • learning_rate: 0.3
  • train_batch_size: 4
  • eval_batch_size: 4
  • seed: 123
  • gradient_accumulation_steps: 4
  • total_train_batch_size: 16
  • optimizer: Use adamw_torch with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
  • lr_scheduler_type: cosine
  • training_steps: 40000

Training results

Training Loss Epoch Step Validation Loss Input Tokens Seen
0.12 0.0339 200 0.1164 367200
0.1193 0.0679 400 0.1171 737312
0.1139 0.1018 600 0.1133 1102816
0.1164 0.1358 800 0.1112 1468736
0.1146 0.1697 1000 0.1038 1829952
0.1076 0.2037 1200 0.1029 2199200
0.115 0.2376 1400 0.0953 2565536
0.0886 0.2716 1600 0.1084 2930336
0.0971 0.3055 1800 0.0924 3297216
0.1287 0.3395 2000 0.1159 3666880
0.1674 0.3734 2200 0.1571 4036544
0.1129 0.4073 2400 0.1131 4400256
0.0994 0.4413 2600 0.0996 4765408
0.0945 0.4752 2800 0.1242 5130336
0.0796 0.5092 3000 0.0958 5495328
0.0931 0.5431 3200 0.0912 5857280
0.0989 0.5771 3400 0.1076 6221504
0.0931 0.6110 3600 0.0893 6589568
0.1026 0.6450 3800 0.0948 6959584
0.0891 0.6789 4000 0.0918 7323712
0.0979 0.7129 4200 0.0854 7690880
0.0905 0.7468 4400 0.0866 8053632
0.0907 0.7808 4600 0.0854 8417216
0.0894 0.8147 4800 0.0922 8782624
0.1024 0.8486 5000 0.0886 9145728
0.0946 0.8826 5200 0.0949 9513920
0.0733 0.9165 5400 0.0958 9877152
0.0906 0.9505 5600 0.0823 10240128
0.0965 0.9844 5800 0.0814 10606272
0.1033 1.0183 6000 0.0828 10971744
0.0891 1.0523 6200 0.0826 11335648
0.0831 1.0862 6400 0.0807 11702592
0.0858 1.1202 6600 0.0824 12070112
0.0741 1.1541 6800 0.0909 12437088
0.0863 1.1881 7000 0.0809 12802848
0.0903 1.2220 7200 0.0819 13171040
0.097 1.2560 7400 0.0809 13539968
0.1005 1.2899 7600 0.1155 13904864
0.0957 1.3238 7800 0.0806 14272512
0.0811 1.3578 8000 0.0810 14634880
0.0589 1.3917 8200 0.0807 15002592
0.0877 1.4257 8400 0.0811 15369600
0.0664 1.4596 8600 0.0820 15731008
0.0713 1.4936 8800 0.0791 16092896
0.0929 1.5275 9000 0.0825 16458208
0.0796 1.5615 9200 0.0771 16823328
0.1006 1.5954 9400 0.0781 17185120
0.0698 1.6294 9600 0.0794 17551488
0.092 1.6633 9800 0.0847 17914752
0.0954 1.6972 10000 0.0794 18281888
0.0811 1.7312 10200 0.0825 18645120
0.0713 1.7651 10400 0.0831 19010848
0.0849 1.7991 10600 0.0774 19377344
0.0652 1.8330 10800 0.0775 19739232
0.0597 1.8670 11000 0.0768 20107584
0.0855 1.9009 11200 0.0747 20470912
0.076 1.9349 11400 0.0789 20832736
0.0623 1.9688 11600 0.0795 21199808
0.0839 2.0027 11800 0.0877 21568384
0.0756 2.0367 12000 0.0755 21931424
0.0765 2.0706 12200 0.0802 22294816
0.096 2.1046 12400 0.0736 22655968
0.0736 2.1385 12600 0.0762 23020896
0.0758 2.1724 12800 0.0740 23383104
0.0814 2.2064 13000 0.0733 23746656
0.0717 2.2403 13200 0.0736 24110208
0.0667 2.2743 13400 0.0745 24476544
0.0863 2.3082 13600 0.0803 24841440
0.0748 2.3422 13800 0.0744 25206624
0.07 2.3761 14000 0.0772 25573280
0.0842 2.4101 14200 0.0755 25939392
0.069 2.4440 14400 0.0753 26303968
0.0645 2.4780 14600 0.0727 26666944
0.0875 2.5119 14800 0.0732 27035136
0.0829 2.5458 15000 0.0713 27406144
0.0803 2.5798 15200 0.0732 27772832
0.0737 2.6137 15400 0.0725 28134848
0.0751 2.6477 15600 0.0732 28505504
0.0777 2.6816 15800 0.0724 28870784
0.0845 2.7156 16000 0.0729 29233952
0.0694 2.7495 16200 0.0726 29603328
0.0685 2.7835 16400 0.0754 29968768
0.0666 2.8174 16600 0.0736 30334496
0.0719 2.8514 16800 0.0696 30703616
0.0693 2.8853 17000 0.0712 31068224
0.0764 2.9193 17200 0.0784 31438688
0.0752 2.9532 17400 0.0733 31802368
0.0709 2.9871 17600 0.0755 32165728
0.0573 3.0210 17800 0.0698 32528896
0.0761 3.0550 18000 0.0776 32897376
0.0825 3.0889 18200 0.0691 33262688
0.053 3.1229 18400 0.0697 33623616
0.0856 3.1568 18600 0.0735 33989920
0.0767 3.1908 18800 0.0704 34354528
0.0783 3.2247 19000 0.0767 34724672
0.0722 3.2587 19200 0.0689 35092288
0.0644 3.2926 19400 0.0686 35458048
0.0764 3.3266 19600 0.0714 35826240
0.0621 3.3605 19800 0.0686 36191232
0.062 3.3944 20000 0.0686 36553088
0.0528 3.4284 20200 0.0704 36917376
0.0656 3.4623 20400 0.0702 37284512
0.038 3.4963 20600 0.0684 37649248
0.0714 3.5302 20800 0.0676 38012256
0.0632 3.5642 21000 0.0688 38378592
0.0773 3.5981 21200 0.0682 38743328
0.071 3.6321 21400 0.0680 39111200
0.076 3.6660 21600 0.0687 39473536
0.0682 3.7000 21800 0.0686 39836704
0.0551 3.7339 22000 0.0677 40202176
0.0617 3.7679 22200 0.0670 40568544
0.0818 3.8018 22400 0.0685 40932032
0.0606 3.8357 22600 0.0664 41296544
0.0682 3.8697 22800 0.0661 41661472
0.0932 3.9036 23000 0.0659 42031616
0.0522 3.9376 23200 0.0657 42395200
0.0447 3.9715 23400 0.0655 42760960
0.056 4.0054 23600 0.0658 43128480
0.062 4.0394 23800 0.0651 43492288
0.0643 4.0733 24000 0.0670 43859360
0.0541 4.1073 24200 0.0659 44222400
0.0589 4.1412 24400 0.0664 44585632
0.0513 4.1752 24600 0.0671 44956064
0.0459 4.2091 24800 0.0674 45323456
0.0527 4.2431 25000 0.0653 45688544
0.0542 4.2770 25200 0.0673 46054272
0.0651 4.3109 25400 0.0674 46420608
0.0623 4.3449 25600 0.0651 46787232
0.0554 4.3788 25800 0.0679 47151008
0.0484 4.4128 26000 0.0671 47516064
0.067 4.4467 26200 0.0645 47880960
0.0535 4.4807 26400 0.0648 48244480
0.0497 4.5146 26600 0.0648 48612352
0.0507 4.5486 26800 0.0645 48977376
0.0468 4.5825 27000 0.0643 49343328
0.0638 4.6165 27200 0.0647 49712064
0.0724 4.6504 27400 0.0638 50076832
0.0562 4.6843 27600 0.0640 50439616
0.0568 4.7183 27800 0.0640 50803552
0.0751 4.7522 28000 0.0647 51165472
0.0526 4.7862 28200 0.0637 51527808
0.0564 4.8201 28400 0.0630 51895200
0.0566 4.8541 28600 0.0634 52259648
0.0593 4.8880 28800 0.0636 52628032
0.0851 4.9220 29000 0.0639 52997024
0.0767 4.9559 29200 0.0651 53364352
0.0589 4.9899 29400 0.0632 53730624
0.0725 5.0238 29600 0.0637 54094208
0.0507 5.0577 29800 0.0638 54461312
0.0545 5.0917 30000 0.0634 54825216
0.0447 5.1256 30200 0.0637 55189504
0.0733 5.1595 30400 0.0639 55553280
0.0561 5.1935 30600 0.0638 55917792
0.0639 5.2274 30800 0.0639 56282176
0.052 5.2614 31000 0.0630 56643104
0.0485 5.2953 31200 0.0633 57005120
0.0483 5.3293 31400 0.0627 57373152
0.0446 5.3632 31600 0.0640 57735872
0.0434 5.3972 31800 0.0647 58101536
0.0646 5.4311 32000 0.0634 58472288
0.0539 5.4651 32200 0.0628 58840960
0.0729 5.4990 32400 0.0629 59204992
0.0655 5.5329 32600 0.0629 59570752
0.052 5.5669 32800 0.0643 59937728
0.0568 5.6008 33000 0.0629 60306240
0.0637 5.6348 33200 0.0626 60675168
0.062 5.6687 33400 0.0630 61042176
0.0754 5.7027 33600 0.0637 61409120
0.0602 5.7366 33800 0.0624 61775168
0.0561 5.7706 34000 0.0633 62143616
0.0846 5.8045 34200 0.0627 62507552
0.064 5.8385 34400 0.0626 62872928
0.0656 5.8724 34600 0.0625 63234816
0.0533 5.9064 34800 0.0626 63599616
0.0797 5.9403 35000 0.0631 63966688
0.0421 5.9742 35200 0.0625 64332704
0.0663 6.0081 35400 0.0634 64693664
0.0505 6.0421 35600 0.0626 65053728
0.0496 6.0760 35800 0.0631 65419648
0.0601 6.1100 36000 0.0632 65786464
0.044 6.1439 36200 0.0630 66152416
0.0668 6.1779 36400 0.0634 66522528
0.0563 6.2118 36600 0.0629 66888512
0.0512 6.2458 36800 0.0630 67255840
0.0322 6.2797 37000 0.0630 67620416
0.0566 6.3137 37200 0.0630 67983360
0.0427 6.3476 37400 0.0628 68348480
0.0388 6.3816 37600 0.0631 68715840
0.0509 6.4155 37800 0.0631 69081536
0.0508 6.4494 38000 0.0630 69446208
0.0404 6.4834 38200 0.0629 69813728
0.0434 6.5173 38400 0.0629 70182464
0.0399 6.5513 38600 0.0628 70547904
0.0591 6.5852 38800 0.0628 70911456
0.0563 6.6192 39000 0.0628 71277536
0.0455 6.6531 39200 0.0628 71642624
0.0602 6.6871 39400 0.0627 72006592
0.0402 6.7210 39600 0.0628 72370176
0.0515 6.7550 39800 0.0628 72737088
0.0615 6.7889 40000 0.0628 73102784

Framework versions

  • PEFT 0.15.1
  • Transformers 4.51.3
  • Pytorch 2.6.0+cu124
  • Datasets 3.5.0
  • Tokenizers 0.21.1
Downloads last month
3
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for rbelanec/train_qnli_1744902605

Adapter
(95)
this model