train_qqp_1744902601

This model is a fine-tuned version of mistralai/Mistral-7B-Instruct-v0.3 on the qqp dataset. It achieves the following results on the evaluation set:

  • Loss: 0.0605
  • Num Input Tokens Seen: 50647232

Model description

More information needed

Intended uses & limitations

More information needed

Training and evaluation data

More information needed

Training procedure

Training hyperparameters

The following hyperparameters were used during training:

  • learning_rate: 0.3
  • train_batch_size: 4
  • eval_batch_size: 4
  • seed: 123
  • gradient_accumulation_steps: 4
  • total_train_batch_size: 16
  • optimizer: Use adamw_torch with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
  • lr_scheduler_type: cosine
  • training_steps: 40000

Training results

Training Loss Epoch Step Validation Loss Input Tokens Seen
0.2032 0.0098 200 0.1968 254944
0.1317 0.0195 400 0.1729 507488
0.1286 0.0293 600 0.1560 764128
0.1539 0.0391 800 0.1476 1016160
0.1205 0.0489 1000 0.1308 1268384
0.1145 0.0586 1200 0.1470 1520384
0.1343 0.0684 1400 0.1249 1773408
0.0713 0.0782 1600 0.1053 2028480
0.1344 0.0879 1800 0.1334 2280960
0.0793 0.0977 2000 0.0881 2536512
0.1019 0.1075 2200 0.1121 2790752
0.0926 0.1173 2400 0.1082 3043136
0.065 0.1270 2600 0.0866 3298464
0.0682 0.1368 2800 0.0869 3556256
0.1001 0.1466 3000 0.0907 3809536
0.112 0.1564 3200 0.0837 4064256
0.1053 0.1661 3400 0.0933 4319712
0.0469 0.1759 3600 0.0829 4571104
0.1035 0.1857 3800 0.0830 4822176
0.0908 0.1954 4000 0.0818 5073216
0.0807 0.2052 4200 0.0783 5327680
0.0782 0.2150 4400 0.0818 5582272
0.0663 0.2248 4600 0.0775 5834624
0.0758 0.2345 4800 0.0776 6085600
0.0498 0.2443 5000 0.0797 6339520
0.1046 0.2541 5200 0.0787 6592160
0.0593 0.2638 5400 0.0761 6847232
0.08 0.2736 5600 0.0750 7101984
0.0944 0.2834 5800 0.0809 7357536
0.056 0.2932 6000 0.0878 7610208
0.0573 0.3029 6200 0.0807 7868832
0.0703 0.3127 6400 0.0834 8121856
0.1151 0.3225 6600 0.0767 8372096
0.049 0.3323 6800 0.0768 8628064
0.0738 0.3420 7000 0.0814 8882496
0.0668 0.3518 7200 0.0751 9135616
0.0849 0.3616 7400 0.0809 9389184
0.0857 0.3713 7600 0.0813 9641344
0.0794 0.3811 7800 0.0745 9894624
0.0653 0.3909 8000 0.0723 10144480
0.0635 0.4007 8200 0.0727 10398432
0.0769 0.4104 8400 0.0753 10650624
0.0831 0.4202 8600 0.0716 10901824
0.0868 0.4300 8800 0.0719 11155840
0.0729 0.4397 9000 0.0710 11413440
0.0865 0.4495 9200 0.0776 11666624
0.0588 0.4593 9400 0.0708 11917248
0.0779 0.4691 9600 0.0724 12168736
0.0752 0.4788 9800 0.0721 12423520
0.0444 0.4886 10000 0.0742 12673888
0.0639 0.4984 10200 0.0726 12924960
0.0512 0.5081 10400 0.0714 13176640
0.0672 0.5179 10600 0.0707 13430912
0.0674 0.5277 10800 0.0729 13684288
0.0522 0.5375 11000 0.0696 13937504
0.0684 0.5472 11200 0.0726 14190304
0.0817 0.5570 11400 0.0731 14445312
0.0492 0.5668 11600 0.0702 14697344
0.0248 0.5766 11800 0.0712 14951296
0.0542 0.5863 12000 0.0715 15205152
0.0666 0.5961 12200 0.0699 15457696
0.0825 0.6059 12400 0.0698 15709984
0.0511 0.6156 12600 0.0734 15964384
0.0501 0.6254 12800 0.0703 16216768
0.0689 0.6352 13000 0.0705 16469792
0.0738 0.6450 13200 0.0707 16721536
0.0785 0.6547 13400 0.0701 16976192
0.0507 0.6645 13600 0.0705 17230496
0.049 0.6743 13800 0.0698 17485120
0.0616 0.6840 14000 0.0768 17739872
0.0931 0.6938 14200 0.0676 17994144
0.0684 0.7036 14400 0.0682 18248736
0.05 0.7134 14600 0.0678 18504672
0.0822 0.7231 14800 0.0718 18754208
0.0777 0.7329 15000 0.0683 19005696
0.0631 0.7427 15200 0.0680 19260320
0.07 0.7524 15400 0.0679 19514944
0.0913 0.7622 15600 0.0675 19766912
0.0396 0.7720 15800 0.0712 20018240
0.0567 0.7818 16000 0.0663 20269632
0.0626 0.7915 16200 0.0660 20523232
0.0941 0.8013 16400 0.0780 20777376
0.0905 0.8111 16600 0.0669 21031776
0.0633 0.8209 16800 0.0693 21283328
0.0453 0.8306 17000 0.0680 21535072
0.0596 0.8404 17200 0.0673 21786304
0.0473 0.8502 17400 0.0664 22039232
0.0471 0.8599 17600 0.0661 22290976
0.0735 0.8697 17800 0.0725 22543904
0.0626 0.8795 18000 0.0670 22796480
0.0883 0.8893 18200 0.0658 23050080
0.0479 0.8990 18400 0.0678 23304192
0.047 0.9088 18600 0.0675 23557152
0.0844 0.9186 18800 0.0654 23808960
0.0783 0.9283 19000 0.0675 24063776
0.0543 0.9381 19200 0.0648 24317280
0.0599 0.9479 19400 0.0648 24573184
0.1142 0.9577 19600 0.0649 24826560
0.0612 0.9674 19800 0.0654 25081792
0.0332 0.9772 20000 0.0655 25332672
0.0897 0.9870 20200 0.0651 25584672
0.0617 0.9968 20400 0.0651 25834336
0.064 1.0065 20600 0.0668 26090080
0.0855 1.0163 20800 0.0662 26343008
0.0531 1.0261 21000 0.0659 26598784
0.032 1.0359 21200 0.0669 26851648
0.0714 1.0456 21400 0.0647 27103392
0.0601 1.0554 21600 0.0650 27361312
0.0791 1.0652 21800 0.0646 27616640
0.0295 1.0750 22000 0.0643 27874656
0.0573 1.0847 22200 0.0640 28122656
0.0603 1.0945 22400 0.0651 28376640
0.0644 1.1043 22600 0.0644 28629632
0.0821 1.1140 22800 0.0643 28884480
0.0826 1.1238 23000 0.0644 29140832
0.0514 1.1336 23200 0.0641 29396960
0.0517 1.1434 23400 0.0638 29648032
0.0477 1.1531 23600 0.0664 29897312
0.0509 1.1629 23800 0.0639 30153920
0.0795 1.1727 24000 0.0641 30407616
0.0646 1.1824 24200 0.0636 30656768
0.0816 1.1922 24400 0.0665 30908480
0.111 1.2020 24600 0.0634 31162176
0.0691 1.2118 24800 0.0638 31412736
0.0561 1.2215 25000 0.0636 31668000
0.0488 1.2313 25200 0.0632 31919712
0.0365 1.2411 25400 0.0632 32172256
0.0536 1.2508 25600 0.0647 32424512
0.062 1.2606 25800 0.0649 32678176
0.0715 1.2704 26000 0.0626 32931456
0.056 1.2802 26200 0.0628 33184096
0.0696 1.2899 26400 0.0636 33436864
0.0787 1.2997 26600 0.0648 33691232
0.0274 1.3095 26800 0.0627 33944640
0.0781 1.3193 27000 0.0645 34193536
0.0356 1.3290 27200 0.0650 34445952
0.044 1.3388 27400 0.0654 34698784
0.0548 1.3486 27600 0.0625 34950976
0.059 1.3583 27800 0.0643 35204128
0.0463 1.3681 28000 0.0633 35455296
0.1003 1.3779 28200 0.0621 35708160
0.0615 1.3877 28400 0.0627 35960608
0.0507 1.3974 28600 0.0621 36214944
0.0612 1.4072 28800 0.0625 36466336
0.0536 1.4170 29000 0.0630 36720160
0.0452 1.4267 29200 0.0630 36971744
0.0515 1.4365 29400 0.0625 37226208
0.0451 1.4463 29600 0.0626 37479008
0.0565 1.4561 29800 0.0619 37732672
0.0536 1.4658 30000 0.0619 37984768
0.0665 1.4756 30200 0.0634 38237120
0.0469 1.4854 30400 0.0627 38490112
0.0572 1.4952 30600 0.0620 38742560
0.0473 1.5049 30800 0.0616 38994368
0.086 1.5147 31000 0.0620 39248416
0.0554 1.5245 31200 0.0614 39501152
0.0353 1.5342 31400 0.0616 39756224
0.0717 1.5440 31600 0.0612 40012896
0.0425 1.5538 31800 0.0617 40268416
0.0314 1.5636 32000 0.0613 40522848
0.0831 1.5733 32200 0.0609 40775072
0.0628 1.5831 32400 0.0614 41031296
0.0856 1.5929 32600 0.0619 41287200
0.0431 1.6026 32800 0.0619 41541664
0.087 1.6124 33000 0.0610 41793376
0.0538 1.6222 33200 0.0617 42044352
0.058 1.6320 33400 0.0612 42295520
0.0525 1.6417 33600 0.0610 42547680
0.0646 1.6515 33800 0.0608 42796992
0.0453 1.6613 34000 0.0612 43049888
0.0443 1.6710 34200 0.0610 43303328
0.0574 1.6808 34400 0.0606 43556672
0.052 1.6906 34600 0.0607 43809088
0.0307 1.7004 34800 0.0608 44059712
0.0393 1.7101 35000 0.0607 44313216
0.0427 1.7199 35200 0.0611 44566336
0.0681 1.7297 35400 0.0607 44817984
0.0478 1.7395 35600 0.0606 45072416
0.0743 1.7492 35800 0.0608 45330336
0.053 1.7590 36000 0.0607 45584800
0.0727 1.7688 36200 0.0606 45838848
0.0583 1.7785 36400 0.0607 46091136
0.0565 1.7883 36600 0.0605 46343744
0.0677 1.7981 36800 0.0606 46597920
0.0486 1.8079 37000 0.0610 46850336
0.0443 1.8176 37200 0.0607 47104992
0.0565 1.8274 37400 0.0605 47356992
0.0445 1.8372 37600 0.0606 47609472
0.0586 1.8469 37800 0.0606 47859360
0.0785 1.8567 38000 0.0605 48110912
0.0686 1.8665 38200 0.0605 48362560
0.0538 1.8763 38400 0.0605 48613184
0.0769 1.8860 38600 0.0605 48868096
0.0386 1.8958 38800 0.0605 49125344
0.0539 1.9056 39000 0.0605 49380224
0.0416 1.9153 39200 0.0605 49633664
0.057 1.9251 39400 0.0606 49887680
0.0431 1.9349 39600 0.0605 50139296
0.0443 1.9447 39800 0.0606 50391680
0.0409 1.9544 40000 0.0606 50647232

Framework versions

  • PEFT 0.15.1
  • Transformers 4.51.3
  • Pytorch 2.6.0+cu124
  • Datasets 3.5.0
  • Tokenizers 0.21.1
Downloads last month
2
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for rbelanec/train_qqp_1744902601

Adapter
(431)
this model