train_qqp_1744902597

This model is a fine-tuned version of meta-llama/Meta-Llama-3-8B-Instruct on the qqp dataset. It achieves the following results on the evaluation set:

  • Loss: 0.2268
  • Num Input Tokens Seen: 49022016

Model description

More information needed

Intended uses & limitations

More information needed

Training and evaluation data

More information needed

Training procedure

Training hyperparameters

The following hyperparameters were used during training:

  • learning_rate: 0.3
  • train_batch_size: 4
  • eval_batch_size: 4
  • seed: 123
  • gradient_accumulation_steps: 4
  • total_train_batch_size: 16
  • optimizer: Use adamw_torch with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
  • lr_scheduler_type: cosine
  • training_steps: 40000

Training results

Training Loss Epoch Step Validation Loss Input Tokens Seen
0.3195 0.0098 200 0.3106 245536
0.2888 0.0195 400 0.3139 489696
0.256 0.0293 600 0.2695 737824
0.2961 0.0391 800 0.2602 981856
0.2767 0.0489 1000 0.2627 1225952
0.3652 0.0586 1200 0.3079 1469920
0.285 0.0684 1400 0.2651 1715360
0.2802 0.0782 1600 0.2552 1961952
0.2617 0.0879 1800 0.2957 2205952
0.3155 0.0977 2000 0.2709 2453792
0.3359 0.1075 2200 0.2968 2698976
0.2723 0.1173 2400 0.2812 2944000
0.3139 0.1270 2600 0.2977 3190496
0.228 0.1368 2800 0.2626 3439104
0.2619 0.1466 3000 0.2564 3684640
0.3061 0.1564 3200 0.2572 3931744
0.2571 0.1661 3400 0.2869 4179680
0.2624 0.1759 3600 0.2561 4424000
0.2622 0.1857 3800 0.2517 4667488
0.2741 0.1954 4000 0.2555 4910752
0.2699 0.2052 4200 0.2509 5157152
0.2502 0.2150 4400 0.2667 5403360
0.2635 0.2248 4600 0.2509 5647360
0.2642 0.2345 4800 0.2685 5889632
0.2264 0.2443 5000 0.2568 6135424
0.2425 0.2541 5200 0.2495 6380320
0.2447 0.2638 5400 0.2495 6627360
0.2926 0.2736 5600 0.2547 6873760
0.3135 0.2834 5800 0.2659 7121504
0.2274 0.2932 6000 0.2668 7366208
0.2814 0.3029 6200 0.2612 7615264
0.2345 0.3127 6400 0.2557 7860128
0.2643 0.3225 6600 0.2545 8103360
0.2393 0.3323 6800 0.2910 8350976
0.2462 0.3420 7000 0.2714 8597664
0.2514 0.3518 7200 0.2714 8842400
0.2713 0.3616 7400 0.2500 9087456
0.358 0.3713 7600 0.2564 9331520
0.2397 0.3811 7800 0.2481 9576704
0.2357 0.3909 8000 0.2521 9819200
0.2608 0.4007 8200 0.2518 10064928
0.2234 0.4104 8400 0.2646 10308768
0.272 0.4202 8600 0.2483 10551296
0.2518 0.4300 8800 0.2720 10798144
0.242 0.4397 9000 0.2520 11047776
0.2411 0.4495 9200 0.2625 11292384
0.2778 0.4593 9400 0.2483 11534944
0.2841 0.4691 9600 0.3225 11778880
0.2869 0.4788 9800 0.2492 12025472
0.2562 0.4886 10000 0.2491 12267968
0.245 0.4984 10200 0.2480 12511488
0.2534 0.5081 10400 0.2492 12755904
0.2657 0.5179 10600 0.2542 13002048
0.2525 0.5277 10800 0.2583 13246272
0.2363 0.5375 11000 0.2486 13491456
0.2056 0.5472 11200 0.2683 13735936
0.2512 0.5570 11400 0.2502 13982176
0.2496 0.5668 11600 0.2485 14227136
0.2499 0.5766 11800 0.2652 14472704
0.221 0.5863 12000 0.2578 14717856
0.3302 0.5961 12200 0.2479 14963520
0.2619 0.6059 12400 0.2624 15208224
0.2512 0.6156 12600 0.2487 15453408
0.2312 0.6254 12800 0.2576 15698016
0.2569 0.6352 13000 0.2521 15942720
0.252 0.6450 13200 0.2469 16186528
0.2567 0.6547 13400 0.2460 16433472
0.2417 0.6645 13600 0.2502 16679360
0.2363 0.6743 13800 0.2536 16924896
0.2023 0.6840 14000 0.2571 17171072
0.2533 0.6938 14200 0.2453 17416704
0.2489 0.7036 14400 0.2610 17663488
0.2735 0.7134 14600 0.2442 17910272
0.2151 0.7231 14800 0.2596 18151712
0.2568 0.7329 15000 0.2432 18395744
0.2308 0.7427 15200 0.2456 18642368
0.2532 0.7524 15400 0.2430 18889312
0.2515 0.7622 15600 0.2442 19133312
0.2491 0.7720 15800 0.2443 19376992
0.2613 0.7818 16000 0.2443 19620672
0.2467 0.7915 16200 0.2485 19866240
0.2548 0.8013 16400 0.2481 20112160
0.2564 0.8111 16600 0.2450 20358464
0.2713 0.8209 16800 0.2460 20602112
0.2777 0.8306 17000 0.2397 20845696
0.2217 0.8404 17200 0.2408 21089792
0.251 0.8502 17400 0.2454 21334176
0.1997 0.8599 17600 0.2507 21577600
0.2264 0.8697 17800 0.2566 21822848
0.2631 0.8795 18000 0.2381 22067296
0.2491 0.8893 18200 0.2405 22313824
0.2151 0.8990 18400 0.2373 22558912
0.2593 0.9088 18600 0.2564 22803456
0.2586 0.9186 18800 0.2396 23047552
0.2396 0.9283 19000 0.2389 23293856
0.2385 0.9381 19200 0.2390 23539488
0.2906 0.9479 19400 0.2493 23786464
0.2623 0.9577 19600 0.2394 24032064
0.2404 0.9674 19800 0.2371 24278464
0.2486 0.9772 20000 0.2393 24521632
0.2454 0.9870 20200 0.2435 24765600
0.2408 0.9968 20400 0.2354 25007520
0.2772 1.0065 20600 0.2488 25253920
0.28 1.0163 20800 0.2345 25498432
0.2189 1.0261 21000 0.2350 25745120
0.2038 1.0359 21200 0.2462 25989952
0.2399 1.0456 21400 0.2449 26234080
0.2399 1.0554 21600 0.2423 26482784
0.2106 1.0652 21800 0.2333 26728608
0.194 1.0750 22000 0.2438 26977792
0.2419 1.0847 22200 0.2328 27218080
0.2607 1.0945 22400 0.2352 27463456
0.2204 1.1043 22600 0.2364 27708832
0.2387 1.1140 22800 0.2334 27956000
0.2512 1.1238 23000 0.2327 28204704
0.2076 1.1336 23200 0.2332 28452992
0.2111 1.1434 23400 0.2331 28696640
0.2251 1.1531 23600 0.2315 28937792
0.2526 1.1629 23800 0.2321 29186016
0.2118 1.1727 24000 0.2375 29431872
0.253 1.1824 24200 0.2321 29673216
0.2585 1.1922 24400 0.2326 29916864
0.2545 1.2020 24600 0.2308 30163136
0.2238 1.2118 24800 0.2309 30405920
0.2053 1.2215 25000 0.2311 30652960
0.2021 1.2313 25200 0.2308 30897184
0.2241 1.2411 25400 0.2310 31141248
0.2576 1.2508 25600 0.2547 31385376
0.1997 1.2606 25800 0.2426 31630880
0.2535 1.2704 26000 0.2305 31876320
0.2404 1.2802 26200 0.2330 32120640
0.2961 1.2899 26400 0.2408 32365056
0.2544 1.2997 26600 0.2298 32611072
0.2309 1.3095 26800 0.2332 32855648
0.2574 1.3193 27000 0.2293 33097440
0.2147 1.3290 27200 0.2324 33342208
0.2189 1.3388 27400 0.2373 33587968
0.2572 1.3486 27600 0.2337 33831872
0.2355 1.3583 27800 0.2298 34076864
0.19 1.3681 28000 0.2303 34319616
0.2344 1.3779 28200 0.2296 34563968
0.2514 1.3877 28400 0.2300 34808704
0.2254 1.3974 28600 0.2340 35054656
0.2162 1.4072 28800 0.2293 35297248
0.2615 1.4170 29000 0.2393 35543232
0.2474 1.4267 29200 0.2354 35787200
0.2404 1.4365 29400 0.2288 36033344
0.2282 1.4463 29600 0.2294 36277664
0.2092 1.4561 29800 0.2296 36522912
0.2429 1.4658 30000 0.2293 36766912
0.2493 1.4756 30200 0.2291 37010880
0.1932 1.4854 30400 0.2317 37255808
0.2201 1.4952 30600 0.2287 37500256
0.2086 1.5049 30800 0.2282 37744128
0.2215 1.5147 31000 0.2332 37989600
0.2221 1.5245 31200 0.2286 38233760
0.202 1.5342 31400 0.2285 38480384
0.2619 1.5440 31600 0.2291 38728448
0.2256 1.5538 31800 0.2300 38975296
0.2269 1.5636 32000 0.2287 39221728
0.2851 1.5733 32200 0.2288 39465280
0.2444 1.5831 32400 0.2297 39712992
0.2923 1.5929 32600 0.2279 39960032
0.221 1.6026 32800 0.2297 40206624
0.225 1.6124 33000 0.2322 40449856
0.2395 1.6222 33200 0.2280 40693312
0.2141 1.6320 33400 0.2278 40936672
0.2278 1.6417 33600 0.2273 41180480
0.2443 1.6515 33800 0.2271 41422272
0.2371 1.6613 34000 0.2290 41666752
0.198 1.6710 34200 0.2277 41912096
0.2219 1.6808 34400 0.2272 42157856
0.2452 1.6906 34600 0.2273 42402496
0.2011 1.7004 34800 0.2276 42645088
0.2132 1.7101 35000 0.2270 42889536
0.2117 1.7199 35200 0.2285 43134208
0.2199 1.7297 35400 0.2273 43377824
0.1868 1.7395 35600 0.2285 43623232
0.2633 1.7492 35800 0.2272 43872416
0.2165 1.7590 36000 0.2280 44117632
0.2574 1.7688 36200 0.2271 44363488
0.2696 1.7785 36400 0.2268 44608000
0.2385 1.7883 36600 0.2271 44852672
0.2374 1.7981 36800 0.2269 45098144
0.216 1.8079 37000 0.2276 45342912
0.1787 1.8176 37200 0.2269 45590720
0.1936 1.8274 37400 0.2271 45835200
0.2439 1.8372 37600 0.2272 46079328
0.2397 1.8469 37800 0.2272 46322496
0.2493 1.8567 38000 0.2268 46565536
0.2368 1.8665 38200 0.2268 46809376
0.2552 1.8763 38400 0.2269 47052352
0.2151 1.8860 38600 0.2269 47298816
0.188 1.8958 38800 0.2270 47547712
0.2345 1.9056 39000 0.2272 47794048
0.2166 1.9153 39200 0.2270 48039872
0.2361 1.9251 39400 0.2271 48286368
0.2186 1.9349 39600 0.2271 48530880
0.2108 1.9447 39800 0.2270 48774656
0.2436 1.9544 40000 0.2270 49022016

Framework versions

  • PEFT 0.15.1
  • Transformers 4.51.3
  • Pytorch 2.6.0+cu124
  • Datasets 3.5.0
  • Tokenizers 0.21.1
Downloads last month
3
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for rbelanec/train_qqp_1744902597

Adapter
(973)
this model