train_wsc_1745950296

This model is a fine-tuned version of google/gemma-3-1b-it on the wsc dataset. It achieves the following results on the evaluation set:

  • Loss: 0.2355
  • Num Input Tokens Seen: 14005200

Model description

More information needed

Intended uses & limitations

More information needed

Training and evaluation data

More information needed

Training procedure

Training hyperparameters

The following hyperparameters were used during training:

  • learning_rate: 5e-05
  • train_batch_size: 2
  • eval_batch_size: 2
  • seed: 123
  • gradient_accumulation_steps: 2
  • total_train_batch_size: 4
  • optimizer: Use adamw_torch with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
  • lr_scheduler_type: cosine
  • training_steps: 40000

Training results

Training Loss Epoch Step Validation Loss Input Tokens Seen
0.5932 1.6024 200 0.4073 70208
0.3595 3.2008 400 0.2959 140304
0.221 4.8032 600 0.2701 210336
0.2749 6.4016 800 0.2635 280224
0.219 8.0 1000 0.2467 350448
0.2372 9.6024 1200 0.2552 420560
0.2497 11.2008 1400 0.2446 490880
0.2277 12.8032 1600 0.2466 560560
0.2419 14.4016 1800 0.2385 630816
0.2729 16.0 2000 0.2396 699936
0.2504 17.6024 2200 0.2511 769520
0.2598 19.2008 2400 0.2438 839648
0.2481 20.8032 2600 0.2433 910080
0.2471 22.4016 2800 0.2355 979504
0.2492 24.0 3000 0.2413 1049392
0.2142 25.6024 3200 0.2454 1119904
0.2143 27.2008 3400 0.2527 1189264
0.2336 28.8032 3600 0.2460 1259520
0.2308 30.4016 3800 0.2459 1329408
0.2159 32.0 4000 0.2431 1399696
0.2191 33.6024 4200 0.2479 1470240
0.2236 35.2008 4400 0.2477 1539536
0.2137 36.8032 4600 0.2489 1610032
0.2108 38.4016 4800 0.2486 1680240
0.2262 40.0 5000 0.2462 1749472
0.2135 41.6024 5200 0.2494 1819376
0.2547 43.2008 5400 0.2545 1889616
0.2397 44.8032 5600 0.2517 1959536
0.2474 46.4016 5800 0.2489 2028864
0.2198 48.0 6000 0.2499 2099424
0.2273 49.6024 6200 0.2492 2169376
0.222 51.2008 6400 0.2596 2239408
0.2052 52.8032 6600 0.2524 2309472
0.2202 54.4016 6800 0.2570 2380032
0.2291 56.0 7000 0.2544 2449376
0.2432 57.6024 7200 0.2533 2519776
0.2275 59.2008 7400 0.2684 2589392
0.2066 60.8032 7600 0.2622 2659792
0.2334 62.4016 7800 0.2637 2729184
0.2207 64.0 8000 0.2639 2799504
0.2081 65.6024 8200 0.2605 2869520
0.2352 67.2008 8400 0.2625 2940080
0.2277 68.8032 8600 0.2645 3010256
0.2181 70.4016 8800 0.2607 3080304
0.2193 72.0 9000 0.2614 3150464
0.2263 73.6024 9200 0.2640 3220512
0.2365 75.2008 9400 0.2711 3290320
0.2301 76.8032 9600 0.2720 3360352
0.2136 78.4016 9800 0.2780 3430416
0.2414 80.0 10000 0.2773 3500544
0.2108 81.6024 10200 0.2759 3570432
0.2501 83.2008 10400 0.2852 3640832
0.1856 84.8032 10600 0.2843 3710480
0.2461 86.4016 10800 0.2923 3780368
0.2514 88.0 11000 0.2892 3850720
0.233 89.6024 11200 0.2869 3920848
0.2219 91.2008 11400 0.2930 3990784
0.2282 92.8032 11600 0.2939 4060432
0.2327 94.4016 11800 0.2963 4130528
0.2053 96.0 12000 0.3074 4200848
0.2024 97.6024 12200 0.3054 4270928
0.2145 99.2008 12400 0.3057 4339920
0.2199 100.8032 12600 0.3065 4410624
0.1864 102.4016 12800 0.3128 4479904
0.2428 104.0 13000 0.3085 4549824
0.2364 105.6024 13200 0.3189 4620128
0.2179 107.2008 13400 0.3157 4690352
0.2091 108.8032 13600 0.3346 4760256
0.1908 110.4016 13800 0.3324 4830144
0.2238 112.0 14000 0.3265 4900080
0.2362 113.6024 14200 0.3383 4969936
0.1788 115.2008 14400 0.3447 5040096
0.2398 116.8032 14600 0.3425 5110288
0.2528 118.4016 14800 0.3449 5180208
0.2339 120.0 15000 0.3511 5250464
0.2148 121.6024 15200 0.3561 5320528
0.2319 123.2008 15400 0.3632 5390624
0.2345 124.8032 15600 0.3623 5460832
0.217 126.4016 15800 0.3796 5530720
0.1915 128.0 16000 0.3945 5600992
0.2116 129.6024 16200 0.3822 5672032
0.2116 131.2008 16400 0.3909 5740976
0.2181 132.8032 16600 0.3814 5811248
0.2108 134.4016 16800 0.4049 5881152
0.1722 136.0 17000 0.3914 5951136
0.2649 137.6024 17200 0.4134 6021136
0.1815 139.2008 17400 0.4207 6091696
0.2212 140.8032 17600 0.4139 6161472
0.2797 142.4016 17800 0.4191 6231760
0.1788 144.0 18000 0.4182 6301232
0.1695 145.6024 18200 0.4215 6371776
0.176 147.2008 18400 0.4220 6442048
0.193 148.8032 18600 0.4278 6511680
0.1788 150.4016 18800 0.4465 6581136
0.1791 152.0 19000 0.4280 6651296
0.1701 153.6024 19200 0.4408 6721584
0.218 155.2008 19400 0.4615 6791744
0.1885 156.8032 19600 0.4490 6862112
0.2073 158.4016 19800 0.4526 6931856
0.2083 160.0 20000 0.4382 7001952
0.2122 161.6024 20200 0.4656 7071568
0.2229 163.2008 20400 0.4499 7141584
0.1639 164.8032 20600 0.4636 7212096
0.1531 166.4016 20800 0.4812 7282736
0.1857 168.0 21000 0.4808 7352288
0.2166 169.6024 21200 0.4873 7422624
0.217 171.2008 21400 0.4804 7492496
0.2053 172.8032 21600 0.4837 7562288
0.158 174.4016 21800 0.4817 7632432
0.2275 176.0 22000 0.4776 7702096
0.1558 177.6024 22200 0.4795 7772000
0.2557 179.2008 22400 0.5149 7842112
0.1607 180.8032 22600 0.5000 7912496
0.1257 182.4016 22800 0.4994 7982768
0.1728 184.0 23000 0.4957 8052448
0.1638 185.6024 23200 0.5003 8122832
0.1874 187.2008 23400 0.5117 8193088
0.1926 188.8032 23600 0.5122 8263104
0.2062 190.4016 23800 0.5285 8333312
0.22 192.0 24000 0.5147 8402848
0.2026 193.6024 24200 0.5052 8472688
0.2265 195.2008 24400 0.5265 8542528
0.1609 196.8032 24600 0.5340 8612928
0.1703 198.4016 24800 0.5321 8682896
0.1412 200.0 25000 0.5307 8752864
0.1449 201.6024 25200 0.5193 8823744
0.2189 203.2008 25400 0.5338 8893360
0.1865 204.8032 25600 0.5253 8963536
0.2108 206.4016 25800 0.5421 9033264
0.2047 208.0 26000 0.5364 9102880
0.1245 209.6024 26200 0.5348 9173088
0.1963 211.2008 26400 0.5464 9242752
0.1986 212.8032 26600 0.5527 9313008
0.1849 214.4016 26800 0.5563 9382592
0.1951 216.0 27000 0.5439 9452912
0.1727 217.6024 27200 0.5450 9522896
0.175 219.2008 27400 0.5521 9592864
0.1625 220.8032 27600 0.5523 9663568
0.1043 222.4016 27800 0.5580 9733504
0.2085 224.0 28000 0.5700 9803232
0.1547 225.6024 28200 0.5690 9872976
0.1701 227.2008 28400 0.5524 9943472
0.1637 228.8032 28600 0.5571 10013472
0.1409 230.4016 28800 0.5627 10082944
0.1686 232.0 29000 0.5629 10153120
0.1232 233.6024 29200 0.5772 10223856
0.1424 235.2008 29400 0.5794 10293888
0.1501 236.8032 29600 0.5660 10363824
0.2116 238.4016 29800 0.5782 10433056
0.1504 240.0 30000 0.5741 10503136
0.1391 241.6024 30200 0.5759 10573568
0.1679 243.2008 30400 0.5777 10642912
0.1838 244.8032 30600 0.5723 10713264
0.0982 246.4016 30800 0.5854 10783152
0.1083 248.0 31000 0.5753 10853376
0.1923 249.6024 31200 0.5822 10923696
0.2031 251.2008 31400 0.5762 10994016
0.112 252.8032 31600 0.5872 11063664
0.1834 254.4016 31800 0.5846 11133840
0.1673 256.0 32000 0.5778 11203504
0.1845 257.6024 32200 0.5711 11273840
0.1988 259.2008 32400 0.5864 11342832
0.1785 260.8032 32600 0.5750 11412832
0.2006 262.4016 32800 0.5792 11482880
0.1711 264.0 33000 0.6063 11552512
0.1912 265.6024 33200 0.5967 11622560
0.1387 267.2008 33400 0.5726 11692336
0.1579 268.8032 33600 0.5824 11763296
0.1602 270.4016 33800 0.5813 11833168
0.1151 272.0 34000 0.5845 11902608
0.1165 273.6024 34200 0.5823 11973440
0.1283 275.2008 34400 0.5973 12042992
0.1169 276.8032 34600 0.5824 12113808
0.1351 278.4016 34800 0.5956 12183456
0.1505 280.0 35000 0.5935 12253312
0.1692 281.6024 35200 0.5781 12323712
0.1639 283.2008 35400 0.5710 12393344
0.1746 284.8032 35600 0.5846 12463296
0.1759 286.4016 35800 0.5872 12533712
0.1401 288.0 36000 0.5930 12603312
0.1634 289.6024 36200 0.6116 12672944
0.2095 291.2008 36400 0.6031 12743584
0.1535 292.8032 36600 0.5991 12814000
0.17 294.4016 36800 0.6007 12883584
0.1576 296.0 37000 0.5849 12954144
0.1592 297.6024 37200 0.5987 13024112
0.2064 299.2008 37400 0.6090 13094448
0.201 300.8032 37600 0.6053 13164640
0.1417 302.4016 37800 0.5957 13234048
0.1734 304.0 38000 0.5905 13304512
0.2204 305.6024 38200 0.6068 13374272
0.1773 307.2008 38400 0.6008 13444512
0.1493 308.8032 38600 0.5896 13514848
0.1731 310.4016 38800 0.6084 13584800
0.2378 312.0 39000 0.5984 13654928
0.1702 313.6024 39200 0.5848 13724752
0.2229 315.2008 39400 0.5860 13794224
0.1697 316.8032 39600 0.5860 13865104
0.1667 318.4016 39800 0.5860 13935776
0.198 320.0 40000 0.5860 14005200

Framework versions

  • PEFT 0.15.2.dev0
  • Transformers 4.51.3
  • Pytorch 2.6.0+cu124
  • Datasets 3.5.0
  • Tokenizers 0.21.1
Downloads last month
3
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for rbelanec/train_wsc_1745950296

Adapter
(95)
this model