tcapelle commited on
Commit
f960895
·
verified ·
1 Parent(s): 80c770f

Uploaded from W&B

Browse files
model-00001-of-00006.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:7f3e36a9c26faf5759a8de8aafb1103f3c3014c7b985efeb40fa04cec9f6835e
3
  size 4984780784
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:e8f8796540da0ab8fe8314e7244ca2896d704f6e0b6b2ee83100ee18713ce16d
3
  size 4984780784
model-00002-of-00006.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:52da9a592813c982038192c0d1ca6aae38462f91e38977dfe2f3fbc44d531234
3
  size 4980892048
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:883b8cd8920bb5272ad4371225b5f0b780999bd0004b79af4c6d4a54d5c489f6
3
  size 4980892048
model-00003-of-00006.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:0846d5f654196b3a47e9dc58daf096b8f9ab737b3842e5b7665e6686248a5a79
3
  size 4928485104
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:80ffb3e1525cf5c24986910381ac99a4d9cb85af1cff775ffc0e9096470e375b
3
  size 4928485104
model-00004-of-00006.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:167d586726268d26036c66c9e42443ab56cd914c18de2ca86155ebee18242a78
3
  size 4980892112
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:a3a1e7a51aa9e3bcc672244bd97e05648170b3e0f692ef5beab1179fa4689d9f
3
  size 4980892112
model-00005-of-00006.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:d7a98bd9e124e52ecf3348f59fb80014c8351049a9d8cf140383def1a5a365f5
3
  size 4928485104
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:0bc50985995feedb7b126801a4b5c6e7dabaeb02766012b18aa5aa698cbd7d51
3
  size 4928485104
model-00006-of-00006.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:a0d36d71dfc220db2b78f7a4181c9545043a1e2f16be72c51ee050a6a97703b5
3
  size 4733130504
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:a7dce3ec5ad86726303028f879f98d3bd5588dda85f21fe2a6a462c74edac5de
3
  size 4733130504
trainer_state.json CHANGED
@@ -2,592 +2,347 @@
2
  "best_global_step": null,
3
  "best_metric": null,
4
  "best_model_checkpoint": null,
5
- "epoch": 4.709677419354839,
6
- "eval_steps": 15,
7
- "global_step": 75,
8
  "is_hyper_param_search": false,
9
  "is_local_process_zero": true,
10
  "is_world_process_zero": true,
11
  "log_history": [
12
  {
13
- "epoch": 0.06451612903225806,
14
- "grad_norm": 3.71299409866333,
15
  "learning_rate": 0.0,
16
- "loss": 0.5246,
17
  "step": 1
18
  },
19
  {
20
- "epoch": 0.06451612903225806,
21
- "eval_loss": 0.5421915650367737,
22
- "eval_runtime": 48.3786,
23
- "eval_samples_per_second": 9.281,
24
- "eval_steps_per_second": 0.165,
25
  "step": 1
26
  },
27
  {
28
- "epoch": 0.12903225806451613,
29
- "grad_norm": 3.903559684753418,
30
  "learning_rate": 1.6666666666666668e-07,
31
- "loss": 0.5377,
32
  "step": 2
33
  },
34
  {
35
- "epoch": 0.1935483870967742,
36
- "grad_norm": 3.736715793609619,
37
  "learning_rate": 3.3333333333333335e-07,
38
- "loss": 0.5268,
39
  "step": 3
40
  },
41
  {
42
- "epoch": 0.25806451612903225,
43
- "grad_norm": 3.8966400623321533,
44
  "learning_rate": 5.000000000000001e-07,
45
- "loss": 0.5587,
46
  "step": 4
47
  },
48
  {
49
- "epoch": 0.3225806451612903,
50
- "grad_norm": 3.7077558040618896,
51
  "learning_rate": 6.666666666666667e-07,
52
- "loss": 0.5447,
53
  "step": 5
54
  },
55
  {
56
- "epoch": 0.3870967741935484,
57
- "grad_norm": 3.522481679916382,
58
  "learning_rate": 8.333333333333333e-07,
59
- "loss": 0.5369,
60
  "step": 6
61
  },
62
  {
63
- "epoch": 0.45161290322580644,
64
- "grad_norm": 3.2097816467285156,
65
  "learning_rate": 1.0000000000000002e-06,
66
- "loss": 0.5437,
67
  "step": 7
68
  },
69
  {
70
- "epoch": 0.5161290322580645,
71
- "grad_norm": 3.033029079437256,
72
  "learning_rate": 1.1666666666666668e-06,
73
- "loss": 0.511,
74
  "step": 8
75
  },
76
  {
77
- "epoch": 0.5806451612903226,
78
- "grad_norm": 2.4357407093048096,
 
 
 
 
 
 
 
 
79
  "learning_rate": 1.3333333333333334e-06,
80
- "loss": 0.4972,
81
  "step": 9
82
  },
83
  {
84
- "epoch": 0.6451612903225806,
85
- "grad_norm": 2.289113759994507,
86
  "learning_rate": 1.5e-06,
87
- "loss": 0.4971,
88
  "step": 10
89
  },
90
  {
91
- "epoch": 0.7096774193548387,
92
- "grad_norm": 2.245663642883301,
93
  "learning_rate": 1.6666666666666667e-06,
94
- "loss": 0.4985,
95
  "step": 11
96
  },
97
  {
98
- "epoch": 0.7741935483870968,
99
- "grad_norm": 1.333315372467041,
100
  "learning_rate": 1.8333333333333333e-06,
101
- "loss": 0.4498,
102
  "step": 12
103
  },
104
  {
105
- "epoch": 0.8387096774193549,
106
- "grad_norm": 1.2719190120697021,
107
  "learning_rate": 2.0000000000000003e-06,
108
- "loss": 0.4429,
109
  "step": 13
110
  },
111
  {
112
- "epoch": 0.9032258064516129,
113
- "grad_norm": 1.1698064804077148,
114
  "learning_rate": 2.166666666666667e-06,
115
- "loss": 0.443,
116
  "step": 14
117
  },
118
  {
119
- "epoch": 0.967741935483871,
120
- "grad_norm": 0.9449278712272644,
121
  "learning_rate": 2.3333333333333336e-06,
122
- "loss": 0.4219,
123
  "step": 15
124
  },
125
  {
126
- "epoch": 0.967741935483871,
127
- "eval_loss": 0.39319929480552673,
128
- "eval_runtime": 46.7379,
129
- "eval_samples_per_second": 9.607,
130
- "eval_steps_per_second": 0.171,
131
- "step": 15
132
  },
133
  {
134
- "epoch": 1.0,
135
- "grad_norm": 0.9449278712272644,
136
- "learning_rate": 2.5e-06,
137
- "loss": 0.3764,
 
138
  "step": 16
139
  },
140
  {
141
- "epoch": 1.064516129032258,
142
- "grad_norm": 0.43911686539649963,
143
  "learning_rate": 2.666666666666667e-06,
144
- "loss": 0.3747,
145
  "step": 17
146
  },
147
  {
148
- "epoch": 1.129032258064516,
149
- "grad_norm": 0.4296239912509918,
150
  "learning_rate": 2.8333333333333335e-06,
151
- "loss": 0.3729,
152
  "step": 18
153
  },
154
  {
155
- "epoch": 1.1935483870967742,
156
- "grad_norm": 0.3548150956630707,
157
  "learning_rate": 3e-06,
158
- "loss": 0.3606,
159
  "step": 19
160
  },
161
  {
162
- "epoch": 1.2580645161290323,
163
- "grad_norm": 0.32105734944343567,
164
  "learning_rate": 3.1666666666666667e-06,
165
- "loss": 0.3753,
166
  "step": 20
167
  },
168
  {
169
- "epoch": 1.3225806451612903,
170
- "grad_norm": 0.2587982416152954,
171
  "learning_rate": 3.3333333333333333e-06,
172
- "loss": 0.3478,
173
  "step": 21
174
  },
175
  {
176
- "epoch": 1.3870967741935485,
177
- "grad_norm": 0.3211846649646759,
178
  "learning_rate": 3.5e-06,
179
- "loss": 0.3304,
180
  "step": 22
181
  },
182
  {
183
- "epoch": 1.4516129032258065,
184
- "grad_norm": 0.3252200186252594,
185
  "learning_rate": 3.6666666666666666e-06,
186
- "loss": 0.3343,
187
  "step": 23
188
  },
189
  {
190
- "epoch": 1.5161290322580645,
191
- "grad_norm": 0.24784031510353088,
192
  "learning_rate": 3.833333333333334e-06,
193
- "loss": 0.3002,
 
 
 
 
 
 
 
 
194
  "step": 24
195
  },
196
  {
197
- "epoch": 1.5806451612903225,
198
- "grad_norm": 0.22013752162456512,
199
  "learning_rate": 4.000000000000001e-06,
200
- "loss": 0.3007,
201
  "step": 25
202
  },
203
  {
204
- "epoch": 1.6451612903225805,
205
- "grad_norm": 0.1890474557876587,
206
  "learning_rate": 4.166666666666667e-06,
207
- "loss": 0.2993,
208
  "step": 26
209
  },
210
  {
211
- "epoch": 1.7096774193548387,
212
- "grad_norm": 0.1612287163734436,
213
  "learning_rate": 4.333333333333334e-06,
214
- "loss": 0.2967,
215
  "step": 27
216
  },
217
  {
218
- "epoch": 1.7741935483870968,
219
- "grad_norm": 0.12546223402023315,
220
  "learning_rate": 4.5e-06,
221
- "loss": 0.285,
222
  "step": 28
223
  },
224
  {
225
- "epoch": 1.838709677419355,
226
- "grad_norm": 0.14152272045612335,
227
  "learning_rate": 4.666666666666667e-06,
228
- "loss": 0.2763,
229
  "step": 29
230
  },
231
  {
232
- "epoch": 1.903225806451613,
233
- "grad_norm": 0.13795673847198486,
234
  "learning_rate": 4.833333333333333e-06,
235
- "loss": 0.2765,
236
- "step": 30
237
- },
238
- {
239
- "epoch": 1.903225806451613,
240
- "eval_loss": 0.2790633738040924,
241
- "eval_runtime": 47.0271,
242
- "eval_samples_per_second": 9.548,
243
- "eval_steps_per_second": 0.17,
244
  "step": 30
245
  },
246
  {
247
- "epoch": 1.967741935483871,
248
- "grad_norm": 0.13757546246051788,
249
  "learning_rate": 5e-06,
250
- "loss": 0.2728,
251
  "step": 31
252
  },
253
  {
254
- "epoch": 2.0,
255
- "grad_norm": 0.27934005856513977,
256
  "learning_rate": 5.1666666666666675e-06,
257
- "loss": 0.2571,
 
 
 
 
 
 
 
 
258
  "step": 32
259
  },
260
  {
261
- "epoch": 2.064516129032258,
262
- "grad_norm": 0.1979674994945526,
263
  "learning_rate": 5.333333333333334e-06,
264
- "loss": 0.2561,
265
  "step": 33
266
  },
267
  {
268
- "epoch": 2.129032258064516,
269
- "grad_norm": 0.20464259386062622,
270
  "learning_rate": 5.500000000000001e-06,
271
- "loss": 0.2537,
272
  "step": 34
273
  },
274
  {
275
- "epoch": 2.193548387096774,
276
- "grad_norm": 0.16843488812446594,
277
  "learning_rate": 5.666666666666667e-06,
278
- "loss": 0.2471,
279
  "step": 35
280
  },
281
  {
282
- "epoch": 2.258064516129032,
283
- "grad_norm": 0.17862671613693237,
284
  "learning_rate": 5.833333333333334e-06,
285
- "loss": 0.2636,
286
  "step": 36
287
  },
288
  {
289
- "epoch": 2.3225806451612905,
290
- "grad_norm": 0.16075143218040466,
291
  "learning_rate": 6e-06,
292
- "loss": 0.2484,
293
  "step": 37
294
  },
295
  {
296
- "epoch": 2.3870967741935485,
297
- "grad_norm": 0.14424891769886017,
298
  "learning_rate": 6.166666666666667e-06,
299
- "loss": 0.2418,
300
  "step": 38
301
  },
302
  {
303
- "epoch": 2.4516129032258065,
304
- "grad_norm": 0.15151280164718628,
305
  "learning_rate": 6.333333333333333e-06,
306
- "loss": 0.2482,
307
  "step": 39
308
  },
309
  {
310
- "epoch": 2.5161290322580645,
311
- "grad_norm": 0.13796761631965637,
312
  "learning_rate": 6.5000000000000004e-06,
313
- "loss": 0.2222,
314
  "step": 40
315
  },
316
  {
317
- "epoch": 2.5806451612903225,
318
- "grad_norm": 0.14514990150928497,
319
- "learning_rate": 6.666666666666667e-06,
320
- "loss": 0.2267,
321
- "step": 41
322
- },
323
- {
324
- "epoch": 2.6451612903225805,
325
- "grad_norm": 0.14072832465171814,
326
- "learning_rate": 6.833333333333334e-06,
327
- "loss": 0.2288,
328
- "step": 42
329
- },
330
- {
331
- "epoch": 2.709677419354839,
332
- "grad_norm": 0.13627326488494873,
333
- "learning_rate": 7e-06,
334
- "loss": 0.2275,
335
- "step": 43
336
- },
337
- {
338
- "epoch": 2.774193548387097,
339
- "grad_norm": 0.1376984417438507,
340
- "learning_rate": 7.166666666666667e-06,
341
- "loss": 0.2219,
342
- "step": 44
343
- },
344
- {
345
- "epoch": 2.838709677419355,
346
- "grad_norm": 0.15370023250579834,
347
- "learning_rate": 7.333333333333333e-06,
348
- "loss": 0.2169,
349
- "step": 45
350
- },
351
- {
352
- "epoch": 2.838709677419355,
353
- "eval_loss": 0.2274538278579712,
354
- "eval_runtime": 47.3085,
355
- "eval_samples_per_second": 9.491,
356
- "eval_steps_per_second": 0.169,
357
- "step": 45
358
- },
359
- {
360
- "epoch": 2.903225806451613,
361
- "grad_norm": 0.26084059476852417,
362
- "learning_rate": 7.500000000000001e-06,
363
- "loss": 0.2202,
364
- "step": 46
365
- },
366
- {
367
- "epoch": 2.967741935483871,
368
- "grad_norm": 0.2038145810365677,
369
- "learning_rate": 7.666666666666667e-06,
370
- "loss": 0.2208,
371
- "step": 47
372
- },
373
- {
374
- "epoch": 3.0,
375
- "grad_norm": 0.2038145810365677,
376
- "learning_rate": 7.833333333333333e-06,
377
- "loss": 0.2054,
378
- "step": 48
379
- },
380
- {
381
- "epoch": 3.064516129032258,
382
- "grad_norm": 0.0778738260269165,
383
- "learning_rate": 8.000000000000001e-06,
384
- "loss": 0.2088,
385
- "step": 49
386
- },
387
- {
388
- "epoch": 3.129032258064516,
389
- "grad_norm": 0.0922369435429573,
390
- "learning_rate": 8.166666666666668e-06,
391
- "loss": 0.2093,
392
- "step": 50
393
- },
394
- {
395
- "epoch": 3.193548387096774,
396
- "grad_norm": 0.10241512209177017,
397
- "learning_rate": 8.333333333333334e-06,
398
- "loss": 0.2046,
399
- "step": 51
400
- },
401
- {
402
- "epoch": 3.258064516129032,
403
- "grad_norm": 0.12188396602869034,
404
- "learning_rate": 8.5e-06,
405
- "loss": 0.2221,
406
- "step": 52
407
- },
408
- {
409
- "epoch": 3.3225806451612905,
410
- "grad_norm": 0.08659562468528748,
411
- "learning_rate": 8.666666666666668e-06,
412
- "loss": 0.2101,
413
- "step": 53
414
- },
415
- {
416
- "epoch": 3.3870967741935485,
417
- "grad_norm": 0.07995045930147171,
418
- "learning_rate": 8.833333333333334e-06,
419
- "loss": 0.2053,
420
- "step": 54
421
- },
422
- {
423
- "epoch": 3.4516129032258065,
424
- "grad_norm": 0.08335064351558685,
425
- "learning_rate": 9e-06,
426
- "loss": 0.2128,
427
- "step": 55
428
- },
429
- {
430
- "epoch": 3.5161290322580645,
431
- "grad_norm": 0.10316692292690277,
432
- "learning_rate": 9.166666666666666e-06,
433
- "loss": 0.191,
434
- "step": 56
435
- },
436
- {
437
- "epoch": 3.5806451612903225,
438
- "grad_norm": 0.17479529976844788,
439
- "learning_rate": 9.333333333333334e-06,
440
- "loss": 0.1968,
441
- "step": 57
442
- },
443
- {
444
- "epoch": 3.6451612903225805,
445
- "grad_norm": 0.12246640026569366,
446
- "learning_rate": 9.5e-06,
447
- "loss": 0.1997,
448
- "step": 58
449
- },
450
- {
451
- "epoch": 3.709677419354839,
452
- "grad_norm": 0.0899316594004631,
453
- "learning_rate": 9.666666666666667e-06,
454
- "loss": 0.1987,
455
- "step": 59
456
- },
457
- {
458
- "epoch": 3.774193548387097,
459
- "grad_norm": 0.08333521336317062,
460
- "learning_rate": 9.833333333333333e-06,
461
- "loss": 0.1955,
462
- "step": 60
463
- },
464
- {
465
- "epoch": 3.774193548387097,
466
- "eval_loss": 0.2103077620267868,
467
- "eval_runtime": 47.3577,
468
- "eval_samples_per_second": 9.481,
469
- "eval_steps_per_second": 0.169,
470
- "step": 60
471
- },
472
- {
473
- "epoch": 3.838709677419355,
474
- "grad_norm": 0.07842453569173813,
475
- "learning_rate": 1e-05,
476
- "loss": 0.1921,
477
- "step": 61
478
- },
479
- {
480
- "epoch": 3.903225806451613,
481
- "grad_norm": 0.08157943189144135,
482
- "learning_rate": 9.890738003669029e-06,
483
- "loss": 0.1981,
484
- "step": 62
485
- },
486
- {
487
- "epoch": 3.967741935483871,
488
- "grad_norm": 0.08138000965118408,
489
- "learning_rate": 9.567727288213005e-06,
490
- "loss": 0.1986,
491
- "step": 63
492
- },
493
- {
494
- "epoch": 4.0,
495
- "grad_norm": 0.171842560172081,
496
- "learning_rate": 9.045084971874738e-06,
497
- "loss": 0.1897,
498
- "step": 64
499
- },
500
- {
501
- "epoch": 4.064516129032258,
502
- "grad_norm": 0.20634017884731293,
503
- "learning_rate": 8.345653031794292e-06,
504
- "loss": 0.1877,
505
- "step": 65
506
- },
507
- {
508
- "epoch": 4.129032258064516,
509
- "grad_norm": 0.35513147711753845,
510
- "learning_rate": 7.500000000000001e-06,
511
- "loss": 0.1897,
512
- "step": 66
513
- },
514
- {
515
- "epoch": 4.193548387096774,
516
- "grad_norm": 0.1434732973575592,
517
- "learning_rate": 6.545084971874738e-06,
518
- "loss": 0.1856,
519
- "step": 67
520
- },
521
- {
522
- "epoch": 4.258064516129032,
523
- "grad_norm": 0.27667921781539917,
524
- "learning_rate": 5.522642316338268e-06,
525
- "loss": 0.2036,
526
- "step": 68
527
- },
528
- {
529
- "epoch": 4.32258064516129,
530
- "grad_norm": 0.12108495831489563,
531
- "learning_rate": 4.477357683661734e-06,
532
- "loss": 0.1917,
533
- "step": 69
534
- },
535
- {
536
- "epoch": 4.387096774193548,
537
- "grad_norm": 0.21641023457050323,
538
- "learning_rate": 3.4549150281252635e-06,
539
- "loss": 0.1878,
540
- "step": 70
541
- },
542
- {
543
- "epoch": 4.451612903225806,
544
- "grad_norm": 0.12491529434919357,
545
- "learning_rate": 2.5000000000000015e-06,
546
- "loss": 0.1952,
547
- "step": 71
548
- },
549
- {
550
- "epoch": 4.516129032258064,
551
- "grad_norm": 0.14404062926769257,
552
- "learning_rate": 1.6543469682057105e-06,
553
- "loss": 0.1761,
554
- "step": 72
555
- },
556
- {
557
- "epoch": 4.580645161290323,
558
- "grad_norm": 0.1197192370891571,
559
- "learning_rate": 9.549150281252633e-07,
560
- "loss": 0.1836,
561
- "step": 73
562
- },
563
- {
564
- "epoch": 4.645161290322581,
565
- "grad_norm": 0.10862907022237778,
566
- "learning_rate": 4.322727117869951e-07,
567
- "loss": 0.1861,
568
- "step": 74
569
- },
570
- {
571
- "epoch": 4.709677419354839,
572
- "grad_norm": 0.1004861518740654,
573
- "learning_rate": 1.0926199633097156e-07,
574
- "loss": 0.1852,
575
- "step": 75
576
- },
577
- {
578
- "epoch": 4.709677419354839,
579
- "eval_loss": 0.20321273803710938,
580
- "eval_runtime": 47.2462,
581
- "eval_samples_per_second": 9.503,
582
- "eval_steps_per_second": 0.169,
583
- "step": 75
584
  }
585
  ],
586
  "logging_steps": 1,
587
- "max_steps": 75,
588
  "num_input_tokens_seen": 0,
589
  "num_train_epochs": 5,
590
- "save_steps": 15,
591
  "stateful_callbacks": {
592
  "TrainerControl": {
593
  "args": {
@@ -600,7 +355,7 @@
600
  "attributes": {}
601
  }
602
  },
603
- "total_flos": 1.2850912942748598e+19,
604
  "train_batch_size": 8,
605
  "trial_name": null,
606
  "trial_params": null
 
2
  "best_global_step": null,
3
  "best_metric": null,
4
  "best_model_checkpoint": null,
5
+ "epoch": 4.470588235294118,
6
+ "eval_steps": 8,
7
+ "global_step": 40,
8
  "is_hyper_param_search": false,
9
  "is_local_process_zero": true,
10
  "is_world_process_zero": true,
11
  "log_history": [
12
  {
13
+ "epoch": 0.11764705882352941,
14
+ "grad_norm": 4.44871711730957,
15
  "learning_rate": 0.0,
16
+ "loss": 0.8246,
17
  "step": 1
18
  },
19
  {
20
+ "epoch": 0.11764705882352941,
21
+ "eval_loss": 0.805208146572113,
22
+ "eval_runtime": 6.2252,
23
+ "eval_samples_per_second": 8.674,
24
+ "eval_steps_per_second": 0.161,
25
  "step": 1
26
  },
27
  {
28
+ "epoch": 0.23529411764705882,
29
+ "grad_norm": 4.301537036895752,
30
  "learning_rate": 1.6666666666666668e-07,
31
+ "loss": 0.7921,
32
  "step": 2
33
  },
34
  {
35
+ "epoch": 0.35294117647058826,
36
+ "grad_norm": 4.532798767089844,
37
  "learning_rate": 3.3333333333333335e-07,
38
+ "loss": 0.8146,
39
  "step": 3
40
  },
41
  {
42
+ "epoch": 0.47058823529411764,
43
+ "grad_norm": 4.427340984344482,
44
  "learning_rate": 5.000000000000001e-07,
45
+ "loss": 0.8033,
46
  "step": 4
47
  },
48
  {
49
+ "epoch": 0.5882352941176471,
50
+ "grad_norm": 4.337186813354492,
51
  "learning_rate": 6.666666666666667e-07,
52
+ "loss": 0.794,
53
  "step": 5
54
  },
55
  {
56
+ "epoch": 0.7058823529411765,
57
+ "grad_norm": 4.229191303253174,
58
  "learning_rate": 8.333333333333333e-07,
59
+ "loss": 0.7852,
60
  "step": 6
61
  },
62
  {
63
+ "epoch": 0.8235294117647058,
64
+ "grad_norm": 4.042285442352295,
65
  "learning_rate": 1.0000000000000002e-06,
66
+ "loss": 0.8128,
67
  "step": 7
68
  },
69
  {
70
+ "epoch": 0.9411764705882353,
71
+ "grad_norm": 3.8515684604644775,
72
  "learning_rate": 1.1666666666666668e-06,
73
+ "loss": 0.7934,
74
  "step": 8
75
  },
76
  {
77
+ "epoch": 0.9411764705882353,
78
+ "eval_loss": 0.7717350721359253,
79
+ "eval_runtime": 6.2111,
80
+ "eval_samples_per_second": 8.694,
81
+ "eval_steps_per_second": 0.161,
82
+ "step": 8
83
+ },
84
+ {
85
+ "epoch": 1.0,
86
+ "grad_norm": 3.8515684604644775,
87
  "learning_rate": 1.3333333333333334e-06,
88
+ "loss": 0.7954,
89
  "step": 9
90
  },
91
  {
92
+ "epoch": 1.1176470588235294,
93
+ "grad_norm": 1.560177206993103,
94
  "learning_rate": 1.5e-06,
95
+ "loss": 0.7693,
96
  "step": 10
97
  },
98
  {
99
+ "epoch": 1.2352941176470589,
100
+ "grad_norm": 1.4581290483474731,
101
  "learning_rate": 1.6666666666666667e-06,
102
+ "loss": 0.7423,
103
  "step": 11
104
  },
105
  {
106
+ "epoch": 1.3529411764705883,
107
+ "grad_norm": 1.034300446510315,
108
  "learning_rate": 1.8333333333333333e-06,
109
+ "loss": 0.7327,
110
  "step": 12
111
  },
112
  {
113
+ "epoch": 1.4705882352941178,
114
+ "grad_norm": 0.8479865193367004,
115
  "learning_rate": 2.0000000000000003e-06,
116
+ "loss": 0.7191,
117
  "step": 13
118
  },
119
  {
120
+ "epoch": 1.5882352941176472,
121
+ "grad_norm": 0.7605553269386292,
122
  "learning_rate": 2.166666666666667e-06,
123
+ "loss": 0.7157,
124
  "step": 14
125
  },
126
  {
127
+ "epoch": 1.7058823529411766,
128
+ "grad_norm": 0.7409340739250183,
129
  "learning_rate": 2.3333333333333336e-06,
130
+ "loss": 0.7046,
131
  "step": 15
132
  },
133
  {
134
+ "epoch": 1.8235294117647058,
135
+ "grad_norm": 0.494981974363327,
136
+ "learning_rate": 2.5e-06,
137
+ "loss": 0.655,
138
+ "step": 16
 
139
  },
140
  {
141
+ "epoch": 1.8235294117647058,
142
+ "eval_loss": 0.6643162369728088,
143
+ "eval_runtime": 6.2115,
144
+ "eval_samples_per_second": 8.694,
145
+ "eval_steps_per_second": 0.161,
146
  "step": 16
147
  },
148
  {
149
+ "epoch": 1.9411764705882353,
150
+ "grad_norm": 0.49645841121673584,
151
  "learning_rate": 2.666666666666667e-06,
152
+ "loss": 0.6661,
153
  "step": 17
154
  },
155
  {
156
+ "epoch": 2.0,
157
+ "grad_norm": 0.9438714981079102,
158
  "learning_rate": 2.8333333333333335e-06,
159
+ "loss": 0.6513,
160
  "step": 18
161
  },
162
  {
163
+ "epoch": 2.1176470588235294,
164
+ "grad_norm": 0.8686451315879822,
165
  "learning_rate": 3e-06,
166
+ "loss": 0.6513,
167
  "step": 19
168
  },
169
  {
170
+ "epoch": 2.235294117647059,
171
+ "grad_norm": 0.8095314502716064,
172
  "learning_rate": 3.1666666666666667e-06,
173
+ "loss": 0.6406,
174
  "step": 20
175
  },
176
  {
177
+ "epoch": 2.3529411764705883,
178
+ "grad_norm": 0.6763771772384644,
179
  "learning_rate": 3.3333333333333333e-06,
180
+ "loss": 0.616,
181
  "step": 21
182
  },
183
  {
184
+ "epoch": 2.4705882352941178,
185
+ "grad_norm": 0.8396726846694946,
186
  "learning_rate": 3.5e-06,
187
+ "loss": 0.6185,
188
  "step": 22
189
  },
190
  {
191
+ "epoch": 2.588235294117647,
192
+ "grad_norm": 0.8915113806724548,
193
  "learning_rate": 3.6666666666666666e-06,
194
+ "loss": 0.6013,
195
  "step": 23
196
  },
197
  {
198
+ "epoch": 2.7058823529411766,
199
+ "grad_norm": 0.7986668348312378,
200
  "learning_rate": 3.833333333333334e-06,
201
+ "loss": 0.5917,
202
+ "step": 24
203
+ },
204
+ {
205
+ "epoch": 2.7058823529411766,
206
+ "eval_loss": 0.5887576341629028,
207
+ "eval_runtime": 6.2271,
208
+ "eval_samples_per_second": 8.672,
209
+ "eval_steps_per_second": 0.161,
210
  "step": 24
211
  },
212
  {
213
+ "epoch": 2.8235294117647056,
214
+ "grad_norm": 0.6417509317398071,
215
  "learning_rate": 4.000000000000001e-06,
216
+ "loss": 0.5879,
217
  "step": 25
218
  },
219
  {
220
+ "epoch": 2.9411764705882355,
221
+ "grad_norm": 0.5458969473838806,
222
  "learning_rate": 4.166666666666667e-06,
223
+ "loss": 0.5844,
224
  "step": 26
225
  },
226
  {
227
+ "epoch": 3.0,
228
+ "grad_norm": 0.5458969473838806,
229
  "learning_rate": 4.333333333333334e-06,
230
+ "loss": 0.5812,
231
  "step": 27
232
  },
233
  {
234
+ "epoch": 3.1176470588235294,
235
+ "grad_norm": 0.2729341983795166,
236
  "learning_rate": 4.5e-06,
237
+ "loss": 0.5651,
238
  "step": 28
239
  },
240
  {
241
+ "epoch": 3.235294117647059,
242
+ "grad_norm": 0.2618759572505951,
243
  "learning_rate": 4.666666666666667e-06,
244
+ "loss": 0.537,
245
  "step": 29
246
  },
247
  {
248
+ "epoch": 3.3529411764705883,
249
+ "grad_norm": 0.2737997770309448,
250
  "learning_rate": 4.833333333333333e-06,
251
+ "loss": 0.5463,
 
 
 
 
 
 
 
 
252
  "step": 30
253
  },
254
  {
255
+ "epoch": 3.4705882352941178,
256
+ "grad_norm": 0.2667374610900879,
257
  "learning_rate": 5e-06,
258
+ "loss": 0.5399,
259
  "step": 31
260
  },
261
  {
262
+ "epoch": 3.588235294117647,
263
+ "grad_norm": 0.26491186022758484,
264
  "learning_rate": 5.1666666666666675e-06,
265
+ "loss": 0.5542,
266
+ "step": 32
267
+ },
268
+ {
269
+ "epoch": 3.588235294117647,
270
+ "eval_loss": 0.5400622487068176,
271
+ "eval_runtime": 6.2239,
272
+ "eval_samples_per_second": 8.676,
273
+ "eval_steps_per_second": 0.161,
274
  "step": 32
275
  },
276
  {
277
+ "epoch": 3.7058823529411766,
278
+ "grad_norm": 0.2621231973171234,
279
  "learning_rate": 5.333333333333334e-06,
280
+ "loss": 0.5184,
281
  "step": 33
282
  },
283
  {
284
+ "epoch": 3.8235294117647056,
285
+ "grad_norm": 0.2459402233362198,
286
  "learning_rate": 5.500000000000001e-06,
287
+ "loss": 0.5128,
288
  "step": 34
289
  },
290
  {
291
+ "epoch": 3.9411764705882355,
292
+ "grad_norm": 0.2450851947069168,
293
  "learning_rate": 5.666666666666667e-06,
294
+ "loss": 0.5173,
295
  "step": 35
296
  },
297
  {
298
+ "epoch": 4.0,
299
+ "grad_norm": 0.5196430087089539,
300
  "learning_rate": 5.833333333333334e-06,
301
+ "loss": 0.489,
302
  "step": 36
303
  },
304
  {
305
+ "epoch": 4.117647058823529,
306
+ "grad_norm": 0.4224274158477783,
307
  "learning_rate": 6e-06,
308
+ "loss": 0.5092,
309
  "step": 37
310
  },
311
  {
312
+ "epoch": 4.235294117647059,
313
+ "grad_norm": 0.3706662952899933,
314
  "learning_rate": 6.166666666666667e-06,
315
+ "loss": 0.4878,
316
  "step": 38
317
  },
318
  {
319
+ "epoch": 4.352941176470588,
320
+ "grad_norm": 0.34465476870536804,
321
  "learning_rate": 6.333333333333333e-06,
322
+ "loss": 0.4742,
323
  "step": 39
324
  },
325
  {
326
+ "epoch": 4.470588235294118,
327
+ "grad_norm": 0.36074212193489075,
328
  "learning_rate": 6.5000000000000004e-06,
329
+ "loss": 0.4819,
330
  "step": 40
331
  },
332
  {
333
+ "epoch": 4.470588235294118,
334
+ "eval_loss": 0.5065333843231201,
335
+ "eval_runtime": 6.2211,
336
+ "eval_samples_per_second": 8.68,
337
+ "eval_steps_per_second": 0.161,
338
+ "step": 40
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
339
  }
340
  ],
341
  "logging_steps": 1,
342
+ "max_steps": 40,
343
  "num_input_tokens_seen": 0,
344
  "num_train_epochs": 5,
345
+ "save_steps": 8,
346
  "stateful_callbacks": {
347
  "TrainerControl": {
348
  "args": {
 
355
  "attributes": {}
356
  }
357
  },
358
+ "total_flos": 6.689516326362284e+18,
359
  "train_batch_size": 8,
360
  "trial_name": null,
361
  "trial_params": null
training_args.bin CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:b4c7f07ef865b12c2ce9cc7bb55bea146d30a2ea33fa0031a621dc3afbd270fe
3
  size 11576
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:20edd61d5a9f82d4af66c83a4e33162991a25eb8afc528f4d4e41d56cc7399fd
3
  size 11576