LegrandFrederic commited on
Commit
2385a3a
·
verified ·
1 Parent(s): ea9b9bc

Upload trainer_state.json with huggingface_hub

Browse files
Files changed (1) hide show
  1. trainer_state.json +1008 -0
trainer_state.json ADDED
@@ -0,0 +1,1008 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "best_metric": null,
3
+ "best_model_checkpoint": null,
4
+ "epoch": 4.985611510791367,
5
+ "eval_steps": 500,
6
+ "global_step": 1386,
7
+ "is_hyper_param_search": false,
8
+ "is_local_process_zero": true,
9
+ "is_world_process_zero": true,
10
+ "log_history": [
11
+ {
12
+ "epoch": 0.03597122302158273,
13
+ "grad_norm": 3.388711929321289,
14
+ "learning_rate": 2.857142857142857e-05,
15
+ "loss": 1.2192,
16
+ "step": 10
17
+ },
18
+ {
19
+ "epoch": 0.07194244604316546,
20
+ "grad_norm": 7.04016637802124,
21
+ "learning_rate": 5.714285714285714e-05,
22
+ "loss": 0.4355,
23
+ "step": 20
24
+ },
25
+ {
26
+ "epoch": 0.1079136690647482,
27
+ "grad_norm": 1.9987560510635376,
28
+ "learning_rate": 8.571428571428571e-05,
29
+ "loss": 0.2583,
30
+ "step": 30
31
+ },
32
+ {
33
+ "epoch": 0.14388489208633093,
34
+ "grad_norm": 1.4927663803100586,
35
+ "learning_rate": 0.00011428571428571428,
36
+ "loss": 0.1959,
37
+ "step": 40
38
+ },
39
+ {
40
+ "epoch": 0.17985611510791366,
41
+ "grad_norm": 2.1035594940185547,
42
+ "learning_rate": 0.00014285714285714287,
43
+ "loss": 0.158,
44
+ "step": 50
45
+ },
46
+ {
47
+ "epoch": 0.2158273381294964,
48
+ "grad_norm": 1.8321762084960938,
49
+ "learning_rate": 0.00017142857142857143,
50
+ "loss": 0.1593,
51
+ "step": 60
52
+ },
53
+ {
54
+ "epoch": 0.2517985611510791,
55
+ "grad_norm": 0.9496012330055237,
56
+ "learning_rate": 0.0002,
57
+ "loss": 0.1172,
58
+ "step": 70
59
+ },
60
+ {
61
+ "epoch": 0.28776978417266186,
62
+ "grad_norm": 1.5062251091003418,
63
+ "learning_rate": 0.0001999715070545774,
64
+ "loss": 0.1394,
65
+ "step": 80
66
+ },
67
+ {
68
+ "epoch": 0.3237410071942446,
69
+ "grad_norm": 1.1900173425674438,
70
+ "learning_rate": 0.00019988604445526827,
71
+ "loss": 0.1144,
72
+ "step": 90
73
+ },
74
+ {
75
+ "epoch": 0.3597122302158273,
76
+ "grad_norm": 1.6312843561172485,
77
+ "learning_rate": 0.0001997436609036963,
78
+ "loss": 0.0954,
79
+ "step": 100
80
+ },
81
+ {
82
+ "epoch": 0.39568345323741005,
83
+ "grad_norm": 0.7715893387794495,
84
+ "learning_rate": 0.00019954443753839667,
85
+ "loss": 0.1043,
86
+ "step": 110
87
+ },
88
+ {
89
+ "epoch": 0.4316546762589928,
90
+ "grad_norm": 0.9805018901824951,
91
+ "learning_rate": 0.00019928848788857887,
92
+ "loss": 0.107,
93
+ "step": 120
94
+ },
95
+ {
96
+ "epoch": 0.4676258992805755,
97
+ "grad_norm": 0.79938805103302,
98
+ "learning_rate": 0.00019897595780943102,
99
+ "loss": 0.0939,
100
+ "step": 130
101
+ },
102
+ {
103
+ "epoch": 0.5035971223021583,
104
+ "grad_norm": 0.7441235184669495,
105
+ "learning_rate": 0.00019860702539900287,
106
+ "loss": 0.0876,
107
+ "step": 140
108
+ },
109
+ {
110
+ "epoch": 0.539568345323741,
111
+ "grad_norm": 1.4985952377319336,
112
+ "learning_rate": 0.00019818190089671508,
113
+ "loss": 0.0998,
114
+ "step": 150
115
+ },
116
+ {
117
+ "epoch": 0.5755395683453237,
118
+ "grad_norm": 0.49447914958000183,
119
+ "learning_rate": 0.0001977008265635525,
120
+ "loss": 0.084,
121
+ "step": 160
122
+ },
123
+ {
124
+ "epoch": 0.6115107913669064,
125
+ "grad_norm": 0.9330535531044006,
126
+ "learning_rate": 0.00019716407654400952,
127
+ "loss": 0.0711,
128
+ "step": 170
129
+ },
130
+ {
131
+ "epoch": 0.6474820143884892,
132
+ "grad_norm": 0.71977299451828,
133
+ "learning_rate": 0.00019657195670986637,
134
+ "loss": 0.0649,
135
+ "step": 180
136
+ },
137
+ {
138
+ "epoch": 0.6834532374100719,
139
+ "grad_norm": 0.6885129809379578,
140
+ "learning_rate": 0.00019592480448588542,
141
+ "loss": 0.0734,
142
+ "step": 190
143
+ },
144
+ {
145
+ "epoch": 0.7194244604316546,
146
+ "grad_norm": 0.8220723271369934,
147
+ "learning_rate": 0.0001952229886575266,
148
+ "loss": 0.0692,
149
+ "step": 200
150
+ },
151
+ {
152
+ "epoch": 0.7553956834532374,
153
+ "grad_norm": 0.4193010926246643,
154
+ "learning_rate": 0.0001944669091607919,
155
+ "loss": 0.0634,
156
+ "step": 210
157
+ },
158
+ {
159
+ "epoch": 0.7913669064748201,
160
+ "grad_norm": 0.5557839274406433,
161
+ "learning_rate": 0.0001936569968543179,
162
+ "loss": 0.0617,
163
+ "step": 220
164
+ },
165
+ {
166
+ "epoch": 0.8273381294964028,
167
+ "grad_norm": 0.6012473702430725,
168
+ "learning_rate": 0.0001927937132738476,
169
+ "loss": 0.0567,
170
+ "step": 230
171
+ },
172
+ {
173
+ "epoch": 0.8633093525179856,
174
+ "grad_norm": 0.5065937042236328,
175
+ "learning_rate": 0.00019187755036921978,
176
+ "loss": 0.0666,
177
+ "step": 240
178
+ },
179
+ {
180
+ "epoch": 0.8992805755395683,
181
+ "grad_norm": 0.8122988343238831,
182
+ "learning_rate": 0.00019090903022402729,
183
+ "loss": 0.0621,
184
+ "step": 250
185
+ },
186
+ {
187
+ "epoch": 0.935251798561151,
188
+ "grad_norm": 0.600527822971344,
189
+ "learning_rate": 0.00018988870475810282,
190
+ "loss": 0.0577,
191
+ "step": 260
192
+ },
193
+ {
194
+ "epoch": 0.9712230215827338,
195
+ "grad_norm": 0.41501474380493164,
196
+ "learning_rate": 0.00018881715541300276,
197
+ "loss": 0.0585,
198
+ "step": 270
199
+ },
200
+ {
201
+ "epoch": 1.0071942446043165,
202
+ "grad_norm": 0.7007383108139038,
203
+ "learning_rate": 0.00018769499282066717,
204
+ "loss": 0.0727,
205
+ "step": 280
206
+ },
207
+ {
208
+ "epoch": 1.0431654676258992,
209
+ "grad_norm": 0.4356389045715332,
210
+ "learning_rate": 0.00018652285645544603,
211
+ "loss": 0.0576,
212
+ "step": 290
213
+ },
214
+ {
215
+ "epoch": 1.079136690647482,
216
+ "grad_norm": 0.5948470234870911,
217
+ "learning_rate": 0.00018530141426968902,
218
+ "loss": 0.0641,
219
+ "step": 300
220
+ },
221
+ {
222
+ "epoch": 1.1151079136690647,
223
+ "grad_norm": 0.6867853403091431,
224
+ "learning_rate": 0.00018403136231310684,
225
+ "loss": 0.0535,
226
+ "step": 310
227
+ },
228
+ {
229
+ "epoch": 1.1510791366906474,
230
+ "grad_norm": 0.5092623829841614,
231
+ "learning_rate": 0.00018271342433612113,
232
+ "loss": 0.05,
233
+ "step": 320
234
+ },
235
+ {
236
+ "epoch": 1.1870503597122302,
237
+ "grad_norm": 0.6697306632995605,
238
+ "learning_rate": 0.0001813483513774289,
239
+ "loss": 0.0527,
240
+ "step": 330
241
+ },
242
+ {
243
+ "epoch": 1.223021582733813,
244
+ "grad_norm": 0.5235440731048584,
245
+ "learning_rate": 0.0001799369213360163,
246
+ "loss": 0.0477,
247
+ "step": 340
248
+ },
249
+ {
250
+ "epoch": 1.2589928057553956,
251
+ "grad_norm": 0.40158113837242126,
252
+ "learning_rate": 0.0001784799385278661,
253
+ "loss": 0.0587,
254
+ "step": 350
255
+ },
256
+ {
257
+ "epoch": 1.2949640287769784,
258
+ "grad_norm": 0.36186593770980835,
259
+ "learning_rate": 0.000176978233227611,
260
+ "loss": 0.0523,
261
+ "step": 360
262
+ },
263
+ {
264
+ "epoch": 1.330935251798561,
265
+ "grad_norm": 0.4480399489402771,
266
+ "learning_rate": 0.00017543266119539422,
267
+ "loss": 0.0413,
268
+ "step": 370
269
+ },
270
+ {
271
+ "epoch": 1.3669064748201438,
272
+ "grad_norm": 0.5076740980148315,
273
+ "learning_rate": 0.00017384410318920697,
274
+ "loss": 0.0465,
275
+ "step": 380
276
+ },
277
+ {
278
+ "epoch": 1.4028776978417266,
279
+ "grad_norm": 0.8270596265792847,
280
+ "learning_rate": 0.0001722134644629807,
281
+ "loss": 0.056,
282
+ "step": 390
283
+ },
284
+ {
285
+ "epoch": 1.4388489208633093,
286
+ "grad_norm": 0.520577609539032,
287
+ "learning_rate": 0.00017054167425071995,
288
+ "loss": 0.0401,
289
+ "step": 400
290
+ },
291
+ {
292
+ "epoch": 1.474820143884892,
293
+ "grad_norm": 0.7387260794639587,
294
+ "learning_rate": 0.00016882968523697028,
295
+ "loss": 0.0444,
296
+ "step": 410
297
+ },
298
+ {
299
+ "epoch": 1.5107913669064748,
300
+ "grad_norm": 0.34361258149147034,
301
+ "learning_rate": 0.00016707847301392236,
302
+ "loss": 0.0573,
303
+ "step": 420
304
+ },
305
+ {
306
+ "epoch": 1.5467625899280577,
307
+ "grad_norm": 0.49156174063682556,
308
+ "learning_rate": 0.00016528903552546207,
309
+ "loss": 0.0499,
310
+ "step": 430
311
+ },
312
+ {
313
+ "epoch": 1.5827338129496402,
314
+ "grad_norm": 0.37369754910469055,
315
+ "learning_rate": 0.0001634623924984833,
316
+ "loss": 0.047,
317
+ "step": 440
318
+ },
319
+ {
320
+ "epoch": 1.6187050359712232,
321
+ "grad_norm": 0.4199368357658386,
322
+ "learning_rate": 0.0001615995848617876,
323
+ "loss": 0.0422,
324
+ "step": 450
325
+ },
326
+ {
327
+ "epoch": 1.6546762589928057,
328
+ "grad_norm": 0.40282875299453735,
329
+ "learning_rate": 0.0001597016741529014,
330
+ "loss": 0.0388,
331
+ "step": 460
332
+ },
333
+ {
334
+ "epoch": 1.6906474820143886,
335
+ "grad_norm": 0.7056338787078857,
336
+ "learning_rate": 0.0001577697419131497,
337
+ "loss": 0.0453,
338
+ "step": 470
339
+ },
340
+ {
341
+ "epoch": 1.7266187050359711,
342
+ "grad_norm": 0.512008786201477,
343
+ "learning_rate": 0.00015580488907132974,
344
+ "loss": 0.0419,
345
+ "step": 480
346
+ },
347
+ {
348
+ "epoch": 1.762589928057554,
349
+ "grad_norm": 0.41075655817985535,
350
+ "learning_rate": 0.00015380823531633729,
351
+ "loss": 0.0465,
352
+ "step": 490
353
+ },
354
+ {
355
+ "epoch": 1.7985611510791366,
356
+ "grad_norm": 0.48174160718917847,
357
+ "learning_rate": 0.0001517809184591017,
358
+ "loss": 0.0386,
359
+ "step": 500
360
+ },
361
+ {
362
+ "epoch": 1.8345323741007196,
363
+ "grad_norm": 0.5647067427635193,
364
+ "learning_rate": 0.0001497240937841944,
365
+ "loss": 0.0425,
366
+ "step": 510
367
+ },
368
+ {
369
+ "epoch": 1.870503597122302,
370
+ "grad_norm": 0.4203431308269501,
371
+ "learning_rate": 0.0001476389333914794,
372
+ "loss": 0.0377,
373
+ "step": 520
374
+ },
375
+ {
376
+ "epoch": 1.906474820143885,
377
+ "grad_norm": 0.5694783329963684,
378
+ "learning_rate": 0.0001455266255281821,
379
+ "loss": 0.0374,
380
+ "step": 530
381
+ },
382
+ {
383
+ "epoch": 1.9424460431654675,
384
+ "grad_norm": 0.6108015179634094,
385
+ "learning_rate": 0.00014338837391175582,
386
+ "loss": 0.0417,
387
+ "step": 540
388
+ },
389
+ {
390
+ "epoch": 1.9784172661870505,
391
+ "grad_norm": 0.43549835681915283,
392
+ "learning_rate": 0.00014122539704393265,
393
+ "loss": 0.0339,
394
+ "step": 550
395
+ },
396
+ {
397
+ "epoch": 2.014388489208633,
398
+ "grad_norm": 0.4553022086620331,
399
+ "learning_rate": 0.00013903892751634947,
400
+ "loss": 0.0423,
401
+ "step": 560
402
+ },
403
+ {
404
+ "epoch": 2.050359712230216,
405
+ "grad_norm": 0.48167282342910767,
406
+ "learning_rate": 0.0001368302113081447,
407
+ "loss": 0.0411,
408
+ "step": 570
409
+ },
410
+ {
411
+ "epoch": 2.0863309352517985,
412
+ "grad_norm": 0.5101397037506104,
413
+ "learning_rate": 0.0001346005070759258,
414
+ "loss": 0.0495,
415
+ "step": 580
416
+ },
417
+ {
418
+ "epoch": 2.1223021582733814,
419
+ "grad_norm": 0.47834643721580505,
420
+ "learning_rate": 0.00013235108543651272,
421
+ "loss": 0.0352,
422
+ "step": 590
423
+ },
424
+ {
425
+ "epoch": 2.158273381294964,
426
+ "grad_norm": 0.4055221676826477,
427
+ "learning_rate": 0.00013008322824286555,
428
+ "loss": 0.0321,
429
+ "step": 600
430
+ },
431
+ {
432
+ "epoch": 2.194244604316547,
433
+ "grad_norm": 0.4231523275375366,
434
+ "learning_rate": 0.00012779822785360912,
435
+ "loss": 0.0467,
436
+ "step": 610
437
+ },
438
+ {
439
+ "epoch": 2.2302158273381294,
440
+ "grad_norm": 0.6262776851654053,
441
+ "learning_rate": 0.00012549738639657115,
442
+ "loss": 0.0363,
443
+ "step": 620
444
+ },
445
+ {
446
+ "epoch": 2.2661870503597124,
447
+ "grad_norm": 0.5341355800628662,
448
+ "learning_rate": 0.00012318201502675285,
449
+ "loss": 0.0328,
450
+ "step": 630
451
+ },
452
+ {
453
+ "epoch": 2.302158273381295,
454
+ "grad_norm": 0.2906142473220825,
455
+ "learning_rate": 0.00012085343317915565,
456
+ "loss": 0.0316,
457
+ "step": 640
458
+ },
459
+ {
460
+ "epoch": 2.338129496402878,
461
+ "grad_norm": 0.3438158929347992,
462
+ "learning_rate": 0.00011851296781688952,
463
+ "loss": 0.0315,
464
+ "step": 650
465
+ },
466
+ {
467
+ "epoch": 2.3741007194244603,
468
+ "grad_norm": 0.43991851806640625,
469
+ "learning_rate": 0.00011616195267499102,
470
+ "loss": 0.031,
471
+ "step": 660
472
+ },
473
+ {
474
+ "epoch": 2.4100719424460433,
475
+ "grad_norm": 0.3710590600967407,
476
+ "learning_rate": 0.00011380172750038269,
477
+ "loss": 0.0252,
478
+ "step": 670
479
+ },
480
+ {
481
+ "epoch": 2.446043165467626,
482
+ "grad_norm": 0.4207635223865509,
483
+ "learning_rate": 0.00011143363728840625,
484
+ "loss": 0.0409,
485
+ "step": 680
486
+ },
487
+ {
488
+ "epoch": 2.4820143884892087,
489
+ "grad_norm": 0.48165836930274963,
490
+ "learning_rate": 0.00010905903151636501,
491
+ "loss": 0.0282,
492
+ "step": 690
493
+ },
494
+ {
495
+ "epoch": 2.5179856115107913,
496
+ "grad_norm": 0.45046257972717285,
497
+ "learning_rate": 0.00010667926337451217,
498
+ "loss": 0.0257,
499
+ "step": 700
500
+ },
501
+ {
502
+ "epoch": 2.553956834532374,
503
+ "grad_norm": 0.4864603877067566,
504
+ "learning_rate": 0.00010429568899492348,
505
+ "loss": 0.0322,
506
+ "step": 710
507
+ },
508
+ {
509
+ "epoch": 2.5899280575539567,
510
+ "grad_norm": 0.3659379184246063,
511
+ "learning_rate": 0.0001019096666786931,
512
+ "loss": 0.0271,
513
+ "step": 720
514
+ },
515
+ {
516
+ "epoch": 2.6258992805755397,
517
+ "grad_norm": 0.2604960799217224,
518
+ "learning_rate": 9.952255612189368e-05,
519
+ "loss": 0.0326,
520
+ "step": 730
521
+ },
522
+ {
523
+ "epoch": 2.661870503597122,
524
+ "grad_norm": 0.4740797281265259,
525
+ "learning_rate": 9.713571764074152e-05,
526
+ "loss": 0.0306,
527
+ "step": 740
528
+ },
529
+ {
530
+ "epoch": 2.697841726618705,
531
+ "grad_norm": 0.2611696124076843,
532
+ "learning_rate": 9.475051139640809e-05,
533
+ "loss": 0.0271,
534
+ "step": 750
535
+ },
536
+ {
537
+ "epoch": 2.7338129496402876,
538
+ "grad_norm": 0.3587149679660797,
539
+ "learning_rate": 9.236829661992023e-05,
540
+ "loss": 0.0251,
541
+ "step": 760
542
+ },
543
+ {
544
+ "epoch": 2.7697841726618706,
545
+ "grad_norm": 0.4013247489929199,
546
+ "learning_rate": 8.999043083759017e-05,
547
+ "loss": 0.0256,
548
+ "step": 770
549
+ },
550
+ {
551
+ "epoch": 2.805755395683453,
552
+ "grad_norm": 0.40374016761779785,
553
+ "learning_rate": 8.761826909741709e-05,
554
+ "loss": 0.032,
555
+ "step": 780
556
+ },
557
+ {
558
+ "epoch": 2.841726618705036,
559
+ "grad_norm": 0.2673892080783844,
560
+ "learning_rate": 8.525316319690092e-05,
561
+ "loss": 0.0201,
562
+ "step": 790
563
+ },
564
+ {
565
+ "epoch": 2.8776978417266186,
566
+ "grad_norm": 0.44146105647087097,
567
+ "learning_rate": 8.289646091270849e-05,
568
+ "loss": 0.0305,
569
+ "step": 800
570
+ },
571
+ {
572
+ "epoch": 2.9136690647482015,
573
+ "grad_norm": 0.33300504088401794,
574
+ "learning_rate": 8.054950523263096e-05,
575
+ "loss": 0.0219,
576
+ "step": 810
577
+ },
578
+ {
579
+ "epoch": 2.949640287769784,
580
+ "grad_norm": 0.26247546076774597,
581
+ "learning_rate": 7.821363359027048e-05,
582
+ "loss": 0.0359,
583
+ "step": 820
584
+ },
585
+ {
586
+ "epoch": 2.985611510791367,
587
+ "grad_norm": 0.5542314052581787,
588
+ "learning_rate": 7.589017710289139e-05,
589
+ "loss": 0.0286,
590
+ "step": 830
591
+ },
592
+ {
593
+ "epoch": 3.0215827338129495,
594
+ "grad_norm": 0.4509626030921936,
595
+ "learning_rate": 7.358045981287141e-05,
596
+ "loss": 0.0234,
597
+ "step": 840
598
+ },
599
+ {
600
+ "epoch": 3.0575539568345325,
601
+ "grad_norm": 0.2706989049911499,
602
+ "learning_rate": 7.128579793318428e-05,
603
+ "loss": 0.0225,
604
+ "step": 850
605
+ },
606
+ {
607
+ "epoch": 3.093525179856115,
608
+ "grad_norm": 0.21301843225955963,
609
+ "learning_rate": 6.900749909734406e-05,
610
+ "loss": 0.0274,
611
+ "step": 860
612
+ },
613
+ {
614
+ "epoch": 3.129496402877698,
615
+ "grad_norm": 0.32899874448776245,
616
+ "learning_rate": 6.674686161423843e-05,
617
+ "loss": 0.0234,
618
+ "step": 870
619
+ },
620
+ {
621
+ "epoch": 3.1654676258992804,
622
+ "grad_norm": 0.4368799924850464,
623
+ "learning_rate": 6.450517372827591e-05,
624
+ "loss": 0.0199,
625
+ "step": 880
626
+ },
627
+ {
628
+ "epoch": 3.2014388489208634,
629
+ "grad_norm": 0.36518239974975586,
630
+ "learning_rate": 6.22837128852683e-05,
631
+ "loss": 0.0218,
632
+ "step": 890
633
+ },
634
+ {
635
+ "epoch": 3.237410071942446,
636
+ "grad_norm": 0.20987823605537415,
637
+ "learning_rate": 6.008374500446676e-05,
638
+ "loss": 0.0217,
639
+ "step": 900
640
+ },
641
+ {
642
+ "epoch": 3.273381294964029,
643
+ "grad_norm": 0.23875588178634644,
644
+ "learning_rate": 5.790652375716652e-05,
645
+ "loss": 0.0237,
646
+ "step": 910
647
+ },
648
+ {
649
+ "epoch": 3.3093525179856114,
650
+ "grad_norm": 0.320413738489151,
651
+ "learning_rate": 5.575328985229098e-05,
652
+ "loss": 0.0279,
653
+ "step": 920
654
+ },
655
+ {
656
+ "epoch": 3.3453237410071943,
657
+ "grad_norm": 0.20259268581867218,
658
+ "learning_rate": 5.362527032936277e-05,
659
+ "loss": 0.0265,
660
+ "step": 930
661
+ },
662
+ {
663
+ "epoch": 3.381294964028777,
664
+ "grad_norm": 0.22162136435508728,
665
+ "learning_rate": 5.1523677859264516e-05,
666
+ "loss": 0.0256,
667
+ "step": 940
668
+ },
669
+ {
670
+ "epoch": 3.41726618705036,
671
+ "grad_norm": 0.15575292706489563,
672
+ "learning_rate": 4.944971005318716e-05,
673
+ "loss": 0.0194,
674
+ "step": 950
675
+ },
676
+ {
677
+ "epoch": 3.4532374100719423,
678
+ "grad_norm": 0.29202401638031006,
679
+ "learning_rate": 4.740454878016084e-05,
680
+ "loss": 0.0276,
681
+ "step": 960
682
+ },
683
+ {
684
+ "epoch": 3.4892086330935252,
685
+ "grad_norm": 0.40271732211112976,
686
+ "learning_rate": 4.538935949355623e-05,
687
+ "loss": 0.0183,
688
+ "step": 970
689
+ },
690
+ {
691
+ "epoch": 3.5251798561151078,
692
+ "grad_norm": 0.22273583710193634,
693
+ "learning_rate": 4.340529056694047e-05,
694
+ "loss": 0.02,
695
+ "step": 980
696
+ },
697
+ {
698
+ "epoch": 3.5611510791366907,
699
+ "grad_norm": 0.1683393120765686,
700
+ "learning_rate": 4.1453472639666457e-05,
701
+ "loss": 0.0177,
702
+ "step": 990
703
+ },
704
+ {
705
+ "epoch": 3.597122302158273,
706
+ "grad_norm": 0.4574311375617981,
707
+ "learning_rate": 3.9535017972567675e-05,
708
+ "loss": 0.0205,
709
+ "step": 1000
710
+ },
711
+ {
712
+ "epoch": 3.633093525179856,
713
+ "grad_norm": 0.31037506461143494,
714
+ "learning_rate": 3.7651019814126654e-05,
715
+ "loss": 0.0265,
716
+ "step": 1010
717
+ },
718
+ {
719
+ "epoch": 3.6690647482014387,
720
+ "grad_norm": 0.349869966506958,
721
+ "learning_rate": 3.5802551777477476e-05,
722
+ "loss": 0.0153,
723
+ "step": 1020
724
+ },
725
+ {
726
+ "epoch": 3.7050359712230216,
727
+ "grad_norm": 0.2690473794937134,
728
+ "learning_rate": 3.399066722859782e-05,
729
+ "loss": 0.0205,
730
+ "step": 1030
731
+ },
732
+ {
733
+ "epoch": 3.741007194244604,
734
+ "grad_norm": 0.23748761415481567,
735
+ "learning_rate": 3.2216398686038926e-05,
736
+ "loss": 0.0145,
737
+ "step": 1040
738
+ },
739
+ {
740
+ "epoch": 3.776978417266187,
741
+ "grad_norm": 0.24303750693798065,
742
+ "learning_rate": 3.0480757232535772e-05,
743
+ "loss": 0.0207,
744
+ "step": 1050
745
+ },
746
+ {
747
+ "epoch": 3.81294964028777,
748
+ "grad_norm": 0.1993425041437149,
749
+ "learning_rate": 2.8784731938832556e-05,
750
+ "loss": 0.0237,
751
+ "step": 1060
752
+ },
753
+ {
754
+ "epoch": 3.8489208633093526,
755
+ "grad_norm": 0.2566690444946289,
756
+ "learning_rate": 2.7129289300051787e-05,
757
+ "loss": 0.0194,
758
+ "step": 1070
759
+ },
760
+ {
761
+ "epoch": 3.884892086330935,
762
+ "grad_norm": 0.2915847599506378,
763
+ "learning_rate": 2.5515372684928683e-05,
764
+ "loss": 0.0204,
765
+ "step": 1080
766
+ },
767
+ {
768
+ "epoch": 3.920863309352518,
769
+ "grad_norm": 0.21342326700687408,
770
+ "learning_rate": 2.394390179822382e-05,
771
+ "loss": 0.0157,
772
+ "step": 1090
773
+ },
774
+ {
775
+ "epoch": 3.956834532374101,
776
+ "grad_norm": 0.23817431926727295,
777
+ "learning_rate": 2.2415772156621382e-05,
778
+ "loss": 0.0224,
779
+ "step": 1100
780
+ },
781
+ {
782
+ "epoch": 3.9928057553956835,
783
+ "grad_norm": 0.2008386105298996,
784
+ "learning_rate": 2.0931854578410905e-05,
785
+ "loss": 0.0128,
786
+ "step": 1110
787
+ },
788
+ {
789
+ "epoch": 4.028776978417266,
790
+ "grad_norm": 0.16650381684303284,
791
+ "learning_rate": 1.9492994687243714e-05,
792
+ "loss": 0.0144,
793
+ "step": 1120
794
+ },
795
+ {
796
+ "epoch": 4.0647482014388485,
797
+ "grad_norm": 0.20245954394340515,
798
+ "learning_rate": 1.8100012430246837e-05,
799
+ "loss": 0.0188,
800
+ "step": 1130
801
+ },
802
+ {
803
+ "epoch": 4.100719424460432,
804
+ "grad_norm": 0.21814769506454468,
805
+ "learning_rate": 1.6753701610768724e-05,
806
+ "loss": 0.0128,
807
+ "step": 1140
808
+ },
809
+ {
810
+ "epoch": 4.136690647482014,
811
+ "grad_norm": 0.10709039866924286,
812
+ "learning_rate": 1.545482943602341e-05,
813
+ "loss": 0.0191,
814
+ "step": 1150
815
+ },
816
+ {
817
+ "epoch": 4.172661870503597,
818
+ "grad_norm": 0.14134275913238525,
819
+ "learning_rate": 1.4204136079890584e-05,
820
+ "loss": 0.0124,
821
+ "step": 1160
822
+ },
823
+ {
824
+ "epoch": 4.2086330935251794,
825
+ "grad_norm": 0.33789917826652527,
826
+ "learning_rate": 1.300233426112103e-05,
827
+ "loss": 0.0152,
828
+ "step": 1170
829
+ },
830
+ {
831
+ "epoch": 4.244604316546763,
832
+ "grad_norm": 0.17584295570850372,
833
+ "learning_rate": 1.1850108837187335e-05,
834
+ "loss": 0.0162,
835
+ "step": 1180
836
+ },
837
+ {
838
+ "epoch": 4.280575539568345,
839
+ "grad_norm": 0.17790471017360687,
840
+ "learning_rate": 1.0748116414011888e-05,
841
+ "loss": 0.0189,
842
+ "step": 1190
843
+ },
844
+ {
845
+ "epoch": 4.316546762589928,
846
+ "grad_norm": 0.2450784593820572,
847
+ "learning_rate": 9.696984971794065e-06,
848
+ "loss": 0.0151,
849
+ "step": 1200
850
+ },
851
+ {
852
+ "epoch": 4.35251798561151,
853
+ "grad_norm": 0.4205743670463562,
854
+ "learning_rate": 8.697313507150184e-06,
855
+ "loss": 0.0228,
856
+ "step": 1210
857
+ },
858
+ {
859
+ "epoch": 4.388489208633094,
860
+ "grad_norm": 0.15447357296943665,
861
+ "learning_rate": 7.749671691769911e-06,
862
+ "loss": 0.0174,
863
+ "step": 1220
864
+ },
865
+ {
866
+ "epoch": 4.424460431654676,
867
+ "grad_norm": 0.1472749412059784,
868
+ "learning_rate": 6.854599547783736e-06,
869
+ "loss": 0.0191,
870
+ "step": 1230
871
+ },
872
+ {
873
+ "epoch": 4.460431654676259,
874
+ "grad_norm": 0.16755138337612152,
875
+ "learning_rate": 6.012607140026605e-06,
876
+ "loss": 0.0153,
877
+ "step": 1240
878
+ },
879
+ {
880
+ "epoch": 4.496402877697841,
881
+ "grad_norm": 0.16813568770885468,
882
+ "learning_rate": 5.224174285372974e-06,
883
+ "loss": 0.0181,
884
+ "step": 1250
885
+ },
886
+ {
887
+ "epoch": 4.532374100719425,
888
+ "grad_norm": 0.10466030985116959,
889
+ "learning_rate": 4.489750279308757e-06,
890
+ "loss": 0.0105,
891
+ "step": 1260
892
+ },
893
+ {
894
+ "epoch": 4.568345323741007,
895
+ "grad_norm": 0.1699487268924713,
896
+ "learning_rate": 3.8097536398963963e-06,
897
+ "loss": 0.0117,
898
+ "step": 1270
899
+ },
900
+ {
901
+ "epoch": 4.60431654676259,
902
+ "grad_norm": 0.19925230741500854,
903
+ "learning_rate": 3.184571869278574e-06,
904
+ "loss": 0.0155,
905
+ "step": 1280
906
+ },
907
+ {
908
+ "epoch": 4.640287769784173,
909
+ "grad_norm": 0.19352638721466064,
910
+ "learning_rate": 2.6145612328566717e-06,
911
+ "loss": 0.0118,
912
+ "step": 1290
913
+ },
914
+ {
915
+ "epoch": 4.676258992805756,
916
+ "grad_norm": 0.3062892556190491,
917
+ "learning_rate": 2.1000465562697856e-06,
918
+ "loss": 0.0145,
919
+ "step": 1300
920
+ },
921
+ {
922
+ "epoch": 4.712230215827338,
923
+ "grad_norm": 0.22001531720161438,
924
+ "learning_rate": 1.6413210402898893e-06,
925
+ "loss": 0.0134,
926
+ "step": 1310
927
+ },
928
+ {
929
+ "epoch": 4.748201438848921,
930
+ "grad_norm": 0.2228756546974182,
931
+ "learning_rate": 1.2386460937387822e-06,
932
+ "loss": 0.0106,
933
+ "step": 1320
934
+ },
935
+ {
936
+ "epoch": 4.784172661870503,
937
+ "grad_norm": 0.3254740834236145,
938
+ "learning_rate": 8.922511845219971e-07,
939
+ "loss": 0.0217,
940
+ "step": 1330
941
+ },
942
+ {
943
+ "epoch": 4.820143884892087,
944
+ "grad_norm": 0.23890721797943115,
945
+ "learning_rate": 6.023337088643665e-07,
946
+ "loss": 0.0217,
947
+ "step": 1340
948
+ },
949
+ {
950
+ "epoch": 4.856115107913669,
951
+ "grad_norm": 0.1692313402891159,
952
+ "learning_rate": 3.6905887882213717e-07,
953
+ "loss": 0.0171,
954
+ "step": 1350
955
+ },
956
+ {
957
+ "epoch": 4.892086330935252,
958
+ "grad_norm": 0.1608191728591919,
959
+ "learning_rate": 1.925596281353026e-07,
960
+ "loss": 0.0124,
961
+ "step": 1360
962
+ },
963
+ {
964
+ "epoch": 4.928057553956835,
965
+ "grad_norm": 0.1591498851776123,
966
+ "learning_rate": 7.293653647421073e-08,
967
+ "loss": 0.0223,
968
+ "step": 1370
969
+ },
970
+ {
971
+ "epoch": 4.9640287769784175,
972
+ "grad_norm": 0.16027827560901642,
973
+ "learning_rate": 1.0257772123312137e-08,
974
+ "loss": 0.0149,
975
+ "step": 1380
976
+ },
977
+ {
978
+ "epoch": 4.985611510791367,
979
+ "step": 1386,
980
+ "total_flos": 4.876041943922688e+16,
981
+ "train_loss": 0.05376770623662599,
982
+ "train_runtime": 634.0011,
983
+ "train_samples_per_second": 34.978,
984
+ "train_steps_per_second": 2.186
985
+ }
986
+ ],
987
+ "logging_steps": 10,
988
+ "max_steps": 1386,
989
+ "num_input_tokens_seen": 0,
990
+ "num_train_epochs": 5,
991
+ "save_steps": 500,
992
+ "stateful_callbacks": {
993
+ "TrainerControl": {
994
+ "args": {
995
+ "should_epoch_stop": false,
996
+ "should_evaluate": false,
997
+ "should_log": false,
998
+ "should_save": true,
999
+ "should_training_stop": true
1000
+ },
1001
+ "attributes": {}
1002
+ }
1003
+ },
1004
+ "total_flos": 4.876041943922688e+16,
1005
+ "train_batch_size": 16,
1006
+ "trial_name": null,
1007
+ "trial_params": null
1008
+ }