LegrandFrederic commited on
Commit
d52e70e
·
verified ·
1 Parent(s): 10609f1

Upload trainer_state.json with huggingface_hub

Browse files
Files changed (1) hide show
  1. trainer_state.json +791 -0
trainer_state.json ADDED
@@ -0,0 +1,791 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "best_metric": null,
3
+ "best_model_checkpoint": null,
4
+ "epoch": 9.935185185185185,
5
+ "eval_steps": 500,
6
+ "global_step": 1073,
7
+ "is_hyper_param_search": false,
8
+ "is_local_process_zero": true,
9
+ "is_world_process_zero": true,
10
+ "log_history": [
11
+ {
12
+ "epoch": 0.09259259259259259,
13
+ "grad_norm": 4.0609588623046875,
14
+ "learning_rate": 3.7037037037037037e-05,
15
+ "loss": 0.9653,
16
+ "step": 10
17
+ },
18
+ {
19
+ "epoch": 0.18518518518518517,
20
+ "grad_norm": 3.2480485439300537,
21
+ "learning_rate": 7.407407407407407e-05,
22
+ "loss": 0.4377,
23
+ "step": 20
24
+ },
25
+ {
26
+ "epoch": 0.2777777777777778,
27
+ "grad_norm": 1.2286500930786133,
28
+ "learning_rate": 0.00011111111111111112,
29
+ "loss": 0.2765,
30
+ "step": 30
31
+ },
32
+ {
33
+ "epoch": 0.37037037037037035,
34
+ "grad_norm": 1.0655648708343506,
35
+ "learning_rate": 0.00014814814814814815,
36
+ "loss": 0.2268,
37
+ "step": 40
38
+ },
39
+ {
40
+ "epoch": 0.46296296296296297,
41
+ "grad_norm": 0.9578745365142822,
42
+ "learning_rate": 0.0001851851851851852,
43
+ "loss": 0.1874,
44
+ "step": 50
45
+ },
46
+ {
47
+ "epoch": 0.5555555555555556,
48
+ "grad_norm": 1.0437668561935425,
49
+ "learning_rate": 0.00019998289151715887,
50
+ "loss": 0.1747,
51
+ "step": 60
52
+ },
53
+ {
54
+ "epoch": 0.6481481481481481,
55
+ "grad_norm": 1.0130860805511475,
56
+ "learning_rate": 0.00019987836087650596,
57
+ "loss": 0.1637,
58
+ "step": 70
59
+ },
60
+ {
61
+ "epoch": 0.7407407407407407,
62
+ "grad_norm": 0.8844163417816162,
63
+ "learning_rate": 0.0001996789035357663,
64
+ "loss": 0.1493,
65
+ "step": 80
66
+ },
67
+ {
68
+ "epoch": 0.8333333333333334,
69
+ "grad_norm": 0.7460007667541504,
70
+ "learning_rate": 0.00019938470906380134,
71
+ "loss": 0.1391,
72
+ "step": 90
73
+ },
74
+ {
75
+ "epoch": 0.9259259259259259,
76
+ "grad_norm": 0.5707225203514099,
77
+ "learning_rate": 0.0001989960570698294,
78
+ "loss": 0.1181,
79
+ "step": 100
80
+ },
81
+ {
82
+ "epoch": 1.0185185185185186,
83
+ "grad_norm": 0.5503486394882202,
84
+ "learning_rate": 0.00019851331693767843,
85
+ "loss": 0.1248,
86
+ "step": 110
87
+ },
88
+ {
89
+ "epoch": 1.1111111111111112,
90
+ "grad_norm": 0.5087465643882751,
91
+ "learning_rate": 0.00019793694747471515,
92
+ "loss": 0.1145,
93
+ "step": 120
94
+ },
95
+ {
96
+ "epoch": 1.2037037037037037,
97
+ "grad_norm": 0.6456828713417053,
98
+ "learning_rate": 0.00019726749647578387,
99
+ "loss": 0.1065,
100
+ "step": 130
101
+ },
102
+ {
103
+ "epoch": 1.2962962962962963,
104
+ "grad_norm": 2.2336721420288086,
105
+ "learning_rate": 0.00019650560020256975,
106
+ "loss": 0.1151,
107
+ "step": 140
108
+ },
109
+ {
110
+ "epoch": 1.3888888888888888,
111
+ "grad_norm": 2.1042354106903076,
112
+ "learning_rate": 0.00019565198277888085,
113
+ "loss": 0.1096,
114
+ "step": 150
115
+ },
116
+ {
117
+ "epoch": 1.4814814814814814,
118
+ "grad_norm": 3.438588857650757,
119
+ "learning_rate": 0.0001947074555024243,
120
+ "loss": 0.1086,
121
+ "step": 160
122
+ },
123
+ {
124
+ "epoch": 1.574074074074074,
125
+ "grad_norm": 0.5174661874771118,
126
+ "learning_rate": 0.0001936729160737301,
127
+ "loss": 0.1047,
128
+ "step": 170
129
+ },
130
+ {
131
+ "epoch": 1.6666666666666665,
132
+ "grad_norm": 0.5018674731254578,
133
+ "learning_rate": 0.00019254934774295588,
134
+ "loss": 0.0907,
135
+ "step": 180
136
+ },
137
+ {
138
+ "epoch": 1.7592592592592593,
139
+ "grad_norm": 0.47620534896850586,
140
+ "learning_rate": 0.00019133781837538322,
141
+ "loss": 0.0939,
142
+ "step": 190
143
+ },
144
+ {
145
+ "epoch": 1.8518518518518519,
146
+ "grad_norm": 0.4984002709388733,
147
+ "learning_rate": 0.00019003947943649387,
148
+ "loss": 0.09,
149
+ "step": 200
150
+ },
151
+ {
152
+ "epoch": 1.9444444444444444,
153
+ "grad_norm": 0.5507371425628662,
154
+ "learning_rate": 0.00018865556489759038,
155
+ "loss": 0.0874,
156
+ "step": 210
157
+ },
158
+ {
159
+ "epoch": 2.037037037037037,
160
+ "grad_norm": 0.5186899304389954,
161
+ "learning_rate": 0.0001871873900630011,
162
+ "loss": 0.0891,
163
+ "step": 220
164
+ },
165
+ {
166
+ "epoch": 2.1296296296296298,
167
+ "grad_norm": 0.32078972458839417,
168
+ "learning_rate": 0.00018563635031998497,
169
+ "loss": 0.0816,
170
+ "step": 230
171
+ },
172
+ {
173
+ "epoch": 2.2222222222222223,
174
+ "grad_norm": 0.35380446910858154,
175
+ "learning_rate": 0.00018400391981252277,
176
+ "loss": 0.0902,
177
+ "step": 240
178
+ },
179
+ {
180
+ "epoch": 2.314814814814815,
181
+ "grad_norm": 0.3749984800815582,
182
+ "learning_rate": 0.00018229165004025712,
183
+ "loss": 0.0773,
184
+ "step": 250
185
+ },
186
+ {
187
+ "epoch": 2.4074074074074074,
188
+ "grad_norm": 0.9008009433746338,
189
+ "learning_rate": 0.000180501168383911,
190
+ "loss": 0.0853,
191
+ "step": 260
192
+ },
193
+ {
194
+ "epoch": 2.5,
195
+ "grad_norm": 0.6653043627738953,
196
+ "learning_rate": 0.00017863417655858776,
197
+ "loss": 0.0796,
198
+ "step": 270
199
+ },
200
+ {
201
+ "epoch": 2.5925925925925926,
202
+ "grad_norm": 0.5696312189102173,
203
+ "learning_rate": 0.00017669244899642182,
204
+ "loss": 0.0773,
205
+ "step": 280
206
+ },
207
+ {
208
+ "epoch": 2.685185185185185,
209
+ "grad_norm": 0.49613088369369507,
210
+ "learning_rate": 0.00017467783116011722,
211
+ "loss": 0.0755,
212
+ "step": 290
213
+ },
214
+ {
215
+ "epoch": 2.7777777777777777,
216
+ "grad_norm": 0.37407752871513367,
217
+ "learning_rate": 0.00017259223778897748,
218
+ "loss": 0.0795,
219
+ "step": 300
220
+ },
221
+ {
222
+ "epoch": 2.8703703703703702,
223
+ "grad_norm": 0.19830532371997833,
224
+ "learning_rate": 0.00017043765107909296,
225
+ "loss": 0.0793,
226
+ "step": 310
227
+ },
228
+ {
229
+ "epoch": 2.962962962962963,
230
+ "grad_norm": 0.34773755073547363,
231
+ "learning_rate": 0.0001682161187994161,
232
+ "loss": 0.0642,
233
+ "step": 320
234
+ },
235
+ {
236
+ "epoch": 3.0555555555555554,
237
+ "grad_norm": 0.4124683439731598,
238
+ "learning_rate": 0.00016592975234551438,
239
+ "loss": 0.0751,
240
+ "step": 330
241
+ },
242
+ {
243
+ "epoch": 3.148148148148148,
244
+ "grad_norm": 0.321125328540802,
245
+ "learning_rate": 0.0001635807247328514,
246
+ "loss": 0.0788,
247
+ "step": 340
248
+ },
249
+ {
250
+ "epoch": 3.240740740740741,
251
+ "grad_norm": 0.34814882278442383,
252
+ "learning_rate": 0.00016117126853150264,
253
+ "loss": 0.073,
254
+ "step": 350
255
+ },
256
+ {
257
+ "epoch": 3.3333333333333335,
258
+ "grad_norm": 0.461489737033844,
259
+ "learning_rate": 0.00015870367374426936,
260
+ "loss": 0.0788,
261
+ "step": 360
262
+ },
263
+ {
264
+ "epoch": 3.425925925925926,
265
+ "grad_norm": 0.32594698667526245,
266
+ "learning_rate": 0.00015618028563020727,
267
+ "loss": 0.065,
268
+ "step": 370
269
+ },
270
+ {
271
+ "epoch": 3.5185185185185186,
272
+ "grad_norm": 0.311172753572464,
273
+ "learning_rate": 0.00015360350247563774,
274
+ "loss": 0.0611,
275
+ "step": 380
276
+ },
277
+ {
278
+ "epoch": 3.611111111111111,
279
+ "grad_norm": 0.4604165852069855,
280
+ "learning_rate": 0.00015097577331476164,
281
+ "loss": 0.063,
282
+ "step": 390
283
+ },
284
+ {
285
+ "epoch": 3.7037037037037037,
286
+ "grad_norm": 0.42682307958602905,
287
+ "learning_rate": 0.00014829959560204035,
288
+ "loss": 0.0614,
289
+ "step": 400
290
+ },
291
+ {
292
+ "epoch": 3.7962962962962963,
293
+ "grad_norm": 0.39028409123420715,
294
+ "learning_rate": 0.00014557751283855735,
295
+ "loss": 0.0651,
296
+ "step": 410
297
+ },
298
+ {
299
+ "epoch": 3.888888888888889,
300
+ "grad_norm": 0.3820561170578003,
301
+ "learning_rate": 0.0001428121121546163,
302
+ "loss": 0.0589,
303
+ "step": 420
304
+ },
305
+ {
306
+ "epoch": 3.9814814814814814,
307
+ "grad_norm": 0.31287339329719543,
308
+ "learning_rate": 0.00014000602185087254,
309
+ "loss": 0.0633,
310
+ "step": 430
311
+ },
312
+ {
313
+ "epoch": 4.074074074074074,
314
+ "grad_norm": 0.42882245779037476,
315
+ "learning_rate": 0.00013716190890033543,
316
+ "loss": 0.0606,
317
+ "step": 440
318
+ },
319
+ {
320
+ "epoch": 4.166666666666667,
321
+ "grad_norm": 0.3459970951080322,
322
+ "learning_rate": 0.00013428247641361572,
323
+ "loss": 0.0532,
324
+ "step": 450
325
+ },
326
+ {
327
+ "epoch": 4.2592592592592595,
328
+ "grad_norm": 0.3979005217552185,
329
+ "learning_rate": 0.00013137046106982683,
330
+ "loss": 0.0547,
331
+ "step": 460
332
+ },
333
+ {
334
+ "epoch": 4.351851851851852,
335
+ "grad_norm": 0.22608621418476105,
336
+ "learning_rate": 0.00012842863051558168,
337
+ "loss": 0.0507,
338
+ "step": 470
339
+ },
340
+ {
341
+ "epoch": 4.444444444444445,
342
+ "grad_norm": 0.3078368604183197,
343
+ "learning_rate": 0.00012545978073455754,
344
+ "loss": 0.0614,
345
+ "step": 480
346
+ },
347
+ {
348
+ "epoch": 4.537037037037037,
349
+ "grad_norm": 0.3212282657623291,
350
+ "learning_rate": 0.0001224667333901287,
351
+ "loss": 0.0584,
352
+ "step": 490
353
+ },
354
+ {
355
+ "epoch": 4.62962962962963,
356
+ "grad_norm": 0.3688996136188507,
357
+ "learning_rate": 0.0001194523331435924,
358
+ "loss": 0.0604,
359
+ "step": 500
360
+ },
361
+ {
362
+ "epoch": 4.722222222222222,
363
+ "grad_norm": 0.2440503090620041,
364
+ "learning_rate": 0.00011641944495053689,
365
+ "loss": 0.0536,
366
+ "step": 510
367
+ },
368
+ {
369
+ "epoch": 4.814814814814815,
370
+ "grad_norm": 0.29373106360435486,
371
+ "learning_rate": 0.00011337095133792168,
372
+ "loss": 0.0517,
373
+ "step": 520
374
+ },
375
+ {
376
+ "epoch": 4.907407407407407,
377
+ "grad_norm": 0.28415507078170776,
378
+ "learning_rate": 0.00011030974966445735,
379
+ "loss": 0.0483,
380
+ "step": 530
381
+ },
382
+ {
383
+ "epoch": 5.0,
384
+ "grad_norm": 0.6739519238471985,
385
+ "learning_rate": 0.00010723874936688885,
386
+ "loss": 0.0597,
387
+ "step": 540
388
+ },
389
+ {
390
+ "epoch": 5.092592592592593,
391
+ "grad_norm": 0.3474346101284027,
392
+ "learning_rate": 0.00010416086919479975,
393
+ "loss": 0.0468,
394
+ "step": 550
395
+ },
396
+ {
397
+ "epoch": 5.185185185185185,
398
+ "grad_norm": 0.3007705807685852,
399
+ "learning_rate": 0.00010107903443656521,
400
+ "loss": 0.0546,
401
+ "step": 560
402
+ },
403
+ {
404
+ "epoch": 5.277777777777778,
405
+ "grad_norm": 0.35039541125297546,
406
+ "learning_rate": 9.799617413909027e-05,
407
+ "loss": 0.0548,
408
+ "step": 570
409
+ },
410
+ {
411
+ "epoch": 5.37037037037037,
412
+ "grad_norm": 0.2516862154006958,
413
+ "learning_rate": 9.491521832397619e-05,
414
+ "loss": 0.0542,
415
+ "step": 580
416
+ },
417
+ {
418
+ "epoch": 5.462962962962963,
419
+ "grad_norm": 0.3877411484718323,
420
+ "learning_rate": 9.183909520276032e-05,
421
+ "loss": 0.0481,
422
+ "step": 590
423
+ },
424
+ {
425
+ "epoch": 5.555555555555555,
426
+ "grad_norm": 0.3625725507736206,
427
+ "learning_rate": 8.877072839387602e-05,
428
+ "loss": 0.0474,
429
+ "step": 600
430
+ },
431
+ {
432
+ "epoch": 5.648148148148148,
433
+ "grad_norm": 0.2881794273853302,
434
+ "learning_rate": 8.57130341439784e-05,
435
+ "loss": 0.0513,
436
+ "step": 610
437
+ },
438
+ {
439
+ "epoch": 5.7407407407407405,
440
+ "grad_norm": 0.2732185125350952,
441
+ "learning_rate": 8.266891855627611e-05,
442
+ "loss": 0.0445,
443
+ "step": 620
444
+ },
445
+ {
446
+ "epoch": 5.833333333333333,
447
+ "grad_norm": 0.34640687704086304,
448
+ "learning_rate": 7.964127482850372e-05,
449
+ "loss": 0.0449,
450
+ "step": 630
451
+ },
452
+ {
453
+ "epoch": 5.925925925925926,
454
+ "grad_norm": 0.3285965919494629,
455
+ "learning_rate": 7.663298050315993e-05,
456
+ "loss": 0.0484,
457
+ "step": 640
458
+ },
459
+ {
460
+ "epoch": 6.018518518518518,
461
+ "grad_norm": 0.28891757130622864,
462
+ "learning_rate": 7.364689473262452e-05,
463
+ "loss": 0.0521,
464
+ "step": 650
465
+ },
466
+ {
467
+ "epoch": 6.111111111111111,
468
+ "grad_norm": 0.34271323680877686,
469
+ "learning_rate": 7.068585556175412e-05,
470
+ "loss": 0.0463,
471
+ "step": 660
472
+ },
473
+ {
474
+ "epoch": 6.203703703703703,
475
+ "grad_norm": 0.2897927463054657,
476
+ "learning_rate": 6.77526772305388e-05,
477
+ "loss": 0.0441,
478
+ "step": 670
479
+ },
480
+ {
481
+ "epoch": 6.296296296296296,
482
+ "grad_norm": 0.20959234237670898,
483
+ "learning_rate": 6.485014749938336e-05,
484
+ "loss": 0.0379,
485
+ "step": 680
486
+ },
487
+ {
488
+ "epoch": 6.388888888888889,
489
+ "grad_norm": 0.26397034525871277,
490
+ "learning_rate": 6.198102499955545e-05,
491
+ "loss": 0.0408,
492
+ "step": 690
493
+ },
494
+ {
495
+ "epoch": 6.481481481481482,
496
+ "grad_norm": 0.28571462631225586,
497
+ "learning_rate": 5.914803661131895e-05,
498
+ "loss": 0.0377,
499
+ "step": 700
500
+ },
501
+ {
502
+ "epoch": 6.574074074074074,
503
+ "grad_norm": 0.17670756578445435,
504
+ "learning_rate": 5.6353874872243716e-05,
505
+ "loss": 0.04,
506
+ "step": 710
507
+ },
508
+ {
509
+ "epoch": 6.666666666666667,
510
+ "grad_norm": 0.2153652012348175,
511
+ "learning_rate": 5.360119541815587e-05,
512
+ "loss": 0.0438,
513
+ "step": 720
514
+ },
515
+ {
516
+ "epoch": 6.7592592592592595,
517
+ "grad_norm": 0.20676399767398834,
518
+ "learning_rate": 5.089261445916018e-05,
519
+ "loss": 0.0433,
520
+ "step": 730
521
+ },
522
+ {
523
+ "epoch": 6.851851851851852,
524
+ "grad_norm": 0.2535192370414734,
525
+ "learning_rate": 4.8230706293133656e-05,
526
+ "loss": 0.0429,
527
+ "step": 740
528
+ },
529
+ {
530
+ "epoch": 6.944444444444445,
531
+ "grad_norm": 0.21110829710960388,
532
+ "learning_rate": 4.561800085905312e-05,
533
+ "loss": 0.0381,
534
+ "step": 750
535
+ },
536
+ {
537
+ "epoch": 7.037037037037037,
538
+ "grad_norm": 0.24194058775901794,
539
+ "learning_rate": 4.305698133248319e-05,
540
+ "loss": 0.0456,
541
+ "step": 760
542
+ },
543
+ {
544
+ "epoch": 7.12962962962963,
545
+ "grad_norm": 0.21028666198253632,
546
+ "learning_rate": 4.055008176550869e-05,
547
+ "loss": 0.0385,
548
+ "step": 770
549
+ },
550
+ {
551
+ "epoch": 7.222222222222222,
552
+ "grad_norm": 0.2054344266653061,
553
+ "learning_rate": 3.8099684773355196e-05,
554
+ "loss": 0.0409,
555
+ "step": 780
556
+ },
557
+ {
558
+ "epoch": 7.314814814814815,
559
+ "grad_norm": 0.23474320769309998,
560
+ "learning_rate": 3.570811926989689e-05,
561
+ "loss": 0.0343,
562
+ "step": 790
563
+ },
564
+ {
565
+ "epoch": 7.407407407407407,
566
+ "grad_norm": 0.1761438399553299,
567
+ "learning_rate": 3.337765825420277e-05,
568
+ "loss": 0.0346,
569
+ "step": 800
570
+ },
571
+ {
572
+ "epoch": 7.5,
573
+ "grad_norm": 0.1905253529548645,
574
+ "learning_rate": 3.111051665022584e-05,
575
+ "loss": 0.0318,
576
+ "step": 810
577
+ },
578
+ {
579
+ "epoch": 7.592592592592593,
580
+ "grad_norm": 0.32174453139305115,
581
+ "learning_rate": 2.890884920168856e-05,
582
+ "loss": 0.031,
583
+ "step": 820
584
+ },
585
+ {
586
+ "epoch": 7.685185185185185,
587
+ "grad_norm": 0.18767257034778595,
588
+ "learning_rate": 2.6774748424164207e-05,
589
+ "loss": 0.0391,
590
+ "step": 830
591
+ },
592
+ {
593
+ "epoch": 7.777777777777778,
594
+ "grad_norm": 0.22317418456077576,
595
+ "learning_rate": 2.471024261630215e-05,
596
+ "loss": 0.0323,
597
+ "step": 840
598
+ },
599
+ {
600
+ "epoch": 7.87037037037037,
601
+ "grad_norm": 0.25181177258491516,
602
+ "learning_rate": 2.2717293932085827e-05,
603
+ "loss": 0.039,
604
+ "step": 850
605
+ },
606
+ {
607
+ "epoch": 7.962962962962963,
608
+ "grad_norm": 0.1966754049062729,
609
+ "learning_rate": 2.0797796515956237e-05,
610
+ "loss": 0.0326,
611
+ "step": 860
612
+ },
613
+ {
614
+ "epoch": 8.055555555555555,
615
+ "grad_norm": 0.1419260948896408,
616
+ "learning_rate": 1.895357470257345e-05,
617
+ "loss": 0.037,
618
+ "step": 870
619
+ },
620
+ {
621
+ "epoch": 8.148148148148149,
622
+ "grad_norm": 0.16165828704833984,
623
+ "learning_rate": 1.7186381282926833e-05,
624
+ "loss": 0.0313,
625
+ "step": 880
626
+ },
627
+ {
628
+ "epoch": 8.24074074074074,
629
+ "grad_norm": 0.17430561780929565,
630
+ "learning_rate": 1.549789583844192e-05,
631
+ "loss": 0.0357,
632
+ "step": 890
633
+ },
634
+ {
635
+ "epoch": 8.333333333333334,
636
+ "grad_norm": 0.2748219668865204,
637
+ "learning_rate": 1.3889723144667477e-05,
638
+ "loss": 0.0378,
639
+ "step": 900
640
+ },
641
+ {
642
+ "epoch": 8.425925925925926,
643
+ "grad_norm": 0.27772700786590576,
644
+ "learning_rate": 1.2363391646059886e-05,
645
+ "loss": 0.0354,
646
+ "step": 910
647
+ },
648
+ {
649
+ "epoch": 8.518518518518519,
650
+ "grad_norm": 0.2717374563217163,
651
+ "learning_rate": 1.0920352003314105e-05,
652
+ "loss": 0.032,
653
+ "step": 920
654
+ },
655
+ {
656
+ "epoch": 8.61111111111111,
657
+ "grad_norm": 0.217156782746315,
658
+ "learning_rate": 9.561975714622295e-06,
659
+ "loss": 0.03,
660
+ "step": 930
661
+ },
662
+ {
663
+ "epoch": 8.703703703703704,
664
+ "grad_norm": 0.2336784154176712,
665
+ "learning_rate": 8.289553812170326e-06,
666
+ "loss": 0.0334,
667
+ "step": 940
668
+ },
669
+ {
670
+ "epoch": 8.796296296296296,
671
+ "grad_norm": 0.20166803896427155,
672
+ "learning_rate": 7.104295635110936e-06,
673
+ "loss": 0.0298,
674
+ "step": 950
675
+ },
676
+ {
677
+ "epoch": 8.88888888888889,
678
+ "grad_norm": 0.16439595818519592,
679
+ "learning_rate": 6.00732768017982e-06,
680
+ "loss": 0.0334,
681
+ "step": 960
682
+ },
683
+ {
684
+ "epoch": 8.981481481481481,
685
+ "grad_norm": 0.18842309713363647,
686
+ "learning_rate": 4.999692531047307e-06,
687
+ "loss": 0.0344,
688
+ "step": 970
689
+ },
690
+ {
691
+ "epoch": 9.074074074074074,
692
+ "grad_norm": 0.18367870151996613,
693
+ "learning_rate": 4.082347867422553e-06,
694
+ "loss": 0.0337,
695
+ "step": 980
696
+ },
697
+ {
698
+ "epoch": 9.166666666666666,
699
+ "grad_norm": 0.2120891809463501,
700
+ "learning_rate": 3.2561655548527636e-06,
701
+ "loss": 0.0309,
702
+ "step": 990
703
+ },
704
+ {
705
+ "epoch": 9.25925925925926,
706
+ "grad_norm": 0.27212539315223694,
707
+ "learning_rate": 2.521930816082063e-06,
708
+ "loss": 0.0375,
709
+ "step": 1000
710
+ },
711
+ {
712
+ "epoch": 9.351851851851851,
713
+ "grad_norm": 0.16872258484363556,
714
+ "learning_rate": 1.8803414847575417e-06,
715
+ "loss": 0.0255,
716
+ "step": 1010
717
+ },
718
+ {
719
+ "epoch": 9.444444444444445,
720
+ "grad_norm": 0.1719067543745041,
721
+ "learning_rate": 1.3320073421921986e-06,
722
+ "loss": 0.0336,
723
+ "step": 1020
724
+ },
725
+ {
726
+ "epoch": 9.537037037037036,
727
+ "grad_norm": 0.16031451523303986,
728
+ "learning_rate": 8.77449537814623e-07,
729
+ "loss": 0.0324,
730
+ "step": 1030
731
+ },
732
+ {
733
+ "epoch": 9.62962962962963,
734
+ "grad_norm": 0.15033039450645447,
735
+ "learning_rate": 5.171000938565484e-07,
736
+ "loss": 0.0284,
737
+ "step": 1040
738
+ },
739
+ {
740
+ "epoch": 9.722222222222221,
741
+ "grad_norm": 0.1727823168039322,
742
+ "learning_rate": 2.513014947489678e-07,
743
+ "loss": 0.0263,
744
+ "step": 1050
745
+ },
746
+ {
747
+ "epoch": 9.814814814814815,
748
+ "grad_norm": 0.14446181058883667,
749
+ "learning_rate": 8.030636161701078e-08,
750
+ "loss": 0.029,
751
+ "step": 1060
752
+ },
753
+ {
754
+ "epoch": 9.907407407407408,
755
+ "grad_norm": 0.3018522262573242,
756
+ "learning_rate": 4.27721218301258e-09,
757
+ "loss": 0.0307,
758
+ "step": 1070
759
+ },
760
+ {
761
+ "epoch": 9.935185185185185,
762
+ "step": 1073,
763
+ "total_flos": 1.5130009512588355e+17,
764
+ "train_loss": 0.07705365996269678,
765
+ "train_runtime": 1230.2164,
766
+ "train_samples_per_second": 55.821,
767
+ "train_steps_per_second": 0.872
768
+ }
769
+ ],
770
+ "logging_steps": 10,
771
+ "max_steps": 1073,
772
+ "num_input_tokens_seen": 0,
773
+ "num_train_epochs": 10,
774
+ "save_steps": 10000,
775
+ "stateful_callbacks": {
776
+ "TrainerControl": {
777
+ "args": {
778
+ "should_epoch_stop": false,
779
+ "should_evaluate": false,
780
+ "should_log": false,
781
+ "should_save": true,
782
+ "should_training_stop": true
783
+ },
784
+ "attributes": {}
785
+ }
786
+ },
787
+ "total_flos": 1.5130009512588355e+17,
788
+ "train_batch_size": 64,
789
+ "trial_name": null,
790
+ "trial_params": null
791
+ }