vantaa32 commited on
Commit
81052a4
·
verified ·
1 Parent(s): 993710d

Upload folder using huggingface_hub

Browse files
adapter_model.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:916af11d0703123ba667e1f3fb7f7f309d584a8ed4448932d2908e2c7e88013c
3
  size 134235048
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:f5b13460b33d2a7f490c08d9a5f968391789cb17181c0f5dd613b0c3a5ab4278
3
  size 134235048
optimizer.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:4f6b06f28f0388c0b61c7bbd24012e36baa3d39a961dee7d0dc03afab6d4b891
3
  size 268543610
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:f6be95aa7e9079dba8b5c1ff292358256dbe2e50c1edb03e84223a2bf873667d
3
  size 268543610
special_tokens_map.json CHANGED
@@ -14,7 +14,7 @@
14
  "single_word": false
15
  },
16
  "pad_token": {
17
- "content": "[PAD]",
18
  "lstrip": false,
19
  "normalized": false,
20
  "rstrip": false,
 
14
  "single_word": false
15
  },
16
  "pad_token": {
17
+ "content": "</s>",
18
  "lstrip": false,
19
  "normalized": false,
20
  "rstrip": false,
tokenizer_config.json CHANGED
@@ -26,14 +26,6 @@
26
  "rstrip": false,
27
  "single_word": false,
28
  "special": true
29
- },
30
- "32000": {
31
- "content": "[PAD]",
32
- "lstrip": false,
33
- "normalized": false,
34
- "rstrip": false,
35
- "single_word": false,
36
- "special": true
37
  }
38
  },
39
  "bos_token": "<s>",
@@ -42,7 +34,7 @@
42
  "extra_special_tokens": {},
43
  "legacy": false,
44
  "model_max_length": 512,
45
- "pad_token": "[PAD]",
46
  "padding_side": "right",
47
  "sp_model_kwargs": {},
48
  "spaces_between_special_tokens": false,
 
26
  "rstrip": false,
27
  "single_word": false,
28
  "special": true
 
 
 
 
 
 
 
 
29
  }
30
  },
31
  "bos_token": "<s>",
 
34
  "extra_special_tokens": {},
35
  "legacy": false,
36
  "model_max_length": 512,
37
+ "pad_token": "</s>",
38
  "padding_side": "right",
39
  "sp_model_kwargs": {},
40
  "spaces_between_special_tokens": false,
trainer_state.json CHANGED
@@ -10,1696 +10,1696 @@
10
  "log_history": [
11
  {
12
  "epoch": 0.012364760432766615,
13
- "grad_norm": 0.04875350371003151,
14
  "learning_rate": 0.00029876237623762373,
15
- "loss": 1.0085,
16
  "step": 10
17
  },
18
  {
19
  "epoch": 0.02472952086553323,
20
- "grad_norm": 0.03758955001831055,
21
  "learning_rate": 0.0002975247524752475,
22
- "loss": 0.9611,
23
  "step": 20
24
  },
25
  {
26
  "epoch": 0.03709428129829984,
27
- "grad_norm": 0.036796920001506805,
28
  "learning_rate": 0.00029628712871287126,
29
  "loss": 0.9033,
30
  "step": 30
31
  },
32
  {
33
  "epoch": 0.04945904173106646,
34
- "grad_norm": 0.04110224172472954,
35
  "learning_rate": 0.000295049504950495,
36
  "loss": 0.9154,
37
  "step": 40
38
  },
39
  {
40
  "epoch": 0.061823802163833076,
41
- "grad_norm": 0.03811247646808624,
42
  "learning_rate": 0.0002938118811881188,
43
  "loss": 0.9001,
44
  "step": 50
45
  },
46
  {
47
  "epoch": 0.07418856259659969,
48
- "grad_norm": 0.0396280363202095,
49
  "learning_rate": 0.00029257425742574254,
50
  "loss": 0.9069,
51
  "step": 60
52
  },
53
  {
54
  "epoch": 0.0865533230293663,
55
- "grad_norm": 0.036311160773038864,
56
  "learning_rate": 0.0002913366336633663,
57
- "loss": 0.8905,
58
  "step": 70
59
  },
60
  {
61
  "epoch": 0.09891808346213292,
62
- "grad_norm": 0.04230085760354996,
63
  "learning_rate": 0.00029009900990099006,
64
  "loss": 0.928,
65
  "step": 80
66
  },
67
  {
68
  "epoch": 0.11128284389489954,
69
- "grad_norm": 0.03857972100377083,
70
  "learning_rate": 0.0002888613861386138,
71
- "loss": 0.9122,
72
  "step": 90
73
  },
74
  {
75
  "epoch": 0.12364760432766615,
76
- "grad_norm": 0.043333932757377625,
77
  "learning_rate": 0.0002876237623762376,
78
- "loss": 0.8921,
79
  "step": 100
80
  },
81
  {
82
  "epoch": 0.13601236476043277,
83
- "grad_norm": 0.03789997100830078,
84
  "learning_rate": 0.00028638613861386135,
85
  "loss": 0.8988,
86
  "step": 110
87
  },
88
  {
89
  "epoch": 0.14837712519319937,
90
- "grad_norm": 0.03549322113394737,
91
  "learning_rate": 0.0002851485148514851,
92
  "loss": 0.899,
93
  "step": 120
94
  },
95
  {
96
  "epoch": 0.160741885625966,
97
- "grad_norm": 0.04001789167523384,
98
  "learning_rate": 0.00028391089108910887,
99
  "loss": 0.8937,
100
  "step": 130
101
  },
102
  {
103
  "epoch": 0.1731066460587326,
104
- "grad_norm": 0.04051420837640762,
105
  "learning_rate": 0.00028267326732673263,
106
- "loss": 0.8941,
107
  "step": 140
108
  },
109
  {
110
  "epoch": 0.18547140649149924,
111
- "grad_norm": 0.03879082202911377,
112
  "learning_rate": 0.0002814356435643564,
113
- "loss": 0.9086,
114
  "step": 150
115
  },
116
  {
117
  "epoch": 0.19783616692426584,
118
- "grad_norm": 0.03938911855220795,
119
  "learning_rate": 0.00028019801980198015,
120
- "loss": 0.908,
121
  "step": 160
122
  },
123
  {
124
  "epoch": 0.21020092735703247,
125
- "grad_norm": 0.04576217010617256,
126
  "learning_rate": 0.0002789603960396039,
127
- "loss": 0.9058,
128
  "step": 170
129
  },
130
  {
131
  "epoch": 0.22256568778979907,
132
- "grad_norm": 0.05652037635445595,
133
  "learning_rate": 0.00027772277227722773,
134
- "loss": 0.8718,
135
  "step": 180
136
  },
137
  {
138
  "epoch": 0.23493044822256567,
139
- "grad_norm": 0.04269680753350258,
140
  "learning_rate": 0.00027648514851485144,
141
  "loss": 0.9102,
142
  "step": 190
143
  },
144
  {
145
  "epoch": 0.2472952086553323,
146
- "grad_norm": 0.046770963817834854,
147
  "learning_rate": 0.0002752475247524752,
148
- "loss": 0.8893,
149
  "step": 200
150
  },
151
  {
152
  "epoch": 0.2596599690880989,
153
- "grad_norm": 0.0391731895506382,
154
  "learning_rate": 0.000274009900990099,
155
- "loss": 0.8858,
156
  "step": 210
157
  },
158
  {
159
  "epoch": 0.27202472952086554,
160
- "grad_norm": 0.04302387312054634,
161
  "learning_rate": 0.0002727722772277227,
162
  "loss": 0.8967,
163
  "step": 220
164
  },
165
  {
166
  "epoch": 0.28438948995363217,
167
- "grad_norm": 0.04622489586472511,
168
  "learning_rate": 0.0002715346534653465,
169
- "loss": 0.8919,
170
  "step": 230
171
  },
172
  {
173
  "epoch": 0.29675425038639874,
174
- "grad_norm": 0.04950324073433876,
175
  "learning_rate": 0.0002702970297029703,
176
- "loss": 0.8898,
177
  "step": 240
178
  },
179
  {
180
  "epoch": 0.3091190108191654,
181
- "grad_norm": 0.047146428376436234,
182
  "learning_rate": 0.000269059405940594,
183
- "loss": 0.8941,
184
  "step": 250
185
  },
186
  {
187
  "epoch": 0.321483771251932,
188
- "grad_norm": 0.04186677187681198,
189
  "learning_rate": 0.00026782178217821777,
190
  "loss": 0.892,
191
  "step": 260
192
  },
193
  {
194
  "epoch": 0.33384853168469864,
195
- "grad_norm": 0.04358995333313942,
196
  "learning_rate": 0.0002665841584158416,
197
  "loss": 0.8813,
198
  "step": 270
199
  },
200
  {
201
  "epoch": 0.3462132921174652,
202
- "grad_norm": 0.03836526349186897,
203
  "learning_rate": 0.00026534653465346534,
204
- "loss": 0.8883,
205
  "step": 280
206
  },
207
  {
208
  "epoch": 0.35857805255023184,
209
- "grad_norm": 0.04279692843556404,
210
  "learning_rate": 0.00026410891089108905,
211
- "loss": 0.8964,
212
  "step": 290
213
  },
214
  {
215
  "epoch": 0.37094281298299847,
216
- "grad_norm": 0.04259683936834335,
217
  "learning_rate": 0.00026287128712871287,
218
- "loss": 0.8864,
219
  "step": 300
220
  },
221
  {
222
  "epoch": 0.38330757341576505,
223
- "grad_norm": 0.04212690517306328,
224
  "learning_rate": 0.00026163366336633663,
225
- "loss": 0.8937,
226
  "step": 310
227
  },
228
  {
229
  "epoch": 0.3956723338485317,
230
- "grad_norm": 0.04193605110049248,
231
  "learning_rate": 0.00026039603960396033,
232
- "loss": 0.8743,
233
  "step": 320
234
  },
235
  {
236
  "epoch": 0.4080370942812983,
237
- "grad_norm": 0.043696388602256775,
238
  "learning_rate": 0.00025915841584158415,
239
- "loss": 0.8919,
240
  "step": 330
241
  },
242
  {
243
  "epoch": 0.42040185471406494,
244
- "grad_norm": 0.04463732987642288,
245
  "learning_rate": 0.0002579207920792079,
246
- "loss": 0.8791,
247
  "step": 340
248
  },
249
  {
250
  "epoch": 0.4327666151468315,
251
- "grad_norm": 0.042219433933496475,
252
  "learning_rate": 0.0002566831683168316,
253
- "loss": 0.8886,
254
  "step": 350
255
  },
256
  {
257
  "epoch": 0.44513137557959814,
258
- "grad_norm": 0.04634915664792061,
259
  "learning_rate": 0.00025544554455445543,
260
  "loss": 0.8798,
261
  "step": 360
262
  },
263
  {
264
  "epoch": 0.4574961360123648,
265
- "grad_norm": 0.03766421601176262,
266
  "learning_rate": 0.0002542079207920792,
267
  "loss": 0.8809,
268
  "step": 370
269
  },
270
  {
271
  "epoch": 0.46986089644513135,
272
- "grad_norm": 0.04153716191649437,
273
  "learning_rate": 0.00025297029702970296,
274
- "loss": 0.8921,
275
  "step": 380
276
  },
277
  {
278
  "epoch": 0.482225656877898,
279
- "grad_norm": 0.04694748297333717,
280
  "learning_rate": 0.0002517326732673267,
281
- "loss": 0.895,
282
  "step": 390
283
  },
284
  {
285
  "epoch": 0.4945904173106646,
286
- "grad_norm": 0.05713290721178055,
287
  "learning_rate": 0.0002504950495049505,
288
  "loss": 0.8774,
289
  "step": 400
290
  },
291
  {
292
  "epoch": 0.5069551777434312,
293
- "grad_norm": 0.0414641909301281,
294
  "learning_rate": 0.00024925742574257424,
295
- "loss": 0.8908,
296
  "step": 410
297
  },
298
  {
299
  "epoch": 0.5193199381761978,
300
- "grad_norm": 0.04552585631608963,
301
  "learning_rate": 0.000248019801980198,
302
- "loss": 0.8843,
303
  "step": 420
304
  },
305
  {
306
  "epoch": 0.5316846986089645,
307
- "grad_norm": 0.04167173057794571,
308
  "learning_rate": 0.00024678217821782176,
309
- "loss": 0.8583,
310
  "step": 430
311
  },
312
  {
313
  "epoch": 0.5440494590417311,
314
- "grad_norm": 0.04508620873093605,
315
  "learning_rate": 0.0002455445544554455,
316
- "loss": 0.9205,
317
  "step": 440
318
  },
319
  {
320
  "epoch": 0.5564142194744977,
321
- "grad_norm": 0.04546656087040901,
322
  "learning_rate": 0.0002443069306930693,
323
- "loss": 0.8857,
324
  "step": 450
325
  },
326
  {
327
  "epoch": 0.5687789799072643,
328
- "grad_norm": 0.046972740441560745,
329
  "learning_rate": 0.00024306930693069305,
330
- "loss": 0.8788,
331
  "step": 460
332
  },
333
  {
334
  "epoch": 0.5811437403400309,
335
- "grad_norm": 0.03991515189409256,
336
  "learning_rate": 0.0002418316831683168,
337
  "loss": 0.8731,
338
  "step": 470
339
  },
340
  {
341
  "epoch": 0.5935085007727975,
342
- "grad_norm": 0.047520458698272705,
343
  "learning_rate": 0.0002405940594059406,
344
- "loss": 0.8986,
345
  "step": 480
346
  },
347
  {
348
  "epoch": 0.6058732612055642,
349
- "grad_norm": 0.04166582226753235,
350
  "learning_rate": 0.00023935643564356433,
351
  "loss": 0.8865,
352
  "step": 490
353
  },
354
  {
355
  "epoch": 0.6182380216383307,
356
- "grad_norm": 0.043145373463630676,
357
  "learning_rate": 0.0002381188118811881,
358
- "loss": 0.8738,
359
  "step": 500
360
  },
361
  {
362
  "epoch": 0.6306027820710973,
363
- "grad_norm": 0.04514694958925247,
364
  "learning_rate": 0.00023688118811881188,
365
- "loss": 0.8976,
366
  "step": 510
367
  },
368
  {
369
  "epoch": 0.642967542503864,
370
- "grad_norm": 0.03927430510520935,
371
  "learning_rate": 0.00023564356435643561,
372
- "loss": 0.8953,
373
  "step": 520
374
  },
375
  {
376
  "epoch": 0.6553323029366306,
377
- "grad_norm": 0.048136577010154724,
378
  "learning_rate": 0.00023440594059405938,
379
  "loss": 0.8979,
380
  "step": 530
381
  },
382
  {
383
  "epoch": 0.6676970633693973,
384
- "grad_norm": 0.043889183551073074,
385
  "learning_rate": 0.00023316831683168316,
386
- "loss": 0.9065,
387
  "step": 540
388
  },
389
  {
390
  "epoch": 0.6800618238021638,
391
- "grad_norm": 0.05049331858754158,
392
  "learning_rate": 0.0002319306930693069,
393
- "loss": 0.8941,
394
  "step": 550
395
  },
396
  {
397
  "epoch": 0.6924265842349304,
398
- "grad_norm": 0.04710015654563904,
399
  "learning_rate": 0.00023069306930693066,
400
  "loss": 0.8716,
401
  "step": 560
402
  },
403
  {
404
  "epoch": 0.7047913446676971,
405
- "grad_norm": 0.04900379851460457,
406
  "learning_rate": 0.00022945544554455445,
407
- "loss": 0.9017,
408
  "step": 570
409
  },
410
  {
411
  "epoch": 0.7171561051004637,
412
- "grad_norm": 0.0502135343849659,
413
  "learning_rate": 0.0002282178217821782,
414
  "loss": 0.8774,
415
  "step": 580
416
  },
417
  {
418
  "epoch": 0.7295208655332303,
419
- "grad_norm": 0.047438524663448334,
420
  "learning_rate": 0.00022698019801980194,
421
- "loss": 0.8815,
422
  "step": 590
423
  },
424
  {
425
  "epoch": 0.7418856259659969,
426
- "grad_norm": 0.04633660241961479,
427
  "learning_rate": 0.00022574257425742573,
428
- "loss": 0.8746,
429
  "step": 600
430
  },
431
  {
432
  "epoch": 0.7542503863987635,
433
- "grad_norm": 0.04724352806806564,
434
  "learning_rate": 0.0002245049504950495,
435
- "loss": 0.9005,
436
  "step": 610
437
  },
438
  {
439
  "epoch": 0.7666151468315301,
440
- "grad_norm": 0.04557831212878227,
441
  "learning_rate": 0.00022326732673267323,
442
- "loss": 0.8798,
443
  "step": 620
444
  },
445
  {
446
  "epoch": 0.7789799072642968,
447
- "grad_norm": 0.047848157584667206,
448
  "learning_rate": 0.00022202970297029702,
449
- "loss": 0.893,
450
  "step": 630
451
  },
452
  {
453
  "epoch": 0.7913446676970634,
454
- "grad_norm": 0.04449377954006195,
455
  "learning_rate": 0.00022079207920792078,
456
- "loss": 0.8851,
457
  "step": 640
458
  },
459
  {
460
  "epoch": 0.80370942812983,
461
- "grad_norm": 0.04431360587477684,
462
  "learning_rate": 0.0002195544554455445,
463
- "loss": 0.8876,
464
  "step": 650
465
  },
466
  {
467
  "epoch": 0.8160741885625966,
468
- "grad_norm": 0.04388862103223801,
469
  "learning_rate": 0.0002183168316831683,
470
- "loss": 0.8886,
471
  "step": 660
472
  },
473
  {
474
  "epoch": 0.8284389489953632,
475
- "grad_norm": 0.04719037562608719,
476
  "learning_rate": 0.00021707920792079206,
477
- "loss": 0.9011,
478
  "step": 670
479
  },
480
  {
481
  "epoch": 0.8408037094281299,
482
- "grad_norm": 0.04291271045804024,
483
  "learning_rate": 0.00021584158415841585,
484
- "loss": 0.8738,
485
  "step": 680
486
  },
487
  {
488
  "epoch": 0.8531684698608965,
489
- "grad_norm": 0.04412473365664482,
490
  "learning_rate": 0.00021460396039603958,
491
- "loss": 0.8738,
492
  "step": 690
493
  },
494
  {
495
  "epoch": 0.865533230293663,
496
- "grad_norm": 0.046331875026226044,
497
  "learning_rate": 0.00021336633663366334,
498
  "loss": 0.8899,
499
  "step": 700
500
  },
501
  {
502
  "epoch": 0.8778979907264297,
503
- "grad_norm": 0.04418357461690903,
504
  "learning_rate": 0.00021212871287128713,
505
- "loss": 0.889,
506
  "step": 710
507
  },
508
  {
509
  "epoch": 0.8902627511591963,
510
- "grad_norm": 0.04221678525209427,
511
  "learning_rate": 0.00021089108910891087,
512
- "loss": 0.8751,
513
  "step": 720
514
  },
515
  {
516
  "epoch": 0.9026275115919629,
517
- "grad_norm": 0.04472072795033455,
518
  "learning_rate": 0.00020965346534653463,
519
- "loss": 0.8775,
520
  "step": 730
521
  },
522
  {
523
  "epoch": 0.9149922720247295,
524
- "grad_norm": 0.04348697140812874,
525
  "learning_rate": 0.00020841584158415842,
526
- "loss": 0.8751,
527
  "step": 740
528
  },
529
  {
530
  "epoch": 0.9273570324574961,
531
- "grad_norm": 0.04851846024394035,
532
  "learning_rate": 0.00020717821782178215,
533
- "loss": 0.8951,
534
  "step": 750
535
  },
536
  {
537
  "epoch": 0.9397217928902627,
538
- "grad_norm": 0.04079887643456459,
539
  "learning_rate": 0.0002059405940594059,
540
- "loss": 0.9028,
541
  "step": 760
542
  },
543
  {
544
  "epoch": 0.9520865533230294,
545
- "grad_norm": 0.04408387467265129,
546
  "learning_rate": 0.0002047029702970297,
547
- "loss": 0.8842,
548
  "step": 770
549
  },
550
  {
551
  "epoch": 0.964451313755796,
552
- "grad_norm": 0.04127747192978859,
553
  "learning_rate": 0.00020346534653465346,
554
- "loss": 0.876,
555
  "step": 780
556
  },
557
  {
558
  "epoch": 0.9768160741885626,
559
- "grad_norm": 0.05341732129454613,
560
  "learning_rate": 0.0002022277227722772,
561
- "loss": 0.8843,
562
  "step": 790
563
  },
564
  {
565
  "epoch": 0.9891808346213292,
566
- "grad_norm": 0.04694453999400139,
567
  "learning_rate": 0.00020099009900990098,
568
- "loss": 0.8815,
569
  "step": 800
570
  },
571
  {
572
  "epoch": 1.0012364760432766,
573
- "grad_norm": 0.05160349979996681,
574
  "learning_rate": 0.00019975247524752475,
575
- "loss": 0.8857,
576
  "step": 810
577
  },
578
  {
579
  "epoch": 1.0136012364760432,
580
- "grad_norm": 0.0415058434009552,
581
  "learning_rate": 0.00019851485148514848,
582
  "loss": 0.8461,
583
  "step": 820
584
  },
585
  {
586
  "epoch": 1.02596599690881,
587
- "grad_norm": 0.04516944661736488,
588
  "learning_rate": 0.00019727722772277227,
589
- "loss": 0.8548,
590
  "step": 830
591
  },
592
  {
593
  "epoch": 1.0383307573415765,
594
- "grad_norm": 0.04707406461238861,
595
  "learning_rate": 0.00019603960396039603,
596
- "loss": 0.8503,
597
  "step": 840
598
  },
599
  {
600
  "epoch": 1.0506955177743431,
601
- "grad_norm": 0.049354761838912964,
602
  "learning_rate": 0.00019480198019801976,
603
  "loss": 0.8584,
604
  "step": 850
605
  },
606
  {
607
  "epoch": 1.0630602782071097,
608
- "grad_norm": 0.04959525167942047,
609
  "learning_rate": 0.00019356435643564355,
610
- "loss": 0.8788,
611
  "step": 860
612
  },
613
  {
614
  "epoch": 1.0754250386398763,
615
- "grad_norm": 0.048685044050216675,
616
  "learning_rate": 0.0001923267326732673,
617
- "loss": 0.873,
618
  "step": 870
619
  },
620
  {
621
  "epoch": 1.087789799072643,
622
- "grad_norm": 0.045906998217105865,
623
  "learning_rate": 0.00019108910891089107,
624
- "loss": 0.8775,
625
  "step": 880
626
  },
627
  {
628
  "epoch": 1.1001545595054096,
629
- "grad_norm": 0.04486127197742462,
630
  "learning_rate": 0.00018985148514851484,
631
- "loss": 0.8647,
632
  "step": 890
633
  },
634
  {
635
  "epoch": 1.1125193199381762,
636
- "grad_norm": 0.05211256071925163,
637
  "learning_rate": 0.0001886138613861386,
638
- "loss": 0.8594,
639
  "step": 900
640
  },
641
  {
642
  "epoch": 1.1248840803709428,
643
- "grad_norm": 0.05048747360706329,
644
  "learning_rate": 0.00018737623762376236,
645
- "loss": 0.8564,
646
  "step": 910
647
  },
648
  {
649
  "epoch": 1.1372488408037094,
650
- "grad_norm": 0.04840526729822159,
651
  "learning_rate": 0.00018613861386138612,
652
- "loss": 0.8782,
653
  "step": 920
654
  },
655
  {
656
  "epoch": 1.1496136012364762,
657
- "grad_norm": 0.049940045922994614,
658
  "learning_rate": 0.00018490099009900988,
659
- "loss": 0.867,
660
  "step": 930
661
  },
662
  {
663
  "epoch": 1.1619783616692427,
664
- "grad_norm": 0.053729794919490814,
665
  "learning_rate": 0.00018366336633663364,
666
- "loss": 0.8585,
667
  "step": 940
668
  },
669
  {
670
  "epoch": 1.1743431221020093,
671
- "grad_norm": 0.05020948871970177,
672
  "learning_rate": 0.0001824257425742574,
673
- "loss": 0.8688,
674
  "step": 950
675
  },
676
  {
677
  "epoch": 1.1867078825347759,
678
- "grad_norm": 0.0517219677567482,
679
  "learning_rate": 0.00018118811881188116,
680
  "loss": 0.8731,
681
  "step": 960
682
  },
683
  {
684
  "epoch": 1.1990726429675425,
685
- "grad_norm": 0.04891285300254822,
686
  "learning_rate": 0.00017995049504950493,
687
- "loss": 0.8348,
688
  "step": 970
689
  },
690
  {
691
  "epoch": 1.211437403400309,
692
- "grad_norm": 0.051312196999788284,
693
  "learning_rate": 0.00017871287128712871,
694
- "loss": 0.8658,
695
  "step": 980
696
  },
697
  {
698
  "epoch": 1.2238021638330758,
699
- "grad_norm": 0.051922161132097244,
700
  "learning_rate": 0.00017747524752475245,
701
  "loss": 0.8542,
702
  "step": 990
703
  },
704
  {
705
  "epoch": 1.2361669242658424,
706
- "grad_norm": 0.0521603561937809,
707
  "learning_rate": 0.0001762376237623762,
708
  "loss": 0.8628,
709
  "step": 1000
710
  },
711
  {
712
  "epoch": 1.248531684698609,
713
- "grad_norm": 0.05443425104022026,
714
  "learning_rate": 0.000175,
715
- "loss": 0.875,
716
  "step": 1010
717
  },
718
  {
719
  "epoch": 1.2608964451313756,
720
- "grad_norm": 0.05506913363933563,
721
  "learning_rate": 0.00017376237623762373,
722
- "loss": 0.8704,
723
  "step": 1020
724
  },
725
  {
726
  "epoch": 1.2732612055641421,
727
- "grad_norm": 0.05535837262868881,
728
  "learning_rate": 0.00017252475247524752,
729
- "loss": 0.8629,
730
  "step": 1030
731
  },
732
  {
733
  "epoch": 1.2856259659969087,
734
- "grad_norm": 0.050953879952430725,
735
  "learning_rate": 0.00017128712871287128,
736
- "loss": 0.8386,
737
  "step": 1040
738
  },
739
  {
740
  "epoch": 1.2979907264296755,
741
- "grad_norm": 0.047925543040037155,
742
  "learning_rate": 0.00017004950495049502,
743
- "loss": 0.8664,
744
  "step": 1050
745
  },
746
  {
747
  "epoch": 1.310355486862442,
748
- "grad_norm": 0.054691240191459656,
749
  "learning_rate": 0.0001688118811881188,
750
- "loss": 0.8634,
751
  "step": 1060
752
  },
753
  {
754
  "epoch": 1.3227202472952087,
755
- "grad_norm": 0.05087495222687721,
756
  "learning_rate": 0.00016757425742574257,
757
- "loss": 0.8482,
758
  "step": 1070
759
  },
760
  {
761
  "epoch": 1.3350850077279752,
762
- "grad_norm": 0.051902078092098236,
763
  "learning_rate": 0.00016633663366336633,
764
  "loss": 0.8478,
765
  "step": 1080
766
  },
767
  {
768
  "epoch": 1.3474497681607418,
769
- "grad_norm": 0.05033488944172859,
770
  "learning_rate": 0.0001650990099009901,
771
- "loss": 0.8572,
772
  "step": 1090
773
  },
774
  {
775
  "epoch": 1.3598145285935086,
776
- "grad_norm": 0.05153260752558708,
777
  "learning_rate": 0.00016386138613861385,
778
  "loss": 0.8465,
779
  "step": 1100
780
  },
781
  {
782
  "epoch": 1.3721792890262752,
783
- "grad_norm": 0.052806247025728226,
784
  "learning_rate": 0.0001626237623762376,
785
  "loss": 0.8707,
786
  "step": 1110
787
  },
788
  {
789
  "epoch": 1.3845440494590417,
790
- "grad_norm": 0.05425600707530975,
791
  "learning_rate": 0.00016138613861386137,
792
- "loss": 0.858,
793
  "step": 1120
794
  },
795
  {
796
  "epoch": 1.3969088098918083,
797
- "grad_norm": 0.05116913095116615,
798
  "learning_rate": 0.00016014851485148513,
799
  "loss": 0.867,
800
  "step": 1130
801
  },
802
  {
803
  "epoch": 1.409273570324575,
804
- "grad_norm": 0.052799541503190994,
805
  "learning_rate": 0.0001589108910891089,
806
- "loss": 0.849,
807
  "step": 1140
808
  },
809
  {
810
  "epoch": 1.4216383307573417,
811
- "grad_norm": 0.06275513023138046,
812
  "learning_rate": 0.00015767326732673266,
813
- "loss": 0.8577,
814
  "step": 1150
815
  },
816
  {
817
  "epoch": 1.4340030911901083,
818
- "grad_norm": 0.051965054124593735,
819
  "learning_rate": 0.00015643564356435642,
820
- "loss": 0.853,
821
  "step": 1160
822
  },
823
  {
824
  "epoch": 1.4463678516228748,
825
- "grad_norm": 0.05356529727578163,
826
  "learning_rate": 0.00015519801980198018,
827
- "loss": 0.8789,
828
  "step": 1170
829
  },
830
  {
831
  "epoch": 1.4587326120556414,
832
- "grad_norm": 0.05566537007689476,
833
  "learning_rate": 0.00015396039603960397,
834
- "loss": 0.8716,
835
  "step": 1180
836
  },
837
  {
838
  "epoch": 1.471097372488408,
839
- "grad_norm": 0.05320986732840538,
840
  "learning_rate": 0.0001527227722772277,
841
- "loss": 0.8736,
842
  "step": 1190
843
  },
844
  {
845
  "epoch": 1.4834621329211746,
846
- "grad_norm": 0.049232013523578644,
847
  "learning_rate": 0.00015148514851485146,
848
- "loss": 0.849,
849
  "step": 1200
850
  },
851
  {
852
  "epoch": 1.4958268933539411,
853
- "grad_norm": 0.058629848062992096,
854
  "learning_rate": 0.00015024752475247525,
855
  "loss": 0.8732,
856
  "step": 1210
857
  },
858
  {
859
  "epoch": 1.508191653786708,
860
- "grad_norm": 0.055390194058418274,
861
  "learning_rate": 0.000149009900990099,
862
- "loss": 0.8678,
863
  "step": 1220
864
  },
865
  {
866
  "epoch": 1.5205564142194745,
867
- "grad_norm": 0.05527270585298538,
868
  "learning_rate": 0.00014777227722772275,
869
- "loss": 0.8643,
870
  "step": 1230
871
  },
872
  {
873
  "epoch": 1.532921174652241,
874
- "grad_norm": 0.04652067646384239,
875
  "learning_rate": 0.00014653465346534653,
876
  "loss": 0.8429,
877
  "step": 1240
878
  },
879
  {
880
  "epoch": 1.545285935085008,
881
- "grad_norm": 0.05379781499505043,
882
  "learning_rate": 0.0001452970297029703,
883
- "loss": 0.8492,
884
  "step": 1250
885
  },
886
  {
887
  "epoch": 1.5576506955177742,
888
- "grad_norm": 0.05249844118952751,
889
  "learning_rate": 0.00014405940594059403,
890
- "loss": 0.8447,
891
  "step": 1260
892
  },
893
  {
894
  "epoch": 1.570015455950541,
895
- "grad_norm": 0.049639806151390076,
896
  "learning_rate": 0.00014282178217821782,
897
- "loss": 0.8667,
898
  "step": 1270
899
  },
900
  {
901
  "epoch": 1.5823802163833076,
902
- "grad_norm": 0.052679967135190964,
903
  "learning_rate": 0.00014158415841584158,
904
- "loss": 0.8739,
905
  "step": 1280
906
  },
907
  {
908
  "epoch": 1.5947449768160742,
909
- "grad_norm": 0.05990573391318321,
910
  "learning_rate": 0.00014034653465346534,
911
- "loss": 0.8824,
912
  "step": 1290
913
  },
914
  {
915
  "epoch": 1.6071097372488408,
916
- "grad_norm": 0.052240803837776184,
917
  "learning_rate": 0.0001391089108910891,
918
- "loss": 0.868,
919
  "step": 1300
920
  },
921
  {
922
  "epoch": 1.6194744976816073,
923
- "grad_norm": 0.05380776897072792,
924
  "learning_rate": 0.00013787128712871286,
925
- "loss": 0.8442,
926
  "step": 1310
927
  },
928
  {
929
  "epoch": 1.6318392581143741,
930
- "grad_norm": 0.05081896856427193,
931
  "learning_rate": 0.00013663366336633662,
932
- "loss": 0.8515,
933
  "step": 1320
934
  },
935
  {
936
  "epoch": 1.6442040185471405,
937
- "grad_norm": 0.04869316518306732,
938
  "learning_rate": 0.00013539603960396039,
939
- "loss": 0.8339,
940
  "step": 1330
941
  },
942
  {
943
  "epoch": 1.6565687789799073,
944
- "grad_norm": 0.056119490414857864,
945
  "learning_rate": 0.00013415841584158415,
946
- "loss": 0.8483,
947
  "step": 1340
948
  },
949
  {
950
  "epoch": 1.6689335394126739,
951
- "grad_norm": 0.05742491036653519,
952
  "learning_rate": 0.0001329207920792079,
953
- "loss": 0.8494,
954
  "step": 1350
955
  },
956
  {
957
  "epoch": 1.6812982998454404,
958
- "grad_norm": 0.055017951875925064,
959
  "learning_rate": 0.00013168316831683167,
960
- "loss": 0.8563,
961
  "step": 1360
962
  },
963
  {
964
  "epoch": 1.6936630602782072,
965
- "grad_norm": 0.04963842034339905,
966
  "learning_rate": 0.00013044554455445543,
967
  "loss": 0.8405,
968
  "step": 1370
969
  },
970
  {
971
  "epoch": 1.7060278207109736,
972
- "grad_norm": 0.05574873462319374,
973
  "learning_rate": 0.0001292079207920792,
974
- "loss": 0.8557,
975
  "step": 1380
976
  },
977
  {
978
  "epoch": 1.7183925811437404,
979
- "grad_norm": 0.05482814088463783,
980
  "learning_rate": 0.00012797029702970295,
981
- "loss": 0.8559,
982
  "step": 1390
983
  },
984
  {
985
  "epoch": 1.730757341576507,
986
- "grad_norm": 0.06040499359369278,
987
  "learning_rate": 0.00012673267326732672,
988
- "loss": 0.8638,
989
  "step": 1400
990
  },
991
  {
992
  "epoch": 1.7431221020092735,
993
- "grad_norm": 0.05430367961525917,
994
  "learning_rate": 0.00012549504950495048,
995
- "loss": 0.8473,
996
  "step": 1410
997
  },
998
  {
999
  "epoch": 1.7554868624420403,
1000
- "grad_norm": 0.048315104097127914,
1001
  "learning_rate": 0.00012425742574257426,
1002
- "loss": 0.845,
1003
  "step": 1420
1004
  },
1005
  {
1006
  "epoch": 1.7678516228748067,
1007
- "grad_norm": 0.05943458899855614,
1008
  "learning_rate": 0.000123019801980198,
1009
- "loss": 0.853,
1010
  "step": 1430
1011
  },
1012
  {
1013
  "epoch": 1.7802163833075735,
1014
- "grad_norm": 0.05744357407093048,
1015
  "learning_rate": 0.00012178217821782177,
1016
- "loss": 0.8562,
1017
  "step": 1440
1018
  },
1019
  {
1020
  "epoch": 1.79258114374034,
1021
- "grad_norm": 0.06155743822455406,
1022
  "learning_rate": 0.00012054455445544554,
1023
  "loss": 0.8404,
1024
  "step": 1450
1025
  },
1026
  {
1027
  "epoch": 1.8049459041731066,
1028
- "grad_norm": 0.04887942224740982,
1029
  "learning_rate": 0.0001193069306930693,
1030
- "loss": 0.8477,
1031
  "step": 1460
1032
  },
1033
  {
1034
  "epoch": 1.8173106646058734,
1035
- "grad_norm": 0.05377992242574692,
1036
  "learning_rate": 0.00011806930693069306,
1037
- "loss": 0.8765,
1038
  "step": 1470
1039
  },
1040
  {
1041
  "epoch": 1.8296754250386398,
1042
- "grad_norm": 0.0468844473361969,
1043
  "learning_rate": 0.00011683168316831682,
1044
- "loss": 0.8151,
1045
  "step": 1480
1046
  },
1047
  {
1048
  "epoch": 1.8420401854714066,
1049
- "grad_norm": 0.05763052776455879,
1050
  "learning_rate": 0.0001155940594059406,
1051
- "loss": 0.8539,
1052
  "step": 1490
1053
  },
1054
  {
1055
  "epoch": 1.8544049459041732,
1056
- "grad_norm": 0.054946307092905045,
1057
  "learning_rate": 0.00011435643564356434,
1058
- "loss": 0.8564,
1059
  "step": 1500
1060
  },
1061
  {
1062
  "epoch": 1.8667697063369397,
1063
- "grad_norm": 0.060760248452425,
1064
  "learning_rate": 0.0001131188118811881,
1065
  "loss": 0.8498,
1066
  "step": 1510
1067
  },
1068
  {
1069
  "epoch": 1.8791344667697063,
1070
- "grad_norm": 0.058039598166942596,
1071
  "learning_rate": 0.00011188118811881188,
1072
- "loss": 0.8647,
1073
  "step": 1520
1074
  },
1075
  {
1076
  "epoch": 1.8914992272024729,
1077
- "grad_norm": 0.05479070916771889,
1078
  "learning_rate": 0.00011064356435643564,
1079
- "loss": 0.8625,
1080
  "step": 1530
1081
  },
1082
  {
1083
  "epoch": 1.9038639876352397,
1084
- "grad_norm": 0.0583939254283905,
1085
  "learning_rate": 0.00010940594059405939,
1086
  "loss": 0.8695,
1087
  "step": 1540
1088
  },
1089
  {
1090
  "epoch": 1.916228748068006,
1091
- "grad_norm": 0.058852337300777435,
1092
  "learning_rate": 0.00010816831683168316,
1093
- "loss": 0.8443,
1094
  "step": 1550
1095
  },
1096
  {
1097
  "epoch": 1.9285935085007728,
1098
- "grad_norm": 0.05506705492734909,
1099
  "learning_rate": 0.00010693069306930692,
1100
- "loss": 0.8544,
1101
  "step": 1560
1102
  },
1103
  {
1104
  "epoch": 1.9409582689335394,
1105
- "grad_norm": 0.05682089179754257,
1106
  "learning_rate": 0.00010569306930693068,
1107
- "loss": 0.8718,
1108
  "step": 1570
1109
  },
1110
  {
1111
  "epoch": 1.953323029366306,
1112
- "grad_norm": 0.05604562535881996,
1113
  "learning_rate": 0.00010445544554455445,
1114
- "loss": 0.857,
1115
  "step": 1580
1116
  },
1117
  {
1118
  "epoch": 1.9656877897990728,
1119
- "grad_norm": 0.058413226157426834,
1120
  "learning_rate": 0.0001032178217821782,
1121
  "loss": 0.8558,
1122
  "step": 1590
1123
  },
1124
  {
1125
  "epoch": 1.9780525502318391,
1126
- "grad_norm": 0.054590627551078796,
1127
  "learning_rate": 0.00010198019801980197,
1128
- "loss": 0.8443,
1129
  "step": 1600
1130
  },
1131
  {
1132
  "epoch": 1.990417310664606,
1133
- "grad_norm": 0.05447821691632271,
1134
  "learning_rate": 0.00010074257425742573,
1135
  "loss": 0.8672,
1136
  "step": 1610
1137
  },
1138
  {
1139
  "epoch": 2.002472952086553,
1140
- "grad_norm": 0.05398769676685333,
1141
  "learning_rate": 9.95049504950495e-05,
1142
- "loss": 0.8582,
1143
  "step": 1620
1144
  },
1145
  {
1146
  "epoch": 2.01483771251932,
1147
- "grad_norm": 0.057375263422727585,
1148
  "learning_rate": 9.826732673267325e-05,
1149
- "loss": 0.8418,
1150
  "step": 1630
1151
  },
1152
  {
1153
  "epoch": 2.0272024729520863,
1154
- "grad_norm": 0.054974183440208435,
1155
  "learning_rate": 9.702970297029701e-05,
1156
- "loss": 0.8224,
1157
  "step": 1640
1158
  },
1159
  {
1160
  "epoch": 2.039567233384853,
1161
- "grad_norm": 0.06044444069266319,
1162
  "learning_rate": 9.579207920792079e-05,
1163
- "loss": 0.8373,
1164
  "step": 1650
1165
  },
1166
  {
1167
  "epoch": 2.05193199381762,
1168
- "grad_norm": 0.06379813700914383,
1169
  "learning_rate": 9.455445544554454e-05,
1170
- "loss": 0.8311,
1171
  "step": 1660
1172
  },
1173
  {
1174
  "epoch": 2.0642967542503863,
1175
- "grad_norm": 0.05604099482297897,
1176
  "learning_rate": 9.331683168316831e-05,
1177
- "loss": 0.8586,
1178
  "step": 1670
1179
  },
1180
  {
1181
  "epoch": 2.076661514683153,
1182
- "grad_norm": 0.05408864468336105,
1183
  "learning_rate": 9.207920792079207e-05,
1184
- "loss": 0.8385,
1185
  "step": 1680
1186
  },
1187
  {
1188
  "epoch": 2.0890262751159194,
1189
- "grad_norm": 0.06171610206365585,
1190
  "learning_rate": 9.084158415841582e-05,
1191
- "loss": 0.836,
1192
  "step": 1690
1193
  },
1194
  {
1195
  "epoch": 2.1013910355486862,
1196
- "grad_norm": 0.05357811599969864,
1197
  "learning_rate": 8.96039603960396e-05,
1198
- "loss": 0.8365,
1199
  "step": 1700
1200
  },
1201
  {
1202
  "epoch": 2.113755795981453,
1203
- "grad_norm": 0.059701114892959595,
1204
  "learning_rate": 8.836633663366336e-05,
1205
- "loss": 0.8168,
1206
  "step": 1710
1207
  },
1208
  {
1209
  "epoch": 2.1261205564142194,
1210
- "grad_norm": 0.05693197622895241,
1211
  "learning_rate": 8.712871287128713e-05,
1212
- "loss": 0.8588,
1213
  "step": 1720
1214
  },
1215
  {
1216
  "epoch": 2.138485316846986,
1217
- "grad_norm": 0.06465724855661392,
1218
  "learning_rate": 8.589108910891088e-05,
1219
- "loss": 0.8342,
1220
  "step": 1730
1221
  },
1222
  {
1223
  "epoch": 2.1508500772797525,
1224
- "grad_norm": 0.06339121609926224,
1225
  "learning_rate": 8.465346534653464e-05,
1226
- "loss": 0.8338,
1227
  "step": 1740
1228
  },
1229
  {
1230
  "epoch": 2.1632148377125193,
1231
- "grad_norm": 0.05768771097064018,
1232
  "learning_rate": 8.341584158415841e-05,
1233
  "loss": 0.8321,
1234
  "step": 1750
1235
  },
1236
  {
1237
  "epoch": 2.175579598145286,
1238
- "grad_norm": 0.05351224169135094,
1239
  "learning_rate": 8.217821782178216e-05,
1240
- "loss": 0.8426,
1241
  "step": 1760
1242
  },
1243
  {
1244
  "epoch": 2.1879443585780525,
1245
- "grad_norm": 0.06381036341190338,
1246
  "learning_rate": 8.094059405940594e-05,
1247
- "loss": 0.8531,
1248
  "step": 1770
1249
  },
1250
  {
1251
  "epoch": 2.2003091190108193,
1252
- "grad_norm": 0.057617682963609695,
1253
  "learning_rate": 7.97029702970297e-05,
1254
- "loss": 0.8263,
1255
  "step": 1780
1256
  },
1257
  {
1258
  "epoch": 2.2126738794435856,
1259
- "grad_norm": 0.06280315667390823,
1260
  "learning_rate": 7.846534653465345e-05,
1261
- "loss": 0.8073,
1262
  "step": 1790
1263
  },
1264
  {
1265
  "epoch": 2.2250386398763524,
1266
- "grad_norm": 0.06251993030309677,
1267
  "learning_rate": 7.722772277227722e-05,
1268
- "loss": 0.8285,
1269
  "step": 1800
1270
  },
1271
  {
1272
  "epoch": 2.237403400309119,
1273
- "grad_norm": 0.05487222224473953,
1274
  "learning_rate": 7.599009900990098e-05,
1275
- "loss": 0.8389,
1276
  "step": 1810
1277
  },
1278
  {
1279
  "epoch": 2.2497681607418856,
1280
- "grad_norm": 0.06212658807635307,
1281
  "learning_rate": 7.475247524752474e-05,
1282
- "loss": 0.819,
1283
  "step": 1820
1284
  },
1285
  {
1286
  "epoch": 2.2621329211746524,
1287
- "grad_norm": 0.06791824847459793,
1288
  "learning_rate": 7.35148514851485e-05,
1289
- "loss": 0.823,
1290
  "step": 1830
1291
  },
1292
  {
1293
  "epoch": 2.2744976816074187,
1294
- "grad_norm": 0.06564588844776154,
1295
  "learning_rate": 7.227722772277227e-05,
1296
- "loss": 0.8399,
1297
  "step": 1840
1298
  },
1299
  {
1300
  "epoch": 2.2868624420401855,
1301
- "grad_norm": 0.07918984442949295,
1302
  "learning_rate": 7.103960396039604e-05,
1303
- "loss": 0.8441,
1304
  "step": 1850
1305
  },
1306
  {
1307
  "epoch": 2.2992272024729523,
1308
- "grad_norm": 0.06684021651744843,
1309
  "learning_rate": 6.98019801980198e-05,
1310
- "loss": 0.8213,
1311
  "step": 1860
1312
  },
1313
  {
1314
  "epoch": 2.3115919629057187,
1315
- "grad_norm": 0.05864300578832626,
1316
  "learning_rate": 6.856435643564355e-05,
1317
- "loss": 0.8238,
1318
  "step": 1870
1319
  },
1320
  {
1321
  "epoch": 2.3239567233384855,
1322
- "grad_norm": 0.05827944353222847,
1323
  "learning_rate": 6.732673267326732e-05,
1324
- "loss": 0.8438,
1325
  "step": 1880
1326
  },
1327
  {
1328
  "epoch": 2.336321483771252,
1329
- "grad_norm": 0.05539786070585251,
1330
  "learning_rate": 6.608910891089109e-05,
1331
  "loss": 0.8173,
1332
  "step": 1890
1333
  },
1334
  {
1335
  "epoch": 2.3486862442040186,
1336
- "grad_norm": 0.06571885198354721,
1337
  "learning_rate": 6.485148514851485e-05,
1338
- "loss": 0.8262,
1339
  "step": 1900
1340
  },
1341
  {
1342
  "epoch": 2.361051004636785,
1343
- "grad_norm": 0.06220625340938568,
1344
  "learning_rate": 6.361386138613861e-05,
1345
- "loss": 0.8576,
1346
  "step": 1910
1347
  },
1348
  {
1349
  "epoch": 2.3734157650695518,
1350
- "grad_norm": 0.0579352080821991,
1351
  "learning_rate": 6.237623762376237e-05,
1352
  "loss": 0.8227,
1353
  "step": 1920
1354
  },
1355
  {
1356
  "epoch": 2.3857805255023186,
1357
- "grad_norm": 0.06193961948156357,
1358
  "learning_rate": 6.113861386138613e-05,
1359
- "loss": 0.8414,
1360
  "step": 1930
1361
  },
1362
  {
1363
  "epoch": 2.398145285935085,
1364
- "grad_norm": 0.061364226043224335,
1365
  "learning_rate": 5.99009900990099e-05,
1366
- "loss": 0.8387,
1367
  "step": 1940
1368
  },
1369
  {
1370
  "epoch": 2.4105100463678517,
1371
- "grad_norm": 0.05785266309976578,
1372
  "learning_rate": 5.866336633663366e-05,
1373
- "loss": 0.8284,
1374
  "step": 1950
1375
  },
1376
  {
1377
  "epoch": 2.422874806800618,
1378
- "grad_norm": 0.057832520455121994,
1379
  "learning_rate": 5.742574257425742e-05,
1380
- "loss": 0.8197,
1381
  "step": 1960
1382
  },
1383
  {
1384
  "epoch": 2.435239567233385,
1385
- "grad_norm": 0.06421726942062378,
1386
  "learning_rate": 5.618811881188118e-05,
1387
- "loss": 0.8402,
1388
  "step": 1970
1389
  },
1390
  {
1391
  "epoch": 2.4476043276661517,
1392
- "grad_norm": 0.06815137714147568,
1393
  "learning_rate": 5.4950495049504944e-05,
1394
- "loss": 0.8389,
1395
  "step": 1980
1396
  },
1397
  {
1398
  "epoch": 2.459969088098918,
1399
- "grad_norm": 0.06730205565690994,
1400
  "learning_rate": 5.371287128712871e-05,
1401
- "loss": 0.8604,
1402
  "step": 1990
1403
  },
1404
  {
1405
  "epoch": 2.472333848531685,
1406
- "grad_norm": 0.05876993387937546,
1407
  "learning_rate": 5.247524752475247e-05,
1408
  "loss": 0.8254,
1409
  "step": 2000
1410
  },
1411
  {
1412
  "epoch": 2.484698608964451,
1413
- "grad_norm": 0.06757384538650513,
1414
  "learning_rate": 5.1237623762376234e-05,
1415
- "loss": 0.8292,
1416
  "step": 2010
1417
  },
1418
  {
1419
  "epoch": 2.497063369397218,
1420
- "grad_norm": 0.06531625986099243,
1421
  "learning_rate": 4.9999999999999996e-05,
1422
  "loss": 0.8321,
1423
  "step": 2020
1424
  },
1425
  {
1426
  "epoch": 2.5094281298299848,
1427
- "grad_norm": 0.060086678713560104,
1428
  "learning_rate": 4.876237623762376e-05,
1429
- "loss": 0.8459,
1430
  "step": 2030
1431
  },
1432
  {
1433
  "epoch": 2.521792890262751,
1434
- "grad_norm": 0.06336929649114609,
1435
  "learning_rate": 4.752475247524752e-05,
1436
- "loss": 0.82,
1437
  "step": 2040
1438
  },
1439
  {
1440
  "epoch": 2.534157650695518,
1441
- "grad_norm": 0.06393607705831528,
1442
  "learning_rate": 4.6287128712871286e-05,
1443
- "loss": 0.8313,
1444
  "step": 2050
1445
  },
1446
  {
1447
  "epoch": 2.5465224111282843,
1448
- "grad_norm": 0.06480514258146286,
1449
  "learning_rate": 4.504950495049505e-05,
1450
- "loss": 0.8442,
1451
  "step": 2060
1452
  },
1453
  {
1454
  "epoch": 2.558887171561051,
1455
- "grad_norm": 0.07233238965272903,
1456
  "learning_rate": 4.38118811881188e-05,
1457
- "loss": 0.8256,
1458
  "step": 2070
1459
  },
1460
  {
1461
  "epoch": 2.5712519319938174,
1462
- "grad_norm": 0.06636520475149155,
1463
  "learning_rate": 4.257425742574257e-05,
1464
- "loss": 0.8284,
1465
  "step": 2080
1466
  },
1467
  {
1468
  "epoch": 2.583616692426584,
1469
- "grad_norm": 0.07016933709383011,
1470
  "learning_rate": 4.133663366336633e-05,
1471
- "loss": 0.8378,
1472
  "step": 2090
1473
  },
1474
  {
1475
  "epoch": 2.595981452859351,
1476
- "grad_norm": 0.06668656319379807,
1477
  "learning_rate": 4.00990099009901e-05,
1478
- "loss": 0.8461,
1479
  "step": 2100
1480
  },
1481
  {
1482
  "epoch": 2.6083462132921174,
1483
- "grad_norm": 0.07296927273273468,
1484
  "learning_rate": 3.886138613861386e-05,
1485
- "loss": 0.8432,
1486
  "step": 2110
1487
  },
1488
  {
1489
  "epoch": 2.620710973724884,
1490
- "grad_norm": 0.06670273840427399,
1491
  "learning_rate": 3.7623762376237615e-05,
1492
- "loss": 0.819,
1493
  "step": 2120
1494
  },
1495
  {
1496
  "epoch": 2.633075734157651,
1497
- "grad_norm": 0.060203880071640015,
1498
  "learning_rate": 3.638613861386138e-05,
1499
- "loss": 0.8063,
1500
  "step": 2130
1501
  },
1502
  {
1503
  "epoch": 2.6454404945904173,
1504
- "grad_norm": 0.06635984778404236,
1505
  "learning_rate": 3.5148514851485144e-05,
1506
  "loss": 0.8364,
1507
  "step": 2140
1508
  },
1509
  {
1510
  "epoch": 2.6578052550231837,
1511
- "grad_norm": 0.060412149876356125,
1512
  "learning_rate": 3.3910891089108906e-05,
1513
- "loss": 0.827,
1514
  "step": 2150
1515
  },
1516
  {
1517
  "epoch": 2.6701700154559505,
1518
- "grad_norm": 0.05948295816779137,
1519
  "learning_rate": 3.267326732673267e-05,
1520
- "loss": 0.802,
1521
  "step": 2160
1522
  },
1523
  {
1524
  "epoch": 2.6825347758887172,
1525
- "grad_norm": 0.06251130253076553,
1526
  "learning_rate": 3.1435643564356435e-05,
1527
- "loss": 0.8302,
1528
  "step": 2170
1529
  },
1530
  {
1531
  "epoch": 2.6948995363214836,
1532
- "grad_norm": 0.06650058180093765,
1533
  "learning_rate": 3.0198019801980193e-05,
1534
- "loss": 0.8386,
1535
  "step": 2180
1536
  },
1537
  {
1538
  "epoch": 2.7072642967542504,
1539
- "grad_norm": 0.07029715925455093,
1540
  "learning_rate": 2.8960396039603958e-05,
1541
- "loss": 0.8421,
1542
  "step": 2190
1543
  },
1544
  {
1545
  "epoch": 2.719629057187017,
1546
- "grad_norm": 0.06135771796107292,
1547
  "learning_rate": 2.772277227722772e-05,
1548
- "loss": 0.829,
1549
  "step": 2200
1550
  },
1551
  {
1552
  "epoch": 2.7319938176197835,
1553
- "grad_norm": 0.06303984671831131,
1554
  "learning_rate": 2.6485148514851484e-05,
1555
- "loss": 0.8408,
1556
  "step": 2210
1557
  },
1558
  {
1559
  "epoch": 2.7443585780525503,
1560
- "grad_norm": 0.06396885961294174,
1561
  "learning_rate": 2.5247524752475248e-05,
1562
- "loss": 0.817,
1563
  "step": 2220
1564
  },
1565
  {
1566
  "epoch": 2.7567233384853167,
1567
- "grad_norm": 0.05814013257622719,
1568
  "learning_rate": 2.4009900990099006e-05,
1569
- "loss": 0.8384,
1570
  "step": 2230
1571
  },
1572
  {
1573
  "epoch": 2.7690880989180835,
1574
- "grad_norm": 0.07185972481966019,
1575
  "learning_rate": 2.277227722772277e-05,
1576
- "loss": 0.8143,
1577
  "step": 2240
1578
  },
1579
  {
1580
  "epoch": 2.78145285935085,
1581
- "grad_norm": 0.06624460965394974,
1582
  "learning_rate": 2.1534653465346532e-05,
1583
- "loss": 0.8296,
1584
  "step": 2250
1585
  },
1586
  {
1587
  "epoch": 2.7938176197836166,
1588
- "grad_norm": 0.06510159373283386,
1589
  "learning_rate": 2.0297029702970297e-05,
1590
- "loss": 0.8302,
1591
  "step": 2260
1592
  },
1593
  {
1594
  "epoch": 2.8061823802163834,
1595
- "grad_norm": 0.06376007944345474,
1596
  "learning_rate": 1.9059405940594058e-05,
1597
- "loss": 0.8173,
1598
  "step": 2270
1599
  },
1600
  {
1601
  "epoch": 2.81854714064915,
1602
- "grad_norm": 0.0644875094294548,
1603
  "learning_rate": 1.782178217821782e-05,
1604
- "loss": 0.8358,
1605
  "step": 2280
1606
  },
1607
  {
1608
  "epoch": 2.8309119010819166,
1609
- "grad_norm": 0.05571649968624115,
1610
  "learning_rate": 1.6584158415841584e-05,
1611
- "loss": 0.8139,
1612
  "step": 2290
1613
  },
1614
  {
1615
  "epoch": 2.8432766615146834,
1616
- "grad_norm": 0.06556589901447296,
1617
  "learning_rate": 1.5346534653465345e-05,
1618
- "loss": 0.8241,
1619
  "step": 2300
1620
  },
1621
  {
1622
  "epoch": 2.8556414219474497,
1623
- "grad_norm": 0.06124770641326904,
1624
  "learning_rate": 1.4108910891089108e-05,
1625
- "loss": 0.8184,
1626
  "step": 2310
1627
  },
1628
  {
1629
  "epoch": 2.8680061823802165,
1630
- "grad_norm": 0.06707081943750381,
1631
  "learning_rate": 1.287128712871287e-05,
1632
  "loss": 0.8194,
1633
  "step": 2320
1634
  },
1635
  {
1636
  "epoch": 2.880370942812983,
1637
- "grad_norm": 0.06600210070610046,
1638
  "learning_rate": 1.1633663366336632e-05,
1639
- "loss": 0.8614,
1640
  "step": 2330
1641
  },
1642
  {
1643
  "epoch": 2.8927357032457497,
1644
- "grad_norm": 0.06310021132230759,
1645
  "learning_rate": 1.0396039603960395e-05,
1646
- "loss": 0.8485,
1647
  "step": 2340
1648
  },
1649
  {
1650
  "epoch": 2.905100463678516,
1651
- "grad_norm": 0.06110014021396637,
1652
  "learning_rate": 9.158415841584158e-06,
1653
- "loss": 0.8171,
1654
  "step": 2350
1655
  },
1656
  {
1657
  "epoch": 2.917465224111283,
1658
- "grad_norm": 0.07767624408006668,
1659
  "learning_rate": 7.92079207920792e-06,
1660
- "loss": 0.8403,
1661
  "step": 2360
1662
  },
1663
  {
1664
  "epoch": 2.9298299845440496,
1665
- "grad_norm": 0.07363846898078918,
1666
  "learning_rate": 6.683168316831683e-06,
1667
- "loss": 0.8453,
1668
  "step": 2370
1669
  },
1670
  {
1671
  "epoch": 2.942194744976816,
1672
- "grad_norm": 0.06242545694112778,
1673
  "learning_rate": 5.445544554455446e-06,
1674
- "loss": 0.8448,
1675
  "step": 2380
1676
  },
1677
  {
1678
  "epoch": 2.954559505409583,
1679
- "grad_norm": 0.06873054057359695,
1680
  "learning_rate": 4.207920792079208e-06,
1681
- "loss": 0.8412,
1682
  "step": 2390
1683
  },
1684
  {
1685
  "epoch": 2.966924265842349,
1686
- "grad_norm": 0.06264466792345047,
1687
  "learning_rate": 2.97029702970297e-06,
1688
- "loss": 0.8426,
1689
  "step": 2400
1690
  },
1691
  {
1692
  "epoch": 2.979289026275116,
1693
- "grad_norm": 0.06905832886695862,
1694
  "learning_rate": 1.7326732673267324e-06,
1695
- "loss": 0.8469,
1696
  "step": 2410
1697
  },
1698
  {
1699
  "epoch": 2.9916537867078823,
1700
- "grad_norm": 0.061685774475336075,
1701
  "learning_rate": 4.95049504950495e-07,
1702
- "loss": 0.8339,
1703
  "step": 2420
1704
  }
1705
  ],
@@ -1720,7 +1720,7 @@
1720
  "attributes": {}
1721
  }
1722
  },
1723
- "total_flos": 2.723183421298311e+18,
1724
  "train_batch_size": 8,
1725
  "trial_name": null,
1726
  "trial_params": null
 
10
  "log_history": [
11
  {
12
  "epoch": 0.012364760432766615,
13
+ "grad_norm": 0.04910803958773613,
14
  "learning_rate": 0.00029876237623762373,
15
+ "loss": 1.0084,
16
  "step": 10
17
  },
18
  {
19
  "epoch": 0.02472952086553323,
20
+ "grad_norm": 0.037698596715927124,
21
  "learning_rate": 0.0002975247524752475,
22
+ "loss": 0.9609,
23
  "step": 20
24
  },
25
  {
26
  "epoch": 0.03709428129829984,
27
+ "grad_norm": 0.03782161325216293,
28
  "learning_rate": 0.00029628712871287126,
29
  "loss": 0.9033,
30
  "step": 30
31
  },
32
  {
33
  "epoch": 0.04945904173106646,
34
+ "grad_norm": 0.04191258177161217,
35
  "learning_rate": 0.000295049504950495,
36
  "loss": 0.9154,
37
  "step": 40
38
  },
39
  {
40
  "epoch": 0.061823802163833076,
41
+ "grad_norm": 0.0391441248357296,
42
  "learning_rate": 0.0002938118811881188,
43
  "loss": 0.9001,
44
  "step": 50
45
  },
46
  {
47
  "epoch": 0.07418856259659969,
48
+ "grad_norm": 0.04036989435553551,
49
  "learning_rate": 0.00029257425742574254,
50
  "loss": 0.9069,
51
  "step": 60
52
  },
53
  {
54
  "epoch": 0.0865533230293663,
55
+ "grad_norm": 0.036793895065784454,
56
  "learning_rate": 0.0002913366336633663,
57
+ "loss": 0.8903,
58
  "step": 70
59
  },
60
  {
61
  "epoch": 0.09891808346213292,
62
+ "grad_norm": 0.04941694810986519,
63
  "learning_rate": 0.00029009900990099006,
64
  "loss": 0.928,
65
  "step": 80
66
  },
67
  {
68
  "epoch": 0.11128284389489954,
69
+ "grad_norm": 0.03952586278319359,
70
  "learning_rate": 0.0002888613861386138,
71
+ "loss": 0.9121,
72
  "step": 90
73
  },
74
  {
75
  "epoch": 0.12364760432766615,
76
+ "grad_norm": 0.04417801648378372,
77
  "learning_rate": 0.0002876237623762376,
78
+ "loss": 0.8918,
79
  "step": 100
80
  },
81
  {
82
  "epoch": 0.13601236476043277,
83
+ "grad_norm": 0.03843015059828758,
84
  "learning_rate": 0.00028638613861386135,
85
  "loss": 0.8988,
86
  "step": 110
87
  },
88
  {
89
  "epoch": 0.14837712519319937,
90
+ "grad_norm": 0.035807665437459946,
91
  "learning_rate": 0.0002851485148514851,
92
  "loss": 0.899,
93
  "step": 120
94
  },
95
  {
96
  "epoch": 0.160741885625966,
97
+ "grad_norm": 0.041015319526195526,
98
  "learning_rate": 0.00028391089108910887,
99
  "loss": 0.8937,
100
  "step": 130
101
  },
102
  {
103
  "epoch": 0.1731066460587326,
104
+ "grad_norm": 0.04108859598636627,
105
  "learning_rate": 0.00028267326732673263,
106
+ "loss": 0.894,
107
  "step": 140
108
  },
109
  {
110
  "epoch": 0.18547140649149924,
111
+ "grad_norm": 0.03874868154525757,
112
  "learning_rate": 0.0002814356435643564,
113
+ "loss": 0.9088,
114
  "step": 150
115
  },
116
  {
117
  "epoch": 0.19783616692426584,
118
+ "grad_norm": 0.03931848704814911,
119
  "learning_rate": 0.00028019801980198015,
120
+ "loss": 0.9079,
121
  "step": 160
122
  },
123
  {
124
  "epoch": 0.21020092735703247,
125
+ "grad_norm": 0.04638601467013359,
126
  "learning_rate": 0.0002789603960396039,
127
+ "loss": 0.9057,
128
  "step": 170
129
  },
130
  {
131
  "epoch": 0.22256568778979907,
132
+ "grad_norm": 0.05649528279900551,
133
  "learning_rate": 0.00027772277227722773,
134
+ "loss": 0.872,
135
  "step": 180
136
  },
137
  {
138
  "epoch": 0.23493044822256567,
139
+ "grad_norm": 0.043013814836740494,
140
  "learning_rate": 0.00027648514851485144,
141
  "loss": 0.9102,
142
  "step": 190
143
  },
144
  {
145
  "epoch": 0.2472952086553323,
146
+ "grad_norm": 0.04763510450720787,
147
  "learning_rate": 0.0002752475247524752,
148
+ "loss": 0.8894,
149
  "step": 200
150
  },
151
  {
152
  "epoch": 0.2596599690880989,
153
+ "grad_norm": 0.03904448449611664,
154
  "learning_rate": 0.000274009900990099,
155
+ "loss": 0.8856,
156
  "step": 210
157
  },
158
  {
159
  "epoch": 0.27202472952086554,
160
+ "grad_norm": 0.04328664019703865,
161
  "learning_rate": 0.0002727722772277227,
162
  "loss": 0.8967,
163
  "step": 220
164
  },
165
  {
166
  "epoch": 0.28438948995363217,
167
+ "grad_norm": 0.04718885198235512,
168
  "learning_rate": 0.0002715346534653465,
169
+ "loss": 0.892,
170
  "step": 230
171
  },
172
  {
173
  "epoch": 0.29675425038639874,
174
+ "grad_norm": 0.048305947333574295,
175
  "learning_rate": 0.0002702970297029703,
176
+ "loss": 0.8896,
177
  "step": 240
178
  },
179
  {
180
  "epoch": 0.3091190108191654,
181
+ "grad_norm": 0.04656008258461952,
182
  "learning_rate": 0.000269059405940594,
183
+ "loss": 0.8942,
184
  "step": 250
185
  },
186
  {
187
  "epoch": 0.321483771251932,
188
+ "grad_norm": 0.041436970233917236,
189
  "learning_rate": 0.00026782178217821777,
190
  "loss": 0.892,
191
  "step": 260
192
  },
193
  {
194
  "epoch": 0.33384853168469864,
195
+ "grad_norm": 0.043510112911462784,
196
  "learning_rate": 0.0002665841584158416,
197
  "loss": 0.8813,
198
  "step": 270
199
  },
200
  {
201
  "epoch": 0.3462132921174652,
202
+ "grad_norm": 0.039642177522182465,
203
  "learning_rate": 0.00026534653465346534,
204
+ "loss": 0.8884,
205
  "step": 280
206
  },
207
  {
208
  "epoch": 0.35857805255023184,
209
+ "grad_norm": 0.043365489691495895,
210
  "learning_rate": 0.00026410891089108905,
211
+ "loss": 0.8963,
212
  "step": 290
213
  },
214
  {
215
  "epoch": 0.37094281298299847,
216
+ "grad_norm": 0.04440496489405632,
217
  "learning_rate": 0.00026287128712871287,
218
+ "loss": 0.8865,
219
  "step": 300
220
  },
221
  {
222
  "epoch": 0.38330757341576505,
223
+ "grad_norm": 0.04222091659903526,
224
  "learning_rate": 0.00026163366336633663,
225
+ "loss": 0.8935,
226
  "step": 310
227
  },
228
  {
229
  "epoch": 0.3956723338485317,
230
+ "grad_norm": 0.04118286073207855,
231
  "learning_rate": 0.00026039603960396033,
232
+ "loss": 0.8742,
233
  "step": 320
234
  },
235
  {
236
  "epoch": 0.4080370942812983,
237
+ "grad_norm": 0.04324512556195259,
238
  "learning_rate": 0.00025915841584158415,
239
+ "loss": 0.8918,
240
  "step": 330
241
  },
242
  {
243
  "epoch": 0.42040185471406494,
244
+ "grad_norm": 0.04111215099692345,
245
  "learning_rate": 0.0002579207920792079,
246
+ "loss": 0.8795,
247
  "step": 340
248
  },
249
  {
250
  "epoch": 0.4327666151468315,
251
+ "grad_norm": 0.04449688270688057,
252
  "learning_rate": 0.0002566831683168316,
253
+ "loss": 0.8889,
254
  "step": 350
255
  },
256
  {
257
  "epoch": 0.44513137557959814,
258
+ "grad_norm": 0.04658028110861778,
259
  "learning_rate": 0.00025544554455445543,
260
  "loss": 0.8798,
261
  "step": 360
262
  },
263
  {
264
  "epoch": 0.4574961360123648,
265
+ "grad_norm": 0.037669096142053604,
266
  "learning_rate": 0.0002542079207920792,
267
  "loss": 0.8809,
268
  "step": 370
269
  },
270
  {
271
  "epoch": 0.46986089644513135,
272
+ "grad_norm": 0.04158737137913704,
273
  "learning_rate": 0.00025297029702970296,
274
+ "loss": 0.8922,
275
  "step": 380
276
  },
277
  {
278
  "epoch": 0.482225656877898,
279
+ "grad_norm": 0.047567520290613174,
280
  "learning_rate": 0.0002517326732673267,
281
+ "loss": 0.8949,
282
  "step": 390
283
  },
284
  {
285
  "epoch": 0.4945904173106646,
286
+ "grad_norm": 0.057194869965314865,
287
  "learning_rate": 0.0002504950495049505,
288
  "loss": 0.8774,
289
  "step": 400
290
  },
291
  {
292
  "epoch": 0.5069551777434312,
293
+ "grad_norm": 0.04181217402219772,
294
  "learning_rate": 0.00024925742574257424,
295
+ "loss": 0.8907,
296
  "step": 410
297
  },
298
  {
299
  "epoch": 0.5193199381761978,
300
+ "grad_norm": 0.045876242220401764,
301
  "learning_rate": 0.000248019801980198,
302
+ "loss": 0.8841,
303
  "step": 420
304
  },
305
  {
306
  "epoch": 0.5316846986089645,
307
+ "grad_norm": 0.041932158172130585,
308
  "learning_rate": 0.00024678217821782176,
309
+ "loss": 0.8582,
310
  "step": 430
311
  },
312
  {
313
  "epoch": 0.5440494590417311,
314
+ "grad_norm": 0.044740475714206696,
315
  "learning_rate": 0.0002455445544554455,
316
+ "loss": 0.9204,
317
  "step": 440
318
  },
319
  {
320
  "epoch": 0.5564142194744977,
321
+ "grad_norm": 0.04608389362692833,
322
  "learning_rate": 0.0002443069306930693,
323
+ "loss": 0.8859,
324
  "step": 450
325
  },
326
  {
327
  "epoch": 0.5687789799072643,
328
+ "grad_norm": 0.04750910773873329,
329
  "learning_rate": 0.00024306930693069305,
330
+ "loss": 0.8786,
331
  "step": 460
332
  },
333
  {
334
  "epoch": 0.5811437403400309,
335
+ "grad_norm": 0.0407898910343647,
336
  "learning_rate": 0.0002418316831683168,
337
  "loss": 0.8731,
338
  "step": 470
339
  },
340
  {
341
  "epoch": 0.5935085007727975,
342
+ "grad_norm": 0.047790151089429855,
343
  "learning_rate": 0.0002405940594059406,
344
+ "loss": 0.8984,
345
  "step": 480
346
  },
347
  {
348
  "epoch": 0.6058732612055642,
349
+ "grad_norm": 0.04182444140315056,
350
  "learning_rate": 0.00023935643564356433,
351
  "loss": 0.8865,
352
  "step": 490
353
  },
354
  {
355
  "epoch": 0.6182380216383307,
356
+ "grad_norm": 0.04374885559082031,
357
  "learning_rate": 0.0002381188118811881,
358
+ "loss": 0.8736,
359
  "step": 500
360
  },
361
  {
362
  "epoch": 0.6306027820710973,
363
+ "grad_norm": 0.04540247470140457,
364
  "learning_rate": 0.00023688118811881188,
365
+ "loss": 0.8977,
366
  "step": 510
367
  },
368
  {
369
  "epoch": 0.642967542503864,
370
+ "grad_norm": 0.039125751703977585,
371
  "learning_rate": 0.00023564356435643561,
372
+ "loss": 0.8955,
373
  "step": 520
374
  },
375
  {
376
  "epoch": 0.6553323029366306,
377
+ "grad_norm": 0.04842868447303772,
378
  "learning_rate": 0.00023440594059405938,
379
  "loss": 0.8979,
380
  "step": 530
381
  },
382
  {
383
  "epoch": 0.6676970633693973,
384
+ "grad_norm": 0.04414287582039833,
385
  "learning_rate": 0.00023316831683168316,
386
+ "loss": 0.9063,
387
  "step": 540
388
  },
389
  {
390
  "epoch": 0.6800618238021638,
391
+ "grad_norm": 0.05018250271677971,
392
  "learning_rate": 0.0002319306930693069,
393
+ "loss": 0.894,
394
  "step": 550
395
  },
396
  {
397
  "epoch": 0.6924265842349304,
398
+ "grad_norm": 0.04726792126893997,
399
  "learning_rate": 0.00023069306930693066,
400
  "loss": 0.8716,
401
  "step": 560
402
  },
403
  {
404
  "epoch": 0.7047913446676971,
405
+ "grad_norm": 0.049401551485061646,
406
  "learning_rate": 0.00022945544554455445,
407
+ "loss": 0.9016,
408
  "step": 570
409
  },
410
  {
411
  "epoch": 0.7171561051004637,
412
+ "grad_norm": 0.049783241003751755,
413
  "learning_rate": 0.0002282178217821782,
414
  "loss": 0.8774,
415
  "step": 580
416
  },
417
  {
418
  "epoch": 0.7295208655332303,
419
+ "grad_norm": 0.04755168408155441,
420
  "learning_rate": 0.00022698019801980194,
421
+ "loss": 0.8814,
422
  "step": 590
423
  },
424
  {
425
  "epoch": 0.7418856259659969,
426
+ "grad_norm": 0.04885553568601608,
427
  "learning_rate": 0.00022574257425742573,
428
+ "loss": 0.8744,
429
  "step": 600
430
  },
431
  {
432
  "epoch": 0.7542503863987635,
433
+ "grad_norm": 0.04771718755364418,
434
  "learning_rate": 0.0002245049504950495,
435
+ "loss": 0.9001,
436
  "step": 610
437
  },
438
  {
439
  "epoch": 0.7666151468315301,
440
+ "grad_norm": 0.04642605781555176,
441
  "learning_rate": 0.00022326732673267323,
442
+ "loss": 0.88,
443
  "step": 620
444
  },
445
  {
446
  "epoch": 0.7789799072642968,
447
+ "grad_norm": 0.047350749373435974,
448
  "learning_rate": 0.00022202970297029702,
449
+ "loss": 0.8928,
450
  "step": 630
451
  },
452
  {
453
  "epoch": 0.7913446676970634,
454
+ "grad_norm": 0.04467844218015671,
455
  "learning_rate": 0.00022079207920792078,
456
+ "loss": 0.885,
457
  "step": 640
458
  },
459
  {
460
  "epoch": 0.80370942812983,
461
+ "grad_norm": 0.04457986727356911,
462
  "learning_rate": 0.0002195544554455445,
463
+ "loss": 0.888,
464
  "step": 650
465
  },
466
  {
467
  "epoch": 0.8160741885625966,
468
+ "grad_norm": 0.04410697519779205,
469
  "learning_rate": 0.0002183168316831683,
470
+ "loss": 0.8888,
471
  "step": 660
472
  },
473
  {
474
  "epoch": 0.8284389489953632,
475
+ "grad_norm": 0.0475030243396759,
476
  "learning_rate": 0.00021707920792079206,
477
+ "loss": 0.9009,
478
  "step": 670
479
  },
480
  {
481
  "epoch": 0.8408037094281299,
482
+ "grad_norm": 0.043028101325035095,
483
  "learning_rate": 0.00021584158415841585,
484
+ "loss": 0.8735,
485
  "step": 680
486
  },
487
  {
488
  "epoch": 0.8531684698608965,
489
+ "grad_norm": 0.04463913291692734,
490
  "learning_rate": 0.00021460396039603958,
491
+ "loss": 0.8742,
492
  "step": 690
493
  },
494
  {
495
  "epoch": 0.865533230293663,
496
+ "grad_norm": 0.04648848995566368,
497
  "learning_rate": 0.00021336633663366334,
498
  "loss": 0.8899,
499
  "step": 700
500
  },
501
  {
502
  "epoch": 0.8778979907264297,
503
+ "grad_norm": 0.04463621601462364,
504
  "learning_rate": 0.00021212871287128713,
505
+ "loss": 0.8887,
506
  "step": 710
507
  },
508
  {
509
  "epoch": 0.8902627511591963,
510
+ "grad_norm": 0.04241452366113663,
511
  "learning_rate": 0.00021089108910891087,
512
+ "loss": 0.8749,
513
  "step": 720
514
  },
515
  {
516
  "epoch": 0.9026275115919629,
517
+ "grad_norm": 0.04464114084839821,
518
  "learning_rate": 0.00020965346534653463,
519
+ "loss": 0.8774,
520
  "step": 730
521
  },
522
  {
523
  "epoch": 0.9149922720247295,
524
+ "grad_norm": 0.04345027729868889,
525
  "learning_rate": 0.00020841584158415842,
526
+ "loss": 0.8753,
527
  "step": 740
528
  },
529
  {
530
  "epoch": 0.9273570324574961,
531
+ "grad_norm": 0.048532094806432724,
532
  "learning_rate": 0.00020717821782178215,
533
+ "loss": 0.8946,
534
  "step": 750
535
  },
536
  {
537
  "epoch": 0.9397217928902627,
538
+ "grad_norm": 0.04126739129424095,
539
  "learning_rate": 0.0002059405940594059,
540
+ "loss": 0.903,
541
  "step": 760
542
  },
543
  {
544
  "epoch": 0.9520865533230294,
545
+ "grad_norm": 0.04423375427722931,
546
  "learning_rate": 0.0002047029702970297,
547
+ "loss": 0.8843,
548
  "step": 770
549
  },
550
  {
551
  "epoch": 0.964451313755796,
552
+ "grad_norm": 0.04136930778622627,
553
  "learning_rate": 0.00020346534653465346,
554
+ "loss": 0.8757,
555
  "step": 780
556
  },
557
  {
558
  "epoch": 0.9768160741885626,
559
+ "grad_norm": 0.05331163853406906,
560
  "learning_rate": 0.0002022277227722772,
561
+ "loss": 0.8842,
562
  "step": 790
563
  },
564
  {
565
  "epoch": 0.9891808346213292,
566
+ "grad_norm": 0.04790889099240303,
567
  "learning_rate": 0.00020099009900990098,
568
+ "loss": 0.8814,
569
  "step": 800
570
  },
571
  {
572
  "epoch": 1.0012364760432766,
573
+ "grad_norm": 0.05177275091409683,
574
  "learning_rate": 0.00019975247524752475,
575
+ "loss": 0.8858,
576
  "step": 810
577
  },
578
  {
579
  "epoch": 1.0136012364760432,
580
+ "grad_norm": 0.0411980040371418,
581
  "learning_rate": 0.00019851485148514848,
582
  "loss": 0.8461,
583
  "step": 820
584
  },
585
  {
586
  "epoch": 1.02596599690881,
587
+ "grad_norm": 0.04518349468708038,
588
  "learning_rate": 0.00019727722772277227,
589
+ "loss": 0.8547,
590
  "step": 830
591
  },
592
  {
593
  "epoch": 1.0383307573415765,
594
+ "grad_norm": 0.047048419713974,
595
  "learning_rate": 0.00019603960396039603,
596
+ "loss": 0.8502,
597
  "step": 840
598
  },
599
  {
600
  "epoch": 1.0506955177743431,
601
+ "grad_norm": 0.04998902231454849,
602
  "learning_rate": 0.00019480198019801976,
603
  "loss": 0.8584,
604
  "step": 850
605
  },
606
  {
607
  "epoch": 1.0630602782071097,
608
+ "grad_norm": 0.05004483088850975,
609
  "learning_rate": 0.00019356435643564355,
610
+ "loss": 0.8787,
611
  "step": 860
612
  },
613
  {
614
  "epoch": 1.0754250386398763,
615
+ "grad_norm": 0.0483798012137413,
616
  "learning_rate": 0.0001923267326732673,
617
+ "loss": 0.8732,
618
  "step": 870
619
  },
620
  {
621
  "epoch": 1.087789799072643,
622
+ "grad_norm": 0.048114124685525894,
623
  "learning_rate": 0.00019108910891089107,
624
+ "loss": 0.8773,
625
  "step": 880
626
  },
627
  {
628
  "epoch": 1.1001545595054096,
629
+ "grad_norm": 0.04553611949086189,
630
  "learning_rate": 0.00018985148514851484,
631
+ "loss": 0.8646,
632
  "step": 890
633
  },
634
  {
635
  "epoch": 1.1125193199381762,
636
+ "grad_norm": 0.052288319915533066,
637
  "learning_rate": 0.0001886138613861386,
638
+ "loss": 0.8592,
639
  "step": 900
640
  },
641
  {
642
  "epoch": 1.1248840803709428,
643
+ "grad_norm": 0.05070117861032486,
644
  "learning_rate": 0.00018737623762376236,
645
+ "loss": 0.8565,
646
  "step": 910
647
  },
648
  {
649
  "epoch": 1.1372488408037094,
650
+ "grad_norm": 0.049008361995220184,
651
  "learning_rate": 0.00018613861386138612,
652
+ "loss": 0.8783,
653
  "step": 920
654
  },
655
  {
656
  "epoch": 1.1496136012364762,
657
+ "grad_norm": 0.04916449636220932,
658
  "learning_rate": 0.00018490099009900988,
659
+ "loss": 0.8668,
660
  "step": 930
661
  },
662
  {
663
  "epoch": 1.1619783616692427,
664
+ "grad_norm": 0.05646826699376106,
665
  "learning_rate": 0.00018366336633663364,
666
+ "loss": 0.858,
667
  "step": 940
668
  },
669
  {
670
  "epoch": 1.1743431221020093,
671
+ "grad_norm": 0.05039024353027344,
672
  "learning_rate": 0.0001824257425742574,
673
+ "loss": 0.8687,
674
  "step": 950
675
  },
676
  {
677
  "epoch": 1.1867078825347759,
678
+ "grad_norm": 0.052257779985666275,
679
  "learning_rate": 0.00018118811881188116,
680
  "loss": 0.8731,
681
  "step": 960
682
  },
683
  {
684
  "epoch": 1.1990726429675425,
685
+ "grad_norm": 0.04960246384143829,
686
  "learning_rate": 0.00017995049504950493,
687
+ "loss": 0.8346,
688
  "step": 970
689
  },
690
  {
691
  "epoch": 1.211437403400309,
692
+ "grad_norm": 0.05193152651190758,
693
  "learning_rate": 0.00017871287128712871,
694
+ "loss": 0.8656,
695
  "step": 980
696
  },
697
  {
698
  "epoch": 1.2238021638330758,
699
+ "grad_norm": 0.05180949717760086,
700
  "learning_rate": 0.00017747524752475245,
701
  "loss": 0.8542,
702
  "step": 990
703
  },
704
  {
705
  "epoch": 1.2361669242658424,
706
+ "grad_norm": 0.05225878953933716,
707
  "learning_rate": 0.0001762376237623762,
708
  "loss": 0.8628,
709
  "step": 1000
710
  },
711
  {
712
  "epoch": 1.248531684698609,
713
+ "grad_norm": 0.05485387519001961,
714
  "learning_rate": 0.000175,
715
+ "loss": 0.8746,
716
  "step": 1010
717
  },
718
  {
719
  "epoch": 1.2608964451313756,
720
+ "grad_norm": 0.06754795461893082,
721
  "learning_rate": 0.00017376237623762373,
722
+ "loss": 0.8702,
723
  "step": 1020
724
  },
725
  {
726
  "epoch": 1.2732612055641421,
727
+ "grad_norm": 0.05525548383593559,
728
  "learning_rate": 0.00017252475247524752,
729
+ "loss": 0.863,
730
  "step": 1030
731
  },
732
  {
733
  "epoch": 1.2856259659969087,
734
+ "grad_norm": 0.05193280428647995,
735
  "learning_rate": 0.00017128712871287128,
736
+ "loss": 0.8389,
737
  "step": 1040
738
  },
739
  {
740
  "epoch": 1.2979907264296755,
741
+ "grad_norm": 0.04822159186005592,
742
  "learning_rate": 0.00017004950495049502,
743
+ "loss": 0.8665,
744
  "step": 1050
745
  },
746
  {
747
  "epoch": 1.310355486862442,
748
+ "grad_norm": 0.05497356876730919,
749
  "learning_rate": 0.0001688118811881188,
750
+ "loss": 0.8635,
751
  "step": 1060
752
  },
753
  {
754
  "epoch": 1.3227202472952087,
755
+ "grad_norm": 0.05118054896593094,
756
  "learning_rate": 0.00016757425742574257,
757
+ "loss": 0.8483,
758
  "step": 1070
759
  },
760
  {
761
  "epoch": 1.3350850077279752,
762
+ "grad_norm": 0.051902711391448975,
763
  "learning_rate": 0.00016633663366336633,
764
  "loss": 0.8478,
765
  "step": 1080
766
  },
767
  {
768
  "epoch": 1.3474497681607418,
769
+ "grad_norm": 0.049953706562519073,
770
  "learning_rate": 0.0001650990099009901,
771
+ "loss": 0.8569,
772
  "step": 1090
773
  },
774
  {
775
  "epoch": 1.3598145285935086,
776
+ "grad_norm": 0.09028486907482147,
777
  "learning_rate": 0.00016386138613861385,
778
  "loss": 0.8465,
779
  "step": 1100
780
  },
781
  {
782
  "epoch": 1.3721792890262752,
783
+ "grad_norm": 0.05248475819826126,
784
  "learning_rate": 0.0001626237623762376,
785
  "loss": 0.8707,
786
  "step": 1110
787
  },
788
  {
789
  "epoch": 1.3845440494590417,
790
+ "grad_norm": 0.05470622703433037,
791
  "learning_rate": 0.00016138613861386137,
792
+ "loss": 0.8581,
793
  "step": 1120
794
  },
795
  {
796
  "epoch": 1.3969088098918083,
797
+ "grad_norm": 0.051429346203804016,
798
  "learning_rate": 0.00016014851485148513,
799
  "loss": 0.867,
800
  "step": 1130
801
  },
802
  {
803
  "epoch": 1.409273570324575,
804
+ "grad_norm": 0.05353890359401703,
805
  "learning_rate": 0.0001589108910891089,
806
+ "loss": 0.8489,
807
  "step": 1140
808
  },
809
  {
810
  "epoch": 1.4216383307573417,
811
+ "grad_norm": 0.0630929172039032,
812
  "learning_rate": 0.00015767326732673266,
813
+ "loss": 0.8575,
814
  "step": 1150
815
  },
816
  {
817
  "epoch": 1.4340030911901083,
818
+ "grad_norm": 0.0524783730506897,
819
  "learning_rate": 0.00015643564356435642,
820
+ "loss": 0.8527,
821
  "step": 1160
822
  },
823
  {
824
  "epoch": 1.4463678516228748,
825
+ "grad_norm": 0.05413209646940231,
826
  "learning_rate": 0.00015519801980198018,
827
+ "loss": 0.8786,
828
  "step": 1170
829
  },
830
  {
831
  "epoch": 1.4587326120556414,
832
+ "grad_norm": 0.055751536041498184,
833
  "learning_rate": 0.00015396039603960397,
834
+ "loss": 0.872,
835
  "step": 1180
836
  },
837
  {
838
  "epoch": 1.471097372488408,
839
+ "grad_norm": 0.05271457880735397,
840
  "learning_rate": 0.0001527227722772277,
841
+ "loss": 0.8734,
842
  "step": 1190
843
  },
844
  {
845
  "epoch": 1.4834621329211746,
846
+ "grad_norm": 0.04827325418591499,
847
  "learning_rate": 0.00015148514851485146,
848
+ "loss": 0.8488,
849
  "step": 1200
850
  },
851
  {
852
  "epoch": 1.4958268933539411,
853
+ "grad_norm": 0.05717690661549568,
854
  "learning_rate": 0.00015024752475247525,
855
  "loss": 0.8732,
856
  "step": 1210
857
  },
858
  {
859
  "epoch": 1.508191653786708,
860
+ "grad_norm": 0.055509038269519806,
861
  "learning_rate": 0.000149009900990099,
862
+ "loss": 0.8675,
863
  "step": 1220
864
  },
865
  {
866
  "epoch": 1.5205564142194745,
867
+ "grad_norm": 0.05562078580260277,
868
  "learning_rate": 0.00014777227722772275,
869
+ "loss": 0.8644,
870
  "step": 1230
871
  },
872
  {
873
  "epoch": 1.532921174652241,
874
+ "grad_norm": 0.046674925833940506,
875
  "learning_rate": 0.00014653465346534653,
876
  "loss": 0.8429,
877
  "step": 1240
878
  },
879
  {
880
  "epoch": 1.545285935085008,
881
+ "grad_norm": 0.053251732140779495,
882
  "learning_rate": 0.0001452970297029703,
883
+ "loss": 0.849,
884
  "step": 1250
885
  },
886
  {
887
  "epoch": 1.5576506955177742,
888
+ "grad_norm": 0.05253510922193527,
889
  "learning_rate": 0.00014405940594059403,
890
+ "loss": 0.8445,
891
  "step": 1260
892
  },
893
  {
894
  "epoch": 1.570015455950541,
895
+ "grad_norm": 0.05021601915359497,
896
  "learning_rate": 0.00014282178217821782,
897
+ "loss": 0.8668,
898
  "step": 1270
899
  },
900
  {
901
  "epoch": 1.5823802163833076,
902
+ "grad_norm": 0.052446555346250534,
903
  "learning_rate": 0.00014158415841584158,
904
+ "loss": 0.8733,
905
  "step": 1280
906
  },
907
  {
908
  "epoch": 1.5947449768160742,
909
+ "grad_norm": 0.056364450603723526,
910
  "learning_rate": 0.00014034653465346534,
911
+ "loss": 0.8823,
912
  "step": 1290
913
  },
914
  {
915
  "epoch": 1.6071097372488408,
916
+ "grad_norm": 0.05288272723555565,
917
  "learning_rate": 0.0001391089108910891,
918
+ "loss": 0.8678,
919
  "step": 1300
920
  },
921
  {
922
  "epoch": 1.6194744976816073,
923
+ "grad_norm": 0.054042939096689224,
924
  "learning_rate": 0.00013787128712871286,
925
+ "loss": 0.8439,
926
  "step": 1310
927
  },
928
  {
929
  "epoch": 1.6318392581143741,
930
+ "grad_norm": 0.051554158329963684,
931
  "learning_rate": 0.00013663366336633662,
932
+ "loss": 0.8514,
933
  "step": 1320
934
  },
935
  {
936
  "epoch": 1.6442040185471405,
937
+ "grad_norm": 0.04892382398247719,
938
  "learning_rate": 0.00013539603960396039,
939
+ "loss": 0.834,
940
  "step": 1330
941
  },
942
  {
943
  "epoch": 1.6565687789799073,
944
+ "grad_norm": 0.05448554828763008,
945
  "learning_rate": 0.00013415841584158415,
946
+ "loss": 0.8484,
947
  "step": 1340
948
  },
949
  {
950
  "epoch": 1.6689335394126739,
951
+ "grad_norm": 0.056680306792259216,
952
  "learning_rate": 0.0001329207920792079,
953
+ "loss": 0.8495,
954
  "step": 1350
955
  },
956
  {
957
  "epoch": 1.6812982998454404,
958
+ "grad_norm": 0.05566761642694473,
959
  "learning_rate": 0.00013168316831683167,
960
+ "loss": 0.856,
961
  "step": 1360
962
  },
963
  {
964
  "epoch": 1.6936630602782072,
965
+ "grad_norm": 0.04952670633792877,
966
  "learning_rate": 0.00013044554455445543,
967
  "loss": 0.8405,
968
  "step": 1370
969
  },
970
  {
971
  "epoch": 1.7060278207109736,
972
+ "grad_norm": 0.05578543245792389,
973
  "learning_rate": 0.0001292079207920792,
974
+ "loss": 0.8555,
975
  "step": 1380
976
  },
977
  {
978
  "epoch": 1.7183925811437404,
979
+ "grad_norm": 0.05533617362380028,
980
  "learning_rate": 0.00012797029702970295,
981
+ "loss": 0.8558,
982
  "step": 1390
983
  },
984
  {
985
  "epoch": 1.730757341576507,
986
+ "grad_norm": 0.05991559103131294,
987
  "learning_rate": 0.00012673267326732672,
988
+ "loss": 0.8636,
989
  "step": 1400
990
  },
991
  {
992
  "epoch": 1.7431221020092735,
993
+ "grad_norm": 0.054518427699804306,
994
  "learning_rate": 0.00012549504950495048,
995
+ "loss": 0.8471,
996
  "step": 1410
997
  },
998
  {
999
  "epoch": 1.7554868624420403,
1000
+ "grad_norm": 0.04764275252819061,
1001
  "learning_rate": 0.00012425742574257426,
1002
+ "loss": 0.8449,
1003
  "step": 1420
1004
  },
1005
  {
1006
  "epoch": 1.7678516228748067,
1007
+ "grad_norm": 0.058475952595472336,
1008
  "learning_rate": 0.000123019801980198,
1009
+ "loss": 0.8523,
1010
  "step": 1430
1011
  },
1012
  {
1013
  "epoch": 1.7802163833075735,
1014
+ "grad_norm": 0.05991446226835251,
1015
  "learning_rate": 0.00012178217821782177,
1016
+ "loss": 0.8564,
1017
  "step": 1440
1018
  },
1019
  {
1020
  "epoch": 1.79258114374034,
1021
+ "grad_norm": 0.0623490996658802,
1022
  "learning_rate": 0.00012054455445544554,
1023
  "loss": 0.8404,
1024
  "step": 1450
1025
  },
1026
  {
1027
  "epoch": 1.8049459041731066,
1028
+ "grad_norm": 0.04905753955245018,
1029
  "learning_rate": 0.0001193069306930693,
1030
+ "loss": 0.8474,
1031
  "step": 1460
1032
  },
1033
  {
1034
  "epoch": 1.8173106646058734,
1035
+ "grad_norm": 0.05426807701587677,
1036
  "learning_rate": 0.00011806930693069306,
1037
+ "loss": 0.8766,
1038
  "step": 1470
1039
  },
1040
  {
1041
  "epoch": 1.8296754250386398,
1042
+ "grad_norm": 0.0476132333278656,
1043
  "learning_rate": 0.00011683168316831682,
1044
+ "loss": 0.815,
1045
  "step": 1480
1046
  },
1047
  {
1048
  "epoch": 1.8420401854714066,
1049
+ "grad_norm": 0.05849111080169678,
1050
  "learning_rate": 0.0001155940594059406,
1051
+ "loss": 0.854,
1052
  "step": 1490
1053
  },
1054
  {
1055
  "epoch": 1.8544049459041732,
1056
+ "grad_norm": 0.05493124946951866,
1057
  "learning_rate": 0.00011435643564356434,
1058
+ "loss": 0.8563,
1059
  "step": 1500
1060
  },
1061
  {
1062
  "epoch": 1.8667697063369397,
1063
+ "grad_norm": 0.05999801307916641,
1064
  "learning_rate": 0.0001131188118811881,
1065
  "loss": 0.8498,
1066
  "step": 1510
1067
  },
1068
  {
1069
  "epoch": 1.8791344667697063,
1070
+ "grad_norm": 0.058151423931121826,
1071
  "learning_rate": 0.00011188118811881188,
1072
+ "loss": 0.8645,
1073
  "step": 1520
1074
  },
1075
  {
1076
  "epoch": 1.8914992272024729,
1077
+ "grad_norm": 0.05524227395653725,
1078
  "learning_rate": 0.00011064356435643564,
1079
+ "loss": 0.8624,
1080
  "step": 1530
1081
  },
1082
  {
1083
  "epoch": 1.9038639876352397,
1084
+ "grad_norm": 0.06369632482528687,
1085
  "learning_rate": 0.00010940594059405939,
1086
  "loss": 0.8695,
1087
  "step": 1540
1088
  },
1089
  {
1090
  "epoch": 1.916228748068006,
1091
+ "grad_norm": 0.057092998176813126,
1092
  "learning_rate": 0.00010816831683168316,
1093
+ "loss": 0.844,
1094
  "step": 1550
1095
  },
1096
  {
1097
  "epoch": 1.9285935085007728,
1098
+ "grad_norm": 0.05554778128862381,
1099
  "learning_rate": 0.00010693069306930692,
1100
+ "loss": 0.8543,
1101
  "step": 1560
1102
  },
1103
  {
1104
  "epoch": 1.9409582689335394,
1105
+ "grad_norm": 0.05691225454211235,
1106
  "learning_rate": 0.00010569306930693068,
1107
+ "loss": 0.8714,
1108
  "step": 1570
1109
  },
1110
  {
1111
  "epoch": 1.953323029366306,
1112
+ "grad_norm": 0.0564524307847023,
1113
  "learning_rate": 0.00010445544554455445,
1114
+ "loss": 0.8574,
1115
  "step": 1580
1116
  },
1117
  {
1118
  "epoch": 1.9656877897990728,
1119
+ "grad_norm": 0.0588836595416069,
1120
  "learning_rate": 0.0001032178217821782,
1121
  "loss": 0.8558,
1122
  "step": 1590
1123
  },
1124
  {
1125
  "epoch": 1.9780525502318391,
1126
+ "grad_norm": 0.05634515732526779,
1127
  "learning_rate": 0.00010198019801980197,
1128
+ "loss": 0.8444,
1129
  "step": 1600
1130
  },
1131
  {
1132
  "epoch": 1.990417310664606,
1133
+ "grad_norm": 0.055482737720012665,
1134
  "learning_rate": 0.00010074257425742573,
1135
  "loss": 0.8672,
1136
  "step": 1610
1137
  },
1138
  {
1139
  "epoch": 2.002472952086553,
1140
+ "grad_norm": 0.054257094860076904,
1141
  "learning_rate": 9.95049504950495e-05,
1142
+ "loss": 0.8579,
1143
  "step": 1620
1144
  },
1145
  {
1146
  "epoch": 2.01483771251932,
1147
+ "grad_norm": 0.05709832161664963,
1148
  "learning_rate": 9.826732673267325e-05,
1149
+ "loss": 0.8414,
1150
  "step": 1630
1151
  },
1152
  {
1153
  "epoch": 2.0272024729520863,
1154
+ "grad_norm": 0.05785168707370758,
1155
  "learning_rate": 9.702970297029701e-05,
1156
+ "loss": 0.8223,
1157
  "step": 1640
1158
  },
1159
  {
1160
  "epoch": 2.039567233384853,
1161
+ "grad_norm": 0.060052480548620224,
1162
  "learning_rate": 9.579207920792079e-05,
1163
+ "loss": 0.8371,
1164
  "step": 1650
1165
  },
1166
  {
1167
  "epoch": 2.05193199381762,
1168
+ "grad_norm": 0.06388446688652039,
1169
  "learning_rate": 9.455445544554454e-05,
1170
+ "loss": 0.8308,
1171
  "step": 1660
1172
  },
1173
  {
1174
  "epoch": 2.0642967542503863,
1175
+ "grad_norm": 0.05495399236679077,
1176
  "learning_rate": 9.331683168316831e-05,
1177
+ "loss": 0.8582,
1178
  "step": 1670
1179
  },
1180
  {
1181
  "epoch": 2.076661514683153,
1182
+ "grad_norm": 0.0544477179646492,
1183
  "learning_rate": 9.207920792079207e-05,
1184
+ "loss": 0.8383,
1185
  "step": 1680
1186
  },
1187
  {
1188
  "epoch": 2.0890262751159194,
1189
+ "grad_norm": 0.06450890749692917,
1190
  "learning_rate": 9.084158415841582e-05,
1191
+ "loss": 0.8359,
1192
  "step": 1690
1193
  },
1194
  {
1195
  "epoch": 2.1013910355486862,
1196
+ "grad_norm": 0.054119642823934555,
1197
  "learning_rate": 8.96039603960396e-05,
1198
+ "loss": 0.8363,
1199
  "step": 1700
1200
  },
1201
  {
1202
  "epoch": 2.113755795981453,
1203
+ "grad_norm": 0.05726737529039383,
1204
  "learning_rate": 8.836633663366336e-05,
1205
+ "loss": 0.8169,
1206
  "step": 1710
1207
  },
1208
  {
1209
  "epoch": 2.1261205564142194,
1210
+ "grad_norm": 0.0577755868434906,
1211
  "learning_rate": 8.712871287128713e-05,
1212
+ "loss": 0.8586,
1213
  "step": 1720
1214
  },
1215
  {
1216
  "epoch": 2.138485316846986,
1217
+ "grad_norm": 0.06451012194156647,
1218
  "learning_rate": 8.589108910891088e-05,
1219
+ "loss": 0.834,
1220
  "step": 1730
1221
  },
1222
  {
1223
  "epoch": 2.1508500772797525,
1224
+ "grad_norm": 0.06303463876247406,
1225
  "learning_rate": 8.465346534653464e-05,
1226
+ "loss": 0.8333,
1227
  "step": 1740
1228
  },
1229
  {
1230
  "epoch": 2.1632148377125193,
1231
+ "grad_norm": 0.058561887592077255,
1232
  "learning_rate": 8.341584158415841e-05,
1233
  "loss": 0.8321,
1234
  "step": 1750
1235
  },
1236
  {
1237
  "epoch": 2.175579598145286,
1238
+ "grad_norm": 0.05364146828651428,
1239
  "learning_rate": 8.217821782178216e-05,
1240
+ "loss": 0.8428,
1241
  "step": 1760
1242
  },
1243
  {
1244
  "epoch": 2.1879443585780525,
1245
+ "grad_norm": 0.063669353723526,
1246
  "learning_rate": 8.094059405940594e-05,
1247
+ "loss": 0.8527,
1248
  "step": 1770
1249
  },
1250
  {
1251
  "epoch": 2.2003091190108193,
1252
+ "grad_norm": 0.05790480971336365,
1253
  "learning_rate": 7.97029702970297e-05,
1254
+ "loss": 0.8261,
1255
  "step": 1780
1256
  },
1257
  {
1258
  "epoch": 2.2126738794435856,
1259
+ "grad_norm": 0.06101266294717789,
1260
  "learning_rate": 7.846534653465345e-05,
1261
+ "loss": 0.8075,
1262
  "step": 1790
1263
  },
1264
  {
1265
  "epoch": 2.2250386398763524,
1266
+ "grad_norm": 0.06296826899051666,
1267
  "learning_rate": 7.722772277227722e-05,
1268
+ "loss": 0.8284,
1269
  "step": 1800
1270
  },
1271
  {
1272
  "epoch": 2.237403400309119,
1273
+ "grad_norm": 0.0548894926905632,
1274
  "learning_rate": 7.599009900990098e-05,
1275
+ "loss": 0.8385,
1276
  "step": 1810
1277
  },
1278
  {
1279
  "epoch": 2.2497681607418856,
1280
+ "grad_norm": 0.06245751306414604,
1281
  "learning_rate": 7.475247524752474e-05,
1282
+ "loss": 0.8188,
1283
  "step": 1820
1284
  },
1285
  {
1286
  "epoch": 2.2621329211746524,
1287
+ "grad_norm": 0.06896353513002396,
1288
  "learning_rate": 7.35148514851485e-05,
1289
+ "loss": 0.8229,
1290
  "step": 1830
1291
  },
1292
  {
1293
  "epoch": 2.2744976816074187,
1294
+ "grad_norm": 0.06569264829158783,
1295
  "learning_rate": 7.227722772277227e-05,
1296
+ "loss": 0.8398,
1297
  "step": 1840
1298
  },
1299
  {
1300
  "epoch": 2.2868624420401855,
1301
+ "grad_norm": 0.06732139736413956,
1302
  "learning_rate": 7.103960396039604e-05,
1303
+ "loss": 0.8439,
1304
  "step": 1850
1305
  },
1306
  {
1307
  "epoch": 2.2992272024729523,
1308
+ "grad_norm": 0.06835715472698212,
1309
  "learning_rate": 6.98019801980198e-05,
1310
+ "loss": 0.821,
1311
  "step": 1860
1312
  },
1313
  {
1314
  "epoch": 2.3115919629057187,
1315
+ "grad_norm": 0.05850212648510933,
1316
  "learning_rate": 6.856435643564355e-05,
1317
+ "loss": 0.8235,
1318
  "step": 1870
1319
  },
1320
  {
1321
  "epoch": 2.3239567233384855,
1322
+ "grad_norm": 0.06048553064465523,
1323
  "learning_rate": 6.732673267326732e-05,
1324
+ "loss": 0.844,
1325
  "step": 1880
1326
  },
1327
  {
1328
  "epoch": 2.336321483771252,
1329
+ "grad_norm": 0.05443299934267998,
1330
  "learning_rate": 6.608910891089109e-05,
1331
  "loss": 0.8173,
1332
  "step": 1890
1333
  },
1334
  {
1335
  "epoch": 2.3486862442040186,
1336
+ "grad_norm": 0.06576599180698395,
1337
  "learning_rate": 6.485148514851485e-05,
1338
+ "loss": 0.826,
1339
  "step": 1900
1340
  },
1341
  {
1342
  "epoch": 2.361051004636785,
1343
+ "grad_norm": 0.06261160224676132,
1344
  "learning_rate": 6.361386138613861e-05,
1345
+ "loss": 0.8571,
1346
  "step": 1910
1347
  },
1348
  {
1349
  "epoch": 2.3734157650695518,
1350
+ "grad_norm": 0.05812652036547661,
1351
  "learning_rate": 6.237623762376237e-05,
1352
  "loss": 0.8227,
1353
  "step": 1920
1354
  },
1355
  {
1356
  "epoch": 2.3857805255023186,
1357
+ "grad_norm": 0.06309802830219269,
1358
  "learning_rate": 6.113861386138613e-05,
1359
+ "loss": 0.8412,
1360
  "step": 1930
1361
  },
1362
  {
1363
  "epoch": 2.398145285935085,
1364
+ "grad_norm": 0.06207476556301117,
1365
  "learning_rate": 5.99009900990099e-05,
1366
+ "loss": 0.8386,
1367
  "step": 1940
1368
  },
1369
  {
1370
  "epoch": 2.4105100463678517,
1371
+ "grad_norm": 0.05841566249728203,
1372
  "learning_rate": 5.866336633663366e-05,
1373
+ "loss": 0.828,
1374
  "step": 1950
1375
  },
1376
  {
1377
  "epoch": 2.422874806800618,
1378
+ "grad_norm": 0.05857423320412636,
1379
  "learning_rate": 5.742574257425742e-05,
1380
+ "loss": 0.8198,
1381
  "step": 1960
1382
  },
1383
  {
1384
  "epoch": 2.435239567233385,
1385
+ "grad_norm": 0.06476933509111404,
1386
  "learning_rate": 5.618811881188118e-05,
1387
+ "loss": 0.84,
1388
  "step": 1970
1389
  },
1390
  {
1391
  "epoch": 2.4476043276661517,
1392
+ "grad_norm": 0.06856492906808853,
1393
  "learning_rate": 5.4950495049504944e-05,
1394
+ "loss": 0.8386,
1395
  "step": 1980
1396
  },
1397
  {
1398
  "epoch": 2.459969088098918,
1399
+ "grad_norm": 0.0675152987241745,
1400
  "learning_rate": 5.371287128712871e-05,
1401
+ "loss": 0.8603,
1402
  "step": 1990
1403
  },
1404
  {
1405
  "epoch": 2.472333848531685,
1406
+ "grad_norm": 0.059057943522930145,
1407
  "learning_rate": 5.247524752475247e-05,
1408
  "loss": 0.8254,
1409
  "step": 2000
1410
  },
1411
  {
1412
  "epoch": 2.484698608964451,
1413
+ "grad_norm": 0.06778612732887268,
1414
  "learning_rate": 5.1237623762376234e-05,
1415
+ "loss": 0.829,
1416
  "step": 2010
1417
  },
1418
  {
1419
  "epoch": 2.497063369397218,
1420
+ "grad_norm": 0.0652635246515274,
1421
  "learning_rate": 4.9999999999999996e-05,
1422
  "loss": 0.8321,
1423
  "step": 2020
1424
  },
1425
  {
1426
  "epoch": 2.5094281298299848,
1427
+ "grad_norm": 0.0605316124856472,
1428
  "learning_rate": 4.876237623762376e-05,
1429
+ "loss": 0.8458,
1430
  "step": 2030
1431
  },
1432
  {
1433
  "epoch": 2.521792890262751,
1434
+ "grad_norm": 0.06351178884506226,
1435
  "learning_rate": 4.752475247524752e-05,
1436
+ "loss": 0.8199,
1437
  "step": 2040
1438
  },
1439
  {
1440
  "epoch": 2.534157650695518,
1441
+ "grad_norm": 0.0644257590174675,
1442
  "learning_rate": 4.6287128712871286e-05,
1443
+ "loss": 0.8311,
1444
  "step": 2050
1445
  },
1446
  {
1447
  "epoch": 2.5465224111282843,
1448
+ "grad_norm": 0.06502491235733032,
1449
  "learning_rate": 4.504950495049505e-05,
1450
+ "loss": 0.8443,
1451
  "step": 2060
1452
  },
1453
  {
1454
  "epoch": 2.558887171561051,
1455
+ "grad_norm": 0.07183568179607391,
1456
  "learning_rate": 4.38118811881188e-05,
1457
+ "loss": 0.825,
1458
  "step": 2070
1459
  },
1460
  {
1461
  "epoch": 2.5712519319938174,
1462
+ "grad_norm": 0.06714395433664322,
1463
  "learning_rate": 4.257425742574257e-05,
1464
+ "loss": 0.8283,
1465
  "step": 2080
1466
  },
1467
  {
1468
  "epoch": 2.583616692426584,
1469
+ "grad_norm": 0.07098986953496933,
1470
  "learning_rate": 4.133663366336633e-05,
1471
+ "loss": 0.8376,
1472
  "step": 2090
1473
  },
1474
  {
1475
  "epoch": 2.595981452859351,
1476
+ "grad_norm": 0.0671941488981247,
1477
  "learning_rate": 4.00990099009901e-05,
1478
+ "loss": 0.8457,
1479
  "step": 2100
1480
  },
1481
  {
1482
  "epoch": 2.6083462132921174,
1483
+ "grad_norm": 0.07306034862995148,
1484
  "learning_rate": 3.886138613861386e-05,
1485
+ "loss": 0.843,
1486
  "step": 2110
1487
  },
1488
  {
1489
  "epoch": 2.620710973724884,
1490
+ "grad_norm": 0.06762495636940002,
1491
  "learning_rate": 3.7623762376237615e-05,
1492
+ "loss": 0.8188,
1493
  "step": 2120
1494
  },
1495
  {
1496
  "epoch": 2.633075734157651,
1497
+ "grad_norm": 0.06061069294810295,
1498
  "learning_rate": 3.638613861386138e-05,
1499
+ "loss": 0.8059,
1500
  "step": 2130
1501
  },
1502
  {
1503
  "epoch": 2.6454404945904173,
1504
+ "grad_norm": 0.0667000338435173,
1505
  "learning_rate": 3.5148514851485144e-05,
1506
  "loss": 0.8364,
1507
  "step": 2140
1508
  },
1509
  {
1510
  "epoch": 2.6578052550231837,
1511
+ "grad_norm": 0.058926161378622055,
1512
  "learning_rate": 3.3910891089108906e-05,
1513
+ "loss": 0.8267,
1514
  "step": 2150
1515
  },
1516
  {
1517
  "epoch": 2.6701700154559505,
1518
+ "grad_norm": 0.05975179746747017,
1519
  "learning_rate": 3.267326732673267e-05,
1520
+ "loss": 0.8018,
1521
  "step": 2160
1522
  },
1523
  {
1524
  "epoch": 2.6825347758887172,
1525
+ "grad_norm": 0.06300190091133118,
1526
  "learning_rate": 3.1435643564356435e-05,
1527
+ "loss": 0.8306,
1528
  "step": 2170
1529
  },
1530
  {
1531
  "epoch": 2.6948995363214836,
1532
+ "grad_norm": 0.06579259783029556,
1533
  "learning_rate": 3.0198019801980193e-05,
1534
+ "loss": 0.8385,
1535
  "step": 2180
1536
  },
1537
  {
1538
  "epoch": 2.7072642967542504,
1539
+ "grad_norm": 0.07062911242246628,
1540
  "learning_rate": 2.8960396039603958e-05,
1541
+ "loss": 0.8422,
1542
  "step": 2190
1543
  },
1544
  {
1545
  "epoch": 2.719629057187017,
1546
+ "grad_norm": 0.06216396763920784,
1547
  "learning_rate": 2.772277227722772e-05,
1548
+ "loss": 0.8292,
1549
  "step": 2200
1550
  },
1551
  {
1552
  "epoch": 2.7319938176197835,
1553
+ "grad_norm": 0.06445206701755524,
1554
  "learning_rate": 2.6485148514851484e-05,
1555
+ "loss": 0.8406,
1556
  "step": 2210
1557
  },
1558
  {
1559
  "epoch": 2.7443585780525503,
1560
+ "grad_norm": 0.06448670476675034,
1561
  "learning_rate": 2.5247524752475248e-05,
1562
+ "loss": 0.8171,
1563
  "step": 2220
1564
  },
1565
  {
1566
  "epoch": 2.7567233384853167,
1567
+ "grad_norm": 0.05858496576547623,
1568
  "learning_rate": 2.4009900990099006e-05,
1569
+ "loss": 0.8383,
1570
  "step": 2230
1571
  },
1572
  {
1573
  "epoch": 2.7690880989180835,
1574
+ "grad_norm": 0.07208121567964554,
1575
  "learning_rate": 2.277227722772277e-05,
1576
+ "loss": 0.8145,
1577
  "step": 2240
1578
  },
1579
  {
1580
  "epoch": 2.78145285935085,
1581
+ "grad_norm": 0.06663426011800766,
1582
  "learning_rate": 2.1534653465346532e-05,
1583
+ "loss": 0.8293,
1584
  "step": 2250
1585
  },
1586
  {
1587
  "epoch": 2.7938176197836166,
1588
+ "grad_norm": 0.06585463881492615,
1589
  "learning_rate": 2.0297029702970297e-05,
1590
+ "loss": 0.8303,
1591
  "step": 2260
1592
  },
1593
  {
1594
  "epoch": 2.8061823802163834,
1595
+ "grad_norm": 0.06423688679933548,
1596
  "learning_rate": 1.9059405940594058e-05,
1597
+ "loss": 0.8172,
1598
  "step": 2270
1599
  },
1600
  {
1601
  "epoch": 2.81854714064915,
1602
+ "grad_norm": 0.06450697034597397,
1603
  "learning_rate": 1.782178217821782e-05,
1604
+ "loss": 0.8355,
1605
  "step": 2280
1606
  },
1607
  {
1608
  "epoch": 2.8309119010819166,
1609
+ "grad_norm": 0.05580071732401848,
1610
  "learning_rate": 1.6584158415841584e-05,
1611
+ "loss": 0.8136,
1612
  "step": 2290
1613
  },
1614
  {
1615
  "epoch": 2.8432766615146834,
1616
+ "grad_norm": 0.06626173853874207,
1617
  "learning_rate": 1.5346534653465345e-05,
1618
+ "loss": 0.8238,
1619
  "step": 2300
1620
  },
1621
  {
1622
  "epoch": 2.8556414219474497,
1623
+ "grad_norm": 0.061952993273735046,
1624
  "learning_rate": 1.4108910891089108e-05,
1625
+ "loss": 0.8179,
1626
  "step": 2310
1627
  },
1628
  {
1629
  "epoch": 2.8680061823802165,
1630
+ "grad_norm": 0.07288029789924622,
1631
  "learning_rate": 1.287128712871287e-05,
1632
  "loss": 0.8194,
1633
  "step": 2320
1634
  },
1635
  {
1636
  "epoch": 2.880370942812983,
1637
+ "grad_norm": 0.06706374138593674,
1638
  "learning_rate": 1.1633663366336632e-05,
1639
+ "loss": 0.8611,
1640
  "step": 2330
1641
  },
1642
  {
1643
  "epoch": 2.8927357032457497,
1644
+ "grad_norm": 0.06370951235294342,
1645
  "learning_rate": 1.0396039603960395e-05,
1646
+ "loss": 0.848,
1647
  "step": 2340
1648
  },
1649
  {
1650
  "epoch": 2.905100463678516,
1651
+ "grad_norm": 0.061200667172670364,
1652
  "learning_rate": 9.158415841584158e-06,
1653
+ "loss": 0.817,
1654
  "step": 2350
1655
  },
1656
  {
1657
  "epoch": 2.917465224111283,
1658
+ "grad_norm": 0.07799932360649109,
1659
  "learning_rate": 7.92079207920792e-06,
1660
+ "loss": 0.8401,
1661
  "step": 2360
1662
  },
1663
  {
1664
  "epoch": 2.9298299845440496,
1665
+ "grad_norm": 0.0740487277507782,
1666
  "learning_rate": 6.683168316831683e-06,
1667
+ "loss": 0.8447,
1668
  "step": 2370
1669
  },
1670
  {
1671
  "epoch": 2.942194744976816,
1672
+ "grad_norm": 0.062499478459358215,
1673
  "learning_rate": 5.445544554455446e-06,
1674
+ "loss": 0.8446,
1675
  "step": 2380
1676
  },
1677
  {
1678
  "epoch": 2.954559505409583,
1679
+ "grad_norm": 0.06899666786193848,
1680
  "learning_rate": 4.207920792079208e-06,
1681
+ "loss": 0.8411,
1682
  "step": 2390
1683
  },
1684
  {
1685
  "epoch": 2.966924265842349,
1686
+ "grad_norm": 0.0634492039680481,
1687
  "learning_rate": 2.97029702970297e-06,
1688
+ "loss": 0.8422,
1689
  "step": 2400
1690
  },
1691
  {
1692
  "epoch": 2.979289026275116,
1693
+ "grad_norm": 0.0700407549738884,
1694
  "learning_rate": 1.7326732673267324e-06,
1695
+ "loss": 0.8468,
1696
  "step": 2410
1697
  },
1698
  {
1699
  "epoch": 2.9916537867078823,
1700
+ "grad_norm": 0.061774324625730515,
1701
  "learning_rate": 4.95049504950495e-07,
1702
+ "loss": 0.8337,
1703
  "step": 2420
1704
  }
1705
  ],
 
1720
  "attributes": {}
1721
  }
1722
  },
1723
+ "total_flos": 2.723181741683245e+18,
1724
  "train_batch_size": 8,
1725
  "trial_name": null,
1726
  "trial_params": null
training_args.bin CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:916d7fb58500db212016cbc23cab8f6e9cc2c103f69a6804826e7bb07c43a797
3
  size 5496
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:df1ea9b6a89f75f28de3af730e54e21e9f1d1b2dcd68114e100a9352120568a0
3
  size 5496