dehanalkautsar
/

mbert_mlm-5-with-parallel-tokenizer-30k-pretrained49140steps

Fill-Mask

Transformers

Safetensors

bert

Model card Files Files and versions Community

dehanalkautsar commited on 8 days ago

Commit

02fe293

verified ·

1 Parent(s): 1518829

Upload trainer_state.json with huggingface_hub

Browse files

Files changed (1) hide show

trainer_state.json +393 -0

trainer_state.json ADDED Viewed

	@@ -0,0 +1,393 @@

+{
+  "best_metric": 1.9961448907852173,
+  "best_model_checkpoint": "models/dehanalkautsar/mbert-5-with-parallel-tokenizer-30k/checkpoint-48000",
+  "epoch": 19.99623562926035,
+  "eval_steps": 2000,
+  "global_step": 49140,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.8139179977617255,
+      "grad_norm": 12.944409370422363,
+      "learning_rate": 9.185999185999187e-05,
+      "loss": 6.4974,
+      "step": 2000
+    },
+    {
+      "epoch": 0.8139179977617255,
+      "eval_loss": 5.766712665557861,
+      "eval_runtime": 74.2223,
+      "eval_samples_per_second": 134.73,
+      "eval_steps_per_second": 2.115,
+      "step": 2000
+    },
+    {
+      "epoch": 1.6275307762742903,
+      "grad_norm": 11.577170372009277,
+      "learning_rate": 8.371998371998372e-05,
+      "loss": 5.2766,
+      "step": 4000
+    },
+    {
+      "epoch": 1.6275307762742903,
+      "eval_loss": 4.884174823760986,
+      "eval_runtime": 74.2859,
+      "eval_samples_per_second": 134.615,
+      "eval_steps_per_second": 2.113,
+      "step": 4000
+    },
+    {
+      "epoch": 2.4411435547868554,
+      "grad_norm": 18.84739875793457,
+      "learning_rate": 7.557997557997558e-05,
+      "loss": 4.4979,
+      "step": 6000
+    },
+    {
+      "epoch": 2.4411435547868554,
+      "eval_loss": 3.7487125396728516,
+      "eval_runtime": 74.2668,
+      "eval_samples_per_second": 134.65,
+      "eval_steps_per_second": 2.114,
+      "step": 6000
+    },
+    {
+      "epoch": 3.25475633329942,
+      "grad_norm": 16.400541305541992,
+      "learning_rate": 6.743996743996744e-05,
+      "loss": 3.3089,
+      "step": 8000
+    },
+    {
+      "epoch": 3.25475633329942,
+      "eval_loss": 2.872248649597168,
+      "eval_runtime": 74.2418,
+      "eval_samples_per_second": 134.695,
+      "eval_steps_per_second": 2.115,
+      "step": 8000
+    },
+    {
+      "epoch": 4.068369111811985,
+      "grad_norm": 15.022873878479004,
+      "learning_rate": 5.929995929995931e-05,
+      "loss": 2.8436,
+      "step": 10000
+    },
+    {
+      "epoch": 4.068369111811985,
+      "eval_loss": 2.6301286220550537,
+      "eval_runtime": 74.2596,
+      "eval_samples_per_second": 134.663,
+      "eval_steps_per_second": 2.114,
+      "step": 10000
+    },
+    {
+      "epoch": 4.882287109573711,
+      "grad_norm": 14.731890678405762,
+      "learning_rate": 5.115995115995116e-05,
+      "loss": 2.6498,
+      "step": 12000
+    },
+    {
+      "epoch": 4.882287109573711,
+      "eval_loss": 2.4912309646606445,
+      "eval_runtime": 74.2946,
+      "eval_samples_per_second": 134.599,
+      "eval_steps_per_second": 2.113,
+      "step": 12000
+    },
+    {
+      "epoch": 5.6958998880862755,
+      "grad_norm": 15.547078132629395,
+      "learning_rate": 4.301994301994302e-05,
+      "loss": 2.5281,
+      "step": 14000
+    },
+    {
+      "epoch": 5.6958998880862755,
+      "eval_loss": 2.4065146446228027,
+      "eval_runtime": 74.3674,
+      "eval_samples_per_second": 134.468,
+      "eval_steps_per_second": 2.111,
+      "step": 14000
+    },
+    {
+      "epoch": 6.50951266659884,
+      "grad_norm": 14.562560081481934,
+      "learning_rate": 3.487993487993488e-05,
+      "loss": 2.4394,
+      "step": 16000
+    },
+    {
+      "epoch": 6.50951266659884,
+      "eval_loss": 2.3277714252471924,
+      "eval_runtime": 74.2604,
+      "eval_samples_per_second": 134.661,
+      "eval_steps_per_second": 2.114,
+      "step": 16000
+    },
+    {
+      "epoch": 7.323125445111405,
+      "grad_norm": 14.990942001342773,
+      "learning_rate": 2.673992673992674e-05,
+      "loss": 2.3797,
+      "step": 18000
+    },
+    {
+      "epoch": 7.323125445111405,
+      "eval_loss": 2.277052640914917,
+      "eval_runtime": 74.2753,
+      "eval_samples_per_second": 134.634,
+      "eval_steps_per_second": 2.114,
+      "step": 18000
+    },
+    {
+      "epoch": 8.13673822362397,
+      "grad_norm": 14.372356414794922,
+      "learning_rate": 1.85999185999186e-05,
+      "loss": 2.3303,
+      "step": 20000
+    },
+    {
+      "epoch": 8.13673822362397,
+      "eval_loss": 2.2430338859558105,
+      "eval_runtime": 74.2644,
+      "eval_samples_per_second": 134.654,
+      "eval_steps_per_second": 2.114,
+      "step": 20000
+    },
+    {
+      "epoch": 8.950656221385696,
+      "grad_norm": 15.09987735748291,
+      "learning_rate": 1.045991045991046e-05,
+      "loss": 2.2974,
+      "step": 22000
+    },
+    {
+      "epoch": 8.950656221385696,
+      "eval_loss": 2.2221477031707764,
+      "eval_runtime": 74.2795,
+      "eval_samples_per_second": 134.627,
+      "eval_steps_per_second": 2.114,
+      "step": 22000
+    },
+    {
+      "epoch": 9.76426899989826,
+      "grad_norm": 14.753724098205566,
+      "learning_rate": 2.31990231990232e-06,
+      "loss": 2.272,
+      "step": 24000
+    },
+    {
+      "epoch": 9.76426899989826,
+      "eval_loss": 2.2013912200927734,
+      "eval_runtime": 74.2825,
+      "eval_samples_per_second": 134.621,
+      "eval_steps_per_second": 2.114,
+      "step": 24000
+    },
+    {
+      "epoch": 10.581951368399634,
+      "grad_norm": 14.659090995788574,
+      "learning_rate": 4.708994708994709e-05,
+      "loss": 2.2996,
+      "step": 26000
+    },
+    {
+      "epoch": 10.581951368399634,
+      "eval_loss": 2.2351293563842773,
+      "eval_runtime": 74.3521,
+      "eval_samples_per_second": 134.495,
+      "eval_steps_per_second": 2.112,
+      "step": 26000
+    },
+    {
+      "epoch": 11.395564146912198,
+      "grad_norm": 14.084636688232422,
+      "learning_rate": 4.301994301994302e-05,
+      "loss": 2.2664,
+      "step": 28000
+    },
+    {
+      "epoch": 11.395564146912198,
+      "eval_loss": 2.174744129180908,
+      "eval_runtime": 74.3256,
+      "eval_samples_per_second": 134.543,
+      "eval_steps_per_second": 2.112,
+      "step": 28000
+    },
+    {
+      "epoch": 12.209176925424764,
+      "grad_norm": 13.796431541442871,
+      "learning_rate": 3.8949938949938955e-05,
+      "loss": 2.2317,
+      "step": 30000
+    },
+    {
+      "epoch": 12.209176925424764,
+      "eval_loss": 2.150289535522461,
+      "eval_runtime": 74.3662,
+      "eval_samples_per_second": 134.47,
+      "eval_steps_per_second": 2.111,
+      "step": 30000
+    },
+    {
+      "epoch": 13.022789703937327,
+      "grad_norm": 14.407515525817871,
+      "learning_rate": 3.487993487993488e-05,
+      "loss": 2.1954,
+      "step": 32000
+    },
+    {
+      "epoch": 13.022789703937327,
+      "eval_loss": 2.1134209632873535,
+      "eval_runtime": 74.3327,
+      "eval_samples_per_second": 134.53,
+      "eval_steps_per_second": 2.112,
+      "step": 32000
+    },
+    {
+      "epoch": 13.836707701699053,
+      "grad_norm": 15.40833854675293,
+      "learning_rate": 3.080993080993081e-05,
+      "loss": 2.1617,
+      "step": 34000
+    },
+    {
+      "epoch": 13.836707701699053,
+      "eval_loss": 2.069462299346924,
+      "eval_runtime": 74.3637,
+      "eval_samples_per_second": 134.474,
+      "eval_steps_per_second": 2.111,
+      "step": 34000
+    },
+    {
+      "epoch": 14.650320480211619,
+      "grad_norm": 15.9359130859375,
+      "learning_rate": 2.673992673992674e-05,
+      "loss": 2.1372,
+      "step": 36000
+    },
+    {
+      "epoch": 14.650320480211619,
+      "eval_loss": 2.0720558166503906,
+      "eval_runtime": 74.3125,
+      "eval_samples_per_second": 134.567,
+      "eval_steps_per_second": 2.113,
+      "step": 36000
+    },
+    {
+      "epoch": 15.463933258724184,
+      "grad_norm": 14.391825675964355,
+      "learning_rate": 2.2669922669922673e-05,
+      "loss": 2.1101,
+      "step": 38000
+    },
+    {
+      "epoch": 15.463933258724184,
+      "eval_loss": 2.0433037281036377,
+      "eval_runtime": 74.3291,
+      "eval_samples_per_second": 134.537,
+      "eval_steps_per_second": 2.112,
+      "step": 38000
+    },
+    {
+      "epoch": 16.27754603723675,
+      "grad_norm": 14.036117553710938,
+      "learning_rate": 1.85999185999186e-05,
+      "loss": 2.0897,
+      "step": 40000
+    },
+    {
+      "epoch": 16.27754603723675,
+      "eval_loss": 2.0293655395507812,
+      "eval_runtime": 74.3236,
+      "eval_samples_per_second": 134.547,
+      "eval_steps_per_second": 2.112,
+      "step": 40000
+    },
+    {
+      "epoch": 17.091158815749314,
+      "grad_norm": 14.702261924743652,
+      "learning_rate": 1.4529914529914531e-05,
+      "loss": 2.074,
+      "step": 42000
+    },
+    {
+      "epoch": 17.091158815749314,
+      "eval_loss": 2.007510185241699,
+      "eval_runtime": 74.3171,
+      "eval_samples_per_second": 134.559,
+      "eval_steps_per_second": 2.113,
+      "step": 42000
+    },
+    {
+      "epoch": 17.905076813511037,
+      "grad_norm": 22.03821563720703,
+      "learning_rate": 1.045991045991046e-05,
+      "loss": 2.0601,
+      "step": 44000
+    },
+    {
+      "epoch": 17.905076813511037,
+      "eval_loss": 1.9990129470825195,
+      "eval_runtime": 74.3189,
+      "eval_samples_per_second": 134.555,
+      "eval_steps_per_second": 2.113,
+      "step": 44000
+    },
+    {
+      "epoch": 18.718689592023605,
+      "grad_norm": 14.990620613098145,
+      "learning_rate": 6.38990638990639e-06,
+      "loss": 2.0474,
+      "step": 46000
+    },
+    {
+      "epoch": 18.718689592023605,
+      "eval_loss": 2.0009329319000244,
+      "eval_runtime": 74.3384,
+      "eval_samples_per_second": 134.52,
+      "eval_steps_per_second": 2.112,
+      "step": 46000
+    },
+    {
+      "epoch": 19.53230237053617,
+      "grad_norm": 14.060431480407715,
+      "learning_rate": 2.31990231990232e-06,
+      "loss": 2.0354,
+      "step": 48000
+    },
+    {
+      "epoch": 19.53230237053617,
+      "eval_loss": 1.9961448907852173,
+      "eval_runtime": 74.3131,
+      "eval_samples_per_second": 134.566,
+      "eval_steps_per_second": 2.113,
+      "step": 48000
+    }
+  ],
+  "logging_steps": 2000,
+  "max_steps": 49140,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 20,
+  "save_steps": 2000,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 3.3100605673150464e+18,
+  "train_batch_size": 32,
+  "trial_name": null,
+  "trial_params": null
+}