Upload folder using huggingface_hub

Browse files

Files changed (7) hide show

config.json +38 -0
optimizer.pt +3 -0
pytorch_model.bin +3 -0
rng_state.pth +3 -0
scheduler.pt +3 -0
trainer_state.json +253 -0
training_args.bin +3 -0

config.json ADDED Viewed

	@@ -0,0 +1,38 @@

+{
+  "_name_or_path": "/chronos_data/smangalik/beliefs_modeling/models/self-belief-classifier-roberta-large-2",
+  "architectures": [
+    "RobertaForSequenceClassification"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "bos_token_id": 0,
+  "classifier_dropout": null,
+  "eos_token_id": 2,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 1024,
+  "id2label": {
+    "0": "LABEL_0",
+    "1": "LABEL_1",
+    "2": "LABEL_2"
+  },
+  "initializer_range": 0.02,
+  "intermediate_size": 4096,
+  "label2id": {
+    "LABEL_0": 0,
+    "LABEL_1": 1,
+    "LABEL_2": 2
+  },
+  "layer_norm_eps": 1e-05,
+  "max_position_embeddings": 514,
+  "model_type": "roberta",
+  "num_attention_heads": 16,
+  "num_hidden_layers": 24,
+  "pad_token_id": 1,
+  "position_embedding_type": "absolute",
+  "problem_type": "single_label_classification",
+  "torch_dtype": "float32",
+  "transformers_version": "4.33.2",
+  "type_vocab_size": 1,
+  "use_cache": true,
+  "vocab_size": 50265
+}

optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7091f108913dae1906a09d6b1fbbbb366edb874191834e6e168fe5d28cdd7adf
+size 2843231032

pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9009999344658926c39d28fba9999b2103aaf6854e24ee59b5739338fa355237
+size 1421586865

rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2a9dfb3dec5d1ce8ee849f07a32509f7e55cc98deef3120ae2d85edaade4ee58
+size 14575

scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:537fd16ac5c0059567c8a13dbd1f095bc887a2a3cc5c0c08d60416f39d3912b9
+size 627

trainer_state.json ADDED Viewed

	@@ -0,0 +1,253 @@

+{
+  "best_metric": 0.8408180526634443,
+  "best_model_checkpoint": "/chronos_data/smangalik/beliefs_modeling/models/self-belief-classifier-roberta-large-4/checkpoint-400",
+  "epoch": 11.926605504587156,
+  "eval_steps": 50,
+  "global_step": 650,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.92,
+      "learning_rate": 9.800000000000001e-06,
+      "loss": 0.6617,
+      "step": 50
+    },
+    {
+      "epoch": 0.92,
+      "eval_accuracy": 0.8205128205128205,
+      "eval_f1": 0.819110295968641,
+      "eval_loss": 0.4295506179332733,
+      "eval_precision": 0.8192280280764046,
+      "eval_recall": 0.8205128205128205,
+      "eval_runtime": 3.9576,
+      "eval_samples_per_second": 128.108,
+      "eval_steps_per_second": 16.171,
+      "step": 50
+    },
+    {
+      "epoch": 1.83,
+      "learning_rate": 9.815094339622643e-06,
+      "loss": 0.3715,
+      "step": 100
+    },
+    {
+      "epoch": 1.83,
+      "eval_accuracy": 0.8303747534516766,
+      "eval_f1": 0.8353461502742431,
+      "eval_loss": 0.4670024514198303,
+      "eval_precision": 0.8434047624966725,
+      "eval_recall": 0.8303747534516766,
+      "eval_runtime": 3.9366,
+      "eval_samples_per_second": 128.79,
+      "eval_steps_per_second": 16.258,
+      "step": 100
+    },
+    {
+      "epoch": 2.75,
+      "learning_rate": 9.626415094339624e-06,
+      "loss": 0.2344,
+      "step": 150
+    },
+    {
+      "epoch": 2.75,
+      "eval_accuracy": 0.814595660749507,
+      "eval_f1": 0.8244485345966336,
+      "eval_loss": 0.6940962672233582,
+      "eval_precision": 0.8428588493485568,
+      "eval_recall": 0.814595660749507,
+      "eval_runtime": 3.4428,
+      "eval_samples_per_second": 147.263,
+      "eval_steps_per_second": 18.589,
+      "step": 150
+    },
+    {
+      "epoch": 3.67,
+      "learning_rate": 9.437735849056604e-06,
+      "loss": 0.1797,
+      "step": 200
+    },
+    {
+      "epoch": 3.67,
+      "eval_accuracy": 0.8264299802761341,
+      "eval_f1": 0.8329637103282812,
+      "eval_loss": 0.7602464556694031,
+      "eval_precision": 0.8480073311662002,
+      "eval_recall": 0.8264299802761341,
+      "eval_runtime": 3.5906,
+      "eval_samples_per_second": 141.203,
+      "eval_steps_per_second": 17.824,
+      "step": 200
+    },
+    {
+      "epoch": 4.59,
+      "learning_rate": 9.252830188679246e-06,
+      "loss": 0.1187,
+      "step": 250
+    },
+    {
+      "epoch": 4.59,
+      "eval_accuracy": 0.8165680473372781,
+      "eval_f1": 0.8260410505358732,
+      "eval_loss": 1.040390133857727,
+      "eval_precision": 0.8445598652695405,
+      "eval_recall": 0.8165680473372781,
+      "eval_runtime": 3.1667,
+      "eval_samples_per_second": 160.104,
+      "eval_steps_per_second": 20.21,
+      "step": 250
+    },
+    {
+      "epoch": 5.5,
+      "learning_rate": 9.067924528301889e-06,
+      "loss": 0.067,
+      "step": 300
+    },
+    {
+      "epoch": 5.5,
+      "eval_accuracy": 0.8264299802761341,
+      "eval_f1": 0.8313863456050801,
+      "eval_loss": 1.0527454614639282,
+      "eval_precision": 0.8389317220188415,
+      "eval_recall": 0.8264299802761341,
+      "eval_runtime": 4.2619,
+      "eval_samples_per_second": 118.962,
+      "eval_steps_per_second": 15.017,
+      "step": 300
+    },
+    {
+      "epoch": 6.42,
+      "learning_rate": 8.879245283018869e-06,
+      "loss": 0.0635,
+      "step": 350
+    },
+    {
+      "epoch": 6.42,
+      "eval_accuracy": 0.8303747534516766,
+      "eval_f1": 0.8376041385770543,
+      "eval_loss": 1.1337926387786865,
+      "eval_precision": 0.8504492855502807,
+      "eval_recall": 0.8303747534516766,
+      "eval_runtime": 4.0094,
+      "eval_samples_per_second": 126.454,
+      "eval_steps_per_second": 15.963,
+      "step": 350
+    },
+    {
+      "epoch": 7.34,
+      "learning_rate": 8.69433962264151e-06,
+      "loss": 0.0254,
+      "step": 400
+    },
+    {
+      "epoch": 7.34,
+      "eval_accuracy": 0.8382642998027613,
+      "eval_f1": 0.8408180526634443,
+      "eval_loss": 1.1419103145599365,
+      "eval_precision": 0.8458355761491414,
+      "eval_recall": 0.8382642998027613,
+      "eval_runtime": 3.6866,
+      "eval_samples_per_second": 137.524,
+      "eval_steps_per_second": 17.36,
+      "step": 400
+    },
+    {
+      "epoch": 8.26,
+      "learning_rate": 8.505660377358492e-06,
+      "loss": 0.0374,
+      "step": 450
+    },
+    {
+      "epoch": 8.26,
+      "eval_accuracy": 0.8284023668639053,
+      "eval_f1": 0.8320464737199128,
+      "eval_loss": 1.2373206615447998,
+      "eval_precision": 0.8369363588201497,
+      "eval_recall": 0.8284023668639053,
+      "eval_runtime": 4.0231,
+      "eval_samples_per_second": 126.021,
+      "eval_steps_per_second": 15.908,
+      "step": 450
+    },
+    {
+      "epoch": 9.17,
+      "learning_rate": 8.316981132075472e-06,
+      "loss": 0.013,
+      "step": 500
+    },
+    {
+      "epoch": 9.17,
+      "eval_accuracy": 0.834319526627219,
+      "eval_f1": 0.8376685641339108,
+      "eval_loss": 1.2268174886703491,
+      "eval_precision": 0.8421800999981714,
+      "eval_recall": 0.834319526627219,
+      "eval_runtime": 4.1413,
+      "eval_samples_per_second": 122.425,
+      "eval_steps_per_second": 15.454,
+      "step": 500
+    },
+    {
+      "epoch": 10.09,
+      "learning_rate": 8.128301886792453e-06,
+      "loss": 0.0213,
+      "step": 550
+    },
+    {
+      "epoch": 10.09,
+      "eval_accuracy": 0.834319526627219,
+      "eval_f1": 0.8396773850135992,
+      "eval_loss": 1.2791889905929565,
+      "eval_precision": 0.8499112935552067,
+      "eval_recall": 0.834319526627219,
+      "eval_runtime": 4.1859,
+      "eval_samples_per_second": 121.122,
+      "eval_steps_per_second": 15.29,
+      "step": 550
+    },
+    {
+      "epoch": 11.01,
+      "learning_rate": 7.939622641509435e-06,
+      "loss": 0.0003,
+      "step": 600
+    },
+    {
+      "epoch": 11.01,
+      "eval_accuracy": 0.8303747534516766,
+      "eval_f1": 0.8359161169722349,
+      "eval_loss": 1.3518141508102417,
+      "eval_precision": 0.8446374502780472,
+      "eval_recall": 0.8303747534516766,
+      "eval_runtime": 3.09,
+      "eval_samples_per_second": 164.08,
+      "eval_steps_per_second": 20.712,
+      "step": 600
+    },
+    {
+      "epoch": 11.93,
+      "learning_rate": 7.750943396226415e-06,
+      "loss": 0.0313,
+      "step": 650
+    },
+    {
+      "epoch": 11.93,
+      "eval_accuracy": 0.8382642998027613,
+      "eval_f1": 0.8405182086840655,
+      "eval_loss": 1.3090877532958984,
+      "eval_precision": 0.8442165138341221,
+      "eval_recall": 0.8382642998027613,
+      "eval_runtime": 4.7065,
+      "eval_samples_per_second": 107.722,
+      "eval_steps_per_second": 13.598,
+      "step": 650
+    }
+  ],
+  "logging_steps": 50,
+  "max_steps": 2700,
+  "num_train_epochs": 50,
+  "save_steps": 50,
+  "total_flos": 2261979798655680.0,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f9b6cd664138888a23a2e9135f10b24952ff773a07bd8912b43b743ac47fb411
+size 4155