lch-qiwu-checkpoint-5000

Browse files

Files changed (8) hide show

lch-qiwu-checkpoint-5000/config.json +187 -0
lch-qiwu-checkpoint-5000/dataset_statistics.json +290 -0
lch-qiwu-checkpoint-5000/model.safetensors +3 -0
lch-qiwu-checkpoint-5000/optimizer.pt +3 -0
lch-qiwu-checkpoint-5000/rng_state.pth +3 -0
lch-qiwu-checkpoint-5000/scheduler.pt +3 -0
lch-qiwu-checkpoint-5000/trainer_state.json +784 -0
lch-qiwu-checkpoint-5000/training_args.bin +3 -0

lch-qiwu-checkpoint-5000/config.json ADDED Viewed

	@@ -0,0 +1,187 @@

+{
+  "batch_size": 8,
+  "buffer_size": 64,
+  "eval_mix": "qiwu_test",
+  "frozen_keys": [
+    "*hf_model*"
+  ],
+  "lora": false,
+  "lora_config": {
+    "bias": "none",
+    "lora_alpha": 16,
+    "lora_dropout": 0.05,
+    "r": 8
+  },
+  "model": {
+    "heads": {
+      "action": {
+        "args": [],
+        "kwargs": {
+          "action_dim": 7,
+          "action_horizon": 4,
+          "dropout_rate": 0.0,
+          "n_diffusion_samples": 1,
+          "readout_key": "readout_action",
+          "token_embedding_size": 768,
+          "use_map": false
+        },
+        "module": "octo.model.components.action_heads",
+        "name": "DiffusionActionHead"
+      }
+    },
+    "max_horizon": 10,
+    "observation_tokenizers": {
+      "primary": {
+        "args": [],
+        "kwargs": {
+          "encoder": {
+            "args": [],
+            "kwargs": {
+              "in_features": 6
+            },
+            "module": "octo.model.components.vit_encoders",
+            "name": "SmallStem16"
+          },
+          "obs_stack_keys": [
+            "image_primary"
+          ],
+          "task_stack_keys": [
+            "image_primary"
+          ]
+        },
+        "module": "octo.model.components.tokenizers",
+        "name": "ImageTokenizer"
+      },
+      "state": {
+        "args": [],
+        "kwargs": {
+          "bin_type": "normal",
+          "high": 2.0,
+          "low": -2.0,
+          "n_bins": 256,
+          "obs_keys": [
+            "state"
+          ]
+        },
+        "module": "model.octo.components.tokenizers",
+        "name": "LowdimObsTokenizer"
+      },
+      "wrist": {
+        "args": [],
+        "kwargs": {
+          "encoder": {
+            "args": [],
+            "kwargs": {
+              "in_features": 6
+            },
+            "module": "octo.model.components.vit_encoders",
+            "name": "SmallStem16"
+          },
+          "obs_stack_keys": [
+            "image_wrist"
+          ],
+          "task_stack_keys": [
+            "image_wrist"
+          ]
+        },
+        "module": "octo.model.components.tokenizers",
+        "name": "ImageTokenizer"
+      }
+    },
+    "readouts": {
+      "action": 1
+    },
+    "repeat_task_tokens": true,
+    "task_tokenizers": {
+      "language": {
+        "args": [],
+        "kwargs": {
+          "encoder": "t5-base",
+          "finetune_encoder": false
+        },
+        "module": "octo.model.components.tokenizers",
+        "name": "LanguageTokenizer"
+      }
+    },
+    "token_embedding_size": 768,
+    "transformer_kwargs": {
+      "add_position_embedding": false,
+      "attention_dropout_rate": 0.0,
+      "dropout_rate": 0.0,
+      "mlp_dim": 3072,
+      "num_attention_heads": 12,
+      "num_layers": 12
+    },
+    "use_correct_attention": true
+  },
+  "no_state": false,
+  "obs_token_nums": {
+    "primary": 256,
+    "state": 7,
+    "wrist": 64
+  },
+  "output_dir": "qiwu_checkpoints_all_data",
+  "pretrained": {
+    "kwargs": {
+      "subpath": "oxe-g2-checkpoint-300000"
+    },
+    "model": "hf://chuanmew/octo_torch"
+  },
+  "run_name": "qiwu",
+  "sampler_num_samples": 2560000,
+  "seed": 2,
+  "subsample_length": 99999,
+  "text_processor": {
+    "args": [],
+    "kwargs": {
+      "encode_with_model": false,
+      "tokenizer_kwargs": {
+        "max_length": 16,
+        "padding": "max_length",
+        "return_tensors": "np",
+        "truncation": true
+      },
+      "tokenizer_name": "t5-base"
+    },
+    "module": "octo.components.text_processing",
+    "name": "HFTokenizer"
+  },
+  "train_mix": "all_qiwu_merges",
+  "training_arguments": {
+    "bf16": true,
+    "dataloader_pin_memory": true,
+    "ddp_find_unused_parameters": true,
+    "eval_steps": 100,
+    "gradient_accumulation_steps": 1,
+    "learning_rate": 3e-05,
+    "logging_nan_inf_filter": false,
+    "logging_steps": 100,
+    "lr_scheduler_kwargs": {
+      "decay_type": "cosine",
+      "min_lr_ratio": 0.05,
+      "num_decay_steps": 0
+    },
+    "lr_scheduler_type": "warmup_stable_decay",
+    "max_grad_norm": 1.0,
+    "max_steps": 5000,
+    "optim": "adamw_torch_fused",
+    "per_device_eval_batch_size": 1,
+    "per_device_train_batch_size": 1,
+    "report_to": "wandb",
+    "save_safetensors": true,
+    "save_steps": 500,
+    "torch_compile": true,
+    "warmup_steps": 100,
+    "weight_decay": 0.1
+  },
+  "training_keys": [
+    "*action*",
+    "*observation_tokenizers*",
+    "*transformer.transformer*",
+    "*task_projections*",
+    "*obs_projections*",
+    "*readout_embeddings*",
+    "*task_pos_embeddings*",
+    "*obs_pos_embeddings*"
+  ]
+}

lch-qiwu-checkpoint-5000/dataset_statistics.json ADDED Viewed

	@@ -0,0 +1,290 @@

+[
+    {
+        "action": {
+            "mean": [
+                -0.0021207339596003294,
+                0.00183492514770478,
+                0.0035495238844305277,
+                -4.220907612761948e-06,
+                -0.0055978186428546906,
+                -0.006060932297259569,
+                0.5278085470199585
+            ],
+            "std": [
+                0.03802286833524704,
+                0.021030722185969353,
+                0.040165603160858154,
+                0.08549340814352036,
+                0.0911325067281723,
+                0.1323363482952118,
+                0.4878678619861603
+            ],
+            "min": [
+                -0.264305979013443,
+                -0.11698240041732788,
+                -0.12788072228431702,
+                -0.7576491832733154,
+                -0.708380937576294,
+                -1.3020894527435303,
+                0.0
+            ],
+            "max": [
+                0.17467179894447327,
+                0.1660223752260208,
+                0.18162232637405396,
+                0.8727858066558838,
+                0.8210165500640869,
+                1.276663064956665,
+                1.0
+            ],
+            "mask": [
+                true,
+                true,
+                true,
+                true,
+                true,
+                true,
+                false
+            ]
+        },
+        "state": {
+            "mean": [
+                -0.8593263626098633,
+                -1.336264729499817,
+                -1.0609148740768433,
+                -0.697239875793457,
+                -1.224779486656189,
+                0.2995929419994354,
+                0.5275121331214905
+            ],
+            "std": [
+                0.20902122557163239,
+                0.35590317845344543,
+                0.4969709813594818,
+                0.21033141016960144,
+                0.2267223745584488,
+                0.4203825294971466,
+                0.48849955201148987
+            ],
+            "min": [
+                -1.649301290512085,
+                -2.269015312194824,
+                -2.3562119007110596,
+                -1.5550708770751953,
+                -2.184192180633545,
+                -1.577620506286621,
+                0.0
+            ],
+            "max": [
+                -0.257505863904953,
+                -0.13100440800189972,
+                0.5860641002655029,
+                -0.1613033264875412,
+                -0.5851041674613953,
+                1.552086353302002,
+                1.0
+            ],
+            "mask": [
+                true,
+                true,
+                true,
+                true,
+                true,
+                true,
+                false
+            ]
+        }
+    },
+    {
+        "action": {
+            "mean": [
+                0.002793338615447283,
+                0.0017030449816957116,
+                -0.0009504178306087852,
+                0.0014839255018159747,
+                0.0010163659462705255,
+                0.01281216274946928,
+                0.4567633867263794
+            ],
+            "std": [
+                0.03352493420243263,
+                0.01704518496990204,
+                0.03547774627804756,
+                0.06987040489912033,
+                0.06841710209846497,
+                0.0847349762916565,
+                0.4794786274433136
+            ],
+            "min": [
+                -0.24331116676330566,
+                -0.1301804780960083,
+                -0.15468895435333252,
+                -0.5852863788604736,
+                -0.5852053165435791,
+                -0.9242353439331055,
+                0.0
+            ],
+            "max": [
+                0.1788746863603592,
+                0.13782057166099548,
+                0.203914076089859,
+                0.8304381370544434,
+                0.595897912979126,
+                1.1058757305145264,
+                1.0
+            ],
+            "mask": [
+                true,
+                true,
+                true,
+                true,
+                true,
+                true,
+                false
+            ]
+        },
+        "state": {
+            "mean": [
+                -1.1439815759658813,
+                -1.0255025625228882,
+                -1.3527690172195435,
+                -0.519981324672699,
+                -1.0002315044403076,
+                0.1325121521949768,
+                0.45643800497055054
+            ],
+            "std": [
+                0.20416870713233948,
+                0.28054729104042053,
+                0.24587351083755493,
+                0.25086745619773865,
+                0.23796093463897705,
+                0.41082870960235596,
+                0.4796474575996399
+            ],
+            "min": [
+                -1.6860579252243042,
+                -1.752921462059021,
+                -2.0715138912200928,
+                -1.61619234085083,
+                -1.7697288990020752,
+                -1.2800593376159668,
+                0.0
+            ],
+            "max": [
+                -0.478167861700058,
+                -0.07618362456560135,
+                -0.47656214237213135,
+                0.3251723051071167,
+                -0.23657937347888947,
+                1.8649541139602661,
+                1.0
+            ],
+            "mask": [
+                true,
+                true,
+                true,
+                true,
+                true,
+                true,
+                false
+            ]
+        }
+    },
+    {
+        "action": {
+            "mean": [
+                -0.001587849808856845,
+                0.0010738142300397158,
+                -0.000697988027241081,
+                -0.006544447969645262,
+                0.009556379169225693,
+                0.020673424005508423,
+                0.45607081055641174
+            ],
+            "std": [
+                0.03518082574009895,
+                0.02438654750585556,
+                0.0410635769367218,
+                0.11703108996152878,
+                0.10797987133264542,
+                0.17201891541481018,
+                0.46286532282829285
+            ],
+            "min": [
+                -0.2540467381477356,
+                -0.16329476237297058,
+                -0.19035658240318298,
+                -1.4179747104644775,
+                -0.8620505332946777,
+                -2.1886229515075684,
+                0.0
+            ],
+            "max": [
+                0.18435201048851013,
+                0.15960073471069336,
+                0.2124226987361908,
+                1.345801591873169,
+                1.2207748889923096,
+                2.1311380863189697,
+                1.0
+            ],
+            "mask": [
+                true,
+                true,
+                true,
+                true,
+                true,
+                true,
+                false
+            ]
+        },
+        "state": {
+            "mean": [
+                -1.0741499662399292,
+                -1.0714620351791382,
+                -1.357372760772705,
+                -0.6174096465110779,
+                -0.880132257938385,
+                0.6550877094268799,
+                0.4558027982711792
+            ],
+            "std": [
+                0.2520765960216522,
+                0.2545098066329956,
+                0.1924552172422409,
+                0.559248685836792,
+                0.41956013441085815,
+                1.6006327867507935,
+                0.46324989199638367
+            ],
+            "min": [
+                -2.1934425830841064,
+                -1.8970158100128174,
+                -2.2100930213928223,
+                -3.1213817596435547,
+                -2.0163440704345703,
+                -6.283377170562744,
+                0.0
+            ],
+            "max": [
+                -0.30637508630752563,
+                -0.13648474216461182,
+                -0.47022661566734314,
+                2.9531495571136475,
+                1.5494160652160645,
+                3.9177753925323486,
+                1.0
+            ],
+            "mask": [
+                true,
+                true,
+                true,
+                true,
+                true,
+                true,
+                false
+            ]
+        }
+    }
+]

lch-qiwu-checkpoint-5000/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1c300a3aa6f6b5c4f25b1952bf98c71bd2e99c1dd5cca2ae2fa8ffa379e16fd9
+size 405079824

lch-qiwu-checkpoint-5000/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:064523c065c942e6826f67aa812af8414af995e095b5a42bdd6b7ea5a4fb4f1b
+size 371730170

lch-qiwu-checkpoint-5000/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:890f790833c5a8adaec27758006635632a6c5dd3693ac7bb0e8ecdeb28180b86
+size 15958

lch-qiwu-checkpoint-5000/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:83ec18b452c1b862765711b3e16c26b4ab0e9350a942b8e4738c8eee7b92ecdf
+size 1064

lch-qiwu-checkpoint-5000/trainer_state.json ADDED Viewed

	@@ -0,0 +1,784 @@

+{
+  "best_global_step": null,
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 0.015625,
+  "eval_steps": 100,
+  "global_step": 5000,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.0003125,
+      "grad_norm": 37.75,
+      "learning_rate": 2.9715000000000003e-05,
+      "loss": 1.4494,
+      "step": 100
+    },
+    {
+      "epoch": 0.0003125,
+      "eval_loss": 0.9893627762794495,
+      "eval_runtime": 83.6129,
+      "eval_samples_per_second": 241.793,
+      "eval_steps_per_second": 241.793,
+      "step": 100
+    },
+    {
+      "epoch": 0.000625,
+      "grad_norm": 22.125,
+      "learning_rate": 3e-05,
+      "loss": 1.1374,
+      "step": 200
+    },
+    {
+      "epoch": 0.000625,
+      "eval_loss": 0.9329086542129517,
+      "eval_runtime": 93.6096,
+      "eval_samples_per_second": 215.971,
+      "eval_steps_per_second": 215.971,
+      "step": 200
+    },
+    {
+      "epoch": 0.0009375,
+      "grad_norm": 23.5,
+      "learning_rate": 3e-05,
+      "loss": 1.0519,
+      "step": 300
+    },
+    {
+      "epoch": 0.0009375,
+      "eval_loss": 0.9117364883422852,
+      "eval_runtime": 89.2029,
+      "eval_samples_per_second": 226.641,
+      "eval_steps_per_second": 226.641,
+      "step": 300
+    },
+    {
+      "epoch": 0.00125,
+      "grad_norm": 22.25,
+      "learning_rate": 3e-05,
+      "loss": 1.0369,
+      "step": 400
+    },
+    {
+      "epoch": 0.00125,
+      "eval_loss": 0.8862078785896301,
+      "eval_runtime": 80.6248,
+      "eval_samples_per_second": 250.754,
+      "eval_steps_per_second": 250.754,
+      "step": 400
+    },
+    {
+      "epoch": 0.0015625,
+      "grad_norm": 22.875,
+      "learning_rate": 3e-05,
+      "loss": 1.0349,
+      "step": 500
+    },
+    {
+      "epoch": 0.0015625,
+      "eval_loss": 0.8915422558784485,
+      "eval_runtime": 93.3883,
+      "eval_samples_per_second": 216.483,
+      "eval_steps_per_second": 216.483,
+      "step": 500
+    },
+    {
+      "epoch": 0.001875,
+      "grad_norm": 25.25,
+      "learning_rate": 3e-05,
+      "loss": 1.0373,
+      "step": 600
+    },
+    {
+      "epoch": 0.001875,
+      "eval_loss": 0.8709920644760132,
+      "eval_runtime": 88.6181,
+      "eval_samples_per_second": 228.136,
+      "eval_steps_per_second": 228.136,
+      "step": 600
+    },
+    {
+      "epoch": 0.0021875,
+      "grad_norm": 29.125,
+      "learning_rate": 3e-05,
+      "loss": 0.9768,
+      "step": 700
+    },
+    {
+      "epoch": 0.0021875,
+      "eval_loss": 0.8621766567230225,
+      "eval_runtime": 87.3819,
+      "eval_samples_per_second": 231.364,
+      "eval_steps_per_second": 231.364,
+      "step": 700
+    },
+    {
+      "epoch": 0.0025,
+      "grad_norm": 31.625,
+      "learning_rate": 3e-05,
+      "loss": 0.9864,
+      "step": 800
+    },
+    {
+      "epoch": 0.0025,
+      "eval_loss": 0.8656457662582397,
+      "eval_runtime": 87.0258,
+      "eval_samples_per_second": 232.31,
+      "eval_steps_per_second": 232.31,
+      "step": 800
+    },
+    {
+      "epoch": 0.0028125,
+      "grad_norm": 24.25,
+      "learning_rate": 3e-05,
+      "loss": 0.971,
+      "step": 900
+    },
+    {
+      "epoch": 0.0028125,
+      "eval_loss": 0.8618795871734619,
+      "eval_runtime": 86.5884,
+      "eval_samples_per_second": 233.484,
+      "eval_steps_per_second": 233.484,
+      "step": 900
+    },
+    {
+      "epoch": 0.003125,
+      "grad_norm": 29.0,
+      "learning_rate": 3e-05,
+      "loss": 0.9625,
+      "step": 1000
+    },
+    {
+      "epoch": 0.003125,
+      "eval_loss": 0.8543567061424255,
+      "eval_runtime": 94.848,
+      "eval_samples_per_second": 213.152,
+      "eval_steps_per_second": 213.152,
+      "step": 1000
+    },
+    {
+      "epoch": 0.0034375,
+      "grad_norm": 26.625,
+      "learning_rate": 3e-05,
+      "loss": 1.0014,
+      "step": 1100
+    },
+    {
+      "epoch": 0.0034375,
+      "eval_loss": 0.8730055689811707,
+      "eval_runtime": 87.0017,
+      "eval_samples_per_second": 232.375,
+      "eval_steps_per_second": 232.375,
+      "step": 1100
+    },
+    {
+      "epoch": 0.00375,
+      "grad_norm": 16.0,
+      "learning_rate": 3e-05,
+      "loss": 0.9598,
+      "step": 1200
+    },
+    {
+      "epoch": 0.00375,
+      "eval_loss": 0.8562670350074768,
+      "eval_runtime": 89.5828,
+      "eval_samples_per_second": 225.68,
+      "eval_steps_per_second": 225.68,
+      "step": 1200
+    },
+    {
+      "epoch": 0.0040625,
+      "grad_norm": 19.25,
+      "learning_rate": 3e-05,
+      "loss": 0.9512,
+      "step": 1300
+    },
+    {
+      "epoch": 0.0040625,
+      "eval_loss": 0.865445077419281,
+      "eval_runtime": 90.7843,
+      "eval_samples_per_second": 222.693,
+      "eval_steps_per_second": 222.693,
+      "step": 1300
+    },
+    {
+      "epoch": 0.004375,
+      "grad_norm": 22.75,
+      "learning_rate": 3e-05,
+      "loss": 0.9378,
+      "step": 1400
+    },
+    {
+      "epoch": 0.004375,
+      "eval_loss": 0.8774417042732239,
+      "eval_runtime": 86.9963,
+      "eval_samples_per_second": 232.389,
+      "eval_steps_per_second": 232.389,
+      "step": 1400
+    },
+    {
+      "epoch": 0.0046875,
+      "grad_norm": 23.75,
+      "learning_rate": 3e-05,
+      "loss": 0.9397,
+      "step": 1500
+    },
+    {
+      "epoch": 0.0046875,
+      "eval_loss": 0.8403639197349548,
+      "eval_runtime": 92.1015,
+      "eval_samples_per_second": 219.508,
+      "eval_steps_per_second": 219.508,
+      "step": 1500
+    },
+    {
+      "epoch": 0.005,
+      "grad_norm": 20.75,
+      "learning_rate": 3e-05,
+      "loss": 0.9588,
+      "step": 1600
+    },
+    {
+      "epoch": 0.005,
+      "eval_loss": 0.8386977910995483,
+      "eval_runtime": 91.8663,
+      "eval_samples_per_second": 220.07,
+      "eval_steps_per_second": 220.07,
+      "step": 1600
+    },
+    {
+      "epoch": 0.0053125,
+      "grad_norm": 25.125,
+      "learning_rate": 3e-05,
+      "loss": 0.986,
+      "step": 1700
+    },
+    {
+      "epoch": 0.0053125,
+      "eval_loss": 0.8436814546585083,
+      "eval_runtime": 85.7235,
+      "eval_samples_per_second": 235.84,
+      "eval_steps_per_second": 235.84,
+      "step": 1700
+    },
+    {
+      "epoch": 0.005625,
+      "grad_norm": 22.5,
+      "learning_rate": 3e-05,
+      "loss": 0.9679,
+      "step": 1800
+    },
+    {
+      "epoch": 0.005625,
+      "eval_loss": 0.8496856689453125,
+      "eval_runtime": 87.5793,
+      "eval_samples_per_second": 230.842,
+      "eval_steps_per_second": 230.842,
+      "step": 1800
+    },
+    {
+      "epoch": 0.0059375,
+      "grad_norm": 14.75,
+      "learning_rate": 3e-05,
+      "loss": 0.9407,
+      "step": 1900
+    },
+    {
+      "epoch": 0.0059375,
+      "eval_loss": 0.8395476341247559,
+      "eval_runtime": 85.866,
+      "eval_samples_per_second": 235.448,
+      "eval_steps_per_second": 235.448,
+      "step": 1900
+    },
+    {
+      "epoch": 0.00625,
+      "grad_norm": 25.0,
+      "learning_rate": 3e-05,
+      "loss": 0.9344,
+      "step": 2000
+    },
+    {
+      "epoch": 0.00625,
+      "eval_loss": 0.8381168842315674,
+      "eval_runtime": 85.3278,
+      "eval_samples_per_second": 236.933,
+      "eval_steps_per_second": 236.933,
+      "step": 2000
+    },
+    {
+      "epoch": 0.0065625,
+      "grad_norm": 18.5,
+      "learning_rate": 3e-05,
+      "loss": 0.946,
+      "step": 2100
+    },
+    {
+      "epoch": 0.0065625,
+      "eval_loss": 0.832157552242279,
+      "eval_runtime": 89.6324,
+      "eval_samples_per_second": 225.555,
+      "eval_steps_per_second": 225.555,
+      "step": 2100
+    },
+    {
+      "epoch": 0.006875,
+      "grad_norm": 24.625,
+      "learning_rate": 3e-05,
+      "loss": 0.9094,
+      "step": 2200
+    },
+    {
+      "epoch": 0.006875,
+      "eval_loss": 0.8447126746177673,
+      "eval_runtime": 86.4865,
+      "eval_samples_per_second": 233.759,
+      "eval_steps_per_second": 233.759,
+      "step": 2200
+    },
+    {
+      "epoch": 0.0071875,
+      "grad_norm": 17.625,
+      "learning_rate": 3e-05,
+      "loss": 0.919,
+      "step": 2300
+    },
+    {
+      "epoch": 0.0071875,
+      "eval_loss": 0.8236312866210938,
+      "eval_runtime": 90.4874,
+      "eval_samples_per_second": 223.423,
+      "eval_steps_per_second": 223.423,
+      "step": 2300
+    },
+    {
+      "epoch": 0.0075,
+      "grad_norm": 34.5,
+      "learning_rate": 3e-05,
+      "loss": 0.91,
+      "step": 2400
+    },
+    {
+      "epoch": 0.0075,
+      "eval_loss": 0.8279756903648376,
+      "eval_runtime": 84.7034,
+      "eval_samples_per_second": 238.68,
+      "eval_steps_per_second": 238.68,
+      "step": 2400
+    },
+    {
+      "epoch": 0.0078125,
+      "grad_norm": 14.75,
+      "learning_rate": 3e-05,
+      "loss": 0.9367,
+      "step": 2500
+    },
+    {
+      "epoch": 0.0078125,
+      "eval_loss": 0.8254591822624207,
+      "eval_runtime": 88.7179,
+      "eval_samples_per_second": 227.88,
+      "eval_steps_per_second": 227.88,
+      "step": 2500
+    },
+    {
+      "epoch": 0.008125,
+      "grad_norm": 22.25,
+      "learning_rate": 3e-05,
+      "loss": 0.93,
+      "step": 2600
+    },
+    {
+      "epoch": 0.008125,
+      "eval_loss": 0.8389394283294678,
+      "eval_runtime": 92.6356,
+      "eval_samples_per_second": 218.242,
+      "eval_steps_per_second": 218.242,
+      "step": 2600
+    },
+    {
+      "epoch": 0.0084375,
+      "grad_norm": 30.625,
+      "learning_rate": 3e-05,
+      "loss": 0.9673,
+      "step": 2700
+    },
+    {
+      "epoch": 0.0084375,
+      "eval_loss": 0.8376287221908569,
+      "eval_runtime": 109.9646,
+      "eval_samples_per_second": 183.85,
+      "eval_steps_per_second": 183.85,
+      "step": 2700
+    },
+    {
+      "epoch": 0.00875,
+      "grad_norm": 21.5,
+      "learning_rate": 3e-05,
+      "loss": 0.9068,
+      "step": 2800
+    },
+    {
+      "epoch": 0.00875,
+      "eval_loss": 0.8400581479072571,
+      "eval_runtime": 84.9979,
+      "eval_samples_per_second": 237.853,
+      "eval_steps_per_second": 237.853,
+      "step": 2800
+    },
+    {
+      "epoch": 0.0090625,
+      "grad_norm": 25.5,
+      "learning_rate": 3e-05,
+      "loss": 0.8893,
+      "step": 2900
+    },
+    {
+      "epoch": 0.0090625,
+      "eval_loss": 0.8247655630111694,
+      "eval_runtime": 84.3633,
+      "eval_samples_per_second": 239.642,
+      "eval_steps_per_second": 239.642,
+      "step": 2900
+    },
+    {
+      "epoch": 0.009375,
+      "grad_norm": 25.75,
+      "learning_rate": 3e-05,
+      "loss": 0.9009,
+      "step": 3000
+    },
+    {
+      "epoch": 0.009375,
+      "eval_loss": 0.8231511116027832,
+      "eval_runtime": 105.5337,
+      "eval_samples_per_second": 191.569,
+      "eval_steps_per_second": 191.569,
+      "step": 3000
+    },
+    {
+      "epoch": 0.0096875,
+      "grad_norm": 22.875,
+      "learning_rate": 3e-05,
+      "loss": 0.9238,
+      "step": 3100
+    },
+    {
+      "epoch": 0.0096875,
+      "eval_loss": 0.8190457224845886,
+      "eval_runtime": 82.5894,
+      "eval_samples_per_second": 244.789,
+      "eval_steps_per_second": 244.789,
+      "step": 3100
+    },
+    {
+      "epoch": 0.01,
+      "grad_norm": 23.875,
+      "learning_rate": 3e-05,
+      "loss": 0.9032,
+      "step": 3200
+    },
+    {
+      "epoch": 0.01,
+      "eval_loss": 0.8098758459091187,
+      "eval_runtime": 88.6206,
+      "eval_samples_per_second": 228.13,
+      "eval_steps_per_second": 228.13,
+      "step": 3200
+    },
+    {
+      "epoch": 0.0103125,
+      "grad_norm": 26.125,
+      "learning_rate": 3e-05,
+      "loss": 0.9544,
+      "step": 3300
+    },
+    {
+      "epoch": 0.0103125,
+      "eval_loss": 0.8281997442245483,
+      "eval_runtime": 88.8475,
+      "eval_samples_per_second": 227.547,
+      "eval_steps_per_second": 227.547,
+      "step": 3300
+    },
+    {
+      "epoch": 0.010625,
+      "grad_norm": 30.25,
+      "learning_rate": 3e-05,
+      "loss": 0.8872,
+      "step": 3400
+    },
+    {
+      "epoch": 0.010625,
+      "eval_loss": 0.8237181305885315,
+      "eval_runtime": 87.3723,
+      "eval_samples_per_second": 231.389,
+      "eval_steps_per_second": 231.389,
+      "step": 3400
+    },
+    {
+      "epoch": 0.0109375,
+      "grad_norm": 21.625,
+      "learning_rate": 3e-05,
+      "loss": 0.8919,
+      "step": 3500
+    },
+    {
+      "epoch": 0.0109375,
+      "eval_loss": 0.8282459378242493,
+      "eval_runtime": 93.0947,
+      "eval_samples_per_second": 217.166,
+      "eval_steps_per_second": 217.166,
+      "step": 3500
+    },
+    {
+      "epoch": 0.01125,
+      "grad_norm": 29.5,
+      "learning_rate": 3e-05,
+      "loss": 0.9237,
+      "step": 3600
+    },
+    {
+      "epoch": 0.01125,
+      "eval_loss": 0.8266128301620483,
+      "eval_runtime": 83.0185,
+      "eval_samples_per_second": 243.524,
+      "eval_steps_per_second": 243.524,
+      "step": 3600
+    },
+    {
+      "epoch": 0.0115625,
+      "grad_norm": 18.75,
+      "learning_rate": 3e-05,
+      "loss": 0.9235,
+      "step": 3700
+    },
+    {
+      "epoch": 0.0115625,
+      "eval_loss": 0.859565258026123,
+      "eval_runtime": 97.9546,
+      "eval_samples_per_second": 206.391,
+      "eval_steps_per_second": 206.391,
+      "step": 3700
+    },
+    {
+      "epoch": 0.011875,
+      "grad_norm": 22.0,
+      "learning_rate": 3e-05,
+      "loss": 0.9026,
+      "step": 3800
+    },
+    {
+      "epoch": 0.011875,
+      "eval_loss": 0.8544378280639648,
+      "eval_runtime": 82.9352,
+      "eval_samples_per_second": 243.769,
+      "eval_steps_per_second": 243.769,
+      "step": 3800
+    },
+    {
+      "epoch": 0.0121875,
+      "grad_norm": 20.5,
+      "learning_rate": 3e-05,
+      "loss": 0.9764,
+      "step": 3900
+    },
+    {
+      "epoch": 0.0121875,
+      "eval_loss": 0.8370941877365112,
+      "eval_runtime": 93.308,
+      "eval_samples_per_second": 216.67,
+      "eval_steps_per_second": 216.67,
+      "step": 3900
+    },
+    {
+      "epoch": 0.0125,
+      "grad_norm": 24.875,
+      "learning_rate": 3e-05,
+      "loss": 0.9143,
+      "step": 4000
+    },
+    {
+      "epoch": 0.0125,
+      "eval_loss": 0.8286308646202087,
+      "eval_runtime": 88.2515,
+      "eval_samples_per_second": 229.084,
+      "eval_steps_per_second": 229.084,
+      "step": 4000
+    },
+    {
+      "epoch": 0.0128125,
+      "grad_norm": 27.5,
+      "learning_rate": 3e-05,
+      "loss": 0.9089,
+      "step": 4100
+    },
+    {
+      "epoch": 0.0128125,
+      "eval_loss": 0.8309729695320129,
+      "eval_runtime": 95.4091,
+      "eval_samples_per_second": 211.898,
+      "eval_steps_per_second": 211.898,
+      "step": 4100
+    },
+    {
+      "epoch": 0.013125,
+      "grad_norm": 19.625,
+      "learning_rate": 3e-05,
+      "loss": 0.9725,
+      "step": 4200
+    },
+    {
+      "epoch": 0.013125,
+      "eval_loss": 0.8205706477165222,
+      "eval_runtime": 84.2153,
+      "eval_samples_per_second": 240.063,
+      "eval_steps_per_second": 240.063,
+      "step": 4200
+    },
+    {
+      "epoch": 0.0134375,
+      "grad_norm": 24.375,
+      "learning_rate": 3e-05,
+      "loss": 0.8795,
+      "step": 4300
+    },
+    {
+      "epoch": 0.0134375,
+      "eval_loss": 0.854993999004364,
+      "eval_runtime": 85.1335,
+      "eval_samples_per_second": 237.474,
+      "eval_steps_per_second": 237.474,
+      "step": 4300
+    },
+    {
+      "epoch": 0.01375,
+      "grad_norm": 34.25,
+      "learning_rate": 3e-05,
+      "loss": 0.9001,
+      "step": 4400
+    },
+    {
+      "epoch": 0.01375,
+      "eval_loss": 0.8291048407554626,
+      "eval_runtime": 85.3999,
+      "eval_samples_per_second": 236.733,
+      "eval_steps_per_second": 236.733,
+      "step": 4400
+    },
+    {
+      "epoch": 0.0140625,
+      "grad_norm": 27.75,
+      "learning_rate": 3e-05,
+      "loss": 0.9336,
+      "step": 4500
+    },
+    {
+      "epoch": 0.0140625,
+      "eval_loss": 0.8212500214576721,
+      "eval_runtime": 89.2017,
+      "eval_samples_per_second": 226.644,
+      "eval_steps_per_second": 226.644,
+      "step": 4500
+    },
+    {
+      "epoch": 0.014375,
+      "grad_norm": 23.25,
+      "learning_rate": 3e-05,
+      "loss": 0.8808,
+      "step": 4600
+    },
+    {
+      "epoch": 0.014375,
+      "eval_loss": 0.8099567890167236,
+      "eval_runtime": 90.1311,
+      "eval_samples_per_second": 224.307,
+      "eval_steps_per_second": 224.307,
+      "step": 4600
+    },
+    {
+      "epoch": 0.0146875,
+      "grad_norm": 24.75,
+      "learning_rate": 3e-05,
+      "loss": 0.9096,
+      "step": 4700
+    },
+    {
+      "epoch": 0.0146875,
+      "eval_loss": 0.8344265222549438,
+      "eval_runtime": 85.2507,
+      "eval_samples_per_second": 237.148,
+      "eval_steps_per_second": 237.148,
+      "step": 4700
+    },
+    {
+      "epoch": 0.015,
+      "grad_norm": 34.0,
+      "learning_rate": 3e-05,
+      "loss": 0.879,
+      "step": 4800
+    },
+    {
+      "epoch": 0.015,
+      "eval_loss": 0.8386716246604919,
+      "eval_runtime": 83.0978,
+      "eval_samples_per_second": 243.292,
+      "eval_steps_per_second": 243.292,
+      "step": 4800
+    },
+    {
+      "epoch": 0.0153125,
+      "grad_norm": 29.875,
+      "learning_rate": 3e-05,
+      "loss": 0.8607,
+      "step": 4900
+    },
+    {
+      "epoch": 0.0153125,
+      "eval_loss": 0.8188918828964233,
+      "eval_runtime": 83.1992,
+      "eval_samples_per_second": 242.995,
+      "eval_steps_per_second": 242.995,
+      "step": 4900
+    },
+    {
+      "epoch": 0.015625,
+      "grad_norm": 14.9375,
+      "learning_rate": 3e-05,
+      "loss": 0.9215,
+      "step": 5000
+    },
+    {
+      "epoch": 0.015625,
+      "eval_loss": 0.8134725093841553,
+      "eval_runtime": 82.3232,
+      "eval_samples_per_second": 245.581,
+      "eval_steps_per_second": 245.581,
+      "step": 5000
+    }
+  ],
+  "logging_steps": 100,
+  "max_steps": 5000,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 1,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 0.0,
+  "train_batch_size": 1,
+  "trial_name": null,
+  "trial_params": null
+}

lch-qiwu-checkpoint-5000/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b9dcbcecaa8883b9529a3d238487136d360bb4b37dc807e05c24a5c6cf8d75f1
+size 5432