Training in progress, epoch 0

Browse files

Files changed (12) hide show

README.md +124 -0
all_results.json +13 -0
config.json +79 -0
eval_results.json +8 -0
model.safetensors +3 -0
preprocessor_config.json +22 -0
runs/Sep19_06-34-28_6ebaceb369b5/events.out.tfevents.1726727670.6ebaceb369b5.376.0 +3 -0
runs/Sep19_06-34-28_6ebaceb369b5/events.out.tfevents.1726729758.6ebaceb369b5.376.1 +3 -0
runs/Sep19_07-20-52_6ebaceb369b5/events.out.tfevents.1726730454.6ebaceb369b5.376.2 +3 -0
train_results.json +8 -0
trainer_state.json +701 -0
training_args.bin +3 -0

README.md ADDED Viewed

	@@ -0,0 +1,124 @@

+---
+library_name: transformers
+license: apache-2.0
+base_model: microsoft/swin-tiny-patch4-window7-224
+tags:
+- generated_from_trainer
+datasets:
+- imagefolder
+metrics:
+- accuracy
+model-index:
+- name: swin-tiny-patch4-window7-224-finetuned-eurosat
+  results:
+  - task:
+      name: Image Classification
+      type: image-classification
+    dataset:
+      name: imagefolder
+      type: imagefolder
+      config: default
+      split: train
+      args: default
+    metrics:
+    - name: Accuracy
+      type: accuracy
+      value: 0.8909090909090909
+---
+<!-- This model card has been generated automatically according to the information the Trainer had access to. You
+should probably proofread and complete it, then remove this comment. -->
+# swin-tiny-patch4-window7-224-finetuned-eurosat
+This model is a fine-tuned version of [microsoft/swin-tiny-patch4-window7-224](https://huggingface.co/microsoft/swin-tiny-patch4-window7-224) on the imagefolder dataset.
+It achieves the following results on the evaluation set:
+- Loss: 0.3813
+- Accuracy: 0.8909
+## Model description
+More information needed
+## Intended uses & limitations
+More information needed
+## Training and evaluation data
+More information needed
+## Training procedure
+### Training hyperparameters
+The following hyperparameters were used during training:
+- learning_rate: 5e-05
+- train_batch_size: 32
+- eval_batch_size: 32
+- seed: 42
+- gradient_accumulation_steps: 4
+- total_train_batch_size: 128
+- optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
+- lr_scheduler_type: linear
+- lr_scheduler_warmup_ratio: 0.1
+- num_epochs: 50
+### Training results
+| Training Loss | Epoch   | Step | Validation Loss | Accuracy |
+|:-------------:|:-------:|:----:|:---------------:|:--------:|
+| No log        | 0.9032  | 7    | 2.3655          | 0.1455   |
+| 2.396         | 1.9355  | 15   | 2.2806          | 0.2      |
+| 2.3064        | 2.9677  | 23   | 2.1057          | 0.3727   |
+| 2.0698        | 4.0     | 31   | 1.7731          | 0.5636   |
+| 2.0698        | 4.9032  | 38   | 1.3060          | 0.6182   |
+| 1.5736        | 5.9355  | 46   | 0.8939          | 0.7182   |
+| 0.9943        | 6.9677  | 54   | 0.7154          | 0.7909   |
+| 0.8023        | 8.0     | 62   | 0.6640          | 0.7727   |
+| 0.8023        | 8.9032  | 69   | 0.5833          | 0.7818   |
+| 0.5882        | 9.9355  | 77   | 0.5443          | 0.8091   |
+| 0.5332        | 10.9677 | 85   | 0.5864          | 0.7909   |
+| 0.4483        | 12.0    | 93   | 0.4938          | 0.8273   |
+| 0.378         | 12.9032 | 100  | 0.4696          | 0.8364   |
+| 0.378         | 13.9355 | 108  | 0.4419          | 0.8545   |
+| 0.3461        | 14.9677 | 116  | 0.4350          | 0.8636   |
+| 0.333         | 16.0    | 124  | 0.4285          | 0.8727   |
+| 0.2771        | 16.9032 | 131  | 0.4151          | 0.8636   |
+| 0.2771        | 17.9355 | 139  | 0.3938          | 0.8818   |
+| 0.2791        | 18.9677 | 147  | 0.3853          | 0.8818   |
+| 0.2939        | 20.0    | 155  | 0.4061          | 0.8636   |
+| 0.2651        | 20.9032 | 162  | 0.4434          | 0.8545   |
+| 0.2462        | 21.9355 | 170  | 0.3813          | 0.8909   |
+| 0.2462        | 22.9677 | 178  | 0.4007          | 0.8818   |
+| 0.2277        | 24.0    | 186  | 0.3784          | 0.8727   |
+| 0.2289        | 24.9032 | 193  | 0.3682          | 0.8636   |
+| 0.2518        | 25.9355 | 201  | 0.4235          | 0.8636   |
+| 0.2518        | 26.9677 | 209  | 0.4013          | 0.8727   |
+| 0.1961        | 28.0    | 217  | 0.3705          | 0.8727   |
+| 0.2316        | 28.9032 | 224  | 0.3901          | 0.8727   |
+| 0.1802        | 29.9355 | 232  | 0.4017          | 0.8636   |
+| 0.1711        | 30.9677 | 240  | 0.4080          | 0.8455   |
+| 0.1711        | 32.0    | 248  | 0.3773          | 0.8636   |
+| 0.1885        | 32.9032 | 255  | 0.3669          | 0.8727   |
+| 0.1784        | 33.9355 | 263  | 0.4084          | 0.8636   |
+| 0.18          | 34.9677 | 271  | 0.4206          | 0.8636   |
+| 0.18          | 36.0    | 279  | 0.4106          | 0.8636   |
+| 0.1752        | 36.9032 | 286  | 0.4133          | 0.8727   |
+| 0.1778        | 37.9355 | 294  | 0.4184          | 0.8727   |
+| 0.1633        | 38.9677 | 302  | 0.4236          | 0.8636   |
+| 0.1621        | 40.0    | 310  | 0.4168          | 0.8727   |
+| 0.1621        | 40.9032 | 317  | 0.4187          | 0.8727   |
+| 0.1497        | 41.9355 | 325  | 0.4140          | 0.8727   |
+| 0.1434        | 42.9677 | 333  | 0.4118          | 0.8909   |
+| 0.1802        | 44.0    | 341  | 0.4125          | 0.8818   |
+| 0.1802        | 44.9032 | 348  | 0.4124          | 0.8727   |
+| 0.1576        | 45.1613 | 350  | 0.4122          | 0.8727   |
+### Framework versions
+- Transformers 4.44.2
+- Pytorch 2.4.0+cu121
+- Datasets 3.0.0
+- Tokenizers 0.19.1

all_results.json ADDED Viewed

	@@ -0,0 +1,13 @@

+{
+    "epoch": 45.16129032258065,
+    "eval_accuracy": 0.8909090909090909,
+    "eval_loss": 0.3812616765499115,
+    "eval_runtime": 3.2137,
+    "eval_samples_per_second": 34.229,
+    "eval_steps_per_second": 1.245,
+    "total_flos": 1.1015215348522291e+18,
+    "train_loss": 0.49926152706146243,
+    "train_runtime": 2076.2527,
+    "train_samples_per_second": 23.624,
+    "train_steps_per_second": 0.169
+}

config.json ADDED Viewed

	@@ -0,0 +1,79 @@

+{
+  "_name_or_path": "microsoft/swin-tiny-patch4-window7-224",
+  "architectures": [
+    "SwinForImageClassification"
+  ],
+  "attention_probs_dropout_prob": 0.0,
+  "depths": [
+    2,
+    2,
+    6,
+    2
+  ],
+  "drop_path_rate": 0.1,
+  "embed_dim": 96,
+  "encoder_stride": 32,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.0,
+  "hidden_size": 768,
+  "id2label": {
+    "0": "AK-47",
+    "1": "AWP",
+    "2": "Famas",
+    "3": "Galil-AR",
+    "4": "Glock",
+    "5": "M4A1",
+    "6": "M4A4",
+    "7": "P-90",
+    "8": "SG-553",
+    "9": "UMP",
+    "10": "USP"
+  },
+  "image_size": 224,
+  "initializer_range": 0.02,
+  "label2id": {
+    "AK-47": 0,
+    "AWP": 1,
+    "Famas": 2,
+    "Galil-AR": 3,
+    "Glock": 4,
+    "M4A1": 5,
+    "M4A4": 6,
+    "P-90": 7,
+    "SG-553": 8,
+    "UMP": 9,
+    "USP": 10
+  },
+  "layer_norm_eps": 1e-05,
+  "mlp_ratio": 4.0,
+  "model_type": "swin",
+  "num_channels": 3,
+  "num_heads": [
+    3,
+    6,
+    12,
+    24
+  ],
+  "num_layers": 4,
+  "out_features": [
+    "stage4"
+  ],
+  "out_indices": [
+    4
+  ],
+  "patch_size": 4,
+  "path_norm": true,
+  "problem_type": "single_label_classification",
+  "qkv_bias": true,
+  "stage_names": [
+    "stem",
+    "stage1",
+    "stage2",
+    "stage3",
+    "stage4"
+  ],
+  "torch_dtype": "float32",
+  "transformers_version": "4.44.2",
+  "use_absolute_embeddings": false,
+  "window_size": 7
+}

eval_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 45.16129032258065,
+    "eval_accuracy": 0.8909090909090909,
+    "eval_loss": 0.3812616765499115,
+    "eval_runtime": 3.2137,
+    "eval_samples_per_second": 34.229,
+    "eval_steps_per_second": 1.245
+}

model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7571d68c84fc8b6138f06a14d3f97daf7b238cefc65da4cc0025b676e1eaa987
+size 110370524

preprocessor_config.json ADDED Viewed

	@@ -0,0 +1,22 @@

+{
+  "do_normalize": true,
+  "do_rescale": true,
+  "do_resize": true,
+  "image_mean": [
+    0.485,
+    0.456,
+    0.406
+  ],
+  "image_processor_type": "ViTImageProcessor",
+  "image_std": [
+    0.229,
+    0.224,
+    0.225
+  ],
+  "resample": 3,
+  "rescale_factor": 0.00392156862745098,
+  "size": {
+    "height": 224,
+    "width": 224
+  }
+}

runs/Sep19_06-34-28_6ebaceb369b5/events.out.tfevents.1726727670.6ebaceb369b5.376.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:75275220284f8170a66d2bcbc736130829084258a7a3bb5fbb1ebaa35e6f3bea
+size 28118

runs/Sep19_06-34-28_6ebaceb369b5/events.out.tfevents.1726729758.6ebaceb369b5.376.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e190e59f50f4ad219747391a6f39883a129b2d1f8383a5f564f42756f493916e
+size 411

runs/Sep19_07-20-52_6ebaceb369b5/events.out.tfevents.1726730454.6ebaceb369b5.376.2 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4dbeff909bea159730b366efdf97d48cf9088b4b2ded0d7bec0505039082eadd
+size 5982

train_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 45.16129032258065,
+    "total_flos": 1.1015215348522291e+18,
+    "train_loss": 0.49926152706146243,
+    "train_runtime": 2076.2527,
+    "train_samples_per_second": 23.624,
+    "train_steps_per_second": 0.169
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,701 @@

+{
+  "best_metric": 0.8909090909090909,
+  "best_model_checkpoint": "swin-tiny-patch4-window7-224-finetuned-eurosat/checkpoint-170",
+  "epoch": 45.16129032258065,
+  "eval_steps": 500,
+  "global_step": 350,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.9032258064516129,
+      "eval_accuracy": 0.14545454545454545,
+      "eval_loss": 2.365513563156128,
+      "eval_runtime": 42.0143,
+      "eval_samples_per_second": 2.618,
+      "eval_steps_per_second": 0.095,
+      "step": 7
+    },
+    {
+      "epoch": 1.2903225806451613,
+      "grad_norm": 6.957228183746338,
+      "learning_rate": 1.4285714285714285e-05,
+      "loss": 2.396,
+      "step": 10
+    },
+    {
+      "epoch": 1.935483870967742,
+      "eval_accuracy": 0.2,
+      "eval_loss": 2.280606985092163,
+      "eval_runtime": 2.4197,
+      "eval_samples_per_second": 45.46,
+      "eval_steps_per_second": 1.653,
+      "step": 15
+    },
+    {
+      "epoch": 2.5806451612903225,
+      "grad_norm": 5.89718770980835,
+      "learning_rate": 2.857142857142857e-05,
+      "loss": 2.3064,
+      "step": 20
+    },
+    {
+      "epoch": 2.967741935483871,
+      "eval_accuracy": 0.37272727272727274,
+      "eval_loss": 2.1056878566741943,
+      "eval_runtime": 2.3883,
+      "eval_samples_per_second": 46.057,
+      "eval_steps_per_second": 1.675,
+      "step": 23
+    },
+    {
+      "epoch": 3.870967741935484,
+      "grad_norm": 10.595786094665527,
+      "learning_rate": 4.2857142857142856e-05,
+      "loss": 2.0698,
+      "step": 30
+    },
+    {
+      "epoch": 4.0,
+      "eval_accuracy": 0.5636363636363636,
+      "eval_loss": 1.7731393575668335,
+      "eval_runtime": 2.7796,
+      "eval_samples_per_second": 39.574,
+      "eval_steps_per_second": 1.439,
+      "step": 31
+    },
+    {
+      "epoch": 4.903225806451613,
+      "eval_accuracy": 0.6181818181818182,
+      "eval_loss": 1.306030511856079,
+      "eval_runtime": 2.3717,
+      "eval_samples_per_second": 46.381,
+      "eval_steps_per_second": 1.687,
+      "step": 38
+    },
+    {
+      "epoch": 5.161290322580645,
+      "grad_norm": 10.822553634643555,
+      "learning_rate": 4.9206349206349204e-05,
+      "loss": 1.5736,
+      "step": 40
+    },
+    {
+      "epoch": 5.935483870967742,
+      "eval_accuracy": 0.7181818181818181,
+      "eval_loss": 0.893871009349823,
+      "eval_runtime": 2.467,
+      "eval_samples_per_second": 44.589,
+      "eval_steps_per_second": 1.621,
+      "step": 46
+    },
+    {
+      "epoch": 6.451612903225806,
+      "grad_norm": 11.323225975036621,
+      "learning_rate": 4.761904761904762e-05,
+      "loss": 0.9943,
+      "step": 50
+    },
+    {
+      "epoch": 6.967741935483871,
+      "eval_accuracy": 0.7909090909090909,
+      "eval_loss": 0.7153930068016052,
+      "eval_runtime": 2.7519,
+      "eval_samples_per_second": 39.972,
+      "eval_steps_per_second": 1.454,
+      "step": 54
+    },
+    {
+      "epoch": 7.741935483870968,
+      "grad_norm": 16.32503890991211,
+      "learning_rate": 4.603174603174603e-05,
+      "loss": 0.8023,
+      "step": 60
+    },
+    {
+      "epoch": 8.0,
+      "eval_accuracy": 0.7727272727272727,
+      "eval_loss": 0.6640019416809082,
+      "eval_runtime": 2.4176,
+      "eval_samples_per_second": 45.5,
+      "eval_steps_per_second": 1.655,
+      "step": 62
+    },
+    {
+      "epoch": 8.903225806451612,
+      "eval_accuracy": 0.7818181818181819,
+      "eval_loss": 0.5833413004875183,
+      "eval_runtime": 2.9975,
+      "eval_samples_per_second": 36.698,
+      "eval_steps_per_second": 1.334,
+      "step": 69
+    },
+    {
+      "epoch": 9.03225806451613,
+      "grad_norm": 8.37897777557373,
+      "learning_rate": 4.4444444444444447e-05,
+      "loss": 0.5882,
+      "step": 70
+    },
+    {
+      "epoch": 9.935483870967742,
+      "eval_accuracy": 0.8090909090909091,
+      "eval_loss": 0.5442659854888916,
+      "eval_runtime": 2.3662,
+      "eval_samples_per_second": 46.488,
+      "eval_steps_per_second": 1.69,
+      "step": 77
+    },
+    {
+      "epoch": 10.32258064516129,
+      "grad_norm": 9.489636421203613,
+      "learning_rate": 4.2857142857142856e-05,
+      "loss": 0.5332,
+      "step": 80
+    },
+    {
+      "epoch": 10.967741935483872,
+      "eval_accuracy": 0.7909090909090909,
+      "eval_loss": 0.5864469408988953,
+      "eval_runtime": 2.4555,
+      "eval_samples_per_second": 44.798,
+      "eval_steps_per_second": 1.629,
+      "step": 85
+    },
+    {
+      "epoch": 11.612903225806452,
+      "grad_norm": 6.926851749420166,
+      "learning_rate": 4.126984126984127e-05,
+      "loss": 0.4483,
+      "step": 90
+    },
+    {
+      "epoch": 12.0,
+      "eval_accuracy": 0.8272727272727273,
+      "eval_loss": 0.49381566047668457,
+      "eval_runtime": 2.413,
+      "eval_samples_per_second": 45.586,
+      "eval_steps_per_second": 1.658,
+      "step": 93
+    },
+    {
+      "epoch": 12.903225806451612,
+      "grad_norm": 7.890347480773926,
+      "learning_rate": 3.968253968253968e-05,
+      "loss": 0.378,
+      "step": 100
+    },
+    {
+      "epoch": 12.903225806451612,
+      "eval_accuracy": 0.8363636363636363,
+      "eval_loss": 0.4695802927017212,
+      "eval_runtime": 2.3886,
+      "eval_samples_per_second": 46.053,
+      "eval_steps_per_second": 1.675,
+      "step": 100
+    },
+    {
+      "epoch": 13.935483870967742,
+      "eval_accuracy": 0.8545454545454545,
+      "eval_loss": 0.4418897032737732,
+      "eval_runtime": 2.8373,
+      "eval_samples_per_second": 38.769,
+      "eval_steps_per_second": 1.41,
+      "step": 108
+    },
+    {
+      "epoch": 14.193548387096774,
+      "grad_norm": 6.673839092254639,
+      "learning_rate": 3.809523809523809e-05,
+      "loss": 0.3461,
+      "step": 110
+    },
+    {
+      "epoch": 14.967741935483872,
+      "eval_accuracy": 0.8636363636363636,
+      "eval_loss": 0.434987872838974,
+      "eval_runtime": 2.4785,
+      "eval_samples_per_second": 44.382,
+      "eval_steps_per_second": 1.614,
+      "step": 116
+    },
+    {
+      "epoch": 15.483870967741936,
+      "grad_norm": 6.9846038818359375,
+      "learning_rate": 3.650793650793651e-05,
+      "loss": 0.333,
+      "step": 120
+    },
+    {
+      "epoch": 16.0,
+      "eval_accuracy": 0.8727272727272727,
+      "eval_loss": 0.42854008078575134,
+      "eval_runtime": 2.9037,
+      "eval_samples_per_second": 37.882,
+      "eval_steps_per_second": 1.378,
+      "step": 124
+    },
+    {
+      "epoch": 16.774193548387096,
+      "grad_norm": 7.543964385986328,
+      "learning_rate": 3.492063492063492e-05,
+      "loss": 0.2771,
+      "step": 130
+    },
+    {
+      "epoch": 16.903225806451612,
+      "eval_accuracy": 0.8636363636363636,
+      "eval_loss": 0.41505008935928345,
+      "eval_runtime": 2.4017,
+      "eval_samples_per_second": 45.801,
+      "eval_steps_per_second": 1.665,
+      "step": 131
+    },
+    {
+      "epoch": 17.93548387096774,
+      "eval_accuracy": 0.8818181818181818,
+      "eval_loss": 0.3937516510486603,
+      "eval_runtime": 2.4802,
+      "eval_samples_per_second": 44.352,
+      "eval_steps_per_second": 1.613,
+      "step": 139
+    },
+    {
+      "epoch": 18.06451612903226,
+      "grad_norm": 7.334432125091553,
+      "learning_rate": 3.3333333333333335e-05,
+      "loss": 0.2791,
+      "step": 140
+    },
+    {
+      "epoch": 18.967741935483872,
+      "eval_accuracy": 0.8818181818181818,
+      "eval_loss": 0.3853372037410736,
+      "eval_runtime": 3.1616,
+      "eval_samples_per_second": 34.793,
+      "eval_steps_per_second": 1.265,
+      "step": 147
+    },
+    {
+      "epoch": 19.35483870967742,
+      "grad_norm": 9.302658081054688,
+      "learning_rate": 3.1746031746031745e-05,
+      "loss": 0.2939,
+      "step": 150
+    },
+    {
+      "epoch": 20.0,
+      "eval_accuracy": 0.8636363636363636,
+      "eval_loss": 0.4061141610145569,
+      "eval_runtime": 2.3733,
+      "eval_samples_per_second": 46.349,
+      "eval_steps_per_second": 1.685,
+      "step": 155
+    },
+    {
+      "epoch": 20.64516129032258,
+      "grad_norm": 4.140163898468018,
+      "learning_rate": 3.0158730158730158e-05,
+      "loss": 0.2651,
+      "step": 160
+    },
+    {
+      "epoch": 20.903225806451612,
+      "eval_accuracy": 0.8545454545454545,
+      "eval_loss": 0.44339340925216675,
+      "eval_runtime": 2.3755,
+      "eval_samples_per_second": 46.306,
+      "eval_steps_per_second": 1.684,
+      "step": 162
+    },
+    {
+      "epoch": 21.93548387096774,
+      "grad_norm": 4.322032928466797,
+      "learning_rate": 2.857142857142857e-05,
+      "loss": 0.2462,
+      "step": 170
+    },
+    {
+      "epoch": 21.93548387096774,
+      "eval_accuracy": 0.8909090909090909,
+      "eval_loss": 0.3812616765499115,
+      "eval_runtime": 2.8623,
+      "eval_samples_per_second": 38.431,
+      "eval_steps_per_second": 1.397,
+      "step": 170
+    },
+    {
+      "epoch": 22.967741935483872,
+      "eval_accuracy": 0.8818181818181818,
+      "eval_loss": 0.40069419145584106,
+      "eval_runtime": 2.3779,
+      "eval_samples_per_second": 46.259,
+      "eval_steps_per_second": 1.682,
+      "step": 178
+    },
+    {
+      "epoch": 23.225806451612904,
+      "grad_norm": 5.801928520202637,
+      "learning_rate": 2.6984126984126984e-05,
+      "loss": 0.2277,
+      "step": 180
+    },
+    {
+      "epoch": 24.0,
+      "eval_accuracy": 0.8727272727272727,
+      "eval_loss": 0.37841716408729553,
+      "eval_runtime": 3.0601,
+      "eval_samples_per_second": 35.946,
+      "eval_steps_per_second": 1.307,
+      "step": 186
+    },
+    {
+      "epoch": 24.516129032258064,
+      "grad_norm": 6.182375907897949,
+      "learning_rate": 2.5396825396825397e-05,
+      "loss": 0.2289,
+      "step": 190
+    },
+    {
+      "epoch": 24.903225806451612,
+      "eval_accuracy": 0.8636363636363636,
+      "eval_loss": 0.36822086572647095,
+      "eval_runtime": 2.3639,
+      "eval_samples_per_second": 46.533,
+      "eval_steps_per_second": 1.692,
+      "step": 193
+    },
+    {
+      "epoch": 25.806451612903224,
+      "grad_norm": 5.690340518951416,
+      "learning_rate": 2.380952380952381e-05,
+      "loss": 0.2518,
+      "step": 200
+    },
+    {
+      "epoch": 25.93548387096774,
+      "eval_accuracy": 0.8636363636363636,
+      "eval_loss": 0.42345187067985535,
+      "eval_runtime": 2.3856,
+      "eval_samples_per_second": 46.111,
+      "eval_steps_per_second": 1.677,
+      "step": 201
+    },
+    {
+      "epoch": 26.967741935483872,
+      "eval_accuracy": 0.8727272727272727,
+      "eval_loss": 0.4013482928276062,
+      "eval_runtime": 3.0149,
+      "eval_samples_per_second": 36.485,
+      "eval_steps_per_second": 1.327,
+      "step": 209
+    },
+    {
+      "epoch": 27.096774193548388,
+      "grad_norm": 4.664611339569092,
+      "learning_rate": 2.2222222222222223e-05,
+      "loss": 0.1961,
+      "step": 210
+    },
+    {
+      "epoch": 28.0,
+      "eval_accuracy": 0.8727272727272727,
+      "eval_loss": 0.37050673365592957,
+      "eval_runtime": 2.3916,
+      "eval_samples_per_second": 45.995,
+      "eval_steps_per_second": 1.673,
+      "step": 217
+    },
+    {
+      "epoch": 28.387096774193548,
+      "grad_norm": 3.5286619663238525,
+      "learning_rate": 2.0634920634920636e-05,
+      "loss": 0.2316,
+      "step": 220
+    },
+    {
+      "epoch": 28.903225806451612,
+      "eval_accuracy": 0.8727272727272727,
+      "eval_loss": 0.3901243507862091,
+      "eval_runtime": 2.8269,
+      "eval_samples_per_second": 38.911,
+      "eval_steps_per_second": 1.415,
+      "step": 224
+    },
+    {
+      "epoch": 29.677419354838708,
+      "grad_norm": 3.580972194671631,
+      "learning_rate": 1.9047619047619046e-05,
+      "loss": 0.1802,
+      "step": 230
+    },
+    {
+      "epoch": 29.93548387096774,
+      "eval_accuracy": 0.8636363636363636,
+      "eval_loss": 0.4016783535480499,
+      "eval_runtime": 2.4102,
+      "eval_samples_per_second": 45.64,
+      "eval_steps_per_second": 1.66,
+      "step": 232
+    },
+    {
+      "epoch": 30.967741935483872,
+      "grad_norm": 5.339540481567383,
+      "learning_rate": 1.746031746031746e-05,
+      "loss": 0.1711,
+      "step": 240
+    },
+    {
+      "epoch": 30.967741935483872,
+      "eval_accuracy": 0.8454545454545455,
+      "eval_loss": 0.40803027153015137,
+      "eval_runtime": 2.3509,
+      "eval_samples_per_second": 46.791,
+      "eval_steps_per_second": 1.701,
+      "step": 240
+    },
+    {
+      "epoch": 32.0,
+      "eval_accuracy": 0.8636363636363636,
+      "eval_loss": 0.37732693552970886,
+      "eval_runtime": 3.1157,
+      "eval_samples_per_second": 35.305,
+      "eval_steps_per_second": 1.284,
+      "step": 248
+    },
+    {
+      "epoch": 32.25806451612903,
+      "grad_norm": 5.180632591247559,
+      "learning_rate": 1.5873015873015872e-05,
+      "loss": 0.1885,
+      "step": 250
+    },
+    {
+      "epoch": 32.903225806451616,
+      "eval_accuracy": 0.8727272727272727,
+      "eval_loss": 0.3668518662452698,
+      "eval_runtime": 2.3934,
+      "eval_samples_per_second": 45.959,
+      "eval_steps_per_second": 1.671,
+      "step": 255
+    },
+    {
+      "epoch": 33.54838709677419,
+      "grad_norm": 4.732351779937744,
+      "learning_rate": 1.4285714285714285e-05,
+      "loss": 0.1784,
+      "step": 260
+    },
+    {
+      "epoch": 33.935483870967744,
+      "eval_accuracy": 0.8636363636363636,
+      "eval_loss": 0.4083550274372101,
+      "eval_runtime": 2.7042,
+      "eval_samples_per_second": 40.677,
+      "eval_steps_per_second": 1.479,
+      "step": 263
+    },
+    {
+      "epoch": 34.83870967741935,
+      "grad_norm": 4.103294372558594,
+      "learning_rate": 1.2698412698412699e-05,
+      "loss": 0.18,
+      "step": 270
+    },
+    {
+      "epoch": 34.96774193548387,
+      "eval_accuracy": 0.8636363636363636,
+      "eval_loss": 0.42064914107322693,
+      "eval_runtime": 2.3974,
+      "eval_samples_per_second": 45.884,
+      "eval_steps_per_second": 1.668,
+      "step": 271
+    },
+    {
+      "epoch": 36.0,
+      "eval_accuracy": 0.8636363636363636,
+      "eval_loss": 0.4106072187423706,
+      "eval_runtime": 2.3253,
+      "eval_samples_per_second": 47.306,
+      "eval_steps_per_second": 1.72,
+      "step": 279
+    },
+    {
+      "epoch": 36.12903225806452,
+      "grad_norm": 5.152451515197754,
+      "learning_rate": 1.1111111111111112e-05,
+      "loss": 0.1752,
+      "step": 280
+    },
+    {
+      "epoch": 36.903225806451616,
+      "eval_accuracy": 0.8727272727272727,
+      "eval_loss": 0.41326773166656494,
+      "eval_runtime": 3.0981,
+      "eval_samples_per_second": 35.506,
+      "eval_steps_per_second": 1.291,
+      "step": 286
+    },
+    {
+      "epoch": 37.41935483870968,
+      "grad_norm": 5.882301330566406,
+      "learning_rate": 9.523809523809523e-06,
+      "loss": 0.1778,
+      "step": 290
+    },
+    {
+      "epoch": 37.935483870967744,
+      "eval_accuracy": 0.8727272727272727,
+      "eval_loss": 0.41836193203926086,
+      "eval_runtime": 2.3256,
+      "eval_samples_per_second": 47.299,
+      "eval_steps_per_second": 1.72,
+      "step": 294
+    },
+    {
+      "epoch": 38.70967741935484,
+      "grad_norm": 6.89911413192749,
+      "learning_rate": 7.936507936507936e-06,
+      "loss": 0.1633,
+      "step": 300
+    },
+    {
+      "epoch": 38.96774193548387,
+      "eval_accuracy": 0.8636363636363636,
+      "eval_loss": 0.4235934615135193,
+      "eval_runtime": 2.375,
+      "eval_samples_per_second": 46.316,
+      "eval_steps_per_second": 1.684,
+      "step": 302
+    },
+    {
+      "epoch": 40.0,
+      "grad_norm": 8.095017433166504,
+      "learning_rate": 6.349206349206349e-06,
+      "loss": 0.1621,
+      "step": 310
+    },
+    {
+      "epoch": 40.0,
+      "eval_accuracy": 0.8727272727272727,
+      "eval_loss": 0.4168175756931305,
+      "eval_runtime": 2.4838,
+      "eval_samples_per_second": 44.287,
+      "eval_steps_per_second": 1.61,
+      "step": 310
+    },
+    {
+      "epoch": 40.903225806451616,
+      "eval_accuracy": 0.8727272727272727,
+      "eval_loss": 0.4186895787715912,
+      "eval_runtime": 2.3335,
+      "eval_samples_per_second": 47.14,
+      "eval_steps_per_second": 1.714,
+      "step": 317
+    },
+    {
+      "epoch": 41.29032258064516,
+      "grad_norm": 9.642603874206543,
+      "learning_rate": 4.7619047619047615e-06,
+      "loss": 0.1497,
+      "step": 320
+    },
+    {
+      "epoch": 41.935483870967744,
+      "eval_accuracy": 0.8727272727272727,
+      "eval_loss": 0.4140172302722931,
+      "eval_runtime": 3.1187,
+      "eval_samples_per_second": 35.271,
+      "eval_steps_per_second": 1.283,
+      "step": 325
+    },
+    {
+      "epoch": 42.58064516129032,
+      "grad_norm": 4.230076789855957,
+      "learning_rate": 3.1746031746031746e-06,
+      "loss": 0.1434,
+      "step": 330
+    },
+    {
+      "epoch": 42.96774193548387,
+      "eval_accuracy": 0.8909090909090909,
+      "eval_loss": 0.41179314255714417,
+      "eval_runtime": 2.3523,
+      "eval_samples_per_second": 46.763,
+      "eval_steps_per_second": 1.7,
+      "step": 333
+    },
+    {
+      "epoch": 43.87096774193548,
+      "grad_norm": 6.496473789215088,
+      "learning_rate": 1.5873015873015873e-06,
+      "loss": 0.1802,
+      "step": 340
+    },
+    {
+      "epoch": 44.0,
+      "eval_accuracy": 0.8818181818181818,
+      "eval_loss": 0.412504106760025,
+      "eval_runtime": 2.5036,
+      "eval_samples_per_second": 43.937,
+      "eval_steps_per_second": 1.598,
+      "step": 341
+    },
+    {
+      "epoch": 44.903225806451616,
+      "eval_accuracy": 0.8727272727272727,
+      "eval_loss": 0.4124238193035126,
+      "eval_runtime": 2.3607,
+      "eval_samples_per_second": 46.596,
+      "eval_steps_per_second": 1.694,
+      "step": 348
+    },
+    {
+      "epoch": 45.16129032258065,
+      "grad_norm": 3.4616761207580566,
+      "learning_rate": 0.0,
+      "loss": 0.1576,
+      "step": 350
+    },
+    {
+      "epoch": 45.16129032258065,
+      "eval_accuracy": 0.8727272727272727,
+      "eval_loss": 0.4122399687767029,
+      "eval_runtime": 3.667,
+      "eval_samples_per_second": 29.997,
+      "eval_steps_per_second": 1.091,
+      "step": 350
+    },
+    {
+      "epoch": 45.16129032258065,
+      "step": 350,
+      "total_flos": 1.1015215348522291e+18,
+      "train_loss": 0.49926152706146243,
+      "train_runtime": 2076.2527,
+      "train_samples_per_second": 23.624,
+      "train_steps_per_second": 0.169
+    }
+  ],
+  "logging_steps": 10,
+  "max_steps": 350,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 50,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 1.1015215348522291e+18,
+  "train_batch_size": 32,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:bdb175a7821bbf3b38b17d55bddecd7ca85e70524b057dfe72f177c71f12839a
+size 5240